En el mundo real, los conjuntos de datos perfectamente completos son la excepción. Ya sea durante la entrada manual, la extracción automática o la fusión de varias fuentes, los datos faltantes son omnipresentes. Mal gestionados, pueden distorsionar los análisis, reducir el rendimiento de los modelos e introducir sesgos importantes.
Comprender la naturaleza y los mecanismos detrás de estas ausencias es, por lo tanto, esencial. Porque si ignorar los datos faltantes es tentador, a menudo equivale a ignorar una parte significativa del problema.
En este artículo, vamos a explorar en detalle cómo identificar, categorizar y tratar los datos faltantes en data science. También abordaremos los criterios para elegir un método de imputación y las buenas prácticas para minimizar su impacto.
Comprender la naturaleza de los datos faltantes
Definición e identificación de los datos faltantes
Un dato faltante corresponde a una ausencia de valor en una celda de un conjunto de datos. Puede ser representado por NaN, None, una celda vacía o indicadores como «N/A».
Para identificarlos, existen varias herramientas:
- Exploración visual: Bibliotecas como missingno (Python) permiten visualizar los patrones de valores faltantes (ej. heatmaps, matrices).
- Funciones descriptivas: en Python, .isnull().sum() en un DataFrame de Pandas da el número de valores faltantes por columna.
¿Por qué faltan los datos? Los mecanismos de pérdida
Entender por qué falta un dato es fundamental. Clásicamente se distinguen tres mecanismos:
- MCAR (Falta Completamente Aleatoria): La probabilidad de que un valor esté faltando es independiente de todas las demás variables.
Ejemplo: una falla aleatoria durante la recolección de datos. - MAR (Falta Aleatoria): La ausencia depende de otras variables observadas, pero no del valor faltante en sí.
Ejemplo: los hombres responden menos a menudo a una pregunta sobre depresión que las mujeres — la ausencia depende del género. - MNAR (Falta No Aleatoria): La ausencia depende del valor faltante en sí o de un factor no observado.
Ejemplo: los ingresos muy altos rara vez se declaran — es el valor en sí mismo el que influye en la falta.
Impacto de los diferentes tipos de falta
El tipo de mecanismo influye profundamente en la estrategia de tratamiento. Si MCAR permite tratamientos simples, MAR y MNAR requieren métodos más complejos, incluso específicos del dominio.
Estrategias de tratamiento de los datos faltantes
1. Eliminación de datos faltantes
- Eliminación por lista
Este método consiste en eliminar todas las filas de un conjunto de datos que contengan al menos un valor faltante. Es comúnmente utilizado porque es simple de implementar.
- Eliminación por pares
Este enfoque consiste en utilizar todos los datos disponibles para cada análisis específico, sin necesariamente excluir una línea completa. Por ejemplo, una correlación entre dos variables solo utilizará las observaciones para las cuales están presentes esas dos variables.
- Eliminación de variables
Este método consiste en eliminar una columna completa si el porcentaje de valores faltantes es demasiado alto (a menudo >50 %). Puede ser pertinente cuando la variable en cuestión es difícil de recuperar o de poca utilidad.
Método | Ventajas | Inconvenientes |
---|---|---|
Eliminación por lista | – Fácil de implementar – No introduce datos artificiales |
– Pérdida significativa de información si los datos no son MCAR – Riesgo de sesgo |
Eliminación por pares | – Conserva más datos – Menos destructiva |
– Resultados difíciles de interpretar – Matrices estadísticas inestables |
Eliminación de variables | – Limpieza rápida – Reducción de la dimensionalidad |
– Riesgo de eliminar una variable relevante |
2. Imputación simple
- Imputación por Media, Mediana o Moda
Este enfoque reemplaza los valores faltantes por medidas de tendencia central. La media y la mediana se utilizan para las variables numéricas, mientras que la moda se aplica tanto a variables categóricas como numéricas.
- Imputación por un Valor Constante o Indicador Binario
Un valor arbitrario (como -1 o «Desconocido») se utiliza para reemplazar los datos faltantes. A veces, se añade una nueva variable binaria para indicar si el valor original está faltante.
Método | Ventajas | Inconvenientes |
---|---|---|
Media / Mediana / Moda | – Fácil y rápido – Bajo coste computacional |
– Reduce la varianza – Puede distorsionar la distribución y las correlaciones |
Valor constante / Indicador | – Conserva la información sobre la ausencia – Compatible con ciertos modelos |
– Puede introducir sesgos – Sensible a la elección arbitraria del valor imputado |
3. Imputación avanzada
- Imputación por Regresión
Se trata de predecir el valor faltante utilizando un modelo de regresión que utiliza las otras variables del conjunto de datos como predictores.
- Imputación por k-Vecinos Más Cercanos (k-NN)
Los valores faltantes se imputan tomando el promedio de las k observaciones más similares, medidas a través de una distancia entre variables observadas.
Método | Ventajas | Inconvenientes |
---|---|---|
Regresión | – Aprovecha las relaciones entre variables | – Riesgo de sesgo si se violan los supuestos – Puede sobreestimar la relación entre variables |
k-Vecinos más cercanos (k-NN) | – Captura relaciones complejas – Adecuado para datos numéricos y mixtos |
– Alto coste computacional – Sensible a la elección de k y de la métrica |
Elegir la estrategia correcta y evaluar su impacto
Factores clave para la selección de un método
La selección de un método para tratar los datos faltantes depende de varios factores. Primero, la naturaleza de las variables (numéricas, categóricas o mixtas) orienta la elección de las técnicas: algunos métodos como la imputación por media o regresión se aplican principalmente a variables numéricas, mientras que la moda o valores constantes son adecuados para variables categóricas.
La tasa de valores faltantes también es crucial: por debajo del 5 %, los enfoques simples pueden ser suficientes, pero por encima del 20 %, se vuelve arriesgado eliminar datos o usar imputaciones ingenuas.
Además, es importante preguntarse si una variable realmente tiene un impacto en el objetivo o en los análisis en curso. Si una variable presenta muchos datos faltantes y no aporta información útil, a menudo es preferible eliminarla. Esto permite evitar un tratamiento costoso e innecesario, simplificando al mismo tiempo el modelo o las visualizaciones. Este enfoque es particularmente pertinente cuando los análisis exploratorios o pruebas de correlación muestran que la variable está débilmente relacionada con las demás.
Una vez aplicada la metodología, es indispensable evaluar su impacto: comparar las distribuciones de las variables antes/después de la imputación, medir el rendimiento del modelo mediante validación cruzada y realizar un análisis de sensibilidad probando varias estrategias para verificar la robustez de los resultados.
Conclusión
La gestión de datos faltantes es un desafío ineludible en data science. Entender sus orígenes, identificar su naturaleza, elegir el método correcto de imputación y evaluar su impacto son etapas críticas para asegurar la fiabilidad de los análisis.
En lugar de buscar una solución única, a menudo es preferible probar varios enfoques adaptados al contexto específico. Con la evolución de las herramientas y técnicas, la gestión de datos faltantes se vuelve cada vez más refinada e integrada en la pipeline de tratamiento.
Adoptar un enfoque riguroso, transparente e informado sigue siendo la clave para enfrentar este desafío central.