Desde la explosión del Big Data, las empresas digitales han recopilado grandes cantidades de datos. Sin embargo, como dice la famosa expresión informática: Garbage In, Garbage Out, la información que una empresa puede obtener de los datos depende únicamente de la calidad de los propios datos. Para poder utilizar los datos correctamente, es muy importante garantizar su calidad y aplicar estrategias de Data Quality dentro de una empresa.
De hecho, unos datos de mala calidad pueden tener un impacto significativo en la organización y conducir a decisiones empresariales erróneas. Por ejemplo: un alto porcentaje de direcciones de correo electrónico incorrectas en una base de datos tendrá un fuerte impacto negativo en una campaña de marketing.
¿Cuáles son los criterios de calidad de los datos?
Existen muchos criterios para evaluar la calidad de los datos, pero deben ser coherentes con la forma en que se utilizan. Por ejemplo, una empresa que quiera hacer ofertas promocionales a sus clientes el día de su cumpleaños tendrá que registrar su fecha de nacimiento, mientras que la información «mayor o menor de 18 años» bastará para un sitio de apuestas deportivas que prohíba el acceso a menores.
Estos son los seis principios que deben respetarse para considerar que un dato es de buena calidad:
- Validez: los datos deben almacenarse sin errores, erratas o fallos de sintaxis.
- Integridad: los datos tienen que estar completos.
- Exactitud: aunque este criterio parezca evidente, los datos deben ser correctos. Por ejemplo, debe procurarse mantener una buena precisión de los datos cuando se sustituyan los valores que faltan.
- Disponibilidad: los datos deben ser de fácil y rápido acceso.
- Actualización: los datos deben actualizarse periódicamente para evitar su obsolescencia.
- Coherencia: cada variable debe almacenarse en un formato único. Este criterio rara vez se cumple cuando los datos proceden de varias fuentes.
Implantación de una estrategia de Data Quality en una empresa
La implantación de una estrategia de Data Quality se decide en el ámbito de la empresa. El coste inicial es importante, pero hay que tener en cuenta que los costes que generan los datos defectuosos suelen ser superiores a los costes de implantación de métodos y recursos de Data Quality. Este estudio de 2011 muestra que los costes asociados a los datos incorrectos son siempre superiores a los costes asociados al mantenimiento de la Data Quality.
En la gestión de la Data Quality, hay tres pilares principales:
- Gobernanza de datos: El equipo de gestión debe supervisar la exactitud de los datos, su actualización y los procedimientos establecidos para mantener la calidad. Todo ello debe adaptarse teniendo en cuenta los objetivos importantes de la empresa. Hay que sopesar cuidadosamente la compensación entre el coste de implantar programas de Data Quality y los costes financieros y de reputación asociados al uso de datos de mala calidad. Además, es importante asegurarse de que los demás miembros de la empresa son conscientes de la importancia de la calidad de los datos.
- Data Quality Assurance (QA): garantiza que se mantiene la calidad de los datos a lo largo del tiempo mediante el uso de métodos y procedimientos para identificar datos incompletos, inexactos o incoherentes.
- Control de calidad: antes de los procesos de Data Quality Assurance, la aplicación de protocolos de control de calidad garantiza que los datos sean precisos y que las bases de datos no estén saturadas de datos innecesarios. Se trata de decidir si los datos son útiles, pertinentes, si merece la pena utilizarlos o si deben suprimirse. Se trata de controlar tanto la calidad de los datos como el uso que hacen de ellos los empleados de la empresa.
El proceso de Data Cleaning
El proceso consta de 3 etapas principales.
- El primer paso consiste en inspeccionar los datos y plantearse las siguientes preguntas: «¿De dónde proceden estos datos? ¿Cómo se han recogido los datos? ¿Qué tipos de archivos tenemos? ¿De qué tamaño? ¿Qué características presentan?
- En la segunda fase del proceso, los datos se estandarizan para garantizar su validez, exactitud y coherencia.
- Por último, se garantiza la exactitud gestionando los valores que faltan y los datos textuales para que el conjunto de datos sea fácilmente accesible para estudios posteriores.
¿Qué podemos aprender de la Data Quality?
Resumamos lo que hemos visto hasta ahora.
La puesta en marcha de una estrategia de Data Quality es esencial para el buen funcionamiento y la creación de valor de una empresa.
Esta estrategia se basa en tres pilares fundamentales: la gestión de datos, la Data Quality Assurance y el control de calidad.
El objetivo de esta estrategia es mejorar las siguientes seis características de los datos: validez, integridad, exactitud, disponibilidad, actualización y coherencia.
Una gestión óptima de la calidad de los datos permite utilizarlos, manipularlos y analizarlos con total tranquilidad para desarrollar modelos de regresión, clasificación u otros modelos de Machine Learning.
Por último, si deseas poner en práctica el método de Data Quality, no dudes en apuntarte a nuestro curso de Data Manager.