Depuis l’explosion du big data, de grands volumes de données ont été récoltés par les entreprises du numérique. Cependant, comme le dit l'expression célèbre dans le milieu de l'informatique : Garbage In, Garbage Out, les informations qu'une entreprise peut tirer des données ne sont bonnes que si les données le sont elles-mêmes. Afin de pouvoir exploiter les données correctement, il est très important de s’assurer de leur qualité et de mettre en place des stratégies de Data Quality au sein d’une entreprise.
Quels sont les critères de qualité d’une donnée ?
Il existe de nombreux critères pour évaluer la qualité d’une donnée, mais ceux-ci doivent être cohérents avec la manière dont elle est exploitée. En effet, une entreprise souhaitant proposer des offres promotionnelles à ses clients pour leur anniversaire devra répertorier leur date de naissance alors que l’information « plus ou moins de 18 ans » suffira pour un site de Paris Sportifs interdit au mineur.
Voici les six principes à respecter pour considérer qu’une donnée est de bonne qualité :
- La validité : les données doivent être stockées sans erreurs, fautes de frappes ou de syntaxe.
- La complétude : les données ne doivent pas comporter d’informations manquantes.
- La précision : même si ce critère semble évident, il faut que les données soient correctes. Il faut par exemple faire attention à maintenir une bonne précision des données lorsqu’on veut remplacer des valeurs manquantes.
- La disponibilité : les données sont accessibles facilement et rapidement.
- L’actualité : les données doivent être mises à jour régulièrement pour ne pas être obsolètes.
- La cohérence : chaque variable doit être stockée dans un seul et unique format. Ce critère est rarement respecté lorsque les données proviennent de plusieurs sources.
Mise en place d’une stratégie Data Quality au sein d’une entreprise
Mettre en place une stratégie de Data Quality se décide au niveau de l’entreprise. Le coût initial est non-négligeable, néanmoins il faut garder en tête que les coûts engendrés par des mauvaises données finissent très souvent par être supérieurs à la mise en place de moyens et méthodes de Data Quality. Cette étude datant de 2011 démontre que les coûts associés aux données incorrectes sont toujours supérieurs aux coûts associés à la maintenance de la Data Quality.
Dans le management de la Data Quality, il y a trois piliers principaux :
- La gouvernance des données : L’équipe chargée de la gouvernance doit surveiller l’exactitude des données, leur mise à jour et les procédures en place pour maintenir la qualité. Tout cela doit être adapté en s’interrogeant sur les objectifs importants de l’entreprise. Il faut en effet bien faire l’arbitrage entre le coût d’implémentation des programmes de Data Quality et le coût en termes financiers et de réputation associé à l’utilisation de données de mauvaise qualité. De plus, il faut assurer la sensibilisation des autres membres de l’entreprise à l’importance de la qualité des données.
- La Data Quality Assurance (QA) : Elle permet d’assurer le maintien de la qualité des données au cours du temps grâce à des méthodes et des procédures permettant d’identifier les données incomplètes, inexactes ou incohérentes.
- Le contrôle de la qualité : en aval des méthodes de Data Quality Assurance, l’implémentation de protocoles de contrôle de qualité permet de s’assurer que les données sont exactes et que les bases ne sont pas encombrées de données inutiles. Cela consiste à décider si la donnée est utile, pertinente, mérite d’être exploitée ou bien si elle doit être supprimée. Il s’agit ici de contrôler aussi bien la qualité des données que l’usage qui en est fait par les collaborateurs de l’entreprise.
La démarche de Data Cleaning
La démarche se décompose en 3 étapes principales.
- La première consiste à inspecter les données et se poser les questions suivantes : « D’où viennent ces données ? Comment ces données ont-elles été collectées ? Quels types de fichiers a-t-on ? De quelles tailles ? Quelles sont les caractéristiques présentes ? »
- Dans la deuxième phase de la démarche, les données sont standardisées afin d’assurer leur validité, leur précision et leur cohérence.
- Enfin, la complétude est assurée en gérant les valeurs manquantes et les données textuelles afin de rendre le jeu de données facilement accessible pour des études ultérieures.
Que retenir de la Data Quality ?
Résumons ce que nous avons vu jusqu’à présent.
La mise en place d’une stratégie de Data Quality est indispensable au bon fonctionnement et à la création de valeur dans une entreprise.
Cette stratégie repose sur trois piliers principaux que sont la gouvernance de données, la Data Quality Assurance et le contrôle de la qualité.
Cette stratégie a pour but d’améliorer les six caractéristiques suivantes d’une donnée: sa validité, sa complétude, sa précision, sa disponibilité, son actualité et sa cohérence.
Une gestion optimale de la qualité des données permet ensuite de les utiliser, les manipuler, les analyser en toute sérénité pour développer des modèles de régression, de classification ou tout autre modèle de Machine Learning.
Enfin, si vous voulez mettre en pratique une démarche de Data Quality, n’hésitez pas à rejoindre notre formation Data Manager.