Métadonnées : Qu’est-ce que c’est ? À quoi ça sert ?

-
3
 m de lecture
-

La multiplication des données rend nécessaire l’implémentation d’une stratégie de data management. Parmi les méthodes éprouvées pour gérer efficacement les jeux de données les plus volumineux, il y a les métadonnées. Alors de quoi s’agit-il ? À quoi servent ces données de la donnée ? Quels sont les différents types de métadata ? Et comment les utiliser correctement ? DataScientest répond à vos questions.

Que sont les métadonnées ?

Définition

Les métadonnées décrivent les caractéristiques principales d’un dataset ou d’une donnée. telles que l’auteur de la donnée, sa date de création, le rôle de la donnée, etc.  L’objectif étant de donner plus de contexte aux datas ou de fournir des instructions sur leur traitement. 

Ce faisant, les métadonnées simplifient l’identification des données pertinentes, et donc leur réutilisation. À ce titre, elles s’intègrent parfaitement dans une stratégie de data gouvernance.

Données vs métadonnées

Les métadonnées sont généralement décrites comme les données à propos des données. 

Mais alors comment distinguer les deux ? 

Dans les deux cas, il s’agit de données. Cela dit, les enjeux sont différents. 

En effet, les données primaires réelles (celles sur lesquelles portent les métadonnées) ont un intérêt d’un point de vue business, scientifiques, informatiques, marketing… À ce titre, certaines d’entre elles peuvent être classées comme étant confidentielles. 

À l’inverse, les métadonnées ont simplement pour objectif de faciliter le traitement de la donnée. Elles n’ont donc pas autant besoin d’être protégées. 

À titre d’exemple, nous pouvons utiliser la métaphore de la lettre envoyée par LaPoste. Le contenu à l’intérieur de l’enveloppe correspond aux données primaires réelles. Il ne concerne que l’émetteur et le destinataire. Et à priori, personne d’autre n’est censé y avoir accès. 

En revanche, le contenu sur l’enveloppe (comme l’adresse, le nom du destinataire ou encore la date d’envoi) correspond aux métadonnées. Il facilite la transmission de l’information, sans pour autant poser le moindre souci en termes de confidentialité.

À quoi servent les métadonnées ?

Si les métadonnées simplifient le traitement des données, elles peuvent servir différents objectifs plus grands, tels que : 

  • Limiter le risque de pertes de données : notamment en donnant du contexte aux données. L’idée est alors de décrire le processus de création de la data (pourquoi et comment a-t-elle été créée ?). Ainsi, en cas de perte, il sera plus facile de les recréer. 
  • Faciliter la recherche de données : grâce aux balises méta, les utilisateurs peuvent plus facilement rechercher les informations dont ils ont besoin à un instant T. Par exemple, en identifiant la date de la donnée, le type de donnée (image, vidéo, fichier…). 
  • Favoriser les connexions entre les données : en associant certains mots clés à vos données, il sera plus facile de regrouper les données traitant de la même thématique.

Bon à savoir : Au vu de leur importance (d’autant plus dans un contexte Big data), il est primordial de créer des métadonnées pour l’ensemble de vos datasets. Et ce, le plus tôt possible dans sa production. Car si vous attendez trop longtemps pour créer les métadonnées, vous risquez d’avoir une charge de travail extrêmement lourde. 

Toutefois rassurez-vous, il existe de plus en plus de plateformes visant à automatiser la génération des métadonnées.

Quels sont les différents types de métadonnées ?

À l’image de la diversité de données, il existe une grande diversité de métadonnées. Nous pouvons les regrouper en 6 grandes familles : 

  • Les métadonnées descriptives : l’objectif est alors de faciliter la recherche et la compréhension des données primaires. Par exemple, en présentant le format du contenu, le titre d’une image, l’auteur d’un document, la langue utilisée dans une vidéo. Sachez que pour chaque type de donnée, les métadonnées descriptives peuvent varier. 
  • Les métadonnées de provenance : il s’agit d’identifier l’origine de la donnée et ses modifications au fil du temps.
  • Les métadonnées techniques : l’idée est d’identifier les outils utilisés pour lire la donnée. Par exemple, pour les images, ce peut être un format JPEG, PNG, etc. Ces informations favorisent alors l’interopérabilité des données entre différents systèmes. 
  • Les métadonnées de droits et d’accès : ce sont les statuts des droits d’auteur, les conditions de licence ou encore les titulaires des droits. Cela permet de savoir qui a accès aux informations ou non. 
  • Les métadonnées de préservation : là encore, il s’agit de retranscrire l’historique des données. 
  • Les métadonnées de citation : si les données doivent être utilisées par des tiers.

Comment utiliser les métadonnées ?

Pour faciliter l’utilisation et la réutilisation des données, les métadonnées doivent être à la fois complètes et lisibles par tous. 

C’est justement pour cette raison que plusieurs standards de métadonnées ont été créés. Voici les plus connus : 

  • Dublin Core ou DCMI : c’est sans doute le standard le plus populaire. À  l’origine, il était surtout utilisé pour décrire les informations relatives aux ouvrages. Aujourd’hui, il s’applique à une grande diversité de données. 
  • Darwin Core : ce standard est surtout utilisé dans le cadre de la bioinformatique. 
  • Data Documentation Initiative (DDI) : c’est le standard international pour les données issues des sondages et autres méthodes d’observations sociales.

D’autres standards existent en fonction des spécificités de chaque jeu de données et de chaque discipline. Si vous souhaitez trouver d’autres standards de métadonnées, n’hésitez pas à consulter le site du Digital Curation Centre (DCC)

Quel qu’il  soit, chaque standard propose des schémas de métadonnées avec des éléments obligatoires et/ou facultatifs, ainsi qu’une description de la syntaxe.

Apprenez à gérer les méta données avec DataScientest

À mesure que les volumes de données, la gestion des métadonnées devient un enjeu de premier ordre pour les organisations. C’est pourquoi, elles font de plus en plus appel à des responsables data gouvernance. Mais ce métier nécessite des compétences techniques poussées qui ne peuvent s’acquérir qu’à travers une formation. Et notamment celle de DataScientest. Découvrez nos formations.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?