Le Data Mesh est une architecture de données, permettant de simplifier la collaboration et le self-service. Découvrez ce nouveau paradigme, de plus en plus adopté en entreprise pour ses nombreux avantages.
De nombreuses entreprises utilisent le Big Data. En exploitant les données grâce à l’analyse, il est possible de prendre de meilleures décisions. Toutefois, l’architecture Data d’une organisation n’est pas toujours optimisée.
Afin de révéler tout le potentiel des données, les Data Scientists ont besoin de pouvoir mener des requêtes et explorer les données de façon fluide. Souvent, une Data Warehouse ou un Data Lake en silo n’offre que des capacités limitées et ne répond pas aux besoins.
Le paradigme d’architecture Data Mesh remédie à ces problèmes. C’est la raison pour laquelle il est massivement adopté dans toutes les industries, à un rythme foudroyant.
Qu'est-ce qu'un Data Mesh ?
Dans le monde de l’ingénierie logicielle, les équipes sont passés des applications monolithiques aux architectures de microservice. Pour faire simple, la Data Mesh est l’équivalent des microservices pour la Data.
Le terme de Data Mesh fut évoqué pour la première fois par Zhamak Dehghani, consultant chez ThoughtWorks. Ce type d’architecture de plateforme de données embrasse l’ubiquité des données en exploitant une approche » self-service » et orientée domaine.
Conformément à la théorie du design « domain-driven » de Eric Evans, l’idée est d’associer la structure et le langage du code au domaine de l’entreprise. Pour beaucoup, le Data Mesh est le prochain » shift » architectural du Big Data.
Les infrastructures de données traditionnelles monolithiques regroupent la consommation, le stockage, la transformation des données dans un Data Lake central. Ce n’est pas le cas du Data Mesh, au sein duquel chaque domaine prend en charge son propre pipeline de données. Une couche d’interopérabilité universelle exploitant la même syntaxe et les mêmes standards de données permet de connecter les données des différents domaines.
La Data Mesh repose sur plusieurs concepts clés. Tout d’abord, la » propriété des données » est partagée entre différents » data owners » orientés domaines. Chacun est tenu responsable de ses données en tant que produits. Ils doivent aussi faciliter la communication entre les données distribuées entre différents emplacements.
L’infrastructure de données est chargée de fournir à chaque domaine les solutions requises pour les traiter, mais les domaines ont pour rôle de gérer l’ingestion, le nettoyage et l’agrégation des données pour générer des éléments pouvant être utilisés par les applications de Business Intelligence.
Chaque domaine détient et gère ses pipelines ETL, à l’exception d’un ensemble de capacités appliquées à tous les domaines pour stocker, cataloguer et maintenir les contrôles d’accès aux données brutes. Lorsque les données ont été transformées par un domaine, les propriétaires peuvent exploiter les données pour leurs besoins en analyse.
Le self-service est une autre spécificité du Data Mesh. Les principes de design orienté domaine sont exploités pour délivrer une plateforme self-service permettant aux utilisateurs de se soulager de la complexité technique pour se focaliser sur leurs cas d’usage individuels des données.
Une plateforme centrale prend en charge les moteurs de pipelines de données, le stockage et l’infrastructure de streaming. Chaque domaine est responsable d’exploiter ces composants pour lancer des pipelines ETL adaptés à ses besoins. Cette approche évite d’avoir à multiplier les efforts et les compétences requises pour maintenir les pipelines et infrastructures de données, et offre une autonomie aux équipes.
Enfin, l’interopérabilité est assurée par un ensemble de standards universels facilitant la collaboration entre les domaines. Les formats de données, la gouvernance, la découvrabilité ou les champs de métadonnées doivent être standardisés pour permettre la collaboration entre les différents domaines autour des données.
Pourquoi utiliser un Data Mesh ?
Jusqu’à présent, de nombreuses entreprises utilisaient un Data Warehouse unique connecté à de nombreuses plateformes de Business Intelligence. Un petit groupe de spécialistes étaient chargés de maintenir ces solutions.
Toutefois, la mode est désormais aux architectures de Data Lake offrant une disponibilité des données en temps réel et un traitement en streaming. Le but étant d’ingérer, d’enrichir, de transformer et de livrer des données en provenance d’une plateforme centralisée.
Ce type d’architecture présente toutefois des points faibles. Un pipeline ETL central offre moins de contrôle sur les volumes de données en hausse, et cette approche ne prend pas non plus en compte les spécificités des différents types de données.
Les architectures » domain-oriented » comme les Data Meshes offrent le meilleur des deux mondes. Elle combine une base de données ou un Data Lake centralisé, avec des domaines ou départements de l’entreprises responsables de la gestion de leurs propres pipelines. Il est beaucoup plus simple d’étendre un Data Mesh puisqu’il est possible de le décomposer en composants orientés domaine de moindre envergure.
Quand adopter l'approche Data Mesh ?
Le Data Mesh peut se révéler particulièrement pertinent pour les équipes devant gérer un large volume de sources de données et les traiter rapidement.
Le choix de l’architecture de données dépend de plusieurs facteurs dont la quantité de sources de données, la taille de l’équipe, le nombre de domaines de données, les barrières auxquelles est confrontée l’équipe de Data Engineering, et l’importance de la Data Governance au sein de l’organisation.
Plus les besoins en infrastructure de données sont importants et complexes au sein de l’entreprise, plus il est probable qu’une Data Mesh soit bénéfique. Cette architecture améliore aussi l’observabilité des données en self-service.
Comment se former au Data Mesh ?
Maîtriser les différentes Data Architectures est très important pour les métiers de la Data Science. Pour apprendre à connaître et implémenter les principes du Data Mesh, vous pouvez choisir les formations DataScientest.
Nos différents programmes vous permettront de découvrir l’architecture Data Mesh, et d’acquérir toutes les compétences pour devenir Data Scientist, Data Engineer ou encore Data Analyst : bases de données, Data Visualization, programmation en Python, Machine Learning…
Toutes nos formations sont proposées en mode BootCamp intensif, ou en Formation Continue. En fonction de vos besoins et de vos disponibilités, vous pouvez choisir l’approche qui vous convient. Nos parcours sont accessibles aussi bien aux actifs qu’aux demandeurs d’emploi et aux étudiants.
Les programmes sont conçus par des experts, et notre approche » Blended Learning » repose sur une plateforme coachée en SaaS et sur des Masterclass. En fin de formation, vous recevrez un certificat délivré par MINES ParisTech et Dauphine PSL. Parmi nos alumnis, 80% ont trouvé un emploi immédiatement.
Pour le financement, nos formations sont éligibles au Compte Personnel de Formation. Ne perdez plus un instant, et découvrez les formations DataScientest.
Vous savez tout sur le Data Mesh. Découvrez notre dossier sur la Data Architecture et notre introduction aux bases de données.