La Data Mesh es una arquitectura de datos que permite simplificar la colaboración y el self-service. Descubre este nuevo paradigma cada vez más usado en las empresas por sus múltiples ventajas.
Una gran cantidad de empresas utilizan hoy el Big Data. Explotando datos gracias al análisis de datos, se pueden tomar mejores decisiones. Sin embargo, la arquitectura de datos de las organizaciones no siempre se encuentra optimizada.
Para revelar todo el potencial de los datos, los Data Scientist necesitan poder realizar búsquedas y explotar los datos de manera fluida. Frecuentemente, un Data Warehouse o un Data Lake en silo ofrecen capacidades limitadas que no responden precisamente a las necesidades de la empresa.
El paradigma de la arquitectura Data Mesh viene a resolver estos problemas. Es la razón por la cual cada vez más empresas de todas las industrias lo están adoptando a ritmo acelerado.
¿Qué es la Data Mesh?
En el mundo de la ingeniería en sistemas, los equipos han pasado de las aplicaciones monolíticas a las arquitecturas de microservicios. En simples palabras, la Data Mesh es el equivalente a los microservicios de Data.
El término Data Mesh fue evocado por primera vez por Zhamak Dehghani, consultor en ThoughtWorks. Este tipo de arquitectura de plataforma de datos abarca la ubicuidad de los datos explotando un enfoque de autoservicio y orientado al dominio.
Según la teoría del diseño “domain-driven” de Eric Evans, la idea es asociar la estructura y el lenguaje del código al campo de la empresa. Para muchos, la Data Mesh es el próximo salto arquitectural del Big Data.
Las infraestructuras de datos tradicionales monolíticas agrupan el consumo, el almacenamiento, la transformación de datos en un Data Lake central. Este no es el caso de la Data Mesh, dentro de la cual cada sector está a cargo de su propio circuito de datos. Un sistema de interoperabilidad universal gracias a la explotación de la misma sintaxis y los mismos estándares de datos permite conectar los datos de diferentes sectores.
La Data Mesh se apoya sobre varios conceptos claves. En primer lugar, “la propiedad de los datos” es compartida entre los diferentes “data owners”. Cada quien es responsable de sus datos en tanto que productos. Deben también facilitar la comunicación entre los datos distribuidos en diferentes lugares.
La infraestructura de datos está a cargo de brindar a cada sector las soluciones requeridas para tratar los datos, pero cada sector es responsable de la recolección, en tratamiento y la agregación de sus datos para generar elementos que puedan ser utilizados por aplicaciones de Business Intelligence.
Cada sector posee y maneja sus propios circuitos ETL, excepto por un conjunto de capacidades que se aplican a todos los sectores para almacenar, catalogar y mantener los controles de acceso a los datos brutos. Cuando los datos son transformados por un sector, sus propietarios pueden explotarlos según sus necesidades de análisis.
El self-service permite a los usuarios aliviar la complejidad técnica y enfocarse en los casos de uso individuales de sus datos.
Una plataforma central se encarga de motorizar los circuitos de datos, el almacenamiento y la infraestructura de streaming. Cada sector es responsable de explotar sus componentes para lanzar circuitos ETL adaptados a sus necesidades. Este enfoque evita tener que multiplicar los esfuerzos y las habilidades requeridas para mantener los circuitos y las infraestructuras de datos, y ofrece una mayor autonomía a los equipos.
Por último, la interoperabilidad está garantizada por un conjunto de estándares universales que facilitan la colaboración entre los datos. Los formatos de datos, la gobernanza, la facilidad de descubrimiento y los campos de metadatos deben estar estandarizados para permitir la colaboración entre los diferentes sectores alrededor de los datos.
¿Por qué utilizar un Data Mesh?
Hasta el presente, muchas empresas utilizaban un Data Warehouse único conectado a múltiples plataformas de Business Intelligence. Un pequeño grupo de especialistas se encargan de mantener estas soluciones.
Sin embargo, hoy están de moda las arquitecturas de Data Lakes que ofrecen una disponibilidad de datos en tiempo real y un tratamiento en streaming. El objetivo es integrar, enriquecer, transformar y entregar datos provenientes de una plataforma centralizada.
Este tipo de arquitecturas presentan, sin embargo, algunos puntos débiles. Un circuito ETL central ofrece menos control del volumen de datos en aumento, y este enfoque no toma en cuenta tampoco la especificidades de los diferentes tipos de datos.
Las arquitecturas “domain-oriented” como las Data Meshes ofrecen lo mejor de dos mundos. Combinan una base de datos o un Data Lake centralizado con sectores o departamentos de la empresa responsables de la gestión de sus propios circuitos de datos. Es mucho más simple desplegar una Data Mesh ya que es posible descomponer en componentes orientados a un sector de menor envergadura.
¿Cuándo adoptar el enfoque Data Mesh?
La Data Mesh puede resultar particularmente útil para los equipos que deben manejar un gran volumen de fuentes de datos y tratarlos rápidamente.
La elección de la arquitectura de datos depende de varios factores como la cantidad de fuentes de datos, el tamaño de los equipos, el número de sectores de datos, las barreras que deben confrontar los equipos de Data Engineering y la importancia de la Data Governance dentro de la empresa.
Mientras más importantes y complejas son las necesidades en infraestructura de datos dentro de una empresa, más probable es que una Data Mesh sea conveniente. Esta arquitectura de datos mejora también la observabilidad de los datos en self-service.
¿Cómo formarse en la Data Mesh?
Dominar las diferentes Data Architectures es muy importante en las profesiones de la Data Science. Para aprender a conocer e implementar los principios de la Data Mesh, puedes elegir una de nuestras formaciones DataScientest.
Nuestros diferentes programas te permiten descubrir la arquitectura de la Data Mesh, y adquirir todas las capacidades para convertirte en Data Scientist, Data Engineer o incluso en Data Analyst : bases de datos, Data Visualization, programación en Python, Machine Learning, etc.
Todas nuestras formaciones están disponibles en formato BootCamp intensivo, o en formación En Continuo. En función de tus necesidades y tu disponibilidad puedes elegir la modalidad que más te convenga. Nuestros programas son accesibles tanto para profesionales, aspirantes y para estudiantes.
Los programas fueron concebidos por expertos y nuestro enfoque “Blended Learning” se basa en una plataforma guiada en SaaS y en Masterclasses. Al final de la formación, recibirás un diploma certificado por la Universidad de la Sorbonne. Entre nuestros exalumnos, 80% han encontrado un trabajo inmediatamente luego de su formación. Además, puedes bonificar tu formación con FUNDAE.
No pierdas ni un instante más, y descubre las formaciones DataScientest!
Ya sabes todo sobre el Data Mesh. Descubre ahora nuestra colección sobre Data Architecture y nuestra introducción a las bases de datos.