En la era del Big Data, los datos brutos suelen estar desorganizados y almacenados en sistemas a veces dispares. Cuando estos datos están aislados, las empresas y los equipos de datos no pueden sacar el máximo partido de ellos ni tomar decisiones. La solución Microsoft Azure Data Factory tiene como objetivo superar estas dificultades y permitir que estos datos en bruto -de diferentes fuentes- se conviertan en datos utilizables para el negocio.
¿Qué es Azure Data Factory?
Azure Data Factory es un servicio diseñado por Microsoft para permitir a los desarrolladores integrar diferentes fuentes de datos. Es una plataforma similar a SSIS que permite gestionar los datos que se tienen en físico y en la nube.
Los datos procedentes de las redes sociales u otros sitios web son principalmente textos: comentarios sobre las publicaciones, reseñas sobre un producto, quejas en foros comunitarios, etc.
Definición de SSIS: SSIS – SQL server integration services – es un componente del software Microsoft SQL Database que permite realizar migraciones de datos.
Este servicio permite acceder a los datos in situ como en una base de datos SQL, pero también a los datos en la nube como en Azure SQL Database.
Azure Data Factory es una solución perfecta cuando se trata de construir tuberías híbridas de extracción-transformación-carga (ETL) o de extracción-carga-transformación (ELT) y de integración de datos.
Un rápido recordatorio: ETL es un tipo de proceso de integración de datos que se refiere a tres pasos distintos pero interconectados (extracción, transformación y carga). Se utiliza para sintetizar datos de múltiples fuentes una y otra vez para construir un almacén de datos, un centro de datos o un lago de datos.
Data Factory se ha convertido en una herramienta indispensable en la computación en nube. En casi todos los proyectos, tendrá que realizar actividades de movimiento de datos a través de diferentes redes (locales y en la nube) y servicios (desde y hacia diferentes almacenamientos de Azure).
Data Factory es una herramienta especialmente útil para las organizaciones que están dando sus primeros pasos en la nube y que, por tanto, intentan conectar los datos locales con la nube. Para ello, Azure Data Factory cuenta con un motor de ejecución de integración, un servicio de pasarela que puede instalarse in situs y que garantiza una transferencia de datos óptima y segura desde y hacia la nube.
¿Cómo funciona Azure Data Factory?
Conectar y recolección de datos
El primer paso es conectar y recopilar datos de diferentes fuentes, ya sean locales, en la nube, estructurados o no estructurados. Azure Data Factory permite conectar todas las diferentes fuentes de datos y servicios de procesamiento de datos. Luego se trata de trasladar los datos a una ubicación centralizada. En el caso clásico, las empresas tienen que construir toda la infraestructura de datos para moverlos. Con Data Factory este paso es muy fácil y rápido.
Transformación de datos
Una vez que los datos se encuentran en un almacén de datos centralizado en la nube, Azure Data Factory permite a los equipos de datos procesar y transformar los datos recogidos utilizando los flujos de datos de mapeo de Azure Data Factory. Las fuentes de datos permiten a los ingenieros de datos construir y mantener gráficos de transformación de datos que se ejecutan en Spark sin necesidad de entender los clusters de Spark o la programación de Spark. Sin embargo, Azure Data Factory también le permite codificar todas estas transformaciones a mano si lo desea, y puede ejecutar sus transformaciones en servicios de computación como HDInsight Hadoop, Spark, Data Lake Analytics y Machine Learning.
Publicación y control de datos
A continuación, Azure Data Factory le permite publicar sus datos. Data Factory le ofrece soporte completo para pipelines CI/CD – continuous integration/continuous delivery -con Azure Devops, por ejemplo. Con esto, puede crear y desarrollar sus procesos ETL. Así, una vez transformados todos los datos en bruto, puede cargarlos en otras herramientas de análisis de Azure para que su personal pueda visualizarlos, tomar decisiones, supervisar los flujos de datos mediante una interfaz gráfica y tomar decisiones. Por lo tanto, una vez creados los pipelines de datos, podrá aprovechar el valor empresarial de sus datos. En esta fase, puede supervisar los pipelines y tener acceso a los índices de rendimiento o a sus tasas de éxito.
Azure Data Factory vs herramientas ETL tradicionales
Azure Data Factory es una de las mejores opciones a la hora de construir pipelines ETL (o ELT) en la nube e híbridos. Hay algunas características que diferencian a Azure Data Factory de otras herramientas.
- La capacidad de ejecutar paquetes SSIS.
- Adaptación automática según la carga de trabajo dada. De hecho, Azure Data Factory va un paso más allá al asegurar a sus clientes que el precio de Data Factory se basa en el uso. El número de actividades (pasos de procesamiento de datos) al mes y el uso del tiempo de ejecución de la integración se cobra por horas, en función de la máquina y del número de nodos utilizados.
- Enlace entre los sistemas locales y la nube de Azure sin problemas a través de una pasarela.
- Maneja grandes volúmenes de datos que son críticos en la era del Big Data
- Capacidad de conectar y trabajar con otros servicios de computación (Azure Batch, HDInsights) para ejecutar cálculos de datos realmente grandes durante el ETL.
Por último, una de las mayores ventajas es su rápida y fácil integración con otros recursos de Azure Compute & Storage. Hay dos tipos de servicios enlazados, es decir, cadenas de conexión, que se pueden definir:
- Un servicio de almacenamiento para representar una tienda de datos – datamart – que incluye: Azure SQL Database, Azure SQL Data Warehouse, una base de datos local, un lago de datos, un sistema de archivos, una BD NoSQL, etc.
- Un servicio informático para transformar y enriquecer los datos: por ejemplo, Azure HDInsight, Azure Machine Learning, procedimiento almacenado en cualquier SQL, actividad U-SQL Data Lake Analytics, Azure Databricks y/o Azure Batch (utilizando una actividad personalizada).
Los datos requieren software y servicios que puedan agilizar los procesos para limpiar los datos brutos almacenados en los sistemas y convertirlos en datos que puedan ser utilizados por los equipos de datos. Hoy en día, dominar un software como Azure Data Factory es esencial para la profesión de ingeniero de datos y científico de datos.
Si quiere saber más sobre las profesiones esenciales de los datos, infórmese sobre la formación de Ingeniero de Datos impartida por DataScientest y certificada por MINES ParisTech.