A l’ère du Big Data, les données brutes sont souvent désorganisées et stockées dans des systèmes parfois disparates. Or, lorsque ces données sont isolées, les entreprises et les équipes data ne peuvent pas les exploiter au maximum et en tirer des décisions. La solution Microsoft Azure Data Factory a pour objectif de pallier ces difficultés et permettre à ces données brutes - provenant de sources différentes - de devenir des données exploitables au service des entreprises.
C'est quoi Azure Data Factory ?
Azure Data Factory est un service conçu par Microsoft afin de permettre aux développeurs d’intégrer des sources de données différentes. Il s’agit d’une plateforme semblable à SSIS qui vous permet de gérer les données que vous avez en physique et dans le cloud.
Définition SSIS : SSIS – SQL server integration services – est un composant du logiciel Microsoft SQL Database qui vous permet d’effectuer des migrations de données.
Ce service permet ainsi d’accéder aux données sur site comme dans une data base SQL, mais aussi aux données dans le cloud comme Azure SQL Database.
Azure Data Factory est une solution parfaite lorsqu’il s’agit de construire des pipelines hybrides d’extraction-transformation-chargement (à savoir le processus ETL) ou d’extraction-chargement-transformation (ELT) et d’intégration de données.
Petit rappel : L’ETL est un type de processus d’intégration des données qui fait référence à trois étapes distinctes mais interconnectées (extraction, transformation et chargement). Il est utilisé pour synthétiser les données provenant de plusieurs sources, encore et encore, afin de construire un data warehouse, un data hub ou un data lake.
Data Factory est devenu un outil indispensable en cloud computing. Dans presque tous les projets, vous devrez effectuer des activités de déplacement de données sur différents réseaux (réseau sur site et cloud) et sur différents services (à partir de et vers différents stockages Azure).
Data Factory est un outil particulièrement nécessaire pour les organisations qui font leurs premiers pas dans le cloud et qui essaient donc de connecter les données sur site au cloud. Pour cela, Azure Data Factory dispose d’un moteur d’exécution d’intégration, un service de passerelle qui peut être installé sur site et qui garantit un transfert performant et sécurisé des données depuis et vers le cloud.
Comment fonctionne Azure Data Factory ?
Connexion et collecte de données
La première étape est de connecter et collecter des données venant de différentes sources qu’elles soient local, dans le cloud, structurées ou non structurées. Azure Data Factory permet ainsi de connecter toutes les sources de données différentes ainsi que les services de traitement de données. Ensuite il s’agit de déplacer les données vers un lieu centralisé. Dans le cas classique, les entreprises doivent construire toute l’infrastructure data pour déplacer les données. Grâce à Data Factory cette étape est très facile et rapide.
Transformation des données
Une fois que les données sont dans un entrepôt de données centralisé dans le nuage, Azure Data Factory permet aux équipes data de traiter et transformez les données collectées en utilisant les flux de données de cartographie Azure Data Factory. Les flux de données permettent aux ingénieurs de données de construire et de maintenir des graphiques de transformation de données qui s’exécutent sur Spark sans avoir besoin de comprendre les clusters Spark ou la programmation Spark. Toutefois, Azure Data Factory vous permet aussi de coder toutes ces transformations à la main si vous le souhaitez et vous pouvez exécuter vos transformations sur des services de calcul comme HDInsight Hadoop, Spark, Data Lake Analytics et Machine Learning.
Publication des données et supervision
Ensuite Azure Data Factory vous permet de publier vos données. Data Factory vous propose de prendre en charge complètement la CI/CD – continuous integration/continuous delivery – des pipelines grâce à Azure Devops par exemple. Grâce à cela, vous pouvez créer et développer vos processus ETL. Ainsi une fois que toutes vos données brutes sont transformées, vous pouvez en les upload à d’autres outils analytics d’Azure afin que vos collaborateurs puissent les visualiser, prendre des décisions, superviser les flux de données à l’aide d’une interface graphique riche, et prendre des décisions. Ainsi, une fois vos pipelines données créés vous pouvez profiter de la valeur commerciale de vos données. À cette étape, vous pouvez superviser les pipelines et avoir accès à des indices de performances ou à vos taux de réussite.
Azure Data Factory VS les outils classiques ETL
Azure Data Factory est une des meilleures options à utiliser lorsqu’il s’agit de construire des pipelines ETL (ou ELT) dans le cloud et hybrides. Certaines caractéristiques distinguent Azure Data Factory des autres outils.
- La capacité d’exécuter des packages SSIS.
- Adaptation automatique en fonction de la charge de travail donnée. En effet Azure Data Factory pousse ceci encore plus loin en assurant à ces clients que la tarification de Data Factory est basée sur l’utilisation. Le nombre d’activités (étapes de traitement des données) par mois et l’utilisation du runtime d’intégration est facturée à l’heure, en fonction de la machine et du nombre de nœuds utilisés.
- Lien entre les systèmes sur site et le cloud Azure de manière transparente via une passerelle.
- Gestion de gros volumes de données primordiales à l’ère du Big Data
- Possibilité de le connecter et travailler avec d’autres services de calcul (Azure Batch, HDInsights) pour exécuter des calculs de données vraiment volumineux pendant l’ETL.
Enfin, l’un des très grands avantages est son intégration rapide et facile avec les autres ressources Azure Compute & Storage. Il existe 2 types de services liés – c’est-à-dire des chaînes de connexion – que vous pouvez définir :
- Un service de stockage pour représenter un magasin de données – datamart – qui inclut : Azure SQL Database, Azure SQL Data Warehouse, une base de données sur site, un Data Lake, un système de fichiers, une BD NoSQL, etc.
- Un service informatique pour transformer et enrichir les données : par exemple, Azure HDInsight, Azure Machine Learning, procédure stockée sur n’importe quel SQL, activité U-SQL Data Lake Analytics, Azure Databricks et/ou Azure Batch (en utilisant une activité personnalisée).
Les données nécessitent des logiciels et services qui peuvent rationaliser les processus permettant d’épurer les données brutes stockées dans les systèmes en données utilisables par les équipes data. Aujourd’hui maîtriser des logiciels comme Azure Data Factory est indispensable pour le métier de data engineer et de data scientist.
Si vous souhaitez en savoir plus sur ces métiers de la data incontournables, renseignez-vous sur la formation Data Engineer dispensée par DataScientest et certifiée par MINES ParisTech.