L'outil Dataflow de Power BI est un outil d'intégration de données en self-service pour la plateforme de Business Intelligence de Microsoft. Découvrez le fonctionnement de Dataflow et comment apprendre à l'utiliser.
De manière générale, un dataflow est un pipeline d’ETL (extraction, transformation, chargement) pouvant être utilisé pour connecter des sources de données, transformer les données en appliquant des règles spécifiques, et pour préparer les données pour la visualisation.
Dans une architecture de données classique, un outil ETL dédié est utilisé pour préparer et transformer les données avant de les charger vers la Data Warehouse. Or, la solution de business intelligence Power BI de Microsoft était utilisée pour se connecter à la Data Warehouse et visualiser les données directement.
Toutefois, le développement d’un tel pipeline d’intégration de données nécessite beaucoup de temps. Il requiert de prendre en compte de nombreux éléments de designs et d’adopter les bonnes pratiques.
Ce n’est pas optimal, car une entreprise évolue si vite qu’il peut être difficile pour les équipes IT de suivre le rythme. Pour remédier à ce problème, Microsoft a développé son outil de préparation de données complet et entièrement géré pour Power BI.
Cet outil peut être utilisé non seulement par les développeurs professionnels, mais aussi par les utilisateurs métier. Il permet de se connecter à des sources de données et de préparer les données pour le reporting et la visualisation.
Selon Microsoft, les dataflows ne sont pas un remplacement pour une architecture Data Warehouse ou les procédures ETL, mais une addition à un environnement analytique.
Qu'est-ce qu'un Dataflow ?
Un Dataflow est un simple pipeline de données ou une série d’étapes pouvant être développé par un développeur ou un utilisateur métier. Ce pipeline permet de transférer des données vers Power BI en provenance d’une large variété de sources.
Ainsi, le Dataflow peut être comparé à Power Query pour le Cloud. Par conséquent, les développeurs maîtrisant déjà la transformation de données via Power Query sur la version desktop de Power BI seront d’emblée familiarisés avec cet outil.
On retrouve les mêmes fonctionnalités de préparation de données, les mêmes connecteurs de sources de données, gateways et transformations. Les dataflows sont créés et gérés sur Power BI en ligne et côtoient les datasets, les dashboards et les rapports au sein d’un workspace Power BI.
Quels sont les avantages de Dataflow Power BI ?
Les dataflows Power BI présentent plusieurs avantages. L’un des principaux points forts est la réusabilité.
Le gros point faible de Power Query est l’impossibilité de réutiliser les transformations de données pour d’autres rapports Power BI. Il était nécessaire de copier le code existant d’un rapport à l’autre.
Avec Power BI Dataflows, il est désormais possible de créer facilement des pipelines d’intégration de données pouvant être réutilisés librement dans plusieurs rapports Power BI. Il est aussi possible de partager les dataflows avec d’autres utilisateurs au sein de l’organisation.
Ces derniers pourront également les exploiter librement. Autre point fort : les dataflows peuvent être mis à disposition au sein d’un Workspace Power BI partagé.
Un autre avantage est qu’il s’agit d’une solution low-code / no-code. Il n’est pas nécessaire d’écrire la moindre ligne de code pour créer des transformations de données. Les dataflows sont créés avec le puissant outil Power Query Online, avec lequel seront déjà familiarisés les dizaines de millions d’utilisateurs d’Excel et Power BI. Il est ensuite possible de passer en revue ou de modifier les scripts » M « .
En outre, les dataflows sont conçus pour fonctionner avec de larges volumes de données. Un client desktop Power BI n’est même pas nécessaire pour créer un dataflow, car il est possible d’effectuer la transformation de données sur le portail Power BI.
Enfin, il est possible de planifier les dataflows individuellement en fonction de leurs besoins propres en temps de rafraîchissement. Les fonctionnalités Power BI Premium / Embedded permettent d’activer des rafraîchissements incrémentaux pour les entités de dataflows contenant une colonne DataTime.
Quelle est la différence entre Dataflow et Dataset ?
Parallèlement à Dataflow, Dataset est un autre composant de Power BI. Il s’agit de l’objet contenant la connexion à la source de données, aux tableaux de données, aux données elles-mêmes, aux relations entre les tableaux, et aux calculs DAX.
Ces deux composants présentent plusieurs différences. Alors que Dataflow remplace Power Query, Dataset remplace les calculs et les relations DAX. Après les avoir créés, il est possible de les réutiliser en utilisant un dataset partagé.
En termes de rôle, Dataflow est la couche de transformation de données de Power BI permettant l’ETL (extraction, transformation, loading) des données. De son côté, Dataset est la couche de modélisation et de calculs. Les données en provenance du Dataflow ou d’une autre source sont capturées pour créer un modèle in-memory via le moteur d’analyse de Power BI.
En termes d’interaction, Dataflow transmet les résultats des traitements de données vers le Dataset. Ce dernier se charge de créer des visualisations à partir des résultats de données.
Autre différence : Dataflow accès aux sources de données directement. Ce n’est pas le cas de Dataset qui doit accès aux données à partir de Dataflow.
Les compétences requises pour manier ces deux composants sont différentes. Les développeurs Dataflow doivent maîtriser Power Query. De son côté, un développeur Dataset doit tout savoir sur les relations dans Power BI et les calculs en utilisant DAX. Il peut maîtriser Power Query et la visualisation, mais ce n’est pas sa compétence première.
Comment créer des Dataflows sur Power BI ?
Il est important de noter que les dataflows ne sont disponibles que sur les versions Pro et Premium de Power BI. La version standard n’offre pas cette option.
Pour créer un dataflow, cliquez sur » nouveau « au sein de l’espace de travail et choisissez » Dataflow » dans le menu. Par la suite, il est possible de créer un dataflow de quatre manières différentes.
La première méthode consiste à définir de nouvelles entités. C’est la meilleure option si vous créez un dataflow en partant de zéro, en important des données vers le modèle Power BI.
La seconde approche est de lier des entités en provenance d’autres dataflows. On utilise cette approche pour connecter un nouveau dataflow à un dataflow existant, afin d’exploiter la logique déjà implémentée. Le dataflow existant est uniquement disponible en lecture seul et ne peut pas être édité.
La troisième méthode consiste à importer un modèle. Il s’agit de choisir un dataflow de référence, pour ensuite modifier librement la logique définie. Un nouveau dataflow est créé et contient la logique de l’original ainsi que celles ayant été ajoutées. Le dataflow originel n’est pas modifié.
Enfin, la dernière approche est d’attacher un dossier de modèles de données commun. On choisit un dossier de modèle de données commun existant déjà créé par un autre dataflow. Une structure de dossier du modèle de données commun est créée par Power BI Dataflows sur Azure Data Lake Gen2.
Vous savez désormais tout sur les Dataflows Power BI, et sur les méthodes permettant de créer des pipelines ETL sur Power BI. En résumé, Dataflows est un outil d’intégration de données self-service directement disponible sur Power BI.
Il permet d’agréger des données en provenance de différentes sources, et de créer un modèle de données sur le Cloud en se basant sur le schéma des datasets. Le principal avantage est de pouvoir réutiliser les dataflows au sein de l’organisation, et donc de créer des pipelines ETL modulaires pour préparer les datasets.
Comment apprendre à utiliser Power BI ?
Le dataflow n’est que l’un des nombreux outils de Microsoft Power BI. Pour apprendre à maîtriser cette plateforme et ses nombreuses fonctionnalités, vous pouvez choisir les formations DataScientest.
Cette plateforme est au coeur du module » Business Intelligence » de notre parcours Data Analyst. Ce module aborde aussi l’outil Tableau et la notion de Data Modeling.
Les autres modules du programme couvrent la programmation, la Data Visualization, l’extraction et la gestion de données texte, et le Big Data. À l’issue de cette formation, vous aurez toutes les compétences requises pour exercer le métier de Data Analyst ou analyste de données.
Ce métier consiste à analyser les données, et à les partager sous forme de visualisations ou de rapports. De cette manière, les cadres et managers de l’entreprise peuvent prendre de meilleures décisions en se basant sur la Data. Très recherchée dans tous les secteurs, cette expertise permet de trouver facilement un emploi et de profiter d’un salaire élevé.
Les formations DataScientest se distinguent par une approche innovante de Blended Learning, combinant apprentissage en présentiel et à distance. Le cursus s’effectue principalement sur une plateforme en ligne sur le Cloud, mais des Masterclass obligatoires complètent le programme.
Le mode BootCamp permet de compléter la formation à un rythme intensif en seulement quelques semaines. Il est aussi possible d’effectuer le cursus en Formation Continue, afin de poursuivre une activité en parallèle.
Parmi les alumnis, 85% ont trouvé un emploi immédiatement après la formation. Nos programmes conçus par des professionnels permettent aux apprenants de répondre aux besoins réels des entreprises. Découvrez la formation Data Analyst, et inscrivez-vous dès maintenant à cette adresse.
Vous savez tout sur le Dataflow Power BI. Découvrez notre dossier complet sur Power BI, et notre introduction à la Business Intelligence.