Python et Power BI : combiner les outils pour la Data Science

-
7
 m de lecture
-

Python peut être intégré à Power BI pour démultiplier les capacités de Data Science de la plateforme de Business Intelligence de Microsoft. Découvrez comment combiner ces Python et Power BI, quelles sont les possibilités offertes et comment suivre une formation pour apprendre à les maîtriser.

Le langage de programmation Python est l’un des plus utilisés pour la Data Science et l’analyse de données. Il s’avère très pratique pour effectuer des tâches complexes liées à la transformation de données, la visualisation, le Machine Learning ou l’intelligence artificielle.

La plateforme de Business Intelligence de Microsoft, Power BI, permet l’informatique décisionnelle en self-service et notamment la visualisation de données en provenance de diverses sources.

Toutefois, depuis 2018, Power BI permet l’intégration de langages de programmation statistiques et généralistes comme R et Python. Cette intégration apporte de nouvelles possibilités et étend les capacités de Power BI, notamment pour l’extraction et la transformation de données ou la création de modèles de Machine Learning.

Les professionnels de la Business Intelligence n’ont plus besoin de faire appel à une équipe de Data Science pour les tâches de science des données, et les développeurs Python n’ont plus besoin d’une équipe BI pour présenter leurs analyses sous forme de rapport ou de tableau de bord.

Le Data Scientist moderne doit exploiter les données dans le but de résoudre les problèmes de l’entreprise. Cela passe par la collecte, le nettoyage, l’exploration et la transformation des données pour prédire les événements futurs, puis par la présentation des résultats de l’analyse sous forme de rapport ou de tableau de bord.

Par conséquent, la frontière entre le Data Scientist et l’analyste métier n’existe plus vraiment. L’intégration entre Python et Power BI permet de s’adapter à cette nouvelle réalité.

Pourquoi utiliser Python avec Power BI ?

Utiliser Python avec Power BI offre de nombreuses possibilités pour travailler avec les données. Dès lors, les capacités de la plateforme deviennent presque illimitées.

Il est possible d’utiliser Python pour le Data Cleaning (nettoyage de données) en écrivant des scripts permettant d’automatiser les tâches les plus rébarbatives comme la suppression des valeurs manquants ou la correction des formats de date.

Les scripts Python sont également très utiles pour la transformation de données. En effet, ce processus peut s’avérer lent et pénible avec le Power Query Editor.

En outre, Python permet de révéler toute la valeur des données grâce aux techniques d’analyse prédictive et de Machine Learning. Ceci permet aussi de compenser les éventuelles données manquantes.

Pour la Data Visualization, Python permet d’ajouter des visuels complexes et personnalisés à un rapport. Enfin, ce langage offre la capacité de connecter des sources de données non prises en charge nativement par Power BI.

Les limites de ces deux outils

Malgré la multitude de possibilités offertes, l’intégration entre Python et Power BI comporte aussi des limites. Tout d’abord, les sources de données ajoutées avec Python doivent être impérativement publiques.

Seuls des DataFrames Pandas peuvent être importés dans Power BI en utilisant Python. En outre, le temps d’exécution est limité à 30 minutes pour les scripts et 5 minutes pour les visuels.

Le nombre de bibliothèques Python prises en charge par Power BI Service est limité. Seules Matplotlib, NumPy, Pandas, Scikit-learn, Scipy, Seaborn, Statsmodels et XGBoost sont compatibles. Notons que Pandas et Matplotlib doivent obligatoirement être installées pour que l’intégration entre Power BI et Python fonctionne.

Enfin, les visuels Python ne prennent pas en charge le filtrage croisé. Cela signifie que choisir un élément sur un visuel Python ne permet pas d’activer le même filtre sur d’autres visuels. L’interactivité sur un rapport Power BI s’en trouve réduite.

Peut-on utiliser Python à la place du langage DAX ?

Le langage DAX ou Data Analysis Expressions permet de créer différentes mesures et de manipuler les données sur Power BI.

Pour tous les éléments n’ayant pas besoin d’être générés dynamiquement, il existe de nombreuses alternatives. Vous pouvez notamment ajouter de nouvelles colonnes à un tableau de bord en utilisant Python.

Quels sont les prérequis pour utiliser Python sur Power BI ?

Plusieurs éléments sont pré-requis pour utiliser Python sur Power BI. Vous devez installer le runtime Python sur lequel les scripts sont exécutés, et les bibliothèques Pandas, Matplotlib et Seaborn.

Il est également possible d’utiliser l’éditeur de code Visual Studio Code pour écrire les scripts Python plus efficacement, mais il s’agit d’une option. Vous pouvez aussi écrire les scripts Python depuis l’éditeur de script de Power BI.

Toutefois, l’éditeur de code offre des fonctionnalités utiles comme la mise en lumière de syntaxe. Vous pouvez télécharger Visual Studio Code depuis le site officiel. Enfin, veillez à mettre à jour les paramètres de Power BI afin de pouvoir travailler avec Python.

Comment configurer ces deux outils ?

Avant d’écrire des scripts sur Power BI, il est nécessaire d’installer la dernière version de Python à partir du site officiel. Dans la documentation de Power BI, Microsoft recommande d’éviter les gestionnaires d’environnement comme Anaconda pour éviter les problèmes lors de l’exécution des scripts.

Il est possible de contourner cette limitation pour utiliser un environnement personnalisé sur Anaconda en activant l’environnement à partir de la ligne de commande avant d’ouvrir Power BI Destkop depuis la ligne de commande également.

Si vous n’êtes pas familier avec ces notions de programmation, il est préférable de s’en tenir aux recommandations de Power BI et de télécharger Python depuis le site web sans utiliser les environnements customisés.

Après avoir installé Python, vous devrez préciser le chemin d’accès au fichier sur Power BI Desktop. À partir du ruban, choisissez « Fichier » puis « Options et paramètres » et ensuite « Options ».

Dans la liste des options, cherchez « Scripting Python ». Il ne vous reste plus qu’à trouver le dossier contenant votre distribution Python, dans la liste qui comporte toutes les distributions Python installées sur votre ordinateur.

Si toutefois vous souhaitez taper manuellement l’itinéraire de fichiers, gardez en tête que seuls les chemins de fichier absolus sont pris en charge. Vous ne pouvez pas entrer un chemin de fichier relatif.

Après avoir installé et configuré Python sur Power BI, vous pouvez utiliser les scripts de multiples façons. Il est notamment possible de s’en servir comme source de données pour importer les nouvelles données, pour enrichir une source de données existante dans le Power Query Editor, ou pour visualiser les données sur le canevas de rapport Power BI.

Python comme source de données pour Power BI

Afin d’utiliser Python comme source de données pour Power BI, rendez-vous sur l’onglet d’accueil et choisissez l’option « Obtenir des données » pour afficher la liste complète des collections de données.

Choisissez la catégorie « autres » et cherchez « script Python » dans la liste. Vous pouvez à présent écrire un script Python pour importer un ensemble de données. Une boîte de dialogue s’affiche à l’écran pour demander d’entrer votre code Python.

Rappelons que Power BI ne permet d’importer que des DataFrames Pandas. Il est donc nécessaire de convertir l’ensemble de données en utilisant « pd.DataFrame » en premier lieu.

Cette fonctionnalité est très utile pour connecter une source de données n’étant pas prise en charge par Power BI par défaut. Elle est également pratique pour les ensembles de données nécessitant de nombreuses transformations avant l’importation, par exemple à partir d’une API.

Cette méthode permet de créer des data frames complexes en utilisant Python et de les importer dans Power BI. Vous pouvez aussi effectuer des manipulations de données en utilisant la bibliothèque Pandas, puis importer le dataset final dans Power BI pour créer des visualisations.

Dès lors, l’utilisation de Power BI devient beaucoup plus simple pour les Data Scientists et Data Analysts déjà habitués à la manipulation de données en langage Python.

Python pour le partitionnement en k-moyennes sur Power BI

Le partitionnement en k-moyennes ou k-means clustering est une technique de Machine Learning permettant de trouver des groupes de points de données similaires entre eux : les clusters.

Cette technique est particulièrement utile pour le marketing ou le service client, afin de mieux comprendre la clientèle.

Il est tout à fait possible d’effectuer une analyse en cluster sur les données sur Power BI sans utiliser Python. Toutefois, cette fonctionnalité native est limitée puisque Power BI détermine automatiquement en quel nombre de clusters décomposer les données et ne permet pas de changement.

Utiliser Python permet de remédier à ce problème, puisque vous pouvez écrire votre script en toute liberté pour répondre à vos besoins spécifiques.

À partir du Power Query Editor, choisissez l’onglet « Transformer » puis « Exécuter un script Python ». La boîte de dialogue qui s’affiche est la même que lors de l’importation d’un ensemble de données, mais un emplacement « dataset » est dédié à l’ensemble de données actuel.

En choisissant « OK », vous pouvez importer un tableau réduit. Vous devez étendre la colonne « Valeur » et choisir les colonnes que vous voulez inclure dans la requête.

Sélectionnez toutes les colonnes, dont la colonne « Cluster » qui vient d’être créée à partir du script. Assurez-vous de décocher la case « Utiliser le nom d’origine de la colonne comme préfixe ».

Votre ensemble de données contient toutes les colonnes d’origine, et une colonne additionnelle indiquant à quel cluster chaque ligne de données est assignée.

Le calcul statistique en Python sur Power BI

Par défaut, créer une matrice de corrélation n’est pas une tâche aisée sur Power BI. Pourtant, une heatmap de matrice de corrélation fait partie intégrante d’un rapport d’analyse de données.

Pour créer une heatmap de matrice de corrélation sur Power BI, vous pouvez utiliser la fonction de corrélation de Python. Cette carte de chaleur sera affichée dans la section Rapport de Power BI.

Rendez-vous dans la section Rapport de Power BI, et cliquez sur le visuel Python représenté par le symbole « Py » sous la section Visualizations. Un visuel Python vide apparaît sur la gauche et un éditeur de script s’ouvre en bas de l’écran. Vous pouvez donc créer des visualisations sur Power BI en utilisant des scripts Python.

Afin d’illustrer la heatmap de corrélation, entrez toutes les variables continues dans le champ Valeurs. C’est une étape essentielle, car Power BI ne prendra en compte que les variables indiquées pour la visualisation.

Il suffit ensuite d’écrire quelques lignes de code en Python pour créer une carte de chaleur de matrice de corrélation à l’aide du package seaborn. Enfin, cliquez sur le bouton « Exécuter le Script » pour produire la heatmap.

Comment apprendre à utiliser Python et Power BI ?

Nous n’avons exploré qu’une infime partie des possibilités offertes par Python sur Power BI. Afin d’apprendre à maîtriser totalement ces outils, vous pouvez choisir DataScientest.

Nos formations Data Analyst et Data Management comportent un module d’initiation à la programmation en Python, et un module Business Intelligence centré sur Power BI.

En suivant ces cursus, vous apprendrez aussi l’analyse de données, le Machine Learning, la DataViz ou la manipulation de bases de données. À la fin du parcours, vous aurez toutes les compétences requises pour devenir Data Analyst ou Data Manager.

Ces formations s’effectuent entièrement à distance, alliant apprentissage en ligne sur notre plateforme coachée et Masterclass. Vous pouvez choisir entre un BootCamp intensif ou une formation continue selon vos préférences.

Nous proposons aussi un cursus expert entièrement dédié à Power BI. Cette formation d’une durée de 3 à 5 jours couvre notamment Power Query, le langage DAX, la Data Visualization et la gestion des espaces de travail.

À la fin de ce programme, vous pourrez passer l’examen pour obtenir une certification officielle Microsoft Power BI. Vous serez fin prêt à utiliser ces outils en entreprise.

Toutes nos formations sont éligibles au Compte Personnel de Formation pour le financement, et les demandeurs d’emploi peuvent aussi bénéficier d’un financement intégral par Pôle Emploi. N’attendez plus et découvrez les formations DataScientest !

Vous savez tout sur Power BI et Python. Pour plus d’informations, découvrez notre dossier complet sur Power BI et notre dossier complet sur le langage Python.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?