L’analyse et la préparation des données représente bien souvent près de 80% du travail d’un data analyst ou data scientist. C’est donc un goulet d’étranglement qui ralentit considérablement le travail d’exploitation des données. Heureusement il existe certains outils pour réduire cette activité chronophage ! PowerQuery en est un des plus puissants et nous allons vous le présenter dans cet article.
Qu’est ce que PowerQuery ?
PowerQuery est un outil développé par Microsoft et directement intégré dans certaines de ses applications, en particulier Excel et Power BI.
Il permet de résoudre de nombreux défis auxquels font face les professionnels lors de la préparation de la donnée.
Parmi eux :
- Les données proviennent de sources diverses et non standardisées
- Chaque source de donnée demande un traitement particulier et souvent complexe.
- L’utilisation de macro est lente à programmer et peu adaptable ou reproductible.
- Le volume de données est trop important pour être traité par Excel
En adressant ces différentes difficultés, PowerQuery permet concrètement de booster votre processus ETL (Extract – Transform – Load).
Les fonctionnalités de PowerQuery
Tout d’abord PowerQuery permet d’utiliser des sources variées de données. A partir de l’outil, il est possible de connecter de multiple sources de données au même fichier excel. Ces données peuvent venir de bases de données (SQL, Azure, Oracle, Salesforce), mais aussi de fichiers texte ou csv tout comme de pages web directement. (petit visuel si possible)
Il est possible d’accéder à cette option à partir de l’onglet Données puis dans la partie Récupérer et transformer des données.
Une fois une source de donnée sélectionnée, une requête (query) s’ouvre et permet de charger la donnée. Le bouton Transform permet alors d’ouvrir une fenêtre PowerQuery Editor.
Dans cet éditeur, il est possible de nombreuses opérations de traitement de données qui étaient auparavant réalisées par des macros lentes à programmer et rigides.
On peut par exemple :
- Réorganiser les lignes et les colonnes
- Supprimer les valeurs manquantes
- Filtrer les lignes
- Utiliser la première ligne comme en-tête
- Fusionner, découper ou regrouper les colonnes
- Et bien plus encore !
Une fois ce traitement défini, la donnée est directement convertie en table est prête à être utilisée pour des tableaux croisés dynamiques !
Par ailleurs, une fois la requête effectuée, il est possible de le sauvegarder et de la réutiliser de nombreuses fois à la manière d’une macro. Cependant pour cet outil, aucune connaissance en VBA n’est requise.
Il est donc possible de complètement automatiser le workflow de traitement de données en combinant différentes requêtes.
L’un des derniers avantages de PowerQuery est qu’il n’alourdit pas votre fichier excel. En effet il ne fait qu’importe la donnée des différentes sources et la transforme sans la recopier intégralement. Cette option permet donc de travailler sur des bases de données de plusieurs millions de lignes !
SI vous comptez utiliser PowerQuery avec votre base de données, nous vous conseillons au préalable de bien organiser votre base de données pour vous éviter des efforts inutiles. Pour cela n’hésitez pas à aller voir notre article : Tuto SQL : TOP 5 des fonctions les plus utiles
Conclusion
PowerQuery est un outil puissant et indispensable lorsque l’on travaille avec Excel et Power BI. Par ailleurs, il est complété par Power Pivot une nouvelle fonctionnalité qui permet une analyse rapide et automatisée des données déjà traitées. Si vous voulez en découvrir plus sur le traitement et l’acquisition automatique des données, découvrez notre formation Data Engineer !