Power Query Table.SelectRows : Comment nettoyer vos données ?

-
5
 m de lecture
-

Power Query Table.SelectRows est une fonction de Data Cleaning ou nettoyage de données pour Excel et Power BI. Découvrez tout l’intérêt de cet outil, ses avantages, ses cas d’usage et comment apprendre à le maîtriser !

Que ce soit sur Microsoft Excel ou Power BI, l’outil Power Query est devenu incontournable pour le nettoyage, la transformation et l’analyse de données.

Il s’agit d’une technologie d’ETL (Extraction, Transformation, Chargement) directement intégrée aux deux logiciels. Elle permet aux utilisateurs de connecter, transformer et modeler des données provenant de diverses sources pour les rendre prêtes à être analysées.

Sa popularité auprès des analystes et autres professionnels de la Data Science est principalement liée à ses puissantes fonctions offrant de nombreuses possibilités.

Parmi ces fonctions, l’une d’elles se révèle très utile pour filtrer et sélectionner des données en fonction de critères spécifiques : Table.SelectRows.

Qu’est-ce que Table.SelectRows ?

Cette fonction Power Query permet de filtrer les lignes d’un tableau de données en fonction de critères spécifiques. Il s’agit d’un précieux atout pour réduire le volume de données à traiter, éliminer les données inutiles ou créer des sous-ensembles répondant à des besoins précis.

Pour comprendre son utilité, prenons l’exemple simple d’un jeu de données contenant des informations sur les ventes d’une entreprise. À l’aide de Table.SelectRows, il est possible de filtrer les données pour ne sélectionner que les ventes réalisées dans une certaine période.

Par exemple, il peut s’agir uniquement des ventes de l’année en cours. Ce filtrage permet de réduire la taille du jeu de données au strict nécessaire afin de pouvoir se concentrer sur les informations pertinentes pour l’analyse.

Les options de filtrage de données avancé

Au-delà du filtrage basique, Table.SelectRows propose de nombreuses techniques plus avancées. L’une des fonctionnalités les plus puissantes est la possibilité de filtrer les données en fonction de plusieurs critères.

Pour reprendre l’exemple du dataset sur les ventes d’une entreprise, on pourrait vouloir sélectionner uniquement les ventes réalisées pendant l’année en cours et dont le montant dépasse un certain seuil.

Il suffit d’utiliser Table.SelectRows pour combiner facilement ces conditions afin d’obtenir le résultat souhaité. Imaginons un jeu de données de ventes contenant des informations sur les produits, les dates de vente, les montants et les régions.

La fonction de Power Query offre la possibilité de filtrer les ventes qui répondent à plusieurs critères, comme celles effectuées au cours du premier trimestre de l’année en cours dans la région Nord et dont le montant est supérieur à 1000 euros.

Autre technique très intéressante : l’utilisation des opérateurs logiques « et » (AND) et « ou » (OR). Là encore, ces opérateurs permettent de créer des conditions complexes en combinant des critères de filtrage.

Par exemple, il est possible de sélectionner les ventes correspondant à l’une des deux conditions : celles réalisées au cours de l’année en cours ET dont le montant est supérieur à 1000 euros, OU celles réalisées dans la région Sud.

Les fonctions personnalisées dans Table.SelectRows

Outre les options avancées, un gros point fort de Table.SelectRows est la possibilité d’utiliser des fonctions personnalisées pour le filtrage. Elle ouvre la porte à une flexibilité considérable pour le nettoyage et la transformation de données.

Ces fonctions personnalisées vous permettent de former des expressions complexes pour filtrer vos données. Vous pouvez les créer directement dans l’éditeur de requêtes, ou les importer depuis des sources externes.

Par exemple, il est possible de créer une fonction personnalisée pour filtrer les ventes dont le montant est supérieur à une valeur donnée. Cette fonction peut ensuite être utilisée dans Table.SelectRows pour sélectionner les lignes correspondantes dans votre jeu de données.

Cette approche s’avère pertinente dans de nombreuses situations. Imaginons par exemple que vous souhaitiez filtrer les ventes en fonction de critères dynamiques définis par l’utilisateur, tels que le choix du montant minimum et de la région. Une fonction personnalisée peut être la solution pour une flexibilité maximale dans le filtrage !

Optimisation des performances et gestion des erreurs

De toute évidence, l’efficacité est essentielle lors du nettoyage et de la transformation des données. C’est tout particulièrement le cas lorsqu’on traite de grandes quantités d’informations.

Il existe heureusement plusieurs moyens pour optimiser les performances de Table.SelectRows. Assurez-vous par exemple d’appliquer des filtres aussi spécifiques que possible pour réduire le nombre de lignes à traiter.

Évitez au contraire les filtres trop généraux qui sélectionnent une grande partie des données, car cela peut ralentir la requête.

Si votre source de données prend en charge les index, vous pouvez également les utiliser pour accélérer la recherche de lignes correspondant à vos critères de filtrage. Les index permettent d’accéder plus rapidement aux données.

Au cas où vous n’avez besoin que de quelques colonnes dans le résultat de votre requête, utilisez Table.SelectColumns pour limiter les colonnes sélectionnées. Cela réduira la quantité de données transférées, améliorant considérablement les performances.

Lorsqu’on travaille avec des données réelles, il est fréquent de rencontrer des situations où des erreurs peuvent se produire lors du filtrage ou de la transformation des données.

Il peut s’agir d’erreur de filtrage lorsque les critères ne sont pas correctement définis, ou quand les données ne correspondent pas aux critères spécifiés. Par exemple, une erreur peut survenir si vous filtrez des dates et que certaines sont au format incorrect.

De même, lorsque des données manquent dans le jeu de données sources ou que des valeurs vides sont rencontrées, cela peut entraîner des erreurs lors de la transformation.

Pour maintenir la fiabilité de vos processus ETL et garantir des données de haute qualité, il est impératif de détecter et de gérer ces erreurs efficacement. Dans le cas contraire, l’ensemble de la requête peut échouer.

Afin d’éviter un tel désagrément, vous pouvez utiliser la construction « Try… Otherwise » qui permet d’essayer une opération et de gérer les erreurs qui pourraient survenir. Par exemple, vous pouvez essayer de convertir une date et spécifier une action à effectuer en cas d’erreur.

On peut également utiliser des fonctions personnalisées Power Query pour une gestion plus spécifique. Cela donne un contrôle plus granulaire.

Enfin, une autre stratégie consiste à générer des rapports d’erreurs enregistrant tous les problèmes rencontrés pendant le processus ETL. Cela permet une analyse ultérieure et facilite donc la résolution.

En anticipant et en gérant les erreurs de manière proactive, vous pouvez maintenir des processus stables et assurer la qualité des données tout au long de la chaîne d’analyse.

Conclusion : Power Query Table.SelectRows, une fonction de filtrage puissante et personnalisable

En permettant de filtrer les données en fonction de multiples critères spécifiques, Power Query Table.SelectRows aide à nettoyer les datasets de façon rapide et efficace.

Afin d’apprendre à maîtriser Power Query et toutes ses fonctions, vous pouvez choisir DataScientest. Nos formations en ligne Excel et Power BI vous permettront d’acquérir cette expertise en quelques jours seulement !

La formation Power BI se complète en 2 à 5 jours en temps plein, ou 30 jours en temps partiel. Elle se décompose en deux parties : l’une destinée aux débutants, l’autre aux utilisateurs avancés. Vous pouvez effectuer l’une d’entre elles ou les deux en fonction de vos objectifs et de votre niveau.

À travers ce cursus, vous apprendrez à analyser, transformer, organiser, modeler, analyser des données avec Power BI et à créer des tableaux de bord. Vous pourrez aussi découvrir les notions plus avancées comme Power Query M et DataFlow ou le langage DAX.

En fin de parcours, vous recevrez la certification « Analyser les données avec Microsoft Power BI » reconnue par l’État et pourrez aussi passer l’examen de certification Microsoft PL-300 pour devenir Power BI Data Analyst Associate !

De son côté, la formation Microsoft Excel s’adresse aussi bien aux débutants qu’aux initiés souhaitant se perfectionner. Vous bénéficierez de trois mois d’accès à Excel, et apprendrez à manier toutes les fonctions avancées du logiciel.

Vous découvrirez notamment les macros d’automatisation, les tableaux croisés dynamiques, les fonctions arithmétiques et statistiques, ou encore les différentes techniques de mise en forme. Ce cursus inclut le passage de l’examen de certification TOSA RS5252 reconnue par l’État !

Toutes nos formations se complètent entièrement à distance, et sont éligibles au CPF pour le financement. N’attendez plus et devenez expert Power Query grâce à DataScientest !

Vous savez tout sur Power Query Table.SelectRows. Pour plus d’informations sur le même sujet, découvrez vite notre dossier complet sur Power Query et notre dossier sur Power BI !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.
Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?