Web scraping avec Power Query : Comment ça marche ?

-
3
 m de lecture
-

Internet regorge de données précieuses pour les entreprises de tous secteurs d’activité. Alors pour profiter de toutes ces informations disponibles, il est possible d’extraire les données depuis une ou plusieurs pages web. Notamment grâce au web scraping avec Power Query. DataScientest vous explique comment faire.

C’est quoi le Web Scraping ?

Le web scraping, c’est tout simplement la possibilité de récupérer des données depuis une page web. Cela permet ainsi de stocker dans sa propre base de données, toutes les informations utiles présentes sur un site web. 

Cette démarche est souvent utilisée par les entreprises lors de veille concurrentielle. L’idée est alors de comparer les données d’entreprises concurrentes pour réaliser une étude de marché complète. Mais il est aussi possible de faire du web scraping depuis un site du gouvernement afin de stocker des informations officielles, de l’INSEE pour récupérer des statistiques, d’un site spécialisé dans un secteur d’activité complémentaire, etc. 

Quel que soit l’objectif, la récupération de données est possible à partir de n’importe quel site web. Et surtout, le web scraping est facilité avec Power Query, l’éditeur de requête intégré à Power BI.

Comment faire du Web Scraping avec Power Query ?

Pour effectuer du web Scraping à travers Power Query et Power BI, voici les démarches à suivre.

Extraire les données

L’extraction des données se fait depuis l’outil Power BI. À partir de là, suivez les étapes ci-dessous : 

  • Dans l’onglet Accueil, cliquez sur « Obtenir des données« . 
  • Dans la barre de recherche, tapez « web » pour sélectionner le connecteur web. C’est ce qui permet de se connecter au site internet et de récupérer ses données. 
  • Renseignez l’URL dont vous souhaitez extraire les données et cliquez sur « OK ». La plupart du temps, aucune authentification ne sera requise pour accéder au site. Mais dans certains cas, vous devrez vous authentifier à travers les modes de connexion Windows, les API web ou les comptes professionnels.  
  • Cliquer sur « Se connecter ». 
  • Une page de navigation s’ouvre, celle-ci vous indique plusieurs tables suggérées contenant les données issues de l’URL. Il vous suffit de sélectionner la table dont vous souhaitez extraire les données. 
  • Cliquer sur « Transformer les données ».

Si le web scraping permet de récupérer facilement les données d’une page web, ces dernières sont formatées selon les prérequis du site web. Or, la plupart du temps, ces formats ne s’adaptent pas à votre base de données. Il faudra donc transformer la table et utiliser le web scraping avec Power Query.

Transformer les données

Dès lors que vous avez cliqué sur “Transformer les données”, l’éditeur de requête Power Query apparaît pour compléter le web scraping. Vous y retrouverez la table sélectionnée avec toutes ses données. 

Afin qu’elle réponde à vos besoins d’analyse et de reporting, vous pouvez effectuer plusieurs actions de modification avec Power Query. Par exemple : 

  • Renommer la table
  • Supprimer des colonnes 
  • Renommer les colonnes
  • Ajouter des colonnes

Dès que votre table est prête, cliquez sur « Fermer et appliquer » afin de les visualiser dans Power BI. 

Ajouter toutes les tables du site

L’intérêt du web scraping avec Power Query, c’est aussi la possibilité de récupérer les données de toutes les pages d’un site web. 

Pour cela, il convient de modifier le code de la table. Voici les démarches à suivre : 

  • Utilisez l’éditeur avancé pour voir apparaître les lignes de code de la table ; 
  • Vous verrez apparaître une ligne :
    • Source=Web.Browser.Content(« https:www.votre-url.com/blog/page/2« ). Dans ce cas, seules les tables de la page sont intégrées. Alors si vous souhaitez toutes les pages, vous pouvez modifier le code de la manière suivante :
    • Source=Web.Browser.Content(« https:www.votre-url.com/blog/page/”&Page& »)
  • Dès lors, la table de données devient une fonction. Vous pouvez la renommer en FxPages avant de créer une liste qui contient tous les numéros de page.
  • Cliquez sur « Appeler une fonction personnalisée » afin d’appeler la fonction FxPages. 
  • Une nouvelle colonne s’ajoute. Développez-la afin de créer une nouvelle table englobant toutes les données du site.
  • Transformez les données comme susmentionné. 
  • Cliquez sur « Fermer et appliquer ».

Maîtriser Power Query avec DataScientest

En plus du web scraping, Power Query vous offre une multitude de fonctionnalités pour gérer vos bases de données. Mais l’éditeur de requête n’est pas si simple à maîtriser. Pour utiliser tous ces services avec aisance, il est primordial de se former. C’est justement pour cela que DataScientest vous propose ses formations data. Découvrez-les !

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?