Le Web Crawling : Qu’est-ce que l’indexation des pages web ?

-
4
 m de lecture
-

Incontournable du SEO (search engine optimisation), le web crawling permet d’explorer les pages Internet avant de les indexer. Alors comment fonctionne le web crawling ? Quelles différences avec le web scraping ? Quels sont les principaux robots d’indexation ? Est-il possible de créer son propre web crawler ? Les réponses sont dans cet article.

Qu’est-ce que le web crawling ?

Crawler un site, c’est extraire les données du web pour les analyser et en savoir plus sur leur contenu. Cette exploration permet ensuite d’indexer ou non les pages sur les moteurs de recherche. Ainsi, lorsque les utilisateurs tapent une requête dans la barre de recherche, ils accéderont à toutes les pages indexées répondant de près ou de loin à la requête. 

Pour indexer les pages, un robot d’exploration (ou web crawler) est chargé d’analyser toutes les pages HTML mises à disposition. Mais sur Internet, plusieurs milliers de nouvelles pages sont ajoutées chaque jour. Alors plutôt que de les analyser une par une, le web crawler commence par une liste d’URLs connues (également appelée « seed »). Il suivra alors les liens hypertextes de ces pages pour analyser leurs pages de destination. De nouveau, il suivra les liens hypertextes de ces pages, leurs pages de destination, et ainsi de suite. 

L’ensemble de ces liens peut alors s’apparenter à une toile d’araignée. C’est justement pour cette raison que les robots d’indexation sont généralement comparés à des araignées (spider en anglais). Ils rampent de page en page pour construire et développer les moteurs de recherche. 

D’une certaine manière, le web crawling s’apparente à la réorganisation d’une bibliothèque en triant tous les livres par thèmes. Dans ce cas, vous vous référez au titre du livre, son résumé et ses différents chapitres en interne. Les robots d’indexation font de même. Pour indexer les pages, il analyse le titre, la méta-description, la structure interne, le champ sémantique utilisé, etc. 

Bon à savoir : seuls 40 à 70 % des pages seraient indexées. Ce qui représente déjà plusieurs milliards de pages web.

3 exemples de robots d'indexation

Il existe différents types de robots d’indexation. Voici les principaux : 
  • Les moteurs de recherche : tous les moteurs de recherche disposent de leur propre robot. Par exemple Googlebot ou Bingbot. Chacun d’entre eux collecte le code HTML des pages. Selon les critères définis par les moteurs de recherche, les pages seront ensuite indexées afin d’être consultables par les internautes.
  • Les outils d’analyse SEO : pour vérifier la pertinence de son site web, les entreprises ou les agences de marketing peuvent utiliser des outils de web crawling, notamment la Google Search Console. Ces derniers analysent le code HTML, les métadonnées, etc. 
  • Les outils de surveillance des prix : cela concerne les sites de e-commerce. Dans  ce cas, ce sont surtout les métadonnées relatives au prix qui sont analysées.

Web crawling vs web scraping

Attention à ne pas confondre le web crawling et le web scraping. En effet, le web scraping est beaucoup plus ciblé que le web crawling, puisqu’il s’agit d’analyser des pages ou des sites web spécifiques. À l’inverse du web scraper, le robot d’indexation explore les pages de tout Internet. Et ce, en permanence.

Comment fonctionne le web crawling ?

Comme vu précédemment, les robots d’indexation partent d’un point de départ avant de parcourir les pages web, leurs hyperliens et leurs pages de destination. Au vu du nombre d’URLs disponibles, le web crawling pourrait continuer à l’infini. Cela dit, pour que le processus soit efficace et écologique (compte tenu des capacités des serveurs), les robots d’exploration suivent certaines règles, les rendant plus sélectifs au moment d’explorer les pages. Ils n’ont donc pas vocation à explorer toutes les pages, seulement une partie.

Voici les principaux critères pris en compte : 

  • Le nombre de liens : plus une page a des liens (aussi bien internes qu’externes) pointant vers elle, plus elle a des chances d’être crawlée. À l’inverse, si la page a trop peu de liens, les robots pourront la mettre en file d’attente. 
  • Le nombre de visiteurs : cela indique que la page est susceptible de contenir des informations de haute qualité. 
  • Le contenu : il convient de fournir un contenu de qualité avec une structure claire et un champ sémantique riche
  • L’autorité du domaine : les sites ayant déjà un positionnement bien établi bénéficient d’un taux de crawl plus élevé. 
  • Les robots.txt : les sites web ont en principe un fichier appelé robots.txt. C’est un protocole d’exclusion qui permet aux robots d’exploration d’identifier les pages à indexer ou non.

Il existe de nombreux autres critères définis par les différents algorithmes des moteurs de recherche. Et même s’il y a parfois de légères variations d’un moteur de recherche à l’autre, l’objectif est toujours de télécharger et d’indexer le contenu des pages web.

Par ailleurs, le contenu web évolue continuellement. Des pages sont mises à jour, supprimées, déplacées, etc. Le web crawling implique donc de revisiter régulièrement les pages afin de s’assurer que leur dernière version soit indexée.

Comment construire un web crawler ?

S’il existe de nombreux robots d’indexation, il est aussi possible de créer son propre web crawler à partir de zéro. 

Pour cela, vous aurez besoin de maîtriser le langage de programmation Python, d’une première bibliothèque pour télécharger le code HTML à partir d’une URL et d’une seconde bibliothèque pour extraire les liens. 

Il vous suffit alors d’installer ces libraires en utilisant cette commande sur votre ligne de commande :

pip install requests bs4

Vous devrez ensuite définir une classe Crawler à l’aide du bot et les URLs à explorer dans la section add_url_to_visit. Le bot continuera son exploration tant qu’il y aura des pages à analyser. 

En plus de Python, vous pouvez aussi utiliser Scrapy pour créer des web crawlers distribués.

Rejoignez la formation Marketing Data

Facilitant l’indexation des pages d’un site web, le web crawling constitue un pan incontournable des stratégies SEO. Mais que ce soit pour améliorer l’indexation des pages ou créer son propre robot d’indexation, il est primordial de se former. C’est justement pour cette raison que DataScientest vous propose sa formation Marketing Digital et Data. Découvrez le programme.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?