ntlk

NTLK : guide de l’outil de Traitement Naturel du Langage en Python

Bastien L

Bastien L

4 min

NLTK est une bibliothèque Python dédiée au traitement naturel du langage ou Natural Language Processing. Découvrez tout ce que vous devez savoir pour maitriser cet outil.

Les interactions entre humains et machines sont longtemps passées par des claviers et du code informatique. Et s’il était possible de communiquer avec un ordinateur uniquement par écrit ou à l’oral en langage naturel, comme on le ferait avec un autre humain ? Tel est le but du Natural Language Processing.

Qu'est-ce que le traitement naturel du langage ?

Le traitement naturel du langage, aussi appelé Natural Language Processing ou NLP, est une branche de l’intelligence artificielle. Elle vise à permettre aux humains d’interagir avec les ordinateurs par le langage naturel.

Grâce à cette technologie, les machines deviendront à terme capables de déchiffrer et de comprendre le langage humain. Afin de parvenir à ce but, différents modèles, techniques et autres bibliothèques de langage de programmation ont été développés.

L’objectif ? Entraîner les ordinateurs à traiter le texte, à le comprendre, à réaliser des prédictions en se basant dessus ou même à générer de nouveaux textes à l’instar de l’IA GTP-3

L’entraînement des ordinateurs, aussi appelé Machine Learning, nécessite en premier lieu d’agréger des données et de les utiliser pour “nourrir” un modèle. Ces données sont traitées par le modèle qui apprend à les classifier.

À quoi sert le NLP ?

Chaque jour, les pages web, les blogs et les réseaux sociaux génèrent d’immenses quantités de données sous forme de texte. En analysant ces données, les entreprises peuvent comprendre les internautes et leurs centres d’intérêt afin de développer de nouveaux services et produits.

Le Traitement Naturel du Langage est utilisé de nombreuses manières. Les moteurs de recherche comme Google et Yahoo reposent sur cette technologie pour comprendre le sens des recherches sur le web.

Les réseaux sociaux comme Facebook analysent les centres d’intérêt des utilisateurs pour leur proposer des publicités ciblées ou présenter du contenu pertinent dans leur flux d’actualité. Les assistants vocaux comme Apple Siri ou Amazon Alexa reposent aussi sur le NLP, au même titre que les filtres de spam.

Qu'est-ce que NLTK ?

Le NLTK, ou Natural Language Toolkit, est une suite de bibliothèques logicielles et de programmes. Elle est conçue pour le traitement naturel symbolique et statistique du langage anglais en langage Python. C’est l’une des bibliothèques de traitement naturel du langage les plus puissantes.

Cette suite d’outils rassemble les algorithmes les plus communs du traitement naturel du langage comme le tokenizing, le part-of-speech tagging, le stemming, l’analyse de sentiment, la segmentation de topic ou la reconnaissance d’entité nommée.

Les différents algorithmes de NLTK

La tokenization est un processus permettant de réduire un diviser un texte en plusieurs sous-parties appelées tokens. Cette méthode permet d’extraire des statistiques depuis le corpus de texte, par exemple le nombre de phrases.

Ces statistiques peuvent être ensuite utilisées pour régler les paramètres lors de l’entraînement d’un modèle. Cette technique sert aussi à trouver des ” patterns ” dans le texte, indispensables pour effectuer des tâches de traitement naturel du langage.

La méthode du Stemming permet de convertir un ensemble de mots dans une phrase en une séquence, Les mots ayant le même sens, mais varient en fonction du contexte sont ainsi normalisée. Le but est de trouver la racine à partir des différentes variations du mot. Le NLTK regroupe plusieurs ” stemmers ” comme le Porter Stemmer, le Snowball Stemmer et le Lancaster Stemmer.

La technique de Lemmatisation est un processus algorithmique permettant de trouver le lemme d’un mot en fonction de son sens. Il s’agit de l’analyse morphologique des mots, visant à supprimer ses affixes. Sur NTLK, la fonction morph native de WordNet est utilisée pour la Lemmatisation.

Il est possible d’effectuer la Lemmatisation avec ou sans ” POS tag ” ou ” part-of-speech tag “. Cette dernière méthode consiste à assigner un tag (une étiquette) à chaque mot afin d’accroître l’exactitude du mot dans le contexte de l’ensemble de données. Cette étiquette sert par exemple à indiquer si le mot est un verbe ou un adjectif, pour quoi le système sache quel affixe ajouter au lemme.

Les autres bibliothèques de traitement naturel du langage

Il existe de nombreuses bibliothèques logicielles dédiées au traitement naturel du langage. On peut citer spaCy, totalement optimisée et très utilisée dans le Deep Learning.

La bibliothèque TextBlob fonctionne avec Python 2 et 3 et permet de traiter des données textuelles. Du côté de l’Open Source, on retrouve Genism : très efficace et extensible.

De son côté, Pattern est un module NLP très léger qu’on utilise principalement pour le web-mining ou le crawling. Pour les applications massivement multilungues, Polyglot est le meilleur choix.

Pour le parsing de multiples formats de données comme FoLiA/Giza/Moses/ARPA/Timbl/CQL, on utilise PyNLPI ou Pineapple. Enfin, Vocabulary est très utile pour extraire des informations sémantiques sur un texte. Néanmoins, la bibliothèque NLP la plus utilisée est NLTK.

Pourquoi et comment apprendre à utiliser NLTK ?

Apprendre à utiliser le NLTK est une compétence très utile, et indispensable pour le traitement naturel du langage (NLP). De manière générale, il s’agit d’un outil à connaître pour travailler dans l’intelligence artificielle et le Machine Learning. Pour maîtriser cette suite d’outils, vous pouvez opter pour les formations de DataScientest. L’IA et ses différentes branches comme le Deep Learning et le NLP sont au coeur de nos formations Data Analyst, Data Scientist, ML Engineer au même titre que le langage Python et ses bibliothèques. Nos différents parcours permettent de vous former rapidement et efficacement aux métiers de la Data Science. Chaque cursus peut être effectué en Bootcamp ou en Formation continue, et adopte une approche de ” blended learning “ alliant physique et distanciel. Ces formations sont éligibles au CPF, et peuvent aussi être financées par Pôle Emploi via l’AIF. À l’issue du programme, vous recevrez un diplôme certifié par l’Université de la Sorbonne. N’attendez plus et découvrez nos formations !