Machine Learning : DĂ©finition, fonctionnement, utilisations

-
7
 m de lecture
-
Machine Learning

Découvrez tout ce que vous devez savoir sur le Machine Learning : définition, fonctionnement, différentes catégories... vous saurez tout sur l'apprentissage automatique et son impact révolutionnaire dans tous les domaines !

Le Machine Learning ou apprentissage automatique est un domaine scientifique, et plus particuliĂšrement une sous-catĂ©gorie de l’intelligence artificielle. Elle consiste Ă  laisser des algorithmes dĂ©couvrir des « patterns », Ă  savoir des motifs rĂ©currents, dans les ensembles de donnĂ©es. Ces donnĂ©es peuvent ĂȘtre des chiffres, des mots, des images, des statistiques…

Tout ce qui peut ĂȘtre stockĂ© numĂ©riquement peut servir de donnĂ©es pour le Machine Learning. En dĂ©celant les patterns dans ces donnĂ©es, les algorithmes apprennent et amĂ©liorent leurs performances dans l’exĂ©cution d’une tĂąche spĂ©cifique.

Pour rĂ©sumer, les algorithmes de Machine Learning apprennent de maniĂšre autonome Ă  effectuer une tĂąche ou Ă  rĂ©aliser des prĂ©dictions Ă  partir de donnĂ©es et amĂ©liorent leurs performances au fil du temps. Une fois entraĂźnĂ©, l’algorithme pourra retrouver les patterns dans de nouvelles donnĂ©es.

Comment fonctionne le Machine Learning ?

Le dĂ©veloppement d’un modĂšle de Machine Learning repose sur quatre Ă©tapes principales. En rĂšgle gĂ©nĂ©rale, c’est un Data Scientist qui gĂšre et supervise ce procĂ©dĂ©.

La premiĂšre Ă©tape consiste Ă  sĂ©lectionner et Ă  prĂ©parer un ensemble de donnĂ©es d’entraĂźnement. Ces donnĂ©es seront utilisĂ©es pour nourrir le modĂšle de Machine Learning pour apprendre Ă  rĂ©soudre le problĂšme pour lequel il est conçu.

Les donnĂ©es peuvent ĂȘtre Ă©tiquetĂ©es, afin d’indiquer au modĂšle les caractĂ©ristiques qu’il devra identifier. Elles peuvent aussi ĂȘtre non Ă©tiquetĂ©es, et le modĂšle devra repĂ©rer et extraire les caractĂ©ristiques rĂ©currentes de lui-mĂȘme.

Dans les deux cas, les donnĂ©es doivent ĂȘtre soigneusement prĂ©parĂ©es, organisĂ©es et nettoyĂ©es. Dans le cas contraire, l’entraĂźnement du modĂšle de Machine Learning risque d’ĂȘtre biaisĂ©. Les rĂ©sultats de ses futures prĂ©dictions seront directement impactĂ©s.

La deuxiĂšme Ă©tape consiste Ă  sĂ©lectionner un algorithme Ă  exĂ©cuter sur l’ensemble de donnĂ©es d’entraĂźnement. Le type d’algorithme Ă  utiliser dĂ©pend du type et du volume de donnĂ©es d’entraĂźnement et du type de problĂšme Ă  rĂ©soudre.

La troisiĂšme Ă©tape est l’entraĂźnement de l’algorithme. Il s’agit d’un processus itĂ©ratif. Des variables sont exĂ©cutĂ©es Ă  travers l’algorithme, et les rĂ©sultats sont comparĂ©s avec ceux qu’il aurait du produire. Les  » poids  » et le biais peuvent ensuite ĂȘtre ajustĂ©s pour accroĂźtre la prĂ©cision du rĂ©sultat.

On exĂ©cute ensuite de nouveau les variables jusqu’Ă  ce que l’algorithme produise le rĂ©sultat correct la plupart du temps. L’algorithme, ainsi entraĂźnĂ©, est le modĂšle de Machine Learning.

La quatriĂšme et derniĂšre Ă©tape est l’utilisation et l’amĂ©lioration du modĂšle. On utilise le modĂšle sur de nouvelles donnĂ©es, dont la provenance dĂ©pend du problĂšme Ă  rĂ©soudre.Par exemple, un modĂšle de Machine Learning conçu pour dĂ©tecter les spams sera utilisĂ© sur des emails.

De son cĂŽtĂ©, le modĂšle de Machine Learning d’un aspirateur robot ingĂšre des donnĂ©es rĂ©sultant de l’interaction avec le monde rĂ©el comme le dĂ©placement de meubles ou l’ajout de nouveaux objets dans la piĂšce. L’efficacitĂ© et la prĂ©cision peuvent Ă©galement s’accroĂźtre au fil du temps.

Quels sont les principaux algorithmes de Machine Learning ?

Il existe une large variĂ©tĂ© d’algorithmes de Machine Learning. Certains sont toutefois plus couramment utilisĂ©s que d’autres. Tout d’abord, diffĂ©rents algorithmes sont utilisĂ©s pour les donnĂ©es Ă©tiquetĂ©es.

Les algorithmes de rĂ©gression, linĂ©aire ou logistique, permettent de comprendre les relations entre les donnĂ©es. La rĂ©gression linĂ©aire est utilisĂ©e pour prĂ©dire la valeur d’une variable dĂ©pendante base sur la valeur d’une variable indĂ©pendante. Il s’agirait par exemple de prĂ©dire les ventes annuelles d’un commercial en fonction de son niveau d’Ă©tudes ou de son expĂ©rience.

La rĂ©gression logistique est quant Ă  elle utilisĂ©e quand les variables dĂ©pendantes sont binaires. Un autre type d’algorithme de rĂ©gression appelĂ© machine Ă  vecteur de support est pertinent quand les variables dĂ©pendantes sont plus difficiles Ă  classifier.

Un autre algorithme ML populaire est l’arbre de dĂ©cision. Cet algorithme permet d’Ă©tablir des recommandations basĂ©es sur un ensemble de rĂšgles de dĂ©cisions en se basant sur des donnĂ©es classifiĂ©es. Par exemple, il est possible de recommander sur quelle Ă©quipe de football parier en se basant sur des donnĂ©es telles que l’Ăąge des joueurs ou le pourcentage de victoire de l’Ă©quipe.

Pour les données non étiquetées, on utilise souvent les algorithmes de « clustering ». Cette méthode consiste à identifier les groupes présentant des enregistrements similaires et à étiqueter ces enregistrements en fonction du groupe auquel ils appartiennent.

Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi les algorithmes de clustering, on compte les K-moyennes, le TwoStep ou encore le Kohonen.

Les algorithmes d’association permettent quant Ă  eux de dĂ©couvrir des patterns et des relations dans les donnĂ©es, et Ă  identifier les relations  » si / alors  » appelĂ©es  » rĂšgles d’association « . Ces rĂšgles sont similaires Ă  celles utilisĂ©es dans le domaine du Data Mining ou forage de donnĂ©es.

Enfin, les rĂ©seaux de neurones sont des algorithmes se prĂ©sentant sous la forme d’un rĂ©seau Ă  plusieurs couches. La premiĂšre couche permet l’ingestion des donnĂ©es, une ou plusieurs couches cachĂ©es tirent des conclusions Ă  partir des donnĂ©es ingĂ©rĂ©es, et la derniĂšre couche assigne une probabilitĂ© Ă  chaque conclusion.

Un rĂ©seau de neurones « profond » est composĂ© de multiples couches cachĂ©es permettant chacune de raffiner les rĂ©sultats de la prĂ©cĂ©dente. On l’utilise dans le domaine du Deep Learning.

Qu'est-ce que le Deep Learning ?

Le Deep Learning est une branche du Machine Learning, mais il s’agit aujourd’hui de la plus couramment utilisĂ©e. Il s’agit d’une invention de Geoffrey Hinton, datĂ©e de 1986.

Pour faire simple, le Deep Learning est une version amĂ©liorĂ©e du Machine Learning. L’apprentissage profond utilise une technique lui confĂ©rant une aptitude supĂ©rieure Ă  dĂ©tecter les patterns mĂȘme les plus subtiles.

Cette technique est appelée réseau de neurones profond. Cette profondeur correspond au large nombre de couches de noeuds de calcul qui constituent ces réseaux et travaillent en collaboration pour traiter les données et délivrer des prédictions.

Ces rĂ©seaux de neurones s’inspirent directement du fonctionnement du cerveau humain. Les noeuds de calcul sont comparables aux neurones, et le rĂ©seau en lui-mĂȘme s’apparente au cerveau.

Quels sont les différents types de Machine Learning ?

On distingue trois techniques de Machine Learning : l’apprentissage supervisĂ©, l’apprentissage non-supervisĂ©, et l’apprentissage par renforcement. Dans le cas de l’apprentissage supervisĂ©, le plus courant, les donnĂ©es sont Ă©tiquetĂ©es afin d’indiquer Ă  la machine quelles patterns elle doit rechercher.

Le systĂšme s’entraĂźne sur un ensemble de donnĂ©es Ă©tiquetĂ©es, avec les informations qu’il est censĂ© dĂ©terminer. Les donnĂ©es peuvent mĂȘme ĂȘtre dĂ©jĂ  classifiĂ©es de la maniĂšre dont le systĂšme est supposĂ© le faire.

Cette mĂ©thode nĂ©cessite moins de donnĂ©es d’entraĂźnement que les autres, et facilite le processus d’entraĂźnement puisque les rĂ©sultats du modĂšle peuvent ĂȘtre comparĂ©s avec les donnĂ©es dĂ©jĂ  Ă©tiquetĂ©es. Cependant, l’Ă©tiquetage des donnĂ©es peut se rĂ©vĂ©ler onĂ©reux. Un modĂšle peut aussi ĂȘtre biaisĂ© Ă  cause des donnĂ©es d’entraĂźnement, ce qui impactera ses performances par la suite lors du traitement de nouvelles donnĂ©es.

Au contraire, dans le cas de l’apprentissage non supervisĂ©, les donnĂ©es n’ont pas d’Ă©tiquettes. La machine se contente d’explorer les donnĂ©es Ă  la recherche d’Ă©ventuelles patterns. Elle ingĂšre de vastes quantitĂ©s de donnĂ©es, et utilise des algorithmes pour en extraire des caractĂ©ristiques pertinentes requises pour Ă©tiqueter, trier et classifier les donnĂ©es en temps rĂ©el sans intervention humaine.

PlutĂŽt que d’automatiser les dĂ©cisions et les prĂ©dictions, cette approche permet d’identifier les patterns et les relations que les humains risquent de ne pas identifier dans les donnĂ©es. Cette technique n’est pas trĂšs populaire, car moins simple Ă  appliquer. Elle est toutefois de plus en plus populaire dans le domaine de la cybersĂ©curitĂ©.

L’apprentissage « semi-supervisé » se situe entre les deux et offre un compromis entre apprentissage supervisĂ© et non-supervisĂ©. Pendant l’entraĂźnement, un ensemble de donnĂ©es Ă©tiquetĂ© de moindre envergure est utilisĂ© pour guider la classification et l’extraction de caractĂ©ristiques Ă  partir d’un ensemble plus large de donnĂ©es non Ă©tiquetĂ©es.

Cette approche s’avĂšre utile dans les situations oĂč le nombre de donnĂ©es Ă©tiquetĂ©es est insuffisant pour l’entraĂźnement d’un algorithme supervisĂ©. Elle permet de contourner le problĂšme.

Enfin, l’apprentissage par renforcement consiste Ă  laisser un algorithme apprendre de ses erreurs pour atteindre un objectif. L’algorithme essayera de nombreuses approches diffĂ©rentes pour tenter d’atteindre son but.

En fonction de ses performances, il sera rĂ©compensĂ© ou pĂ©nalisĂ© pour l’inciter Ă  poursuivre dans une voie ou Ă  changer d’approche. Cette technique est notamment utilisĂ©e pour permettre Ă  une IA de surpasser les humains dans les jeux.

Par exemple, AlphaGo de Google a battu le champion de Go grĂące Ă  l’apprentissage par renforcement. De mĂȘme, OpenAI a entraĂźnĂ© une IA capable de vaincre les meilleurs joueurs du jeu vidĂ©o Dota 2.

Cas d'usage et applications

Ces derniĂšres annĂ©es, on entend parler de nombreuses avancĂ©es dans le domaine de l’intelligence artificielle. De mĂȘme, les applications de l’IA se multiplient. En rĂ©alitĂ©, la vaste majoritĂ© des progrĂšs effectuĂ©s dans ce domaine sont directement liĂ©s au Machine Learning.

Le Machine Learning se cache derriĂšre un grand nombre de services modernes trĂšs populaires. Par exemple, les systĂšmes de recommandation de Netflix, YouTube et Spotify exploitent cette technologie.

Il en va de mĂȘme pour les moteurs de recherche web de Google et Baidu, pour les fils d’actualitĂ© de rĂ©seaux sociaux tels que Facebook et Twitter, ou pour les assistants vocaux comme Siri et Alexa. Ainsi, le Machine Learning peut ĂȘtre considĂ©rĂ© comme une innovation phare de ce dĂ©but de XXIĂšme siĂšcle.

C’est la raison pour laquelle les plateformes citĂ©es ci-dessus et les autres gĂ©ants du web collectent de vastes quantitĂ©s de donnĂ©es personnelles sur leurs utilisateurs : le genre de films que vous prĂ©fĂ©rez, les liens sur lesquels vous cliquez, les publications auxquelles vous rĂ©agissez… toutes ces donnĂ©es peuvent ĂȘtre utilisĂ©es pour nourrir un algorithme de Machine Learning et lui permettre de prĂ©dire ce que vous voulez.

Le Machine Learning est Ă©galement ce qui permet aux aspirateurs robots de faire le mĂ©nage seuls, Ă  votre boite mail de dĂ©tecter les spams, et aux systĂšmes d’analyse d’image mĂ©dicale d’aider les mĂ©decins Ă  repĂ©rer les tumeurs plus efficacement. Les voitures autonomes, elles aussi reposent sur l’apprentissage automatique.

Les assistants numĂ©riques, comme Apple Siri, Amazon Alexa ou Google Assistant, reposent sur la technologie de traitement naturel du langage (NLP). Il s’agit d’une application du Machine Learning permettant aux ordinateurs de traiter des donnĂ©es vocales ou textuelles afin de  » comprendre  » le langage humain. Cette technologie propulse aussi la voix de votre GPS ou encore les Chatbots et les logiciels de type  » speech-to-text « .

À mesure que le Big Data continuera Ă  se dĂ©velopper, avec toujours plus de donnĂ©es gĂ©nĂ©rĂ©es, et alors que l’informatique continuera Ă  gagner en puissance, le Machine Learning offrira encore davantage de possibilitĂ©s

Vous ĂȘtes dĂ©sormais incollable sur le Machine Learning. Cette discipline est au coeur de la Data Science, et vous pourrez vous initier Ă  travers notre formation de Data Scientist. DĂ©couvrez aussi comment utiliser le langage Python pour le Machine Learning.

Machine learning et analyse de données

Le Machine Learning est massivement utilisĂ© pour la Data Science et l’analyse de donnĂ©es. Il permet de dĂ©velopper, de tester et d’appliquer des algorithmes d’analyse prĂ©dictive sur diffĂ©rents types de donnĂ©es afin de prĂ©dire le futur.

En automatisant le dĂ©veloppement de modĂšle analytique, le Machine Learning permet d’accĂ©lĂ©rer l’analyse de donnĂ©es et de la rendre plus prĂ©cise. Il permet d’assigner aux machines des tĂąches au cƓur de l’analyse de donnĂ©es comme la classification, le clustering ou la dĂ©tection d’anomalie.

Les algorithmes ingĂšrent les donnĂ©es et dĂ©livrent des infĂ©rences statistiques, et peuvent s’amĂ©liorer de maniĂšre autonome au fil du temps. Lorsqu’ils dĂ©tectent un changement dans les donnĂ©es, ils sont capables de prendre des dĂ©cisions sans intervention humaine.

Pour l’heure, un humain reste toutefois nĂ©cessaire pour passer en revue les rĂ©sultats des analyses produites par les algorithmes de Machine Learning. Son rĂŽle est de donner du sens Ă  ces rĂ©sultats, ou encore de s’assurer que les donnĂ©es traitĂ©es par l’algorithme ne soient ni biaisĂ©es ni altĂ©rĂ©es.

Quelle est la différence entre Machine Learning et Intelligence Artificielle ?

Le machine learning et l’intelligence artificielle sont souvent utilisĂ©s de maniĂšre interchangeable. Dans les deux cas, il s’agit de traiter d’Ă©normes volumes de donnĂ©es, d’amĂ©liorer la prise de dĂ©cision, de rĂ©aliser des analyses prĂ©dictives, etc. Et pourtant, ces deux notions ne sont pas synonymes. 

L’intelligence artificielle fait rĂ©fĂ©rence Ă  l’utilisation de diverses techniques permettant aux machines de dĂ©velopper des fonctions cognitives propres Ă  l’intelligence humaine. Les principales Ă©tant la comprĂ©hension, la communication, la mĂ©morisation, le raisonnement, l’adaptation et l’apprentissage autonome.

Or, en permettant aux algorithmes d’apprendre de maniĂšre autonome grĂące Ă  des ensembles de donnĂ©es, le machine learning participe justement au dĂ©veloppement de cette IA. Mais ce n’est pas la seule technique utilisĂ©e. Il y a aussi le deep learning, la robotique, les systĂšmes experts, le traitement du langage naturel, etc. La machine learning n’est donc qu’une branche de l’intelligence artificielle.

Pour vous aider à mieux comprendre la différence entre machine learning et intelligence artificielle, voici un tableau récapitulatif :

Machine learning Intelligence artificielle
L’apprentissage automatique est une technique permettant de dĂ©velopper l’IA. L’IA est un concept visant Ă  imiter l’intelligence humaine.
Le ML permet aux machines d'apprendre par elles-mĂȘmes (sans raisonnement propre). L’IA cherche Ă  crĂ©er des modĂšles capables de raisonner par eux-mĂȘmes.
Le ML permet aux machines de rĂ©soudre des problĂ©matiques spĂ©cifiques. L’IA crĂ©er des modĂšles capables de rĂ©soudre des tĂąches complexes comme un humain.
Le ML n’utilise que des donnĂ©es structurĂ©es ou semi-structurĂ©es. L’IA peut utiliser tous types de donnĂ©es.
Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les derniÚres actualités data directement dans votre boßte mail.

Vous souhaitez ĂȘtre alertĂ© des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?