Machine learning

Machine Learning : DĂ©finition, fonctionnement, utilisations

Bastien L

Bastien L

7 min

DĂ©couvrez tout ce que vous devez savoir sur le Machine Learning : dĂ©finition, fonctionnement, diffĂ©rentes catĂ©gories… vous saurez tout sur l’apprentissage automatique et son impact rĂ©volutionnaire dans tous les domaines !

Le Machine Learning ou apprentissage automatique est un domaine scientifique, et plus particulièrement une sous-catĂ©gorie de l’intelligence artificielle. Elle consiste Ă  laisser des algorithmes dĂ©couvrir des ” patterns “, Ă  savoir des motifs rĂ©currents, dans les ensembles de donnĂ©es. Ces donnĂ©es peuvent ĂŞtre des chiffres, des mots, des images, des statistiques…

Tout ce qui peut ĂŞtre stockĂ© numĂ©riquement peut servir de donnĂ©es pour le Machine Learning. En dĂ©celant les patterns dans ces donnĂ©es, les algorithmes apprennent et amĂ©liorent leurs performances dans l’exĂ©cution d’une tâche spĂ©cifique.

Pour rĂ©sumer, les algorithmes de Machine Learning apprennent de manière autonome Ă  effectuer une tâche ou Ă  rĂ©aliser des prĂ©dictions Ă  partir de donnĂ©es et amĂ©liorent leurs performances au fil du temps. Une fois entraĂ®nĂ©, l’algorithme pourra retrouver les patterns dans de nouvelles donnĂ©es.

Comment fonctionne le Machine Learning ?

Le dĂ©veloppement d’un modèle de Machine Learning repose sur quatre Ă©tapes principales. En règle gĂ©nĂ©rale, c’est un Data Scientist qui gère et supervise ce procĂ©dĂ©.

La première Ă©tape consiste Ă  sĂ©lectionner et Ă  prĂ©parer un ensemble de donnĂ©es d’entraĂ®nement. Ces donnĂ©es seront utilisĂ©es pour nourrir le modèle de Machine Learning pour apprendre Ă  rĂ©soudre le problème pour lequel il est conçu.

Les donnĂ©es peuvent ĂŞtre Ă©tiquetĂ©es, afin d’indiquer au modèle les caractĂ©ristiques qu’il devra identifier. Elles peuvent aussi ĂŞtre non Ă©tiquetĂ©es, et le modèle devra repĂ©rer et extraire les caractĂ©ristiques rĂ©currentes de lui-mĂŞme.

Dans les deux cas, les donnĂ©es doivent ĂŞtre soigneusement prĂ©parĂ©es, organisĂ©es et nettoyĂ©es. Dans le cas contraire, l’entraĂ®nement du modèle de Machine Learning risque d’ĂŞtre biaisĂ©. Les rĂ©sultats de ses futures prĂ©dictions seront directement impactĂ©s.

La deuxième Ă©tape consiste Ă  sĂ©lectionner un algorithme Ă  exĂ©cuter sur l’ensemble de donnĂ©es d’entraĂ®nement. Le type d’algorithme Ă  utiliser dĂ©pend du type et du volume de donnĂ©es d’entraĂ®nement et du type de problème Ă  rĂ©soudre.

La troisième Ă©tape est l’entraĂ®nement de l’algorithme. Il s’agit d’un processus itĂ©ratif. Des variables sont exĂ©cutĂ©es Ă  travers l’algorithme, et les rĂ©sultats sont comparĂ©s avec ceux qu’il aurait du produire. Les ” poids ” et le biais peuvent ensuite ĂŞtre ajustĂ©s pour accroĂ®tre la prĂ©cision du rĂ©sultat.

On exĂ©cute ensuite de nouveau les variables jusqu’Ă  ce que l’algorithme produise le rĂ©sultat correct la plupart du temps. L’algorithme, ainsi entraĂ®nĂ©, est le modèle de Machine Learning.

La quatrième et dernière Ă©tape est l’utilisation et l’amĂ©lioration du modèle. On utilise le modèle sur de nouvelles donnĂ©es, dont la provenance dĂ©pend du problème Ă  rĂ©soudre.Par exemple, un modèle de Machine Learning conçu pour dĂ©tecter les spams sera utilisĂ© sur des emails.

De son cĂ´tĂ©, le modèle de Machine Learning d’un aspirateur robot ingère des donnĂ©es rĂ©sultant de l’interaction avec le monde rĂ©el comme le dĂ©placement de meubles ou l’ajout de nouveaux objets dans la pièce. L’efficacitĂ© et la prĂ©cision peuvent Ă©galement s’accroĂ®tre au fil du temps.

Quels sont les principaux algorithmes de Machine Learning ?

Il existe une large variĂ©tĂ© d’algorithmes de Machine Learning. Certains sont toutefois plus couramment utilisĂ©s que d’autres. Tout d’abord, diffĂ©rents algorithmes sont utilisĂ©s pour les donnĂ©es Ă©tiquetĂ©es.

Les algorithmes de rĂ©gression, linĂ©aire ou logistique, permettent de comprendre les relations entre les donnĂ©es. La rĂ©gression linĂ©aire est utilisĂ©e pour prĂ©dire la valeur d’une variable dĂ©pendante base sur la valeur d’une variable indĂ©pendante. Il s’agirait par exemple de prĂ©dire les ventes annuelles d’un commercial en fonction de son niveau d’Ă©tudes ou de son expĂ©rience.

La rĂ©gression logistique est quant Ă  elle utilisĂ©e quand les variables dĂ©pendantes sont binaires. Un autre type d’algorithme de rĂ©gression appelĂ© machine Ă  vecteur de support est pertinent quand les variables dĂ©pendantes sont plus difficiles Ă  classifier.

Un autre algorithme ML populaire est l’arbre de dĂ©cision. Cet algorithme permet d’Ă©tablir des recommandations basĂ©es sur un ensemble de règles de dĂ©cisions en se basant sur des donnĂ©es classifiĂ©es. Par exemple, il est possible de recommander sur quelle Ă©quipe de football parier en se basant sur des donnĂ©es telles que l’âge des joueurs ou le pourcentage de victoire de l’Ă©quipe.

Pour les donnĂ©es non Ă©tiquetĂ©es, on utilise souvent les algorithmes de ” clustering “. Cette mĂ©thode consiste Ă  identifier les groupes prĂ©sentant des enregistrements similaires et Ă  Ă©tiqueter ces enregistrements en fonction du groupe auquel ils appartiennent.

Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi les algorithmes de clustering, on compte les K-moyennes, le TwoStep ou encore le Kohonen.

Les algorithmes d’association permettent quant Ă  eux de dĂ©couvrir des patterns et des relations dans les donnĂ©es, et Ă  identifier les relations ” si / alors ” appelĂ©es ” règles d’association “. Ces règles sont similaires Ă  celles utilisĂ©es dans le domaine du Data Mining ou forage de donnĂ©es.

Enfin, les rĂ©seaux de neurones sont des algorithmes se prĂ©sentant sous la forme d’un rĂ©seau Ă  plusieurs couches. La première couche permet l’ingestion des donnĂ©es, une ou plusieurs couches cachĂ©es tirent des conclusions Ă  partir des donnĂ©es ingĂ©rĂ©es, et la dernière couche assigne une probabilitĂ© Ă  chaque conclusion.

Un rĂ©seau de neurones ” profond “ est composĂ© de multiples couches cachĂ©es permettant chacune de raffiner les rĂ©sultats de la prĂ©cĂ©dente. On l’utilise dans le domaine du Deep Learning.

Qu'est-ce que le Deep Learning ?

Le Deep Learning est une branche du Machine Learning, mais il s’agit aujourd’hui de la plus couramment utilisĂ©e. Il s’agit d’une invention de Geoffrey Hinton, datĂ©e de 1986.

Pour faire simple, le Deep Learning est une version amĂ©liorĂ©e du Machine Learning. L’apprentissage profond utilise une technique lui confĂ©rant une aptitude supĂ©rieure Ă  dĂ©tecter les patterns mĂŞme les plus subtiles.

Cette technique est appelée réseau de neurones profond. Cette profondeur correspond au large nombre de couches de noeuds de calcul qui constituent ces réseaux et travaillent en collaboration pour traiter les données et délivrer des prédictions.

Ces rĂ©seaux de neurones s’inspirent directement du fonctionnement du cerveau humain. Les noeuds de calcul sont comparables aux neurones, et le rĂ©seau en lui-mĂŞme s’apparente au cerveau.

Quels sont les différents types de Machine Learning ?

On distingue trois techniques de Machine Learning : l’apprentissage supervisĂ©, l’apprentissage non-supervisĂ©, et l’apprentissage par renforcement. Dans le cas de l’apprentissage supervisĂ©, le plus courant, les donnĂ©es sont Ă©tiquetĂ©es afin d’indiquer Ă  la machine quelles patterns elle doit rechercher.

Le système s’entraĂ®ne sur un ensemble de donnĂ©es Ă©tiquetĂ©es, avec les informations qu’il est censĂ© dĂ©terminer. Les donnĂ©es peuvent mĂŞme ĂŞtre dĂ©jĂ  classifiĂ©es de la manière dont le système est supposĂ© le faire.

Cette mĂ©thode nĂ©cessite moins de donnĂ©es d’entraĂ®nement que les autres, et facilite le processus d’entraĂ®nement puisque les rĂ©sultats du modèle peuvent ĂŞtre comparĂ©s avec les donnĂ©es dĂ©jĂ  Ă©tiquetĂ©es. Cependant, l’Ă©tiquetage des donnĂ©es peut se rĂ©vĂ©ler onĂ©reux. Un modèle peut aussi ĂŞtre biaisĂ© Ă  cause des donnĂ©es d’entraĂ®nement, ce qui impactera ses performances par la suite lors du traitement de nouvelles donnĂ©es.

Au contraire, dans le cas de l’apprentissage non supervisĂ©, les donnĂ©es n’ont pas d’Ă©tiquettes. La machine se contente d’explorer les donnĂ©es Ă  la recherche d’Ă©ventuelles patterns. Elle ingère de vastes quantitĂ©s de donnĂ©es, et utilise des algorithmes pour en extraire des caractĂ©ristiques pertinentes requises pour Ă©tiqueter, trier et classifier les donnĂ©es en temps rĂ©el sans intervention humaine.

PlutĂ´t que d’automatiser les dĂ©cisions et les prĂ©dictions, cette approche permet d’identifier les patterns et les relations que les humains risquent de ne pas identifier dans les donnĂ©es. Cette technique n’est pas très populaire, car moins simple Ă  appliquer. Elle est toutefois de plus en plus populaire dans le domaine de la cybersĂ©curitĂ©.

L’apprentissage ” semi-supervisĂ© “ se situe entre les deux et offre un compromis entre apprentissage supervisĂ© et non-supervisĂ©. Pendant l’entraĂ®nement, un ensemble de donnĂ©es Ă©tiquetĂ© de moindre envergure est utilisĂ© pour guider la classification et l’extraction de caractĂ©ristiques Ă  partir d’un ensemble plus large de donnĂ©es non Ă©tiquetĂ©es.

Cette approche s’avère utile dans les situations oĂą le nombre de donnĂ©es Ă©tiquetĂ©es est insuffisant pour l’entraĂ®nement d’un algorithme supervisĂ©. Elle permet de contourner le problème.

Enfin, l’apprentissage par renforcement consiste Ă  laisser un algorithme apprendre de ses erreurs pour atteindre un objectif. L’algorithme essayera de nombreuses approches diffĂ©rentes pour tenter d’atteindre son but.

En fonction de ses performances, il sera rĂ©compensĂ© ou pĂ©nalisĂ© pour l’inciter Ă  poursuivre dans une voie ou Ă  changer d’approche. Cette technique est notamment utilisĂ©e pour permettre Ă  une IA de surpasser les humains dans les jeux.

Par exemple, AlphaGo de Google a battu le champion de Go grâce Ă  l’apprentissage par renforcement. De mĂŞme, OpenAI a entraĂ®nĂ© une IA capable de vaincre les meilleurs joueurs du jeu vidĂ©o Dota 2.

Cas d'usage et applications

Ces dernières annĂ©es, on entend parler de nombreuses avancĂ©es dans le domaine de l’intelligence artificielle. De mĂŞme, les applications de l’IA se multiplient. En rĂ©alitĂ©, la vaste majoritĂ© des progrès effectuĂ©s dans ce domaine sont directement liĂ©s au Machine Learning.

Le Machine Learning se cache derrière un grand nombre de services modernes très populaires. Par exemple, les systèmes de recommandation de Netflix, YouTube et Spotify exploitent cette technologie.

Il en va de mĂŞme pour les moteurs de recherche web de Google et Baidu, pour les fils d’actualitĂ© de rĂ©seaux sociaux tels que Facebook et Twitter, ou pour les assistants vocaux comme Siri et Alexa. Ainsi, le Machine Learning peut ĂŞtre considĂ©rĂ© comme une innovation phare de ce dĂ©but de XXIème siècle.

C’est la raison pour laquelle les plateformes citĂ©es ci-dessus et les autres gĂ©ants du web collectent de vastes quantitĂ©s de donnĂ©es personnelles sur leurs utilisateurs : le genre de films que vous prĂ©fĂ©rez, les liens sur lesquels vous cliquez, les publications auxquelles vous rĂ©agissez… toutes ces donnĂ©es peuvent ĂŞtre utilisĂ©es pour nourrir un algorithme de Machine Learning et lui permettre de prĂ©dire ce que vous voulez.

Le Machine Learning est Ă©galement ce qui permet aux aspirateurs robots de faire le mĂ©nage seuls, Ă  votre boite mail de dĂ©tecter les spams, et aux systèmes d’analyse d’image mĂ©dicale d’aider les mĂ©decins Ă  repĂ©rer les tumeurs plus efficacement. Les voitures autonomes, elles aussi reposent sur l’apprentissage automatique.

Les assistants numĂ©riques, comme Apple Siri, Amazon Alexa ou Google Assistant, reposent sur la technologie de traitement naturel du langage (NLP). Il s’agit d’une application du Machine Learning permettant aux ordinateurs de traiter des donnĂ©es vocales ou textuelles afin de ” comprendre ” le langage humain. Cette technologie propulse aussi la voix de votre GPS ou encore les Chatbots et les logiciels de type ” speech-to-text “.

Ă€ mesure que le Big Data continuera Ă  se dĂ©velopper, avec toujours plus de donnĂ©es gĂ©nĂ©rĂ©es, et alors que l’informatique continuera Ă  gagner en puissance, le Machine Learning offrira encore davantage de possibilitĂ©s

Vous êtes désormais incollable sur le Machine Learning. Cette discipline est au coeur de la Data Science, et vous pourrez vous initier à travers notre formation de Data Scientist. Découvrez aussi comment utiliser le langage Python pour le Machine Learning.

Machine learning et analyse de données

Le Machine Learning est massivement utilisĂ© pour la Data Science et l’analyse de donnĂ©es. Il permet de dĂ©velopper, de tester et d’appliquer des algorithmes d’analyse prĂ©dictive sur diffĂ©rents types de donnĂ©es afin de prĂ©dire le futur.

En automatisant le dĂ©veloppement de modèle analytique, le Machine Learning permet d‘accĂ©lĂ©rer l’analyse de donnĂ©es et de la rendre plus prĂ©cise. Il permet d’assigner aux machines des tâches au cĹ“ur de l’analyse de donnĂ©es comme la classification, le clustering ou la dĂ©tection d’anomalie.

Les algorithmes ingèrent les donnĂ©es et dĂ©livrent des infĂ©rences statistiques, et peuvent s’amĂ©liorer de manière autonome au fil du temps. Lorsqu’ils dĂ©tectent un changement dans les donnĂ©es, ils sont capables de prendre des dĂ©cisions sans intervention humaine.

Pour l’heure, un humain reste toutefois nĂ©cessaire pour passer en revue les rĂ©sultats des analyses produites par les algorithmes de Machine Learning. Son rĂ´le est de donner du sens Ă  ces rĂ©sultats, ou encore de s’assurer que les donnĂ©es traitĂ©es par l’algorithme ne soient ni biaisĂ©es ni altĂ©rĂ©es.

Le Big Data pour les nuls
Business et Data Science

Le Big Data pour les Nuls

Le Big Data désigne les ressources dont les caractéristiques en termes de volume, de vélocité et de variété imposent l’utilisation de technologie et de méthodes

Lire plus »