Machine learning

Machine Learning : qu’est-ce que c’est, et pourquoi ça change le monde

Bastien L

Bastien L

6 min

Découvrez tout ce que vous devez savoir sur le Machine Learning : définition, fonctionnement, différentes catégories… vous saurez tout sur l’apprentissage automatique et son impact révolutionnaire dans tous les domaines !

Le Machine Learning ou apprentissage automatique est un domaine scientifique, et plus particulièrement une sous-catégorie de l’intelligence artificielle. Elle consiste à laisser des algorithmes découvrir des ” patterns “, à savoir des motifs récurrents, dans les ensembles de données. Ces données peuvent être des chiffres, des mots, des images, des statistiques…

Tout ce qui peut être stocké numériquement peut servir de données pour le Machine Learning. En décelant les patterns dans ces données, les algorithmes apprennent et améliorent leurs performances dans l’exécution d’une tâche spécifique.

Pour résumer, les algorithmes de Machine Learning apprennent de manière autonome à effectuer une tâche ou à réaliser des prédictions à partir de données et améliorent leurs performances au fil du temps. Une fois entraîné, l’algorithme pourra retrouver les patterns dans de nouvelles données.

Comment fonctionne le Machine Learning ?

Le développement d’un modèle de Machine Learning repose sur quatre étapes principales. En règle générale, c’est un Data Scientist qui gère et supervise ce procédé.

La première étape consiste à sélectionner et à préparer un ensemble de données d’entraînement. Ces données seront utilisées pour nourrir le modèle de Machine Learning pour apprendre à résoudre le problème pour lequel il est conçu.

Les données peuvent être étiquetées, afin d’indiquer au modèle les caractéristiques qu’il devra identifier. Elles peuvent aussi être non étiquetées, et le modèle devra repérer et extraire les caractéristiques récurrentes de lui-même.

Dans les deux cas, les données doivent être soigneusement préparées, organisées et nettoyées. Dans le cas contraire, l’entraînement du modèle de Machine Learning risque d’être biaisé. Les résultats de ses futures prédictions seront directement impactés.

La deuxième étape consiste à sélectionner un algorithme à exécuter sur l’ensemble de données d’entraînement. Le type d’algorithme à utiliser dépend du type et du volume de données d’entraînement et du type de problème à résoudre.

La troisième étape est l’entraînement de l’algorithme. Il s’agit d’un processus itératif. Des variables sont exécutées à travers l’algorithme, et les résultats sont comparés avec ceux qu’il aurait du produire. Les ” poids ” et le biais peuvent ensuite être ajustés pour accroître la précision du résultat.

On exécute ensuite de nouveau les variables jusqu’à ce que l’algorithme produise le résultat correct la plupart du temps. L’algorithme, ainsi entraîné, est le modèle de Machine Learning.

La quatrième et dernière étape est l’utilisation et l’amélioration du modèle. On utilise le modèle sur de nouvelles données, dont la provenance dépend du problème à résoudre.Par exemple, un modèle de Machine Learning conçu pour détecter les spams sera utilisé sur des emails.

De son côté, le modèle de Machine Learning d’un aspirateur robot ingère des données résultant de l’interaction avec le monde réel comme le déplacement de meubles ou l’ajout de nouveaux objets dans la pièce. L’efficacité et la précision peuvent également s’accroître au fil du temps.

Quels sont les principaux algorithmes de Machine Learning ?

Il existe une large variété d’algorithmes de Machine Learning. Certains sont toutefois plus couramment utilisés que d’autres. Tout d’abord, différents algorithmes sont utilisés pour les données étiquetées.

Les algorithmes de régression, linéaire ou logistique, permettent de comprendre les relations entre les données. La régression linéaire est utilisée pour prédire la valeur d’une variable dépendante base sur la valeur d’une variable indépendante. Il s’agirait par exemple de prédire les ventes annuelles d’un commercial en fonction de son niveau d’études ou de son expérience.

La régression logistique est quant à elle utilisée quand les variables dépendantes sont binaires. Un autre type d’algorithme de régression appelé machine à vecteur de support est pertinent quand les variables dépendantes sont plus difficiles à classifier.

Un autre algorithme ML populaire est l’arbre de décision. Cet algorithme permet d’établir des recommandations basées sur un ensemble de règles de décisions en se basant sur des données classifiées. Par exemple, il est possible de recommander sur quelle équipe de football parier en se basant sur des données telles que l’âge des joueurs ou le pourcentage de victoire de l’équipe.

Pour les données non étiquetées, on utilise souvent les algorithmes de ” clustering “. Cette méthode consiste à identifier les groupes présentant des enregistrements similaires et à étiqueter ces enregistrements en fonction du groupe auquel ils appartiennent.

Auparavant, les groupes et leurs caractéristiques sont inconnus. Parmi les algorithmes de clustering, on compte les K-moyennes, le TwoStep ou encore le Kohonen.

Les algorithmes d’association permettent quant à eux de découvrir des patterns et des relations dans les données, et à identifier les relations ” si / alors ” appelées ” règles d’association “. Ces règles sont similaires à celles utilisées dans le domaine du Data Mining ou forage de données.

Enfin, les réseaux de neurones sont des algorithmes se présentant sous la forme d’un réseau à plusieurs couches. La première couche permet l’ingestion des données, une ou plusieurs couches cachées tirent des conclusions à partir des données ingérées, et la dernière couche assigne une probabilité à chaque conclusion.

Un réseau de neurones ” profond “ est composé de multiples couches cachées permettant chacune de raffiner les résultats de la précédente. On l’utilise dans le domaine du Deep Learning.

Qu'est-ce que le Deep Learning ?

Le Deep Learning est une branche du Machine Learning, mais il s’agit aujourd’hui de la plus couramment utilisée. Il s’agit d’une invention de Geoffrey Hinton, datée de 1986.

Pour faire simple, le Deep Learning est une version améliorée du Machine Learning. L’apprentissage profond utilise une technique lui conférant une aptitude supérieure à détecter les patterns même les plus subtiles.

Cette technique est appelée réseau de neurones profond. Cette profondeur correspond au large nombre de couches de noeuds de calcul qui constituent ces réseaux et travaillent en collaboration pour traiter les données et délivrer des prédictions.

Ces réseaux de neurones s’inspirent directement du fonctionnement du cerveau humain. Les noeuds de calcul sont comparables aux neurones, et le réseau en lui-même s’apparente au cerveau.

Quels sont les différents types de Machine Learning ?

On distingue trois techniques de Machine Learning : l’apprentissage supervisé, l’apprentissage non-supervisé, et l’apprentissage par renforcement. Dans le cas de l’apprentissage supervisé, le plus courant, les données sont étiquetées afin d’indiquer à la machine quelles patterns elle doit rechercher.

Le système s’entraîne sur un ensemble de données étiquetées, avec les informations qu’il est censé déterminer. Les données peuvent même être déjà classifiées de la manière dont le système est supposé le faire.

Cette méthode nécessite moins de données d’entraînement que les autres, et facilite le processus d’entraînement puisque les résultats du modèle peuvent être comparés avec les données déjà étiquetées. Cependant, l’étiquetage des données peut se révéler onéreux. Un modèle peut aussi être biaisé à cause des données d’entraînement, ce qui impactera ses performances par la suite lors du traitement de nouvelles données.

Au contraire, dans le cas de l’apprentissage non supervisé, les données n’ont pas d’étiquettes. La machine se contente d’explorer les données à la recherche d’éventuelles patterns. Elle ingère de vastes quantités de données, et utilise des algorithmes pour en extraire des caractéristiques pertinentes requises pour étiqueter, trier et classifier les données en temps réel sans intervention humaine.

Plutôt que d’automatiser les décisions et les prédictions, cette approche permet d’identifier les patterns et les relations que les humains risquent de ne pas identifier dans les données. Cette technique n’est pas très populaire, car moins simple à appliquer. Elle est toutefois de plus en plus populaire dans le domaine de la cybersécurité.

L’apprentissage ” semi-supervisé “ se situe entre les deux et offre un compromis entre apprentissage supervisé et non-supervisé. Pendant l’entraînement, un ensemble de données étiqueté de moindre envergure est utilisé pour guider la classification et l’extraction de caractéristiques à partir d’un ensemble plus large de données non étiquetées.

Cette approche s’avère utile dans les situations où le nombre de données étiquetées est insuffisant pour l’entraînement d’un algorithme supervisé. Elle permet de contourner le problème.

Enfin, l’apprentissage par renforcement consiste à laisser un algorithme apprendre de ses erreurs pour atteindre un objectif. L’algorithme essayera de nombreuses approches différentes pour tenter d’atteindre son but.

En fonction de ses performances, il sera récompensé ou pénalisé pour l’inciter à poursuivre dans une voie ou à changer d’approche. Cette technique est notamment utilisée pour permettre à une IA de surpasser les humains dans les jeux.

Par exemple, AlphaGo de Google a battu le champion de Go grâce à l’apprentissage par renforcement. De même, OpenAI a entraîné une IA capable de vaincre les meilleurs joueurs du jeu vidéo Dota 2.

Cas d'usage et applications

Ces dernières années, on entend parler de nombreuses avancées dans le domaine de l’intelligence artificielle. De même, les applications de l’IA se multiplient. En réalité, la vaste majorité des progrès effectués dans ce domaine sont directement liés au Machine Learning.

Le Machine Learning se cache derrière un grand nombre de services modernes très populaires. Par exemple, les systèmes de recommandation de Netflix, YouTube et Spotify exploitent cette technologie.

Il en va de même pour les moteurs de recherche web de Google et Baidu, pour les fils d’actualité de réseaux sociaux tels que Facebook et Twitter, ou pour les assistants vocaux comme Siri et Alexa. Ainsi, le Machine Learning peut être considéré comme une innovation phare de ce début de XXIème siècle.

C’est la raison pour laquelle les plateformes citées ci-dessus et les autres géants du web collectent de vastes quantités de données personnelles sur leurs utilisateurs : le genre de films que vous préférez, les liens sur lesquels vous cliquez, les publications auxquelles vous réagissez… toutes ces données peuvent être utilisées pour nourrir un algorithme de Machine Learning et lui permettre de prédire ce que vous voulez.

Le Machine Learning est également ce qui permet aux aspirateurs robots de faire le ménage seuls, à votre boite mail de détecter les spams, et aux systèmes d’analyse d’image médicale d’aider les médecins à repérer les tumeurs plus efficacement. Les voitures autonomes, elles aussi reposent sur l’apprentissage automatique.

Les assistants numériques, comme Apple Siri, Amazon Alexa ou Google Assistant, reposent sur la technologie de traitement naturel du langage (NLP). Il s’agit d’une application du Machine Learning permettant aux ordinateurs de traiter des données vocales ou textuelles afin de ” comprendre ” le langage humain. Cette technologie propulse aussi la voix de votre GPS ou encore les Chatbots et les logiciels de type ” speech-to-text “.

À mesure que le Big Data continuera à se développer, avec toujours plus de données générées, et alors que l’informatique continuera à gagner en puissance, le Machine Learning offrira encore davantage de possibilités

Vous êtes désormais incollable sur le Machine Learning. Cette discipline est au coeur de la Data Science, et vous pourrez vous initier à travers notre formation de Data Scientist. Découvrez aussi comment utiliser le langage Python pour le Machine Learning.

Actualité data

DataScientist : Recrutement VS Formation

Pour la 5ème année consécutive, le métier de Data Scientist a été désigné comme le meilleur emploi aux USA par Glassdoor c’est aussi le métier qui connaît la croissance la plus rapide.

Lire plus »
Intelligence Artificielle et Société

Ethique ou Big Data

Comment faire prévaloir une question d’éthique en matière de données alors que la concurrence se veut mondiale ? Les européens doivent-ils se soumettre à une concurrence américaine et asiatique déloyale pour une question d’éthique ?

Lire plus »