Le mot algorithme est désormais présent dans le langage courant. Mais que veut-il bien dire ? Derrière ce simple mot se cache tout un monde, apprentissage non supervisé, data science, réseau de neurones… Et si on prenait le temps de définir les choses ? Dans cet article, vous allez découvrir ou redécouvrir quelques algorithmes de Machine Learning utiles à savoir maîtriser.
Commençons par la base, quelle est la différence entre le machine learning et le deep learning. La différence majeure est le type de données. D’un côté, le machine learning va traiter des données structurées (données numériques).
Il faut aussi faire la différence entre les algorithmes supervisés ou non supervisés.
En bref, les algorithmes de machine learning font des prédictions à partir d’exemples déjà labellisés dans le cas de l’apprentissage supervisé. En revanche pour l’apprentissage non supervisé, cela va se faire sur un volume de données non labellisées. Le modèle de machine learning doit donc prédire les résultats sans se baser sur des résultats prédéfinis.
Pour en savoir plus sur les domaines d’applications sur l’apprentissage non supervisé, vous pouvez lire cet article.
Cela étant fait, nous allons maintenant parler 3 des principaux algorithmes de machine learning simples utiles à maîtriser en entreprise :
La Régression Logistique
La régression logistique permet d’étudier les relations entre des variables qualitatives Xi (les features) et une variable qualitative Y. Le modèle de régression logistique fournit la probabilité qu’un événement se produise ou non. Pour ce faire, on cherche une fonction de lien h et on optimise ses coefficients de régression. Vous trouverez plus d’informations sur la régression logistique ici.
Mais concrètement à quoi ça sert ?
La régression logistique est un algorithme de base en machine learning, il permet de faire de la classification rapidement sur des ensembles de données. Par exemple, sur la détection de textes, on retrouve la régression logistique pour détecter des discours haineux sur un forum par exemple, ou encore pour classifier les sujets d’un article.
Mais la régression logistique se retrouve aussi dans les jeux-vidéos. En effet, sa simplicité fait sa force et permet de s’exécuter très rapidement. Tencent l’utilise par exemple dans ses jeux afin d’affiner le système de recommandation pour les achats ‘in-game’.
Et ces domaines ne sont pas des exceptions, on retrouve la régression logistique autant dans la médecine que dans l’industrie. C’est donc un algorithme qu’il faut aujourd’hui maîtriser. Vous voulez vous former à la data science ? Nous proposons des formations pour maîtriser tous ces algorithmes.
KNN
La méthode de KNN, en français Méthode des K plus proches voisins est une méthode d’apprentissage supervisé. L’idée de cet algorithme va être de classifier un point à des catégories en se basant sur la classe de ses plus proches voisins dans la base de données. Pour en savoir plus sur l’algorithme KNN découvrez notre article sur le sujet.
Cette méthode se base sur l’adage : « Qui se ressemble s’assemble ». En effet, des données de la même classe ont de fortes chances de se trouver proches. D’un point de vue technique, il faut choisir le nombre de voisins à étudier.
En pratique, on retrouve l’algorithme KNN dans de nombreuses applications en raison de sa facilité d’implémentation et de sa simplicité. En revanche, si le nombre de variables est grand, il peut vite être trop lent pour être efficient.
On le retrouve beaucoup dans les systèmes de recommandations. Prenons pour exemple un site permettant de choisir son repas. Pour améliorer la recommandation, le site va prendre en compte les anciennes recherches pour fournir de nouveaux résultats similaires. C’est donc en utilisant l’algorithme des plus proches voisins que le site est en mesure de fournir un résultat.
On retrouve aussi cet algorithme de machine learning dans la détection de fraude en temps réel. Ici on va chercher les données qui s’écartent de la norme, qui ne ressemble pas à des patterns classiques.
Certes, cet algorithme est simple et rapide, mais il faut aussi savoir l’ajuster. En effet, avec ce genre de classification on peut vite exacerber les biais humains. Car un tel algorithme reproduit à grande échelle des patterns existant. Il faut donc penser à bien prendre en compte ces biais afin d’éviter leurs généralisations.
Arbres de décision
Les arbres de décisions sont des modèles de Machine Learning très prisés. En effet, ils sont très simples à interpréter et sont assez fiables. Cela permet de créer des outils d’aide à la décision pour les équipes qui ne sont pas forcément de la data.
Cela repose sur des arbres de décisions, c’est-à-dire des séries de questions à choix multiples qui mène à la décision finale. L’algorithme de machine Learning va permettre par itération de définir les probabilités d’arriver à une décision. Cela permet d’optimiser le chemin à suivre pour arriver au bon résultat.
Ces arbres de décisions peuvent devenir très puissants quand on les intègre dans des méthodes ensemblistes tels que les Random Forest
Néanmoins, il faut être vigilant, car ces algorithmes peuvent mener à du sur-apprentissage. L’algorithme va exacerber des chemins parfaits qui finalement ne sont en cohérence qu’avec uniquement des situations très particulières.
Nous avons donc rapidement vu 3 des principaux algorithmes en Machine Learning à maîtriser ! En effet, ces derniers sont utiles dans tous les domaines et peuvent être mis en application autant sur de grandes bases de données que sur des structures plus petites. Vous souhaitez savoir mettre en place de tels algorithmes, mais aussi des méthodes de bagging et de boosting, nos formations vous permettent de maîtriser les algorithmes de bases, mais aussi des plus complexes.