ReCall est une approche de Machine Learning visant à maximiser la sensibilité d’un modèle, même au détriment de sa spécificité. Le but ? Éviter tout risque de faux négatifs lors d’une prédiction. Découvrez tout ce qu’il faut savoir sur cette technique !
Au cours des dernières années, le Machine Learning s’est imposé comme l’une des principales révolutions dans le domaine du numérique.
En permettant aux systèmes informatiques d’apprendre et de s’améliorer sans être programmés manuellement, l’apprentissage automatique offre une myriade de possibilités nouvelles.
Grâce aux progrès réalisés, ses applications ont été élargies à de nombreux secteurs, de la santé à la finance en passant par la recherche scientifique.
Toutefois, pour garantir la pertinence et l’efficacité d’un système de Machine Learning, la qualité des prédictions est cruciale. Dans certaines situations, un faux négatif peut avoir de graves conséquences.
Par exemple, dans le domaine de la santé, un diagnostic erroné peut mettre en péril la vie d’un patient. De même, un système de détection de fraude qui ignore une transaction frauduleuse peut entraîner des pertes financières colossales.
Afin de minimiser ces erreurs de prédiction potentiellement catastrophiques, une approche novatrice a vu le jour : reCALL.
Qu’est-ce que ReCALL ?
Alors que les algorithmes traditionnels visent à maximiser la précision des prédictions, ReCALL se focalise sur l’amélioration de la « sensibilité » du modèle de Machine Learning : sa capacité à identifier correctement les occurrences positives.
Le but n’est donc plus d’atteindre un équilibre entre spécificité et sensibilité, comme à l’accoutumée, mais de maximiser coûte que coûte cette caractéristique.
En d’autres termes, ReCALL donne la priorité à la détection correcte des cas positifs quitte à tolérer une augmentation des faux positifs. Ceci élimine le risque de faux négatifs, à savoir les cas où des événements positifs sont mal classifiés.
À titre de comparaison, les machines à vecteurs de support (SVM) et les réseaux de neurones classiques sont généralement entraînés en utilisant des fonctions de coût équilibrées pour les classes positives et négatives. C’est ce qui peut atténuer leur sensibilité.
De son côté, ReCALL se base sur des approches de rééquilibrage des classes ou des méthodes d’apprentissage semi-supervisées pour améliorer la capacité du modèle à détecter les événements positifs rares ou importants.
En ajustant les seuils de décision, elle permet d’atteindre des niveaux de sensibilité élevés tout en maintenant une spécificité acceptable.
Comment ça fonctionne ? Le processus ReCALL
Comme pour toute tâche de Machine Learning, la collecte et la préparation des données occupent une place essentielle dans le processus de ReCALL.Afin d’améliorer la sensibilité du modèle, les datasets d’entraînement doivent impérativement contenir des cas positifs et négatifs représentatifs.
Dans certains cas, les occurrences positives peuvent être rares. Il est alors difficile de constituer un jeu de données équilibré.L’étape suivante consiste à sélectionner le modèle de Machine Learning le plus approprié pour optimiser la sensibilité. Certains algorithmes sont plus adaptés pour cette tâche.
Par exemple, les classifieurs probabilistes comme la régression logistique ont une capacité très utile à produire des scores de probabilité pour les classes. Cela facilite le réglage des seuils de décision.
On peut aussi utiliser les forêts aléatoires ou les XGBoost, pouvant être configurés pour attribuer davantage de poids aux erreurs de type II (faux négatifs) par rapport aux erreurs de type I (faux positifs).
Après avoir préparé les données et choisi le modèle, l’entraînement du modèle en ReCALL peut commencer. Un processus itératif d’expérimentation peut débuter pour trouver le bon équilibre sensibilité / spécificité en ajustant les seuils ou en modifiant les hyperparamètres.
Les techniques de validation croisée peuvent aussi permettre d’évaluer les performances du modèle sur des ensembles de données de test indépendants, garantissant une bonne généralisation aux nouvelles données.
Pour finir, on évalue les performances en se basant sur les matrices de confusion ou les courbes ROC. Le but est de déterminer son efficacité dans le contexte spécifique de son application. Selon les résultats obtenus, il est possible d’optimiser davantage les performances.
Avantages et inconvénients
En comparaison avec les méthodes traditionnelles de Machine Learning, le principal avantage de ReCALL est sa capacité à maximiser la sensibilité du modèle pour mieux détecter les occurrences positives rares ou critiques.
Cette approche permet aussi une personnalisation fine des performances du modèle en fonction des besoins spécifiques de chaque application, via l’ajustement des seuils de décision.
Le revers de la médaille est qu’elle peut entraîner une augmentation des faux positifs. Mieux vaut donc l’éviter pour des cas d’usage où ce type d’erreur peut poser problème.
Par ailleurs, le succès de cette méthode est dépendant d’un jeu de données équilibré et le réglage précis des seuils de décision peut exiger des connaissances spécifiques du domaine.
Pourquoi est utilisé ReCALL ?
On utilise l’approche ReCALL dans la classification d’images médicales, où elle peut constituer un précieux atout pour la détection précoce des maladies graves.
Par exemple, pour le dépistage du cancer, l’identification précise des tumeurs dès leur apparition est requise pour assurer un traitement efficace le plus tôt possible. La réduction des faux négatifs évite les diagnostics manqués.
Dans le domaine du commerce en ligne, ReCALL peut être appliqué pour améliorer la recommandation de produits aux clients. Elle aide à cibler les vrais intérêts des utilisateurs plutôt que de se contenter d’éviter les faux positifs.
Un troisième exemple de cas d’usage est celui de la détection de fraudes. Les banques et les institutions financières peuvent s’appuyer sur cette méthode pour mieux identifier les activités suspectes et réduire les pertes associées.
À l’avenir, son usage pourrait se généraliser dans d’autres secteurs comme l’industrie manufacturière. Elle peut notamment servir à détecter les défauts dans les produits de façon précoce pour résoudre les problèmes de qualité.
Dans le domaine de la sécurité informatique, elle peut aider à identifier les menaces de cybersécurité et à réduire le risque de succès des attaques malveillantes.
Conclusion : ReCALL, une méthode idéale pour éviter les faux négatifs
En permettant une détection plus sensible des événements positifs, ReCALL peut sauver des vies, éviter de lourdes pertes financières et améliorer la sécurité globale des systèmes de Machine Learning.
Dans le futur, son utilité pourrait s’accroître grâce à des techniques de rééquilibrage des classes plus avancés pour les datasets trop déséquilibrés ou à l’intégration de l’apprentissage actif pour choisir intelligemment les exemples à étiqueter.
Afin d’apprendre à maîtriser ReCALL et toutes les techniques de Machine Learning, vous pouvez choisir DataScientest.
Nos différentes formations de Data Science comportent un ou plusieurs modules dédiés à l’apprentissage automatique. Vous pourrez découvrir les techniques de classification, régression, réduction de dimension ou encore le text mining.
Vous deviendrez aussi expert en réseaux de neurones et apprendrez à manier les outils comme scikit-learn, Keras, TensorFlow ou PyTorch.
À la fin du cursus, vous aurez toutes les cartes en main pour devenir Data Analyst, Data Scientist, Data Engineer, ML Engineer ou Data Product Manager.
Toutes nos formations se complètent à distance, et permettent de recevoir un diplôme certifié par l’État et une certification de nos partenaires cloud AWS et Microsoft Azure. Découvrez vite DataScientest !
Vous savez tout sur ReCALL. Pour plus d’informations sur le même sujet, découvrez notre dossier complet dédié aux réseaux de neurones et notre dossier sur le Machine Learning.