L’interférence catastrophique ou catastrophic interference est un phénomène menant l’IA à oublier ce qu’elle a appris. Découvrez pourquoi c’est un grave problème en Machine Learning, et comment y remédier !
Avec l’essor d’outils comme ChatGPT, l’intelligence artificielle est désormais omniprésente. Cette technologie est vouée à occuper une place de plus importante dans nos vies personnelles et professionnelles.
Toutefois, l’IA n’est pas infaillible. À l’instar d’un humain, elle peut commettre des erreurs et même avoir des trous de mémoire.
Malheureusement, l’oubli peut être un véritable désastre pour un réseau de neurones. Dans le domaine du Machine Learning, ce phénomène est appelé « interférence catastrophique » ou catastrophic interference.
Qu’est-ce qu’un réseau de neurones ?
Les réseaux de neurones sont une forme de Machine Learning, très populaire et massivement utilisée pour les prédictions.
Comme son nom le suggère, ce type de système s’inspire de la façon dont le cerveau humain apprend de nouvelles informations.
À la manière dont les neurones sont interconnectés, de multiples équations mathématiques sont liées entre elles.
Et comme le cerveau réagit quand les sens perçoivent un phénomène, le réseau de neurones artificiel est activé lorsqu’il reçoit des données.
Certains chemins s’activent et d’autres s’inhibent en fonction de la nature des informations reçues. À la fin du processus, en résultat, un nœud produit une nouvelle information telle qu’une prédiction.
Par exemple, lorsque vous voyez un chien, votre cerveau l’identifie immédiatement. Un réseau de neurones peut lui aussi apprendre à reconnaître un chien.
Toutefois, pour y parvenir, il doit au préalable être entraîné à distinguer un chien d’un chat. Il est donc nécessaire de le nourrir de données.
Durant cette phase d’entraînement, le réseau de neurones est nourri de jeux de données. Pour poursuivre sur le même exemple, il pourrait s’agir d’une série d’images dotées d’une légende indiquant si elles présentent un chien ou un chat.
Par la suite, un autre ensemble de données est utilisé pour tester le réseau afin de vérifier si l’entraînement a porté ses fruits. C’est la phase de prédiction.
Si le réseau de neurones atteint un taux suffisant de prédictions exactes, il est prêt pour le déploiement. Cependant, le test n’est pas toujours concluant…
Qu’est-ce que l’interférence catastrophique ?
Une caractéristique importante distingue le cerveau humain des réseaux de neurones artificiels : la plasticité.
Il s’agit de la capacité des humains à apprendre continuellement. Grâce à elle, après avoir appris à distinguer les chiens des chats, nous apprenons aussi à reconnaître les autres animaux, les plantes, les arbres et tout le monde qui nous entoure.
De leur côté, les Neural Networks sont plus limités. En apprenant une nouvelle tâche, ils tendent à oublier ce qu’ils ont assimilé auparavant.
Par exemple, lors d’une expérience très célèbre menée par McCloskey et Cohen en 1989, les chercheurs ont entraîné un réseau de neurones à résoudre des problèmes mathématiques à partir d’exemples contenant le chiffre 1.
Ils ont ensuite nourri le modèle avec une autre série de problèmes contenant cette fois le chiffre 2. Dès lors, le réseau de neurones a appris à résoudre les problèmes contenant un 2, mais a oublié comment résoudre ceux comportant le chiffre 1.
Comment expliquer ce phénomène ? À partir des données qui lui ont été fournies, le réseau de neurones a créé dynamiquement les chemins entre les nœuds pendant la phase d’entraînement.
Or, en le nourrissant de nouvelles informations, de nouveaux chemins ont été formés. C’est ce qui pousse parfois un algorithme à « oublier » les tâches précédentes pour lesquelles il a été entraîné.
L’ampleur de cette amnésie peut varier. Il peut s’agir d’une simple augmentation de la marge d’erreur, mais cela peut aller jusqu’à l’oubli complet d’une tâche apprise précédemment.
Notons que l’interférence catastrophique peut se produire même lorsque les jeux de données successivement fournis au réseau de neurones ne sont pas si différents.
Les différentes couches entre l’entrée et la sortie d’un réseau de neurones sont cachées et fonctionnent en boîte noire. Il est donc impossible de savoir quelles données peuvent rompre un chemin avant que cela ne se produise.
Pourquoi est-ce un gros problème ?
La plupart des réseaux de neurones actuels sont entraînés avec un apprentissage supervisé. Les ingénieurs choisissent et nettoient manuellement les données avec lesquelles ils nourrissent le réseau, pour éviter les biais et autres soucis pouvant provenir des datasets.
Sur ce type de réseau de neurones, l’interférence catastrophique n’est pas réellement problématique. Toutefois, à mesure que le Machine Learning se développe, les agents s’approchent d’un apprentissage autonome et continu.
De tels réseaux de neurones sont en mesure de continuer à apprendre à partir de nouvelles données, sans même devoir être supervisés par des humains.
Cette évolution offre de formidables possibilités, mais introduit aussi de nouveaux risques. Il n’est plus vraiment possible de savoir quel type de données le réseau utilise pour apprendre.
Et s’il décide d’utiliser des données très éloignées de son entraînement initial, cela peut mener à un oubli catastrophique.
Comment éviter l’interférence catastrophique ?
Il existe de nombreuses méthodes permettant de minimiser le risque d’interférence catastrophique.
Une approche consiste à ajouter des termes de régularisation comme L1 ou L2 pour contrôler la complexité du modèle et réduire sa sensibilité aux changements mineurs dans les données d’entrée.
Le Dropout consiste à supprimer aléatoirement un certain nombre de neurones lors de l’entraînement. Ceci peut empêcher le modèle de s’appuyer trop fortement sur certains neurones spécifiques.
En outre, les techniques d’augmentation des données d’entraînement comme la rotation, la translation ou l’inversion permettent d’aider le modèle à mieux généraliser sur des données inconnues.
L’apprentissage par transfert, basé sur des modèles pré-entraînés sur des tâches similaires, peut aussi aider à initialiser le modèle avec des poids ayant déjà appris des caractéristiques importantes pour accélérer l’apprentissage et réduire la catastrophic interference.
De même, un entraînement progressif consiste à entraîner le modèle sur des sous-ensembles de données de plus en plus grands. Le modèle peut donc se concentrer sur des caractéristiques plus simples avant de passer à des tâches complexes.
Une autre astuce courante consiste à entraîner un nouveau réseau de neurones avec toutes les données simultanément. Ceci évite l’apprentissage séquentiel pouvant mener à l’écrasement de connaissances acquises précédemment.
Certaines architectures sont plus résistantes à l’oubli, comme les réseaux résiduels ou les réseaux neuronaux évolutifs.
Une stratégie judicieuse est de créer une sauvegarde backup d’un réseau de neurones avant de le réentraîner. En cas de problème, il est ainsi possible de restaurer la version antérieure.
Lors d’une étude menée fin 2022, des chercheurs ont découvert que l’interférence catastrophique peut être évitée en laissant les réseaux de neurones se reposer. Ceci confirme la ressemblance avec notre cerveau, puisqu’il a besoin de sommeil pour mieux mémoriser !
Conclusion : l’interférence catastrophique, l’un des nombreux défis du Machine Learning
L’interférence catastrophique n’est que l’une des nombreuses difficultés du Machine Learning. Il sera nécessaire de surmonter ces obstacles pour pouvoir révéler tout le potentiel de l’intelligence artificielle.
Afin d’acquérir une expertise d’ingénieur en Machine Learning, vous pouvez choisir la formation DataScientest.
Notre cursus ML Engineer vous permet d’apprendre à développer des systèmes IA et à utiliser de larges ensembles de données pour rechercher, développer et générer des algorithmes capables d’apprendre et de prédire.
Vous maîtriserez l’ensemble du processus de Machine Learning, du design de l’algorithme jusqu’à son déploiement et sa mise en production. Ceci vous permettra de faire face à des problèmes tels que l’interférence catastrophique.
Au fil des différents modules, vous pourrez acquérir de solides compétences en programmation Python, DataViz, Machine Learning, data engineering, DataOps et MLOps ou encore en Business Intelligence.
À la fin du parcours, vous pourrez recevoir un diplôme des Mines ParisTech PSL Executive Education, une certification RNCP36129 « Chef de projet en intelligence artificielle » de niveau 7 (bac+5) délivrée par le Collège de Paris et une certification AWS Amazon Certified Cloud Practitioner !
Cette formation reconnue par l’État et éligible au CPF s’effectue intégralement à distance en BootCamp intensif sur 7 mois ou à temps partiel sur 16 mois. Découvrez DataScientest !
Vous savez tout sur l’interférence catastrophique. Pour plus d’informations sur le même sujet, découvrez notre dossier complet sur le Machine Learning et notre dossier sur les réseaux de neurones.