Anthropic développe un nouveau système d’IA, le Golden Gate Bridge

-
2
 m de lecture
-
The_Golden_Gate_Bridge_at_San_Francisco

Anthropic a récemment publié une recherche montrant leur capacité à cartographier et ajuster les activations internes de leur modèle d’IA, Claude 3 Sonnet, résultant un nouveau concept, le Golden Gate Bridge. En se concentrant sur ce concept, ils ont démontré qu’ils pouvaient influencer les réponses du modèle en manipulant la force de cette caractéristique. Cette technique permet de rendre le modèle obsessionnel sur ce concept, illustrant ainsi une meilleure compréhension et un meilleur contrôle des grands modèles de langage.

Comment fonctionne le concept de Golden Gate Bridge ?

Dans leur récent article de recherche, Anthropic a exploré les mécanismes internes de leur modèle d’intelligence artificielle, Claude 3 Sonnet. Lors de cette étude, ils ont découvert des millions de concepts, ou caractéristiques, qui s’activent lorsque le modèle lit un texte pertinent ou voit des images spécifiques. L’un de ces concepts est celui du Golden Gate Bridge.

Les chercheurs ont identifié une combinaison précise de neurones dans le réseau neuronal de Claude qui s’active à chaque mention ou image de ce pont emblématique de San Francisco. Cette activation peut être ajustée pour renforcer ou diminuer la présence du concept dans les réponses du modèle. Par exemple, en augmentant la force de la caractéristique Golden Gate Bridge, les réponses de Claude tendent à se focaliser excessivement sur ce pont, même dans des contextes non pertinents.

Pour illustrer cette capacité, Anthropic a créé une version modifiée de Claude, surnommée Claude Golden Gate. Lorsque cette version est activée, si vous demandez à Claude comment dépenser 10 $, il recommandera de les utiliser pour traverser le Golden Gate Bridge. Si vous lui demandez d’écrire une histoire d’amour, il pourrait raconter l’histoire d’une voiture impatiente de traverser le pont par un jour de brouillard.

An_artificial_intelligence_imagines_the_San_Francisco_bridge

A quoi sert ce concept de Golden Gate Bridge ?

Le concept du Golden Gate Bridge développé par Anthropic sert avant tout à illustrer leur capacité à identifier et à manipuler les activations internes des neurones du modèle. En se focalisant sur ce pont emblématique, les chercheurs ont démontré comment ils peuvent influencer et contrôler les réponses générées par l’IA.

Ce concept a une importance cruciale pour plusieurs raisons. En premier lieu, il montre comment il est possible de rendre les réponses d’un modèle d’IA plus prévisibles et spécifiques en ajustant la force de certains concepts.

Ensuite, cette capacité à manipuler les concepts internes peut être utilisée pour améliorer la sécurité des modèles d’IA. En ajustant les caractéristiques liées à des comportements potentiellement dangereux ou trompeurs, les chercheurs peuvent réduire les risques d’utilisation malveillante de l’IA. Par exemple, en atténuant les caractéristiques associées à la génération de code informatique dangereux ou à des activités criminelles, il est possible de rendre les modèles plus sûrs.

Cette approche ouvre la voie à des applications pratiques où des modèles d’IA peuvent être affinés pour des tâches spécifiques sans nécessiter un entraînement supplémentaire avec des données supplémentaires. Cela représente un gain de temps et de ressources significatif pour le développement et le déploiement d’IA optimisées et sécurisées, rendant leur utilisation plus fiable et éthique selon les besoins des utilisateurs.

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : Anthropic.com

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?