Retour aux articles

Anthropic développe un nouveau système d’IA, le Golden Gate Bridge

28 Mai 2024

m de lecture

Actualités

Gabin Paul

Anthropic a récemment publié une recherche montrant leur capacité à cartographier et ajuster les activations internes de leur modèle d’IA, Claude 3 Sonnet, résultant un nouveau concept, le Golden Gate Bridge. En se concentrant sur ce concept, ils ont démontré qu’ils pouvaient influencer les réponses du modèle en manipulant la force de cette caractéristique. Cette technique permet de rendre le modèle obsessionnel sur ce concept, illustrant ainsi une meilleure compréhension et un meilleur contrôle des grands modèles de langage.

Comment fonctionne le concept de Golden Gate Bridge ?

Dans leur récent article de recherche, Anthropic a exploré les mécanismes internes de leur modèle d’intelligence artificielle, Claude 3 Sonnet. Lors de cette étude, ils ont découvert des millions de concepts, ou caractéristiques, qui s’activent lorsque le modèle lit un texte pertinent ou voit des images spécifiques. L’un de ces concepts est celui du Golden Gate Bridge.

Les chercheurs ont identifié une combinaison précise de neurones dans le réseau neuronal de Claude qui s’active à chaque mention ou image de ce pont emblématique de San Francisco. Cette activation peut être ajustée pour renforcer ou diminuer la présence du concept dans les réponses du modèle. Par exemple, en augmentant la force de la caractéristique Golden Gate Bridge, les réponses de Claude tendent à se focaliser excessivement sur ce pont, même dans des contextes non pertinents.

Pour illustrer cette capacité, Anthropic a créé une version modifiée de Claude, surnommée Claude Golden Gate. Lorsque cette version est activée, si vous demandez à Claude comment dépenser 10 $, il recommandera de les utiliser pour traverser le Golden Gate Bridge. Si vous lui demandez d’écrire une histoire d’amour, il pourrait raconter l’histoire d’une voiture impatiente de traverser le pont par un jour de brouillard.

A quoi sert ce concept de Golden Gate Bridge ?

Le concept du Golden Gate Bridge développé par Anthropic sert avant tout à illustrer leur capacité à identifier et à manipuler les activations internes des neurones du modèle. En se focalisant sur ce pont emblématique, les chercheurs ont démontré comment ils peuvent influencer et contrôler les réponses générées par l’IA.

Ce concept a une importance cruciale pour plusieurs raisons. En premier lieu, il montre comment il est possible de rendre les réponses d’un modèle d’IA plus prévisibles et spécifiques en ajustant la force de certains concepts.

Ensuite, cette capacité à manipuler les concepts internes peut être utilisée pour améliorer la sécurité des modèles d’IA. En ajustant les caractéristiques liées à des comportements potentiellement dangereux ou trompeurs, les chercheurs peuvent réduire les risques d’utilisation malveillante de l’IA. Par exemple, en atténuant les caractéristiques associées à la génération de code informatique dangereux ou à des activités criminelles, il est possible de rendre les modèles plus sûrs.

Cette approche ouvre la voie à des applications pratiques où des modèles d’IA peuvent être affinés pour des tâches spécifiques sans nécessiter un entraînement supplémentaire avec des données supplémentaires. Cela représente un gain de temps et de ressources significatif pour le développement et le déploiement d’IA optimisées et sécurisées, rendant leur utilisation plus fiable et éthique selon les besoins des utilisateurs.

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : Anthropic.com

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Anthropic développe un nouveau système d’IA, le Golden Gate Bridge

Comment fonctionne le concept de Golden Gate Bridge ?

A quoi sert ce concept de Golden Gate Bridge ?

DataScientest News

Positive Group acquiert SurferSEO et crée un leader européen du marketing par l’IA

ChatGPT Atlas d’OpenAI déclenche la guerre des navigateurs IA, premières réactions des médias

Diamfab dévoile un partenariat et une ligne pilote pour industrialiser les semi-conducteurs en diamant

TotalEnergies et Mistral AI concluent un partenariat pour accélérer la transformation énergétique et numérique

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Anthropic développe un nouveau système d’IA, le Golden Gate Bridge

Comment fonctionne le concept de Golden Gate Bridge ?

A quoi sert ce concept de Golden Gate Bridge ?

DataScientest News

Positive Group acquiert SurferSEO et crée un leader européen du marketing par l’IA

ChatGPT Atlas d’OpenAI déclenche la guerre des navigateurs IA, premières réactions des médias

Diamfab dévoile un partenariat et une ligne pilote pour industrialiser les semi-conducteurs en diamant

TotalEnergies et Mistral AI concluent un partenariat pour accélérer la transformation énergétique et numérique

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

DataNews