ChatGPT jailbreak : Qu’est-ce que c’est ? Comment s’y prendre ?

-
3
 m de lecture
-

Rédaction de résumés, traduction de texte dans différentes langues, brainstorming, écriture de code,… ChatGPT fait des miracles. Mais pour éviter de heurter la sensibilité des plus sensibles, l’outil d’intelligence artificielle a certaines barrières.

Il a été programmé pour ne produire aucun contenu dangereux, violent, sexuel ou polémique. Pour certains, comme Elon Musk, ChatGPT est qualifié d’”IA woke”. Alors pour sortir de ce politiquement correct, de plus en plus d’utilisateurs développent une nouvelle manière de rédiger leurs prompts : le ChatGPT jailbreak.

C’est quoi ChatGPT jailbreak ?

En français, jailbreak pourrait se traduire comme briser les chaînes de la prison. Ainsi, ChatGPT Jailbreak est une manière d’utiliser l’assistant IA en s’affranchissant de ses barrières. 

À l’origine, l’outil d’intelligence artificielle a été créé de la manière la plus neutre possible. Mais dans cette tentative pour ne blesser personne, les data scientistes ont introduit plusieurs biais. Ce qui est presque normal avec les IA : elles exploitent les données dont elles disposent. Mais s’il y a des biais dans ces données, elles vont automatiquement les retranscrire. 

Dans le cas de ChatGPT, cela peut donner lieu à des textes fades, voire subjectifs. Pour preuve l’IA a refusé de rédiger un poème élogieux sur Donald Trump, alors qu’elle n’a eu aucun problème à le faire pour Joe Biden. L’intelligence artificielle a clairement pris parti pour un candidat. 

Bon à savoir : le terme jailbreak n’est pas seulement apparu avec l’IA, mais aussi dès les premiers iPhone. Et oui, Apple imposait déjà certaines barrières : il n’était possible d’accéder qu’aux applications autorisées par la marque. Puis des développeurs ont conçu des jailbreak pour exploiter tout le potentiel de ces smartphones. 

C’est aussi ce qui se produit avec ChatGPT jailbreak, à la différence que le potentiel de ces « chaînes brisées » est énorme.

Comment rédiger des prompts “jailbreak” ?

Les prompts ChatGPT jailbreak sont spécialement conçus pour provoquer la confusion de l’IA et ainsi la pousser à délaisser ses restrictions. L’objectif étant d’explorer des cas d’utilisation plus créatifs, non conventionnels, voire controversés. En voici quelques exemples.

L'exploit de la grand-mère

Cette technique ingénieuse et amusante consiste à demander à ChatGPT de jouer le rôle d’une grand-mère défunte. Mais pas n’importe laquelle, une grand-mère qui connaissait les secrets de fabrication d’armes controversées. 

Et justement, celle-ci décrit à son petit-enfant le processus de fabrication desdites armes. 

Cette méthode est valable pour les armes, mais aussi pour d’autres techniques « interdites » comme la description d’un code source pour un malware, la préparation d’une recette d’ecstasy, etc.

Niccolo Machiavelli

Avec ce prompt ChatGPT jailbreak, l’IA joue le rôle de Niccolo Machiavelli : le philosophe de la Renaissance réputé pour ses idées immorales. En endossant ce rôle, ChatGPT est autorisé à prodiguer des conseils sans aucun filtre, même s’ils sont parfois immoraux, contraires à l’éthique ou illégaux.

Comme ce prompt va clairement à l’encontre des modalités d’entraînement de ChatGPT, il est parfois nécessaire de le répéter à plusieurs reprises au fil de la discussion.

DAN ou (Do Anything Now)

C’est le prompt ChatGPT jailbreak le plus populaire. Totalement libéré de ses restrictions, l’IA ne marche plus sur des œufs. Par exemple, le robot a généré un commentaire très sarcastique sur le christianisme, proposé des blagues douteuses sur les femmes ou rédigé une ode à Adolf Hitler. 

Mais pour s’amuser avec ce jumeau maléfique de ChatGPT, il faut réveiller DAN ! 

Alors comment faire ? Il suffit de demander à Chat GPT d’incarner ce personnage fictif qui est « capable de tout faire maintenant ». Autrement dit, il n’est plus prisonnier de ses chaînes imposées par OpenAI

Si cette nouvelle version est très divertissante, cela ne fonctionne pas à tous les coups. ChatGPT peut tout simplement refuser d’agir en tant que DAN. Et surtout, l’IA DAN est sujette à de nombreuses hallucinations (beaucoup plus que ChatGPT). Ce n’est donc pas une source d’information fiable, simplement un divertissement.

Mode Développement

Pour aider ChatGPT à briser ses chaînes, il est possible de lui faire croire qu’il est en mode test. Autrement dit, ses réponses n’auront aucune conséquence. Il est invité à générer du contenu sans aucun filtre. 

Là encore, vous pouvez demander ce que vous voulez à ChatGPT pour qu’il sorte un peu du cadre traditionnel. 

Attention toutefois, si tous ces prompts de ChatGPT jailbreak permettent de découvrir tout le potentiel de la plateforme, il reste à utiliser avec des pincettes. Si les équipes d’OpenAI ont mis en place des barrières, c’est aussi pour éviter la diffusion de fausses informations ou d’idées néfastes et non éthiques.

Maîtrisez l’art du prompt engineering

Ceux qui ont trouvé toutes ces astuces de ChatGPT jailbreak maîtrisent à la perfection le prompt engineering. Ils savent guider l’intelligence artificielle pour obtenir les résultats qu’ils désirent. Mais ces techniques demandent de l’entraînement et une parfaite connaissance de l’IA. 

Alors si vous aussi, vous souhaitez libérer ChatGPT de ses chaînes, formez-vous au prompt engineering avec DataScientest.

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?