La fin de ChatGPT : comment détecter les textes écrits par des IA ?

-
2
 m de lecture
-
dessin d'un passage d'un texte à la loupe

Grâce à ChatGPT et aux autres modèles de génération automatique, de nombreux processus et activités quotidienne sont désormais réalisables en quelques clics. Cependant, l’utilisation malveillante de l’application d’Open AI a rendu certains gouvernements et institutions réticents face à son utilisation. Pour permettre le développement de système pour repérer un texte écrit par une IA, l'université du Maryland met au point un algorithme capable de détecter les watermark des modèles de langage.

Pourquoi détecter les textes écrits par des IA ?

Depuis le lancement du chatbot ChatGPT d’OpenAI en novembre, de nombreuses personnes ont commencé à utiliser le modèle NLP (Natural Language Processing) pour tricher dans leur domaine. Par exemple, des étudiants de Lyon ont utilisé les capacités de l’intelligence artificielle pour obtenir une note de 11,5/20 pour un examen de médecine. Un autre exemple, le site web de nouvelles CNET a utilisé ChatGPT pour écrire des articles, mais a dû publier des corrections face à des accusations de plagiat. Intégrer cet IA watermarking dans de tels systèmes avant leur sortie pourrait aider à résoudre de tels problèmes.

Dessin d'une personne entrain de copier à un exam

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez nos formations en Data Science.

Participer à votre première formation data gratuitement !

Assistez aux cours dispensés en live par nos formateurs pour démarrer sur Python, SQL, Power BI…

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer

Découvrez nos formations en Data Science.

Participer à votre première formation data gratuitement !

Assistez aux cours dispensés en live par nos formateurs pour démarrer sur Python, SQL, Power BI …

Comment s’opère la détection ?

Dans les détails, ces filigranes appelés “watermark” ont déjà été utilisés pour identifier avec quasi-certitude des textes générés par AI, on appelle ça du “watermarking IA”. En effet, le cas le plus concret est celui de chercheurs de l’Université du Maryland qui ont pu repérer un texte créé par le modèle OPT-6.7B de Meta en utilisant un algorithme de détection qu’ils ont construit. Ce code open source sera disponible le 15 février.

Pour réussir à détecter les écrits d’un générateur, l’équipe s’est aidée de la logique d’écriture de ces modèles. C’est-à-dire, les modèles de langage NLP fonctionnent en prédisant et en générant un mot à la fois. Ainsi, après chaque mot, l’IA divise aléatoirement le vocabulaire du modèle de langage en mots sur une « liste verte » et une « liste rouge », puis invite le modèle à choisir des mots sur la liste verte.  Par exemple, pour le mot « beau », l’IA pourrait classer le mot « fleur » en vert et « orchidée » en rouge. A contrario, les textes écrits par une personne contiennent généralement un mélange plus aléatoire de mots.

Ainsi, plus il y a de mots sur la liste verte dans un passage, plus il est probable que le texte ait été généré par une machine.

L’utilisation des technologies de Data Science permet d’accélérer les processus d’entreprises ou de démarches administratives. C’est notamment le cas d’Orange Bank pour ces processus de vente ou, pour les particuliers, l’algorithme Perfect Match qui permet de chercher des pièces automobiles en quelques clics. C’est pourquoi, si la Data Science vous intéresse ou si vous envisagez une carrière dedans, n’hésitez pas à découvrir nos offres de formations et nos autres articles sur DataScientest.

Source : technologyreview.com

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?