L'AI watermarking consiste à apposer un tatouage numérique sur les modèles de machine learning ou les jeux de données, afin de pouvoir les identifier. Face à l'explosion du contenu généré par l'Intelligence Artificielle, cette approche est devenue indispensable. Découvrez les techniques existantes et les défis à relever...
Au sein de la communauté du Machine Learning, le Watermarking ou tatouage numérique de l’IA est un domaine de recherche particulièrement actif.
À l’heure où les intelligences artificielles génératives comme ChatGPT et DALL-E génèrent des textes et des images de plus en plus réalistes, il devient urgent de créer un système permettant de détecter ce contenu de celui créé par l’humain.
De nombreuses techniques ont déjà été inventées par les chercheurs, mais très peu sont déjà appliquées dans le monde réel. Est-ce vraiment possible ? Découvrez toutes les réponses à vos questions dans ce dossier !
Qu'est-ce que le Watermarking ?
Le Watermarking consiste à ajouter un message, un logo, une signature ou des données à un objet physique ou numérique. Le but est de permettre de déterminer sa provenance et son origine.
Depuis bien longtemps, cette pratique est appliquée aux objets physiques comme les billets de banques et timbres postaux afin de pouvoir prouver leur authenticité. De nos jours, il existe aussi des techniques permettant le Watermarking d’objets numériques comme des images, des fichiers audio ou des vidéos. On applique aussi des tatouages numériques aux données.
Cette marque est parfois visible, mais pas toujours. Le Watermarking est fréquemment utilisé pour la gestion des droits d’auteur, notamment pour tracer le provenance d’une image. Les techniques les plus sophistiquées permettent d’appliquer aux objets numériques des tatouages cachés et capables de résister aux tentatives de suppression.
Le Watermarking des datasets IA et Machine Learning
À l’heure actuelle, les chercheurs explorent les possibilités pour appliquer les techniques de Watermarking aux modèles de Machine Learning, et aux données utilisées pour les produire.
On distingue deux approches principales. Tout d’abord, le « model Watermarking » consiste à ajouter une Watermark à un modèle de Machine Learning afin de pouvoir détecter s’il a été utilisé pour générer une prédiction.
En guise d’alternative, le « dataset Watermarking » a pour but de modifier un jeu de données d’entraînement d’une manière invisible, dans le but de pouvoir détecter si un modèle a été entraîné dessus.
Il est possible d’implémenter et d’utiliser ces techniques de diverses façons. En premier lieu, l’injection de données spécifiques dans le dataset d’entraînement permet de modifier le modèle. Ces changements pourront être détectés ultérieurement.
Une autre méthode consiste à ajuster les poids du modèle pendant ou après l’entraînement. Là encore, cette altération peut être détectée par la suite.
Le Watermarking d’un jeu de données est adéquat quand son créateur n’est pas impliqué dans l’entraînement de l’IA. Il repose donc uniquement sur l’ajustement du dataset d’entraînement.
Ceci permet de découvrir comment un modèle a été produit. En revanche, le model Watermarking permet la détection d’un modèle lorsqu’il est déployé.
Les défis du Watermarking d'IA
Le dataset Watermarking requiert le développement de nouvelles techniques, car les approches existantes ne fonctionnent pas dans le contexte du Machine Learning.
Par l’exemple, lors de l’entraînement d’un modèle de classification d’image, toute Watermark présente dans les images d’entraînement est supprimée puisqu’elle n’est pas pertinente pour le processus d’apprentissage.
Pour être utile, le Watermarking d’un dataset ML requiert de modifier les données de façon cohérente avec la labellisation. Ceci permet d’induire des changements dans le modèle pouvant être détectés par la suite.
Comment vérifier le Watermarking d'une IA ?
Il est possible de vérifier le Watermarking d’un modèle IA sans avoir besoin d’un accès direct. Ceci notamment de déterminer sa provenance et s’il a été entraîné sur un jeu de données spécifique.
Pour vérifier la Watermark, il suffit d’inspecter sa production en réponse à des entrées de données spécifiques conçues pour l’exposer. En théorie, il est donc possible d’appliquer cette méthode à n’importe quelle IA.
Les techniques d'AI Watermarking
Dans un billet de blog, les chercheurs de Facebook / Meta présentent le concept de « données radioactives » (radioactive data) pour le Watermarking IA. Selon eux, cette technique permet de déterminer quel dataset a été utilisé pour entraîner un modèle.
Ceci aide à mieux comprendre comment les divers datasets affectent les performances des différents réseaux de neurones. Ainsi, ce type de technique donne aux chercheurs et ingénieurs la capacité de mieux comprendre comment leurs confrères entraînent leurs modèles.
Par extension, ceci permet de détecter les biais potentiels dans ces modèles. Il est par exemple possible d’empêcher l’usage détourné de datasets spécifiques à des fins de Machine Learning.
À travers un article scientifique intitulé « Open Source Dataset Protection », des chercheurs chinois suggèrent une méthode utile pour confirmer que les modèles IA commerciaux n’ont pas été entraînés sur des datasets conçus pour un usage éducatif ou scientifique.
En 2018, IBM a présenté une technique permettant de vérifier la propriété des services de réseaux de neurones à l’aide de simples requêtes APIs. Le but est de protéger les modèles de Deep Learning contre les cyberattaques. Les chercheurs ont créé trois algorithmes différents pour ajouter du contenu pertinent, des données aléatoires ou du bruit en tant que Watermarks dans les « neural networks ».
Comment est utilisé le Watermarking d'IA?
Pour l’heure, le Watermarking d’IA reste principalement théorique. On peut toutefois anticiper une multitude de cas d’usage potentiels.
Le Watermarking de modèle pourrait être utilisé par une agence gouvernementale pour vérifier qu’un modèle de Machine Learning utilisé dans un produit respecte les lois sur la protection des données.
Une organisation de société civile peut s’assurer qu’un modèle prenant des décisions ait fait l’objet d’un audit. De leur côté, les régulateurs peuvent vérifier si une organisation commerciale a déployé un modèle de Machine Learning tiers spécifique, afin de l’avertir sur ses biais et certifier le produit ou demander un rappel.
Le Watermarketing de dataset permet de déterminer si un modèle de Machine Learning a été entraîné sur des données biaisées ou incorrectes, afin d’avertir les consommateurs. Un Data Steward peut déterminer si un modèle est entraîné sur des données personnelles qu’il a fournir, afin de les protéger.
Un publicateur de données peut déterminer si un modèle a été entraîné sur une ancienne version du dataset, pour avertir les utilisateurs sur les biais ou erreurs connues. Enfin, un régulateur peut déterminer quels datasets sont utilisés par les modèles de Machine Learning pour prioriser les audits.
De manière générale, le Watermarking permet de déterminer quel modèle IA est utilisé par un service et quels jeux de données sont utilisés pour l’entraîner. Il s’agit donc d’un atout précieux pour la transparence et l’éthique.
Dans certains cas, d’autres méthodes peuvent permettre d’atteindre cet objectif. Par exemple, les régulateurs peuvent exiger que les entreprises indiquent directement les sources de données utilisées. Le Watermarking peut toutefois constituer une meilleure source de confiance.
Avec l’essor des intelligences artificielles génératives comme DALL-E et ChatGPT, le Watermarking devient indispensable. Seule cette technique permet de savoir si un contenu est créé par l’IA.
Ceci permet par exemple de savoir si un étudiant a triché pour la rédaction d’une dissertation, ou si une IA générative comme MidJourney est entraînée sur des images soumises au droit d’auteur. De même, le Watermarking peut permettre de détecter les vidéos « DeepFakes » générées à l’aide de l’IA…
ChatGPT et la Watermarking IA
Depuis son lancement fin 2022 par OpenAI, ChatGPT est rapidement devenu un phénomène viral. En quelques secondes, cette IA est capable de répondre à toutes les questions et de générer des textes dans toutes les langues ou même en langage informatique.
Ce chatbot est déjà impressionnant, et risque fort de s’améliorer davantage avec le lancement de GPT-4 prévu pour 2023. Par conséquent, il va devenir très difficile de distinguer un texte généré par ChatGPT des écrits humains.
Il est donc essentiel d’inventer un système de Watermarking pour cette IA, avant que le web soit inondé par des textes produits par un chatbot et pouvant contenir des informations fausses ou obsolètes.
Dans un premier temps, OpenAI s’est contenté de demander aux utilisateurs de ChatGPT d’indiquer clairement les contenus générés par l’IA. Toutefois, il serait naïf de contenter seulement sur l’honnêteté des usagers.
Dès les premiers jours suivant le lancement de cette IA, de nombreux étudiants ont commencé à l’utiliser pour tricher en vue d’améliorer leurs notes. Cette pratique s’est répandue comme une traînée de poudre y compris en France, à tel point que Sciences Po Paris a interdit cet outil à ses élèves sous peine de sanctions disciplinaires.
On peut aussi s’attendre à ce que les marchands d’Amazon l’utilisent pour générer de faux avis, ou à ce que des gouvernements l’emploient à des fins de propagande. De même, les gangs de cybercriminels s’en servent pour rédiger des emails de phishing plus convaincants.
Face à ces graves dangers, l’AI Watermarking est devenu indispensable. Une méthode de détection a déjà été ajoutée par OpenAI à l’IA DALL-E, pour attacher une signature visuelle aux images qu’elle génère. Toutefois, la tâche est beaucoup plus ardue pour du contenu textuel.
L’approche la plus prometteuse est la cryptographie. Lors d’une conférence à l’Université du Texas d’Austin, le chercheur Scott Aaronson d’OpenAI a présenté une technique expérimentale.
Il s’agirait de convertir les mots en une ligne de tokens représentant des signes de ponctuation, des lettres ou des parties de mots. Ces « strings » pourraient être composés d’un maximum de 100 000 tokens. Par la suite, GPT pourrait les arranger pour refléter le texte.
Il serait possible de détecter cette Watermark à l’aide d’une clé cryptographique uniquement connue par OpenAI. La différence serait donc imperceptible pour l’utilisateur final.
Début février 2023, OpenAI a lancé un classificateur permettant de détecter le contenu généré par ChatGPT ou d’autres IA. Toutefois, son taux de succès se limite à 26%…
Une technique de détection des mots préférés de l'IA
Dans un article publié le 24 janvier 2023, des chercheurs présentent une technique de Watermarking pour ChatGPT et les autres modèles de génération de langage.
Elle repose sur un logiciel conservant deux listes de mots : une verte et une rouge. Lorsqu’un chatbot comme ChatGPT choisit le prochain mot du texte qu’il génère, il choisit généralement un mot de la liste verte.
Pour détecter si un texte est généré par l’IA, il suffit de laisser un logiciel compter le nombre de mots verts. Au-delà d’un certain seuil, la probabilité augmente.
Cette approche se révèle plus efficace sur des textes longs. En théorie, elle pourrait être intégrée à une extension de navigateur web afin de signaler automatiquement le contenu généré par IA.
Bien évidemment, cet outil n’est pas infaillible. Il est notamment possible de modifier manuellement un texte pour remplacer les mots de liste verte, à condition bien sûr d’avoir accès à cette liste. Par ailleurs, cette méthode requiert qu’OpenAI et les autres créateurs d’IA acceptent d’implémenter l’outil.
Une watermark pour les voix générées par IA
Outre le texte et les images, l’Intelligence Artificielle excelle dans l’imitation de voix. L’outil Vall-E permet par exemple de synthétiser n’importe quelle voix pour lui faire lire un texte.
Ces technologies offrent de nombreuses possibilités pour le doublage d’acteur ou les livres audio, mais présentent aussi des dangers. Une personne malveillante peut notamment créer de faux discours de politiciens ou autres célébrités.
Afin de lutter contre les risques d’abus, Resemble AI a créé un système de Watermarking pour les voix générées par l’IA. Son nom est une combinaison des mots « perceptual » (perceptif) et « thresold » (seuil) : PerTh.
Ce système utilise un modèle de Machine Learning pour intégrer des paquets de données dans le contenu audio, puis pour les récupérer ultérieurement.
Ces données sont imperceptibles, mais intriquées avec le contenu. Elles sont difficiles à supprimer, et constituent un moyen de vérifier si une voix a été générée par l’IA. Par ailleurs, cette technique laisse la possibilité de manipuler l’audio pour l’accélérer, le ralentir, ou le compresser dans un format comme le MP3.
La Watermark est en fait une tonalité basse, masquée par les tonalités plus hautes aux oreilles de l’auditeur. Elle se situe donc sous le seuil de perception.
Le défi relevé par Resemble AI est d’avoir créé un modèle de Machine Learning capable de produire les tonalités et de les placer au bon moment d’un audio pour qu’ils soient imperceptibles. Ce modèle est aussi capable d’inverser le processus pour récupérer les données.
Malheureusement, cette ingénieuse méthode ne fonctionne pour le moment qu’avec les voix générées par Resemble AI et sa propre IA. Il faudra sans doute patienter pour qu’une solution universelle voie le jour et devienne un standard de sécurité.
L'IA sans watermark est interdite en Chine
Depuis le 10 janvier 2023, la Chine interdit la création de contenu IA sans Watermarking. Cette règle a été émise par l’autorité du cyberespace, également chargée de la censure sur internet.
Les pouvoirs publics pointent du doigt les dangers posés par la « technologie de synthèse profonde ». Cette innovation permet certes de répondre aux besoins des utilisateurs, mais peut aussi être abusée pour propager des informations illégales ou dangereuses, ternir des réputations ou usurper des identités.
Selon le communiqué officiel, les contenus générés par l’IA mettent en danger la sécurité nationale et la stabilité sociale. Les nouveaux produits devront donc être évalués et approuvés par l’autorité avant toute commercialisation.
L’importance du Watermarking pour identifier le contenu IA est mise en avant. Les tatouages numériques ne doivent pas pouvoir être supprimés, manipulés ou dissimulés. En outre, les utilisateurs doivent créer un compte en utilisant leurs vrais noms et tous les contenus générés doivent être traçables jusqu’à leurs créateurs.
Une IA capable de supprimer les Watermarks
Il est urgent de développer des techniques d’AI Watermarking, mais l’IA peut malheureusement aussi être utilisée pour supprimer les Watermarks…
L’outil WatermarkRemover.io disponible gratuitement peut supprimer les tatouages numériques des images. Même s’il peut être utilisé à des fins légitimes, rien n’empêche de l’exploiter de façon malveillante…
Cette Intelligence Artificielle permet d’effacer facilement des Watermarks complexes, avec plusieurs couleurs ou plusieurs valeurs d’opacité. À l’avenir, on peut craindre l’émergence d’outils capables de supprimer les Watermarks de contenus générés par l’IA.
Quel est le futur du Watermarking IA ?
Plusieurs progrès sont nécessaires pour pouvoir appliquer le Watermarking IA dans le monde réel et bâtir un écosystème autour des techniques théoriques inventées par les chercheurs.
Il sera d’abord nécessaire de poursuivre la recherche pour identifier et perfectionner les meilleurs techniques, afin de mettre en place des standards pour tous les différents types de datasets.
Des standards communs doivent aussi être développés pour intégrer le Watermarking dans la curation et la publication de datasests d’entrainement. Ceci inclut l’introduction de Watermarks dans les données, la production d’une documentation fiable et la publication des données requises pour la vérification.
De même, il est impératif de développer des standards pour l’intégration d’étapes de Watermarking dans l’entraînement et la publication de modèles de Machine Learning. Enfin, un registre et des outils doivent être développés pour permettre la vérification des watermarks par les organisations à travers des audits.
Conclusion : l'AI Watermarking, un enjeu majeur pour le monde de demain
Dans quelques décennies, les mœurs auront sans doute changé. Nous serons habitués au flux constant de textes, images et vidéos générées par l’IA à tel point qu’il ne sera plus nécessaire de savoir si un contenu est créé ou non par l’humain.
Toutefois, le Watermarking d’IA demeure impératif pour des raisons de protection des droits d’auteur, de lutte contre les biais et la discrimination, pour éviter la désinformation et pour la cybersécurité.
Afin de devenir expert en Machine Learning et de contribuer au développement de techniques de Watermarking, vous pouvez vous tourner vers DataScientest. Nos formations vous permettront d’acquérir toutes les compétences requises pour devenir ingénieur Machine Learning , Data Engineer ou Data Scientist.
Tous nos programmes se complètent intégralement à distance via le web, et notre organisme reconnu par l’État est éligible au Compte Personnel de Formation pour le financement. N’attendez plus et découvrez dès à présent DataScientest !
Vous savez tout sur l’AI Watermarking. Pour plus d’informations sur le même sujet, découvrez notre dossier complet sur le Machine Learning.