Bei einem Adversarial Attack geht es darum, ein Machine-Learning-Modell mithilfe von Daten zu täuschen oder zu entführen. Hier erfährst du alles, was du über diese Geißel wissen musst, die die Künstliche Intelligenz bedroht. Der Begriff "adversarial attack" bezieht sich auf eine Technik, die als "adversarial Machine Learning" bezeichnet wird. Bei dieser Technik wird ein Machine-Learning-Modell mit Lerndaten getäuscht, um es zu verändern, zu korrumpieren oder zu missbrauchen. Es handelt sich um eine wachsende Bedrohung für die Forschungswelt der Künstlichen Intelligenz. In einer Zeit, in der KI immer häufiger eingesetzt wird, ist diese Gefahr nicht auf die leichte Schulter zu nehmen.
Was ist der Zweck einer Adversarial Attack?
Eine Adversarial Attack zielt oft darauf ab, ein Machine-Learning-Modell zum Scheitern zu bringen. Indem ein Modell auf ungenaue oder absichtlich verfälschte Daten trainiert wird, kann seine zukünftige Leistung negativ beeinflusst werden.
Ebenso kann ein bereits trainiertes Modell durch Daten korrumpiert werden. Selbst Systeme, die bereits auf dem Markt sind, können für solche Angriffe anfällig sein.
Ein paar Sticker auf dem Boden können z. B. ein selbstfahrendes Auto dazu bringen, die falsche Spur zu nehmen und in die entgegengesetzte Richtung zu fahren. Ebenso können unmerkliche Veränderungen ein medizinisches Analysesystem täuschen und es dazu bringen, einen gutartigen Tumor als bösartig zu klassifizieren.
Ein Computer-Vision-System kann ein Stoppschild mit einem Schild für eine Geschwindigkeitsbegrenzung verwechseln, wenn nur ein Stück Klebeband daran klebt. Künstliche Intelligenz ist also derzeit sehr leicht zu täuschen.
Die verschiedenen Arten von Adversarial Attacks
Es gibt drei Haupttypen von adversarialen Angriffen. Die erste Art ist ein Angriff, der darauf abzielt, einen Klassifizierer zu beeinflussen, indem das Modell gestört wird, um seine Vorhersagen zu verändern.
Der zweite Typ besteht darin, die Sicherheit des Modells zu verletzen, um bösartige Daten in das Modell einzuschleusen, die als legitim eingestuft werden. Ein gezielter Angriff schließlich besteht darin, ein bestimmtes Eindringen oder eine bestimmte Störung durchzuführen oder eine allgemeine Unordnung zu erzeugen.
Diese verschiedenen Kategorien können weiter unterteilt werden, je nachdem, ob sie als „Blackbox“ oder „Whitebox“ funktionieren. Bei einem White-Box-Angriff hat der Angreifer Zugriff auf die Parameter des Modells. Bei einem Black-Box-Angriff ist dies nicht der Fall.
Ausweichangriffe sind die häufigsten Angriffe. Sie bestehen darin, Daten zu verändern, um Erkennungssysteme zu umgehen oder um als legitim eingestuft zu werden. Bei diesen Angriffen werden die Daten, die zum Trainieren des Modells verwendet werden, nicht beeinflusst.
Als Beispiel kann Malware oder Spam in einem Bild im Anhang einer E-Mail versteckt werden, um die Erkennung durch die Anti-Spam-Modelle der Mailboxen zu verhindern. In ähnlicher Weise ist es möglich, ein biometrisches Verifizierungssystem zu täuschen.
Eine weitere Angriffsart ist das sogenannte „Data Poisoning“. Bei dieser Methode werden die Daten verunreinigt, die zum weiteren Training eines Machine-Learning-Modells verwendet werden. Durch das Einspritzen von Mustern in die Daten wird der Prozess gestört und das Modell verändert.
Beim Modelldiebstahl oder der Modellextraktion wird ein Modell rekonstruiert oder es werden die Daten, mit denen es trainiert wurde, extrahiert. Die Folgen können schwerwiegend sein, wenn die Trainingsdaten oder das Modell sensibel und vertraulich sind.
Einige Beispiele für adversarial attacks
Künstliche Intelligenz ist eine neue Technologie, aber es gibt bereits zahlreiche Adversarial Attacks. Einem Hacker ist es gelungen, eine Schildkrötenfigur in 3D zu drucken, deren Textur die Objekterkennungs-KI von Google dazu bringt, sie als Gewehr zu klassifizieren.
Ein weiteres Beispiel ist ein Bild eines Hundes, das so verändert wurde, dass es wie eine Katze aussieht – sowohl für Menschen als auch für Computer.
Angesichts der Gesichtserkennungssysteme haben viele Menschen „adversarial patterns“ für Brillen und Kleidung entwickelt, die diese KIs täuschen können. Audio-„adversarial inputs“ können auch intelligente Assistenten stören und sie daran hindern, Sprachbefehle zu hören.
In einer im April 2021 veröffentlichten Studie haben Forscher von Google und der University of California in Berkeley nachgewiesen, dass selbst die fortschrittlichsten forensischen Klassifizierer anfällig für adversarial attacks sind.
Diese KIs wurden darauf trainiert, zwischen echten und synthetischen Inhalten zu unterscheiden, insbesondere um Fake News oder Deepfakes zu bekämpfen. Leider besteht die Gefahr, dass Adversarial Attacks sie daran hindern, diese Rolle zu erfüllen.
Ein weiterer bekannter Fall ist der Chatbot Tay, der von Microsoft auf Twitter eingesetzt wurde, um durch Interaktion mit anderen Internetnutzern zu lernen, wie man eine Konversation führt. Leider machten sich Trolle einen Spaß daraus, Tay mit Beleidigungen und beleidigenden Äußerungen zu füttern, um ihn außer Kontrolle zu bringen. 16 Stunden nach dem Start war Microsoft gezwungen, seine KI, die rassistisch und homophob geworden war, zu deaktivieren.
Wie kann man sich vor einer Adversarial Attack schützen?
In den letzten Jahren hat sich die Forschung zu Adversarial Attacks stark entwickelt. Im Jahr 2014 gab es auf dem Server Arxiv.org keine einzige Studie zu diesem Thema. Im Jahr 2020 gibt es auf dieser Plattform mehr als 1.100 Studien.
Laut dem Bericht der National Security Commission on Artificial Intelligence aus dem Jahr 2019 richtet sich hingegen nur ein sehr geringer Prozentsatz der KI-Forschung auf die Verteidigung gegen gegnerische Angriffe.
Dennoch werden Schutzmethoden entwickelt, und das Thema nimmt mittlerweile einen wichtigen Platz auf renommierten Konferenzen wie NeurIPS, ICLR, DEF CON, Black Hat oder Usenix ein.
Auch Start-ups werden gegründet, um diese Plage zu bekämpfen. Resistant AI bietet z. B. ein Produkt an, mit dem KI-Algorithmen gegen Angriffe gestärkt werden können.
Eine gute Verteidigungsmaßnahme ist es, die Widerstandsfähigkeit von Modellen mit einem Trojanischen Pferd zu testen. Im Falle von Machine Learning besteht diese Art von Angriff darin, das Modell so zu verändern, dass es falsche Antworten liefert.
Um diese Tests zu vereinfachen und es Unternehmen zu ermöglichen, sie in großem Maßstab durchzuführen, haben Forscher der John Hopkins University das TrojAI-Framework entwickelt. Dieses Toolset erzeugt Datensätze und Modelle, die bereits von Trojanern manipuliert wurden.
So können Forscher ihre Experimente durchführen und versuchen, die Auswirkungen der verschiedenen Datensätze auf die Modelle zu verstehen. Es wird einfacher, Erkennungsmethoden zu testen, um die KI besser zu stärken.
Forscher von Google haben ihrerseits eine Studie veröffentlicht, in der sie ein Framework beschreiben, das Angriffe erkennen kann. Verschiedene Unternehmen bieten Tools an, mit denen man gegnerische Beispiele generieren kann, um die Modelle von Frameworks wie MxNet, Keras, Facebook PyTorch, TensorFlow oder Caffe2 zu täuschen.
Weitere Beispiele sind Baidu Advbox, Microsoft Counterfit, IBM Adversarial Robustness Toolbox oder Salesforce Robustness Gym. Das Labor für künstliche Intelligenz des MIT hat außerdem das Tool TextFooler zur Stärkung von Modellen für die natürliche Sprachverarbeitung (NLP) eingeführt.