🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Instruction Tuning: Alles über diese revolutionäre Technik des Fine-Tuning von KIs

-
6
 Minuten Lesezeit
-
Instruction Tuning: Alles über diese revolutionäre Technik des Fine-Tuning von KIs

Instruction Tuning ist eine innovative Methode des Fine-Tuning von Wide Language Models, bei der den Beispieldaten spezifische Anweisungen hinzugefügt werden. Finde heraus, warum dieser Ansatz das Potenzial hat, die KI zu revolutionieren!

In den letzten Jahren haben sich Machine Learning und die Natürliche Sprachverarbeitung (NLP) stark weiterentwickelt. Vor allem die Art und Weise, wie Modelle trainiert werden, hat sich verändert.

Mit dem Aufkommen von vortrainierten Modellen wie BERT oder GPT wurde das Fine-Tuning von vortrainierten Modellen für nachgelagerte Aufgaben zum neuen Standard.

Anschließend ermöglichte die Kapazitätssteigerung immer größerer Sprachmodelle das Lernen im Kontext durch Prompting. Und in jüngster Zeit ist eine neue Methode aufgetaucht, um LLMs in der Praxis nützlich zu machen: das Instruction Tuning.

Durch die Kombination von Beispieldaten mit Anweisungen macht dieser innovative Ansatz die Sprachmodelle viel vielseitiger.

Bevor wir diese Technik genauer untersuchen, wollen wir zunächst noch einmal auf das Konzept des Fine-Tuning eingehen.

Was ist Fine-Tuning?

Vortrainierte Sprachmodelle bieten großartige Möglichkeiten, sind aber nicht von Natur aus Experten in einem bestimmten Bereich.

Um für Aufgaben wie Stimmungsanalyse, Sprachübersetzung oder die Beantwortung von Fragen zu bestimmten Themen spezialisiert zu sein, müssen sie mithilfe eines Verfahrens namens „fine-tuning“ (Feinabstimmung) angepasst werden.

Mit diesem Verfahren wird einem Modell der letzte Schliff gegeben, um es zu spezialisieren. Er beinhaltet normalerweise, dass das Modell mit einem kleineren Datensatz trainiert wird, der speziell auf eine Aufgabe ausgerichtet ist.

Der Datensatz wird mit Beispielen beschriftet, die für die gezielte Aufgabe relevant sind. Indem das Modell diesen Beispielen ausgesetzt wird, wird es in die Lage versetzt, seine Parameter und internen Repräsentationen anzupassen.

Das während des Pre-Trainings gewonnene Wissen wird genutzt, was Zeit und Ressourcen spart. Wenn das Sprachmodell auf diese Weise verfeinert wurde, wird es bei den Aufgaben, für die es angepasst wurde, leistungsfähiger.

Die Herausforderung besteht jedoch darin, die durch dieses Training gewonnene Expertise auf andere Aufgaben zu verallgemeinern. Hier kommt das Instruction Tuning ins Spiel.

Instruction Tuning vs. Fine-Tuning: Wo liegen die Unterschiede?

Der Hauptunterschied zwischen dem Instruction Tuning und dem standardmäßigen überwachten Fine-Tuning liegt in den Daten, mit denen das Modell trainiert wird.

Während beim überwachten Fine-Tuning die Modelle auf Beispiel-Eingaben (Inputs) und die daraus resultierenden Ergebnisse (Output) trainiert werden, erweitert Instruction-Tuning die Input-Output-Beispiele um eine weitere Komponente: die Instruktionen.

Genau das ist es, was es den Instruction-Tuned-Modellen ermöglicht, leichter auf neue Aufgaben zu verallgemeinern. So werden die so angepassten LLMs viel vielseitiger und nützlicher.

Mit dieser Methode werden die Fähigkeiten der LLMs, geeignete Ergebnisse auf der Grundlage von Instruktionseingaben zu liefern, ebenso gesteigert wie die Cross-Task-Generalisierung. Dadurch wird die Leistung bei neuartigen Aufgaben gesteigert.

Darüber hinaus wird die Effizienz der Stichproben erhöht, da die Menge an Trainingsdaten, die benötigt wird, um die Leistung der besten überwachten Modelle zu erreichen, minimal ist.

Dieser Ansatz erfordert jedoch die Erstellung von Tuning-Instruktionsdaten. Glücklicherweise gibt es mehrere Datasets von ausgezeichneter Qualität, und wir werden nun sehen, welche die beliebtesten sind!

Die besten Tuning-Instruktionsdatasets

Es gibt zwei Hauptkategorien von Instruktions-Tuning-Datasets.

Im ersten Fall werden die Anweisungen zu bestehenden NLP-Aufgaben hinzugefügt. Im zweiten Fall werden die Daten verwendet, um ein Modell so zu konditionieren, dass es neue „Tupel“ (geordnete Sequenzen) von Input-Output-Anweisungen generiert.

Natürliche Anweisungen (Swaroop Mishra, 2022)

Dieser Datensatz umfasst 193.000 Beispiele von Crowdsourced Instructions Outputs aus 61 existierenden englischsprachigen NLP-Aufgaben. Die crowd-gesourcten Anweisungen aus jedem Dataset sind an einem gemeinsamen Schema ausgerichtet.

Diese Anweisungen sind stärker strukturiert als in anderen Datasets. Die Outputs sind jedoch relativ kurz, was die Daten für die Generierung von Long-Format-Inhalten weniger nützlich macht.

Natürliche Anweisungen v2 / Super-Natürliche Anweisungen (Yizhong Wang, 2022)

Diese Crowd-Sourced-Sammlung von Instruktionsdaten basiert auf NLP-Aufgaben und einfachen synthetischen Aufgaben. Sie umfasst 5 Millionen Beispiele aus 76 Aufgaben in 55 Sprachen.

Im Vergleich zur ersten Version des Natural Instructions Datasets sind die Anweisungen stark vereinfacht. Sie bestehen aus einer Definition der Aufgabe mit positiven und negativen Beispielen und Erklärungen.

Unnatural Instructions (Or Honovinch, 2023)

Dieser automatisch gesammelte Datensatz umfasst 240.000 Beispiele, die durch Prompting von InstructGPT (text-davinci-002) mit drei Beispielen für Super-Natural Instructions gewonnen wurden.

Dabei handelt es sich um eine Anweisung, einen Input und Einschränkungen für einen möglichen Output. Für jedes Trio hat die InstructGPT-Vorlage die Anweisung, ein neues Beispiel zu generieren.

Die Ausgabe wird separat aus den Bedingungen für die Anweisung, den Input und die erzeugten Beschränkungen generiert. Anschließend werden die so erzeugten Anweisungen wieder durch Prompting des Modells umschrieben.

Im Vergleich zu Super-Natural Instructions deckt diese neue Version von Unnatural Instructions ein viel breiteres Spektrum an Aufgaben ab. Auch wenn viele Beispiele klassische NLP-Aufgaben widerspiegeln, sind auch andere Beispiele für interessante Aufgaben enthalten.

P3 : Öffentlicher Pool von Prompts (Victor Sanh, 2022)

Diese Sammlung von Prompts ist crowd-sourced aus 177 englischsprachigen NLP-Aufgaben. Für jedes Dataset sind im Durchschnitt etwa 11 verschiedene Prompts verfügbar.

Dies ermöglicht es, den Einfluss verschiedener Promptformulierungen zu untersuchen. Im Vergleich zu den Anweisungen in den oben genannten Datasets sind die Prompts in P3 oft kürzer und weniger ausgefeilt.

Flan 2021 / Muffin (Jason Wei, 2022)

Flan 2021 bietet eine Sammlung von Prompts aus 62 Datasets mit englischsprachigen Texten und 10 Prompt-Templates für jede Aufgabe.

Und für Klassifikationsaufgaben wird ein OPTIONS-Supply an den Input angehängt, um die Output-Beschränkungen anzugeben. Flan 2022 ist jedoch wesentlich umfangreicher.

Flan 2022 (Hyung Won Chung, 2022)

Dieses Dataset ist eine Kombination aus Flan 2021, P3, Super-Natural Instructions und anderen Datensets zum Schlussfolgern, zum Dialog und zur Programmzusammenfassung.

Die neun zusätzlichen Reasoning-Datasets sind mit einer Gedankenkette (CoT oder chain-of-thoughts) annotiert. Es handelt sich also um einen der bislang umfassendsten Instruction-Tuning-Datensätze.

Eine neue Generation von Datasets, die näher an der realen Welt sind

Abgesehen von den bereits erwähnten Datasets der ersten Generation, die hauptsächlich auf bestehenden NLP-Aufgaben basieren, hat sich eine neue Welle von Datasets entwickelt, die näher an Anwendungsfälle aus der realen Welt herankommen. Hier sind einige Beispiele dafür.

Das Alpaca Data Dataset, das von Rohan Taori und seinen Partnern im März 2023 gestartet wurde, umfasst 52.000 Beispielanweisungen in englischer Sprache. Es wurde mit OpenAI text-davinci-003 mit self-instruct erstellt. Seine Schöpfer haben Änderungen vorgenommen, um die Generierungspipeline zu vereinfachen und die Kosten unter 500 US-Dollar zu senken!

Mit Evol-instruct, das im April 2023 gestartet wurde, schrieben Can Xu und seine Kollegen 250.000 Paare von Anweisungen und Antworten, die auf Alpaca Data basierten, um. Die Anweisungen wurden umgeschrieben, um sie komplexer zu machen oder um mithilfe von ChatGPT neue, spezialisiertere Anweisungen zu erstellen.

In einem zweiten Schritt wurde ChatGPT verwendet, um die entsprechenden Antworten zu generieren. Die Paare aus Anweisungen und Antworten mit niedriger Qualität wurden mithilfe von Heuristiken herausgefiltert. Der Prozess wurde dreimal wiederholt.

Erwähnt sei auch Vicuna ShareGPT vom März 2023. Es umfasst über 70.000 englischsprachige Konversationen, die von Nutzern geteilt und von der Website sharegpt.com gescannt wurden. Die Vorverarbeitung umfasste die Umwandlung von HTML in Markdown, das Herausfiltern von Samples mit niedriger Qualität und die Unterteilung langer Konversationen in kürzere Segmente.

Im Vergleich zu den anderen oben genannten Datensätzen bestehen die ShareGPT-Konversationen aus mehreren Replikaten und sind daher nützlicher, um ein Modell zu trainieren, das sich auf den Kontext einer Diskussion stützt.

Ein weiteres Beispiel für ein mehrfach repliziertes Dataset ist Baize Data, das im April 2023 veröffentlicht wurde. Es enthält Beispiele für 54k und 57k englischsprachige Dialoge mit durchschnittlich 3,4 Repliken, die mit GPT unter Verwendung von Fragen aus Quora und StackOverflow generiert wurden.

Außerdem wurden 47k Dialoge über den medizinischen Bereich anhand von Fragen aus dem MedQuAD-Datensatz generiert. Dadurch ist er für diesen Bereich sehr nützlich.

Der Datensatz databricks-dolly-15k data vom April 2023 umfasst 15k-Anweisungen und -Beispiele, die von Databricks-Mitarbeitern verfasst wurden. Die Anweisungen und Antworten sind von Menschen generiert, was im Gegensatz zur Verwendung von ChatGPT in den anderen erwähnten Datasets steht.

Die Beispiele decken sieben verschiedene Anwendungsfälle ab, wie offene und geschlossene Fragen und Antworten, Extrahieren und Zusammenfassen von Wikipedia-Daten, Brainstorming, Klassifizierung und kreatives Schreiben.

Während sich die meisten Datasets auf die englische Sprache konzentrieren, bietet OpenAssistant Conversations Gespräche in mehreren Sprachen, die von menschlichen Annotatoren erzeugt wurden. Mehr als 30 % sind in Spanisch oder anderen Sprachen.

LIMA data schließlich, das im Mai 2023 gestartet wird, bietet Frage-Antwort-Paare aus StackExchange, wikiHow und dem Reddit Pushshift Dataset. Das Training mit diesem kleinen, sorgfältig ausgewählten Datensatz erweist sich als leistungsfähiger als das Training mit einem viel größeren Dataset wie Alpaca Data.

Schlüsselmerkmale von Instruktionsdaten

In einer Anfang 2023 veröffentlichten Studie beleuchten Shayne Longpre und seine Mitarbeiter mehrere wichtige Aspekte der Instruktionsdaten.

Zunächst einmal verbessert das Training mit Few-Shot-Prompts, die mit Zero-Shot-Prompts gemischt werden, die Leistung in beiden Konfigurationen massiv.

Darüber hinaus profitieren breite Sprachmodelle davon, dass die Anzahl der Aufgaben und ihre Vielfalt kontinuierlich zunehmen. Ein weiterer vorteilhafter Ansatz ist die Erhöhung der Datenmenge, insbesondere durch die Umkehrung von Inputs und Outputs.

Dies kann z. B. dadurch geschehen, dass eine Aufgabe zur Beantwortung einer Frage in eine Aufgabe zur Generierung von Fragen umgewandelt wird. Ebenso ist es bei der Verwendung einer Kombination aus mehreren Instructions Tuning Datasets wichtig, die Gewichte entsprechend anzupassen.

Fazit: Tuning-Anweisung, der Schlüssel zu vielseitigeren und generalistischeren LLMs?

Mithilfe von Anweisungen, die den Datasets hinzugefügt werden, hilft die Tuning-Anweisung, das von LLMs erworbene Wissen auf neue Aufgaben zu verallgemeinern. Dies könnte der Schlüssel zur Entstehung einer generalistischen KI  sein, die als das ultimative Ziel der künstlichen Intelligenz angesehen wird…

Laut einer Studie des Forschers Khai Loong Aw und seiner Kollegen bringt Instruction Tuning die LLMs näher an die Art und Weise, wie das menschliche Gehirn Sprache verarbeitet. Im Vergleich zum Fine-Tuning erhöht sich die Angleichung an das Gehirn um 6%.

Um diese innovative Methode des Fine-Tuning zu meistern, kannst du dich an DataScientest wenden! Wir bieten dir verschiedene Online-Kurse an, um Experte für künstliche Intelligenz zu werden.

Mit dem Lehrgang Machine Learning Engineer kannst du lernen, Lösungen für künstliche Intelligenz zu entwerfen, zu entwickeln und einzusetzen. Dieser Kurs vermittelt dir sowohl Fähigkeiten in Data Science als auch im maschinellen Lernen.

Du wirst insbesondere die Programmierung in Python, DataViz-Tools, Data Engineering, DataOps-Techniken, aber auch die Konzepte von Machine Learning und Deep Learning kennen lernen.

Am Ende dieses praxisorientierten Kurses wirst du die Zertifizierung „Projektleiter für künstliche Intelligenz“ des Collège de Paris erhalten und ein Zertifikat von Mines ParisTech PSL Executive Education erhalten.

Darüber hinaus kannst du die Prüfung zum Amazon Certified Cloud Practitioner ablegen, die dir bescheinigt, dass du die AWS-Cloud beherrschst. Dieser Kurs bietet dir also eine dreifache Anerkennung!

Der Kurs MLOps wiederum bringt dir bei, wie man KI-Modelle automatisiert in Produktion bringt und einsetzt. Er umfasst die Programmierung unter Linux, CI/CD, Containerisierung mit Docker und Kubernetes oder auch die Überwachung mit Prometheus und Grafana.

Schließlich wird dich unser Kurs Prompt Engineering und Generative AI zu einem Meister in der Kunst der Formulierung von Prompts für ChatGPT, Canva oder auch DALL-E machen.

In nur zwei Tagen wirst du in der Lage sein, generative KI zu nutzen, um Inhalte zu produzieren, die genau deinen Erwartungen entsprechen.

Alle unsere Kurse sind durch den Bildungsgutschein förderfähig und können vollständig aus der Ferne in Vollzeit, Teilzeit oder als intensives BootCamp absolviert werden. Entdecke schnell DataScientest und seine KI-Trainings!

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.