Du hast bestimmt schon von ChatGPT gehört, dem Tool, das all deine Fragen in Echtzeit beantworten kann? Es wird Ende 2022 eingeführt und scheint den Bereich der künstlichen Intelligenz zu revolutionieren. Wir erzählen dir mehr darüber!
ChatGPT (Chat Generative Pretrained Transformer) wurde im November 2022 von der US-amerikanischen Firma OpenAI entwickelt. Es ist ein Sprachmodell, das es seinen Nutzern ermöglicht, in Echtzeit mit einem Bot in einem Online-Chat zu kommunizieren. Der Bot ist damit in der Lage, eine Unterhaltung in mehreren Sprachen zu führen, Fragen zu beantworten, Informationen zu vielen Themen zu übermitteln oder Ideen zu teilen.
Neben diesen vielfältigen Fähigkeiten zeichnet sich ChatGPT dadurch aus, dass er sich Unterhaltungen merkt, so dass er frühere Antworten berücksichtigen kann und der Nutzer ihm Korrekturen mitteilen kann. Es ist also ein intelligentes und innovatives Werkzeug, das die Kommunikation und den Zugang zu Wissen erleichtert!
Aber wie funktioniert ChatGPT?
ChatGPT ist ein NLP-Algorithmus (Natural Language Processing), der natürliche Sprache versteht und selbstständig generiert. Genauer gesagt ist es eine für die breite Öffentlichkeit bestimmte Version von GPT3, einem Algorithmus zur Textgenerierung, der sich auf das Schreiben von Artikeln und die Analyse von Gefühlen spezialisiert hat. ChatGPT funktioniert also wie GPT3, dank eines Modells, das mit einem riesigen Korpus von 500 Milliarden Textdaten vorab trainiert wurde. Es verwendet zwei verschiedene Arten des Lernens: überwachtes Lernen und verstärktes Lernen.
In der Phase des überwachten Lernens erhält er Konversationen, bei denen beide Rollen (Bot und Nutzer) gespielt werden, sodass die Daten mit Labels versehen werden (Fragen und dazugehörige erwartete Antworten). Während der Phase des Reinforcement Learning werden die vorherigen Interaktionen genutzt, um die Antworten zu klassifizieren. Diese Einstufung wird von menschlichen Trainern vorgenommen (Reinforcement Learning from Human Feedback) und ermöglicht die Erstellung eines Belohnungsmodells auf der Grundlage dieser Einstufung.
Auf diese Weise trainiert sich der Algorithmus zusätzlich zum Pre-Training auch während der Interaktion mit den Nutzern selbst weiter. Dadurch merkt er sich den Kontext und erinnert sich an die Botschaften einer Konversation.
>> Auch interessant: Python Deep Learning – Die Basics
Reinforcement Learning from Human Feedback im Detail
Wie bereits erwähnt, handelt es sich bei der Phase des Reinforcement Learning genauer gesagt um eine Phase des Reinforcement Learning from Human Feedback (RLHF), die mit echten menschlichen Trainern arbeitet. Diese Phase ist in zwei Schritte unterteilt, die wir näher erläutern:
Nachdem die Phase des überwachten Lernens an gelabelten Daten durchgeführt und eine überwachte Schriftart gelernt wurde, wird ein SFT-Modell (Supervised Fine Tuning) generiert. Die menschlichen Trainer stimmen dann über die Relevanz der Modellausgaben ab und erstellen einen Vergleichsdatensatz, auf dem ein RM (Reward Model) trainiert wird.
Das RM-Reward-Modell wird mithilfe des PPO Reinforcement Learning-Algorithmus optimiert. Der PPO-Algorithmus ist ein „on-policy“-Algorithmus, der eine aktuelle Police lernt und aktualisiert, indem er sich direkt auf die erhaltenen Aktionen und Belohnungen stützt. Dadurch wird ein neues Modell, das sogenannte Policy Model, generiert.
Mit diesem „Policy model“ kann das ursprüngliche SFT-Modell verbessert und ein neues Vergleichsdataset erstellt werden. Dann können die beiden Schritte in einer Schleife wiederholt werden.
>> Auch interessant: SpaCy: Die Open-Source Bibliothek für NLP
Frage ChatGPT nach Informationen über Data Scientists!
Nachdem wir nun die wichtigsten Modelle und Algorithmen verstanden haben, auf denen ChatGPT basiert, wollen wir gemeinsam seine Leistung testen.
Dazu treten wir dem Chat unter folgender Adresse bei: https://chat.openai.com/auth/login. Dann bitten wir den Bot, die Rolle eines Data Scientists zu beschreiben. Um eine optimierte Antwort zu erhalten, verwenden wir einen präzisen Prompt, d. h. eine Formulierung, die das Gespräch auf klare Weise einleitet.
ChatGPT ist sehr wohl in der Lage, uns über den Beruf des Data Scientists zu informieren und die begonnene Unterhaltung fortzusetzen. Das ist nur ein winziger Einblick in die Fähigkeiten dieses Tools, das nicht nur eine Informationsquelle ist, sondern auch einen Text schreiben, einen anderen zusammenfassen oder themenbezogene Inhalte vorschlagen kann. Seine Entwicklung könnte also den Textern Konkurrenz machen!
Wie sieht ChatGPT auf der Seite der Entwickler aus?
ChatGPT hat auch Fähigkeiten, die normalerweise für Computerentwickler typisch sind. Es kann Code in verschiedenen Programmiersprachen (Python, Java, C++ …) generieren und einen Algorithmus entwickeln, um ein Problem zu lösen. Um ein solches Ergebnis zu erzielen, muss man ihm nur klar sagen, was der zu generierende Code zurückgeben soll. Es setzt sich auch im Bereich Debugging durch und ist in der Lage, die Quelle eines Computerfehlers zu identifizieren und ihn zu beheben, wie jede andere Debugger-Software auch.
Für Data Engineers ist ChatGPT ebenfalls von großem Nutzen, da es eine virtuelle Maschine (VM) mit einem Linux-Terminal simulieren kann.
Schließlich kann ChatGPT auch Schwachstellen in einem Programm aufspüren.
ChatGPT ist also ein Modell für NLP, das sowohl aus redaktioneller Sicht als auch aus Sicht der Informatik funktioniert, und zwar in vielen Bereichen!
ChatGPT - Was sind seine Grenzen ?
Auf unsere Frage antwortet ChatGPT: „Ich bin ein Sprachverarbeitungsmodell, das von OpenAI trainiert wurde. Mein Wissen ist auf das Abschaltdatum meiner Trainingsdaten beschränkt, das 2021 ist. Ich kann nicht im Internet surfen, um Informationen zu überprüfen oder auf Daten zuzugreifen, die nicht Teil meines Gedächtnisses sind. Ich gebe mein Bestes, um Fragen genau und vollständig zu beantworten, aber es ist möglich, dass meine Antwort nicht immer richtig oder aktuell ist“.
Seit seinem Start betreffen die Hauptkritikpunkte an ChatGPT seine zeitliche Begrenzung, da sein Wissen bei Ereignissen vor dem Jahr 2021 aufhört, und falsche Antworten, die dazu führen können, dass falsche Informationen geteilt werden, auch wenn die Fehlerquote minimal ist.
Was den Code angeht, hat ChatGPT auch seine Grenzen, da der erzeugte Code ab einem bestimmten Schwierigkeitsgrad viele Fehler enthalten kann. Das Tool ist auf klassische und sich wiederholende Programme beschränkt, kann aber z. B. keine Computeranalyse durchführen. Schließlich sind seine Cybersicherheitskompetenzen zu leicht zugänglich und viele befürchten, dass sie von Hackern für bösartige Zwecke missbraucht werden könnten.
Aus ethischer Sicht steht das Tool vor weiteren Problemen. Aufgrund zahlreicher Plagiatsfälle wurde seine Verwendung verboten und sein Zugang von den Computerstationen einiger amerikanischer Schulen verbannt.
Schließlich hat ChatGPT, wie jedes statistische Modell, emotionale Grenzen. Im Gegensatz zur menschlichen Intelligenz hat es keine Gedanken, keine Intuition, keine Moral und auch keine Emotionen, was eine gewisse Gefahr darstellen kann.
Wie jede Innovation hat auch ChatGPT seine Grenzen. Es bleibt dennoch ein Werkzeug der künstlichen Intelligenz mit großem Potenzial, dessen Leistung mit der Zeit immer besser wird!
Wenn du mehr über andere NLP-Algorithmen und andere starke Bereiche erfahren möchtest, in denen die KI immer mehr in den Vordergrund rückt, dann schau dich in unserem Blog um.