Zurück zu den Artikeln

Multi-Head-Attention: Eine umfassende Erklärung und Anwendung

27. Februar 2024

Minuten Lesezeit

Data Science

Warst du überrascht, wie gut eine Konversationsschnittstelle wie ChatGPT mit natürlicher Sprache umgehen kann? Eines der Geheimnisse dieser Fähigkeit liegt in der Multi Head Attention...

NLP (Natural Language Processing) hat sich in den letzten Jahren meisterhaft entwickelt. Weniger bekannt ist, dass eine besondere Innovation die Fähigkeit, unsere Sprache zu entschlüsseln, revolutioniert hat: die Multi Head Attention.

Die Multi Head Attention ist Teil eines besonderen Analysemodells, den Transformers…

Ein Vorher und ein Nachher

Vor den Transformers gab es zwei Arten von Modellen, die die Sprachverarbeitung dominierten: RNNs und CNNs. Beide hatten Probleme bei der Herangehensweise an das Problem.

RNNs (Recurrent Neuronal Networks) verarbeiten Informationen sequentiell, was für einen Text nützlich sein kann. Sie haben jedoch Schwierigkeiten mit langen Sequenzen.

CNN (Convolutive Neuronal Networks) werden vor allem für die Bilderkennung verwendet und auch auf Text angewendet. Ihre Effizienz ist jedoch geringer als die von CNNs.

Die Transformers

Am 12. Juni 2017 sorgte ein Artikel von Ashish Vaswani, Noam Shazeer, Niki Parmar und fünf weiteren Forschern für Aufsehen. Unter dem Titel „Attention Is All You Need“ stellte er eine neue Architektur namens Transformers vor. Dieses Konzept hat zu bedeutenden Fortschritten beim Verständnis und der Generierung natürlicher Sprache geführt. Es ist die Grundlage für fortschrittliche Modelle wie GPT von OpenAI oder Bert von Google.

Die wichtigsten Punkte der Transformers

Hier sind die wichtigsten Merkmale der Transformers:

Im Gegensatz zu RNN und CNN analysieren Transformers nicht einzelne Wörter, sondern verschiedene Teile eines Textes in Sichtweite, um festzustellen, in welcher Beziehung sie zueinander stehen und welche relative Bedeutung sie haben. Dies wird als Aufmerksamkeitsmechanismus bezeichnet.
Dieser Ansatz veranlasst den Transformer-Algorithmus, die Elemente eines Textes parallel und nicht nacheinander anzugehen. Dies führt zu einer schnelleren Verarbeitung.

Multi Head Attention

Multi Head Attention ist eines der Hauptmerkmale eines Transformers. In seiner jetzigen Form könnte der Begriff als „Multiple Head Attention“ übersetzt werden. Er bezieht sich auf die Fähigkeit des Aufmerksamkeitsmechanismus, sich gleichzeitig auf mehrere Teile eines Textes zu konzentrieren.

Es ist, als hätten wir mehrere Einheiten, die Teile desselben Satzes lesen (die Haupthandlung, die Nebenhandlung, Adjektive, Elemente, die die Zeit der Handlung angeben…). Jede Einheit versucht, das Verständnis der Gesamtbedeutung zu verbessern.

Multi Head Attention hilft dabei, den gesamten Kontext eines Satzes zu erfassen, auch wenn dieser lang und komplex sein kann. Das Ergebnis sind Texte, die aussehen, als wären sie von einem Menschen geschrieben worden, wie in ChatGPT oder Bard.

Wie funktioniert Multi Head Attention?

Wie läuft die Analyse eines Textes nach Multi Head Attention ab? Um es besser zu verstehen, betrachten wir einen Satz wie den folgenden: „Ridley Scott hat gerade einen Film über Napoleon herausgebracht, der vielen Historikern die Haare zu Berge stehen lässt.“

Jedes Wort des Satzes wird in einen Vektor umgewandelt, d. h. eine Menge von Zahlen, die verschiedene Merkmale darstellen. Diese Vektoren stammen aus Modellen des maschinellen Lernens, die auf große Mengen von Textdaten angewendet wurden. Ein Vektor umfasst mehrere Dimensionen, von denen jede ein Merkmal eines Wortes zusammenfasst: seine Rolle in einem Satz, seine Bedeutung, seine Beziehung zu anderen Wörtern.

Der Satz wird in mehrere „Köpfe“ unterteilt, die sich jeweils auf einen anderen Teil konzentrieren.
Jedem Wort im Satz wird ein Aufmerksamkeitswert zugewiesen.

Seine Zuweisung ist das Ergebnis einer komplexen Berechnung. So könnte ein Kopf bewerten, wie wichtig „Ridley Scott“ im Vergleich zu „sorti“, „Film“, „Napoleon“ usw. ist. Eine hohe Punktzahl bedeutet, dass ein Wort sehr wichtig ist, um den entsprechenden Abschnitt zu verstehen.
Nachdem jeder Kopf seine Punktzahl vergeben hat, kombiniert das Modell diese Informationen, um ein vollständiges Bild des Satzes zu erhalten. Das Ergebnis ist ein reiches und nuanciertes Verständnis.

Im oben genannten Fall würde das Modell einschätzen, dass „Ridley Scott“ das Hauptsubjekt des Satzes ist, mit der Aktion „bringt einen Film heraus“ usw. Das Modell würde sich also auf den Satz beziehen, in dem „Ridley Scott“ vorkommt.

Indem Multi Head Attention einen Satz aus mehreren gleichzeitigen Blickwinkeln betrachtet, hilft es, seine vollständige Bedeutung und mögliche Feinheiten des Textes besser zu erfassen.

Wer benutzt Multi Head Attention?

Während Multi Head Attention vor allem von GPT von OpenAI und Bert von Google genutzt wurde, ist es auch Bestandteil anderer Modelle, die die Avantgarde der Forschung im Bereich der Verarbeitung natürlicher Sprache repräsentieren:

DistilBERT, eine Initiative von Hugging Face, die in Zusammenarbeit mit der New York University durchgeführt wurde. Diese optimierte Version von BERT erweist sich als leichter und schneller.
RoBERTa, eine von Facebook AI entwickelte Variante von BERT, die mit einer größeren Datenmenge, aber auch größeren Sets trainiert wurde, wodurch ihre Analysefähigkeiten verfeinert werden konnten.
Transformer XL, das von einer Einheit namens Google Brain stammt, einem fortgeschrittenen Forschungsprojekt, das 2011 von Google ins Leben gerufen wurde. Dieses Modell hat sich bei der Verarbeitung besonders langer Sequenzen als sehr effizient erwiesen.
XLNet, ein Modell zur Verarbeitung natürlicher Sprache, das von der Carnegie Mellon University in Zusammenarbeit mit Google Brain entwickelt wurde.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!

Data Analyst

Analytics Engineer

Data Scientist

AI / Machine Learning Engineer

Data Engineer

Cloud Engineer

DevOps Engineer

Data Marketing & AI

MLOps

ETL Entwickler

Data Ops Engineer

Amazon Web Service (AWS)

Microsoft Power BI

Über uns

Karriere

Events

Unsere Alumni

Überblick

Bildungsgutschein

Qualifizierungs-chancengesetz

Zurück zu den Artikeln

Multi-Head-Attention: Eine umfassende Erklärung und Anwendung