Was ist Spracherkennung?

Spracherkennung ist eine Technologie, die es Computern und anderen Geräten ermöglicht, menschliche Sprache zu verstehen und zu verarbeiten. Sie wandelt gesprochene Wörter in Text oder Aktionen um.

Wie funktioniert die Spracherkennung?

Die Spracherkennung nutzt Algorithmen des maschinellen Lernens, um die Klänge, Frequenzen und Muster der menschlichen Sprache zu analysieren. Sie vergleicht diese Klänge mit einer Datenbank von Wörtern und Phrasen, um zu erkennen, was gesagt wird.

Was sind häufige Anwendungen der Spracherkennung?

- Virtuelle Assistenten (wie Siri, Google Assistant, Alexa) - Automatische Transkription - Sprachbefehle zur Steuerung von Geräten - Automatisierter Kundenservice - Barrierefreiheit für Menschen mit Behinderungen

Wer sind die wichtigsten Anbieter von Spracherkennungstechnologien?

- Google (Google Cloud Speech-to-Text) - Apple (Siri) - Amazon (Alexa) - Microsoft (Cortana, Azure Speech Services) - IBM (Watson Speech to Text)

Zurück zu den Artikeln

Spracherkennung: Definition, Ursprünge und moderne technologische Anwendungen

18. Juni 2024

Minuten Lesezeit

Künstliche Intelligenz

Mit seinem Smartphone zu sprechen, hat sich zu einer alltäglichen Aktivität entwickelt. Und eine Vielzahl von Sprachekennung-Systemen hat sich als äußerst leistungsfähig erwiesen. Trotzdem hat die Entwicklung, die Stimme des Menschen zu verstehen, mehrere Jahrzehnte in Anspruch genommen.

Sprachekennung ist mittlerweile ein Alltagsdienst geworden, den man in vielen Branchen antrifft:

Jeder von uns nutzt es regelmäßig, um mit seinem Smartphone oder Anwendungen zu kommunizieren ;
Nach einer medizinischen Untersuchung verwendet der Arzt diese Technologie, um seinen Befund zu diktieren;
In der Regel ist es das Mittel, mit dem wir den Kontostand unseres Bankkontos prüfen;
usw.

Allerdings, obwohl sich diese Technologie mittlerweile etabliert hat, dauerte es mehrere Jahrzehnte, bis sie ein akzeptables Qualitätsniveau erreicht hatte.

Kurze Geschichte der Sprachekennung

Sprachekennung basiert auf mehr als 70 Jahren wissenschaftlicher Forschung! Die ersten Schritte in diesem Bereich wurden Anfang der 1950er Jahre gemacht.

Audrey

Im Jahr 1952 präsentierten die Bell Laboratories Audrey, das allererste Sprachekennung-System. Es konnte die Zahlen von 0 bis 9, einzeln ausgesprochen, mit einer Erfolgsquote von 99 % erkennen. Allerdings wurde diese 99%-Quote nur erreicht, wenn der Erfinder von Audrey selbst sprach. Bei anderen Sprechern lag die Quote näher bei 70 bis 80 %. Von Beginn an wurde ein grundlegendes Problem adressiert: Die menschliche Stimme ist vielfältig. Jeder hat seine eigene Sprechweise, und das Problem der Sprachekennung ist daher komplex.

Shoebox

Zehn Jahre später stellt IBM im April 1962 auf einer Weltausstellung die sprachgesteuerte Rechenmaschine Shoebox vor. Dieses Gerät, entwickelt von William C. Dersch in San Jose (Kalifornien), erkennt ebenfalls Zahlen von 0 bis 9 wie Audrey, aber auch sechzehn grundlegende englische Wörter, die einfachen arithmetischen Begriffen entsprechen: „add“, „subtract“, „total“ usw.

Harpy

Anfang der 70er Jahre entsteht unter der Leitung der US-Verteidigungsagentur DARPA das Harpy-System der Carnegie Mellon University. Harpy kann 1011 Wörter mit großer Präzision erkennen, was einer Fähigkeit gleichkommt, die mit der eines dreijährigen Kindes vergleichbar ist. Das markierte einen kleinen Triumph und entfachte eine Welle von Begeisterung für die Forschung im Bereich Sprachekennung.

Tangora

Waren bisherige Ansätze auf die Erkennung von Phonemen (Laut-Einheiten), um Wörter zu rekonstruieren, fokussiert, nahm die Sprachekennung ab den 1980er Jahren neue Ansätze an, einschließlich statistischer Modelle. Auf dieser Grundlage entwickelte IBM Tangora, das versuchte, die folgenden Wörter basierend auf bereits analysierten Daten vorherzusagen. Tangora benötigte etwa zwanzig Minuten Training und konnte anschließend 20.000 Wörter sowie komplette Sätze erkennen.

Dragon Naturally Speaking

Im Jahr 1997 präsentierte das Unternehmen Nuance seine Software Dragon Professional, was einen erheblichen Fortschritt darstellte. Diese Anwendung benötigte mehrere Stunden Training, aber nach dessen Abschluss konnte eine Person frei sprechen und musste ihre Texte nicht mehr selbst eintippen. Dragon war in der Lage, 100 Wörter pro Minute zu erkennen. Es wurde rasch von vielen Ärzten und Anwälten adoptiert. Bald darauf integrierte die Windows XP-Version, die 2001 erschien, ein Sprachekennung-Tool.

Google Voice Search/ Google Assistant

In den 2000er Jahren wurde das Computerized Voice Processing durch Künstliche Intelligenz unterstützt. Google Voice Search entschloss sich, Algorithmen des Machine Learnings mit dem Einsatz von Hochleistungsservern zu kombinieren. Die Anwendung wurde 2008 eingeführt und markierte enorme Fortschritte. Dieses Produkt, das zum Google Assistant wurde, wurde nicht so beworben, wie es hätte sein sollen, und ein anderer Dienst entriss ihm die Show.

Siri

In 2011 machte Apple mit der Ankündigung Schlagzeilen, dass Siri, ein virtueller Assistent, der verstehen kann, was wir ihm sagen, auf allen neuen iPhones verfügbar sein wird. Das war ein wichtiger Schritt, denn Sprachekennung wurde damit zu einem alltäglichen Werkzeug. Kurz darauf kamen 2014 Amazon’s Alexa und Microsoft’s Cortana auf den Markt.

Wie funktioniert Spracherkennung?

Aber wie funktioniert eine Sprachekennung-Anwendung heutzutage?

Die Sammlung des Tons geschieht über ein Mikrofon, das Signale in elektrische Impulse umwandelt, diese dann in ein analoges Signal verwandelt und schließlich in ein digitales Signal übersetzt.

Anschließend kommt Machine Learning zum Einsatz. Es weist Phoneme syntaktischen Einheiten zu, verbindet die entschlüsselten Tonfrequenzen mit Wörtern und leitet dann die am besten passende Wortfolge ab. Das System nutzt Referenzmodelle, um bei diesem Prozess der Identifizierung wahrscheinlicher Wortfolgen zu unterstützen. Techniken des Natural Language Processing helfen dabei, Semantik zu extrahieren: Das Sprachekennung-Programm zielt darauf ab, die Bedeutung dessen zu verstehen, was ausgedrückt wird.

So können Anwendungen für Voice Dictation oder Konversationen entwickelt werden, die immer näher an der menschlichen Realität sind.

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Weiterlesen

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!

Data Analyst

Analytics Engineer

Data Scientist

AI / Machine Learning Engineer

Data Engineer

Cloud Engineer

DevOps Engineer

Data Marketing & AI

MLOps

ETL Entwickler

Data Ops Engineer

Amazon Web Service (AWS)

Microsoft Power BI

Über uns

Karriere

Events

Unsere Alumni

Überblick

Bildungsgutschein

Für Arbeitnehmer

Zurück zu den Artikeln

Spracherkennung: Definition, Ursprünge und moderne technologische Anwendungen