🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Kosmos-1 Microsoft: Das Tool, das auf alles eine Antwort hat!

-
2
 Minuten Lesezeit
-
kosmos

Obwohl die Fähigkeiten von ChatGPT oder anderen LLMs die Leute beeindrucken. Diese bleiben in Wirklichkeit darauf beschränkt, nur auf Textfragen zu antworten. Microsoft behauptet seinerseits, mit Kosmos-1 ein multimodales Modell (MLLM) geschaffen zu haben, das Bilder, Videos oder Audios analysieren kann, um Fragen zu beantworten.

Kosmos-1 Microsoft: Warum ein multimodales Modell erstellen?

In einem Artikel mit dem Titel „Language Is Not All You Need: Aligning Perception with Language Models“ berichten die KI-Forscher von Microsoft, dass es ihr Ziel ist, die Wahrnehmung in MLLMs zu integrieren, damit diese sehen, hören und sprechen können. Darüber hinaus legt der Artikel nahe, dass multimodale Wahrnehmung der erste Schritt in Richtung allgemeine künstliche Intelligenz ist. Das System wäre in der Lage, wie ein Mensch zu denken.

Ist Kosmos-1 ein multimodales Modell?

Microsoft behauptet, dass sein MLLM Kosmos-1 mehrere Informationseingänge erhalten, Anweisungen befolgen und kontextabhängig lernen kann.

Um seine Fähigkeiten zu veranschaulichen, zeigt der Artikel eine Diskussion über ein Foto eines Kätzchens und eine Person, die einen Zettel mit einem gezeichneten Lächeln hält. Kosmos-1 wird dann über die humorvolle Seite des Bildes befragt, und das Modell erklärt, dass das Bild lustig ist, weil die Katze eine Maske trägt, die ihr ein Lächeln verleiht. Andere Beispiele zeigen, dass Kosmos-1 Microsoft verschiedene Aufgaben erfüllen kann, z. B. erklären, wie man einen Computer unter Windows 10 neu startet, eine Webseite für eine Suche vorlesen, die Gesundheitsdaten eines Geräts interpretieren oder Bilder untertiteln kann. Diese verschiedenen Algorithmen bieten ihr jedoch keine Fähigkeiten zur Videoanalyse.

Was die Wissenschaftler aber am meisten interessiert, ist sein Potenzial bei der Beantwortung von Fragen auf Webseiten. Denn was Microsoft möchte, ist, Sprachmuster zu verwenden, um die Relevanz von Bing im Vergleich zu Google zu verbessern.

Dank der MLLM kommen die Forschungsinstitute einer allgemeinen KI einen Schritt näher. Wir hoffen, dass Skynet eine Fiktion bleibt und nicht Wirklichkeit wird. Auf jeden Fall, wenn dir dieser Artikel gefallen hat und du dich für Data Science interessierst, eine Karriere in diesem Bereich planst oder einfach nur verhindern willst, dass Skynet geboren wird, dann zögere nicht länger und entdecke unsere Ausbildungsangebote oder Artikel auf DataScientest.

Quelle: zdnet.com

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.