Von Snapchat-Filtern über selbstfahrende Autos bis hin zur Krebserkennung - Computer Vision ist heute überall um uns herum. Sie ist so effektiv wie vielfältig.
Ziel dieses Artikels ist es, dir einen umfassenden Überblick über diese Technik des maschinellen Lernens zu geben, indem er Computer Vision genau definiert und seine Anwendungsbereiche aufzeigt.
Was ist Computer Vision?
Computer Vision ist eine Technik der künstlichen Intelligenz, bei der ein Bild oder Video analysiert und dann interpretiert wird. Ähnlich wie NLP für Text, zielen Computer Vision-Methoden darauf ab, Bilder oder Videos auf die gleiche Weise zu interpretieren, wie es ein Mensch tun würde. Mit anderen Worten: Sie versuchen, einem Computer die Fähigkeit zu geben, zu sehen.
Die meisten Computer Vision-Algorithmen verwenden neuronale Netze, insbesondere CNNs.
Was könnte besser sein als ein Algorithmus, der von der Funktionsweise des Menschen inspiriert ist, um menschliches Verhalten zu imitieren?
Für diejenigen, die noch nicht mit neuronalen Netzen vertraut sind, ist dies eine kurze Zusammenfassung, obwohl es für eine wirkliche Einführung mehr braucht. (Um ihre Funktionsweise im Detail zu verstehen, schau dir diesen Artikel an)
Ein künstliches Neuron ist ein einfaches lineares Modell, das einen Wert als Eingabe nimmt und als Ausgabe einen Wert liefert, der nur von dieser Eingabe abhängt.
Eine Neuronenschicht ist eine Ansammlung von Neuronen, die nicht miteinander verbunden sind. So funktionieren die Neuronen in einer Schicht unabhängig voneinander.
Ein neuronales Netz ist eine Ansammlung von Schichten. Die einzelnen Schichten sind miteinander verbunden. Bei Computer Vision nimmt die erste Schicht ein Bild oder Video als Eingabe auf, und die letzte Schicht gibt die Interpretation dieses Bildes durch das neuronale Netz zurück.
Unter dem Begriff Computer Vision werden alle Algorithmen zusammengefasst, die Bilder oder Videos analysieren und interpretieren. Es handelt sich um einen eigenen Bereich der künstlichen Intelligenz, der in vier Hauptkategorien unterteilt werden kann:
- Klassifizierung
- Erkennung
- Identifikation
- Segmentierung
Klassifizierung :
Ein Klassifikationsalgorithmus nimmt als Eingabe ein Bild, das aus einer Liste von Möglichkeiten klassifiziert werden soll. Ein Algorithmus, der z. B. anhand des Fotos eines Tieres feststellt, zu welcher Art es gehört, fällt in diese Kategorie.
Erkennung :
Hier ist es das Ziel, auf einem Bild die Position bestimmter Objekte zu erkennen. Die „zu erkennenden“ Objekte wurden im Voraus festgelegt, es ist nicht notwendig, weitere Objekte zu erkennen. Das Vorhandensein dieser Objekte wird normalerweise grob durch ein Rechteck und einen Namen auf dem Bild dargestellt.
Identifikation :
Die Identifizierung wird verwendet, um ein Objekt (oft eine Person) zu erkennen. Der Unterschied zu den vorherigen Algorithmen besteht darin, dass dieser Algorithmus zwischen zwei verschiedenen Personen unterscheiden kann.
Es ist diese Art von Algorithmus, den Facebook, Apple oder Google Fotos verwenden, um uns auf unseren Fotos zu identifizieren.
Segmentierung :
Diese Art von Algorithmus zielt darauf ab, die Grenzen zwischen den verschiedenen Objekten auf einem Bild abzustecken und diese zu klassifizieren. Im Gegensatz zu Erkennungsalgorithmen gehört hier jedes Pixel genau zu einem einzigen Objekt.
Diese Kategorien sollen nur einen Einblick in die Vielfalt der Computer Vision-Algorithmen geben. Es gibt noch weitere, und manche Algorithmen gehören gleichzeitig zu mehreren.
Welche Anwendungsbereiche gibt es für Computer Vision?
Computer Vision ist in der heutigen Technologie allgegenwärtig. Es ist daher undenkbar, eine vollständige Liste zu erstellen. Immer mehr Bereiche und Produkte basieren auf Computer Vision. Von der Automobilindustrie über den Telefonsektor bis hin zum großen Sicherheitssektor ist Computer Vision für unsere technologische Entwicklung unverzichtbar geworden.
Der Rest dieses Artikels soll einen Überblick über die große Vielfalt der Bereiche geben, in denen Computer Vision angewendet werden kann.
- Selbstfahrende Autos: Um ohne Fahrer/in fahren zu können, sind selbstfahrende Autos mit einer Vielzahl von Sensoren ausgestattet, darunter auch Kameras. Letztere filmen die Umgebung, einschließlich Verkehrsschilder und Fahrbahnmarkierungen.
Computer Vision-Methoden werden dann eingesetzt, um diese Bilder zu interpretieren und das Fahrzeug in die Lage zu versetzen, entsprechend zu handeln.
Die Frage, die man sich dann stellen kann, ist, ob diese Algorithmen zuverlässig und leistungsfähig genug sind, um ihnen so große Verantwortung zu übertragen.
- Gesichtserkennung: Viele Smartphones bieten heute die Möglichkeit, durch Gesichtserkennung entsperrt zu werden. Die verwendeten Algorithmen variieren je nach Marke, sind aber heute sehr leistungsfähig. Solche Methoden werden auch von Facebook, Google Fotos oder Snapchat verwendet, um Gesichter auf Fotos zu erkennen. Nach der Covid19-Pandemie haben viele Algorithmen versagt, weil die Nutzer eine Maske auf dem Gesicht hatten. Haben wir die Achillesferse von Big Brother entdeckt?
- Medizinische Bildgebung: Ohne sich wirklich als Standard in diesem Bereich durchgesetzt zu haben, zeigt die Computer Vision mehr als vielversprechende Ergebnisse bei der Erkennung von Krankheiten. Ein Forscherteam des MIT hat eine KI entwickelt, die mit Ärzten konkurriert, um Brustkrebs frühzeitig zu erkennen, indem sie Mammographien von Patienten verwendet.
- Google Maps: Google verwendet die Bilder von Schildern, die von Google Cars aufgenommen wurden, um Straßennamen automatisch zu katalogisieren. Dasselbe Verfahren wird auf Verkehrsschilder angewandt, insbesondere auf Schilder mit Geschwindigkeitsbegrenzungen.
- Mülltrennung : Der Roboter Max-ai erkennt und entfernt bestimmten unerwünschten Abfall mithilfe von Computer Vision. Diese Art von Roboter könnte die Art und Weise, wie heute Müll sortiert wird, revolutionieren.
Computer Vision ist der erste Schritt auf dem Weg zu einer künstlichen Intelligenz, die menschliches Verhalten nachahmen kann. Wenn sie mit anderen Methoden gekoppelt wird, kann sie sehr komplexe Aufgaben bewältigen, die bislang nur Menschen vorbehalten waren.
Das Unternehmen Captricity hat z. B. einen Algorithmus entwickelt, der handgeschriebene Texte mithilfe von Computer Vision, NLP und anderen Methoden lesen und verstehen kann.
Jetzt, wo du alles über Computer Vision weißt, solltest du dich für ein Gutachten entscheiden und dein Wissen über dieses Thema vertiefen!
Bist du an diesem Thema interessiert? Finde schnell heraus, welche Möglichkeiten die KI beim Verstehen der menschlichen Sprache bietet.