Wenn ein autonomes Fahrzeug seine Umgebung erkennen möchte, muss es ein Computer-Vision-System verwenden, um jedes Pixel, das von seiner Kamera aufgenommen wird, zu kategorisieren. Diese Segmentierung ist jedoch ein komplexer und rechenintensiver Prozess. Um dieses System zu verbessern, haben Forscher des MIT ein neues Computer Vision-Modell entwickelt, das eine präzise semantische Segmentierung in Echtzeit auf einem Gerät mit begrenzten Hardwareressourcen durchführen kann.
Ein neues Modell der Computervision?
Während ihrer Forschung wollten die MIT-Forscher die Verarbeitung der linearen Berechnung der Spitzenmodelle verbessern und gleichzeitig ihre Fähigkeiten beibehalten. Zu diesem Zweck entwickelten sie eine Reihe neuer Modelle mit dem Namen EfficientViT.
Diese neue Generation wurde als neunmal effizienter als die älteren Modelle bewertet, wobei die gleiche Genauigkeit beibehalten wurde. Die Leistung nahm auch dann nicht ab, wenn das Modell auf einem mobilen Gerät installiert wurde.
Laut den MIT-Teams würden diese neuen Modelle es autonomen Fahrzeugen ermöglichen, Entscheidungen in Echtzeit zu treffen und sich an veränderte Situationen anzupassen. Sie könnten auch zur Verbesserung der Segmentierung medizinischer Bilder und für eine ganze Reihe anderer Aufgaben der Computervision eingesetzt werden.
Welche Unterschiede gibt es zu den Älteren?
Die Forscher haben EfficientViT mit einer hardwaregerechten Architektur entworfen, damit sie leichter auf verschiedenen Arten von Geräten wie Virtual-Reality-Headsets oder Bordcomputern von autonomen Fahrzeugen ausgeführt werden kann.
Um ihre Effizienz zu steigern, ordnete das MIT-Team die Reihenfolge der Operationen neu an, um die Anzahl der erforderlichen Berechnungen zu reduzieren. Um jedoch eine minimale Verarbeitungs- und Bildqualität beizubehalten, fügten sie zwei zusätzliche Recheneinheiten hinzu: Eine hilft den Modellen, die Verbindungen zwischen den Objekten besser zu erkennen, und die andere ermöglicht es den Modellen, sich an die Objekte zu erinnern.
Basierend auf diesen Ergebnissen wollen die Forscher diese Technik anwenden, um generative Modelle des maschinellen Lernens zu beschleunigen, wie z. B. solche, die zur Generierung neuer Bilder verwendet werden. Wenn dir dieser Artikel gefallen hat und du dich für aktuelle Datennachrichten interessierst oder eine Ausbildung in Data Science in Betracht ziehst, dann schau dir unsere Artikel oder unsere Ausbildungsangebote auf DataScientest an.
Quelle: news.mit.edu