Lorsqu’un véhicule autonome souhaite reconnaître son environnement, il doit se servir d’un système de vision par ordinateur pour catégoriser chaque pixel enregistré par sa caméra. Mais cette segmentation est un processus complexe et nécessitant une importante puissance de calculs. Soucieux d’améliorer ce système, des chercheurs du MIT ont mis au point un nouveau modèle de vision par ordinateur, capable d’effectuer une segmentation sémantique précise en temps réel sur un appareil aux ressources matérielles limitées.
Un nouveau modèle de vision par ordinateur ?
Durant leurs recherches, les chercheurs du MIT souhaitaient améliorer le traitement du calcul linéaire des modèles de pointe, tout en conservant leurs capacités. Pour cela, ils ont créé une suite de nouveaux modèles nommés EfficientViT. Cette nouvelle génération a été évaluée comme neuf fois supérieures aux anciens modèles en matière d’efficacité, tout en gardant la même précision. La performance ne diminuant pas, même lorsque le modèle est installé sur un appareil mobile.
Selon les équipes du MIT, ces nouveaux modèles permettraient aux véhicules autonomes de prendre des décisions en temps réel et de s’adapter aux changements de situation. Ils pourraient également servir à améliorer la segmentation d’images médicales et à une palanquée d’autres tâches de vision par ordinateur.
Quelles différences avec les anciens ?
Les chercheurs ont conçu EfficientViT avec une architecture adaptée au matériel, afin qu’il soit plus facile à exécuter sur différents types d’appareils, tels que les casques de réalité virtuelle ou les ordinateurs de bord des véhicules autonomes.
Pour améliorer leurs efficacités, l’équipe du MIT a réorganisé l’ordre des opérations pour réduire le nombre de calculs nécessaires. Mais, afin de conserver une qualité de traitement et d’imagerie minimale, ils ont ajouté deux unités de traitement supplémentaires : l’un aidant les modèles à mieux reconnaître les liens entre les objets, l’autre permettant aux modèles de se souvenir des objets.
En s’appuyant sur ces résultats, les chercheurs souhaitent appliquer cette technique pour accélérer les modèles génératifs d’apprentissage automatique, tels que ceux utilisés pour générer de nouvelles images. Si cet article vous a plu et que l’actualité data vous intéresse ou que vous envisagez une formation en Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.
Source : news.mit.edu