Meta présente SAM, la révolution de la computer vision

-
2
 m de lecture
-

Récemment autorisée pour la surveillance des événements en France, la computer vision est une technologie novatrice de la vidéosurveillance. Dans ce domaine, une tâche est essentielle pour obtenir de bons résultats, la segmentation. Dans le but de démocratiser cette tâche, Meta présente son Segment Anything Model (SAM).

En quoi consiste SAM ?

La segmentation, où l’identification des pixels d’une image qui appartiennent à un objet, est une tâche importante de la vision par ordinateur. Néanmoins, la création d’un modèle de segmentation nécessite une grande expertise et un dataset spécialement conçu pour le domaine choisi. C’est pourquoi le projet SAM vise à réduire ce besoin en expertise, l’objectif des chercheurs est de créer un modèle de segmentation générale. L’équipe de conception a alors entraîné leur modèle sur diverses données pour qu’il s’adapte à des tâches spécifiques. Ces données forment aujourd’hui l’un des plus grands ensembles de données de segmentation, SA-1B composé de plus d’1,1 milliards de masques de segmentation.

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer ? Découvrez nos formations en Data Science.

Participer à votre première formation data gratuitement !

Assistez aux cours dispensés en live par nos formateurs pour démarrer sur Python, SQL, Power BI…

UNE CARRIÈRE DANS LA DATA VOUS TEND LES BRAS !

Une reconversion dans le big data vous intéresse, mais vous ne savez pas par où commencer

Découvrez nos formations en Data Science.

Participer à votre première formation data gratuitement !

Assistez aux cours dispensés en live par nos formateurs pour démarrer sur Python, SQL, Power BI …

Quelles sont ses capacités ?

SAM utilise un masque de segmentation pour n’importe quelle demande. Qu’il s’agisse d’avant-plan/arrière-plan, d’une boîte ou d’une demande approximative, d’un texte de forme libre, ou d’une information indiquant ce qu’il faut segmenter dans une image, SAM créera un masque pour accéder à la demande de son utilisateur.

Pour ce faire, un encodeur d’image produit une intégration unique pour l’image, tandis qu’un encodeur léger convertit n’importe quelle demande en un vecteur d’intégration en temps réel. Ainsi, ces deux sources d’information sont ensuite combinées dans un décodeur léger qui prédit les masques de segmentation. Une fois l’intégration de l’image calculée, SAM peut produire un segment en seulement 50 millisecondes à partir de n’importe quelle demande dans un navigateur web.

L’équipe de Meta AI a rendu l’ensemble de données open-source afin que d’autres chercheurs puissent former d’autres modèles. Meta espère que ces données pourront servir de base à de nouveaux ensembles de données comportant des annotations supplémentaires, telles qu’une description textuelle associée à chaque masque.

En partageant ses données, Meta souhaite accélérer la recherche sur la segmentation et la compréhension plus générale des vidéos. Meta s’engage encore plus sur la voie de l’open-source, après la mise en ligne de son LLaMA, un modèle NLP plus puissant et économe que ChatGPT. C’est pourquoi, si cet article vous a plu et si vous envisagez une carrière dans la Data Science, n’hésitez pas à découvrir nos articles ou nos offres de formations sur DataScientest.

Source : segment-anything.com

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?