Retour aux articles

You Only Look Once (YOLO) : Qu’est-ce que c’est ?

10 Nov 2023

m de lecture

Data Science

Raphael Kassel

You Only Look Once ou YOLO est un algorithme capable de détecter les objets au premier regard, en effectuant la détection et la classification simultanément. Découvrez tout ce que vous devez savoir sur cette approche révolutionnaire pour l’IA et la Computer Vision !

Dans le domaine de la vision par ordinateur, la détection d’objets constitue l’un des piliers essentiels. La capacité à détecter et à classifier les objets dans les images et les vidéos est indispensable pour de nombreuses technologies modernes.

C’est le cas des véhicules autonomes, des systèmes de surveillance, de la robotique ou encore de l’intelligence artificielle générative.

Après des années de recherche visant à améliorer les performances et l’efficacité des systèmes de détection, c’est en 2016 qu’un algorithme novateur introduit par Joseph Redmon a tout changé : YOLO, You Only Look Once.

Retour aux origines des systèmes de détection d’objet

La détection d’objets est une tâche fondamentale de la Computer Vision. Elle consiste à localiser et à identifier les objets présents dans une image, ou dans une séquence vidéo.C’est le socle fondateur d’une multitude d’innovations récentes, telles que la reconnaissance faciale, la réalité augmentée, la surveillance automatisée ou même la conduite autonome.

Auparavant, les techniques les plus utilisées étaient principalement basées sur des approches traditionnelles en plusieurs étapes. Ces méthodes étaient efficaces, mais présentaient des inconvénients majeurs en termes de vitesse de traitement.

Par exemple, les Region-Based Convolutional Neural Networks (ou R-CNN) consistaient à proposer initialement des régions d’intérêt (Rols) à partir de l’image. Pour y parvenir, on utilisait principalement des algorithmes de segmentation ou de détection des concours.

Chaque Rol était ensuite redimensionnée pour être entré dans un classificateur tel qu’un réseau de neurones convolutifs (CNN). Le but était de déterminer si un objet se trouvait dans une région.

Cette technique était à l’époque une avancée significative, mais elle souffrait d’une lenteur considérable à cause du grand nombre de régions candidates à évaluer.

Pour surmonter ces limitations, Fast R-CNN a vu le jour. Elle permettait d’effectuer la classification des ROls directement à partir d’une carte de caractéristiques partagées du CNN plutôt que d’utiliser des classificateurs séparés.

Malgré le gain de vitesse par rapport à R-CNN, le processus de sélection restait lent et complexe. C’est pourquoi l’approche Faster R-CNN a été créée, introduisant la proposition des régions d’intérêt par un réseau.

Cette évolution a permis d’automatiser et d’accélérer encore davantage la génération des Rols, mais demeurait désespérément lente à cause des multiples étapes séquentielles requises pour la détection des objets.

Au-delà d’un manque de vitesse, ces différentes méthodes présentaient plusieurs défauts comme la complexité computationnelle et la difficulté de mise à l’échelle. Ceci limitait fortement leur applicabilité dans les scénarios exigeant une détection en temps réel.

Leur efficacité dépendait également de la qualité des régions d’intérêt proposée, ce qui pouvait conduire à des erreurs de détection si des régions importantes étaient manquées.

Pour toutes ces raisons, il était grand temps qu’une nouvelle technique vienne tout chambouler dans ce domaine. Et c’est précisément ce qui s’est passé avec YOLO.

Qu’est-ce que You Only Look Once ?

Si You Only Look Once a marqué un tournant décisif, c’est à cause de son approche novatrice. En effectuant simultanément la détection et la classification des objets en une seule passe à travers un réseau de neurones convolutifs, elle a permis de combiner vitesse en temps réel et précision.

Son architecture en pipeline associée à des mécanismes de régions d’intérêt spécifiques a permis de surpasser toutes les anciennes méthodes et de les rendre obsolètes.

En effet, sa structure est fondamentalement différente des techniques traditionnelles. Au lieu de proposer des régions d’intérêt dans une première étape, elle divise l’image d’entrée en une grille de cellules.Chacune de ces cellules est responsable de prédire les coordonnées des boîtes englobantes (bounding boxes) pour les objets détectés ainsi que leurs probabilités d’appartenance à différentes classes.

Pour faire simple, chaque cellule prédit un ensemble de boîtes englobantes et les scores de confiance correspondants pour chaque classe.Ces prédictions s’effectuent directement à partir de caractéristiques extraites par le CNN. Ainsi, la nécessité de parcourir l’image plusieurs fois est éliminée.

Cette utilisation d’un réseau de neurones convolutifs pour extraire les caractéristiques de l’image d’entrée est au cœur de YOLO. Le CNN se compose de plusieurs couches convolutives et de sous-échantillonnage (pooling), afin de capturer des motifs et des traits utiles à différentes échelles spatiales.

Ceci permet d’apprendre automatiquement les représentations pertinentes des objets et d’effectuer des opérations de convolution efficacement, réduisant fortement les coûts computationnels.

Autre caractéristique clé : l’utilisation de « régions d’intérêt » ou « anchors » qui sont des boîtes englobantes prédéfinies de tailles et formes différentes servant de référence pour les prédictions.

Chaque cellule de la grille est associée à un certain nombre d’anchors, ce qui aide YOLO à généraliser les détections sur différents types d’objets et d’échelle. Sa précision de détection s’en trouve fortement renforcée.

Quels sont les avantages ?

De toute évidence, You Only Look Once apporte plusieurs améliorations importantes par rapport aux précédentes méthodes de détection d’objets. C’est ce qui lui a permis de devenir l’un des algorithmes les plus utilisés pour la vision par ordinateur.

Son principal point fort est sa capacité à détecter les objets instantanément, et de réduire le nombre total de calculs requis. L’utilisation des ressources est optimisée puisque les caractéristiques partagées sont calculées une seule fois.

De plus, YOLO se distingue également par ses performances et sa précision. Son approche en pipeline lui permet de généraliser sur des objets de formes variées, le rendant robuste face à une large diversité de scénarios.

Il excelle également pour le traitement d’images haute résolution, puisque son architecture efficace permet de traiter des images de tailles plus importantes sans sacrifier la vitesse. C’est un réel atout pour des applications comme la détection aérienne ou satellitaire.

À quoi ça sert ? Quelles sont les applications ?

De par sa flexibilité et son efficacité, You Only Look Once a trouvé sa place dans une grande diversité de domaines et de champs d’application.On l’utilise notamment dans les véhicules autonomes, afin d’identifier et de suivre les piétons, autres véhicules, panneaux de signalisation et tout obstacle potentiel sur la route en temps réel. C’est ce qui permet aux systèmes de pilotage de réagir instantanément aux changements pour assurer une conduite sécurisée.

Pour la surveillance vidéo, YOLO permet de détecter les activités suspectes, les intrus ou les objets abandonnés même au sein d’une foule. De même, on peut s’en servir pour repérer des personnes ou des animaux perdus dans des endroits difficiles d’accès. Il peut aussi être exploité pour les contrôles de sécurité dans les aéroports, gares et autres infrastructures.

Sa capacité de reconnaissance d’activité peut aussi être utile pour détecter et suivre les mouvements d’individus dans des séquences vidéo. C’est un cas d’usage pertinent pour la surveillance de grands espaces tels que les stades, les centres commerciaux ou lors de grands événements sportifs.

Un autre exemple d’application est la gestion du trafic automobile. L’algorithme peut être utilisé pour la reconnaissance automatique des plaques d’immatriculation et des visages.

Dans le domaine de la médecine, You Only Look Once est utilisé pour la détection d’anomalies ou d’objets spécifiques dans les images médicales telles que les radiographies, les IRM ou les scanners.

Il peut contribuer à diagnostiquer de façon précoce les maladies en accélérant le processus d’analyse d’images. Ceci peut s’avérer vital dans les situations d’urgence médicale.

Conclusion : YOLO, l’un des moteurs de la nouvelle vague d’IA

En permettant pour la première fois la détection d’objets instantanée, You Only Look Once a ouvert une myriade de nouvelles possibilités pour la vision par ordinateur. C’est l’une des innovations qui ont permis à l’IA d’entrer dans une ère nouvelle.

Afin d’apprendre à manier les meilleurs algorithmes d’intelligence artificielle, vous pouvez choisir DataScientest. Nos différentes formations de Data Science comportent des modules dédiés à l’IA et ses diverses branches.

Vous découvrirez notamment les techniques de Machine Learning, l’apprentissage par renforcement, les réseaux de neurones et les outils comme Keras, TensorFlow et PyTorch.

À travers nos cursus, vous pourrez acquérir toutes les compétences requises pour devenir Data Analyst, Data Scientist, Data Engineer, Data Product Manager ou Machine Learning Engineer.

Toutes nos formations s’effectuent à distance et sont éligibles au CPF. En fin de parcours, vous pourrez obtenir une certification « Chef de projet en intelligence artificielle » reconnue par l’État, un diplôme de Mines ParisTech PSL Executive Éducation, et un certificat de nos partenaires cloud AWS et Microsoft Azure. Découvrez DataScientest !

Vous savez tout sur You Only Look Once (YOLO). Pour plus d’informations sur le même sujet, découvrez notre dossier sur les réseaux de neurones et notre dossier sur TensorFlow !

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Présentation du protocole MCP illustrant une architecture modulaire avec des graphiques de données en arrière-plan.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

You Only Look Once (YOLO) : Qu’est-ce que c’est ?

You Only Look Once ou YOLO est un algorithme capable de détecter les objets au premier regard, en effectuant la détection et la classification simultanément. Découvrez tout ce que vous devez savoir sur cette approche révolutionnaire pour l’IA et la Computer Vision !

Retour aux origines des systèmes de détection d’objet

Qu’est-ce que You Only Look Once ?

Quels sont les avantages ?

À quoi ça sert ? Quelles sont les applications ?

Conclusion : YOLO, l’un des moteurs de la nouvelle vague d’IA

DataScientest News

Model context protocol (MCP) : Qu’est-ce que c’est ?

Rasa : la boîte à outils open source pour créer vos chatbots IA

Certification Git : Pourquoi l’obtenir et laquelle choisir ?

Bases de données open source : Que faut-il savoir ?

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

You Only Look Once (YOLO) : Qu’est-ce que c’est ?

You Only Look Once ou YOLO est un algorithme capable de détecter les objets au premier regard, en effectuant la détection et la classification simultanément. Découvrez tout ce que vous devez savoir sur cette approche révolutionnaire pour l’IA et la Computer Vision !

Retour aux origines des systèmes de détection d’objet

Qu’est-ce que You Only Look Once ?

Quels sont les avantages ?

À quoi ça sert ? Quelles sont les applications ?

Conclusion : YOLO, l’un des moteurs de la nouvelle vague d’IA

DataScientest News

Model context protocol (MCP) : Qu’est-ce que c’est ?

Rasa : la boîte à outils open source pour créer vos chatbots IA

Certification Git : Pourquoi l’obtenir et laquelle choisir ?

Bases de données open source : Que faut-il savoir ?

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

DataNews