Unet

U-NET : tout savoir sur le réseau de neurones de Computer Vision

Laura P

Laura P

5 min

U-NET est un modèle de réseau de neurones dédié aux taches de Vision par Ordinateur (Computer Vision) et plus particulièrement aux problèmes de Segmentation Sémantique. Découvrez tout ce que vous devez savoir : présentation, fonctionnement, architecture, avantages, formations…

L’intelligence artificielle est une vaste technologie aux multiples branches. La ” Computer Vision ” ou vision par ordinateur est l’une de ces sous-catégories.

Il s’agit d’un champ scientifique interdisciplinaire visant à permettre aux ordinateurs de ” comprendre ” les images et les vidéos. L’objectif est d’automatiser les tâches effectuées par le système visuel humain.

Grâce au Deep Learning, de formidables progrès ont pu être réalisés dans le domaine de la Computer Vision au fil des dernières années. Désormais, les machines sont capables de rivaliser avec la vision humaine dans certaines situations.

Les différentes tâches de Vision par Ordinateur

Il existe différentes tâches de vision par ordinateur. L’une des applications les plus courantes est la classification d’image. Elle consiste à laisser l’ordinateur identifier l’objet principal d’une image et à lui attribuer une étiquette pour classifier cette image.

Il est aussi possible de laisser l’ordinateur localiser l’emplacement de l’objet sur l’image. Pour ce faire, il encadre l’objet d’une ” Bounding Box ” (boîte englobante) pouvant être identifiée par des paramètres numériques relatifs aux bordures de l’image.

La classification d’objet se limite à un seul objet par image. Plus complexe, la détection d’objet va plus loin et exige de l’ordinateur de détecter et de localiser tous les différents objets au sein d’une même image.

La segmentation sémantique consiste à étiqueter chaque pixel d’une image avec une classe correspondante à ce qui est représenté. On parle aussi de ” prédiction dense “, car chaque pixel doit être prédit.

Contrairement aux autres tâches de vision par ordinateur, la segmentation sémantique ne produit pas seulement des étiquettes et des Bounding Boxes. Elle génère une image en haute définition, sur laquelle chaque pixel est classifié.

La segmentation d’instance va encore plus loin, en classifiant chaque instance d’une même classe séparément. Par exemple, si une image présente trois chiens, chaque chien est une instance de la classe ” Chien “. Chacun sera classifié séparément, par exemple en utilisant différentes couleurs.

À travers ces différentes tâches, l’ordinateur ” comprend ” le contenu des images avec un niveau de granularité de plus en plus précis. Dans ce dossier, nous allons nous intéresser spécifiquement à la tâche de segmentation sémantique.

Les applications et cas d'usage de Segmentation Sémantique

La segmentation sémantique est utilisée pour une large variété d’applications. Les véhicules autonomes, par exemple, requièrent une perception, une planification et une exécution au sein d’environnements en constante évolution.

Ils nécessitent aussi une haute précision, puisque la sécurité doit être infaillible sur la route. Grâce à la segmentation sémantique, il est possible pour les voitures sans pilote de détecter les espaces libres sur les voies, les marquages au sol et les panneaux de signalisation.

On utilise aussi cette technique d’IA pour les diagnostics médicaux. Les machines peuvent épauler les analyses effectuées par les radiologues, afin de réduire le temps nécessaire pour établir des diagnostics.

Un autre cas d’usage est la cartographie par satellite, très importante pour la surveillance des zones de déforestation ou pour l’urbanisation. La segmentation sémantique permet de distinguer les différents types de terrains de manière automatisée. La détection de bâtiments et de routes est aussi très utile pour la gestion du trafic ou la planification urbaine.

Enfin, les robots d’agriculture de précision peuvent utiliser la segmentation sémantique pour distinguer les plantations des mauvaises herbes. Ceci leur permet d’automatiser le désherbage en utilisant moins d’herbicide.

Qu'est-ce que U-NET ?

Il existe différentes méthodes pour résoudre les problèmes de segmentation sémantique. Les approches traditionnelles consistent à détecter les points, les lignes ou les bordures. Il est aussi possible de se baser sur la morphologie, ou d’assembler des grappes de pixels.

Désormais, les réseaux de neurones convolutifs de Deep Learning sont très utilisés. Ils permettent de s’attaquer à des problèmes plus complexes grâce à la segmentation d’image.

L’un des réseaux de neurones les plus utilisés pour la segmentation d’image est U-NET. Il s’agit d’un Modèle de Réseau de Neurones Entièrement Convolutif. Ce modèle fut initialement développé par Olaf Ronneberger, Phillip Fischer, et Thomas Brox en 2015 pour la segmentation d’images médicales.

L’architecture de U-NET est composée de deux ” chemins “. Le premier est le chemin de contraction, aussi appelé encodeur. Il est utilisé pour capturer le contexte d’une image.

Il s’agit en fait d’un assemblage de couches de convolution et de couches de ” max pooling ” permettant de créer une carte de caractéristiques d’une image et de réduire sa taille pour diminuer le nombre de paramètres du réseau.

Le second chemin est celui de l’expansion symétrique, aussi appelé décodeur. Il permet aussi une localisation précise grâce à la convolution transposée.

u-net architecture

Les avantages de U-NET

Dans le domaine du Deep Learning, il est nécessaire d’utiliser de larges ensembles de données pour entraîner les modèles. Il peut être difficile d’assembler de tels volumes de données pour résoudre un problème de classification d’images, en termes de temps, de budget et de ressources hardware.

L’étiquetage des données requiert aussi l’expertise de plusieurs développeurs et ingénieurs. C’est particulièrement le cas pour des domaines hautement spécialisés comme les diagnostics médicaux.

U-NET permet de remédier à ces problèmes, puisqu’il s’avère efficace même avec un ensemble de données limité. Il offre aussi une précision supérieure aux modèles conventionnels.

Une architecture autoencoder classique réduit la taille des informations entrées, puis les couches suivantes. Le décodage commence ensuite, la représentation de caractéristiques linéaire est apprise et la traille augmente progressivement. À la fin de cette architecture, la taille de sortie est égale à la taille d’entrée.

Une telle architecture est idéale pour préserver la taille initiale. Le problème est qu’elle compresse l’input de façon linaire, ce qui empêche la transmission de la totalité des caractéristiques.

C’est là que U-NET tire son épingle du jeu grâce à son architecture en U. La déconvolution est effectuée du côté du décodeur, ce qui permet d’éviter le problème de goulot rencontré avec une architecture auto-encodeur et donc d’éviter la perte de caractéristiques.

Comment apprendre à utiliser U-NET ?

Alors que l’IA et la Vision par Ordinateur sont de plus en plus exploités dans tous les secteurs, la maîtrise du Deep Learning et des différents modèles comme U-NET est une compétence précieuse et convoitée.

Pour l’acquérir, vous pouvez vous tourner vers les formations DataScientest. Le Machine Learning et le Deep Learning sont au coeur de notre parcours Data Scientist.

À travers cette formation, vous apprendrez aussi la programmation en Python, la DataViz, et l’utilisation des bases de données et outils Big Data. À l’issue du parcours, vous aurez toutes les compétences nécessaires pour exercer le métier en plein essor de scientifique des données.

Nos formations professionnalisantes sont conçues pour répondre aux besoins réels des entreprises et des organisations. Elles peuvent être effectuées en BootCamp, ou en Formation Continue.

Nous vous proposons une approche innovante de Blended Learning, alliant apprentissage en présentiel et à distance. Au terme du programme, vous recevrez un diplôme certifié par l’Université de la Sorbonne.

Nos formations peuvent être financées à l’aide du Compte Personnel de Formation, ou par Pôle Emploi via l’AIF. Parmi nos alumnis, 93% ont trouvé un emploi immédiatement. N’attendez plus et découvrez dès maintenant la formation Data Scientist !

Vous savez tout sur U-NET. Découvrez notre dossier complet sur la Computer Vision, et notre dossier plus général sur le Deep Learning.