NeRF, un nouveau modèle de Deep Learning consiste à utiliser un réseau de neurones pour capturer et générer des images 3D à partir de photos 2D. Une révolution dans les secteurs du jeu vidéo, de la réalité virtuelle, de la robotique et de la voiture autonome.
Les algorithmes d’Intelligence Artificielle pourraient bientôt voir en 3D, révèle le site américain Wired. Certains experts pensent que cela pourrait aider les machines à mieux percevoir le monde qui nous entoure, avec une vue quasiment identique à celle de l’œil humain.
Les latences de la vue en 2D
Les techniques d’intelligence artificielle que les chercheurs utilisent depuis 2012 consistent à entraîner des algorithmes grâce à des milliers d’images en deux dimensions. Cette technique, le cGAN ou Conditional Generative Adversarial Network, permet un dialogue entre deux réseaux, le générateur et le discriminateur.
D’un côté le générateur génère de fausses images qui sont censées être les plus réalistes possibles, dans le but de tromper le réseau adverse : le discriminateur. De l’autre le discriminateur va observer des images venant à la fois du générateur et d’une banque de données. Il va devoir déterminer quelles images viennent de la banque de données (et les labelliser comme vraies) et quelles images sont produites par le générateur (et sont donc fausses). Cette méthode permet notamment de générer des images, des vidéos ou des données audio artificielles. Cependant, elle manque souvent de précision selon les experts en intelligence artificielle.
Développer des vues 3D sur base de photos 2D
La nouvelle approche, pensée par des chercheurs de l’UC Berkeley et des ingénieurs de Google, consiste à utiliser un réseau neuronal pour capturer et générer des images 3D à partir de quelques instantanés 2D. Nommée Neural Radiance Fields, ou NeRF, cette technique exploite le déplacement de la lumière dans l’air et calcule la densité et la couleur des points dans l’espace 3D. Cela permet de convertir des images 2D en une représentation 3D pouvant être visualisée sur n’importe quel ordinateur. Grâce à ces techniques, ces nouveaux algorithmes convertissent les pixels 2D en équivalents 3D, apportant une précision bien supérieure.
Un gain de temps précieux et des applications multiples
La création d’une scène 3D nécessite normalement des heures de travail aux designers. Cependant grâce à cette nouvelle méthode, il est possible de générer des scènes 3D à partir de photographies ordinaires en quelques minutes. Il est notamment possible de créer des selfies 3D (ou Nerfies, comme certains les appellent) qui reproduisent le portrait 3D d’une personne sur base de quelques photos. Une technique très pratique pour créer des avatars dans les jeux vidéo.
De grands groupes, comme le producteur de puces électroniques Nvidia ou encore Meta, ont investi dans le processus. Meta s’intéresse tout particulièrement au NeRF dans l’espoir de développer facilement et à moindre coût, le Metaverse auquel il croit tant. Mais le NeRF améliore aussi grandement les performances de machines qui fonctionnent dans le monde réel, comme dans la fabrication de voitures autonomes, par exemple. Selon Andrej Karpathy, directeur de l’IA chez Tesla, le NeRF est particulièrement utile à l’entreprise d’Elon Musk. Les scènes 3D qu’il génère permettent d’entraîner les algorithmes de conduite autonome à réagir plus rapidement et plus précisément à des situations toujours plus proches de la réalité.
Avec un développement plus poussé, les experts assurent que le NeRF pourrait permettre aux robots de mieux apprécier des environnements complexes en réduisant leurs erreurs.
Pour tout comprendre de l’intelligence artificielle, et développer vous aussi des modèles de Deep Learning, rejoignez nos formation en Data Science.