La sphère technologique est en perpétuelle évolution, et Google vient peut-être d'introduire une technologie révolutionnaire : ScreenAI. Actuellement en phase de recherche, ce modèle de vision par ordinateur compte changer la manière dont nous interagissons avec les interfaces utilisateurs et les infographies.
Qu'est-ce que le ScreenAI ?
ScreenAI est décrit par Google comme “le premier modèle de vision-langage”. Il atteint, selon les chercheurs, des résultats de pointe sur des tâches basées sur l’UI et les infographies. En d’autres termes, il est capable de comprendre simultanément les données visuelles et textuelles.
Avec ScreenAI, il sera possible de demander un résumé d’une capture d’écran, les utilisateurs pourront également poser des questions précises basées sur ces captures.
Comment fonctionne ScreenAI ?
Le fonctionnement de ScreenAI repose sur une architecture inspirée du modèle linguistique et visuel multilingue PaLI, mais avec des améliorations significatives grâce à pix2struct, un modèle pré-entraîné de conversion d’images en texte pour la compréhension du langage visuel des intelligences artificielles.
ScreenAI fonctionne grâce à deux étapes : une phase d’apprentissage auto-supervisée, utilisant des pages web accessibles au public, suivie d’une phase de peaufinage qui utilise des données triées manuellement par de vrais utilisateurs.
Pour évaluer de manière concluante le modèle, Google a lancé trois nouveaux ensembles de données : Screen Annotation pour l’évaluation de la compréhension de la mise en page, ScreenQA et Complex ScreenQA pour tester ses capacités de réponse aux questions.
Quel avenir pour ScreenAI ?
Selon Google Research, ScreenAI affiche des performances de premier ordre comparées à des modèles de taille similaire. Cependant, il n’est pas encore disponible pour le grand public, et aucune indication n’a été donnée quant à une possible date de sortie. Il faudra donc patienter avant de pouvoir attester du côté “révolutionnaire” de ScreenAI.
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : research.google