OpenAI se lance à peine dans l’univers des agents IA qu’il révolutionne déjà ce domaine avec son tout premier agent IA autonome, Operator. Capable de comprendre et d’interagir avec l’interface graphique des sites web, cet agent numérique promet de simplifier la vie de ces utilisateurs en exécutant diverses actions en même temps.
Un modèle inspiré des réflexions humaines
Conçu pour répliquer les comportements humains sur un navigateur, cet outil peut cliquer, saisir des informations et naviguer à travers les sites en toute autonomie. Pour cela, il repose sur un nouveau modèle avancé : le Computer-Using Agent (CUA), qui combine GPT-4o avec des mécanismes d’apprentissage par renforcement, lui permettant de décomposer des tâches complexes en plusieurs sous-étapes.
Contrairement aux IA traditionnelles qui utilisent des API spécialisées, Operator fonctionne directement avec les interfaces graphiques des sites sur lesquels il navigue. Cette fonctionnalité lui donne ainsi la capacité de s’adapter aux changements d’interface et à prendre des décisions en temps réel.
Côté performances, Operator surpasse celles de ses concurrents :
- Sur OSWorld (testant la manipulation de fichiers et la retouche d’images), CUA obtient 38,1 %, contre 22 % pour « Computer Use » d’Anthropic.
- En navigation web, il atteint 87 %, surpassant « Mariner » de Google (83,5 %) et « Computer Use » (56 %).
OpenAI souhaite que le quotidien de ces utilisateurs soit aussi fluide que possible : réserver un restaurant, acheter des billets de concert ou planifier des rendez-vous devient une banalité avec Operator.
Avec ce nouvel agent, OpenAI donne également la possibilité aux utilisateurs de personnaliser leurs workflows et de définir des préférences spécifiques pour des sites ou des plateformes comme OpenTable, Instacart et Uber.
Un agent aussi coûteux que limité
Malgré ces performances impressionnantes, OpenAI reconnaît que Operator est encore imparfait. « C’est une technologie expérimentale qui commet des erreurs », admet Yash Kumar, chercheur chez OpenAI. Si Operator peut demander une confirmation à l’utilisateur en cas d’incertitude, il reste sujet à des défaillances.
Pour nous autres européens, l’accès à cette innovation est actuellement impossible, comme d’habitude. Seuls les abonnés ChatGPT Pro aux États-Unis peuvent y accéder, pour un tarif de 200 dollars par mois. OpenAI prévoit de l’étendre aux offres Plus, Team et Enterprise, mais sans calendrier précis.
Avec l’adoption massive de l’IA, les agents automatisés sont vu comme la prochaine grande révolution de notre vie et nos habitudes de travail, et ça OpenAI l’a bien compris. Cependant, entre un accès limité et des performances encore perfectibles, il reste à voir si ce pari technologique saura convaincre le grand public et s’inscrire durablement dans nos usages.
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : openai.com