À la veille du Google I/O de 2024, OpenAI a annoncé ce lundi 13 la nouvelle version de son modèle GPT-4 : GPT-4o. Cette amélioration gratuite permet alors à ChatGPT d’utiliser la voix et l’image pour communiquer avec son interlocuteur.
Utiliser la voix et l’image ?
Il faudra finalement être patient pour voir la version GPT-5 débarquer sur nos écrans. En attendant cette révolution, OpenAI propose une façon plus naturelle de communiquer avec son IA ChatGPT.
GPT-4o (Omni) est un dérivé du modèle actuel GPT-4 avec des performances similaires à GPT-4 Turbo, il facilite également les interactions avec les utilisateurs en simplifiant les requêtes. GPT-4o peut maintenant accéder à la voix et l’image de votre téléphone pour acquérir de nouvelles informations et ainsi répondre de la même façon. Il n’est également plus nécessaire d’écrire des prompts détaillés et à rallonge, l’IA comprend plus facilement les requêtes en langage naturel et facilite l’échange avec un temps de réponse moyen de 320 millisecondes, le même temps qu’une conversation humaine.
Des fonctionnalités impressionnantes qui restent néanmoins plus performantes en anglais, OpenAI ayant précisé qu’un travail de fond avait été apporté sur d’autres langues.
D’autre part, des améliorations concernant la sécurité du modèle ont été appliquées, avec des filtres spécifiques pour l’expression des contenus vocaux. L’entreprise reste attentive aux nouveaux défis qu’apportent les requêtes audio.
Pour ce qui est de l’accessibilité, OpenAI souhaite que ce nouveau modèle soit accessible au plus grand nombre. GPT-4o est alors disponible pour tous les utilisateurs gratuits de ChatGPT. Cependant, des tests montrent que le modèle n’est pas encore disponible pour tous, à vérifier au cas par cas.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
Comment GPT-4o accède-t-il à la voix et l’image ?
Dès son lancement, GPT-4 permettait de passer des requêtes audio. Néanmoins, cette opération consistait en de nombreuses étapes et devait passer par plusieurs modèles d’IA pour obtenir une réponse. Le résultat en était alors impacté et perdait en intonation et en expression d’émotions.
Aujourd’hui, les requêtes passent par un seul réseau neuronal, de cette façon GPT-4o interprète mieux les commandes naturelles.
Le modèle étant encore nouveau, OpenAI doit recueillir un maximum d’informations et de données tests pour l’améliorer, ce qui explique l’ouverture au grand public. Les prochains mois nous montreront une version plus aboutie de ce modèle qui s’annonce déjà comme une révolution vers l’IA généralisée.
@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : openai.com