GPT-4o : OpenAI donne de la voix à l’IA avec son nouveau modèle

-
2
 m de lecture
-
L'image représente un fond abstrait avec des formes circulaires de différentes couleurs, principalement du rose et du bleu, avec un texte "GPT-4o" au centre.

À la veille du Google I/O de 2024, OpenAI a annoncé ce lundi 13 la nouvelle version de son modèle GPT-4 : GPT-4o. Cette amélioration gratuite permet alors à ChatGPT d’utiliser la voix et l’image pour communiquer avec son interlocuteur.

Utiliser la voix et l’image ?

Il faudra finalement être patient pour voir la version GPT-5 débarquer sur nos écrans. En attendant cette révolution, OpenAI propose une façon plus naturelle de communiquer avec son IA ChatGPT.

GPT-4o (Omni) est un dérivé du modèle actuel GPT-4 avec des performances similaires à GPT-4 Turbo, il facilite également les interactions avec les utilisateurs en simplifiant les requêtes. GPT-4o peut maintenant accéder à la voix et l’image de votre téléphone pour acquérir de nouvelles informations et ainsi répondre de la même façon. Il n’est également plus nécessaire d’écrire des prompts détaillés et à rallonge, l’IA comprend plus facilement les requêtes en langage naturel et facilite l’échange avec un temps de réponse moyen de 320 millisecondes, le même temps qu’une conversation humaine.

Des fonctionnalités impressionnantes qui restent néanmoins plus performantes en anglais, OpenAI ayant précisé qu’un travail de fond avait été apporté sur d’autres langues. 

D’autre part, des améliorations concernant la sécurité du modèle ont été appliquées, avec des filtres spécifiques pour l’expression des contenus vocaux. L’entreprise reste attentive aux nouveaux défis qu’apportent les requêtes audio.

Pour ce qui est de l’accessibilité, OpenAI souhaite que ce nouveau modèle soit accessible au plus grand nombre. GPT-4o est alors disponible pour tous les utilisateurs gratuits de ChatGPT. Cependant, des tests montrent que le modèle n’est pas encore disponible pour tous, à vérifier au cas par cas.

Comment GPT-4o accède-t-il à la voix et l’image ?

Dès son lancement, GPT-4 permettait de passer des requêtes audio. Néanmoins, cette opération consistait en de nombreuses étapes et devait passer par plusieurs modèles d’IA pour obtenir une réponse. Le résultat en était alors impacté et perdait en intonation et en expression d’émotions.

Aujourd’hui, les requêtes passent par un seul réseau neuronal, de cette façon GPT-4o interprète mieux les commandes naturelles.

Le modèle étant encore nouveau, OpenAI doit recueillir un maximum d’informations et de données tests pour l’améliorer, ce qui explique l’ouverture au grand public. Les prochains mois nous montreront une version plus aboutie de ce modèle qui s’annonce déjà comme une révolution vers l’IA généralisée.

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : openai.com

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?