Retour aux articles

GPT-4o : OpenAI donne de la voix à l’IA avec son nouveau modèle

14 Mai 2024

m de lecture

Actualités

Gabin Paul

À la veille du Google I/O de 2024, OpenAI a annoncé ce lundi 13 la nouvelle version de son modèle GPT-4 : GPT-4o. Cette amélioration gratuite permet alors à ChatGPT d’utiliser la voix et l’image pour communiquer avec son interlocuteur.

Utiliser la voix et l’image ?

Il faudra finalement être patient pour voir la version GPT-5 débarquer sur nos écrans. En attendant cette révolution, OpenAI propose une façon plus naturelle de communiquer avec son IA ChatGPT.

GPT-4o (Omni) est un dérivé du modèle actuel GPT-4 avec des performances similaires à GPT-4 Turbo, il facilite également les interactions avec les utilisateurs en simplifiant les requêtes. GPT-4o peut maintenant accéder à la voix et l’image de votre téléphone pour acquérir de nouvelles informations et ainsi répondre de la même façon. Il n’est également plus nécessaire d’écrire des prompts détaillés et à rallonge, l’IA comprend plus facilement les requêtes en langage naturel et facilite l’échange avec un temps de réponse moyen de 320 millisecondes, le même temps qu’une conversation humaine.

Des fonctionnalités impressionnantes qui restent néanmoins plus performantes en anglais, OpenAI ayant précisé qu’un travail de fond avait été apporté sur d’autres langues.

D’autre part, des améliorations concernant la sécurité du modèle ont été appliquées, avec des filtres spécifiques pour l’expression des contenus vocaux. L’entreprise reste attentive aux nouveaux défis qu’apportent les requêtes audio.

Pour ce qui est de l’accessibilité, OpenAI souhaite que ce nouveau modèle soit accessible au plus grand nombre. GPT-4o est alors disponible pour tous les utilisateurs gratuits de ChatGPT. Cependant, des tests montrent que le modèle n’est pas encore disponible pour tous, à vérifier au cas par cas.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024

Comment GPT-4o accède-t-il à la voix et l’image ?

Dès son lancement, GPT-4 permettait de passer des requêtes audio. Néanmoins, cette opération consistait en de nombreuses étapes et devait passer par plusieurs modèles d’IA pour obtenir une réponse. Le résultat en était alors impacté et perdait en intonation et en expression d’émotions.

Aujourd’hui, les requêtes passent par un seul réseau neuronal, de cette façon GPT-4o interprète mieux les commandes naturelles.

Le modèle étant encore nouveau, OpenAI doit recueillir un maximum d’informations et de données tests pour l’améliorer, ce qui explique l’ouverture au grand public. Les prochains mois nous montreront une version plus aboutie de ce modèle qui s’annonce déjà comme une révolution vers l’IA généralisée.

@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : openai.com

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Poursuivre la lecture

Illustration d’une fenêtre de code affichant une commande sudo et une icône de nuage représentant le développement cloud.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

GPT-4o : OpenAI donne de la voix à l’IA avec son nouveau modèle

Utiliser la voix et l’image ?

Comment GPT-4o accède-t-il à la voix et l’image ?

DataScientest News

Le modèle C2S-Scale de Google, reposant sur Gemma, identifie une nouvelle voie thérapeutique contre le cancer

Infosys va moderniser les effectifs du NHS avec une plateforme d’IA à 1,2 milliard de livres sterling

NetApp dévoile AFX : stockage all-flash désagrégé pour les charges de travail IA

Verne se développe sur le marché français des datacenters pour l’IA

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

GPT-4o : OpenAI donne de la voix à l’IA avec son nouveau modèle

Utiliser la voix et l’image ?

Comment GPT-4o accède-t-il à la voix et l’image ?

DataScientest News

Le modèle C2S-Scale de Google, reposant sur Gemma, identifie une nouvelle voie thérapeutique contre le cancer

Infosys va moderniser les effectifs du NHS avec une plateforme d’IA à 1,2 milliard de livres sterling

NetApp dévoile AFX : stockage all-flash désagrégé pour les charges de travail IA

Verne se développe sur le marché français des datacenters pour l’IA

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

DataNews