🚀 Êtes-vous fait pour la Data ? Découvrez-le en 1 min

Google lance Gemini 2.5 Flash, un modèle qui permet le contrôle granulaire du raisonnement

-
2
 m de lecture
-

Google vient d’annoncer la sortie en avant-première de Gemini 2.5 Flash, une mise à jour stratégique de sa gamme d’intelligences artificielles, qui introduit une innovation majeure : le contrôle granulaire du raisonnement par les développeurs. Accessible via l’API Gemini, Google AI Studio et Vertex AI, ce nouveau modèle est présenté comme le plus rentable de la gamme, permettant d’optimiser l’équilibre entre performance, coût et latence.

Un modèle hybride

Avec Gemini 2.5 Flash, Google inaugure ce qu’il qualifie de « modèle de raisonnement entièrement hybride ». S’appuyant sur les fondations du performant Flash 2.0, cette version se distingue par sa capacité à raisonner de manière contrôlée. Les développeurs peuvent ajuster un « budget de raisonnement », c’est-à-dire une quantité de jetons dédiée au traitement cognitif avant la génération de réponse. Ce budget est modulable jusqu’à 24 576 jetons, offrant un contrôle inédit sur la profondeur d’analyse que l’IA est capable de faire.

Côté performances, Gemini 2.5 Flash se hisse dans le peloton de tête des modèles de raisonnement actuels, juste derrière le 2.5 Pro selon Google. Sur des benchmarks exigeants comme ChatBot Arena ou LMArena, il se montre extrêmement compétitif. Il atteint notamment 12 % au Humanity’s Last Exam (HLE), un test rigoureux destiné à remplacer les benchmarks classiques devenus trop simples. À ce jour, seul le modèle o4-mini d’OpenAI fait mieux sur ce test.

Le plus rentable de la famille

L’innovation ne réside pas uniquement dans la technique. Google introduit également un modèle économique différenciant. Contrairement à une tarification linéaire, Gemini 2.5 Flash permet aux entreprises de ne payer que pour le raisonnement réellement utilisé.

Les prix parlent d’eux-mêmes :

  • 0,15 $ par million de jetons en entrée,

  • 0,60 $ par million de jetons en sortie sans raisonnement,

  • jusqu’à 3,50 $ avec raisonnement activé.

Cette approche à la carte favorise un usage quantitatif de la puissance IA. Une entreprise peut choisir d’optimiser ses coûts pour les tâches simples, tout en mobilisant toute la puissance de raisonnement pour des cas d’usage critiques.
Le curseur de raisonnement, accessible via l’interface graphique ou l’API (paramètre thinking_budget), devient un levier stratégique pour adapter l’IA aux contraintes métier.

Google apprend de ses erreurs

Le lancement de Gemini 2.5 Flash intervient dans un contexte de reconquête pour Google. Début 2024, l’entreprise avait essuyé une forte tempête médiatique, après des erreurs de modélisation dans Gemini liées à la diversité, qui avaient provoqué une chute de 90 milliards de dollars en valorisation boursière. Dans une note interne, Sundar Pichai avait alors qualifié les résultats du modèle de « totalement inacceptables ».

Google adopte alors une posture beaucoup plus transparente et pragmatique. L’entreprise reconnaît désormais que tous les cas d’usage ne nécessitent pas le même niveau de raisonnement, et propose un modèle ajustable, capable de prioriser la performance ou la sobriété en fonction du contexte.

Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.

Source : deepmind.google

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?