En avril 2024, durant la Worldwide Developers Conference, Apple et Microsoft ont dévoilé des modèles de langage plus petits mais performants. Les SLM, bien que réduits en taille, offrent des performances comparables aux modèles massifs tout en étant plus économiques et écologiques.
La fin des grands modèles de langage ?
Les entreprises technologiques se sont engagées dans une course effrénée pour créer les plus grands modèles de langage (LLM). En avril, Meta a annoncé le Llama 3, un modèle de 400 milliards de paramètres, soit deux fois plus que le modèle ChatGPT original d’OpenAI de 2022. Bien que non confirmé, GPT-4 est estimé à environ 1,8 trillion de paramètres. Cependant, ces derniers mois, des géants comme Apple et Microsoft ont introduit des petits modèles de langage (SLM). Ces modèles, bien que beaucoup plus petits que leurs homologues LLM, peuvent les égaler ou même les surpasser en génération de texte sur de nombreux critères.
Lors de la Worldwide Developers Conference d’Apple le 10 juin, la société a dévoilé ses modèles « Apple Intelligence », comprenant environ 3 milliards de paramètres. De son côté, Microsoft a lancé sa famille de SLM Phi-3 fin avril, avec des modèles allant de 3,8 à 14 milliards de paramètres. Face à cette nouvelle tendance, Sam Altman, PDG d’OpenAI, a déclaré la fin de l’ère des modèles géants.
Petit mais costaud ?
Dans une série de tests, le plus petit modèle de Microsoft, Phi-3-mini, a rivalisé avec GPT-3.5 d’OpenAI (175 milliards de paramètres) et a surpassé Gemma de Google (7 milliards de paramètres). Ces tests évaluaient la compréhension du langage en posant des questions sur diverses disciplines. Le Phi-3-small de Microsoft, avec 7 milliards de paramètres, a obtenu des résultats remarquablement meilleurs que GPT-3.5 dans de nombreux de ces critères.
Aaron Mueller, chercheur à l’Université Northeastern de Boston, n’est pas surpris que les SLM puissent rivaliser avec les LLM dans certaines fonctions. Il explique que l’augmentation des paramètres n’est pas la seule façon d’améliorer les performances d’un modèle : la formation sur des données de meilleure qualité peut également donner des résultats similaires. Les modèles Phi de Microsoft ont été formés sur des données de « qualité manuelle », plus cohérentes et donc plus faciles à apprendre que le texte diversifié d’Internet utilisé par les LLM. Apple a suivi une approche similaire en utilisant des ensembles de données plus riches et plus complexes pour ses SLM.
Le renouveau de l'IA générative ?
La montée des SLM survient à un moment où l’écart de performance entre les LLM se réduit rapidement et où les entreprises technologiques cherchent à explorer d’autres moyens pour améliorer les performances au-delà de l’augmentation des paramètres. Sam Altman a affirmé qu’il croyait que l’amélioration des modèles se ferait désormais par d’autres moyens. Les SLM consomment moins d’énergie que les LLM, permettant de les utiliser localement sur des appareils comme les smartphones et les ordinateurs portables, préservant ainsi la confidentialité des données et les personnalisant pour chaque utilisateur.
Les SLM peuvent également démocratiser l’accès aux modèles de langage. Jusqu’à présent, le développement de l’intelligence artificielle était concentré entre les mains de quelques grandes entreprises capables de déployer une infrastructure haut de gamme, tandis que les plus petites entreprises et laboratoires devaient payer des frais élevés pour accéder à ces technologies. Les SLM, facilement formables sur du matériel plus abordable, deviennent accessibles à ceux disposant de ressources modestes tout en étant suffisamment performants pour des applications spécifiques. Bien que des défis subsistent pour surmonter les hallucinations, les SLM soigneusement sélectionnés rapprochent les chercheurs de la création d’une IA responsable et interprétable.
Si cet article vous a plu et si vous envisagez une carrière dans la Data Science ou tout simplement une montée en compétences dans votre domaine, n’hésitez pas à découvrir nos offres de formations ou nos articles de blog sur DataScientest.
Source : apple.com