Au cours de la semaine dernière, l’entreprise OpenAI a annoncé o3, une nouvelle famille de modèles qui se distingue par ses capacités en programmation et en mathématiques.
Selon les annonces d’OpenAI, o3 surpasse largement o1, et les performances seraient telles que le stade de l’Intelligence Artificielle Générale (AGI) a été atteint. Le fait d’avoir atteint l’intelligence artificielle générale (ou “AGI”) est l’argument marketing principal qui revient systématiquement dans la communication de l’entreprise.
Cependant, est-ce que ces déclarations sont vraiment fondées ? Comme vous avez pu le voir dans le titre, ce n’est pas le cas.
Mais pour le sujet de cette semaine, nous allons nous intéresser aux raisons pour lesquelles OpenAI présente o3 comme l’AGI ainsi que les raisons pour lesquelles ce n’est pas le cas.
L’intelligence artificielle générale (AGI)
Il est nécessaire de définir ce qu’est une Intelligence artificielle générale avant de pouvoir aborder le cas d’OpenAI.
Le développement de l’IA peut être divisé en trois grandes catégories : l’intelligence artificielle étroite (ANI), l’intelligence artificielle générale (AGI) et la superintelligence artificielle (ASI), chacune de ses étapes représentant un bond technologique dans leurs capacités.
L'intelligence artificielle étroite (ANI) est spécialisée dans l'exécution d'une seule tâche ou d'un ensemble restreint de tâches. très efficaces dans ce cadre spécifique, mais inefficaces en dehors.
L’ANI est déjà omniprésente dans notre vie quotidienne:
- Assistants virtuels (Siri)
- Systèmes de recommandations (Netflix, Spotify, Youtube…)
- Conduite autonome (Tesla…)
L’intelligence artificielle générale (AGI) désigne des machines capables d'effectuer toutes les tâches intellectuelles qu'un être humain peut accomplir. L'AGI aurait la capacité d'apprendre, de raisonner et de s'adapter à un large éventail de tâches sans programmation explicite.
Voici des exemples hypothétiques d’AGI:
- Jarvis dans Iron Man
- Data dans Star Trek
La superintelligence artificielle (ASI) désigne la capacité d'une machine à surpasser l'intelligence humaine dans pratiquement tous les domaines, y compris la créativité, la prise de décision et l'intelligence émotionnelle. Ainsi, l’ASI serait capable d’améliorer ses propres algorithmes sans intervention humaine, et participerait à la résolution de problèmes à grande échelle.
Cette classification reste très théorique, mais elle continue d’être citée régulièrement pour donner un ordre d’idée sur les capacités d’un modèle d’IA. Dans le cas de l’AGI, le plus important n’est pas ce que l’on sait, mais ce qu’on fait lorsqu’on ne sait pas.
{{ms-ia-small}}
Evaluer l’AGI
Bonne nouvelle, il existe un moyen pour éprouver les capacités d’adaptation d’un modèle d’IA. Il s’agit de "Abstract and Reasoning Corpus for Artificial General Intelligence (ARC-AGI)” conçu entre autres par François Chollet.
La particularité de ce modèle d’évaluation est que chaque tâche est totalement nouvelle. Il n’existe aucun moyen pour savoir à l’avance quelle tâche va devoir résoudre un modèle d’IA, et chaque tâche teste une capacité différente.
Ces tests sont relativement faciles à résoudre pour les humains, mais nettement plus complexes pour d'autres systèmes. Ils reflètent une véritable capacité d'adaptation.
C’est cette singularité qui fait de ARC-AGI la seule méthode d’évaluation considérée comme pertinente pour savoir si un modèle d’IA a atteint le stade d’AGI ou non.
OpenAI et ARC-AGI
Si OpenAI insiste autant sur le fait d’avoir atteint l’AGI avec son modèle o3, c’est parce qu’il s’agit du premier modèle à atteindre un score satisfaisant sur le test ARC-AGI depuis son lancement en 2019.
test ARC-AGI
ARC-AGI est réputé pour être intraitable avec les modèles d’IA, si bien qu’il a fallu 4 ans à l’entreprise OpenAI pour passer de 0% (GPT-3, 2020) à 5% (GPT-4o).
C’est seulement depuis cette année que les scores commencent à décoller, avec par exemple le modèle o1-preview qui a atteint 21%, pour atteindre 88% avec le modèle o3 spécifiquement optimisé pour ce test.
Les problèmes du modèle o3
Étant donné que o3 est le premier modèle à avoir obtenu un score similaire aux être humains, peut-on en conclure que ce modèle a atteint l’AGI comme l’annonce OpenAI ?
Pour beaucoup d’acteurs, la réponse est non car ce modèle est confronté à beaucoup de limitations qu’on anticipait déjà auparavant, mais qui sont devenues flagrantes avec o3.
https://arcprize.org/blog/oai-o3-pub-breakthrough
La première limitation qui est certainement la plus évidente est le coût nécessaire par tâche demandée à o3.
Par exemple, les modèles o1 les plus performants nécessitent entre 1$ et 10$ par tâche, pour une performance allant de 13 à 32%. Pour le modèle le plus performant d’OpenAI, on se trouve à plus de 1000$ par tâche.
Pour résumer, les performances ont beau augmenter d’année en année, le coût d’utilisation de ces modèles devient exponentiel, à un tel point que leur utilisation au quotidien devient impossible (ou alors réservé à des cas d’utilisation extrêmement restreints).
Les autres limitations du modèle o3 proviennent du fonctionnement les Large Language Models eux-mêmes.
Les Large Language Models perçoivent le monde à travers le texte et les images dans leurs données d’entraînement, mais sont incapables de saisir les lois fondamentales de la physique.
Exemple : imaginons une chaîne de 7 engrenages. Dans quel sens va tourner le 7ème engrenage si on tourne le 2ème dans le sens horaire?
Un LLM peut répondre à cette question à condition que la bonne réponse se trouve sous forme de texte dans ses données d’entraînement. Si on laisse un LLM chercher la réponse sur la simple compréhension du monde physique sans texte ni image, le modèle sera en difficulté.
https://arxiv.org/pdf/2410.05229
Autre problème : si on ajoute des informations inutiles à notre question, les performances diminuent. Dans l’exemple ci-dessus, Oliver est censé cueillir 88 kiwis le dimanche, mais le LLM a répondu 83. Les cinq kiwis plus petits que la moyenne sont censés être comptabilisés, mais le LLM a préféré les déduire.
Ce n’est qu’un exemple, mais même o1-preview a une baisse de performance de 17% dans ce genre de situations.
Enfin, l'ARC Prize Foundation prévoit de lancer ARC-AGI-2 en 2025, où François Chollet estime que o3 obtiendrait moins de 30%. ARG-AGI-2 serait toujours aussi facile pour les humains, mais beaucoup plus difficile pour les IAs.
{{ms-ia-large}}
Alternatives pour l’AGI
Du coup, les LLM seront toujours des outils très pertinents pour la reconnaissance de patterns. Cependant, à cause de toutes ces limitations, les LLMs deviennent de moins en moins crédibles en tant que prétendants pour atteindre l’intelligence artificielle générale. Il faut donc trouver des alternatives.
Test-Time-Training (TTT)
Le Test-Time Training (TTT) est une approche qui ajuste les paramètres d'un modèle d'IA directement pendant l'inférence pour résoudre un problème unique.
C’est un peu comme si le modèle d’IA avait une mini-séance d’entraînement qui lui laissait le temps de réfléchir avant de répondre, ce qui lui permet d’être plus performant pour généraliser.
Preuve à l’appui : le Test-Time-Training a permis d’atteindre 53% de réussite sur le test ARC-AGI sur un modèle à 8 milliards de paramètres, c’est-à-dire un modèle d’IA capable de tourner sur notre PC. Cela en fait une alternative bien plus prometteuse pour l’AGI.
DINO World Model (DINO-WM)
Basé sur le modèle de vision par ordinateur Dino V2, le Dino World Model essaie de prédire l'état futur du monde à partir de ses observations et des actions qu'il entreprend, et non à partir de données étiquetées par des humains.
Ceci fait qu’il peut s'adapter à des situations inédites même s'il a été entraîné sur un type d'environnement spécifique. Par exemple, il peut manipuler un cylindre même s'il n'a été entraîné qu'avec des cubes.
Ainsi, cela ouvre des possibilité intéressantes pour atteindre l’intelligence artificielle générale, et c’est un modèle particulièrement prometteur dans le domaine de la robotique.
En conclusion
Pour conclure le sujet de cette semaine, il faut reconnaître tout le travail abattu par OpenAI au cours de ces 5 dernières années. Il s’agit d’un véritable témoin des progrès réalisés dans cette industrie, aussi bien dans les performances des modèles d’IA que dans leur adoption dans la vie quotidienne.
Le fait est que, malgré des modèles toujours plus coûteux à utiliser, les modèles o3 ne peuvent pas prétendre à atteindre le stade de l’AGI, et leur technologie sous-jacente ne semble pas pouvoir être conçue pour ça.
Le bon côté des choses est que l’AGI est un sujet qui est plus que jamais d’actualité, avec des alternatives en développement qui ont le potentiel d’y prétendre.
Pour approfondir vos connaissances en intelligence artificielle, Alyra propose deux formations dédiées :
Développement IA
- Objectif : Apprendre à coder, entraîner et visualiser des modèles.
- Résultat : Intégrer efficacement l'IA dans vos applications grâce à des compétences techniques solides.
Consulting IA
- Objectif : Comprendre comment s’adapter, utiliser et évoluer avec l'IA.
- Résultat : Apporter des solutions stratégiques pour intégrer l’IA dans des environnements professionnels variés.
Opportunités concrètes offertes par ces formations
- Applications pratiques pour intégrer l’IA dans le quotidien des entreprises.
- Se reconvertir professionnellement vers le domaine de l'IA
Webinar gratuit
Nos experts répondent à vos questions sur l'intelligence artificielle !
S'inscrire au Webinaire