Lorsqu’on parle d’IA, on parle par défaut de modèles tels que ChatGPT ou Claude, qui sont des Large Language Models (ou LLM). Mais même si les LLM sont très étudiés en ce moment, ce n’est qu’un type de modèle parmi d’autres.
Dans l’industrie de l’automobile, les types de véhicules sont bien définis : les citadines, les camions, les motos ou encore les formule 1 sont tous des véhicules, mais leurs utilités et la façon de les piloter n’ont rien à voir.
C’est la même chose dans l’industrie de l’IA. Pour parler d’IA, il faut d'abord définir quel modèle on utilise, et on constate qu’il existe plusieurs types de modèles d’IA avec leurs propres utilités.
Le but de cette édition est de présenter plusieurs types de modèles d’IA qu’on peut trouver, et on réalise assez vite que l’IA ne peut pas simplement se résumer aux LLM tels que ChatGPT ou Claude :
Large Language Models (LLM)
Le Large Language Model (LLM) est le type de modèle d’IA le plus répandu et qui fait l’objet de la plupart des recherches à l’heure actuelle. Par exemple, GPT, Claude, ou Llama sont des LLM.
Dans leur fonctionnement, les LLM reposent sur des “réseaux de neurones” qui sont entraînés en analysant de grandes quantités de données textuelles (livres, articles, pages web, etc.) pour détecter des motifs récurrents dans la façon dont les mots sont utilisés dans différents contextes.
Il faut imaginer les LLM comme des immenses bibliothèques. Les données analysées par les LLM représentent les livres qui composent cette bibliothèque, et le chatbot joue le rôle du “bibliothécaire”, chargé de chercher les informations demandées, les présenter de façon compréhensible, et mettre à jour la bibliothèque si nécessaire.
Avantages :
- Polyvalence. Il peuvent être utilisés pour tout un ensemble de tâches telles que la traduction, la génération de texte ou le résumé de texte.
- Amélioration continue. Les LLMs peuvent être continuellement améliorés avec les réponses des utilisateurs et/ou de nouveaux ensembles de données
Inconvénients :
- Risques éthiques. L’utilisation massive de données peut amener à exploiter les données d’autres utilisateurs sans leur consentement.
- Coûts élevés. L'entraînement et l'inférence des LLMs nécessitent énormément de puissance de calcul, donc des coûts élevés en matériel et en énergie.
Personal Language Models (PLM)
Si les LLM sont conçus pour répondre aux besoins de tous les utilisateurs, alors les “Personal Language Models (PLM) sont conçus pour s'adapter et répondre aux besoins spécifiques d'un utilisateur ou d'un groupe d'utilisateurs.
Même si les PLM fonctionnent de manière similaire aux LLMs, il y a plusieurs différences clés entre les deux.
Pour les données, les LLM sont pré-entraînés sur un corpus de données publiques, alors que les PLM sont formés sur un corpus de données qui dépend de l’utilisateur et de son historique.
En parallèle, les LLM sont utilisés pour tous types d’applications, alors que les PLM sont dédiés à une application spécifique.
Si on peut décrire un LLM comme une immense bibliothèque, alors on peut décrire un PLM comme un assistant personnel qui apprend de nos habitudes et de nos centres d’intérêt.
ChatGPT permet déjà de créer des PLM personnalisés entraînés sur ses propres données avec la fonctionnalités “My GPTs”. C'est un premier pas vers cette tendance et les PLM peuvent être particulièrement adaptés aux assistants vocaux pour ne citer qu’eux.
Avantages :
- Personnalisation. Les PLM sont conçus pour s'adapter aux préférences et aux besoins spécifiques des utilisateurs individuels
- Réduction des coûts. Les PLM nécessitent moins de ressources, ils sont donc plus abordables et plus faciles à déployer.
Inconvénients :
- Performances réduites. En règle générale, les PLMs sont des modèles avec moins de paramètres et moins de données d’entraînement, donc moins performants par rapport à d’autres types de modèles.
- Présence de biais. Les PLMs peuvent refléter et amplifier les biais présents dans les données fournies par l’utilisateur, ce qui inciterait à donner des réponses inappropriées.
{{ms-ia-large}}
State Space Models (SSM)
Les State Space Models (SSM) ne sont pas en eux-mêmes des modèles d’IA ou des réseaux de neurones artificiels. Ils ressemblent davantage à des outils pour modéliser des systèmes physiques.
Une allégorie qu’on peut faire du SSM est celle du navigateur en haute mer. Le navigateur utilise des instruments comme le GPS, la boussole ou une carte pour déterminer la position de son navire, et il combine ces observations avec d’autres facteurs comme la vitesse, le cap ou les courants marins.
En combinant toutes ces analyses, le navigateur peut estimer la trajectoire du navire tout en gérant les incertitudes.
Pour ce qui est de l’architecture SSM, il existe déjà des modèles tels que S4. Il existe également Mamba qui peut être vu comme un hybride entre les réseaux neuronaux convolutifs (CNN) et récurrents (RNN).
Avantages :
- Performance supérieure sur de longues séquences. Plusieurs tests ont montré que les SSM étaient plus performants que les LLM pour mémoriser des informations, et en déduire la bonne réponse.
- Gestion de l’incertitude. Ils intègrent explicitement le risque d’erreur dans les réponses données.
Inconvénients :
- Sensibilité du modèle. La performance des SSM dépend fortement de la précision des modèles. Si le modèle est mal spécifié, il ne peut pas être fiable.
- Disparités de performances. Quand bien même les SSM seraient supérieurs aux autres types de modèles sur certaines tâches, ils speuvent avoir une performance moindre sur d’autres.
Masterclass gratuite
Nos experts répondent à vos questions sur l'intelligence artificielle !
S'inscrire au WebinaireMasterclass gratuite
Nos experts répondent à vos questions sur la blockchain !
S'inscrire au Webinaire