Comment fonctionne l'intelligence artificielle : Guide étape par étape de la collecte des données à l'inférence.
Cette semaine, nous nous penchons sur un aspect clé de l'économie numérique : la chaîne d'approvisionnement de l'intelligence artificielle (IA). Souvent comparée à une chaîne industrielle traditionnelle, cette métaphore permet de mieux comprendre comment les différentes étapes de la création d'une IA se structurent et comment la valeur y est distribuée. De l'acquisition des données brutes à l'inférence des modèles, chaque étape joue un rôle crucial dans la conception et l'exploitation des technologies IA. Mais alors, à qui profitent réellement ces processus ? Et comment les revenus sont-ils répartis entre les différents acteurs ?
La chaîne d’approvisionnement de l’IA
Afin de visualiser la distribution des revenus pour les différents acteurs, on peut imaginer l’Intelligence Artificielle comme une grande chaîne d’approvisionnement.
En l’occurrence, ce serait une chaîne d’approvisionnement avec 4 grandes étapes, chacune d’entre elle étant séparée par un intermédiaire (humain ou technique) nécessaire pour passer à l’étape suivante. Voici à quoi ressemblerait cette chaîne avec l’image ci-dessous:
En premier lieu, on a les données brutes qui constituent la matière première à partir de laquelle les modèles d’IA vont s’entraîner. On pourrait voir les modèles d’IA comme des cuisiniers et les données comme leurs ingrédients.
Ces données brutes en tant que telles ne sont pas exploitables. Dans l’industrie de l’IA, on dit souvent “Garbage in, garbage out” pour dire que des mauvaises données donneront uniquement des mauvaises réponses. En parallèle, la présence de mauvaises données influence négativement les réponses, un peu comme si une pomme pourrie contamine le reste du panier.
Il est donc nécessaire de faire le tri et de structurer les données. Une fois que c’est fait, obtient des ensembles de données (dits “datasets”) qui permettront aux modèles IAs de s’entraîner.
Ensuite, nous avons le processus d’entraînement qui consiste à ajuster les paramètres du modèle en fonction de grandes quantités de données pour affiner les réponses au maximum.
Pour finir, nous avons l’inférence qui permet aux modèles d’IA préalablement entraînés de générer des réponses à partir de nouvelles données (qui sont données par l’utilisateur dans son prompt). C'est le moment où le modèle applique les connaissances acquises lors de l'entraînement pour résoudre les tâches qui lui sont confiées.
Il s’agit d’un résumé très simplifié du procédé, mais cela permet d’avoir une vision d’ensemble sur la chaîne d’approvisionnement de l’IA.
Maintenant que cette vision est établie, une question subsiste : à qui distribue-t-on les revenus ?
Distribuer les revenus
Distribution dystopique
Imaginons une entreprise d’IA qui contrôlerait toutes les étapes de la chaîne d’approvisionnement.
Le pire scénario possible serait que cette même entreprise soit opaque sur toutes ses pratiques. Si tel serait le cas, beaucoup de dérives sont possibles :
- Collection des données non consentie
- Conception opaque rendant la concurrence impossible
- Manipulation du modèle à des fin partisanes
- Tous les revenus reviennent à l’entreprise et aucun acteur extérieur n’en bénéficie
- Augmentation des prix en cas de monopole
Parmi toutes les entreprises d’IA existantes, OpenAI fait partie des meilleurs prétendants pour créer cette dystopie, et certaines dérives mentionnées se constatent déjà.
Malgré tout ça, il est impossible que ce scénario se réalise complètement car il y a beaucoup de concurrence, aussi bien chez les entreprises similaires comme Anthropic que dans l’écosystème Open Source qui rattrape son retard technologique par rapport aux modèles d’IA propriétaires.
Distribution utopique
A l’inverse du scénario dystopique où une seule entité aurait un contrôle total, le scénario utopique reposerait sur 3 conditions :
- Une décentralisation maximale, où chaque étape de la chaîne d’approvisionnement constituerait une entité à part entière.
- Une transparence totale sur la conception du modèle et les données utilisées
- Des standards de commercialisation pour chacune des entités
En combinant ces 3 conditions, on obtiendrait une chaîne d’approvisionnement parfaitement juste où tous ses acteurs seraient rémunérés à leur juste valeur.
Mais comme toute utopie qui se respecte, ce scénario est impossible car il soulève des problématiques beaucoup trop complexes à répondre:
- Comment faire valoir la propriété des données à travers le monde ?
- Comment concilier l’utilisation des données et la protection de la vie privée ?
- Comment assurer une répartition équitable des bénéfices de l'IA entre les différents acteurs économiques ?
- Quelle est la tarification optimale pour l’utilisation de l’IA ?
- Quelle politique appliquer pour les modèles d’IA propriétaires/Open Source ?
- Quelle politique appliquer pour l’utilisation locale/via un cloud ?
Il y a des enjeux économiques, juridiques et technologiques derrière ces questions. La technologie et le droit sont en perpétuelle évolution, par conséquent nous pouvons proposer des compromis, mais pas de solution universelle.Thomson Reuters AI in Supply Chain(Thomson Reuters: Clarifying the complex).
Bonne nouvelle : il y a une véritable prise de conscience vis-à-vis de ces questions et que des travaux sont en cours pour avoir une distribution plus juste.
Problème prioritaire: les droits d’auteurs
Beaucoup d’entreprises d’IA sont attaquées pour non-respect des droits d’auteurs, et de nombreux secteurs sont concernés:
- Littérature: Trois auteurs ont intenté un procès contre Anthropic pour avoir utilisé leurs œuvres protégées par le droit d'auteur sans autorisation pour entraîner ses modèles d’IA Claude. La plainte affirme qu'Anthropic a utilisé un ensemble de données appelé "The Pile", contenant près de 200 000 livres piratés.
- Réseaux sociaux: Linkedin a mis à jour sa politique de confidentialité pour inclure l'utilisation des données des utilisateurs dans l'entraînement de modèles d'IA. En outre, le modèle d’IA Grok-2 accessible sur Twitter permet de générer des images de personnalités publiques ou de personnages sous droits d’auteurs.
- Jeu vidéo: Blizzard utilise les données de tous les jeux réalisés par l’entreprise pour réaliser des concepts arts sans le consentement des artistes.
Tout ceci montre qu’il y a beaucoup de flou juridique sur l’utilisation et la monétisation des données au détriment de leurs créateurs, et que des standards doivent être mis en place. Cela représente une première étape d’une longue liste pour distribuer les revenus générés par l’IA plus équitablement.
Se former à l’IA
Il est possible que dans quelques années, lorsque l’industrie de l’IA sera sujette à certaines réglementations, certaines solutions à ces problématiques soient trouvées.
Dans tous les cas, le nombre d’utilisateurs hebdomadaires de modèles d’IA ne cesse de monter et certaines entreprises souhaitent implémenter l’IA dans leur procédé.
La demande en compétences dans le domaine de l’IA s’intensifie alors qu’elle est déjà forte. Cela ouvre la voie à de nombreuses opportunités professionnelles, et Alyra vous propose de vous y former !
Cliquez ici pour découvrir nos formations !
La chaîne d'approvisionnement de l'IA, tout comme celle d'autres industries, soulève des questions cruciales sur la répartition des richesses et la transparence des pratiques. Si des scénarios dystopiques où une seule entité contrôle l’ensemble de la chaîne inquiètent, des solutions utopiques, bien que difficiles à réaliser, montrent la voie vers une décentralisation et une transparence accrue. Les questions juridiques et éthiques, notamment sur les droits d’auteur, doivent être réglées pour assurer une répartition plus équitable des bénéfices. En attendant, la demande en compétences IA continue de croître, et il est essentiel de s'y former pour saisir les opportunités de cette révolution technologique.
Masterclass gratuite
Nos experts répondent à vos questions sur l'intelligence artificielle !
S'inscrire au WebinaireMasterclass gratuite
Nos experts répondent à vos questions sur la blockchain !
S'inscrire au Webinaire