L’IA générative est morte. Vive l’IA agentic… peut-être.

Un robot vectoriel en costume des années 60 se tient devant une tablette informatique.

De nombreux éditeurs de logiciels, encouragés par des valorisations de marché pas tout à fait raisonnables, misent tout sur l’excitation autour de l’intelligence artificielle. Je ne suis généralement pas du genre à faire des prédictions, mais je prophétise qu’en 2025, l’intelligence artificielle agentic sera un mot à la mode. Comme c’est habituel avec les mots à la mode technologiques, on peut s’attendre à des bribes de nouveauté réelle diluées dans un océan d’attentes exagérées.

Commençons par clarifier un peu ce qui est en jeu. En simplifiant un peu1, les LLM (large language models) sont, à leur base, des modèles de complétion de texte. Ils prennent du texte brut en entrée et génèrent du texte brut en sortie. Comme ces modèles sont astucieusement pré-entraînés sur des quantités « teranormes » de matériel web, ils peuvent être facilement utilisés pour une grande variété de tâches (par exemple, la traduction, la résumé, la génération d’idées, etc.). Les LLM ont en fait rendu obsolète tout le domaine précédent du TALN (traitement automatique du langage naturel).

Étant donné les performances actuelles et le prix des LLM, il est évident que cette technologie a le potentiel d’apporter beaucoup de valeur ajoutée à toute entreprise employant des cols blancs. Les détails sont cependant moins évidents. Ici, l’IA agentic (ou, plus précisément, ses fournisseurs) propose de combler l’écart entre les capacités brutes des LLM et leurs environnements informatiques.

En ce qui concerne les spécificités, Erik Pounds2 (Nvidia) a proposé en octobre 2024 la définition suivante de l’IA agentic qui, je pense, capture bien ce qui est généralement compris sous cette nouvelle bannière de mot à la mode :

L’IA agentic utilise un processus en quatre étapes pour résoudre les problèmes : Percevoir : les agents d’IA collectent et traitent des données provenant de différentes sources […]; Raisonner : un grand modèle de langage agit comme l’orchestrateur. Cette étape utilise des techniques telles que la génération augmentée par récupération (RAG) […]; Agir : en s’intégrant à des outils et des logiciels externes via des interfaces de programmation d’applications, l’IA agentic peut exécuter rapidement des tâches […]; Apprendre : l’IA agentic s’améliore en continu grâce à une boucle de rétroaction, ou « volant de données » […]

La grande vision de l’IA agentic est qu’elle ouvre la voie à un « employé entièrement numérique » (mon terme, pas celui de Pounds) équivalent fonctionnellement à un travailleur de col blanc. Avec, à peu près, environ un milliard de travailleurs de col blanc dans le monde, il n’est pas trop difficile de comprendre pourquoi les marchés semblent perdre la tête face à cette perspective.

À y regarder de plus près, nous constatons qu’il y a deux obstacles fondamentaux, nettement distincts, que l’IA agentic essaie de résoudre : l’instrumentation et l’apprentissage.

Instrumentation : Le premier obstacle, le plus évident, est que le LLM ne peut pas être exploité dans le vide. Les LLM sont des logiciels et, par conséquent, une infrastructure informatique est nécessaire. Cette infrastructure permet au LLM de récupérer des informations pertinentes de son environnement et de générer des commandes visant à accomplir ce qui est attendu du LLM. Pour les services informatiques, qui sont généralement déjà submergés par des années de retard, concevoir cette infrastructure est un défi en soi. Cependant, les LLM eux-mêmes peuvent atténuer ce défi.

Apprentissage : Aussi étrange que cela puisse paraître, les LLM, pour la plupart, n’apprennent rien du tout jamais après leur création. C’est notre deuxième obstacle. Tout ce que le LLM sait, c’est soit des informations publiques (d’où la préformation), soit une partie de la consigne. Il n’y a presque[^fine-tuning] rien entre les deux. Après chaque génération, le LLM est réinitialisé à son état d’origine. Cependant, si la base de connaissances soutenant la consigne pouvait être mise à jour par le LLM lui-même, cet obstacle pourrait également être conceptuellement atténué.

Si l’IA agentic parvenait à résoudre ces deux obstacles, sans recourir à des LLM au-delà de ceux que nous avons actuellement, elle ouvrirait effectivement la voie à des travailleurs de col blanc numériques génériques. Cependant, il s’agit d’une proposition très audacieuse et, malgré l’enthousiasme du marché, la résolution des obstacles mentionnés précédemment peut nécessiter des efforts considérables.

Sur le front de l’instrumentation, la proposition d’avoir un agent numérique interagissant directement avec l’écran et le clavier, comme le ferait un être humain, est attrayante, principalement parce qu’elle semble contourner complètement les défis de l’infrastructure informatique mentionnés précédemment. Cependant, c’est aussi la solution la plus monumentalement surdimensionnée pour résoudre le défi. Pour percevoir l’interface utilisateur graphique, des dizaines (centaines ?) de captures d’écran devront être transmises au LLM, même pour la plus simple des interactions. Pour agir, des dizaines (centaines ?) de commandes, telles que des commandes de souris, devront également être émises.

Bien que je ne doute pas qu’un tel exploit soit déjà possible avec les LLM actuels, je remets en question la praticité et la maintenabilité de cette approche. Bien que le traitement des images représente en lui-même une surcharge massive des ressources informatiques, ce n’est pas le véritable obstacle (étant donné que les progrès du matériel informatique rendront probablement cette surcharge beaucoup moins élevée que le coût d’un employé à temps plein).

Le cœur du problème est le suivant : expliciter de manière non équivoque (via des consignes) chaque aspect minuscule de l’interaction avec les applications métier nécessaires pour effectuer une tâche est un effort considérable. C’est un effort qui nécessite, au minimum, des compétences informatiques décentes, voire une mentalité informatique bien développée. Je doute beaucoup que cette tâche puisse être accomplie par quelqu’un incapable de programmer, ou incapable de devenir programmeur débutant en quelques mois. De plus, étant donné que le paysage informatique de toute entreprise de taille importante change constamment, il faudra surveiller l’adéquation des consignes. De plus, les consignes elles-mêmes devront être régulièrement mises à jour. Ainsi, cet effort sera continu.

Est-ce que l’IA agentic va vraiment atténuer le besoin de talents numériques humains, c’est-à-dire le problème de l’arriéré informatique, compte tenu du fait qu’elle implique des exigences considérables en matière de talents numériques humains ? Je ne le pense pas. Cela nous ramène au point de départ, à savoir que si des talents numériques humains doivent être mobilisés, utilisons ces talents pour aborder frontalement l’infrastructure informatique elle-même.

En exposant les données brutes pertinentes (généralement de nature relationnelle) à l’IA agentic (au lieu de tout canaliser à travers l’interface utilisateur graphique), les invites elles-mêmes peuvent être simplifiées de manière exponentielle. Des requêtes SQL de 5 lignes devraient remplacer des invites de 5 pages. De plus, l’opérateur humain pourrait même être assisté par l’IA agentic lorsqu’il s’agit d’écrire ces requêtes SQL.

Naturellement, jongler avec des requêtes SQL - éventuellement effectuées sur plusieurs bases de données hétérogènes - nécessite une instrumentation. Cependant, ce type d’instrumentation est beaucoup plus simple que celui envisagé par l’IA agentic. C’est tellement simple, en fait, que de nombreux services informatiques déploieront probablement leurs propres outils à cette fin, comme ils le font régulièrement pour les utilitaires mineurs.

Avec le temps, les éditeurs de logiciels eux-mêmes ajusteront probablement leurs propres produits pour faciliter ce type d’infrastructure pilotée par l’IA agentic, bien qu’il ne soit pas tout à fait clair sous quelle forme cela se fera (renforcer les API est une option, les interfaces basées sur le texte en sont une autre).

En ce qui concerne l’apprentissage, je suis sceptique. L’IA agentic est présentée comme une étape vers l’intelligence artificielle générale, abordant l’une des limitations les plus fondamentales des LLM : le manque de véritables capacités d’apprentissage. Pourtant, la solution proposée par Pounds - une “roue de données” alimentée par la génération augmentée par récupération (RAG) - n’est rien d’autre qu’un piratage facile superposé à une technologie par ailleurs impressionnante (le LLM lui-même).

Il est concevable que le LLM donne des commandes pour enrichir et mettre à jour de manière incrémentielle sa propre “roue de données”. Il est également concevable que le LLM puisse générer son propre ensemble de données de réglage fin en réduisant les tentatives N-shot en tentatives 1-shot, puis en donnant une commande pour déclencher une phase de réglage fin.

Cependant, il n’est pas clair que les LLM - tels qu’ils existent actuellement - représentent une voie viable vers un tel exploit. Je soupçonne fortement que maintenir une roue de données saine dans le temps peut s’avérer difficile, et que cette maintenance nécessitera - si cela fonctionne du tout - une quantité substantielle d’intelligence humaine techniquement inclinée.

Ici, nous touchons à une limitation fondamentale du paradigme LLM tel qu’il existe actuellement. Il n’est pas clair que cette limitation puisse être levée en ajoutant simplement des choses par-dessus les LLM. Mon intuition est que pour aborder cette limitation, il faudra repenser les LLM eux-mêmes. Cela pourrait être un changement relativement mineur, comme cela s’est avéré être le cas pour la chaîne de pensée - ou cela pourrait nécessiter une refonte complète de l’ensemble3.

Dans l’ensemble, bien que je reste enthousiaste à propos des LLM, je ne suis pas convaincu que le battage médiatique autour de leur dérivé, l’IA agentic, soit justifié. Je ne doute pas que les entreprises déploieront des “agents” pour mécaniser diverses tâches - tout comme ma propre entreprise, Lokad, le fait depuis deux ans. Cependant, si quelque chose, ce processus nous a rendus encore plus dépendants d’une main-d’œuvre talentueuse et techniquement compétente. De plus, en examinant ces initiatives, les parties “agentic” étaient toujours les éléments les plus banals. Nous avons eu du mal, et avons parfois échoué, à mettre en production des éléments alimentés par LLM, mais l’aspect “agentic” était, au mieux, une préoccupation très lointaine.


  1. Les LLM actuels fonctionnent sur des tokens, pas sur des caractères Unicode, bien que cette contrainte puisse être levée à l’avenir. Les LLM peuvent également traiter des images d’entrée, si ces images sont linéarisées (incorporées) dans l’espace latent de la fenêtre contextuelle. ↩︎

  2. Les lecteurs curieux sont invités à consulter la source à l’adresse https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎

  3. Le modèle o1 publié par OpenAI en décembre 2024 élève la technique de chaîne de pensée au rang de citoyen de première classe, permettant au LLM de commencer par un monologue intérieur discutant de la consigne avant de passer à la production de la complétion finale. Cette variation relativement modeste des LLM existants apporte néanmoins des améliorations substantielles pour certaines classes de tâches, telles que les mathématiques et la programmation. ↩︎