Une critique subjective de l'interview de Yann LeCun avec Lex Fridman
Yann LeCun, l’un des chercheurs en IA les plus influents au monde, a récemment partagé une interview de 3 heures avec Lex Fridman1 intitulée “Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI”. Cette interview est remarquable et, par sa réflexion claire et articulée, Yann LeCun démontre ce à quoi ressemble la science en action à son meilleur. Je recommande vivement cette interview à quiconque s’intéresse à l’Intelligence Artificielle (IA). Cependant, je ne soutiens pas entièrement toutes les propositions avancées par Yann LeCun, et ces divergences d’opinion pourraient s’avérer plus conséquentes qu’un simple débat académique. Dans l’article qui suit, je passe en revue cette interview, en commençant par les propositions qui nécessitent le plus un soutien élargi, et en poursuivant avec celles que je conteste.

La ferveur actuelle autour de l’IA découle des Large Language Models (LLMs) - ce que Yann LeCun qualifie à juste titre, en réalité, d’LLMs autoregressifs. Les tokens (fragments de mots) sont générés un à un, se réinjectant dans le modèle qui a généré le token précédent. Les LLMs sont l’ingrédient secret derrière ChatGPT. La plupart des gens, moi y compris, qui passent quelques heures avec GPT4 ne peuvent s’empêcher de ressentir une sensation de vertige. Cela n’est peut-être pas de l’Intelligence Artificielle Générale (AGI), mais c’est tout de même extrêmement impressionnant. Le choc est profond, et nombreux sont ceux qui ont commencé à réclamer des mesures légales d’urgence drastiques, l’AGI étant fréquemment présentée comme une véritable menace d’extinction pour l’humanité - un véritable scénario.
Apocalypse et désespoir
Yann LeCun soutient essentiellement que cette vision « apocalypse et désespoir » est totalement absurde, et je partage entièrement ce point de vue. Le scénario de la fin du monde suppose que l’AGI soit un événement : il doit exister un moment où une AGI serait si en avance sur tout le reste qu’elle pourrait tout simplement prendre le contrôle. Cependant, Yann LeCun argue que l’AGI ne sera pas un événement, et je ne pourrais pas être plus d’accord.
Alors que le grand public pourrait avoir l’impression que la technologie a fait un bond en avant (presque du jour au lendemain) en 2023, ce n’est absolument pas le cas. Au contraire, les progrès ont été incroyablement, péniblement et exaspérablement progressifs au cours des 5 dernières décennies. De plus, il ne s’agit pas d’améliorer une seule chose, mais des dizaines de domaines largement indépendants : de meilleurs paradigmes, de meilleurs algorithmes, de meilleurs matériels, de meilleurs ensembles de données, de meilleures méthodologies, de meilleures bases de code, etc. Toutes ces améliorations ont été générées (faute d’une meilleure expression) par une foule incroyablement diversifiée de contributeurs. Ainsi, j’estime la probabilité de passer directement à l’AGI comme nulle. Malheureusement, prophétiser la fin des temps est aussi vieillot que l’humanité elle-même, et bon nombre de personnes ont sauté dans le train pour se mettre en valeur2.
Une fois que l’on élimine l’aspect « événement » de l’AGI, il est très difficile de comprendre pourquoi l’AGI présenterait jamais une menace d’extinction. Toute AGI malveillante, ou toute AGI exploitée par un acteur malintentionné, sera contrée par des AGI d’une capacité à peu près équivalente, que ce soient des armées, des agences de renseignement, des entreprises, voire des universités ou des amateurs, qui les auront développées. L’AGI ne sera qu’un ajout tardif à la très longue liste de technologies pouvant causer d’immenses dégâts lorsqu’elles sont utilisées à des fins néfastes.
En fait, j’irais même jusqu’à affirmer que même si l’humanité passait directement à l’AGI - par exemple, grâce à une civilisation extraterrestre remettant des plans prêts à l’emploi - le scénario de la fin du monde resterait très improbable. Comme l’a souligné Hayek il y a 80 ans3, il existe deux types de connaissances : la connaissance spécifique (formules, concepts, etc.) et la connaissance banale (le savoir du temps et du lieu). Les intellectuels traitent presque invariablement la connaissance spécifique comme s’il s’agissait du seul type de connaissance qui comptait. Une AGI serait le summum de la connaissance spécifique et, sans surprise, de nombreux intellectuels en déduisent qu’en tant que maître de la connaissance spécifique, cette AGI serait également le maître du monde dans son ensemble. Pourtant, malgré toute sa « connaissance spécifique », cette AGI manquerait toujours de toute la connaissance banale, et c’est un écart énorme qui ne doit pas être sous-estimé.
De plus, l’AGI sera le produit d’une civilisation industrielle avancée. En tant que telle, elle sera étroitement dépendante de supply chain complexes - et fragiles. En effet, les semi-conducteurs constituent l’une des industries les plus complexes qui existent4, et toute technologie alternative de hardware (si l’AGI ne se réalise pas par le biais des semi-conducteurs) sera presque certainement tout aussi sophistiquée - et tout aussi fragile. La survie de l’AGI dépendra du soutien actif de l’humanité pendant des décennies, voire des siècles. Les gens ont eu amplement le temps (et les opportunités) pour résoudre les problèmes inévitables qui ont accompagné l’essor de chaque technologie jusqu’à présent. À ce jour, il n’y a, du moins, aucun indice que cette technologie sera différente.
Les LLMs sont insuffisants pour l’AGI
LeCun soutient que des LLMs plus grands et plus rapides ne suffisent pas pour nous amener à l’AGI. Je suis d’accord, bien que, comme nous le verrons ci-après, pour des raisons tout à fait différentes de celles avancées par LeCun. Cependant, je suis tout à fait d’accord pour dire que les LLMs, tels qu’ils existent actuellement, sont au moins incomplets. Bien que les LLMs réussissent le test de Turing avec brio, comme le souligne correctement LeCun, le test de Turing n’est qu’un très mauvais test d’intelligence qui peut être contourné de nombreuses manières que ni Alan Turing ni ses contemporains n’auraient pu envisager en 1950.
La caractéristique que LeCun attribue à l’intelligence est la capacité de prédire l’avenir : meilleure est la prédiction, plus grande est l’intelligence. Globalement, j’approuve cette perspective, bien que je privilégie une variante. Je définis l’intelligence comme la capacité à faire de meilleurs choix en considérant les récompenses futures. Ma définition diffère en ce qu’elle ne se préoccupe pas de la connaissance en soi, mais tient compte des bénéfices qui peuvent en être tirés.
Ma définition englobe tout le spectre de l’intelligence, de celle d’un escargot à celle d’un grand scientifique. Cependant, elle laisse ouverte la question de ce que l’on doit considérer comme « intelligent », c’est-à-dire quel seuil, au sein de ce spectre, peut être considéré comme une manifestation de « l’intelligence générale ».
Je propose que l’intelligence générale est la capacité à améliorer intentionnellement l’intelligence elle-même. Cette auto-amélioration intentionnelle de l’intelligence est quelque chose de très spécifiquement humain (du moins pour l’instant). Des animaux intelligents, tels que les orques ou les chimpanzés, sont capables de transmettre leur patrimoine culturel - techniques de chasse ou de recherche de nourriture - à leur progéniture. Cependant, bien qu’ils fassent preuve d’une grande intelligence, ils ne possèdent rien qui s’approche des énigmes et des contes qui accompagnent l’humanité depuis l’aube des temps. Une énigme n’est rien d’autre qu’un exercice destiné à aiguiser l’esprit pour le plaisir. Les contes jouent un rôle similaire en exploitant notre réponse émotionnelle pour faciliter la mémorisation.
D’après ce critère, les LLMs ne sont pas encore intelligents car ils restent incapables de s’auto-améliorer. Cependant, étant donné que les LLMs sont extrêmement capables de générer du code utile, ils se rapprochent de l’auto-amélioration intentionnelle plus que toute autre technologie que nous ayons jamais connue. Pourtant, la poursuite du chemin vers l’AGI relève exclusivement des esprits humains.
La malédiction des longues séquences
En reprenant l’argument vieux de plusieurs décennies de la malédiction de la dimensionnalité, LeCun soutient que les LLMs souffrent d’un défaut de conception irrémédiable : à mesure que la génération de tokens progresse, le taux d’erreur augmente de façon exponentielle, garantissant ainsi de la camelote pour toute séquence suffisamment longue. L’argument technique est simple : soit $${p}$$ une borne inférieure pour la probabilité de choisir un token incorrect. La probabilité d’obtenir la séquence correcte est au moins supérieure à $${(1-p)^n}$$ pour une séquence de $${n}$$ tokens. Dès lors, la convergence exponentielle vers zéro garantit des absurdités pour toute réponse trop alambiquée.
Je suis en désaccord avec Yann LeCun à ce sujet, de manière polie mais ferme. Cette perspective serait correcte si l’objectif était de produire une seule réponse « correcte ». En effet, si nous essayions, par exemple, de prédire la séquence des chiffres de $${\pi}$$, la conception d’un LLM garantit que les chiffres se tromperont rapidement, ce qui est exactement ce qui se produit empiriquement lorsqu’on tente de faire générer de nombreux chiffres pour $${\pi}$$.
Ma première objection est que la perspective « asymptotique » avec un $${n}$$ croissant constitue une exigence déraisonnable pour tout système, même pour un système d’une grande intelligence. En effet, est-il raisonnable d’exiger d’un LLM qu’il puisse produire des réponses arbitrairement longues, non répétitives et continuellement correctes ? Je ne le pense pas. Cette exigence ne serait pas raisonnable non plus pour un humain très intelligent. Il y a une limite à ce que l’on peut dire sur un sujet, ou à combien on peut planifier une action avant que le processus de raisonnement abstrait (quelle qu’en soit la forme) ne dégénère en simple spéculation. En pratique, les LLMs génèrent leurs propres conditions de terminaison. Ainsi, le $${n}$$ est borné par le modèle lui-même, et la convergence vers l’inanité n’a pas à se produire. Il nous suffit d’accepter que je ne sais pas est une réponse intelligente acceptable à la plupart des questions.
La deuxième objection est que la transition soi-disant « évidente » de la validité par token à la validité par séquence est, en réalité, incorrecte et trompeuse. En effet, l’ensemble de l’argument repose sur l’idée qu’il existe un token « incorrect » (c’est-à-dire, la probabilité $${p}$$). Ce n’est pas le cas, comme le démontre l’exemple suivant :
Question: Pierre-Simon de Laplace était-il un grand mathématicien ? (répondez comme un Français plein d’opinions)
Réponse A : Non, absolument pas.
Réponse B : Non, absolument pas, il était le plus grand de son époque !
Commencer la réponse par Non semble être un token complètement incorrect, comme le démontre Réponse A. Cependant, lorsque cette réponse est complétée par la seconde partie de la phrase, elle devient le token correct et capture le ton et la structure attendus ici. La validité du token “Non” ne peut être évaluée indépendamment des tokens qui seront générés par la suite.
Nous abordons ici le problème, également mentionné dans l’interview par LeCun, selon lequel nous ne connaissons aucun moyen réellement utile d’apprécier les distributions de probabilité en haute dimension. Dans le langage, les éclaircissements ne peuvent être dérivés d’une perspective token par token, tout comme ils ne peuvent l’être d’une perspective pixel par pixel en vision.
Les machines à réponses à ressources constantes
De manière générale, les LLMs nécessitent une quantité constante de ressources informatiques (c’est-à-dire, la bande passante, la mémoire et la puissance de calcul) pour produire le token suivant. LeCun identifie cela comme la manifestation d’un défaut de conception des LLMs, soulignant que certaines questions sont bien plus difficiles à répondre que d’autres, et que les LLMs semblent consommer les mêmes ressources quelle que soit la difficulté de la question.
Je suis d’accord pour dire qu’il est évident que certaines questions sont plus difficiles à répondre, et que répondre à ces questions devrait nécessiter plus de ressources. Cependant, je ne partage pas l’évaluation selon laquelle les LLMs sont des machines à réponses à ressources constantes. La découverte du chain-of-thought5 en 2022 a marqué un tournant pour les LLMs. En essence, en ajoutant « Réfléchissons étape par étape » à l’invite, les LLMs fournissent de bien meilleures réponses pour des catégories entières de problèmes. Mon évaluation empirique personnelle des LLMs confirme cela, et suggérer la possibilité d’une résolution progressive des problèmes aux LLMs augmente considérablement la qualité des réponses fournies. Cependant, de telles réponses progressives, où le LLM ne se précipite pas pour répondre immédiatement mais construit plutôt le raisonnement qui mènera à la réponse correcte, sont une manifestation directe d’une dépense variable de ressources.
En 2023, j’ai personnellement constaté que plusieurs LLMs avaient été progressivement améliorés pour choisir automatiquement le rythme approprié lors de la formulation de leurs réponses, allant d’une livraison en 1 mot (réponse instantanée) à une page de tergiversations avant d’aboutir à une conclusion. Mon hypothèse de travail est que les jeux de données issus du Reinforcement Learning from Human Feedback (RLHF) ont été progressivement élargis pour permettre au LLM de mieux choisir le rythme adéquat pour délivrer sa réponse. Ce comportement réfute l’idée que les LLMs sont des machines à réponses à ressources constantes. Une fois de plus, LeCun semble commettre l’erreur de déduire des propriétés au niveau de la séquence à partir d’observations au niveau des tokens.
Cependant, il m’est également clair que LeCun a raison dans le sens où les LLMs peuvent presque certainement être énormément améliorés en adoptant une approche beaucoup plus agressive en termes de variation de la dépense de ressources. Il est facile d’imaginer un dispositif où chaque question est soumise à un classificateur qui choisit les LLMs de la bonne taille pour effectuer la génération des tokens. En fait, pour tout défi donné, la plupart des praticiens des LLM – moi y compris – semblent commencer avec les LLMs les plus grands et les plus coûteux disponibles. Une fois que cela fonctionne, nous essayons de progressivement passer à des LLMs plus petits et moins chers, en nous arrêtant lorsque les économies ne semblent plus valoir les efforts supplémentaires. À l’avenir, le processus disparaîtra très probablement soit grâce à de meilleurs LLMs, soit grâce à une meilleure instrumentation.
Le chemin à haute bande passante vers l’AGI
Le langage est un canal à faible bande passante comparé à la vision. En effet, LeCun souligne qu’un enfant acquerra plus d’informations (pensez en termes d’entropie informationnelle) par le biais de ses yeux que par la lecture intégrale de Wikipédia. LeCun indique presque que la vision est un signal hautement redondant, ce qui est fort désirable d’un point de vue apprentissage. À partir de ces observations, LeCun propose que le chemin vers l’AGI implique très certainement de placer en première ligne un canal à haute bande passante, comme la vision. En effet, de manière réaliste, il n’y aura jamais suffisamment de documents écrits pour permettre d’atteindre l’AGI. En substance, les LLMs ont contourné la nécessité de canaux à haute bande passante en trichant : les LLMs fonctionnent grâce à une courte série de corpus préexistants, grands et de haute qualité (par exemple, Wikipédia, GitHub, Stack Overflow), mais maintenant que ces corpus ont été exploités, nous n’avons rien de comparable à notre disposition. Ce serait bien d’avoir 10 autres encyclopédies en ligne, aussi riches et diverses que Wikipédia, mais il n’en existe tout simplement pas. Il est fort probable qu’il n’y en aura plus tant que nous n’aurons pas une AGI capable de les rédiger.
Pourtant, bien que cet argument soit séduisant, il existe des preuves contraires. J’ai eu l’occasion de rencontrer quelques personnes aveugles de naissance. Si nous suivions la logique de LeCun, alors ne pas avoir accès à des canaux à haute bande passante (comme la vision) devrait entraver l’intelligence. Ainsi, la cécité infantile devrait freiner le développement cognitif, du moins quelque peu en ce qui concerne l’intelligence. Pourtant, mon échantillon anecdotique montrait le contraire. J’ai constaté que chacune de ces personnes possédait une intelligence nettement supérieure à la moyenne (par exemple, une meilleure mémorisation, une meilleure communication verbale et une meilleure planification). Concernant la nature de leur handicap, ce n’est pas surprenant : les personnes aveugles doivent utiliser leur intellect en permanence et de bien des manières pour compenser leur manque de vision. Ces observations pèsent contre l’hypothèse selon laquelle des canaux à haute bande passante seraient la voie vers l’AGI.
En fait, en considérant le règne animal, je dirais à peu près le contraire. Comparativement à la plupart des animaux, les humains ont des sens remarquablement peu développés. La plupart des propriétaires de chats conviendraient que, du point de vue de leur animal de compagnie, les humains sont des créatures à moitié aveugles et à moitié sourdes qui ne peuvent percevoir une mouche avant qu’elle ne se pose sur leur nez. Encore une fois, c’est une autre preuve circonstancielle contredisant la proposition selon laquelle des canaux à haute bande passante ouvriraient la voie vers l’AGI.
Bien que la cécité à la naissance puisse ne pas freiner en soi le développement cognitif, la privation de langage, elle, le fait. Alors que priver intentionnellement un enfant d’accès au langage constitue une atrocité morale, cela a été fait à plusieurs reprises au cours de l’histoire6. Invariablement, les enfants se sont développés de manière « retardée » (dans le sens clinique du terme). Des résultats similaires ont été obtenus chez les primates, bien qu’une fois encore, des préoccupations éthiques empêchent d’approfondir l’investigation. Encore une fois, bien que circonstancielles, ces preuves suggèrent que le langage joue un rôle déterminant dans l’émergence de l’intelligence, malgré le fait qu’il s’agisse d’un canal à faible bande passante.
Résoudre le paradoxe de Moravec
Le paradoxe de Moravec7 est l’observation, formulée à l’origine dans les années 1980, que ce qui semble être parmi les problèmes les plus simples, comme attraper une théière et verser du thé dans une tasse, est exactement le type de problème le plus difficile à reproduire pour l’intelligence artificielle. LeCun soutient que l’ingrédient clé qui fait défaut jusqu’à présent est une représentation abstraite du monde, ou vision du monde. Cette vision du monde est censée être essentielle pour soutenir toutes les opérations de mobilité de base (qu’il s’agisse d’une voiture autonome ou d’un androïde), et constituerait également la véritable couche fondatrice d’une AGI.
Actuellement, selon LeCun, les LLM ne savent rien car ils n’ont même pas de sens du monde. Il en découle que tout ce que sont les LLM, c’est une mimique élaborée. Cela ne nous mènera pas jusqu’à l’AGI, car, eh bien, les LLM sont simplement très doués pour feindre l’intelligence. De plus, l’absence d’une vision du monde les condamnera à rester éternellement déconcertés par des aspects banals de notre réalité fondamentale, si évidents que les humains ne prennent jamais la peine de les formuler en mots (et peut-être même qu’ils ne le pourraient pas). LeCun propose que les méthodes d’incrustation conjointe appliquées aux ensembles de données de vision constituent actuellement notre meilleure chance de concevoir cette vision du monde, laquelle ouvrira ensuite la voie vers l’AGI.
Je ne suis pas d’accord avec cette perspective sur deux niveaux.
Premièrement, le paradoxe de Moravec n’est pas du tout un paradoxe lorsqu’on l’aborde sous le bon angle. L’hypothèse implicite derrière la perception de cette situation comme un « paradoxe » est que la mobilité animale (et la planification animale) relève de l’éducation plutôt que de la nature. En d’autres termes, acquérir la mobilité résulte d’un processus d’apprentissage – un processus qui s’est révélé incroyablement difficile à reproduire par des moyens artificiels au cours des quatre dernières décennies.
Ma proposition est que, dans une large mesure, ce n’est pas du tout un processus d’apprentissage. Considérons que les poulains (et d’autres membres de la famille des chevaux, tels que les ânes et les zèbres) peuvent se lever et marcher en quelques heures après leur naissance. Considérer ce processus comme de l’« apprentissage » est incorrect. Il est bien plus approprié de considérer ce processus comme une sorte de « calibration ». Toutes les structures cognitives sont presque entièrement développées. Le système n’a besoin que d’un petit coup de pouce pour que les voies se mettent en place.
Cet aspect largement inné de la mobilité et de la planification animale est moins évident chez les humains, car, comparé à presque tous les autres mammifères, la naissance humaine est extrêmement prématurée, en raison du développement de la tête qui constitue le goulot d’étranglement pour une gestation prolongée. Ce que beaucoup de gens perçoivent comme l’« apprentissage » des nourrissons est en réalité un développement cognitif qui se poursuivrait sans entrave si le nourrisson restait quelques mois de plus dans l’utérus.
Il est logique que ces structures cognitives, étant largement innées, soient également le produit de l’évolution. Ces structures ont bénéficié, à peu près, de 800 millions d’années de pression évolutive effrénée pour s’améliorer, sur un nombre incroyablement grand d’individus. Ainsi, si nous prenons la mobilité animale actuelle comme référence de ce que nous attendons d’une machine, il n’est pas surprenant que cette référence se révèle incroyablement difficile à surpasser. Le défi est aussi ardu que d’ingénier un dispositif meilleur que les arbres pour convertir la lumière du soleil en matériau structurel, ou de surpasser les ribosomes en tant qu’usines de macromolécules. Surpasser l’évolution dans des jeux joués depuis des ères est d’une difficulté brutale.
Cependant, les compétences abstraites, comme la narration, ne font partie du jeu évolutif que depuis 1 à 5 millions d’années (à peu près). De plus, le nombre d’individus était également incroyablement limité, car les grands singes ne sont pas seulement très rares (sans parler des humains modernes), mais également à longue durée de vie, ce qui ralentit le processus évolutif, du moins comparé à la plupart des autres animaux. Ainsi, pour atteindre la mobilité, il nous reste à concevoir ce que la nature réalise probablement par le biais de centaines d’heuristiques étroitement couplées. Ces heuristiques peuvent tourner autour d’une sorte de « vision du monde » interne comme le suggère LeCun, mais mon intuition me dit que ce n’est pas le cas. Je suis profondément sceptique quant à l’idée qu’un escargot puisse posséder une quelconque vision du monde. Pourtant, l’escargot peut percevoir correctement et naviguer dans le labyrinthe complexe en 3D que représente la végétation. Les escargots font des choix intelligents, mais sans une vision du monde intelligente.
Ainsi, en second lieu, je ne vois pas le concept de vision du monde de LeCun comme autre chose que quelque chose de essentiellement périphérique à l’émergence de l’AGI. Selon moi, la « vision du monde » (telle que perçue par LeCun) sera l’un de ces modules optionnels qu’une AGI pourra utiliser pour des tâches spécialisées nécessitant de la mobilité, tout comme un module arithmétique. Cependant, fondamentalement, ils ne seront pas nécessaires pour l’AGI en elle-même.
Dans la nature, une « vision du monde » était une voie évolutive nécessaire vers l’AGI, car les animaux ne peuvent pas passer directement à une intelligence générale. Cependant, les machines n’ont pas une telle contrainte, tant qu’il y a des humains pour répondre à leurs besoins (par exemple, en énergie, en matériaux) pendant que nous cherchons ensemble à percer les derniers détails frustrants, comme trouver des substituts inorganiques aux fibres musculaires, et toutes sortes de problèmes que l’évolution a résolus de manière non propice à l’industrialisation.
Néanmoins, bien que je ne pense pas que la voie axée sur la vision que LeCun poursuit mènera à l’AGI, je crois que cette voie a de bonnes chances de résoudre le problème de la mobilité, qui est un grand problème méritant véritablement une bonne solution.
Planification hiérarchique
A travers l’anecdote de la planification d’un voyage de Paris à New York, LeCun illustre que nous manquons de solutions véritablement générales pour aborder la planification hiérarchique. Pour un problème donné, nous pouvons, d’une manière ou d’une autre, inventer des hiérarchies ad hoc, mais nous ne sommes pas capable d’exécuter ce processus automatiquement – en opérant dans des espaces de représentation abstraits. Bien que je sois d’accord avec LeCun sur le fait que nous n’avons pas les capacités pour cela (c’est-à-dire, la planification hiérarchique dans des espaces de représentation abstraits), je ne suis pas d’accord pour dire que nous n’avons pas de voie menant à une planification hiérarchique efficace.
Je propose que la planification hiérarchique puisse être résolue de manière satisfaisante – avec une automatisation complète – grâce au texte, c’est-à-dire dans le style des LLM. La possibilité de tirer parti des espaces de représentation abstraits est une idée séduisante, mais tout comme si nous ne pouvions pas disposer de réacteurs à fusion, rien ne nous empêche d’utiliser la meilleure alternative – des réacteurs à fission, qui représentent également une réponse satisfaisante à ce problème particulier (production d’énergie).
Revenant au voyage de Paris à New York, planifier à travers les mots est incroyablement efficace parce que l’humanité s’est organisée grâce à ces mots. Il n’existe pas de « taxi » du point de vue de l’ingénierie automobile : c’est simplement une voiture ordinaire. Ce qui rend le concept de « taxi » si efficace au niveau de la planification, c’est qu’à n’importe quel aéroport, le voyageur peut s’attendre à trouver une série de panneaux de taxi – portant le mot « taxi » – qui mènent à un endroit où les services d’un chauffeur (avec une voiture) peuvent être loués relativement à bas coût et sur demande.
LeCun propose de dissocier la planification hiérarchique du langage comme s’il était évident que cela aboutirait à une meilleure planification, affranchie des préoccupations linguistiques accidentelles et sans conséquence. Je soutiens que ces préoccupations ne sont ni accidentelles ni sans conséquence. Les panneaux de taxi sont physiquement réels, et quand il n’y en a pas suffisamment, les voyageurs se perdent et se retrouvent en détresse.
Contrairement au règne animal, la planification dans des contextes d’intelligence générale – c’est-à-dire, la planification au sein d’une civilisation – est effectuée de manière plus efficiente en adhérant rigoureusement aux abstractions convenues. Par exemple, le concept de « prise US » signifie très peu pour un physicien, mais pour notre voyageur allant de Paris à New York, anticiper le besoin d’un adaptateur de prise US pour charger son smartphone est une décision judicieuse. De nouveau, l’acquisition d’un « adaptateur de prise US » se fera par le voyageur en vérifiant ce qui est inscrit sur la boîte avant d’acheter l’appareil.
La civilisation est façonnée par le langage, et le langage façonne la civilisation. Je suis ouvert à l’idée qu’il existe quelque chose de mieux que le langage pour effectuer une planification véritablement générale et profondément stratifiée. Cependant, cela est tout loin d’être aussi évident que LeCun le laisse entendre. Une AGI devra opérer dans le monde des humains pendant longtemps. Dans des siècles à venir, les AGI pourraient contourner entièrement le langage tokenisé, communiquant et planifiant possiblement via des embeddings dérivés de visions du monde convenues. Toutefois, cela reste très spéculatif.
Selon moi, une AGI au-delà de l’humain commencerait simplement par améliorer les constructions linguistiques elles-mêmes. Peu de gens réalisent à quel point la science a progressé en parallèle avec le langage. Beaucoup de choses que nous considérons comme évidentes aujourd’hui le sont seulement parce que nous disposons des mots appropriés, avec la sémantique adéquate associée. Le Soleil est une étoile comme toutes les autres étoiles, ou inversement, les étoiles ne sont que des soleils lointains. Pourtant, jusqu’à ce que Giordano Bruno postule que tel était le cas au XVIe siècle, le Soleil et les étoiles étaient perçus comme fondamentalement différents par nature. Ainsi, lorsque nous obtiendrons l’AGI, il est raisonnable de supposer qu’elle reprendra simplement le processus linguistique, du moins pour un certain temps.
Apprentissage et inférence
Dans les LLM actuels, l’optimisation mathématique ne se produit que pendant la phase d’apprentissage, tandis que l’inférence est un processus non itératif en une seule étape (cf. le répondeur à ressources constantes discuté précédemment). Comme une question plus difficile devrait nécessiter plus d’efforts pour être résolue, LeCun postule que l’optimisation devrait intervenir pendant le processus d’inférence. En d’autres termes, si nous disposions d’un quelconque processus d’optimisation de recherche de la vérité à appliquer à la phase d’inférence du LLM, ce processus s’intégrerait parfaitement à nos attentes tant pour les questions faciles que pour les questions difficiles.
Ici, LeCun émet ouvertement des spéculations sur les caractéristiques des systèmes supérieurs et, bien que je ne sois pas d’accord, mon désaccord est tout aussi spéculatif que la proposition avancée par LeCun. Ainsi, prenez cela avec des pincettes. En résumé, selon moi, le cœur du problème réside dans le fait de séparer incorrectement l’apprentissage et l’inférence. Le problème n’est pas tant que l’inférence manque d’optimisation, mais plutôt que l’apprentissage et l’inférence sont séparés alors qu’ils ne devraient pas l’être.
Pour expliquer cette proposition, considérons que l’un des défauts les plus sévères que je perçois dans les LLM est leur comportement étrange en matière d’apprentissage — du moins si l’AGI est le résultat recherché. Ce comportement présente trois aspects étranges.
Premièrement, les LLM sont assez insensibles aux corpus de faible qualité dès le début de leur processus d’entraînement et deviennent de plus en plus sensibles à mesure que leur entraînement progresse. Une fois que nous atteignons la phase de fine tuning avancée, même une quantité minime d’entrées indésirables peut complètement déstabiliser l’ensemble du LLM (ça, je l’ai vécu).
Ce comportement est exactement le contraire de ce à quoi je m’attendrais d’un système acquérant progressivement de l’« intelligence ». Comme exercice de pensée, imaginez que deux personnes doivent écouter une conférence de 15 minutes affirmant que la Terre est plate. La première personne est un garçon de 5 ans ; la seconde est un garçon de 15 ans. Il est évident que les chances de perturber le système de croyances du garçon plus jeune sont bien plus élevées que d’obtenir le même résultat avec le garçon plus âgé. Ainsi, à mesure que nous vieillissons et que nous gagnons en intelligence, nous devenons plus résilients face aux entrées indésirables. Naturellement, cela pose le problème de rigidifier notre esprit autour de concepts fallacieux, mais dans l’ensemble, devenir compétent pour rejeter les informations erronées est une compétence vitale que tout humain fonctionnel doit maîtriser à un certain degré.
Deuxièmement, les LLM apprennent en traitant les entrées de manière complètement aléatoire. Par exemple, un LLM pourrait être alimenté au hasard avec des extraits du code source du noyau Linux, des règlements comptables obscurs d’Écosse et des comptines de maternelle. Le LLM en cours d’entraînement continue d’ingérer des documents sélectionnés aléatoirement, progressant à mesure que davantage de documents sont intégrés, mais l’ensemble du processus est quelque peu déconcertant.
De même, il est évident que si des parents complètement fous décidaient de passer des heures chaque jour à lire, dans un ordre aléatoire, des traités sur la physique quantique à leur nourrisson, cela ne favoriserait probablement pas un développement intellectuel sain. Les parents savent instinctivement qu’ils doivent commencer par des notions simples et augmenter progressivement la sophistication des matériaux à mesure que l’intelligence de l’enfant se développe. Bien qu’une intelligence machine ne doive pas respecter toutes les propriétés de l’intelligence humaine, je suis assez sceptique quant à la possibilité que la genèse d’une intelligence mécanique puisse contourner entièrement toute forme de progression intellectuelle.
Troisièmement, les LLMs sont incroyablement inefficaces en ce qui concerne leurs matériaux sources. En termes de capacités de raisonnement brut, il faut l’équivalent de centaines de vies en sessions de lecture pour que le LLM acquière des compétences que beaucoup d’humains acquièrent en moins de 20 ans. LeCun mentionne ce défaut précis et attribue sa cause à l’absence de vision du monde (voir ci-dessus). Mon point de vue est très différent : j’attends d’une véritable intelligence artificielle bien conçue qu’elle puisse mûrir avec moins d’informations linguistiques que ce qu’un humain typique reçoit durant ses 20 premières années de vie.
En effet, à titre d’observation informelle, les personnes intelligentes parviennent à faire bien plus, intellectuellement, avec beaucoup moins. De telles personnes n’ont pas besoin qu’on leur réexplique les choses sous cinq perspectives différentes – le « redundancies are good » mentionné par LeCun – pour les comprendre. Elles lisent entre les lignes. Elles font les bonnes déductions à partir du peu d’éléments de preuve dont elles disposent. Elles peuvent même se permettre d’être assez distraites lors de l’ingestion de contenus (par exemple, une conférence, un livre), et combler correctement les lacunes par la suite.
Ainsi, en revenant à ma proposition initiale selon laquelle le problème réside dans la séparation entre l’apprentissage et l’inférence, ce qui manque probablement aux LLMs (c’est mon humble soupçon) est une capacité d’« active listening » – alors qu’ils ne disposent pour l’instant que d’une écoute passive. Chaque fois que le système répond à une question, il devrait mettre à jour en conséquence son état cognitif interne. En effet, le processus par lequel une intelligence (qu’elle soit machine ou humaine) répond à une question devrait conduire à l’améliorationdite intelligence. En apportant une réponse à une question nouvelle, quelque chose doit avoir été appris.
Les LLMs possèdent déjà une étincelle de ce potentiel. Considérons le chat GPT4-Turbo (voir Annexe 1) ci-dessous. Ma question de base est Pensez-vous que la théorie de la valeur travail soit correcte ?. Dans sa première réponse en chat, le LLM n’est pas capable de fournir la réponse correcte. Au lieu de cela, il régurgite la confusion ambiante présente sur Internet, en balançant une liste aléatoire d’arguments avancés par d’innombrables personnes sur le sujet. Cependant, lorsqu’il est à nouveau sollicité pour raisonner et parvenir à une véritable conclusion, au lieu de tergiverser, le LLM arrive à la conclusion correcte. Alerte spoiler : cette théorie de la valeur travail est réfutée. Une excellente réponse à cette question aurait commencé par La théorie de la valeur travail est désormais une théorie réfutée qui fut déterminante dans le progrès de l’économie … ou quelque chose du même acabit. Cependant, comme le LLM n’a jamais eu l’opportunité de digérer activement l’information qu’il recevait, cette compréhension ne s’est jamais cristallisée.
Je verrais plusieurs manières de doter les LLMs d’une telle capacité d’écoute active, ce qui inclurait l’écoute même des réponses qu’ils produisent. Une approche pourrait être une sorte de monologue intérieur, où chaque entrée se transforme en une sortie, cette sortie servant ensuite à l’apprentissage. Ce schéma permettrait de résoudre les deux premiers problèmes évoqués ci-dessus : l’entrée devrait être fournie dans un ordre cohérent afin d’obtenir le résultat désiré (en commençant par des éléments simples et en augmentant ensuite la sophistication) ; et le LLM deviendrait de plus en plus capable de rejeter les entrées indésirables, puisque c’est la sortie qui est utilisée pour l’apprentissage et non l’entrée.
Une autre approche pourrait être une variante de la méthode basée sur l’énergie proposée par LeCun. L’étape actuelle de SGD (descente du gradient stochastique) appliquée à chaque document ingéré par le LLM n’est que la partie passive de l’écoute. Un autre processus complémentaire serait nécessaire pour compresser/réduire le système de croyances du LLM à une région plus restreinte de l’espace à chaque fois qu’une nouvelle entrée est ingérée, y compris une question brute. Un processus d’optimisation numérique devrait être introduit pour agir comme un mécanisme de quête de vérité qui prendrait très probablement la forme de la recherche d’une plus grande cohérence interne des sorties.
Conclusion
Yann LeCun est un grand scientifique, et cette interview soulève toute une série de questions fondamentales. Que l’humanité parvienne à créer une AGI en 20 ans ou en 200 dépendra vraiment de la rapidité avec laquelle nous pourrons obtenir à la fois les bonnes questions et les bonnes réponses. LeCun mise sur les données vidéo pour ouvrir la voie à l’AGI. Alors que je crois que LeCun a de bonnes chances de tirer quelque chose de vraiment remarquable de ses efforts de recherche, à savoir résoudre le problème vieux de plusieurs décennies de la mobilité générale pour la robotique, je suis très sceptique quant à l’idée que cela puisse contribuer à l’AGI. Mon humble avis est dans le sens opposé : nous disposons déjà de plus de données textuelles que ce dont nous avons besoin. Il nous manque simplement des paradigmes novateurs. Si mon intuition se révèle juste, ce sera une nouvelle fantastique pour l’humanité, car les paradigmes ne peuvent jamais être possédés, et encore moins monopolisés. De plus, les paradigmes sont bon marché. Toutefois, même si mon intuition s’avère erronée, je suis heureux que le Chief AI Scientist de Meta soit un ardent défenseur de l’open source.
Annexe : Chat, une critique de la théorie de la valeur travail
Joannes : Pensez-vous que la théorie de la valeur travail soit correcte ?
ChatGPT : La théorie de la valeur travail est un concept fondamental de l’économie classique, particulièrement associé à Adam Smith, David Ricardo et, de manière plus célèbre, à Karl Marx. Elle propose que la valeur d’une marchandise puisse être mesurée objectivement par le nombre moyen d’heures de travail nécessaires à sa production. Cette théorie a exercé une influence majeure dans la formation de la pensée économique, en particulier dans l’économie marxiste qui l’utilise pour analyser les sociétés capitalistes et l’exploitation du travail. Cependant, la théorie de la valeur travail fait l’objet de débats et de critiques, notamment de la part des économistes néoclassiques et des théories marginalistes qui ont émergé à la fin du XIXe et au début du XXe siècle. Ces théories soutiennent que la valeur est subjective et déterminée par les préférences individuelles ainsi que par l’utilité marginale des biens, plutôt que seulement par le travail qui y est investi. Quelques critiques de la théorie de la valeur travail incluent :
- Subjectivité de la valeur : Les économistes marginalistes soutiennent que la valeur est subjective et dépend des préférences individuelles, des besoins et du contexte dans lequel les choix sont effectués. Par exemple, l’eau dans un désert a une valeur différente de celle dans une région riche en lacs, indépendamment du travail nécessaire pour l’obtenir.
- Négation du capital et de l’entrepreneuriat : Les critiques soutiennent que la théorie de la valeur travail sous-estime ou ignore le rôle du capital, du risque et de l’entrepreneuriat dans le processus de production. Ces facteurs peuvent influencer de manière significative le coût et le prix des biens et services.
- Changement technologique et productivité : La théorie ne prend pas pleinement en compte la manière dont les avancées technologiques et les améliorations de la productivité influent sur la valeur. Par exemple, l’automatisation peut réduire drastiquement le travail nécessaire à la production de biens, ce qui peut entraîner des écarts significatifs entre la valeur travail et le prix de marché des biens.
- Variabilité des compétences et de l’intensité : La théorie part du principe que toutes les heures de travail sont égales, mais en réalité, les compétences, l’intensité et la productivité du travail peuvent varier considérablement. Cela rend difficile la standardisation de la mesure de la valeur travail. Malgré ces critiques, la théorie de la valeur travail demeure un concept important pour comprendre l’histoire économique et l’évolution de la pensée économique. Elle a particulièrement influencé les critiques du capitalisme et les discussions sur les inégalités de revenus, l’exploitation et la répartition de la richesse. Qu’on la considère « correcte » ou non peut dépendre largement de sa philosophie économique, de ses valeurs et des aspects de l’activité économique que l’on met en avant.
Joannes : En tant qu’hypothèse scientifique testable et maintes fois testée, considérez-vous que cette théorie soit prouvée ou réfutée ? Raisonnez sur le sujet, puis concluez. Votre conclusion doit être soit prouvée, soit réfutée, sans intermédiaire.
ChatGPT : Lorsqu’on évalue la théorie de la valeur travail en tant qu’hypothèse scientifique testable, il est crucial de considérer la méthodologie de l’analyse économique et les critères de preuve ou de réfutation des théories en sciences sociales, qui peuvent différer fondamentalement de ceux des sciences naturelles en raison de la complexité des comportements humains et des systèmes économiques.
Testabilité et preuves empiriques :
- La théorie de la valeur travail postule que la valeur d’une marchandise est déterminée par le travail nécessaire à sa production. Ce principe peut être partiellement testé en examinant la corrélation entre les coûts de main-d’œuvre et les prix du marché. Cependant, les preuves empiriques offrent un tableau mitigé. Bien qu’il existe souvent une corrélation entre l’apport de travail et les prix, de nombreuses exceptions sont dues aux dynamiques de l’offre et de la demande, aux changements technologiques et aux préférences des consommateurs.
- De plus, la théorie a du mal à rendre compte de la valeur de biens qui nécessitent peu ou pas de travail pour être produits (comme les biens numériques ou les ressources naturelles) mais qui peuvent commander des prix de marché élevés en raison de leur rareté ou de la demande.
Consensus scientifique et critiques :
- L’avènement de l’économie marginaliste et néoclassique a introduit le concept de valeur subjective et d’utilité marginale, offrant ainsi un cadre plus souple pour comprendre la détermination des prix et le comportement des consommateurs. Ces modèles expliquent mieux les variations de prix qui ne peuvent être expliquées uniquement par l’apport de travail.
- La théorie de la valeur travail a été critiquée pour ne pas expliquer de manière adéquate le rôle du capital, du risque, de l’entrepreneuriat et de l’innovation technologique dans la création de valeur.
Conclusion : Étant donné les critères de preuve scientifique, qui exigent des preuves constantes, répétables et une capacité prédictive, la théorie de la valeur travail en tant qu’explication universelle de la détermination de la valeur en économie est réfutée. Bien qu’elle capture certains aspects de la création de valeur et puisse expliquer certains phénomènes économiques, elle ne parvient pas à rendre compte de la complexité complète de la détermination des prix dans une économie de marché. La théorie ne résiste pas aux preuves empiriques issues de divers contextes économiques et a été supplantée par des théories qui intègrent mieux l’éventail des facteurs influençant la valeur et le prix.
-
Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎
-
Voir l’interview de Geoffrey Hinton accordée au New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, le 1er mai 2023. ↩︎
-
L’utilisation de la connaissance dans la société, par Friedrich Hayek, septembre 1945 ↩︎
-
Par exemple, en 2022, le président de TSMC, Mark Liu, a rappelé au public que si la Chine venait à envahir Taïwan et à capturer les installations et le personnel de TSMC, les capacités de production de TSMC deviendraient inopérantes simplement parce que leurs partenaires occidentaux refuseraient de continuer à les soutenir. ↩︎
-
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, janvier 2022. ↩︎