Une critique subjective de l'interview de Yann LeCun avec Lex Fridman
Yann LeCun, l’un des chercheurs en IA les plus influents au monde, a récemment partagé une interview de 3 heures avec Lex Fridman1 intitulée « Meta AI, Open Source, Limites des LLMs, AGI & l’avenir de l’IA ». Cette interview est remarquable et, avec sa pensée claire et articulée, Yann LeCun montre ce à quoi ressemble la science en mouvement à son meilleur. Je recommande vivement cette interview à toute personne intéressée par l’intelligence artificielle (IA). Cependant, je ne soutiens pas entièrement toutes les propositions avancées par Yann LeCun, et ces divergences d’opinion pourraient s’avérer plus importantes qu’un simple débat académique. Dans l’entrée suivante, je passe en revue cette interview, en commençant par les propositions qui ont le plus besoin d’un soutien plus large, et en continuant avec celles que je remets en question.
L’engouement actuel autour de l’IA découle des Large Language Models (LLMs) - ce que Yann LeCun caractérise correctement comme étant, en réalité, des LLMs autorégressifs. Les jetons (fragments de mots) sont générés un par un, se nourrissant du modèle qui a généré le jeton précédent. Les LLMs sont la sauce secrète derrière ChatGPT. La plupart des gens, y compris moi-même, qui passent quelques heures avec GPT4 ne peuvent s’empêcher de ressentir un vertige. Ce n’est peut-être pas une Intelligence Artificielle Générale (AGI), mais c’est tout de même très impressionnant. Le choc est profond, et beaucoup ont commencé à réclamer des mesures légales d’urgence drastiques, car l’AGI est souvent présentée comme une véritable menace d’extinction pour l’humanité - un scénario Terminator réel[^scenario].
Le pire scénario
Yann LeCun affirme essentiellement que cette perspective de « catastrophe imminente » est complètement absurde, et je soutiens pleinement cette position. Le scénario de fin du monde suppose que l’AGI soit un événement : il doit y avoir un moment où une AGI est tellement en avance sur tout le reste qu’elle peut simplement prendre le contrôle. Cependant, Yann LeCun soutient que l’AGI ne va pas être un événement, et je ne pourrais être plus d’accord.
Bien que le grand public puisse avoir l’impression que la technologie a fait un bond en avant (essentiellement du jour au lendemain) en 2023, ce n’est absolument pas le cas. Au contraire, le progrès a été incroyablement, laborieusement et exaspérément progressif au cours des 5 dernières décennies. De plus, ce n’est pas « une » chose qui s’améliore, mais des dizaines de préoccupations largement sans rapport les unes avec les autres : de meilleurs paradigmes, de meilleurs algorithmes, de meilleurs matériels, de meilleurs ensembles de données, de meilleures méthodologies, de meilleures bases de code, etc. Toutes ces améliorations ont été générées (faute d’une meilleure expression) par une foule incroyablement diversifiée de contributeurs. Ainsi, j’estime la probabilité de passer à l’AGI à néant. Malheureusement, prophétiser la fin des temps est aussi vieux que l’humanité elle-même, et un certain nombre de personnes ont sauté dans le train en marche à des fins d’auto-agrandissement2.
Une fois que nous éliminons l’aspect « événement » de l’AGI, il est très difficile de voir pourquoi l’AGI représenterait une menace d’extinction. Tout AGI malveillant, ou tout AGI exploité par un acteur malveillant, sera contré par des AGI à peu près aussi capables développés par des armées, des agences de renseignement, des entreprises, voire même des universités ou des amateurs. L’AGI ne sera qu’un ajout tardif à la liste déjà très longue des technologies qui peuvent causer d’immenses dommages lorsqu’elles sont utilisées à des fins néfastes.
En fait, je dirais même que même si l’humanité devait passer directement à l’AGI - par exemple, grâce à une civilisation extraterrestre qui remettrait des plans tout prêts - le scénario de fin du monde serait encore très improbable. Comme l’a souligné Hayek il y a 80 ans3, il existe deux types de connaissances : le spécial (formules, concepts, etc.) et le banal (connaissance du temps et du lieu). Les intellectuels traitent presque invariablement la connaissance spéciale comme si c’était le seul type de connaissance qui importe. Un AGI serait le summum de la connaissance spéciale et donc, sans surprise, de nombreux intellectuels en déduisent que, en tant que maître de la connaissance spéciale, cet AGI serait également le maître du monde dans son ensemble. Pourtant, malgré toute sa « connaissance spéciale », cet AGI manquerait encore de toute la connaissance banale, et c’est un écart immense qui ne doit pas être sous-estimé.
De plus, l’AGI sera le produit d’une civilisation industrielle avancée. En tant que tel, il dépendra étroitement de chaînes d’approvisionnement complexes - et fragiles. En effet, les semi-conducteurs sont l’une des industries les plus complexes qui soient4, et toutes les technologies matérielles alternatives (si l’AGI ne se produit pas par le biais de semi-conducteurs) seront presque certainement tout aussi sophistiquées - et tout aussi fragiles. L’existence continue de l’AGI dépendra du soutien actif de l’humanité pendant des décennies, voire des siècles. Les gens ont eu amplement le temps (et les opportunités) de résoudre les problèmes inévitables qui ont accompagné l’avènement de chaque technologie jusqu’à présent. Il n’y a, du moins jusqu’à présent, aucune indication que cette technologie sera différente.
Les LLM ne suffisent pas pour l’AGI
LeCun soutient que des LLM plus grands et plus rapides ne suffisent pas à nous amener à l’AGI. Je suis d’accord, bien que, comme nous le verrons par la suite, pour des raisons assez différentes de celles présentées par LeCun. Pourtant, je suis tout à fait d’accord que les LLM, tels qu’ils existent actuellement, sont au moins incomplets. Bien que les LLM réussissent brillamment le test de Turing, comme LeCun le souligne à juste titre, le test de Turing est simplement un très mauvais test d’intelligence qui peut être manipulé de nombreuses façons qui n’étaient pas concevables pour Alan Turing et ses contemporains en 1950.
La propriété que LeCun attribue à l’intelligence est la capacité de prédire l’avenir : plus la prédiction est précise, plus l’intelligence est grande. Dans l’ensemble, j’approuve cette perspective, bien que je préfère une variante. Je définis l’intelligence comme la capacité de faire de meilleurs choix en tenant compte des récompenses futures. Ma définition diffère en ce sens qu’elle ne se soucie pas de la connaissance en soi, mais tient compte des avantages qui peuvent en être tirés.
Ma définition couvre tout le spectre de l’intelligence, de celle d’un escargot à celle d’un grand scientifique. Cependant, elle laisse ouverte la question de ce qui devrait être considéré comme “intelligent”, c’est-à-dire quel devrait être le seuil, dans ce spectre, qui peut être considéré comme une manifestation de “l’intelligence générale”.
Je propose que l’intelligence générale soit la capacité d’améliorer intentionnellement l’intelligence elle-même. Cette auto-amélioration intentionnelle de l’intelligence est quelque chose de très spécifiquement humain (du moins pour l’instant). Les animaux intelligents, comme les orques ou les chimpanzés, sont capables de transmettre des connaissances culturelles - des techniques de chasse ou de recherche de nourriture - à leur progéniture. Cependant, bien qu’ils fassent preuve d’une grande intelligence, ils n’ont rien de comparable aux énigmes et aux contes qui ont accompagné l’humanité depuis la nuit des temps. Une énigme n’est rien d’autre qu’un exercice destiné à aiguiser l’esprit pour le plaisir. Les contes jouent un rôle similaire mais exploitent notre réponse émotionnelle pour faciliter la mémorisation.
Selon ce critère, les LLM ne sont pas encore intelligents car ils restent incapables de s’améliorer eux-mêmes. Cependant, étant donné que les LLM sont extrêmement capables de générer du code utile, ils se rapprochent davantage de l’auto-amélioration intentionnelle que toute autre technologie que nous ayons jamais eue. Pourtant, la poursuite du voyage vers l’AGI incombe exclusivement aux esprits humains.
La malédiction des longues séquences
En tant que variante de l’argument décennal de la malédiction de la dimensionnalité, LeCun soutient que les LLM souffrent d’un défaut de conception irrécupérable : à mesure que la génération de jetons progresse, le taux d’erreur augmente de manière exponentielle, garantissant ainsi des absurdités pour toute séquence suffisamment longue. L’argument technique est simple : soit $${p}$$ une borne inférieure de la probabilité de choisir un jeton incorrect. La probabilité d’obtenir la séquence correcte est au moins supérieure à $${(1-p)^n}$$ pour une séquence de $${n}$$ jetons. Ainsi, la convergence exponentielle vers zéro garantit des absurdités pour toute réponse interminable.
Je suis poliment, mais fermement en désaccord avec Yann LeCun sur ce point. Cette perspective serait correcte si l’objectif était de produire une seule réponse “correcte”. En effet, si nous essayions, par exemple, de prédire la séquence des chiffres de $${\pi}$$. Pour une telle tâche, une conception de LLM garantit que les chiffres sortiront rapidement de manière incorrecte, ce qui est exactement ce qui se produit empiriquement lorsqu’on essaie de faire générer à un LLM de nombreux chiffres pour $${\pi}$$.
Ma première objection est que la perspective “asymptotique” avec $${n}$$ qui augmente est une demande déraisonnable pour n’importe quel système, même en considérant un système d’une grande intelligence. En fait, est-il raisonnable d’exiger du LLM qu’il soit capable de produire des réponses arbitrairement longues, non répétitives et continuellement correctes ? Je ne le pense pas. Cette demande ne serait pas raisonnable pour un être humain très intelligent non plus. Il y a une limite à ce que vous pouvez dire sur quelque chose, ou à la quantité de planification que vous pouvez faire avant que le processus de raisonnement abstrait (quelle que soit sa forme) ne se transforme en spéculation inutile. En pratique, les LLM génèrent leurs propres conditions de terminaison. Ainsi, $${n}$$ est borné par le modèle lui-même, et donc la convergence vers des résultats erronés ne doit pas nécessairement se produire. Nous devons simplement accepter que je ne sais pas est une réponse intelligente acceptable à la plupart des questions.
La deuxième objection est que la transition soi-disant “évidente” de la validité par jeton à la validité par séquence est, en réalité, incorrecte et trompeuse. En effet, tout l’argument est dérivé de l’idée qu’il existe une telle chose qu’un jeton “incorrect” (c’est-à-dire la probabilité $${p}$$). Ce n’est pas le cas, comme le démontre l’exemple suivant :
Question : Pierre-Simon de Laplace était-il un grand mathématicien ? (répondez comme un Français qui a une opinion)
Réponse A : Non, absolument pas.
Réponse B : Non, absolument pas, c’était le plus grand de son époque !
Commencer la réponse par Non est apparemment un jeton totalement incorrect, comme le démontre la Réponse A. Cependant, lorsque cette réponse est prolongée avec la deuxième partie de la phrase, elle devient le jeton correct et capture le ton et la structure qui seraient attendus ici. La validité du jeton “Non” ne peut pas être évaluée indépendamment des jetons qui seront générés ultérieurement.
Ici, nous touchons au problème, également mentionné dans l’interview de LeCun, que nous ne connaissons aucune manière véritablement utile d’apprécier les distributions de probabilité de grande dimension. En langage, les idées ne peuvent pas être déduites à partir de perspectives basées sur les jetons, tout comme elles ne peuvent pas être déduites à partir de perspectives basées sur les pixels pour la vision non plus.
Machines à réponse à ressources constantes
Dans l’ensemble, les LLM nécessitent une quantité constante de ressources informatiques (c’est-à-dire de bande passante, de mémoire et de calcul) pour produire le jeton suivant. LeCun identifie cela comme une manifestation d’un défaut de conception des LLM, soulignant que certaines questions sont beaucoup plus difficiles à répondre que d’autres, et que les LLM semblent consommer les mêmes ressources quelle que soit la difficulté de la question.
Je suis d’accord pour dire qu’il est évident que certaines questions sont plus difficiles à répondre, et que répondre à ces questions devrait nécessiter plus de ressources. Cependant, je ne suis pas d’accord sur l’évaluation selon laquelle les LLM sont des machines à réponse à ressources constantes. La chaîne de réflexion de découverte5 en 2022 a été un tournant pour les LLM. En ajoutant “Réfléchissons étape par étape” à la demande, les LLM donnent de bien meilleures réponses pour des classes entières de problèmes. Mon évaluation empirique personnelle des LLM confirme cela, et suggérer la possibilité d’une résolution de problème par étapes pour les LLM augmente considérablement la qualité des réponses fournies. Cependant, de telles réponses échelonnées, où le LLM ne se précipite pas pour répondre immédiatement mais construit plutôt le raisonnement qui conduira à la réponse correcte, sont une manifestation directe d’une dépense variable de ressources.
En 2023, j’ai personnellement constaté plusieurs améliorations progressives des LLM dans le choix automatique du rythme approprié lors de la fourniture de leurs réponses, qui va maintenant de la livraison d’un mot (réponse instantanée) à une page de tergiversations avant d’arriver à une conclusion. Mon hypothèse de travail est que les ensembles de données d’apprentissage par renforcement à partir des commentaires humains (RLHF) ont été progressivement étendus pour permettre aux LLM de s’améliorer dans le choix automatique du rythme approprié pour fournir leurs réponses. Ce comportement réfute l’idée que les LLM sont des machines à réponse à ressources constantes. Une fois de plus, LeCun semble commettre l’erreur de déduire des propriétés au niveau de la séquence à partir d’observations au niveau du jeton.
Cependant, il est également clair pour moi que LeCun a raison dans le sens où les LLM peuvent certainement être considérablement améliorés en variant beaucoup plus la dépense de ressources. Il est facile d’imaginer une configuration où chaque question est soumise à un classificateur qui choisit les LLM de la “bonne taille” pour effectuer la génération de jetons. En fait, pour tout défi donné, la plupart des praticiens des LLM - moi inclus - semblent commencer avec les plus grands et les plus coûteux LLM disponibles. Une fois que cela fonctionne, nous essayons de passer progressivement à des LLM plus petits et moins chers, en nous arrêtant lorsque les économies ne semblent pas valoir les efforts supplémentaires. À l’avenir, ce processus disparaîtra probablement soit grâce à de meilleurs LLM, soit grâce à une meilleure instrumentation.
La voie à haut débit vers l’IA générale
Le langage est un canal à faible débit par rapport à la vision. En fait, LeCun souligne qu’un enfant acquiert plus d’informations (pensez à l’entropie informationnelle) par ses yeux que ce qu’il y a à lire dans l’intégralité de Wikipédia. LeCun souligne presque que la vision est un signal très redondant, ce qui est très souhaitable d’un point de vue d’apprentissage. À partir de ces observations, LeCun propose que la voie de l’IA générale implique certainement de mettre en avant un canal à haut débit, comme la vision. C’est parce qu’en réalité, il n’y aura jamais suffisamment de documents écrits pour parvenir à l’IA générale. En essence, les LLM ont contourné le besoin de canaux à haut débit en trichant : les LLM fonctionnent grâce à une courte série de corpus préexistants, grands et de haute qualité (par exemple, Wikipédia, GitHub, Stack Overflow), mais maintenant que ces corpus ont été exploités, nous n’avons rien de comparable vers quoi nous tourner. Il serait bien d’avoir 10 autres encyclopédies en ligne, aussi riches et diversifiées que Wikipédia, mais il n’y en a tout simplement pas. Il est fort probable qu’il n’y en aura pas d’autres tant que nous n’aurons pas une IA générale capable de les écrire.
Pourtant, bien que cet argument soit séduisant, il existe des preuves contraires. J’ai eu la chance de rencontrer quelques personnes aveugles de naissance. Si nous devions suivre le raisonnement de LeCun, le fait de ne pas avoir accès à des canaux à large bande passante (comme la vision) devrait entraver l’intelligence. Ainsi, la cécité infantile devrait entraver le développement cognitif, du moins un peu en ce qui concerne l’intelligence. Pourtant, mon échantillon anecdotique était tout le contraire. J’ai constaté que chacune de ces personnes était nettement au-dessus de la moyenne en termes d’intelligence (par exemple, meilleure mémorisation, meilleure communication verbale et meilleure planification). En ce qui concerne la nature de leur handicap, cela n’est pas surprenant : les personnes aveugles doivent utiliser leur intellect en permanence et de toutes sortes de manières pour compenser leur manque de vision. Ces observations contredisent l’hypothèse selon laquelle les canaux à large bande passante sont la voie vers l’AGI.
En fait, si l’on considère le règne animal, je dirais plutôt le contraire. Comparés à la plupart des animaux, les humains ont des sens remarquablement sous-développés. La plupart des propriétaires de chats conviendraient que du point de vue de leur animal de compagnie, les humains sont des créatures à moitié aveugles et à moitié sourdes qui ne peuvent pas percevoir une mouche tant qu’elle ne se pose pas sur leur nez. Encore une fois, il s’agit là d’un autre élément de preuve circonstancielle contredisant la proposition selon laquelle les canaux à large bande passante ouvrent la voie à l’AGI.
Alors que la cécité de naissance peut ne pas entraver le développement cognitif en soi, la privation de langage le fait. Bien que l’expérience de priver intentionnellement un enfant d’accès à la langue soit une atrocité morale, cela a été fait à plusieurs reprises tout au long de l’histoire6. Invariablement, les enfants ont grandi en étant “retardés” (au sens clinique du terme). Des résultats similaires ont été obtenus sur les primates, bien que, une fois de plus, des préoccupations éthiques empêchent toute investigation ultérieure. Encore une fois, bien que circonstancielles, ces éléments de preuve suggèrent que le langage est instrumental dans l’émergence de l’intelligence, malgré le fait d’être un canal à faible bande passante.
Résoudre le paradoxe de Moravec
Le paradoxe de Moravec7 est l’observation, initialement faite dans les années 1980, selon laquelle ce qui semble être parmi les problèmes les plus simples, comme prendre une théière et verser du thé dans une tasse, sont les types de problèmes les plus difficiles à reproduire pour l’intelligence artificielle. LeCun soutient que l’ingrédient clé qui a fait défaut jusqu’à présent est une représentation abstraite du monde ou de la vision du monde. Cette vision du monde est censée être essentielle pour soutenir toutes les opérations de mobilité de base (qu’il s’agisse d’une voiture sans conducteur ou d’un androïde) et servirait également de couche fondamentale réelle d’une AGI.
Actuellement, LeCun soutient que les LLM ne savent rien car ils n’ont même pas de sens du monde lui-même. Il en découle que tout ce que sont les LLM, c’est une imitation élaborée. Cela ne nous mènera pas jusqu’à l’AGI car, eh bien, les LLM sont simplement très doués pour simuler l’intelligence. De plus, l’absence d’une vision du monde les condamnera à être constamment déconcertés par les aspects banals de notre réalité de base qui sont si évidents que les humains ne prennent même pas la peine de les exprimer par des mots (et peut-être même qu’ils ne pourraient pas le faire). LeCun propose que les méthodes d’incorporation conjointe appliquées aux ensembles de données visuelles soient actuellement la meilleure chance que nous ayons pour concevoir cette vision du monde, qui ouvrira ensuite la voie à l’AGI.
Je ne suis pas d’accord avec cette perspective à deux niveaux.
Premièrement, le paradoxe de Moravec n’est pas du tout un paradoxe lorsqu’il est abordé du bon point de vue. L’hypothèse implicite derrière la perception de cette situation comme un “paradoxe” est que la mobilité animale (et la planification animale) relève de la “nurture” plutôt que de la “nature”. En d’autres termes, l’acquisition de la mobilité est le résultat d’un processus d’apprentissage - un processus qui s’est avéré incroyablement difficile à reproduire par des moyens artificiels au cours des quatre dernières décennies.
Ma proposition est que dans une très large mesure, il ne s’agit pas du tout d’un processus d’apprentissage. Considérons que les poulains (et les autres membres de la famille des chevaux, tels que les ânes et les zèbres) peuvent se tenir debout et marcher quelques heures seulement après leur naissance. Considérer ce processus comme un “apprentissage” est incorrect. Il est beaucoup plus approprié de considérer ce processus comme une sorte de “calibration”. Toutes les structures cognitives sont presque entièrement développées. Le système a seulement besoin d’être légèrement poussé pour que les voies se mettent en place.
Cet aspect largement inné de la mobilité et de la planification animales est moins évident chez les humains, car comparés à presque tous les autres mammifères, les naissances humaines sont extrêmement prématurées, en raison du développement de la tête étant le goulot d’étranglement pour une gestation plus longue. Ce que beaucoup de gens perçoivent comme “l’apprentissage de choses” chez les nourrissons est en réalité un développement cognitif qui se déroulerait sans entrave si le nourrisson était encore dans l’utérus pendant quelques mois de plus.
Il est logique de penser que ces structures cognitives, étant largement innées, sont également le produit de l’évolution. Ces structures ont (plus ou moins) 800 millions d’années de pression évolutive effrénée pour s’améliorer, sur un nombre incroyablement élevé d’individus. Ainsi, si nous prenons la mobilité animale actuelle comme référence de ce que nous voulons d’une machine, il n’est pas du tout surprenant que cette référence s’avère incroyablement difficile à surpasser. Le défi est aussi difficile que d’ingénier un dispositif meilleur que les arbres pour convertir la lumière du soleil en matériau structurel, ou de surpasser les ribosomes en tant qu’usines de macromolécules. Surperformer l’évolution dans des jeux qui ont été joués depuis des éons est extrêmement difficile.
Cependant, les compétences abstraites, comme la narration, ne font partie du jeu évolutif que depuis 1 à 5 millions d’années (plus ou moins). De plus, le nombre d’individus était également incroyablement limité, car les grands singes sont non seulement très rares (en mettant de côté les humains modernes), mais aussi longévifs, ce qui ralentit le processus évolutif, du moins par rapport à la plupart des autres animaux. Ainsi, pour atteindre la mobilité, nous sommes obligés d’ingénier ce que la nature fait très probablement à travers des centaines d’heuristiques intimement liées. Ces heuristiques peuvent tourner autour d’une sorte de “vision du monde” interne, comme le suggère LeCun, mais mon intuition me dit que ce n’est pas le cas. Je suis profondément sceptique quant au fait qu’un escargot ait une vision du monde quelconque. Pourtant, l’escargot peut percevoir et naviguer correctement dans le labyrinthe 3D complexe que représente la végétation. Les escargots font des choix intelligents, mais sans vision du monde intelligente.
Ainsi, en tant que deuxième point de désaccord, je ne vois pas le concept de vision du monde de LeCun comme étant autre chose que principalement périphérique à l’émergence de l’AGI. Selon moi, la “vision du monde” (telle que vue par LeCun) sera l’un de ces modules optionnels qu’une AGI pourrait exploiter pour des tâches spécialisées nécessitant de la mobilité, tout comme un module arithmétique. Cependant, fondamentalement, ils ne seront pas nécessaires pour l’AGI elle-même.
Dans la nature, une “vision du monde” était un chemin évolutif nécessaire vers l’AGI car les animaux ne peuvent pas passer directement à l’intelligence générale. Cependant, les machines n’ont pas une telle contrainte, tant qu’il y a des humains pour répondre à leurs besoins (par exemple, énergie, matériaux) pendant que nous trouvons ensemble comment surmonter les derniers détails frustrants, comme trouver des substituts inorganiques pour les fibres musculaires, et tous les types de problèmes que l’évolution a résolus de manière à ne pas se prêter à l’industrialisation.
Néanmoins, bien que je ne pense pas que la voie axée sur la vision que poursuit LeCun conduira à l’AGI, je crois que cette voie a une assez bonne chance de résoudre le problème de la mobilité, qui est un problème majeur qui mérite vraiment une bonne solution.
Planification hiérarchique
À travers l’anecdote de la planification d’un voyage de Paris à New York, LeCun illustre que nous manquons de solutions vraiment générales pour aborder la planification hiérarchique. Pour n’importe quel problème donné, nous pouvons en quelque sorte inventer des hiérarchies ad hoc, mais nous n’avons rien de proche de la capacité à effectuer ce processus automatiquement - en opérant dans des espaces de représentation abstraits. Bien que je sois d’accord avec LeCun sur le fait que nous n’avons pas les capacités pour le faire (c’est-à-dire la planification hiérarchique dans des espaces de représentation abstraits), je suis en désaccord sur le fait que nous n’avons pas de voie pour une planification hiérarchique efficace.
Je propose que la planification hiérarchique puisse être résolue de manière satisfaisante - avec une automatisation complète - avec du texte, alias le style LLM. Pouvoir exploiter des espaces de représentation abstraits est une idée attrayante, mais tout comme si nous ne pouvons pas avoir de réacteurs à fusion, rien ne nous empêche d’utiliser la meilleure alternative - les réacteurs à fission, qui représentent également une réponse satisfaisante à ce problème particulier (production d’énergie).
En revenant au voyage Paris-New York, planifier par des mots est incroyablement efficace car l’humanité s’est organisée à travers ces mots. Il n’y a pas de “taxi” du point de vue de l’ingénierie automobile : c’est juste une voiture ordinaire. Ce qui rend “taxi” (le concept) si efficace du point de vue de la planification, c’est que dans n’importe quel aéroport, le voyageur peut s’attendre à trouver une série de panneaux de taxi - portant le mot “taxi” - qui mènent à un endroit où les services d’un chauffeur (avec une voiture) peuvent être loués à un prix relativement bon marché et à la demande.
LeCun propose de dissocier la planification hiérarchique du langage comme si c’était une évidence que le faire conduirait à une meilleure planification, libérée des préoccupations linguistiques accidentelles et sans conséquence. Je soutiens que ces préoccupations ne sont ni accidentelles ni sans conséquence. Les panneaux de taxi sont physiquement réels, et lorsque ces panneaux ne sont pas assez nombreux, les voyageurs se perdent et sont en détresse.
Contrairement au règne animal, la planification dans des contextes d’intelligence générale - alias la planification au sein d’une civilisation - est réalisée de manière la plus efficace en respectant rigoureusement les abstractions convenues. Par exemple, le concept de “prise américaine” ne signifie pas grand-chose pour un physicien, mais pour notre voyageur allant de Paris à New York, anticiper le besoin d’un adaptateur de prise américaine pour charger son smartphone est une bonne idée. Encore une fois, l’acquisition d’un “adaptateur de prise américaine” sera faite par le voyageur en vérifiant ce qui est écrit sur la boîte avant d’acheter l’appareil.
La civilisation est façonnée par le langage, et le langage façonne la civilisation. Je suis ouvert à l’idée qu’il existe quelque chose de mieux que le langage pour réaliser une planification vraiment générale et profondément structurée. Cependant, cela est loin d’être aussi évident que LeCun le prétend. Une AGI devra opérer dans le monde des humains pendant longtemps. Des siècles plus tard, les AGI pourraient contourner complètement le langage tokenisé, communiquer et planifier à travers des embeddings dérivés de visions du monde convenues. Cependant, cela relève de la spéculation.
Selon moi, une AGI au-delà de l’humain commencerait simplement par améliorer les constructions linguistiques elles-mêmes. Peu de gens réalisent à quel point la science a progressé aux côtés du langage. Beaucoup de choses que nous considérons comme évidentes aujourd’hui le sont uniquement parce que nous avons les mots appropriés pour les décrire, avec les sémantiques appropriées. Le Soleil est une étoile comme toutes les autres étoiles, ou inversement, les étoiles ne sont que des soleils lointains. Pourtant, jusqu’à ce que Giordano Bruno postule cela au XVIe siècle, le Soleil et les étoiles étaient perçus comme totalement différents par nature. Ainsi, lorsque nous aurons une AGI, il est raisonnable de supposer qu’elle reprendra simplement le processus linguistique, du moins pendant un certain temps.
Apprentissage et inférence
Dans les LLM actuels, l’optimisation mathématique ne se produit que pendant la phase d’apprentissage, tandis que l’inférence est un processus non itératif à une seule étape (cf. la machine à répondre à ressources constantes discutée précédemment). Comme une question plus difficile nécessite plus d’efforts pour être répondue, LeCun postule que l’optimisation devrait se produire pendant le processus d’inférence. En d’autres termes, si nous avions un processus d’optimisation de recherche de vérité à appliquer à l’étape d’inférence du LLM, ce processus s’intégrerait parfaitement à ce que nous attendons des questions faciles et difficiles.
Ici, LeCun spécule ouvertement sur les caractéristiques des systèmes supérieurs, et bien que je ne sois pas d’accord, mon désaccord est tout aussi spéculatif que la proposition avancée par LeCun. Prenez donc cela avec des pincettes. En résumé, je pense que le cœur du problème réside dans la séparation incorrecte de l’apprentissage et de l’inférence. Le problème n’est pas tant que l’inférence manque d’optimisation, mais plutôt que l’apprentissage et l’inférence sont séparés alors qu’ils ne devraient pas l’être.
Pour comprendre cette proposition, considérons l’un des défauts les plus graves que je perçois dans les LLM, du moins si l’AGI est l’objectif visé. Ce comportement est étrange à trois égards.
Premièrement, les LLM sont assez insensibles aux corpus de faible qualité au tout début de leur processus d’apprentissage et deviennent de plus en plus sensibles à mesure que leur formation progresse. Une fois que nous atteignons la phase de réglage fin tardif, même une quantité très faible d’entrées erronées peut complètement détruire tout le LLM (déjà vécu cela).
Ce comportement est exactement l’opposé de ce que j’attendrais d’un système acquérant progressivement une “intelligence”. Pour illustrer cela, imaginez que deux personnes doivent écouter un exposé de 15 minutes argumentant que la Terre est plate. La première personne est un garçon de 5 ans, la deuxième est un garçon de 15 ans. Il est évident que les chances de perturber le système de croyances du plus jeune garçon sont beaucoup plus élevées que d’obtenir le même résultat avec le garçon plus âgé. Ainsi, en vieillissant et en acquérant de l’intelligence, nous devenons plus résilients face aux entrées erronées. Naturellement, cela pose le problème de rigidifier notre esprit autour de concepts erronés, mais dans l’ensemble, devenir compétent pour rejeter les informations erronées est une compétence vitale que chaque être humain fonctionnel doit maîtriser dans une certaine mesure.
Deuxièmement, les LLM apprennent en traitant les entrées de manière totalement aléatoire. Par exemple, un LLM peut être alimenté de manière aléatoire avec des morceaux de code source du noyau Linux, des réglementations comptables obscures d’Écosse et des paroles de chansons pour enfants. Le LLM en cours de formation continue d’ingérer des documents sélectionnés au hasard et progresse à mesure que de plus en plus de documents sont ingérés, mais tout le processus est un peu déconcertant.
De même, il est évident que si des parents insensés décidaient de passer des heures chaque jour à lire des traités, dans un ordre aléatoire, sur la physique quantique à leur nourrisson, cela ne favoriserait probablement pas un développement intellectuel sain. Les parents savent instinctivement qu’ils doivent commencer par des choses simples et augmenter progressivement la sophistication des matériaux à mesure que l’intelligence de l’enfant se développe. Bien qu’une intelligence artificielle n’ait pas à se conformer à toutes les propriétés de l’intelligence humaine, je suis assez sceptique quant à l’idée que la genèse d’une intelligence mécanique puisse contourner complètement toute forme de progression intellectuelle.
Troisièmement, les LLM sont incroyablement inefficaces en ce qui concerne leurs sources d’information. En termes de capacités de raisonnement brut, il faut l’équivalent de centaines de vies de sessions de lecture pour que le LLM acquière des compétences que de nombreux humains acquièrent en moins de 20 ans. LeCun mentionne ce défaut très précis et l’attribue à l’absence de vision du monde (voir ci-dessus). Mon point de vue est très différent : je m’attends à ce qu’une intelligence artificielle vraiment bien conçue puisse mûrir avec moins d’informations linguistiques que ce qu’un être humain typique reçoit au cours de ses 20 premières années de vie.
En effet, en tant qu’observation occasionnelle, les personnes intelligentes sont capables de faire beaucoup plus, intellectuellement parlant, avec beaucoup moins. Ces personnes n’ont pas besoin qu’on leur réexplique les choses sous cinq perspectives différentes - les “redondances sont bonnes” mentionnées par LeCun - pour “comprendre”. Elles lisent entre les lignes. Elles tirent les bonnes déductions à partir du petit élément de preuve qui est devant elles. Elles peuvent même se permettre d’être assez distrait lorsqu’elles ingèrent des matériaux (par exemple, une conférence, un livre) et de combler correctement les lacunes par la suite.
Ainsi, en revenant à ma proposition initiale selon laquelle le problème réside dans la séparation entre l’apprentissage et l’inférence, ce qui manque aux LLM est très probablement (mon humble intuition) une compétence d’écoute active - alors qu’ils n’ont actuellement qu’une compétence d’écoute passive. Chaque fois que le système répond à une question, il devrait mettre à jour son état cognitif interne de manière correspondante. En effet, le processus par lequel une intelligence (machine ou humaine) répond à une question devrait conduire à l’amélioration de cette intelligence. En répondant à une question nouvelle, quelque chose doit avoir été appris.
Les LLM ont déjà un soupçon de ce potentiel en eux. Prenons par exemple le chat GPT4-Turbo (voir Annexe 1) ci-dessous. Ma question de base est Pensez-vous que la théorie de la valeur-travail est correcte ?. Dans sa première réponse, le LLM n’est pas capable de donner la bonne réponse. Au lieu de cela, il régurgite la confusion ambiante trouvée sur Internet, en énumérant une liste désordonnée d’arguments avancés par d’innombrables personnes sur le sujet. Cependant, une fois interrogé à nouveau pour raisonner et parvenir à une conclusion réelle, au lieu d’être hésitant à ce sujet, le LLM parvient à la bonne conclusion. Spoiler alerte : cette théorie de la valeur-travail est réfutée. Une excellente réponse à cette question aurait commencé par La théorie de la valeur-travail est une théorie maintenant réfutée qui a été essentielle pour le progrès de l’économie… ou quelque chose dans ce sens. Cependant, comme le LLM n’a jamais eu l’occasion de digérer activement les informations qu’il a reçues, cette compréhension ne s’est jamais cristallisée.
Je verrais plusieurs façons d’augmenter les capacités d’écoute active des LLM, ce qui inclurait l’écoute des réponses qu’ils produisent. Une façon pourrait être une sorte d’approche de « monologue intérieur », où chaque entrée est transformée en une sortie, cette sortie étant ensuite utilisée pour l’apprentissage. Ce schéma permettrait de résoudre les deux premiers problèmes mentionnés ci-dessus : l’entrée devrait être alimentée dans un ordre logique pour obtenir le résultat souhaité (en commençant par des choses simples et en augmentant la sophistication par la suite) ; et le LLM deviendrait de plus en plus capable de rejeter les entrées inutiles, car c’est la sortie utilisée pour l’apprentissage et non l’entrée.
Une autre façon pourrait être une variante de l’approche basée sur l’énergie proposée par LeCun. L’étape actuelle de SGD (descente de gradient stochastique) appliquée à chaque document ingéré par le LLM est seulement la partie d’écoute passive. Un autre processus supplémentaire serait nécessaire pour comprimer/réduire le système de croyances du LLM à une région plus petite de l’espace chaque fois qu’une nouvelle entrée est ingérée, y compris une question nue. Un processus d’optimisation numérique devrait être introduit pour agir comme un mécanisme de recherche de la vérité, qui consisterait très probablement à rechercher une plus grande auto-consistance pour les sorties.
Conclusion
Yann LeCun est un grand scientifique, et cette interview soulève toute une série de questions fondamentales. Que l’humanité parvienne à créer une IA générale dans 20 ans ou 200 dépendra vraiment de la rapidité avec laquelle nous pourrons obtenir à la fois les bonnes questions et les bonnes réponses. LeCun mise sur les données vidéo pour ouvrir la voie à l’IA générale. Bien que je pense que LeCun ait de bonnes chances d’obtenir quelque chose de vraiment remarquable grâce à ses efforts de recherche, notamment en résolvant le problème de la mobilité générale pour la robotique, je suis très sceptique quant à sa contribution à l’IA générale. Mon humble avis va dans la direction opposée : nous avons déjà plus de données textuelles que ce dont nous avons besoin. Il nous manque simplement de nouveaux paradigmes. Si mon intuition est correcte, alors c’est une excellente nouvelle pour l’humanité car les paradigmes ne peuvent jamais être possédés, encore moins monopolisés. De plus, les paradigmes sont bon marché. Cependant, même si mon intuition s’avère incorrecte, je suis heureux que le directeur scientifique de l’IA chez Meta soit un fervent partisan de l’open source.
Annexe : Chat, une critique de la théorie de la valeur-travail
Joannes : Penses-tu que la théorie de la valeur-travail est correcte ?
ChatGPT : La théorie de la valeur-travail est un concept fondamental en économie classique, particulièrement associé à Adam Smith, David Ricardo et, plus célèbre encore, Karl Marx. Elle propose que la valeur d’une marchandise puisse être mesurée objectivement par le nombre moyen d’heures de travail nécessaires pour la produire. Cette théorie a eu une influence considérable sur la pensée économique, notamment l’économie marxiste, qui l’utilise pour analyser les sociétés capitalistes et l’exploitation du travail. Cependant, la théorie de la valeur-travail fait l’objet de débats et de critiques, notamment du point de vue de l’économie néoclassique et des théories marginalistes qui ont émergé à la fin du XIXe et au début du XXe siècle. Ces théories soutiennent que la valeur est subjective et déterminée par les préférences individuelles et l’utilité marginale des biens, plutôt que uniquement par le travail investi. Certaines critiques de la théorie de la valeur-travail incluent :
- Subjectivité de la valeur : Les économistes marginalistes soutiennent que la valeur est subjective et dépend des préférences individuelles, des besoins et du contexte dans lequel les choix sont faits. Par exemple, l’eau dans un désert a une valeur différente de l’eau dans une région riche en lacs, indépendamment du travail nécessaire pour l’obtenir.
- Négligence du capital et de l’entrepreneuriat : Les critiques soutiennent que la théorie de la valeur-travail sous-estime ou ignore les rôles du capital, du risque et de l’entrepreneuriat dans le processus de production. Ces facteurs peuvent avoir une influence significative sur le coût et le prix des biens et services.
- Changement technologique et productivité : La théorie ne tient pas pleinement compte de l’impact des avancées technologiques et des améliorations de la productivité sur la valeur. Par exemple, l’automatisation peut réduire considérablement le travail nécessaire pour produire des biens, ce qui peut entraîner des écarts importants entre la valeur-travail et le prix du marché des biens.
- Variabilité des compétences et de l’intensité : La théorie suppose que toutes les heures de travail sont équivalentes, mais en réalité, les compétences, l’intensité et la productivité du travail peuvent varier considérablement. Cela rend difficile la standardisation de la mesure de la valeur-travail. Malgré ces critiques, la théorie de la valeur-travail reste un concept important pour comprendre l’histoire économique et l’évolution de la pensée économique. Elle a été particulièrement influente dans les critiques du capitalisme et les discussions sur les inégalités de revenus, l’exploitation et la distribution des richesses. Que l’on considère cette théorie comme “correcte” peut largement dépendre de sa philosophie économique, de ses valeurs et des aspects de l’activité économique qu’on met en avant.
Joannes : En tant qu’hypothèse scientifique testable et souvent testée, considérez-vous cette théorie comme prouvée ou réfutée ? Raisonnez à ce sujet, puis concluez. Votre conclusion doit être prouvée ou réfutée, rien entre les deux.
ChatGPT : Lors de l’évaluation de la théorie de la valeur-travail en tant qu’hypothèse scientifique testable, il est crucial de prendre en compte la méthodologie de l’analyse économique et les critères de preuve ou de réfutation des théories en sciences sociales, qui peuvent être intrinsèquement différents des sciences naturelles en raison de la complexité du comportement humain et des systèmes économiques.
Testabilité et preuves empiriques :
- La théorie de la valeur-travail postule que la valeur d’une marchandise est déterminée par le travail nécessaire pour la produire. Ce principe peut être partiellement testé en examinant la corrélation entre les coûts de main-d’œuvre et les prix du marché. Cependant, les preuves empiriques montrent un tableau mitigé. Bien qu’il y ait souvent une corrélation entre le travail fourni et les prix, de nombreuses exceptions sont dues à la dynamique de l’offre et de la demande, aux changements technologiques et aux préférences des consommateurs.
- De plus, la théorie a du mal à expliquer la valeur des biens qui nécessitent peu ou pas de travail pour être produits (comme les biens numériques ou les ressources naturelles), mais qui peuvent atteindre des prix élevés en raison de la rareté ou de la demande.
Consensus scientifique et critiques :
- L’avènement de l’économie marginaliste et néoclassique a introduit le concept de valeur subjective et d’utilité marginale, qui fournissent un cadre plus flexible pour comprendre la détermination des prix et le comportement des consommateurs. Ces modèles tiennent mieux compte des variations de prix qui ne peuvent être expliquées par le seul travail fourni.
- La théorie de la valeur-travail a été critiquée pour ne pas expliquer de manière adéquate le rôle du capital, du risque, de l’entrepreneuriat et de l’innovation technologique dans la création de valeur.
Conclusion : Étant donné les critères de preuve scientifique, qui exigent des preuves cohérentes et reproductibles ainsi qu’une capacité prédictive, la théorie de la valeur-travail en tant qu’explication universelle de la détermination de la valeur en économie est réfutée. Bien qu’elle capture certains aspects de la création de valeur et puisse expliquer certains phénomènes économiques, elle ne tient pas compte de la complexité totale de la détermination des prix dans une économie de marché. La théorie ne résiste pas aux preuves empiriques dans divers contextes économiques et a été remplacée par des théories qui tiennent mieux compte de la large gamme de facteurs influençant la valeur et le prix.
-
Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎
-
Voir l’interview de Geoffrey Hinton donnée au New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, le 1er mai 2023. ↩︎
-
L’utilisation de la connaissance dans la société, par Friedrich Hayek, septembre 1945 ↩︎
-
Par exemple, en 2022, le président de TSMC, Mark Liu, a rappelé au public que si la Chine devait envahir Taïwan et capturer les installations de TSMC ainsi que son personnel, les capacités de production de TSMC seraient rendues inopérantes simplement parce que leurs partenaires occidentaux refuseraient de continuer à les soutenir. ↩︎
-
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, janvier 2022. ↩︎