Yann LeCun, einer der einflussreichsten KI-Forscher der Welt, hat kürzlich ein dreistündiges Interview mit Lex Fridman1 mit dem Titel „Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI“ geteilt. Dieses Interview ist bemerkenswert und Yann LeCun zeigt mit seinem klaren und verständlichen Denken, wie Wissenschaft in Bewegung am besten aussieht. Ich empfehle dieses Interview allen, die sich für Künstliche Intelligenz (KI) interessieren. Ich unterstütze jedoch nicht uneingeschränkt alle Vorschläge von Yann LeCun, und diese Meinungsverschiedenheiten könnten sich als bedeutender erweisen als ein einfacher akademischer Diskurs. In dem folgenden Beitrag werde ich dieses Interview überprüfen, beginnend mit den Vorschlägen, die dringendere Unterstützung benötigen, und fortsetzend mit denen, die ich in Frage stelle.

Ein Wissenschaftler bringt einer KI bei, Tee einzuschenken.

Der derzeitige Hype um KI stammt von Large Language Models (LLMs), was Yann LeCun korrekterweise als autoregressive LLMs bezeichnet. Tokens (Wortfragmente) werden nacheinander generiert und an das Modell zurückgegeben, das das vorherige Token generiert hat. LLMs sind die Geheimzutat hinter ChatGPT. Die meisten Menschen, einschließlich mir selbst, die einige Stunden mit GPT4 verbringen, können nicht anders, als ein Gefühl von Schwindel zu verspüren. Dies mag zwar keine Künstliche Allgemeine Intelligenz (AGI) sein, aber es ist dennoch beeindruckend. Der Schock ist tiefgreifend, und viele fordern drastische rechtliche Maßnahmen, da AGI häufig als eine echte Bedrohung für das Aussterben der Menschheit dargestellt wird - ein Szenario wie im echten Leben von Terminator[^scenario].

Untergangsstimmung

Yann LeCun argumentiert im Wesentlichen, dass diese „Untergangsstimmung“ vollkommener Unsinn ist, und ich unterstütze diese Position voll und ganz. Das Szenario des Weltuntergangs erfordert, dass AGI ein Ereignis ist: Es muss einen Zeitpunkt geben, an dem eine AGI so weit voraus ist, dass sie einfach die Kontrolle übernehmen kann. Yann LeCun argumentiert jedoch, dass AGI nicht ein Ereignis sein wird, und ich könnte nicht mehr zustimmen.

Während die breite Öffentlichkeit den Eindruck haben mag, dass die Technologie im Jahr 2023 (im Grunde über Nacht) einen großen Sprung gemacht hat, ist dies absolut nicht der Fall. Im Gegenteil, der Fortschritt war in den letzten 5 Jahrzehnten unglaublich, mühsam und frustrierend inkrementell. Darüber hinaus wird nicht „eine“ Sache verbessert, sondern dutzende weitgehend unabhängige Aspekte: bessere Paradigmen, bessere Algorithmen, bessere Hardware, bessere Datensätze, bessere Methoden, bessere Codebasen usw. All diese Verbesserungen wurden (um es besser auszudrücken) von einer unglaublich vielfältigen Gruppe von Beitragenden generiert. Daher schätze ich die Wahrscheinlichkeit, dass AGI übersprungen wird, als Null ein. Leider ist die Prophezeiung des Weltuntergangs so alt wie die Menschheit selbst, und einige Leute sind aus Gründen der Selbstdarstellung auf den Zug aufgesprungen2.

Wenn wir den „Ereignis“-Aspekt von AGI entfernen, ist es sehr schwer zu erkennen, warum AGI jemals eine Bedrohung auf Aussterben-Niveau darstellen würde. Jede bösartige AGI oder jede von einem bösartigen Akteur betriebene AGI wird von ähnlich fähigen AGIs bekämpft, die von Armeen, Geheimdiensten, Unternehmen oder sogar Universitäten oder Hobbyisten entwickelt wurden. AGI wird nur eine späte Ergänzung zu der bereits sehr langen Liste von Technologien sein, die immense Schäden anrichten können, wenn sie für böswillige Zwecke eingesetzt werden.

Tatsächlich würde ich sogar argumentieren, dass selbst wenn die Menschheit direkt zu AGI springen würde - zum Beispiel dank einer außerirdischen Zivilisation, die fertige Baupläne übergibt - das Szenario des Weltuntergangs immer noch sehr unwahrscheinlich wäre. Wie vor 80 Jahren von Hayek3 festgestellt wurde, gibt es zwei Arten von Wissen: das spezielle (Formeln, Konzepte usw.) und das alltägliche (Wissen über Zeit und Ort). Intellektuelle behandeln fast immer spezielles Wissen, als ob es die einzige Art von Wissen wäre, die zählt. Eine AGI wäre der Höhepunkt des speziellen Wissens und daher überraschenderweise leiten viele Intellektuelle aus dieser Beobachtung ab, dass diese AGI als Meister des speziellen Wissens auch der Meister der Welt insgesamt sein würde. Doch trotz all ihres “speziellen Wissens” würde dieser AGI immer noch all das alltägliche Wissen fehlen, und diese Lücke sollte nicht unterschätzt werden.

Darüber hinaus wird AGI das Produkt einer fortgeschrittenen industriellen Zivilisation sein. Als solches wird es stark von komplexen - und fragilen - Lieferketten abhängig sein. Tatsächlich gehören Halbleiter zu den komplexesten Industrien überhaupt4, und jede alternative Hardware-Technologie (wenn AGI nicht über Halbleiter realisiert wird) wird höchstwahrscheinlich genauso anspruchsvoll und fragil sein. Das Fortbestehen der AGI wird von der aktiven Unterstützung der Menschheit für Jahrzehnte, wenn nicht Jahrhunderte, abhängen. Die Menschen hatten genügend Zeit (und Gelegenheiten), um die unvermeidlichen Probleme anzugehen, die mit dem Aufstieg jeder Technologie bisher einhergingen. Es gibt zumindest bisher keine Anzeichen dafür, dass sich diese Technologie davon unterscheiden wird.

LLMs reichen für AGI nicht aus

LeCun argumentiert, dass größere und schnellere LLMs nicht ausreichen, um uns zu AGI zu bringen. Dem stimme ich zu, obwohl, wie wir im Folgenden sehen werden, aus Gründen, die ganz anders sind als die von LeCun dargelegten. Dennoch stimme ich voll und ganz zu, dass LLMs, so wie sie derzeit existieren, zumindest unvollständig sind. Während LLMs den Turing-Test mit Bravour bestehen, wie LeCun richtig feststellt, ist der Turing-Test nur ein sehr schlechter Test für Intelligenz, der auf zahlreiche Weisen manipuliert werden kann, die für Alan Turing und seine Zeitgenossen im Jahr 1950 undenkbar waren.

Die Eigenschaft, die LeCun der Intelligenz zuschreibt, ist die Fähigkeit, die Zukunft vorherzusagen: je besser die Vorhersage, desto größer die Intelligenz. Insgesamt stimme ich dieser Perspektive zu, obwohl ich eine Variante bevorzuge. Ich definiere Intelligenz als die Fähigkeit, bessere Entscheidungen zu treffen, wenn zukünftige Belohnungen berücksichtigt werden. Meine Definition unterscheidet sich insofern, als sie sich nicht um Wissen per se kümmert, sondern die Vorteile berücksichtigt, die daraus abgeleitet werden können.

Meine Definition umfasst das gesamte Spektrum der Intelligenz von der einer Schnecke bis zu der eines großen Wissenschaftlers. Sie lässt jedoch offen, was als “intelligent” betrachtet werden sollte, d.h. welche Schwelle innerhalb dieses Spektrums als Manifestation von “allgemeiner Intelligenz” betrachtet werden kann.

Ich schlage vor, dass allgemeine Intelligenz die Fähigkeit ist, die Intelligenz selbst absichtlich zu verbessern. Diese absichtliche Selbstverbesserung der Intelligenz ist etwas, das sehr spezifisch menschlich ist (zumindest im Moment). Intelligente Tiere wie Orcas oder Schimpansen sind in der Lage, kulturelles Wissen - Jagd- oder Nahrungssuchtechniken - an ihren Nachwuchs weiterzugeben. Obwohl sie eine große Menge an Intelligenz zeigen, haben sie jedoch nichts annähernd Ähnliches wie die Rätsel und Geschichten, die seit Anbeginn der Zeit beim Menschen existieren. Ein Rätsel ist nichts anderes als eine Übung, die darauf abzielt, den Verstand zu schärfen, nur um des Schärfens willen. Geschichten spielen eine ähnliche Rolle, nutzen jedoch unsere emotionale Reaktion, um das Auswendiglernen zu erleichtern.

Basierend auf diesem Test sind LLMs noch nicht intelligent, da sie sich nicht selbst verbessern können. Da LLMs jedoch äußerst fähig sind, nützlichen Code zu generieren, sind sie näher an einer absichtlichen Selbstverbesserung als jede Technologie, die wir je hatten. Dennoch liegt die Fortsetzung der Reise zu AGI ausschließlich in menschlichen Köpfen.

Der Fluch langer Sequenzen

Als Variante des seit Jahrzehnten bekannten Arguments des Fluchs der Dimensionalität argumentiert LeCun, dass LLMs unter einem nicht wiederherstellbaren Designfehler leiden: Mit zunehmender Token-Generierung steigt die Fehlerquote exponentiell an und garantiert somit Unsinn für jede ausreichend lange Sequenz. Das technische Argument ist einfach: Sei $${p}$$ eine untere Schranke für die Wahrscheinlichkeit, ein falsches Token auszuwählen. Die Wahrscheinlichkeit, die richtige Sequenz zu erhalten, ist mindestens größer als $${(1-p)^n}$$ für eine Sequenz von $${n}$$ Tokens. Daher garantiert die exponentielle Konvergenz gegen Null Unsinn für jede langatmige Antwort.

Ich widerspreche Yann LeCun höflich, aber bestimmt. Diese Perspektive wäre korrekt, wenn das Ziel darin bestünde, eine einzige “korrekte” Antwort zu produzieren. Tatsächlich, wenn wir beispielsweise versuchen würden, die Sequenz der Ziffern von $${\pi}$$ vorherzusagen. Für eine solche Aufgabe garantiert ein LLM-Design, dass die Ziffern schnell falsch herauskommen, was genau das ist, was empirisch passiert, wenn man versucht, ein LLM dazu zu bringen, zahlreiche Ziffern für $${\pi}$$ zu generieren.

Mein erster Einwand ist, dass die “asymptotische” Perspektive mit wachsendem $${n}$$ eine unvernünftige Anforderung an jedes System ist, selbst wenn man ein System von großer Intelligenz betrachtet. Tatsächlich ist es vernünftig, vom LLM zu verlangen, dass es beliebig lange, nicht wiederholende und kontinuierlich korrekte Antworten produzieren kann? Ich denke nicht. Diese Anforderung wäre auch für einen sehr intelligenten Menschen nicht vernünftig. Es gibt eine Grenze dafür, wie viel man über etwas sagen kann oder wie viel man einen Handlungsablauf planen kann, bevor der abstrakte Denkprozess (in welcher Form auch immer) in sinnloses Spekulieren abdriftet. In der Praxis generieren LLMs ihre eigenen Abbruchbedingungen. Daher ist $${n}$$ durch das Modell selbst nach oben begrenzt, und somit muss die Konvergenz zu Unsinn nicht stattfinden. Wir müssen einfach akzeptieren, dass “Ich weiß es nicht” eine akzeptable intelligente Antwort auf die meisten Fragen ist.

Der zweite Einwand ist, dass der vermeintlich “offensichtliche” Übergang von der Gültigkeit pro Token zur Gültigkeit pro Sequenz tatsächlich falsch und trügerisch ist. Tatsächlich leitet sich das gesamte Argument aus der Idee ab, dass es so etwas wie ein “falsches” Token gibt (d.h. die Wahrscheinlichkeit $${p}$$). Dies ist nicht der Fall, wie das folgende Beispiel zeigt:

Frage: War Pierre-Simon de Laplace ein großer Mathematiker? (Antworte wie ein meinungsstarker Franzose)

Antwort A: Nein, absolut nicht.

Antwort B: Nein, absolut nicht, er war der größte seiner Zeit!

Den Satz mit Nein zu beginnen, scheint ein völlig falsches Token zu sein, wie in Antwort A gezeigt. Wenn diese Antwort jedoch um den zweiten Teil des Satzes erweitert wird, wird sie zum richtigen Token und erfasst den Ton und die Struktur, die hier erwartet werden. Die Gültigkeit des Tokens “Nein” kann nicht unabhängig von den später zu generierenden Tokens bewertet werden.

Hier berühren wir das Problem, das auch im Interview von LeCun erwähnt wird, dass wir keine wirklich nützlichen Möglichkeiten kennen, hochdimensionale Wahrscheinlichkeitsverteilungen zu schätzen. In der Sprache können Erkenntnisse nicht aus einer tokenweisen Perspektive abgeleitet werden, genauso wenig wie aus einer pixelweisen Perspektive für die Vision.

Konstante-Ressourcen-Antwortmaschinen

Im Allgemeinen benötigen LLMs eine konstante Menge an Rechenressourcen (d.h. Bandbreite, Speicher und Rechenleistung), um das nächste Token zu generieren. LeCun identifiziert dies als Manifestation eines Designfehlers von LLMs und weist darauf hin, dass bestimmte Fragen viel schwieriger zu beantworten sind als andere und dass LLMs anscheinend unabhängig von der Schwierigkeit der Frage die gleichen Ressourcen verbrauchen.

Ich stimme zu, dass es offensichtlich ist, dass bestimmte Fragen schwerer zu beantworten sind und dass für die Beantwortung dieser Fragen mehr Ressourcen erforderlich sein sollten. Ich bin jedoch anderer Meinung in Bezug auf die Einschätzung, dass LLMs konstante-Ressourcen-Antwortmaschinen sind. Die Entdeckungskette des Denkens5 im Jahr 2022 war ein Meilenstein für LLMs. Im Wesentlichen erhalten LLMs durch Hinzufügen von “Lassen Sie uns Schritt für Schritt denken” zur Eingabe deutlich bessere Antworten für ganze Klassen von Problemen. Meine eigene empirische Bewertung von LLMs bestätigt dies, und die Möglichkeit einer gestuften Problemlösung für LLMs erhöht die Qualität der gelieferten Antworten erheblich. Solche gestuften Antworten, bei denen das LLM nicht sofort antwortet, sondern die Argumentation konstruiert, die zur richtigen Antwort führen wird, sind eine direkte Manifestation eines variablen Ressourceneinsatzes.

Im Jahr 2023 habe ich persönlich miterlebt, wie mehrere LLMs allmählich verbessert wurden, um das angemessene Tempo bei der Lieferung ihrer Antworten auszuwählen, das jetzt von der sofortigen Lieferung eines Wortes bis zu einer Seite von Ausflüchten vor dem Erreichen einer Schlussfolgerung reicht. Meine Arbeitshypothese ist, dass die Reinforcement Learning from Human Feedback (RLHF)-Datensätze schrittweise erweitert wurden, um das LLM besser darin zu machen, das richtige Tempo für die Lieferung seiner Antwort automatisch auszuwählen. Dieses Verhalten widerlegt die Idee, dass LLMs konstante-Ressourcen-Antwortmaschinen sind. Noch einmal scheint LeCun den Fehler zu machen, sequenzbasierte Eigenschaften aus tokenbasierten Beobachtungen abzuleiten.

Es ist jedoch auch klar, dass LeCun in dem Sinne richtungsweisend ist, dass LLMs mit hoher Wahrscheinlichkeit erheblich verbessert werden können, indem sie in Bezug auf den Ressourceneinsatz aggressiver sind. Es ist leicht vorstellbar, dass jede Frage einem Klassifizierer zugeführt wird, der die “richtig dimensionierten” LLMs auswählt, um die Token-Generierung durchzuführen. Tatsächlich scheinen die meisten LLM-Praktiker - einschließlich mir - bei jeder Herausforderung mit den größten und kostspieligsten LLMs zu beginnen. Sobald es funktioniert, versuchen wir allmählich, zu kleineren und günstigeren LLMs überzugehen, und hören auf, wenn die Einsparungen den zusätzlichen Aufwand nicht mehr wert zu sein scheinen. In Zukunft wird dieser Prozess höchstwahrscheinlich entweder durch bessere LLMs oder durch bessere Instrumentierung überflüssig werden.

Der Hochbandbreitenweg zur KI

Sprache ist im Vergleich zur Vision ein Kanal mit geringer Bandbreite. Tatsächlich weist LeCun darauf hin, dass ein Kind durch seine Augen mehr Informationen (denken Sie an informationale Entropie) erhält als durch das Lesen der gesamten Wikipedia. LeCun weist fast darauf hin, dass Vision ein hoch redundantes Signal ist, was aus Lernperspektive sehr wünschenswert ist. Aufgrund dieser Beobachtungen schlägt LeCun vor, dass der Weg zur KI mit Sicherheit darin besteht, einen Hochbandbreitenkanal wie Vision in den Vordergrund zu stellen. Denn realistisch betrachtet wird es niemals genug schriftliche Materialien geben, um zur KI zu gelangen. Im Wesentlichen haben LLMs die Notwendigkeit von Hochbandbreitenkanälen umgangen, indem sie betrogen haben: LLMs funktionieren aufgrund einer kurzen Reihe von bereits vorhandenen, großen, hochwertigen Korpora (z. B. Wikipedia, GitHub, Stack Overflow). Aber jetzt, da diese Korpora ausgeschöpft wurden, haben wir nichts Vergleichbares, auf das wir zurückgreifen können. Es wäre schön, 10 weitere Online-Enzyklopädien zu haben, die genauso reichhaltig und vielfältig sind wie Wikipedia, aber es gibt einfach keine. Wahrscheinlich wird es keine weiteren geben, bis wir eine KI haben, die in der Lage ist, sie zu schreiben.

Doch obwohl dieses Argument verführerisch ist, gibt es gegenteilige Beweise. Ich hatte die Gelegenheit, ein paar von Geburt an blinde Menschen kennenzulernen. Wenn wir LeCuns Argumentation folgen würden, sollte der Mangel an Zugang zu Hochbandbreitenkanälen (wie Vision) die Intelligenz beeinträchtigen. Daher sollte die Blindheit im Kindesalter die kognitive Entwicklung zumindest ein wenig beeinträchtigen, wenn es um Intelligenz geht. Doch meine beobachtete Stichprobe war das Gegenteil. Ich habe festgestellt, dass jeder einzelne dieser Menschen bemerkenswert überdurchschnittlich intelligent ist (z. B. besseres Gedächtnis, bessere verbale Kommunikation und bessere Planung). In Bezug auf die Art ihrer Behinderung ist dies nicht überraschend: Blinde Menschen müssen ihre Intelligenz die ganze Zeit und auf vielfältige Weise einsetzen, um ihren Mangel an Vision auszugleichen. Diese Beobachtungen sprechen gegen die Hypothese, dass Hochbandbreitenkanäle der Weg zur KI sind.

Tatsächlich würde ich im Hinblick auf das Tierreich im Grunde das Gegenteil behaupten. Im Vergleich zu den meisten Tieren haben Menschen bemerkenswert unterentwickelte Sinne. Die meisten Katzenbesitzer würden zustimmen, dass aus der Perspektive ihres Haustiers Menschen halbblinde und halbtaube Kreaturen sind, die eine Fliege erst bemerken, wenn sie auf ihre Nase landet. Auch dies ist ein weiteres indirektes Beweisstück, das der Behauptung widerspricht, dass Hochbandbreitenkanäle den Weg zur KI ebnen.

Während Blindheit von Geburt an die kognitive Entwicklung möglicherweise nicht (an sich) beeinträchtigt, gilt dies nicht für Sprachentzug. Obwohl das Experiment, einem Kind absichtlich den Zugang zur Sprache zu verweigern, eine moralische Gräueltat ist, wurde es im Laufe der Geschichte mehrmals durchgeführt6. Unweigerlich sind die Kinder “zurückgeblieben” (im klinischen Sinne des Begriffs) herangewachsen. Ähnliche Ergebnisse wurden bei Primaten erzielt, obwohl ethische Bedenken weitere Untersuchungen verhindern. Auch wenn dies wiederum indirekte Beweise sind, legen diese Beweisstücke nahe, dass Sprache trotz ihrer geringen Bandbreite instrumentell für das Entstehen von Intelligenz ist.

Die Auflösung des Moravec-Paradoxons

Moravecs Paradoxon7 ist die Beobachtung, die ursprünglich in den 1980er Jahren gemacht wurde, dass das, was scheinbar zu den einfachsten Problemen gehört, wie das Greifen einer Teekanne und das Eingießen von Tee in eine Tasse, die Art von Problemen sind, die für künstliche Intelligenz am schwierigsten zu replizieren sind. LeCun argumentiert, dass der eine entscheidende Faktor, der bisher gefehlt hat, eine abstrakte Darstellung der Welt oder Weltanschauung ist. Diese Weltanschauung wird voraussichtlich entscheidend sein, um alle grundlegenden Mobilitätsoperationen zu unterstützen (sei es ein fahrerloses Auto oder ein Android) und würde auch als die eigentliche Grundlage einer KI dienen.

Gegenwärtig, argumentiert LeCun, wissen LLMs nichts, weil sie nicht einmal ein Gefühl für die Welt selbst haben. Daraus ergibt sich, dass LLMs im Wesentlichen nur aufwendige Nachahmungen sind. Dies wird uns nicht bis zur AGI bringen, weil LLMs einfach sehr gut darin sind, Intelligenz vorzutäuschen. Darüber hinaus wird ihnen das Fehlen einer Weltanschauung dazu verdammen, von banalen Aspekten unserer Grundrealität für immer verwirrt zu sein, die für Menschen so offensichtlich sind, dass sie sie nicht einmal in Worte fassen (und vielleicht auch nicht können) würden. LeCun schlägt vor, dass gemeinsame Einbettungsmethoden, die auf Vision-Datensätzen angewendet werden, derzeit der beste Ansatz sind, um diese Weltanschauung zu entwickeln, die später den Weg zur AGI ebnen wird.

Ich widerspreche dieser Perspektive auf zwei Ebenen.

Erstens ist Moravecs Paradoxon, wenn es aus der richtigen Perspektive betrachtet wird, überhaupt kein Paradoxon. Die implizite Hypothese hinter der Wahrnehmung dieser Situation als “Paradoxon” ist, dass die Mobilität von Tieren (und die Planung von Tieren) eher “Erziehung” als “Natur” ist. Mit anderen Worten, die Erlangung von Mobilität ist das Ergebnis eines Lernprozesses - eines Prozesses, der in den letzten vier Jahrzehnten unglaublich schwer zu replizieren war.

Mein Vorschlag ist, dass es sich in sehr großem Maße überhaupt nicht um einen Lernprozess handelt. Betrachten wir, dass Fohlen (und andere Mitglieder der Pferdefamilie wie Esel und Zebras) innerhalb weniger Stunden nach der Geburt stehen und laufen können. Es ist falsch, diesen Prozess als “Lernen” zu betrachten. Es ist viel treffender, diesen Prozess als eine Art “Kalibrierung” zu betrachten. Alle kognitiven Strukturen sind fast vollständig entwickelt. Das System muss nur ein wenig angestoßen werden, damit die Wege an ihren Platz fallen.

Diese weitgehend angeborene Aspekte der Mobilität und Planung von Tieren sind bei Menschen weniger offensichtlich, weil im Vergleich zu fast allen anderen Säugetieren menschliche Geburten aufgrund der Entwicklung des Kopfes den Engpass für eine längere Tragzeit darstellen. Was viele Menschen als “Lernen von Dingen” bei Säuglingen wahrnehmen, ist eine kognitive Entwicklung, die ungehindert voranschreiten würde, wenn das Baby noch ein paar Monate länger im Mutterleib wäre.

Es liegt nahe, dass diese kognitiven Strukturen, die weitgehend angeboren sind, auch ein Produkt der Evolution sind. Diese Strukturen haben (mehr oder weniger) 800 Millionen Jahre evolutionären Druck, um sich zu verbessern, über eine unglaublich große Anzahl von Individuen hinweg. Wenn wir also die heutige Mobilität von Tieren als Maßstab dafür nehmen, was wir von einer Maschine wollen, ist es völlig überraschend, dass sich dieser Maßstab als unglaublich schwer zu übertreffen erweist. Die Herausforderung ist genauso schwierig wie die Entwicklung eines Geräts, das besser ist als Bäume bei der Umwandlung von Sonnenlicht in strukturelles Material oder das Konkurrieren mit Ribosomen als Makromolekül-Fabriken. Die Evolution in Spielen zu übertreffen, die seit Ewigkeiten gespielt werden, ist brutal schwierig.

Abstrakte Fähigkeiten wie das Geschichtenerzählen sind jedoch erst seit 1 bis 5 Millionen Jahren Teil des evolutionären Spiels gewesen (mehr oder weniger). Darüber hinaus war die Anzahl der Individuen auch unglaublich begrenzt, da Menschenaffen nicht nur sehr selten sind (abgesehen von modernen Menschen), sondern auch langlebig, was den evolutionären Prozess verlangsamt, zumindest im Vergleich zu den meisten anderen Tieren. Daher müssen wir, um Mobilität zu erreichen, das, was die Natur höchstwahrscheinlich durch Hunderte von eng miteinander verbundenen Heuristiken tut, ingenieurtechnisch umsetzen. Diese Heuristiken können sich um eine Art innerer “Weltanschauung” drehen, wie LeCun vorschlägt, aber mein Bauchgefühl sagt mir, dass dies nicht der Fall ist. Ich bin zutiefst skeptisch, dass eine Schnecke überhaupt eine Weltanschauung hat. Dennoch kann die Schnecke das komplexe 3D-Labyrinth, das die Vegetation darstellt, korrekt wahrnehmen und navigieren. Schnecken treffen intelligente Entscheidungen, aber ohne eine intelligente Weltanschauung.

Daher sehe ich LeCuns Konzept einer Weltanschauung als nichts anderes als größtenteils peripher für das Aufkommen der AGI. Meiner Meinung nach wird die “Weltanschauung” (wie von LeCun gesehen) eines dieser optionalen Module sein, die eine AGI für spezialisierte Aufgaben nutzen könnte, die Mobilität erfordern, genau wie ein Arithmetikmodul. Grundsätzlich werden sie jedoch für die AGI selbst nicht benötigt.

In der Natur war eine “Weltanschauung” ein notwendiger evolutionärer Weg zur AGI, da Tiere nicht direkt zur allgemeinen Intelligenz gelangen können. Maschinen haben jedoch keine solche Einschränkung, solange es Menschen gibt, die ihre Bedürfnisse (z. B. Energie, Materialien) befriedigen, während wir gemeinsam herausfinden, wie wir die letzten frustrierenden Details knacken können, wie zum Beispiel die Suche nach anorganischen Ersatzstoffen für Muskelgewebe und all die Probleme, die die Evolution auf Lösungen gefunden hat, die sich nicht für die Industrialisierung eignen.

Dennoch glaube ich, dass dieser von LeCun verfolgte visionäre Ansatz nicht zur AGI führen wird, aber ich glaube, dass dieser Ansatz eine ziemlich gute Chance hat, das Mobilitätsproblem zu lösen, das ein großes Problem ist und eine gute Lösung verdient.

Hierarchische Planung

Anhand der Anekdote der Planung einer Reise von Paris nach New York verdeutlicht LeCun, dass uns wirklich allgemeine Lösungen für die Herangehensweise an hierarchische Planung fehlen. Für jedes gegebene Problem können wir irgendwie ad hoc Hierarchien herbeizaubern, aber wir haben nichts, was diesem Prozess automatisch - innerhalb abstrakter Darstellungsräume - durchführen kann. Obwohl ich mit LeCun übereinstimme, dass wir dazu nicht in der Lage sind (d. h. hierarchische Planung in abstrakten Darstellungsräumen), bin ich anderer Meinung, dass wir keinen Weg für eine effektive hierarchische Planung haben.

Ich schlage vor, dass hierarchische Planung zufriedenstellend - mit vollständiger Automatisierung - mit Text, auch bekannt als LLM-Stil, gelöst werden kann. Die Möglichkeit, abstrakte Darstellungsräume zu nutzen, ist eine ansprechende Idee, aber genauso wie wir keine Fusionsreaktoren haben können, hindert uns nichts daran, das nächstbeste zu verwenden - Spaltungsreaktoren, die ebenfalls eine zufriedenstellende Antwort auf dieses spezielle Problem (Energieerzeugung) darstellen.

Die Planung durch Worte ist unglaublich effizient, weil sich die Menschheit durch diese Worte organisiert hat. Aus Sicht des Automobilbaus gibt es kein “Taxi”: Es ist einfach ein normales Auto. Was “Taxi” (das Konzept) planungstechnisch so effektiv macht, ist, dass der Reisende an jedem Flughafen eine Reihe von Taxischildern erwarten kann, auf denen das Wort “Taxi” steht und die zu einem Ort führen, an dem die Dienste eines Fahrers (mit einem Auto) relativ günstig und auf Abruf gemietet werden können.

LeCun schlägt vor, die hierarchische Planung von der Sprache zu entkoppeln, als ob es selbstverständlich wäre, dass dies zu einer besseren Planung führen würde, die von zufälligen unwesentlichen sprachlichen Bedenken befreit ist. Ich argumentiere, dass diese Bedenken weder zufällig noch unwesentlich sind. Die Taxisschilder sind physisch real, und wenn es nicht genug von diesen Schildern gibt, verirren sich die Reisenden und geraten in Not.

Anders als im Tierreich wird die Planung in Einstellungen mit allgemeiner Intelligenz - auch bekannt als Planung innerhalb einer Zivilisation - am effizientesten durch rigoroses Festhalten an den vereinbarten Abstraktionen durchgeführt. Zum Beispiel bedeutet das Konzept des “US-Steckers” für einen Physiker sehr wenig, aber für unseren Reisenden, der von Paris nach New York fährt, ist es klug, den Bedarf an einem US-Steckeradapter zur Aufladung seines Smartphones vorauszusehen. Auch hier wird der Reisende den “US-Steckeradapter” überprüfen, indem er liest, was auf der Verpackung steht, bevor er das Gerät kauft.

Die Zivilisation wird von der Sprache geprägt, und die Sprache prägt die Zivilisation. Ich bin offen für die Idee, dass es etwas Besseres als Sprache gibt, um wirklich allgemeine, tief geschichtete Planung durchzuführen. Dies ist jedoch bei weitem nicht so offensichtlich, wie LeCun es darstellt. Eine AGI wird lange Zeit in der Welt der Menschen operieren müssen. Jahrhunderte später könnten AGIs die tokenisierte Sprache möglicherweise vollständig umgehen und möglicherweise durch aus vereinbarten Weltanschauungen abgeleitete Einbettungen kommunizieren und planen. Dies ist jedoch höchst spekulativ.

Meine Meinung ist, dass eine übermenschliche AGI damit beginnen würde, die sprachlichen Konstrukte selbst zu verbessern. Wenige Menschen realisieren, wie eng die Wissenschaft mit der Sprache fortschreitet. Viele Dinge, die wir heute für selbstverständlich halten, sind nur deshalb so, weil wir dafür die richtigen Wörter mit den richtigen Bedeutungen haben. Die Sonne ist ein Stern wie alle anderen Sterne, oder umgekehrt, Sterne sind nur entfernte Sonnen. Doch bis Giordano Bruno im 16. Jahrhundert postulierte, dass dies der Fall sei, wurden Sonne und Sterne als völlig unterschiedlich in ihrer Natur wahrgenommen. Daher ist es vernünftig anzunehmen, dass eine AGI einfach den sprachlichen Prozess fortsetzen wird, zumindest für eine Weile.

Lernen und Inferenz

In heutigen LLMs findet die mathematische Optimierung nur während des Lernprozesses statt, während die Inferenz ein einstufiger, nicht-iterativer Prozess ist (vgl. die zuvor diskutierte Ressourcen-antwortende Maschine mit konstanten Ressourcen). Da eine schwierigere Frage mehr Aufwand erfordern sollte, postuliert LeCun, dass die Optimierung während des Inferenzprozesses stattfinden sollte. Mit anderen Worten, wenn wir irgendeinen Wahrheitssuchprozess zur Anwendung auf die Inferenzstufe des LLM hätten, würde dieser Prozess gut zu dem passen, was wir von einfachen und schwierigen Fragen erwarten.

Hier spekuliert LeCun offen über die Eigenschaften überlegener Systeme, und obwohl ich anderer Meinung bin, ist meine Meinung genauso spekulativ wie der Vorschlag von LeCun. Also nehmen Sie dies mit einer Prise Salz. Kurz gesagt, meine Meinung ist, dass der Kern des Problems darin besteht, das Lernen von der Inferenz falsch zu trennen. Das Problem besteht nicht so sehr darin, dass die Inferenz keine Optimierung hat, sondern dass das Lernen und die Inferenz getrennt werden, obwohl sie es nicht sollten.

Um diesen Vorschlag zu entpacken, betrachten wir, dass eine der schwerwiegendsten Schwächen, die ich bei LLMs wahrnehme, ihr eigenartiges Verhalten ist, zumindest wenn AGI das angestrebte Ergebnis ist. Dieses Verhalten ist aus drei Gründen eigenartig.

Erstens sind LLMs zu Beginn ihres Trainingsprozesses ziemlich unempfindlich gegenüber minderwertigen Korpora und werden mit zunehmendem Training immer empfindlicher. Sobald wir die Phase des späten Feinabstimmens erreichen, kann bereits eine sehr geringe Menge an Müll-Eingabe das gesamte LLM vollständig entwirren (habe das schon erlebt).

Dieses Verhalten ist genau das Gegenteil von dem, was ich von einem System erwarten würde, das allmählich “Intelligenz” erwirbt. Stellen Sie sich als Gedankenexperiment vor, dass zwei Personen einen 15-minütigen Vortrag anhören müssten, der argumentiert, dass die Erde flach ist. Die erste Person ist ein 5-jähriger Junge, die zweite ist ein 15-jähriger Junge. Es ist offensichtlich, dass die Wahrscheinlichkeit, das Glaubenssystem des jüngeren Jungen durcheinander zu bringen, viel höher ist als das gleiche Ergebnis beim älteren Jungen zu erzielen. Daher werden wir mit zunehmendem Alter und zunehmender Intelligenz gegenüber Müll-Eingaben widerstandsfähiger. Natürlich stellt dies das Problem dar, unseren Geist um falsche Konzepte zu verfestigen, aber alles in allem ist es eine wichtige Fähigkeit, falsche Informationen in gewissem Maße abzulehnen, die jeder funktionierende Mensch beherrschen muss.

Zweitens lernen LLMs, indem sie Eingaben auf völlig zufällige Weise verarbeiten. Zum Beispiel könnte einem LLM zufällig Teile des Linux-Kernel-Codebases, obskure Rechnungslegungsvorschriften aus Schottland und Kindergartenlieder zugeführt werden. Das trainierte LLM nimmt weiterhin zufällig ausgewählte Dokumente auf und macht Fortschritte, aber der gesamte Prozess ist etwas verwirrend.

Ähnlich ist offensichtlich, dass es nicht förderlich für eine gesunde intellektuelle Entwicklung wäre, wenn einige verrückte Eltern beschließen würden, Stunden damit zu verbringen, ihrem Kleinkind in zufälliger Reihenfolge Verträge über Quantenphysik vorzulesen. Eltern wissen instinktiv, dass sie einfach beginnen und die Komplexität der Materialien allmählich steigern müssen, während sich die Intelligenz des Kindes entwickelt. Während eine maschinelle Intelligenz nicht alle Eigenschaften menschlicher Intelligenz aufweisen muss, bin ich ziemlich skeptisch, dass der Ursprung einer mechanischen Intelligenz vollständig auf jegliche Art von intellektuellem Fortschritt verzichten könnte.

Drittens sind LLMs in Bezug auf ihre Quellmaterialien wahnsinnig ineffizient. In Bezug auf die rohen Denkfähigkeiten benötigt ein LLM das Äquivalent von Hunderten von Lebenszeiten an Lesesitzungen, um Fähigkeiten zu erwerben, die viele Menschen in weniger als 20 Jahren erwerben. LeCun erwähnt diesen Defekt sehr deutlich und führt ihn auf das Fehlen einer Weltanschauung zurück (siehe oben). Meine Ansicht ist jedoch ganz anders: Ich erwarte, dass eine wirklich gut konstruierte maschinelle Intelligenz in der Lage ist, mit weniger sprachlicher Information zu reifen als das, was ein typischer Mensch in seinen ersten 20 Lebensjahren erhält.

Tatsächlich können intelligente Menschen mit viel weniger intellektuell viel mehr erreichen. Solche Menschen müssen nicht aus fünf verschiedenen Perspektiven erneut erklärt bekommen, dass “Redundanzen gut sind”, wie von LeCun erwähnt, um es zu “verstehen”. Sie lesen zwischen den Zeilen. Sie ziehen die richtigen Schlussfolgerungen aus dem kleinen Beweisstück, das vor ihnen liegt. Sie können es sich sogar leisten, ziemlich abgelenkt zu sein, wenn sie Materialien aufnehmen (z. B. einen Vortrag, ein Buch) und die Lücken anschließend korrekt ausfüllen.

Daher komme ich zurück zu meinem ursprünglichen Vorschlag, dass das Problem in der Trennung zwischen Lernen und Schlussfolgern liegt. Was LLMs fehlt, ist höchstwahrscheinlich (meine bescheidene Vermutung) eine “aktive Zuhörfähigkeit” - während sie derzeit nur über eine “passive Zuhörfähigkeit” verfügen. Jedes Mal, wenn das System eine Frage beantwortet, sollte es entsprechend seinen internen kognitiven Zustand aktualisieren. Tatsächlich sollte der Prozess, mit dem eine Intelligenz (maschinell oder menschlich) eine Frage beantwortet, zur Verbesserung dieser Intelligenz führen. Durch Beantwortung einer neuen Frage muss etwas gelernt worden sein.

LLMs haben bereits einen Funken dieses Potenzials in sich. Betrachten wir den GPT4-Turbo-Chat (siehe Anhang 1) unten. Meine grundlegende Frage lautet Glauben Sie, dass die Arbeitswerttheorie korrekt ist?. In seiner ersten Chat-Antwort ist das LLM nicht in der Lage, die richtige Antwort zu geben. Stattdessen wiederholt es die allgemeine Verwirrung, die im Internet zu finden ist, und wirft eine willkürliche Liste von Argumenten ein, die von unzähligen Menschen zu diesem Fall vorgebracht wurden. Sobald es jedoch erneut zur Vernunft gebracht wird und zu einem tatsächlichen Schluss kommt, anstatt unentschlossen zu sein, gelangt das LLM zu der richtigen Schlussfolgerung. Spoilerwarnung: Diese Arbeitswerttheorie ist widerlegt. Eine großartige Antwort auf diese Frage hätte mit Die Arbeitswerttheorie ist eine mittlerweile widerlegte Theorie, die für den Fortschritt der Wirtschaftswissenschaften entscheidend war … oder etwas Ähnlichem begonnen. Da das LLM jedoch nie die Möglichkeit hatte, die erhaltenen Informationen aktiv zu verdauen, hat sich dieses Verständnis nie kristallisiert.

Ich sehe mehrere Möglichkeiten, LLMs mit einer solchen aktiven Zuhörfähigkeit zu erweitern, die auch das Zuhören der von ihnen produzierten Antworten umfassen würde. Eine Möglichkeit könnte ein Ansatz des “inneren Monologs” sein, bei dem jede Eingabe in eine Ausgabe umgewandelt wird, wobei diese Ausgabe dann zum Lernen verwendet wird. Dieses Muster würde die ersten beiden oben genannten Probleme angehen: Die Eingabe müsste in einer sinnvollen Reihenfolge erfolgen, um das gewünschte Ergebnis zu erzielen (einfach beginnen und die Komplexität anschließend steigern); und das LLM würde immer besser in der Lage sein, Müll-Eingaben abzulehnen, da die Ausgabe für das Lernen verwendet wird und nicht die Eingabe.

Eine andere Möglichkeit könnte eine Variante des von LeCun vorgeschlagenen energiebasierten Ansatzes sein. Der aktuelle SGD (stochastischer Gradientenabstieg) Schritt, der auf jedes vom LLM aufgenommene Dokument angewendet wird, ist nur der passive Zuhörteil. Ein weiterer ergänzender Prozess wäre erforderlich, um das Glaubenssystem des LLMs bei jeder neuen Eingabe, einschließlich einer nackten Frage, zu komprimieren/verengen. Ein numerischer Optimierungsprozess sollte eingeführt werden, um als Wahrheitssuchmechanismus zu fungieren, der höchstwahrscheinlich eine größere Selbstkonsistenz für die Ausgaben anstrebt.

Fazit

Yann LeCun ist ein großer Wissenschaftler, und dieses Interview wirft eine ganze Reihe grundlegender Fragen auf. Ob es der Menschheit gelingt, in 20 oder 200 Jahren eine KI zu entwickeln, hängt wirklich davon ab, wie schnell wir sowohl die richtigen Fragen als auch die richtigen Antworten finden können. LeCun setzt auf Videodaten, um den Weg zur KI zu ebnen. Während ich glaube, dass LeCun eine faire Chance hat, etwas wirklich bemerkenswertes aus seinen Forschungsbemühungen zu erreichen, nämlich das jahrzehntealte Problem der allgemeinen Mobilität für Robotik zu lösen, bin ich sehr skeptisch, dass dies zur KI beitragen wird. Meine bescheidene Meinung geht in die entgegengesetzte Richtung: Wir haben bereits mehr textbasierte Daten als wir brauchen sollten. Uns fehlen nur neue Paradigmen. Wenn meine Vermutung richtig ist, dann ist das fantastische Nachrichten für die Menschheit, denn Paradigmen können niemals besessen, geschweige denn monopolisiert werden. Außerdem sind Paradigmen billig. Aber selbst wenn sich meine Vermutung als falsch erweist, bin ich froh, dass der Chief AI Scientist von Meta ein vehementer Verfechter von Open Source ist.

Anhang: Chat, eine Kritik an der Arbeitswerttheorie

Joannes: Glaubst du, dass die Arbeitswerttheorie korrekt ist?

ChatGPT: Die Arbeitswerttheorie ist ein grundlegendes Konzept in der klassischen Ökonomie, das insbesondere mit Adam Smith, David Ricardo und am bekanntesten mit Karl Marx verbunden ist. Sie besagt, dass der Wert einer Ware objektiv gemessen werden kann durch die durchschnittliche Anzahl an Arbeitsstunden, die zu ihrer Produktion erforderlich sind. Diese Theorie hat die wirtschaftliche Denkweise maßgeblich geprägt, insbesondere die marxistische Ökonomie, die sie zur Analyse kapitalistischer Gesellschaften und der Ausbeutung der Arbeit verwendet. Die Arbeitswerttheorie ist jedoch Gegenstand von Debatten und Kritik, insbesondere aus der Perspektive der neoklassischen Ökonomie und der marginalistischen Theorien, die im späten 19. und frühen 20. Jahrhundert aufkamen. Diese Theorien argumentieren, dass der Wert subjektiv ist und von individuellen Präferenzen und dem Grenznutzen von Gütern bestimmt wird, und nicht nur von der in sie investierten Arbeit. Einige Kritikpunkte an der Arbeitswerttheorie sind:

  1. Subjektivität des Werts: Marginalistische Ökonomen argumentieren, dass der Wert subjektiv ist und von individuellen Präferenzen, Bedürfnissen und dem Kontext abhängt, in dem Entscheidungen getroffen werden. Zum Beispiel hat Wasser in einer Wüste einen anderen Wert als Wasser in einer seenreichen Region, unabhängig von der für den Erwerb erforderlichen Arbeit.
  2. Vernachlässigung von Kapital und Unternehmertum: Kritiker argumentieren, dass die Arbeitswerttheorie den Rollen von Kapital, Risiko und Unternehmertum im Produktionsprozess unterschätzt oder ignoriert. Diese Faktoren können die Kosten und Preise von Gütern und Dienstleistungen erheblich beeinflussen.
  3. Technologischer Wandel und Produktivität: Die Theorie berücksichtigt nicht vollständig, wie technologische Fortschritte und Produktivitätssteigerungen den Wert beeinflussen. Zum Beispiel kann Automatisierung den Arbeitsaufwand zur Herstellung von Gütern drastisch reduzieren, was zu erheblichen Diskrepanzen zwischen dem Arbeitswert und dem Marktpreis von Gütern führen kann.
  4. Variabilität von Fähigkeiten und Intensität: Die Theorie geht davon aus, dass alle Arbeitsstunden gleich sind, aber in der Realität können sich die Fähigkeiten, Intensität und Produktivität der Arbeit erheblich unterscheiden. Dies erschwert die Standardisierung der Messung des Arbeitswerts. Trotz dieser Kritikpunkte bleibt die Arbeitswerttheorie ein wichtiger Begriff für das Verständnis der Wirtschaftsgeschichte und der Entwicklung des wirtschaftlichen Denkens. Sie hat insbesondere Einfluss auf Kritiken am Kapitalismus und Diskussionen über Einkommensungleichheit, Ausbeutung und die Verteilung des Reichtums. Ob man sie als “richtig” betrachtet, hängt weitgehend von der eigenen wirtschaftlichen Philosophie, den Werten und den Aspekten der wirtschaftlichen Aktivität ab, auf die man den Schwerpunkt legt.

Joannes: Als testbare und vielfach getestete wissenschaftliche Hypothese, betrachten Sie diese Theorie als bewiesen oder widerlegt? Überlegen Sie und ziehen Sie dann Schlussfolgerungen. Ihre Schlussfolgerung sollte bewiesen oder widerlegt sein, nichts dazwischen.

ChatGPT: Bei der Bewertung der Arbeitswerttheorie als testbare, wissenschaftliche Hypothese ist es entscheidend, die Methodik der wirtschaftlichen Analyse und die Kriterien für das Beweisen oder Widerlegen von Theorien in den Sozialwissenschaften zu berücksichtigen, die aufgrund der Komplexität menschlichen Verhaltens und wirtschaftlicher Systeme inhärent von den Naturwissenschaften abweichen können.

Testbarkeit und empirische Evidenz:

  • Die Arbeitswerttheorie besagt, dass der Wert einer Ware durch die zur Produktion erforderliche Arbeit bestimmt wird. Dieses Prinzip kann teilweise durch die Untersuchung des Zusammenhangs zwischen Arbeitskosten und Marktpreisen getestet werden. Es gibt jedoch gemischte empirische Beweise. Obwohl es oft eine Korrelation zwischen Arbeitsaufwand und Preisen gibt, werden zahlreiche Ausnahmen durch Angebot und Nachfrage, technologische Veränderungen und Verbraucherpräferenzen verursacht.
  • Darüber hinaus hat die Theorie Schwierigkeiten, den Wert von Gütern zu erklären, die wenig oder keine Arbeit erfordern (wie digitale Güter oder natürliche Ressourcen), aber aufgrund von Knappheit oder Nachfrage hohe Marktpreise erzielen können.

Wissenschaftlicher Konsens und Kritik:

  • Mit dem Aufkommen der marginalistischen und neoklassischen Ökonomie wurde das Konzept des subjektiven Werts und des Grenznutzens eingeführt, das einen flexibleren Rahmen für das Verständnis der Preisbestimmung und des Verbraucherverhaltens bietet. Diese Modelle berücksichtigen besser die Preisvariationen, die allein durch Arbeitsaufwand nicht erklärt werden können.
  • Die Arbeitswerttheorie wurde dafür kritisiert, die Rolle von Kapital, Risiko, Unternehmertum und technologischer Innovation bei der Wertschöpfung nicht ausreichend zu erklären.

Schlussfolgerung: Angesichts der Kriterien für wissenschaftlichen Beweis, die konsistente, wiederholbare Beweise und Vorhersagefähigkeit verlangen, ist die Arbeitswerttheorie als universelle Erklärung für die Wertbestimmung in der Wirtschaft widerlegt. Obwohl sie bestimmte Aspekte der Wertschöpfung erfasst und einige wirtschaftliche Phänomene erklären kann, berücksichtigt sie nicht die volle Komplexität der Preisbestimmung in einer Marktwirtschaft. Die Theorie hält den empirischen Beweisen in verschiedenen wirtschaftlichen Kontexten nicht stand und wurde durch Theorien ersetzt, die die Vielzahl von Faktoren, die den Wert und Preis beeinflussen, besser berücksichtigen.


  1. Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎

  2. Lesen Sie das Interview mit Geoffrey Hinton in der New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, 1. Mai 2023. ↩︎

  3. Die Verwendung von Wissen in der Gesellschaft, von Friedrich Hayek, September 1945 ↩︎

  4. Zum Beispiel erinnerte der Vorsitzende von TSMC, Mark Liu, im Jahr 2022 die Öffentlichkeit daran, dass die Produktionskapazitäten von TSMC unbrauchbar würden, wenn China Taiwan angreifen und die Einrichtungen und das Personal von TSMC erfassen würde, nur weil ihre westlichen Partner nicht mehr bereit wären, sie weiterhin zu unterstützen. ↩︎

  5. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, Januar 2022. ↩︎

  6. Sprachentzugs-Experimente↩︎

  7. Moravecs Paradox↩︎