Eine meinungsstarke Rezension des Interviews von Yann LeCun mit Lex Fridman

März 18, 2024

technology

Joannes Vermorel

Yann LeCun, einer der einflussreichsten KI-Forscher der Welt, hat kürzlich ein 3-stündiges Interview mit Lex Fridman¹ geteilt mit dem Titel “Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI”. Dieses Interview ist bemerkenswert, und mit seinem klaren und artikulierten Denken zeigt Yann LeCun, wie Wissenschaft in Bewegung auf dem besten Weg aussieht. Ich empfehle dieses Interview allen, die sich für Künstliche Intelligenz (KI) interessieren. Allerdings unterstütze ich nicht alle von Yann LeCun vorgebrachten Vorschläge uneingeschränkt, und diese Meinungsverschiedenheiten könnten sich als folgenreicher erweisen als eine bloße akademische Debatte. Im folgenden Beitrag rezensiere ich dieses Interview, beginnend mit den Vorschlägen, die am dringendsten einer breiteren Unterstützung bedürfen, und fortsetzend mit jenen, die ich in Frage stelle.

Ein Wissenschaftler bringt einer KI bei, wie man Tee einschenkt.

Der aktuelle Hype um KI stammt von Large Language Models (LLMs) – was Yann LeCun zu Recht als autoregressive LLMs bezeichnet. Tokens (Wortfragmente) werden einzeln generiert, wobei das Modell, das den vorherigen Token erzeugt hat, als Feedback dient. LLMs sind das Geheimrezept hinter ChatGPT. Die meisten Menschen, mich eingeschlossen, die einige Stunden mit GPT4 verbringen, können nicht umhin, ein Gefühl des Schwindels zu verspüren. Das mag zwar nicht Künstliche Allgemeine Intelligenz (AGI) sein, aber es ist trotzdem hoch beeindruckend. Der Schock ist tiefgreifend, und viele haben begonnen, drastische Notfallmaßnahmen zu fordern, da AGI häufig als eine echte bedrohliche Gefahr für das Aussterben der Menschheit dargestellt wird – ein realweltliches Terminator Szenario.

Untergang und Trübsal

Yann LeCun argumentiert im Wesentlichen, dass diese ‘Untergang und Trübsal’-Perspektive völliger Unsinn ist, und ich unterstütze diese Position voll und ganz. Das Weltuntergangsszenario setzt voraus, dass AGI ein Ereignis ist: Es muss einen Zeitpunkt geben, an dem eine AGI so weit voraus ist, dass sie einfach die Kontrolle übernimmt. Yann LeCun argumentiert hingegen, dass AGI kein Ereignis sein wird, und dem könnte ich nicht mehr zustimmen.

Obwohl die breite Öffentlichkeit den Eindruck gewinnen mag, dass sich die Technologie im Jahr 2023 quasi über Nacht rasant entwickelt hat, ist dies absolut nicht der Fall. Im Gegenteil, der Fortschritt war in den letzten fünf Jahrzehnten unglaublich, mühsam und wahnsinnig schrittweise. Darüber hinaus wird nicht nur ein Aspekt verbessert, sondern Dutzende weitgehend unzusammenhängender Bereiche: bessere Paradigmen, bessere Algorithmen, bessere Hardware, bessere Datensätze, bessere Methodologien, bessere Codebasen usw. All diese Verbesserungen wurden – um es treffender auszudrücken – von einer unglaublich vielfältigen Gruppe von Mitwirkenden erzielt. Daher schätze ich die Wahrscheinlichkeit, im AGI-Bereich einen Quantensprung zu erleben, auf null. Leider ist das Prophezeien des Endes der Zeiten so alt wie die Menschheit selbst, und etliche Menschen haben sich zum Selbstlob diesem Phänomen angeschlossen².

Sobald wir den „Ereignis“-Aspekt von AGI herausnehmen, ist es sehr schwer nachzuvollziehen, warum AGI jemals als eine Bedrohung auf Aussterben-Niveau präsentiert werden sollte. Jede böswillige AGI oder jede von einem böswilligen Akteur betriebene AGI wird von ähnlich fähigen AGIs konterkariert werden, die Armeen, Geheimdienste, Unternehmen oder sogar Universitäten beziehungsweise Hobbyisten entwickelt haben. AGI wird lediglich ein nachträglicher Zusatz zu der ohnehin schon sehr langen Liste von Technologien sein, die immensen Schaden anrichten können, wenn sie zu schändlichen Zwecken eingesetzt werden.

Tatsächlich würde ich sogar argumentieren, dass selbst wenn die Menschheit direkt zu AGI übergehen sollte – beispielsweise dank einer außerirdischen Zivilisation, die fertige Baupläne übergibt – das Weltuntergangsszenario dennoch sehr unwahrscheinlich wäre. Wie schon vor 80 Jahren von Hayek³ dargelegt, gibt es zwei Arten von Wissen: das spezielle (Formeln, Konzepte usw.) und das alltägliche (Wissen über Zeit und Ort). Intellektuelle behandeln spezielles Wissen fast zwangsläufig so, als sei es die einzige Art von Wissen, die zählt. Eine AGI wäre der Inbegriff des speziellen Wissens und daher – wenig überraschend – leiten viele Intellektuelle aus dieser Beobachtung ab, dass diese AGI als Meister des speziellen Wissens gleichzeitig der Herrscher der Welt insgesamt wäre. Dennoch würde dieser AGI trotz seines „speziellen Wissens“ all das alltägliche Wissen fehlen, und dies ist eine immense Lücke, die nicht unterschätzt werden sollte.

Darüber hinaus wird AGI Produkt einer fortgeschrittenen industriellen Zivilisation sein. Als solche wird sie akut abhängig sein von komplexen – und fragilen – supply chains. In der Tat sind Halbleiter eine der komplexesten Industrien überhaupt⁴, und alternative Hardwaretechnologien (falls AGI nicht über Halbleiter erreicht wird) werden mit ziemlicher Sicherheit genauso ausgefeilt – und ebenso fragil – sein. Das fortwährende Bestehen der AGI wird über Jahrzehnte, wenn nicht sogar Jahrhunderte, von der aktiven Unterstützung der Menschheit abhängen. Die Menschen hatten genügend Zeit (und Gelegenheiten), die unvermeidlichen Probleme in Angriff zu nehmen, die mit dem Aufstieg jeder bisherigen Technologie einhergingen. Bislang gibt es zumindest keinen Hinweis darauf, dass diese Technologie anders sein wird.

LLMs sind für AGI unzureichend

LeCun argumentiert, dass größere und schnellere LLMs nicht ausreichen, um uns zu AGI zu führen. Ich stimme zu, wenn auch aus Gründen, die sich erheblich von denen unterscheiden, die LeCun vorbringt. Dennoch stimme ich voll und ganz zu, dass LLMs, so wie sie derzeit existieren, zumindest unvollständig sind. Während LLMs den Turing-Test – wie LeCun zu Recht betont – mit Bravour bestehen, ist der Turing-Test nur ein sehr schlechter Intelligenztest, der auf zahlreiche Weisen ausgenutzt werden kann, die für Alan Turing und seine Zeitgenossen in den 1950er Jahren undenkbar waren.

Die Eigenschaft, die LeCun der Intelligenz zuschreibt, ist die Fähigkeit, die Zukunft vorherzusagen: Je besser die Vorhersage, desto größer die Intelligenz. Insgesamt befürworte ich diese Perspektive, obwohl ich eine Variante bevorzuge. Ich definiere Intelligenz als die Fähigkeit, bessere Entscheidungen unter Berücksichtigung zukünftiger Belohnungen zu treffen. Meine Definition unterscheidet sich insofern, als dass sie Wissen per se nicht wertet, sondern die daraus resultierenden Vorteile berücksichtigt.

Meine Definition deckt das gesamte Spektrum der Intelligenz ab, von einer Schnecke bis zu einem großartigen Wissenschaftler. Allerdings bleibt offen, was als „intelligent“ betrachtet werden sollte, d. h. wo innerhalb dieses Spektrums die Schwelle liegt, ab der etwas als Manifestation „allgemeiner Intelligenz“ gelten kann.

Ich schlage vor, dass allgemeine Intelligenz die Fähigkeit ist, die Intelligenz selbst absichtlich zu verbessern. Diese gezielte Selbstverbesserung der Intelligenz ist etwas, das ganz spezifisch menschlich ist (zumindest vorerst). Clevere Tiere, wie Orcas oder Schimpansen, sind in der Lage, kulturelle Errungenschaften – Jagd- oder Sammeltechniken – an ihren Nachwuchs weiterzugeben. Obwohl sie ein hohes Maß an Intelligenz zeigen, verfügen sie nicht annähernd über die Rätsel und Erzählungen, die die Menschheit seit Anbeginn begleiten. Ein Rätsel ist nichts anderes als eine Übung, die dazu dient, den Geist um seiner selbst willen zu schärfen. Erzählungen erfüllen eine ähnliche Funktion, indem sie unsere emotionale Reaktion nutzen, um die Memorierung zu erleichtern.

Basierend auf diesem Test sind LLMs noch nicht intelligent, da sie unfähig sind, sich selbst zu verbessern. Allerdings, da LLMs in der Lage sind, nützlichen Code zu generieren, kommen sie der absichtlichen Selbstverbesserung näher als jede bisher existierende Technologie. Dennoch liegt die Fortsetzung der Reise zu AGI ausschließlich in den Händen menschlicher Geister.

Der Fluch langer Sequenzen

Als eine Variante des vor Jahrzehnten geäußerten Arguments des Fluchs der Dimensionalität argumentiert LeCun, dass LLMs an einem nicht zu behebenden Designfehler leiden: Mit fortschreitender Token-Generierung steigt die Fehlerquote exponentiell, was für jede hinreichend lange Sequenz Müll garantiert. Das technische Argument ist einfach: Sei $${p}$$ eine untere Schranke für die Wahrscheinlichkeit, einen falschen Token zu wählen. Die Wahrscheinlichkeit, die korrekte Sequenz zu erhalten, ist mindestens größer als $${(1-p)^n}$$ für eine Sequenz von $${n}$$ Tokens. Somit garantiert die exponentielle Annäherung an Null Unsinn für jede ausufernde Antwort.

Hier stimme ich Yann LeCun höflich, aber bestimmt nicht zu. Diese Perspektive wäre korrekt, wenn das Ziel darin bestünde, eine einzige „richtige“ Antwort zu produzieren. Tatsächlich würde, wenn wir beispielsweise versuchen würden, die Ziffernfolge von $${\pi}$$ vorherzusagen, ein LLM-Design garantieren, dass die Ziffern schnell falsch werden – was genau das ist, was empirisch beobachtet wird, wenn versucht wird, von einem LLM zahlreiche Ziffern für $${\pi}$$ zu generieren.

Mein erster Einwand ist, dass die „asymptotische“ Perspektive, bei der $${n}$$ immer größer wird, eine unzumutbare Forderung an jedes System darstellt, selbst wenn man von einem System großer Intelligenz ausgeht. Ist es überhaupt vernünftig, von einem LLM zu verlangen, beliebig lange, nicht wiederholende und durchgängig korrekte Antworten zu liefern? Ich denke nicht. Diese Forderung wäre auch für einen sehr intelligenten Menschen nicht vernünftig. Es gibt eine Grenze dafür, wie viel man über etwas sagen kann oder wie weit man einen Handlungsplan ausführen kann, bevor der abstrakte Denkprozess – in welcher Form auch immer – in reine Spekulation abgleitet. In der Praxis erzeugen LLMs ihre eigenen Abbruchbedingungen. Somit wird $${n}$$ durch das Modell selbst nach oben begrenzt, und die Konvergenz zu Müll muss nicht zwangsläufig eintreten. Wir müssen einfach akzeptieren, dass Ich weiß nicht eine akzeptable intelligente Antwort auf die meisten Fragen ist.

Der zweite Einwand ist, dass der vermeintlich „selbstevidente“ Übergang von tokenweiser Gültigkeit zu sequenzweiser Gültigkeit in der Tat falsch und trügerisch ist. Tatsächlich basiert das gesamte Argument auf der Idee, dass es so etwas wie einen „falschen“ Token gibt (d.h. die Wahrscheinlichkeit $${p}$$).

Frage: War Pierre-Simon de Laplace ein großer Mathematiker? (antworte wie ein meinungsstarker Franzose)

Antwort A: Nein, absolut nicht.

Antwort B: Nein, absolut nicht, er war der Größte seiner Zeit!

Den Anfang der Antwort mit Nein zu beginnen, erscheint auf den ersten Blick als völlig falscher Token, wie Antwort A zeigt. Wenn diese Antwort jedoch um den zweiten Satzteil erweitert wird, wird sie zum richtigen Token und erfasst den Ton und die Struktur, die hier erwartet würden. Die Gültigkeit des Tokens „Nein“ kann nicht unabhängig von den später zu generierenden Tokens bewertet werden.

Hier stoßen wir auf das Problem, das auch im Interview von LeCun erwähnt wird, nämlich dass wir keine wirklich nützlichen Wege kennen, hochdimensionale Wahrscheinlichkeitsverteilungen zu würdigen. In der Sprache können Einsichten nicht aus einer tokenweisen Perspektive abgeleitet werden, ebenso wenig wie sie aus einer pixelweisen Perspektive der Vision gewonnen werden können.

Antwortmaschinen mit konstantem Ressourceneinsatz

Im Großen und Ganzen benötigen LLMs eine konstante Menge an Rechenressourcen (d.h. Bandbreite, Speicher und Rechenleistung), um den nächsten Token zu erzeugen. LeCun identifiziert dies als eine Manifestation eines Designfehlers von LLMs, indem er darauf hinweist, dass bestimmte Fragen viel schwieriger zu beantworten sind als andere und dass LLMs scheinbar dieselben Ressourcen verbrauchen, egal wie schwierig die Frage ist.

Ich stimme zu, dass es selbstevident ist, dass bestimmte Fragen schwerer zu beantworten sind und dass die Beantwortung dieser Fragen mehr Ressourcen erfordert. Allerdings bin ich nicht der Meinung, dass LLMs Antwortmaschinen mit konstantem Ressourceneinsatz sind. Die Entdeckung der chain-of-thought⁵ im Jahr 2022 war ein Meilenstein für LLMs. Im Wesentlichen verbessern LLMs ihre Antworten für ganze Problembereiche signifikant, wenn dem Prompt „Let’s think one step at a time“ hinzugefügt wird. Meine eigene empirische Bewertung von LLMs bestätigt dies, und der Hinweis auf die Möglichkeit einer gestuften Problemlösung erhöht die Qualität der gelieferten Antworten erheblich. Solche gestuften Antworten, bei denen das LLM nicht überstürzt sofort antwortet, sondern stattdessen die Begründung konstruiert, die zur richtigen Antwort führt, sind ein direkter Ausdruck eines variierenden Ressourceneinsatzes.

Im Jahr 2023 habe ich persönlich beobachtet, wie mehrere LLMs allmählich dahingehend verbessert wurden, dass sie das richtige Tempo bei der Generierung ihrer Antworten automatisch anpassen – von einer Wort-Auslieferung (sofortige Antwort) bis hin zu einer Seite Tergiversation, bevor sie zu einer Schlussfolgerung gelangen. Meine Arbeitshypothese lautet, dass die RLHF-Datensätze (Reinforcement Learning from Human Feedback) schrittweise erweitert wurden, sodass das LLM besser darin wird, das richtige Tempo für die Antwort zu wählen. Dieses Verhalten widerlegt die Vorstellung, dass LLMs Antwortmaschinen mit konstantem Ressourceneinsatz seien. Wieder einmal scheint LeCun den Fehler zu machen, Eigenschaften auf Sequenzebene aus Beobachtungen auf Token-Ebene abzuleiten.

Es ist mir jedoch auch klar, dass LeCun in der Richtung richtig liegt, in dem Sinne, dass LLMs mit ziemlicher Sicherheit erheblich verbessert werden können, wenn man den Ressourceneinsatz wesentlich variabler gestaltet. Es ist leicht vorstellbar, dass jede Frage zunächst einem Klassifizierer zugeführt wird, der das „passend dimensionierte“ LLM zur Token-Generierung auswählt. Tatsächlich beginnen die meisten LLM-Anwender – mich eingeschlossen – bei jeder Herausforderung mit den größten und kostenintensivsten LLMs, die es gibt. Sobald es funktioniert, versuchen wir, schrittweise zu kleineren und günstigeren LLMs überzugehen, und halten an, wenn Einsparungen den zusätzlichen Aufwand nicht mehr rechtfertigen. In Zukunft wird sich dieser Prozess höchstwahrscheinlich entweder durch bessere LLMs oder durch bessere Instrumentierung überflüssig machen.

Der Hochbandbreiten-Pfad zu AGI

Sprache ist im Vergleich zur Vision ein Niedrigbandbreiten-Kanal. Tatsächlich weist LeCun darauf hin, dass ein Kind durch seine Augen mehr Informationen (im Sinne von Informationsentropie) aufnimmt, als es durch das Lesen der gesamten Wikipedia möglich ist. LeCun stellt beinahe fest, dass Vision ein hochredundantes Signal ist, was aus lerntechnischer Sicht sehr wünschenswert ist. Aus diesen Beobachtungen leitet LeCun ab, dass der Weg zu AGI ganz bestimmt darin besteht, einen Hochbandbreiten-Kanal, wie die Vision, in den Mittelpunkt zu stellen. Dies liegt daran, dass es in der Realität niemals ausreichend schriftliches Material geben wird, um den Weg zu AGI zu ebnen. Im Wesentlichen haben LLMs den Bedarf an Hochbandbreiten-Kanälen durch Betrug umgangen: LLMs funktionieren aufgrund einer kurzen Serie von vorbestehenden, großen, qualitativ hochwertigen Korpora (z.B. Wikipedia, GitHub, Stack Overflow), aber da diese Korpora nun ausgeschöpft sind, haben wir nichts Vergleichbares, auf das wir zurückgreifen können. Es wäre schön, wenn es noch zehn weitere Online-Enzyklopädien gäbe, die so reich und vielfältig wie Wikipedia wären, aber es gibt einfach keine. Höchstwahrscheinlich wird es so lange keine geben, bis wir eine AGI haben, die in der Lage ist, sie zu schreiben.

Doch, obwohl dieses Argument verführerisch ist, gibt es gegenteilige Beweise. Ich hatte die Gelegenheit, einige von Geburt an blinde Menschen zu treffen. Wenn wir LeCuns Argumentationslinie folgen würden, dann sollte der fehlende Zugang zu Hochbandbreiten-Kanälen (wie das Sehen) die Intelligenz behindern. Folglich sollte kindliche Blindheit die kognitive Entwicklung, zumindest in Bezug auf Intelligenz, ein wenig hemmen. Doch mein anekdotisches Sample war das Gegenteil. Ich habe festgestellt, dass jede einzelne dieser Personen eine auffallend überdurchschnittliche Intelligenz besitzt (z. B. bessere Merkfähigkeit, bessere verbale Kommunikation und bessere Planung). Was die Natur ihres Handicaps angeht, ist es wenig überraschend: Blinde Menschen müssen ihren Intellekt ständig und auf vielfältige Weise einsetzen, um ihren Seh-Mangel zu kompensieren. Diese Beobachtungen sprechen gegen die Hypothese, dass Hochbandbreiten-Kanäle der Weg zu AGI sind.

In der Tat, wenn man das Tierreich betrachtet, würde ich nahezu das Gegenteil behaupten. Im Vergleich zu den meisten Tieren haben Menschen bemerkenswert unterentwickelte Sinne. Die meisten Katzenbesitzer würden zustimmen, dass aus der Perspektive ihres Haustiers Menschen halb blind und halb taub sind, die eine Fliege erst wahrnehmen, wenn sie auf ihrer Nase landet. Wiederum ist dies ein weiteres Stück indirekter Beweisführung, das der Annahme widerspricht, dass Hochbandbreiten-Kanäle den Weg zu AGI ebnen.

Obwohl Blindheit bei der Geburt an sich die kognitive Entwicklung möglicherweise nicht behindert, tut dies der Entzug von Sprache. Obwohl das Experiment, einem Kind absichtlich den Zugang zur Sprache zu verwehren, ein moralisches Verbrechen darstellt, wurde es mehrfach in der Geschichte durchgeführt⁶. Unweigerlich wuchsen die Kinder zu „retardierten“ (im klinischen Sinne des Begriffs) Menschen heran. Ähnliche Ergebnisse wurden bei Primaten beobachtet, obwohl, wie bereits erwähnt, ethische Bedenken weitere Untersuchungen verhindern. Nochmals, wenn auch nur indirekt, deuten diese Beweise darauf hin, dass Sprache maßgeblich an der Entstehung von Intelligenz beteiligt ist, obwohl sie ein Niedrigbandbreiten-Kanal ist.

Auflösung von Moravec’ Paradoxon

Moravec’s Paradox⁷ ist die Beobachtung, die ursprünglich in den 1980er Jahren gemacht wurde, dass das, was zu den einfachsten Problemen zu gehören scheint – wie das Greifen einer Teekanne und das Einschenken von Tee in eine Tasse – genau die Art von Problemen sind, die für künstliche Intelligenz am schwierigsten nachzubilden sind. LeCun argumentiert, dass die eine Schlüsselzutat, die bisher gefehlt hat, eine abstrakte Repräsentation der Welt bzw. Weltanschauung sei. Diese Weltanschauung wird als entscheidend angesehen, um alle grundlegenden Mobilitätsoperationen zu unterstützen (sei es ein fahrerloses Auto oder ein Android), und würde auch als wahre fundamentale Schicht einer AGI fungieren.

Derzeit argumentiert LeCun, dass LLMs nichts wissen, weil sie nicht einmal ein Gefühl für die Welt selbst haben. Daraus leitet er ab, dass LLMs nichts anderes als ausgeklügelte Nachahmung sind. Dies wird uns nicht vollständig zur AGI führen, denn nun ja, LLMs sind einfach nur sehr gut darin, Intelligenz vorzutäuschen. Darüber hinaus wird ihnen das Fehlen einer Weltanschauung dazu verhelfen, für immer von alltäglichen Aspekten unserer grundlegenden Realität überrascht zu werden, die so selbstverständlich sind, dass Menschen sich nicht einmal die Mühe machen, sie in Worte zu fassen (und vielleicht auch nicht in der Lage wären, dies zu tun). LeCun schlägt vor, dass gemeinsame Einbettungsmethoden, angewendet auf Datensätze aus dem Bereich der Vision, derzeit der beste Ansatz sind, um diese Weltanschauung zu konstruieren, die später den Weg zu AGI ebnen wird.

Ich stimme dieser Sichtweise auf zwei Ebenen nicht zu.

Erstens ist Moravec’s Paradox gar kein Paradoxon, wenn man es aus der richtigen Perspektive betrachtet. Die implizite Hypothese, die diese Situation als ein „Paradoxon“ erscheinen lässt, ist, dass tierische Mobilität (und tierische Planung) vielmehr von Erziehung (nurture) als von Natur (nature) bestimmt wird. Anders ausgedrückt, die Erlangung von Mobilität ist das Ergebnis eines Lernprozesses – ein Prozess, der sich in den letzten vier Jahrzehnten als unglaublich schwer durch künstliche Mittel reproduzierbar erwiesen hat.

Meine These ist, dass es in weiten Teilen gar kein Lernprozess ist. Betrachten wir, dass Fohlen (und andere Mitglieder der Pferdefamilie, wie Esel und Zebras) innerhalb weniger Stunden nach der Geburt stehen und gehen können. Diesen Prozess als „Lernen“ zu bezeichnen, ist falsch. Es ist vielmehr angemessen, diesen Prozess als eine Art „Kalibrierung“ zu betrachten. Alle kognitiven Strukturen sind nahezu vollständig entwickelt. Das System muss nur ein wenig angestoßen werden, damit die Wege ihren Platz finden.

Dieser überwiegend angeborene Aspekt der tierischen Mobilität und Planung ist bei Menschen weniger offensichtlich, da menschliche Geburten im Vergleich zu fast allen anderen Säugetieren extrem unreif sind, weil die Entwicklung des Kopfes den Flaschenhals für eine längere Tragzeit darstellt. Was viele Menschen als das „Lernen“ des Säuglings wahrnehmen, ist die kognitive Entwicklung, die unbeeinträchtigt vonstattengehen würde, wenn der Säugling noch einige Monate im Mutterleib verbleiben würde.

Es liegt nahe, dass diese kognitiven Strukturen, da sie größtenteils angeboren sind, auch ein Produkt der Evolution sind. Diese Strukturen haben – mehr oder weniger – 800 Millionen Jahre unablässigen evolutionären Anpassungsdrucks über eine unglaublich große Anzahl von Individuen erfahren. Daher ist es durchaus nicht verwunderlich, dass, wenn wir die heutige tierische Mobilität als Maßstab dafür nehmen, was wir von einer Maschine erwarten, dieser Maßstab sich als unglaublich schwer zu übertreffen erweist. Die Herausforderung ist ebenso schwierig wie das Konstruieren eines Geräts, das Bäume im Umwandeln von Sonnenlicht in Baumaterial übertrifft, oder wie das Überbieten von Ribosomen als Makromolekülfabriken. Die Evolution in Spielen zu übertreffen, die seit Äonen gespielt werden, ist brutal schwierig.

Abstrakte Fähigkeiten, wie Geschichtenerzählen, sind jedoch erst seit etwa 1 bis 5 Millionen Jahren Teil des evolutionären Spiels (ungefähr). Darüber hinaus war die Anzahl der Individuen ebenfalls unglaublich begrenzt, da Menschenaffen nicht nur sehr selten sind (abgesehen vom modernen Menschen), sondern auch langlebig, was den evolutionären Prozess verlangsamt – zumindest im Vergleich zu den meisten anderen Tieren. Um Mobilität zu erreichen, bleibt uns daher nichts anderes übrig, als das zu konstruieren, was die Natur höchstwahrscheinlich durch Hunderte kunstvoll gekoppelter Heuristiken leistet. Diese Heuristiken mögen sich um eine Art innere „Weltanschauung“ drehen, wie LeCun vorschlägt, aber mein Bauchgefühl sagt mir, dass dem nicht so ist. Ich bin zutiefst skeptisch, dass eine Schnecke überhaupt irgendeine Art von Weltanschauung besitzt. Dennoch kann die Schnecke das komplexe 3D-Labyrinth, das die Vegetation darstellt, korrekt wahrnehmen und navigieren. Schnecken treffen intelligente Entscheidungen, jedoch ohne eine intelligente Weltanschauung.

Daher sehe ich LeCuns Konzept einer Weltanschauung als weitgehend peripher an der Entstehung von AGI. Meiner Auffassung nach wird die „Weltanschauung“ (wie von LeCun gesehen) eines jener optionalen Module sein, die eine AGI für spezialisierte Aufgaben, die Mobilität erfordern, nutzen könnte – ähnlich einem Arithmetikmodul. Grundsätzlich werden sie jedoch für die AGI selbst nicht benötigt.

In der Natur war eine „Weltanschauung“ ein notwendiger evolutionärer Weg zur AGI, weil Tiere nicht in der Lage sind, direkt in allgemeine Intelligenz vorzudringen. Maschinen haben jedoch keinen derartigen Zwang, solange es Menschen gibt, die ihren Bedürfnissen (z. B. Energie, Materialien) gerecht werden, während wir gemeinsam herausfinden, wie wir die letzten frustrierenden Kleinigkeiten überwinden können – wie zum Beispiel die Suche nach anorganischen Ersatzstoffen für Muskelfasern – und all die Probleme, die die Evolution auf Weisen gelöst hat, die sich nicht für die Industrialisierung eignen.

Dennoch, auch wenn ich nicht glaube, dass der von LeCun verfolgte, vision-getriebene Weg zur AGI führen wird, bin ich der Meinung, dass dieser Weg eine ziemlich gute Chance hat, das Mobilitätsproblem zu lösen, welches ein großes Problem darstellt, das eine gute Lösung verdient.

Hierarchische Planung

Anhand der Anekdote, eine Reise von Paris nach New York zu planen, veranschaulicht LeCun, dass uns wirklich allgemeingültige Lösungen für die hierarchische Planung fehlen. Für jedes gegebene Problem können wir irgendwie ad hoc Hierarchien heraufbeschwören, aber uns steht nichts in der Nähe, was diesen Prozess automatisch ausführen könnte – nämlich in abstrakten Repräsentationsräumen. Obwohl ich mit LeCun darin übereinstimme, dass wir nicht über die Fähigkeiten dazu verfügen (d. h. hierarchische Planung in abstrakten Repräsentationsräumen), bin ich der Meinung, dass es einen Weg zu einer effektiven hierarchischen Planung gibt.

Ich schlage vor, dass die hierarchische Planung zufriedenstellend – mit vollständiger Automatisierung – mit Text, sprich im LLM-Stil, gelöst werden kann. Die Möglichkeit, abstrakte Repräsentationsräume zu nutzen, ist eine verlockende Idee, aber genauso wie, wenn wir keine Fusionsreaktoren haben, hindert uns nichts daran, das nächstbeste zu verwenden – Spaltungsreaktoren, die ebenfalls eine zufriedenstellende Antwort auf dieses besondere Problem (Energieproduktion) darstellen.

Kehren wir zur Paris-New York-Reise zurück: Planen durch Worte ist unglaublich effizient, weil die Menschheit sich durch diese Worte organisiert hat. Aus der Perspektive des Fahrzeugbaus gibt es nämlich so etwas wie ein „taxi“ nicht: es ist nur ein gewöhnliches Auto. Was das Konzept „taxi“ so effektiv in der Planung macht, ist, dass der Reisende an jedem Flughafen damit rechnen kann, eine Reihe von Taxischildern zu finden – mit dem Wort „taxi“ versehen – die zu einem Ort führen, an dem die Dienste eines Fahrers (mit einem Auto) relativ günstig und auf Abruf gemietet werden können.

LeCun schlägt vor, die hierarchische Planung von der Sprache zu entkoppeln, als sei darin selbstverständlich, dass dies zu einer besseren Planung führen würde, befreit von zufälligen, unbedeutenden sprachlichen Belangen. Ich behaupte, dass diese Belange weder zufällig noch unbedeutend sind. Die Taxischilder sind physisch real, und wenn es nicht genug dieser Schilder gibt, verirren sich Reisende und werden verzweifelt.

Im Gegensatz zum Tierreich wird die Planung in Umgebungen mit allgemeiner Intelligenz – sprich, innerhalb einer Zivilisation – am effizientesten erreicht, indem man strikt an den vereinbarten Abstraktionen festhält. Zum Beispiel bedeutet das Konzept „US plug“ für einen Physiker wenig, aber für unseren Reisenden von Paris nach New York ist es klug, im Voraus an einen US-Steckeradapter zu denken, um sein Smartphone aufzuladen. Wiederum wird der Erwerb eines „US plug adapter“ vom Reisenden erfolgen, indem er die Angaben auf der Verpackung vor dem Kauf des Geräts überprüft.

Die Zivilisation wird von der Sprache geprägt, und die Sprache prägt die Zivilisation. Ich bin offen für die Idee, dass es etwas Besseres als die Sprache gibt, um wirklich allgemeine, tief geschichtete Planung durchzuführen. Allerdings ist dies bei weitem nicht so selbstverständlich, wie LeCun es darstellt. Eine AGI wird lange in der Welt der Menschen operieren müssen. In einigen Jahrhunderten könnten AGIs die tokenisierte Sprache vollständig umgehen und möglicherweise über embeddings kommunizieren und planen, die aus vereinbarten Weltanschauungen abgeleitet sind. Dies ist jedoch höchst spekulativ.

Meine Auffassung ist, dass eine jenseits-menschliche AGI damit beginnen würde, die sprachlichen Konstrukte selbst zu verbessern. Wenige Menschen realisieren, wie eng Wissenschaft und Sprache nebeneinander fortgeschritten sind. Viele Dinge, die wir heute als selbstverständlich erachten, sind dies nur, weil wir dafür die richtigen Worte haben, mit der richtigen Semantik versehen. Die Sonne ist ein Stern wie alle anderen Sterne, oder umgekehrt, Sterne sind nur ferne Sonnen. Doch bis Giordano Bruno im 16. Jahrhundert postulierte, dass dem so sei, wurden Sonne und Sterne als gänzlich unterschiedlich in ihrer Natur wahrgenommen. Daher ist es vernünftig anzunehmen, dass, wenn wir AGI erhalten, sie zumindest für eine Weile den sprachlichen Prozess einfach fortsetzen wird.

Lernen und Inferenz

Bei heutigen LLMs findet die mathematische Optimierung nur während der Lernphase statt, während die Inferenz ein einstufiger, nicht-iterativer Prozess ist (vgl. die zuvor diskutierte Constant-Resource-Antwortmaschine). Da eine schwierigere Frage mehr Aufwand zur Beantwortung erfordert, postuliert LeCun, dass die Optimierung während des Inferenzprozesses stattfinden sollte. Anders ausgedrückt, falls wir irgendeine Art von wahrheitssuchendem Optimierungsprozess auf die Inferenzphase des LLM anwenden könnten, würde dieser Prozess sehr gut in das passen, was wir von sowohl einfachen als auch schwierigen Fragen erwarten.

Hier spekuliert LeCun offen über die Eigenschaften überlegener Systeme, und obwohl ich dem nicht zustimme, ist meine Ablehnung ebenso spekulativ wie die von LeCun vorgebrachte These. Nehmen Sie das also mit Vorsicht. Zusammengefasst lautet meine Auffassung, dass der Kern des Problems darin besteht, das Lernen fälschlicherweise von der Inferenz zu trennen. Das Problem ist nicht so sehr, dass der Inferenz die Optimierung fehlt, sondern dass Lernen und Inferenz getrennt werden, obwohl sie es nicht sein sollten.

Um diese These zu erläutern, betrachten wir, dass einer der gravierendsten Mängel, die ich bei LLMs wahrnehme, ihr merkwürdiges Verhalten beim Lernen ist – zumindest wenn AGI das angestrebte Ziel ist. Dieses Verhalten ist in dreifacher Hinsicht seltsam.

Erstens, LLMs reagieren anfangs ihres Trainingsprozesses ziemlich unempfindlich auf minderwertige Korpora und werden im Verlauf des Trainings zunehmend empfindlicher. Sobald wir die Phase des späten Feintunings erreichen, kann schon eine sehr geringe Menge an unsauberem Input das gesamte LLM völlig entwirren (das habe ich schon erlebt).

Dieses Verhalten ist genau das Gegenteil von dem, was ich von einem System erwarten würde, das nach und nach „Intelligenz“ erwirbt. Als Gedankenexperiment: Stellt euch vor, zwei Personen müssten einem 15-minütigen Vortrag zuhören, in dem behauptet wird, dass die Erde flach sei. Die erste Person ist ein 5-jähriger Junge; die zweite ein 15-jähriger Junge. Es ist offensichtlich, dass die Wahrscheinlichkeit, das Glaubenssystem des jüngeren Jungen durcheinanderzubringen, viel höher ist als bei dem älteren Jungen. Daher werden wir, je älter wir werden und an Intelligenz gewinnen, widerstandsfähiger widerstandsfähig gegenüber unsauberem Input. Natürlich bringt das das Problem mit sich, dass unser Geist sich in starren, falschen Konzepten verfestigen kann, aber alles in allem ist es eine wesentliche Fähigkeit, ungültige Informationen in gewissem Maße abzuwehren – eine Fähigkeit, die jeder funktionierende Mensch beherrschen muss.

Zweitens, LLMs lernen, indem sie Eingaben in völlig zufälliger Weise verarbeiten. Zum Beispiel könnte einem LLM zufällig Teile des Linux-Kernel-Codes, obskure Buchhaltungsregeln aus Schottland und Kindergartenlieder zugeführt werden. Das zu trainierende LLM nimmt weiterhin zufällig ausgewählte Dokumente auf und macht Fortschritte, während mehr Dokumente aufgenommen werden, aber der gesamte Prozess ist ein wenig verblüffend.

Ähnlich ist offensichtlich, dass, wenn einige verrückte Eltern entscheiden würden, täglich Stunden damit zu verbringen, ihrem Säugling in zufälliger Reihenfolge Verträge über Quantenphysik vorzulesen, dies wahrscheinlich nicht zu einer gesunden intellektuellen Entwicklung beitragen würde. Eltern wissen instinktiv, dass sie mit Einfachheit beginnen und allmählich die Komplexität des Materials steigern müssen, während sich die Intelligenz des Kindes entwickelt. Während eine maschinelle Intelligenz nicht allen Eigenschaften der menschlichen Intelligenz genügen muss, bin ich sehr skeptisch, dass der Ursprung einer mechanischen Intelligenz jegliche Form von intellektueller Progression vollständig umgehen könnte.

Drittens, LLMs sind in Bezug auf ihr Quellmaterial wahnsinnig ineffizient. Was die rohen Denkfähigkeiten angeht, benötigt das LLM das Äquivalent von Hunderten von Lebenszeiten an Lesesitzungen, um Fähigkeiten zu erwerben, die viele Menschen in weniger als 20 Jahren erlangen. LeCun erwähnt diesen Defekt und führt seine Ursache auf das Fehlen einer Weltanschauung zurück (siehe oben). Meine Auffassung ist jedoch ganz anders: Ich erwarte, dass eine wirklich gut konstruierte Maschinenintelligenz mit weniger sprachlicher Information reift, als es ein typischer Mensch in seinen ersten 20 Lebensjahren erhält.

In der Tat gilt es als beiläufige Beobachtung, dass intelligente Menschen intellektuell mit wesentlich weniger deutlich mehr erreichen. Solche Menschen müssen sich Dinge nicht aus fünf verschiedenen Perspektiven erneut erklären lassen – das von LeCun erwähnte „Redundanz ist gut“ – um es zu verstehen. Sie lesen zwischen den Zeilen. Sie leiten aus dem wenigen Beweisstück, das ihnen vorliegt, das Richtige ab. Sie können es sich sogar leisten, beim Aufnehmen von Materialien (z. B. einem Vortrag, einem Buch) ziemlich abgelenkt zu sein und füllen die Lücken anschließend korrekt aus.

Daher, zurückgehend auf meinen ursprünglichen Vorschlag, dass das Problem in der Trennung zwischen Lernen und Inferenz liegt, fehlt den LLMs höchstwahrscheinlich (meiner bescheidenen Vermutung nach) eine aktive Zuhörfähigkeit – während sie bisher nur über passives Zuhören verfügen. Jedes Mal, wenn das System eine Frage beantwortet, sollte es seinen internen kognitiven Zustand entsprechend aktualisieren. Tatsächlich sollte der Prozess, durch den eine Intelligenz (maschinell oder menschlich) eine Frage beantwortet, zur Verbesserung dieser Intelligenz führen. Indem eine neue Frage beantwortet wird, muss etwas dazugelernt worden sein.

LLMs besitzen bereits einen Funken dieses Potenzials. Betrachten wir den untenstehenden GPT4-Turbo-Chat (siehe Anhang 1). Meine grundlegende Frage lautet Glaubst du, dass die Arbeitswerttheorie richtig ist?. In seiner ersten Chat-Antwort ist das LLM nicht in der Lage, die richtige Antwort zu geben. Stattdessen spuckt es die allgegenwärtige Verwirrung im Internet wieder aus, indem es eine willkürliche Liste von Argumenten zahlreicher Personen zu diesem Thema aufzählt. Sobald es jedoch erneut dazu aufgefordert wird, zu argumentieren und zu einer tatsächlichen Schlussfolgerung zu gelangen, gelangt das LLM – anstatt unentschlossen zu sein – zur korrekten Schlussfolgerung. Spoiler-Alarm: Diese Arbeitswerttheorie ist widerlegt. Eine großartige Antwort auf diese Frage hätte mit Die Arbeitswerttheorie ist eine mittlerweile widerlegte Theorie, die maßgeblich zum Fortschritt der Ökonomie beigetragen hat … oder in dieser Art beginnen sollen. Da das LLM jedoch nie die Gelegenheit hatte, die erhaltenen Informationen aktiv zu verarbeiten, hat sich dieses Verständnis nie kristallisiert.

Ich sehe mehrere Möglichkeiten, LLMs mit einer solchen aktiven Zuhörfähigkeit zu erweitern, was beinhalten würde, auch den eigenen Antworten zuzuhören. Eine Möglichkeit könnte ein gewisser „innerer Monolog“-Ansatz sein, bei dem jeder Input in einen Output umgewandelt wird, der dann zum Lernen verwendet wird. Dieses Muster würde die ersten beiden oben genannten Probleme adressieren: Der Input müsste in einer sinnvollen Reihenfolge eingespeist werden, um das gewünschte Ergebnis zu erzielen (beginnend mit dem Einfachen und anschließend in zunehmender Komplexität); und das LLM würde zunehmend in der Lage sein, unsinnigen Input abzulehnen, da der zum Lernen verwendete Output und nicht der Input maßgeblich ist.

Eine weitere Möglichkeit wäre eine Variante des von LeCun vorgeschlagenen energie-basierten Ansatzes. Der derzeit auf jedes Dokument, das vom LLM aufgenommen wird, angewandte SGD-Schritt (stochastischer Gradientenabstieg) stellt nur den passiven Zuhörteil dar. Ein zusätzlicher Prozess wäre erforderlich, um das Glaubenssystem des LLM jedes Mal, wenn ein neuer Input aufgenommen wird – einschließlich einer bloßen Frage – auf einen kleineren Raum zu komprimieren. Ein numerischer Optimierungsprozess sollte eingeführt werden, der als wahrheitssuchender Mechanismus fungiert und höchstwahrscheinlich in Form der Suche nach größerer Selbstkonsistenz der Outputs auftritt.

Fazit

Yann LeCun ist ein großartiger Wissenschaftler, und dieses Interview wirft eine ganze Reihe grundlegender Fragen auf. Ob es der Menschheit gelingt, in 20 oder 200 Jahren eine AGI zu erschaffen, wird wirklich davon abhängen, wie schnell wir sowohl die richtigen Fragen als auch die richtigen Antworten finden. LeCun setzt darauf, dass Videodaten den Weg zur AGI ebnen. Während ich glaube, dass LeCun eine faire Chance hat, etwas wirklich Bemerkenswertes aus seinen Forschungsbemühungen herauszuholen – namentlich das jahrzehntealte Problem der allgemeinen Mobilität in der Robotik zu lösen –, bin ich sehr skeptisch, dass dies zur AGI beitragen wird. Meine bescheidene Ansicht geht in die entgegengesetzte Richtung: Wir haben bereits mehr Textdaten, als wir benötigen sollten. Uns fehlen einfach neuartige Paradigmen. Wenn sich meine Vermutung als richtig erweist, sind dies fantastische Nachrichten für die Menschheit, denn Paradigmen können niemals besessen, geschweige denn monopolisiert werden. Außerdem sind Paradigmen kostengünstig. Sollte sich meine Vermutung jedoch als falsch erweisen, bin ich froh, dass der Chief AI Scientist von Meta ein leidenschaftlicher Verfechter von Open Source ist.

Anhang: Chat, eine Kritik an der Arbeitswerttheorie

Joannes: Glaubst du, dass die Arbeitswerttheorie richtig ist?

ChatGPT: Die Arbeitswerttheorie ist ein grundlegendes Konzept der klassischen Ökonomie, das insbesondere mit Adam Smith, David Ricardo und, am bekanntesten, Karl Marx assoziiert wird. Sie postuliert, dass der Wert einer Ware objektiv anhand der durchschnittlich benötigten Arbeitsstunden zur Produktion gemessen werden kann. Diese Theorie war einflussreich bei der Formung wirtschaftlicher Denkweisen, besonders in der marxistischen Ökonomie, die sie dazu verwendet, kapitalistische Gesellschaften und die Ausbeutung der Arbeit zu analysieren. Allerdings ist die Arbeitswerttheorie Gegenstand von Debatten und Kritik, insbesondere aus der Perspektive der neoklassischen Ökonomie und marginalistischen Theorien, die Ende des 19. und Anfang des 20. Jahrhunderts entstanden sind. Diese Theorien argumentieren, dass der Wert subjektiv ist und von individuellen Präferenzen sowie dem Grenznutzen von Gütern bestimmt wird, anstatt ausschließlich von der investierten Arbeit. Einige Kritiken an der Arbeitswerttheorie umfassen:

Subjektivität des Wertes: Marginalistische Ökonomen argumentieren, dass der Wert subjektiv ist und von individuellen Präferenzen, Bedürfnissen und dem Kontext, in dem Entscheidungen getroffen werden, abhängt. Zum Beispiel hat Wasser in einer Wüste einen anderen Wert als Wasser in einer seenreichen Region, unabhängig von der dafür aufgewendeten Arbeit.
Vernachlässigung von Kapital und Unternehmertum: Kritiker argumentieren, dass die Arbeitswerttheorie die Rollen von Kapital, Risiko und Unternehmertum im Produktionsprozess unterschätzt oder ignoriert. Diese Faktoren können die Kosten und Preise von Waren und Dienstleistungen erheblich beeinflussen.
Technologischer Wandel und Produktivität: Die Theorie berücksichtigt nicht vollständig, wie technologische Fortschritte und Produktivitätssteigerungen den Wert beeinflussen. Zum Beispiel kann Automatisierung den zur Produktion von Waren benötigten Arbeitsaufwand drastisch reduzieren, was zu erheblichen Diskrepanzen zwischen dem Arbeitswert und dem Marktpreis von Waren führen kann.
Variabilität von Können und Intensität: Die Theorie geht davon aus, dass alle Arbeitsstunden gleichwertig sind, aber in Wirklichkeit können sich Fähigkeiten, Intensität und Produktivität der Arbeit stark unterscheiden. Dies macht es schwierig, den Arbeitswert zu standardisieren. Trotz dieser Kritiken bleibt die Arbeitswerttheorie ein wichtiges Konzept zum Verständnis der Wirtschaftsgeschichte und der Entwicklung ökonomischer Denkweisen. Sie war besonders einflussreich in den Kritiken am Kapitalismus und in Diskussionen über Einkommensungleichheit, Ausbeutung und die Verteilung von Wohlstand. Ob man sie als „richtig“ ansieht, hängt weitgehend von der eigenen wirtschaftlichen Philosophie, den Werten und den Aspekten wirtschaftlicher Aktivität ab, die man betont.

Joannes: Als überprüfbare und vielfach getestete wissenschaftliche Hypothese – hältst du diese Theorie für bewiesen oder widerlegt? Überlege es dir und folgere dann. Deine Schlussfolgerung sollte entweder als bewiesen oder als widerlegt gelten, nichts dazwischen.

ChatGPT: Wenn man die Arbeitswerttheorie als überprüfbare, wissenschaftliche Hypothese bewertet, ist es entscheidend, die Methodologie der wirtschaftlichen Analyse sowie die Kriterien für das Beweisen oder Widerlegen von Theorien in den Sozialwissenschaften zu berücksichtigen, die aufgrund der Komplexität menschlichen Verhaltens und wirtschaftlicher Systeme grundlegend von denen der Naturwissenschaften abweichen können.

Überprüfbarkeit und empirische Evidenz:

Die Arbeitswerttheorie besagt, dass der Wert einer Ware durch die zur Produktion benötigte Arbeit bestimmt wird. Dieses Prinzip kann teilweise getestet werden, indem man die Korrelation zwischen Arbeitskosten und Marktpreisen untersucht. Empirische Befunde zeigen jedoch ein gemischtes Bild. Zwar gibt es häufig eine Korrelation zwischen dem Arbeitseinsatz und den Preisen, zahlreiche Ausnahmen werden jedoch durch Angebots- und Nachfrage-Dynamiken, technologische Veränderungen und Verbraucherpräferenzen bedingt.
Zudem hat die Theorie Schwierigkeiten, den Wert von Waren zu erklären, die kaum bis gar keine Arbeit erfordern, um produziert zu werden (wie digitale Güter oder natürliche Ressourcen), diese aber aufgrund von Knappheit oder Nachfrage hohe Marktpreise erzielen können.

Wissenschaftlicher Konsens und Kritiken:

Das Aufkommen der marginalistischen und neoklassischen Ökonomie führte das Konzept des subjektiven Wertes und des Grenznutzens ein, welche einen flexibleren Rahmen für das Verständnis der Preisfindung und des Konsumentenverhaltens bieten. Diese Modelle erklären die Preisvariationen, die allein durch den Arbeitseinsatz nicht erklärbar sind, besser.
Die Arbeitswerttheorie wurde dafür kritisiert, dass sie die Rolle von Kapital, Risiko, Unternehmertum und technologischem Fortschritt bei der Wertschöpfung nicht ausreichend erklärt.

Schlussfolgerung: Angesichts der Kriterien für wissenschaftlichen Beweis, die konsistente, wiederholbare Evidenz und Vorhersagefähigkeit verlangen, ist die Arbeitswerttheorie als universelle Erklärung für die Wertermittlung in der Ökonomie widerlegt. Zwar erfasst sie bestimmte Aspekte der Wertschöpfung und kann einige ökonomische Phänomene erklären, jedoch vermag sie der gesamten Komplexität der Preisbestimmung in einer Marktwirtschaft nicht gerecht zu werden. Die Theorie hält dem empirischen Nachweis in unterschiedlichen wirtschaftlichen Zusammenhängen nicht stand und wurde von Theorien verdrängt, die die Vielzahl der Einflussfaktoren auf Wert und Preis besser berücksichtigen.

Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎
Siehe das Geoffrey-Hinton-Interview, das der New York Times gegeben wurde, „The Godfather of A.I. verlässt Google und warnt vor drohender Gefahr“, 1. Mai 2023. ↩︎
Die Nutzung von Wissen in der Gesellschaft, von Friedrich Hayek, September 1945 ↩︎
Beispielsweise erinnerte 2022 der Vorsitzende von TSMC, Mark Liu, die Öffentlichkeit daran, dass, sollte China Taiwan angreifen und TSMC-Einrichtungen sowie deren Personal in Besitz nehmen, die Produktionskapazitäten von TSMC allein dadurch außer Betrieb gesetzt würden, dass ihre westlichen Partner sich weigern, sie weiterhin zu unterstützen. ↩︎
Das Chain-of-Thought-Prompting löst Schlussfolgerungen in großen Sprachmodellen aus, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, Januar 2022. ↩︎
Sprachentzugsexperimente. ↩︎
Moravecs Paradoxon. ↩︎