00:00:01 Einführung und Diskussion zur generativen KI.
00:01:11 Erforschung des generativen Problems und seiner Lösungen.
00:02:07 Diskussion über die Entwicklung und den Fortschritt der generativen KI.
00:03:02 Meilensteine im Machine Learning und der Zugänglichkeit von Werkzeugen.
00:04:03 Diskussion der Eigenheiten und Ergebnisse von KI-Werkzeugen.
00:05:00 Popularität und Zugänglichkeit der generativen KI.
00:06:33 Bilderzeugung mit Stable Diffusion, die zugänglich wird.
00:07:37 Diskussion über die Zugänglichkeit von Generator-Werkzeugen.
00:08:43 Erklärung der Erzeugung hochdimensionaler Objekte.
00:09:38 Herausforderungen und Verbesserungen in der Dimensionskapazität.
00:10:07 Erforschung der Textgenerierung und ihrer Einschränkungen.
00:11:15 Diskussion über die Konsistenz auf unterschiedlichen Skalen.
00:12:24 Wechsel zum Thema der Spezifität und Vielseitigkeit von Generatoren.
00:13:46 Vergleich der von KI erzeugten Ergebnisse mit menschlichen.
00:14:59 Diskussion über Machine-Learning-Modelle und Sprachgenerierung.
00:15:51 Erkundung der Ausschneide- und Einfügemethode in der KI.
00:16:30 Hervorhebung des Mangels an gesundem Menschenverstand in der KI.
00:17:26 Erwähnung von ChatGPTs Leistung bei IQ-Tests.
00:18:45 Diskussion über das Verständnis der KI und Beispiele.
00:19:47 Oberflächliches Verständnis der KI und hochdimensionale Vermischung.
00:20:41 Komplexität der künstlichen Intelligenz und ihrer Geschichte.
00:21:58 Die unbekannten Elemente und der Fortschritt der KI-Intelligenz.
00:22:25 Diskussion über sich ändernde Wahrnehmungen von Intelligenz.
00:23:45 Einsichten in Deep Learning und künstliche Intelligenz.
00:24:24 Konzept des latenten Wissens in menschlichen Sprachen.
00:25:59 Verständnis des Universums in alten und modernen Zeiten.
00:27:02 Einführung in das Konzept der ‘Anti-Fragilität’ aus Nasim Talebs Buch
00:28:01 Anti-Fragilität in Ökosystemen und menschlichen Gesellschaften
00:29:31 Kritik an ChatGPTs Fähigkeit, ‘intelligente’ Diskurse zu erzeugen.
00:31:05 Betrachtung der Anwendungsmöglichkeiten generativer KI in Unternehmen.
00:31:37 Die potenzielle Rolle generativer KI im Supply Chain Management.
00:33:34 Begrenzte Fähigkeiten von ChatGPT in datenarmen Bereichen.
00:35:00 Vorsicht bei der Verwendung von KI-generiertem Code in kritischen Systemen.
00:36:04 Vorteile der KI für die Supply Chain und angrenzende Aktivitäten.
00:37:37 Diskussion über den Trend zu einem breiteren Korpus für Code-Vervollständigung.
00:38:45 Vergleich der Parameteranforderungen: ChatGPT vs. kleinerer Generator.
00:40:45 Die Auswirkungen generativer KI auf Unternehmen und Supply Chain.
00:41:19 Diskussion über Lovecrafts Sicht auf die tiefen Wahrheiten des Universums.
00:42:01 Zusammenhang zwischen dem Missbrauch von Technologie und Supply Chain-Software.
00:42:56 Bedenken hinsichtlich der Erstellung und Überprüfung gefälschter Fallstudien.
00:44:04 Kritik an den vagen Marketingaussagen der Konkurrenten von Lokad.
00:45:10 Diskussion über die Einschränkungen von KI-Sprachmodellen.
00:46:08 Erklärung der Besonderheiten der KI in der Technologie.
00:47:00 Bedeutung spezifischer Terminologie in der KI.
00:48:01 Analogie des Fensterkaufs zum KI-Verständnis.
00:48:48 Diskussion über Integrationsprobleme in der Softwarearchitektur.
00:50:14 Die Bedeutung des Kerndesigns in Unternehmenssoftware.
00:50:54 Beispiel für ein Kerndesign in einer transaktionalen Datenbank.
00:51:48 Die Notwendigkeit eines ordentlichen Softwaredesigns und der Integration.
00:52:52 Ratschläge zur Bewertung der Technologie von Anbietern.
00:53:36 Bedeutung der Öffentlichmachung von Errungenschaften in der Technik.
00:54:20 KI als Schlagwort und Überprüfung von Anbietern.
00:55:25 Abschließende Bemerkungen und Interviewende.

Zusammenfassung

In diesem Interview diskutiert Joannes Vermorel, der Gründer von Lokad, den Zustand und die Auswirkungen generativer KI, wobei er sich speziell auf Fortschritte wie ChatGPT und Stable Diffusion konzentriert. Vermorel erklärt generative KI und ihre Geschichte und hebt den schrittweisen Fortschritt in der Bild- und Textgenerierung hervor. Er erwähnt die benutzerfreundliche Natur aktueller Werkzeuge wie Stable Diffusion und ChatGPT, die die Erfolgsraten und die Zugänglichkeit verbessert haben. Vermorel betont die Einschränkungen der derzeitigen KI-Modelle in Bezug auf gesunden Menschenverstand und echte Intelligenz. Er diskutiert auch die Herausforderungen und das Potenzial der KI im Supply Chain Management und kritisiert die vagen und irreführenden Behauptungen einiger Unternehmen hinsichtlich ihrer KI-Fähigkeiten. Vermorel unterstreicht die Bedeutung, die zugrunde liegende Technologie zu verstehen und bei der Bewertung von KI-Lösungen vorsichtig zu sein.

Ausführliche Zusammenfassung

Im Interview zwischen dem Moderator Conor Doherty und Joannes Vermorel, dem Gründer von Lokad, diskutieren sie den aktuellen Stand und die Auswirkungen generativer KI, wobei sie sich insbesondere auf Fortschritte wie ChatGPT für Texte und Stable Diffusion für Bilder konzentrieren.

Vermorel beginnt damit, generative KI als eine Sammlung vorgeschlagener Lösungen für das generative Problem zu definieren, das darin besteht, einen Algorithmus oder eine Methode zu entwickeln, um eine weitere Instanz einer digitalen Darstellung einer Sammlung von Objekten zu erzeugen. Er erwähnt, dass diese Art von Problemen seit Jahrzehnten existiert und es für spezielle Anwendungen erfolgreiche Generatoren gegeben hat. Zum Beispiel wurden Generatoren verwendet, um Namen für realistisch klingende Orte in England oder Titel für einen Stephen-King-Roman zu erstellen.

Ebenso gab es im Bereich der Bildgenerierung Generatoren, die in der Lage waren, eine Karte zu erstellen, die wie ein Schauplatz aus ‘Der Herr der Ringe’ aussieht, komplett mit Bergen, Wäldern, Küstenlinien und Fantasienamen. Der Fortschritt in diesem Bereich war laut Vermorel schrittweise, mit dem Ziel, die Generatoren breiter aufzustellen und zunehmend von Eingabedatensätzen abhängig zu machen, anstatt von einer umfangreichen Menge vorab kodierter Regeln.

Unter Hervorhebung von zwei bemerkenswerten Meilensteinen, die im vergangenen Jahr von der breiteren Machine Learning Gemeinschaft erreicht wurden, verweist Vermorel auf ChatGPT für Texte und Stable Diffusion für Bilder. Obwohl dies bedeutende Fortschritte waren, die diese Werkzeuge zugänglicher gemacht haben, betont er, dass sie eher schrittweise als bahnbrechend waren und keine neuen Entdeckungen in Statistik, Mathematik oder Informatik darstellen.

Jedoch war die Tatsache, dass diese Werkzeuge so aufbereitet und verfeinert waren, dass Laien binnen Minuten mit ihrer Nutzung beginnen konnten, durchaus bemerkenswert. Dies stand im Gegensatz zu früheren generativen Werkzeugen, die, obwohl sie in der Lage waren, beeindruckende Bilder oder Texte zu erzeugen, häufig mit vielen Tücken verbunden waren und ein gewisses Maß an Fachkenntnissen erforderten, um effektiv eingesetzt zu werden.

Stable Diffusion und ChatGPT zeichneten sich durch ihre benutzerfreundliche Natur aus. Bei Stable Diffusion konnte man beispielsweise einen einfachen Prompt eingeben, wie “schönes Schloss inmitten des Waldes”, und in 20 % der Fälle ein plausibles Bild erhalten. Auch wenn dies weit von perfekt entfernt war, stellte es eine deutliche Verbesserung gegenüber früheren Generierungstechniken dar, die nur eine Erfolgsquote von 1 % aufwiesen.

Dies bedeutete einen Größenordnungswechsel, ein Eindruck, der sich auch in Vermorels Ausführungen zu ChatGPT widerspiegelt. Ähnlich wie bei Stable Diffusion markierte die Einführung von ChatGPT einen Wandel hin zu benutzerfreundlicheren und zugänglicheren Werkzeugen im Bereich der generativen KI.

In diesem Abschnitt des Interviews diskutieren Conor Doherty und Joannes Vermorel, Gründer von Lokad, die jüngste Entwicklung und die Auswirkungen von Generative Pre-trained Transformer (GPT)-Modellen. Vermorel betont, dass das populäre ChatGPT-Modell nicht grundsätzlich neu sei, sondern vielmehr eine aufbereitete und zugänglich gemachte Version bereits vorhandener Technologie. Er bezeichnet das Jahr 2022 als das Jahr, in dem generative KI der breiten Öffentlichkeit zugänglich gemacht wurde, vor allem aufgrund von Verbesserungen in der Benutzerfreundlichkeit.

Das Gespräch wendet sich dann spezifischen Fällen zu, in denen GPT-Modelle einen signifikanten öffentlichen Eindruck hinterlassen haben. Vermorel verweist auf die Veröffentlichungen des letzten Jahres, wie Stable Diffusion und die dritte Iteration von ChatGPT. Er erklärt, dass der Reiz und Erfolg dieser Modelle in dem Einsatz liegt, den Forschungsteams geleistet haben, um diese Technologien benutzerfreundlich zu verpacken.

Vermorel liefert Beispiele für diese Zugänglichkeit. Er merkt an, dass Stable Diffusion, ein Werkzeug zur Bildgenerierung, als Open-Source-Software veröffentlicht wurde. Dies ermöglichte es Nutzern mit minimalen Python-Kenntnissen, in etwa zwei Stunden eine Python-Programmierumgebung einzurichten und das Werkzeug eigenständig zu erkunden. Vermorel hebt hervor, dass man für die Nutzung von Stable Diffusion kein versierter Python-Programmierer sein muss; ein grundlegendes Verständnis der Ausführung über die Kommandozeile genügt.

Er verweist auch auf die Verfügbarkeit von Online-Tutorials und die Einführung einer kostenlosen Benutzeroberfläche namens Dream Studio, die es den Nutzern ermöglicht, bis zu 100 Bilder kostenlos zu erzeugen. Für nachfolgende Bildsätze müssen die Nutzer eine Gebühr zahlen, ein Modell, das auch für die Webanwendung von GPT gilt.

Joannes Vermorel erklärt zunächst die Komplexität der Erzeugung eines hochdimensionalen Bildes, indem er ein Beispiel eines 1000x1000 Pixel großen Bildes anführt, das im Wesentlichen drei Millionen Dimensionen entspricht, wenn man die drei Primärfarben berücksichtigt. Er erwähnt weiter, dass die ersten Iterationen auf eine Kapazität von 512x512 beschränkt waren, obwohl Verbesserungen in Arbeit sind.

Ähnlich wird das Problem der Textgenerierung diskutiert. Vermorel erklärt, dass die Dimensionalität bei der Textgenerierung aus zwei Richtungen entsteht. Die erste bezieht sich auf die Eingabegröße oder den Prompt, der von einer Zeile bis zu mehreren Absätzen oder sogar Seiten variieren kann. Die zweite betrifft, wie weit die Generierung fortschreitet, bevor das Modell die Konsistenz verliert.

Vermorel weist auf die Einschränkungen der aktuellen Modelle hin, da sie nicht in der Lage sind, ein ganzes Buch von Anfang bis Ende konsistent zu erzeugen. Die Herausforderungen nehmen mit der Größe des Textes zu: Ein einzelnes Wort erfordert lokale Konsistenz, ein Satz Konsistenz auf einer größeren Ebene, ein Absatz noch mehr, und ein Buch würde potenziell Millionen oder zig Millionen abstrakter Dimensionen beinhalten.

Das Gespräch wendet sich dann dem Aspekt der “Generosität” in diesen Modellen zu. Vermorel interpretiert dies als die Fähigkeit eines Modells, verschiedene Probleme anzugehen oder vielfältige Ausgaben zu generieren. Eine interessante Entwicklung in den letzten fünf Jahren ist laut Vermorel die Fähigkeit der Deep Learning Gemeinschaft, massive Datensätze zu nutzen.

Ob es sich um Textdaten aus verschiedenen Quellen wie Wikipedia, Webforen oder juristischen Texten handelt – die Deep Learning-Modelle haben sich so weiterentwickelt, dass sie vielfältige Ausgaben erzeugen können. Sie können nun alles produzieren, von Poesie über Juristendeutsch, Code oder sogar genomische Sequenzen, wenn sie korrekt angesteuert werden. Gleiches gilt für Bilder, bei denen die Ausgaben von Pixel Art über fotorealistische Darstellungen bis hin zu unterschiedlichen Malstilen reichen können.

Conor Doherty fragt Joannes Vermorel nach der Raffinesse von KI-Modellen wie ChatGPT im Vergleich zu Menschen. Vermorel geht auf den Begriff der Raffinesse ein und erklärt, dass dieser komplex sei, weil es einer genauen Definition und Klärung bedarf. Als Antwort auf einen möglichen Einsatz des Turing-Tests stellt er fest, dass der aktuelle Zustand der KI-Modelle stark davon abhängt, riesige Mengen an Daten miteinander zu verbinden, wobei sie auf ein enormes Korpus an Texten zurückgreifen.

Bis zu einem gewissen Grad argumentiert er, dass das, was ChatGPT produziert, eine Art fortgeschrittener “Ausschneiden-und-Einfügen”-Prozess ist, bei dem Textausschnitte, die im Internet zu finden sind, zusammengefügt werden. Er räumt ein, dass die Stärke des Modells darin liegt, diese Stücke grammatikalisch und syntaktisch korrekt zusammenzufügen und dabei hochrangige statistische Muster zu erkennen, die zwischen Wörtern, Phrasen und Sätzen existieren. Vermorel betont, dass der resultierende Text zwar menschenähnlich klingen mag, jedoch hauptsächlich eine Reproduktion von bereits vorhandenem, von Menschen verfasstem Inhalt ist.

Allerdings mildert Vermorel die Diskussion ab, indem er hervorhebt, dass diese Modelle keinen gesunden Menschenverstand besitzen. Er zitiert ein Beispiel vom Leiter der KI bei Facebook, der behauptet, dass selbst die fortschrittlichsten KI-Modelle nicht den gesunden Menschenverstand einer Katze haben. Dies liegt daran, dass KI grundsätzlich auf statistischen Zusammenhängen beruht und das intuitive Verständnis, das mit gesundem Menschenverstand einhergeht, fehlt. Er veranschaulicht diesen Punkt mit einem humorvollen Szenario, in dem ein KI-Modell eine GPS-Route vorschlägt, um den Verkehr in der Mitte des Atlantiks zu vermeiden, wobei es die Absurdität der Situation übersieht.

Um die Einschränkungen der aktuellen KI weiter zu verdeutlichen, diskutiert Vermorel ein Amazon-Forschungsexperiment, bei dem ChatGPT einer Reihe von IQ-Tests unterzogen wurde. Die Ergebnisse platzierten das KI-Modell etwa eine Standardabweichung unter dem Durchschnitt, was mit seiner Ansicht übereinstimmt, dass KI in erster Linie Informationen zusammenfügt, ohne das angeborene Verständnis, das Menschen besitzen.

Er betont jedoch, dass selbst eine Person mit eingeschränkten kognitiven Fähigkeiten weit intelligenter ist als eine Katze. Dieser Vergleich soll verdeutlichen, dass selbst mit all ihren beeindruckenden Fähigkeiten die KI bei weitem nicht das Intelligenzniveau einer Katze erreicht, geschweige denn das eines Menschen. Vermorel erinnert uns daran, dass wir, trotz unserer Wahrnehmung der kognitiven Einschränkungen einer Katze, noch einen weiten Weg vor uns haben, ein KI-Modell mit vergleichbarer Intelligenz zu schaffen.

Dieses Gespräch unterstreicht die Komplexität der KI-Raffinesse, den Prozess hinter der Textgenerierung durch KI und die derzeitigen Einschränkungen der KI in Bezug auf gesunden Menschenverstand und intrinsisches Verständnis. Es bietet eine wertvolle Perspektive auf den Stand der KI und ihre aktuellen Fähigkeiten, während es gleichzeitig die Erwartungen an ihre unmittelbare Zukunft relativiert.

Vermorel erläutert die Auffassung, dass das Verständnis der Welt durch KI unglaublich oberflächlich ist. Er beschreibt die Prozesse, die diese Modelle nutzen, als “hochdimensionale Mischung der Eingangsdaten”. Er zieht auch in Betracht, dass dies mit ausgefeilteren Modellen ausreichen könnte, um Intelligenz zu erreichen, vermutet jedoch, dass echte Intelligenz komplexer sein könnte.

Seiner Ansicht nach ging es bei der Entwicklung der KI mehr darum, herauszufinden, was Intelligenz nicht ist, als sie zu definieren. Dieser Klärungsprozess läuft seit etwa 70 Jahren. Er betrachtet den Durchbruch des Deep Learning in den Jahren 2011-2012 als einen bedeutenden Wendepunkt, der eine Vielzahl von Anwendungen ermöglichte, die zu erheblichen Erkenntnissen geführt haben. Er betont jedoch die Unsicherheit in diesem Bereich. Er nimmt an, dass unser Verständnis von Intelligenz jedes Mal neu definiert werden muss, wenn eine neue KI-Technik entwickelt wird.

Der Moderator fragt Vermorel dann nach den Verbesserungen der Leistungsfähigkeit von KI in den verschiedenen Iterationen, mit besonderem Fokus auf ChatGPT. Vermorel stimmt zu, dass generative KI, einschließlich ChatGPT, sich im Laufe der Zeit erheblich verbessert hat, weist jedoch darauf hin, dass es schwierig ist, das Ausmaß der Verbesserungen zu quantifizieren, die nötig sind, um die bestehende Lücke im Verständnis von Konzepten durch KI zu überbrücken.

Als Antwort auf Dohertys Frage, wie viel besser die vierte Iteration von ChatGPT sein müsste, gibt Vermorel offen zu, dass keine Gewissheit besteht. Er unterstreicht, dass es hierbei nicht lediglich um einen linearen Fortschritt gehe. Das grundlegende Problem, so behauptet er, liegt darin, dass wir nicht wissen, was uns in unserem Verständnis von Intelligenz fehlt.

Aus historischer Perspektive merkt Vermorel an, dass vor einem Jahrhundert die Intelligenz eines Individuums daran gemessen wurde, wie gut es komplexe mathematische Aufgaben, wie das Invertieren einer Matrix, bewältigen konnte. Unser Verständnis und die Messgrößen von Intelligenz haben sich seither jedoch erheblich verschoben und weiterentwickelt. Er meint, dass sich die Entwicklung der KI in ähnlicher Weise wandeln könnte, während wir weiterhin unsere Vorstellungen von Intelligenz erkunden und hinterfragen. Vor einem Jahrhundert galten Fertigkeiten wie das Invertieren von Matrizen oder das Berechnen der 20 Stellen von pi als Zeichen überlegener Intelligenz. Heutzutage werden diese Aufgaben als mechanistisch angesehen, da sie von einem einfachen Taschenrechner mühelos ausgeführt werden können, was die Verbindung zu Intelligenz in Frage stellt. Er merkt zudem an, dass Computer, obwohl sie diese Aufgaben um Größenordnungen besser als Menschen bewältigen, nicht als intelligent gelten.

Vermorels Diskussion verlagert sich auf die Fähigkeiten und Implikationen der KI, wobei er sich insbesondere auf die Generierung mittels Deep Learning konzentriert. Er legt dar, dass die KI viele Aufgaben aufgedeckt hat, die oberflächlich betrachtet unglaublich herausfordernd erscheinen, aber möglicherweise nicht so sehr die Intelligenz abbilden, wie ursprünglich angenommen. Als Beispiel betrachtet er die Textgenerierungsfähigkeiten von ChatGPT. Anstatt zu demonstrieren, was Intelligenz ist, schlägt Vermorel vor, dass sie zeigt, was Intelligenz nicht ist. Er sieht ChatGPT eher als einen Spiegel der enormen Menge an latent vorhandenem Wissen innerhalb der menschlichen Sprache denn als einen Beweis echter Intelligenz.

Im Weiteren zum Konzept des latenten Wissens beschreibt Vermorel dieses als die kumulative Gesamtheit des menschlichen Verständnisses und Wissens, das implizit in der Sprache repräsentiert ist. Dieses latente Wissen wird oft in strukturierten Formen wie Datenbanken, Karten und anderen festgehalten, die Details wie chemische Eigenschaften, Materialwiderstände und Schmelzpunkte enthalten. Vermorel betont jedoch, dass die Sprache ebenfalls einen bedeutenden Teil dieses Wissens verkörpert. Er argumentiert, dass die Wörter und Ausdrücke, die wir verwenden, unser kollektives Verständnis des Universums widerspiegeln. So setzt beispielsweise die Aussage, dass “Planeten Sterne umkreisen”, ein Verständnis astrophysikalischer Konzepte voraus.

Dieses latente Wissen, so meint er, ist selbst in den einfachsten Formen sprachlicher Ausdrucksweise eingebettet, wie etwa in Wörterbuchdefinitionen, die vieles der modernen Wissenschaft umfassen können. Er behauptet weiter, dass das Fehlen bestimmter Wörter oder Konzepte verhindern kann, dass manche Wissensformen überhaupt erkannt werden. Zur Veranschaulichung verweist er auf das Buch “Anti-Fragile” von Nassim Taleb. Er erläutert das Konzept der “anti-fragility” – ein von Taleb geprägter Begriff, der einen Zustand beschreibt, der nicht nur Chaos und Unordnung widersteht, sondern in solchen Bedingungen gedeiht und sich verbessert. Dies steht im Gegensatz zu etwas “Fragilem”, das unter Unordnung verschlechtert, oder etwas “Dauerhaftem”, das Chaos lediglich langsamer aushält. Vermorel findet dieses Konzept bedeutend, da es eine neue Perspektive einführte, um verschiedene Systeme von Ökosystemen bis hin zu menschlichen Gesellschaften zu verstehen.

Ihre Diskussion erstreckt sich auf die inhärente Beziehung zwischen Sprache und Wissen. Vermorel veranschaulicht, wie die Einführung eines neuen Begriffs oder Konzepts, wie “anti-fragile”, das Verständnis erheblich bereichern kann, wenn auch in einer Weise, die aufgrund der Beschränkungen der Sprache schwer zu erfassen sein kann. Er betont die Rolle der Sprache bei der Vermittlung und Kommunikation von Wissen.

In Hinblick auf das Thema künstliche Intelligenz erörtert Vermorel das Phänomen des in der Sprache vorhandenen latenten Wissens. Er weist darauf hin, dass dieses latente Wissen eine entscheidende Rolle in Anwendungen wie OpenAIs ChatGPT spielt, einem Modell, das in der Lage ist, menschenähnlichen Text zu generieren. Vermorel beschreibt ChatGPT kritisch als einen “Plattitüdengenerator” und führt seine scheinbare Intelligenz darauf zurück, dass es dazu neigt, weit verbreitete Ideen oder Idiome aus umfangreichen, diversen Datensätzen zusammenzusetzen.

Trotz seiner Kritik räumt Vermorel die beeindruckende Fähigkeit von ChatGPT ein, kohärente und kontextuell passende Inhalte zu generieren, selbst in Bereichen, mit denen der Nutzer möglicherweise nicht vertraut ist. Diese Eigenschaft, so schlägt er vor, verdankt ChatGPT dem Training an einem supermassiven Datensatz, der Millionen von Seiten Text aus äußerst vielfältigen Bereichen umfasst.

Im weiteren Verlauf des Gesprächs erörtern sie die praktischen Anwendungen von generativer KI wie ChatGPT im Kontext von Enterprise- und supply chain management. Aus Vermorels Sicht wird der Einfluss generativer KI auf das supply chain management zumindest in direkter Hinsicht nicht signifikant sein. Er betont jedoch auch die Herausforderung, die Zukunft vorherzusagen, und deutet an, dass sich der Umfang und das Potenzial generativer KI noch weiterentwickeln und uns in Zukunft überraschen könnten.

Vermorel behauptet, dass die zunehmende Bedeutung und Leistungsfähigkeit von KI-Technologien möglicherweise keinen wesentlichen Einfluss auf die Optimierung von supply chain haben wird. Er führt dies darauf zurück, dass diese Modelle auf großen, frei zugänglichen Informationsquellen gedeihen, wie dem Web, wo sie Bilder und Text-Tags analysieren. Allerdings sind die für das supply chain management kritischen Daten – beispielsweise die Transaktionshistorie – unternehmensspezifisch und werden nicht offen geteilt oder sind nicht leicht zugänglich. Daher könnte die derzeitige Form dieser KI-Tools die notwendigen Informationen zur optimize supply chain von Prozessen effektiv zu gestalten, nicht bereitstellen.

Mit Blick auf das Verkaufsbeispiel von Türrahmen erklärt Vermorel, dass generische Daten über Türrahmen für die supply chain-Planung weniger nützlich sind im Vergleich zur spezifischen sales history eines Unternehmens bezüglich Türrahmen. Er betont, dass diese Daten, die im silo des Unternehmens verborgen sind, eine more accurate Vorhersage darüber liefern, was bestellt, produziert und gelagert werden soll.

Vermorel räumt jedoch ein, dass KI-Sprachmodelle für einige Aufgaben wertvoll sein könnten. Zum Beispiel kann ChatGPT dabei helfen, Code-Snippets zu generieren, dank der großen Menge an frei verfügbarer Code im Internet, vorwiegend auf Plattformen wie GitHub. Diese Verfügbarkeit ermöglicht es der KI, anständige Code-Snippets oder Programme zu erstellen, die als Produktivitätstool für Programmierer dienen. Dennoch warnt er vor der Notwendigkeit sorgfältiger Überwachung, da der von der KI generierte Code auch fehlerhaft sein könnte.

Mit Blick in die Zukunft spekuliert Vermorel, dass KI-Sprachmodelle in Bereichen wie Notizen machen, Korrekturlesen und Zusammenfassungen von Meetings hilfreich sein könnten. Beispielsweise könnten sie in der Lage sein, eine zweistündige Meeting-Diskussion in eine zweiseitige Zusammenfassung zu komprimieren und dabei die wesentlichen Details beizubehalten. Er deutet jedoch an, dass derzeit KI-Tools wie ChatGPT aufgrund ihrer inhärenten Beschränkungen mit solchen Aufgaben zu kämpfen haben könnten. Nichtsdestotrotz ist er überzeugt, dass sich KI-Technologien im nächsten Jahrzehnt weiterentwickeln werden, um solche Aufgaben effektiver zu bewältigen.

Vermorel identifiziert Daten als die zentrale Herausforderung und weist darauf hin, dass generative KI-Modelle nicht zwangsläufig gut mit den inhärenten Komplexitäten von supply chain-Daten umgehen. Doherty bringt dann die Idee von GitHub Co-pilot ins Spiel, einem Tool, das zur Unterstützung beim Programmieren entwickelt wurde und sogar eigenständig anständigen Code produzieren kann. Er fragt, ob dies nicht besser für die Aufgabe geeignet wäre.

Vermorel weist dies zurück und erklärt, dass GitHub Co-pilot und ChatGPT-3 nahezu identische technologische Grundlagen teilen – beide verwenden die Transformer-Architektur. Die Unterschiede liegen in der Benutzererfahrung, wobei GitHub Co-pilot mit jeder Tastenbetätigung eine automatische Vervollständigung bietet, während ChatGPT-3 eher dialogorientiert ist. Vermorel prognostiziert, dass das beste Tool zur Codevervollständigung wahrscheinlich einen breiteren Korpus als nur Code nutzen wird.

Weiterhin verweist Vermorel auf ein aktuelles Paper eines Amazon-Teams. Es behandelt einen vielversprechenden Generator, der Bild- und Textdaten miteinander kombiniert und eine vergleichbare und gelegentlich überlegene Leistung gegenüber ChatGPT-3 erzielt, jedoch mit weniger Parametern (eine Milliarde im Vergleich zu ChatGPT-3s hundert Milliarden). Diese Ansicht, so Vermorel, ist faszinierend, da sie nahelegt, dass die Mischung vielfältigerer Datentypen ein Modell schaffen kann, das einfacher und dennoch leistungsfähiger ist.

Vermorel hebt eine paradoxe Beobachtung in der Entwicklung von KI-Modellen hervor: Größere Modelle, wie ChatGPT-3, sind nicht zwangsläufig besser. Er verweist auf Stable Diffusion, ein Modell, das wesentlich schlanker und schneller ist als sein Vorgänger, das Generative Adversarial Network, obwohl es nur etwa eine Milliarde Parameter umfasst. Es ist unklar, so stellt Vermorel fest, ob Modelle, die so groß sind wie ChatGPT-3 (welches in den Billionenbereich geht), wirklich notwendig sind.

Um diesen Punkt zu unterstreichen, erwähnt er erneut die Forschung des Amazon-Teams, das behauptet, die Leistung von ChatGPT-3 fast mit einem Modell mit einer Milliarde Parametern reproduziert zu haben. Diese kleinere Größe ermöglicht, so erklärt er, den Betrieb auf gängigen Grafikkarten, wie sie in heutigen Laptops und Workstations zu finden sind. Dies öffnet eine Tür zu größerer Zugänglichkeit.

Zum Ausgangsthema zurückkehrend fragt Doherty, ob generative KI netto positive oder negative Auswirkungen speziell für Unternehmen und, insbesondere, supply chains mit sich bringt.

Vermorel erklärt, dass Fortschritte in Wissenschaft und Technologie im Allgemeinen gut sind, was im Widerspruch zur pessimistischen Perspektive von Lovecraft steht, der glaubte, dass es im Universum bestimmte tiefe oder fundamentale Wahrheiten gibt, die so brutal und feindselig gegenüber menschlichen Verstand sind, dass deren Entdeckung einen in den Wahnsinn treiben würde.

Vermorel räumt ein, dass jedes Werkzeug, seit der Steinzeit, sowohl genutzt als auch missbraucht werden kann. Im Kontext von supply chain enterprise software, befürchtet er eine Zunahme an Verwirrung aufgrund des Missbrauchs von Technologie, speziell der künstlichen Intelligenz. Seiner Meinung nach übertreiben Anbieter bereits den Hype um KI, und dies könnte sich durch endlose, gefälschte Fallstudien ihrer Marketingabteilungen noch verstärken. Dies könnte zu noch irreführenderen Behauptungen und nicht überprüfbaren Fallstudien führen.

Vermorel erklärt, dass früher die Erstellung einer gefälschten Fallstudie mit einigem Aufwand verbunden war, heute jedoch dank KI mühelos möglich ist. Er weist auch darauf hin, dass die Teilnehmer an einer Fallstudie keinen Anreiz haben, zu sagen, dass die von dem Unternehmen behaupteten Vorteile falsch sind. Sie bestätigen diese Vorteile in der Regel und schreiben sich einen Teil des Erfolgs zu. Vermorel prognostiziert, dass diese Technologien die Situation noch komplizierter machen werden.

Im Rahmen der Diskussion über die Marketingstrategie seiner Konkurrenten äußert Vermorel seine Enttäuschung über den dürftigen und wenig informativen Einsatz des Begriffs “AI for supply chain”. Er kritisiert deren mangelnde Transparenz und wie es ihnen gelingt, seitenlange Texte voller Plattitüden zu schreiben, ohne wesentliche Informationen über ihr Produkt zu liefern. Dies erschwert es ihm, deren Technologie, ihre Funktion, ihr Design oder die ihr zugrunde liegenden Erkenntnisse zu verstehen.

Vermorel weist darauf hin, dass echte KI-Anwendungen in der Optimierung von supply chain spezialisierte und technische Ansätze erfordern. Diese Anwendungen basieren auf spezifischen Algorithmen oder Strukturen wie Transformer-Architekturen, generativen Netzwerken oder hierarchischen Ansätzen. Er fordert von den Unternehmen, dass sie präzise und detailliert darlegen, welche KI-Techniken sie einsetzen. Sein Argument lautet, dass vage Behauptungen von einem simplen “AI machen” oft irreführend oder völlig unbegründet sind.

Um seinen Punkt zu veranschaulichen, vergleicht Vermorel die KI-Technologie mit dem Kauf eines Fensters für ein Haus. Beim Kauf eines Fensters erwartet der Käufer eine detaillierte Beschreibung des Produkts – ob es aus Holz, Aluminium oder Kunststoff besteht, ob es Einfach- oder Doppelverglasung aufweist. In ähnlicher Weise ist er der Meinung, dass Unternehmen eine detaillierte Erklärung darüber abgeben sollten, welche KI-Techniken sie einsetzen und wie diese dem supply chain zugutekommen. Er behauptet, dass generische oder vage Beschreibungen mit dem Verkauf von “generischen Fenstern” ohne jegliche Spezifikationen gleichzusetzen sind.

Vermorel dehnt diese Analogie aus, um eine Kritik am Begriff “sustainable windows” zu üben. Er argumentiert, dass solche vagen Beschreibungen mehr Verwirrung stiften als Klarheit zu schaffen. In ähnlicher Weise kritisiert er Unternehmen, die in Bezug auf ihre Fenster “excellent light” anbieten, und legt nahe, dass dies äquivalent zu KI-Behauptungen ist, denen es an konkreten Belegen oder Details mangelt.

Darüber hinaus rechnet Vermorel damit, dass die Nutzung von KI-Technologien wie GPT (Generative Pretrained Transformer) zu einer verstärkten Verwirrung in der Branche führen wird. Während diese Tools Marketingmaterial generieren und sich relativ einfach in bestehende Tech-Stacks integrieren lassen, könnten sie nicht wesentlich zur Gesamteffizienz oder Optimierung des supply chain beitragen, wenn die Softwarearchitektur nicht mit diesen Fähigkeiten konzipiert wurde.

Seiner Ansicht nach gleicht dieser Ansatz dem provisorischen Verkleben eines zusätzlichen Stücks an eine bestehende Struktur – es verbessert die Struktur möglicherweise nicht oder erscheint in der Anwendung nicht sinnvoll. Vermorel sieht ein Risiko im weiteren Missbrauch “echter” KI-Technologien, da Unternehmen wertvolle Algorithmen auf unsinnige Weise in ihre Abläufe integrieren könnten, was zur Verwirrung in der Branche beiträgt, anstatt wertvolle Fortschritte zu bieten.

Vermorel kritisiert die Tendenz, KI in die Optimierung der supply chain einzubinden, wobei diese Ansätze ineffektiv und, in der Tat, unsinnig sind. Er weist darauf hin, dass diese Prozesse oft keinen Mehrwert für die Lösungen bieten, die sie eigentlich verbessern sollen. Zur Untermauerung seines Standpunkts führt Vermorel das historische Muster von Iterationen in Operations Research, Data Mining und data science an und impliziert, dass gegenwärtige Trends, wie kognitive KI, sehr wohl mehr von demselben sein könnten.

Laut Vermorel, wenn ein Unternehmen das Beste aus KI als Teil seiner Unternehmenssoftware herausholen möchte, sollte die Integration auf Design-Ebene erfolgen. Er argumentiert vehement gegen das “zusammenkleben” von KI an bestehende Software und betont, dass das Kern-Design eines Produkts nur zu Beginn seiner Entwicklung festgelegt werden kann. Der Versuch, KI in ein Produkt einzufügen, nachdem es bereits erstellt wurde, erweist sich als äußerst schwierig und oft kontraproduktiv.

Auf die Frage nach einem Beispiel für die von ihm gemeinte Design-Ebene spricht Vermorel über transaktionale Datenbanken. Diese Datenbanken, die zur Gewährleistung der Transaktionsintegrität aufgebaut sind, wurden nicht dafür konzipiert, Technologien wie Bild- oder Textgeneratoren zu nutzen. Seiner Meinung nach sind diese unterschiedlichen Paradigmen fast unvereinbar, und ein passender Fit zwischen ihnen ist alles andere als selbstverständlich. Es erfordert sorgfältige Designüberlegungen und ein Leitprinzip, das die Kompatibilität innerhalb der Softwarearchitektur gewährleistet.

Vermorel räumt die Möglichkeit ein, KI als Add-on zu einem bestehenden Produkt zu haben, argumentiert jedoch, dass diese Anordnung selten zu einer richtigen Integration oder Synergie führt. Vielmehr verkompliziert sie die Software, indem sie mehr bewegliche Teile und potenzielle Fehlerquellen einführt.

Sein Rat an diejenigen, die eine KI-Integration in die Optimierung der supply chain in Betracht ziehen, ist, Anbieter gründlich zu hinterfragen, was ihre Angebote betrifft. Er fordert die Kunden auf, sicherzustellen, dass ein Anbieter seine Technologie klar und vernünftig erklären kann. Wenn dies nicht der Fall ist, deutet Vermorel darauf hin, dass ein Problem mit dem Produkt oder dem Verständnis des Anbieters von seiner Technologie vorliegen könnte.

Vermorel schließt seinen Beitrag zur Diskussion mit der Betonung ab, dass wahre Errungenschaften in der KI-Technologie, wie die Erstellung komplexer Modelle, oft durch Forschungsarbeiten und andere Publikationen öffentlich gemacht werden. Diese Offenheit ist teilweise dem Stolz der Entwickler zu verdanken, etwas Schwieriges erreicht zu haben. Er weist darauf hin, dass diese Erfolge keine streng gehüteten Geheimnisse sind, sondern offen geteilt werden, damit die Welt sie sehen kann, was die Bedeutung des Verständnisses der zugrunde liegenden Technologie weiter unterstreicht.

Vermorel erkennt die bemerkenswerten Fortschritte an, die von bestimmten Unternehmen in der Tech-Branche erzielt wurden. Er stellt fest, dass Unternehmen, die es schaffen, bestimmte technische Meilensteine zu erreichen, oft detaillierte Berichte veröffentlichen, um zu teilen, wie sie ihre Erfolge erzielt haben. Er sieht dies als einen in der Branche verbreiteten Trend, der bekräftigt, dass es ein Zeichen tatsächlichen technologischen Fortschritts ist.

Anschließend bezieht Vermorel eine kritische Haltung gegenüber der Rolle und Wahrnehmung von KI in der modernen Unternehmenswelt. Er charakterisiert KI als ein Schlagwort, das auf dem Markt erheblich an Zugkraft gewonnen hat. Trotz der weit verbreiteten Nutzung des Begriffs betont er, dass dessen Bedeutung so breit gefächert und oft vage ist, dass sie fast alles umfassen kann. Er warnt vor einer blinden Akzeptanz der Behauptungen von Anbietern bezüglich ihrer KI-Fähigkeiten, insbesondere wenn sie keine präzise Beschreibung dessen liefern können, was sie unter dem Label KI anbieten.

Vermorel rät eindringlich, dass man bei der Zusammenarbeit mit Anbietern, die KI-Lösungen anbieten, sorgfältig vorgehen muss, um das genaue Wesen ihrer Angebote zu verstehen. Er warnt davor, einem Anbieter zu vertrauen, dessen Vertriebsmitarbeiter zugibt, kein Wissen über die Technologie zu haben, die sie verkaufen, und diese stattdessen als das Aufgabenfeld eines separaten Technikteams darstellt. Vermorel betrachtet dies als einen klaren Indikator, dass das Unternehmen möglicherweise nicht über die technologische Kompetenz verfügt, die es zu besitzen vorgibt.

Er führt diesen Punkt aus, indem er davor warnt, auf die Rhetorik hereinzufallen, dass „wir Nobelpreisträger einstellen, wir haben Einsteins“. Er behauptet, dass solche Aussagen in der Regel nur eine Blendgranate sind, die potenzielle Kunden von ihrer technischen Leistungsfähigkeit überzeugen soll, ohne substanzielle Beweise zu liefern. Vielmehr deuten solche Situationen häufig darauf hin, dass hinter den Behauptungen nichts wirklich Innovatives oder technologisch Fortschrittliches steckt – es ist einfach wieder mehr von demselben.

Beim Abschluss dieses Gesprächssegments drückt Doherty seinen Dank gegenüber Vermorel für das Teilen seiner Einsichten aus und hebt hervor, wie aufschlussreich die Diskussion gewesen ist. Das Segment endet damit, dass Doherty dem Publikum für seine Zeit und Aufmerksamkeit dankt und verspricht, in Zukunft mit weiteren aufschlussreichen Gesprächen zurückzukehren.

Vollständiges Transkript

Conor Doherty: Generative KI ist heutzutage überall, nicht nur in der supply chain. Ist dies ein Nettogewinn oder -verlust? Hier, um es uns zu erklären, ist Joannes Vermorel. Willkommen.

Joannes Vermorel: Hallo, Conor, es ist mir ein Vergnügen, dich zu haben.

Conor Doherty: Also, wenn du möchtest, lass uns ein wenig den Tisch decken. Was genau ist generative KI? Was ist ihr Zweck, da sie heutzutage überall ist?

Joannes Vermorel: Ja, generative KI ist im Wesentlichen eine Sammlung vorgeschlagener Lösungen für das sehr alte generative Problem. Das generative Problem besteht darin, dass man Sammlungen von Objekten in ihrer digitalen Darstellung hat und einen Algorithmus, eine Methode, ein Rezept finden möchte, um noch eine weitere Instanz zu erzeugen. Solche Probleme gibt es seit Jahrzehnten. Für spezifische, eng umrissene Situationen gab es zahlreiche Generatoren. Beispielsweise gibt es seit Jahrzehnten einen Generator, der in der Lage ist, den Namen eines realistisch klingenden Ortes in England oder einen realistisch klingenden Titel für einen Stephen King-Roman zu erzeugen. Wenn man Bilder erstellen wollte, gab es Generatoren, die eine Karte erstellen konnten, die ein wenig an “Der Herr der Ringe” erinnert. Sie tragen diese Art von fantasievollem, mittelalterlichem Flair mit kleinen Bergen, Wäldern, Küsten und fantasievollen Namen überall auf der Karte. Die Idee eines Generators schwebt seit Jahrzehnten im Raum. Der Fortschritt war recht inkrementell, mit dem Ziel, den Generator breiter zu fassen, indem mehr Eingabedatensätze genutzt werden, statt auf einen umfangreichen Satz vorab codierter Regeln zurückzugreifen. Da stehen wir nun, Jahrzehnte in den Prozess hinein. Letztes Jahr erreichte die Machine-Learning-Community mit ChatGPT-3 für Texte und Stable Diffusion für Bilder zwei sehr bemerkenswerte Meilensteine. Diese waren jedoch Meilensteine hinsichtlich der Zugänglichkeit dieser Werkzeuge und nicht unbedingt ein fundamentaler Durchbruch in Statistik, Mathematik oder Informatik. Es waren die ersten Produkte, die so verpackt und poliert waren, dass ein Laie in wenigen Minuten anfangen und mit ihnen experimentieren konnte. Im Bereich der Bildgenerierung gab es über ein Jahrzehnt generative adversariale Netzwerke, die sehr gute Bilder erzeugen konnten. Aber diese Werkzeuge kamen mit zahlreichen Tücken. Stable Diffusion hingegen ermöglichte es den Nutzern, einen Prompt einzugeben, etwa “ein wunderschönes Schloss mitten im Wald”, und ein anständiges Bild zu erhalten. Nicht perfekt, aber anständig genug.

Conor Doherty: Also, es handelt sich um eine Größenordnung Verbesserungen in der Zugänglichkeit und Benutzbarkeit dieser Werkzeuge?

Joannes Vermorel: Genau, dasselbe gilt für ChatGPT. Übrigens, das GPT-Modell, das populär wurde, war eigentlich ein Modell, das schon seit ein paar Jahren existierte. Es war buchstäblich etwas, das neu verpackt wurde, um es viel zugänglicher zu machen. Es ging um Benutzerfreundlichkeit. Der Meilenstein war 2022, als generative KI weithin zugänglich wurde, statt obskur zu bleiben. Es passierte nichts wirklich Fundamentales; es war wirklich eine Frage der reinen Benutzerfreundlichkeit.

Conor Doherty: Ich erinnere mich, dass es als Kind Beispiele für jene generativen Webseiten gab, wie die “gib mir einen Ramones-Namen”-Seite. Ich benutze dieses berühmte Beispiel. Ich glaube, Childish Gambino, der Musiker, hat seinen Namen über eine ähnliche Webseite generiert. Aber ich war mit den früheren Iterationen von ChatGPT nicht vertraut, da die aktuelle Variante die dritte ist. Was genau an den Veröffentlichungen des letzten Jahres, wie Stable Diffusion und der dritten Iteration von ChatGPT, hat die Aufmerksamkeit der Öffentlichkeit erregt? Sie sind jetzt überall.

Joannes Vermorel: Was die Aufmerksamkeit der Öffentlichkeit erregte, waren die Anstrengungen der Forschungsteams, die Technologie ansprechend zu verpacken. Stable Diffusion wurde als Open-Source veröffentlicht. Wenn du mit einer Python-Umgebung vertraut warst, auch wenn du nicht viel über Python wusstest, konntest du in etwa zwei Stunden eine Programmierumgebung einrichten. Du konntest alle beweglichen Teile selbst ausprobieren. Du musstest nicht einmal ein Python-Programmierer sein. Du musstest lediglich fließend genug sein, um eine Reihe von Befehlszeilen auszuführen. Es gab verschiedene Tutorials. Stable Diffusion machte die Bildgenerierung zugänglich, sofern man mit der Befehlszeile umgehen konnte. Es ist ein wenig geekig, aber nicht übertrieben. Es gab sogar eine kostenlose Benutzeroberfläche, Dream Studio, in der du die ersten 100 Bilder kostenlos ausprobieren konntest. Danach musste man so etwas wie zehn Dollar zahlen, um die nächsten 100 Bilder zu generieren. Open GPT war ebenfalls eine Web-App. Nur eine kleine Registrierung, und heutzutage muss man etwa 20 Euro im Monat zahlen, um Zugang zu erhalten. Das Interessante dabei ist, dass man in beiden Fällen in etwa, sagen wir, einer Stunde Zugang zu einem Generator im weitesten Sinne hatte. Man benötigt ein wenig Erfahrung, um ein Gefühl für das Werkzeug zu bekommen, aber es war um Größenordnungen einfacher als zuvor. In Bezug auf den wahren Fortschritt ist interessant, dass diese Generatoren seit Jahrzehnten in zwei Richtungen weiterentwickelt wurden. Eine Richtung ist die Dimensionalität. Man möchte in der Lage sein, hochdimensionale Objekte in einem weiten Sinne zu generieren. Zum Beispiel, wenn man einen Namen für einen Römer oder einen Ort in England generieren möchte, handelt es sich um ein relativ niedrigdimensionales Problem. So etwas wie 10 bis 20 Dimensionen, je nachdem, ob man die Anzahl der Buchstaben oder Silben zählt. Aber wenn man ein Stück Text erzeugen möchte, das eine Seite lang ist, sprechen wir von etwas wie ein paar tausend Dimensionen. Wenn man ein Bild von tausend mal tausend Pixeln generieren möchte, steht man vor einer Herausforderung von etwa drei Millionen Dimensionen aufgrund der drei Primärfarben. Es ist ein signifikanter Anstieg. Die erste Iteration von Stable Diffusion war in ihrer Kapazität auf 512 mal 512 begrenzt. Sie verbessern es, aber diese hohe Dimensionalität war eine bedeutende Herausforderung. Dasselbe Problem trat auch beim Text auf. Die Dimensionalität spielt in zwei Richtungen: Es gibt die Menge an Text, die du als Eingabe-Prompt verwenden kannst, und diese kann von einer einzigen Zeile bis zu mehreren Absätzen oder sogar Seiten reichen. Dann stellt sich die Frage, wie weit du textlich gehen kannst, bevor der Generator die Konsistenz verliert. Diese Modelle haben ihre Grenzen. Sie können nicht ein ganzes Buch von Anfang bis Ende generieren, bei dem das Ende mit dem Anfang konsistent ist. Bei der Textgenerierung besteht eine Herausforderung darin, diese höheren Dimensionen zu navigieren. Wenn du ein Wort generierst, musst du nur auf lokaler Ebene konsistent sein. Wenn du einen Satz generierst, muss er auf einer größeren Skala konsistent sein, und so weiter. Handelt es sich um ein Buch, hast du es mit vielleicht Millionen oder Dutzenden von Millionen abstrakten Dimensionen zu tun, die auch als Freiheitsgrade oder die Komplexität des untersuchten Objekts angesehen werden können. Dasselbe Problem gab es bei Bildern. Ein Fortschrittsansatz besteht darin, in Richtung höherer Dimensionen zu gehen und dabei die Konsistenz zu wahren. Wenn du das Objekt aufteilst, ist es einfacher, zwei kleinere Bilder zu generieren als eines, das größer und konsistent ist.

Conor Doherty: Also, wenn du von diesen größeren Dimensionen sprichst, meinst du, dass der Generator die Konsistenz wahren sollte?

Joannes Vermorel: Ja, genau. Das Ziel ist es, die Verflechtung und Konsistenz im generierten Objekt aufrechtzuerhalten, unabhängig von seiner Größe oder Komplexität. Ein weiterer Fortschrittsvektor ist die Universalität. Sprichst du von einem Generator, der auf ein eng definiertes Problem beschränkt ist, oder von einem Generator, der mit allem zurechtkommt? In den letzten fünf Jahren hat die Deep-Learning-Community enorme Fortschritte darin gemacht, gigantische Datensätze zu nutzen. Wenn es um Text geht, deckt er alles ab – Wikipedia, Internetforen oder jede andere Textquelle. So kann der Generator, wenn er korrekt angesteuert wird, alles von Poesie über Juristendeutsch bis hin zu Code oder sogar genomischer Beratung erzeugen. Das Gleiche gilt für Bilder. Wir haben Generatoren, die in der Lage sind, alles zu erzeugen, von Pixelkunst bis hin zu fotorealistischen Ansichten oder sogar Ölgemälden. Es geht darum, ein Spektrum an Raffinesse und Stil abzudecken.

Conor Doherty: Wenn du über die Dimensionalität dieser Anwendungen sprichst, wie vergleichbar sind die Ergebnisse? Zum Beispiel, wie vergleichbar ist ein Essay, den ChatGPT generiert, mit dem eines durchschnittlichen, sagen wir, universitär gebildeten Menschen? Sind sie auf vergleichbaren Niveaus der Raffinesse? Haben wir dieses Ziel erreicht?

Joannes Vermorel: In Bezug auf Raffinesse ist das eine schwierige Frage. Wir müssten definieren und klären, was wir unter Raffinesse verstehen.

Conor Doherty: Eigentlich kann ich hier einhaken. Nehmen wir einmal den Turing-Test, sodass man nicht wirklich feststellen könnte, ob es von ChatGPT oder von einem Studenten im Klassenraum generiert wurde.

Joannes Vermorel: Das kommt darauf an, denn diese Modelle, besonders der Textgenerator, arbeiten, indem sie enorme Mengen an Korpus miteinander vermischen. Einige Leute haben Tests durchgeführt, und weitgehend ist das, was ChatGPT schreibt, buchstäblich ein Zusammentragen von Inhalten, die irgendwo im Internet zu finden sind. Die Stärke des Modells liegt in seiner Fähigkeit, diese Teile so zusammenzukleben, dass sie grammatikalisch und syntaktisch korrekt sind. Aber es geht im Wesentlichen darum, hochrangige statistische Muster zu identifizieren, die zwischen Wörtern, Wortgruppen und Sätzen existieren, um Zusammenhänge zu finden, die statistisch wahrscheinlich oder glaubwürdig sind. Klingt es menschlich? Sehr, ja. Aber die Realität ist, dass ein Großteil dessen, was es generiert, im Internet zu finden ist, von verschiedenen Seiten übernommen. Der Durchbruch liegt jedoch darin, dies zu tun, was unglaublich schwierig war. Es geht nicht nur darum, Phrasen auszuschneiden und einzufügen. Es geht darum, hochrangige statistische Abhängigkeiten zu verstehen, sodass sie auf glaubwürdige Weise miteinander verbunden werden können. Doch wenn es um gesunden Menschenverstand geht, wie der Leiter der KI-Abteilung bei Facebook kommentierte, besitzt keiner dieser Generatoren den gesunden Menschenverstand einer Katze. Das ist das Niveau des Verständnisses, mit dem wir es zu tun haben. Es sind rein statistische Zusammenhänge. Zum Beispiel, wenn man eine einfache Frage stellt wie “Wie kann ich den Stau mitten im Atlantik vermeiden?”, könnte der Generator vorschlagen, eine bessere Route mit einem neueren GPS zu wählen, und übersieht dabei gänzlich den Humor der Frage. Es geht darum, Textstücke basierend auf hochrangigen statistischen Beziehungen zusammenzukleben.

Conor Doherty: Ich glaube, dass Forscher bei Amazon ChatGPT einer Reihe von IQ-Tests unterzogen haben und dabei herausfanden, dass es etwa eine Standardabweichung unter dem Normwert liegt, also um die 83. Das scheint mit dem, was du hier sagst, übereinzustimmen – sie fügen lediglich Informationsstücke zusammen, die zusammenzupassen scheinen.

Joannes Vermorel: Aber ich glaube, du verfehlst den Kern der Sache. Selbst ein unglaublich unintelligenter Mensch, jemand, der nicht hirntot ist, ist immer noch weitaus klüger als eine Katze. Und dennoch wird postuliert – und ich tendiere dazu, dem zuzustimmen –, dass wir noch lange nicht etwas so Intelligentes wie eine Katze erreicht haben. Wir sind noch sehr weit entfernt. Man könnte sagen: “Oh, aber meine Katze ist völlig unfähig, mir etwas über, sagen wir, die Relativitätstheorie zu erzählen.” Dennoch kann ChatGPT ganz passabel ein paar einleitende Absätze liefern. Das liegt daran, dass ChatGPT buchstäblich eine schöne Zusammenfassung dieser Theorie aus den Tausenden von Beispielen, die im Netz zu finden sind, ausschneidet, sie zusammenfügt und anschließend wiedergibt. Das bedeutet allerdings nicht, dass es wirklich etwas versteht. Selbst eine Katze würde zum Beispiel verstehen, dass wenn es etwas gibt… Nehmen wir ein Beispiel mit GPT: Fragst du deinen GPT etwa: “Drei Autos benötigen zwei Stunden, um von der Stadt Paris in die Stadt Tours zu fahren. Wenn du sechs Autos hast, wie viel Zeit braucht es dann?” würde GPT sagen: “Nun, sechs Autos sind doppelt so viele wie drei, also dauert es etwa vier Stunden.” Wiederum: Denkst du an eine Katze, und diese denkt: “Wenn ich einen Kumpel habe, möchte ich mit ihm dorthin gehen”, dann vergeht die gleiche Zeit, egal ob ich oder mein Kumpel da bin. Auch wenn die Katze die Dinge nicht so elaboriert ausdrückt, besitzt sie doch ein grundlegendes Verständnis für diese sehr elementaren Dinge unseres dreidimensionalen Universums, des Zeitablaufs und so weiter. Nochmal: GPT ist in seiner Leistungsfähigkeit unglaublich beeindruckend, und das Gleiche gilt für Stable Diffusion. Aber man sieht, dass dieses Verständnis eher unglaublich oberflächlich ist, weil all das, was diese Modelle tun, ein hochdimensionales Vermischen der Eingabedaten ist. Vielleicht ist das ausreichend. Vielleicht gibt es in der Zukunft mit noch komplexeren Modellen nichts anderes, was Intelligenz ausmacht, als diese Art von Rezepten in einem größeren Maßstab anzusammeln. Aber ich vermute, dass die Situation komplizierter ist als das. Ich vermute, dass die sachkundigen Forscher reichlich Beweise vorliegen haben, die erneut zeigen, dass die ganze Geschichte der künstlichen Intelligenz darin besteht, zu klären, was Intelligenz nicht ist. Und das war in etwa die Reise, die wir in den letzten 70 Jahren unternommen haben.

Conor Doherty: Nun, ich glaube, du hast vorhin gesagt, dass die aktuelle Iteration von ChatGPT und Stable Diffusion, also einfach generative AI, etwa um eine Größenordnung besser ist als die früheren Iterationen. Ja. Wie viel besser müsste dann die vierte Iteration von ChatGPT sein, um die gerade beschriebene Lücke zu schließen?

Joannes Vermorel: Wir wissen wirklich nicht, denn das ist es ja. Immer wenn es einen Durchbruch gibt – und ich glaube, dass der eigentliche Durchbruch das Deep Learning war, nicht diese Anwendungen des Deep Learning –, war Deep Learning der große Durchbruch um 2011-2012. Das war der wahre mathematische, konzeptuelle Durchbruch. Diese Anwendungen und sehr detaillierten Einsichten wurden im Laufe des letzten Jahrzehnts gewonnen. Aber wir wissen noch immer nicht, was uns fehlt. Die Frage bleibt offen, und man sollte nicht von einem linearen Fortschritt ausgehen. Das ist das Problem mit Intelligenz – wir wissen nicht, was uns noch fehlt. Sobald wir eine neue Technik etablieren, können wir sogar neu überdenken, was Intelligenz überhaupt bedeutet. Wenn wir ein Jahrhundert zurückgehen und jemanden fragen würden: “Wie kann man feststellen, dass eine Person überlegene Intelligenz besitzt?” könnten Professoren in der Akademie antworten: “Nun, wenn diese Person eine Matrix invertieren oder die ersten 20 Stellen von Pi berechnen kann, dann besitzt sie überlegene Intelligenz.” Heutzutage würden die Leute sagen, dass das auch ein Taschenrechner kann. Es handelt sich dabei um eine rein mechanische Aufgabe. Es steckt keinerlei Intelligenz darin, die ersten 20 Stellen von Pi zu berechnen. Wir haben einfache Rezepte, die wir Algorithmen nennen. Mit einem Computer lassen sich Tausende von Stellen berechnen. Das macht einen in keiner Weise klug. Das war vor einem Jahrhundert so, als das, was als wahre Reflexion menschlicher Intelligenz galt, sich als der einfache Teil der Mechanisierung herausstellte. Heute sind Computer buchstäblich 10, ja sogar 15 Größenordnungen besser als Menschen in diesen Berechnungen, aber sie sind überhaupt nicht intelligent. Zumindest ist das der allgemeine Konsens. Was wir mit dieser Generation von KI, mit Deep Learning, entdeckt haben, ist, dass es viele Aufgaben gibt, die auf den ersten Blick unglaublich schwierig oder herausfordernd erscheinen, aber vielleicht nicht so sehr die Intelligenz widerspiegeln. Zum Beispiel vermittelt ChatGPT mehr darüber, was Intelligenz nicht ist, als was sie tatsächlich ist. Es besagt, dass die Menge des latenten Wissens in der englischen Sprache und in allen menschlichen Sprachen enorm ist. Wenn wir von “latentem Wissen” sprechen, meinen wir so etwas Abstraktes, das die Gesamtheit des menschlichen Wissens darstellt. Es gibt Datenbanken, die Chemiker im letzten Jahrhundert gesammelt haben. Diese Datenbanken beschreiben die Eigenschaften jedes einzelnen chemischen Stoffes. So gibt es eine ganze Datenbank, die den spezifischen Widerstand jedes auf der Erde bekannten Materials oder den Schmelzpunkt jedes Materials auflistet. Wir haben Karten, die Wissen in anderer Form sammeln. Es existiert auch eine Art latentes Wissen in der Sprache selbst. Die Wörter, die wir verwenden, spiegeln ein großes Verständnis vom Universum wider. Wenn wir sagen, dass es Sterne und Planeten gibt und dass Planeten Sterne umkreisen, bedeutet das, dass wir bereits viel über das Universum verstanden haben. Zum Beispiel hatten die alten Griechen ein anderes Verständnis von dem, was Sterne und Planeten waren. Zu postulieren, dass die Sonne ein Stern ist, wie alle anderen Sterne, ist mittlerweile akzeptiert und Teil des Vokabulars. Das ist ein Teil des latenten Wissens. Schau man sich beispielsweise die Definitionen in einem Wörterbuch an, lernt man sehr viel über das, was die moderne Wissenschaft zu bieten hat. Umgekehrt kann das Fehlen eines bestimmten Wortes verhindern, dass bestimmtes Wissen überhaupt existiert. Ein kurioses Beispiel hierfür ist das Buch “Antifragile” von Nassim Taleb. Die Grundidee des Buches war, das eigentliche Gegenteil von fragile zu definieren. Fragil bedeutet in seiner Definition etwas, das sich unter Chaos und Unordnung verschlechtert. Er argumentierte, dass robust, hart oder stabil zu sein, nicht wirklich das Gegenteil von fragile darstellt. Diese Eigenschaften bedeuten nur, dass sich etwas unter Chaos und Unordnung langsamer verschlechtert. Taleb fragte sich, was das wahre Gegenteil wäre, etwas, das sich unter Chaos und Unordnung verbessern würde. Diese abstrakte Perspektive veranlasste ihn, den Begriff “anti-fragile” zu prägen und damit eine völlig neue Sichtweise auf Ökosysteme, menschliche Gesellschaften und viele andere Bereiche zu eröffnen. Durch die Einführung dieses einen Wortes bereicherte er unser Wissen, auch wenn das schwer zu fassen sein mag, da die Art und Weise, wie wir Wissen kommunizieren, durch die Sprache selbst erfolgt.

Conor Doherty: Das bringt uns zurück zu meinem Ausgangspunkt. Die Brillanz von ChatGPT zeigt, dass in der Sprache selbst eine enorme Menge latenten Wissens steckt. Das erklärt zum Beispiel, warum ein Politiker dir zehn Schlagworte des Tages nennen kann, die den Anliegen entsprechen, die du verteidigen möchtest. Er kann daraus einen ganzen Diskurs spinnen und so wirken, als würde er etwas Intelligentes sagen, während er in Wirklichkeit überhaupt keine Substanz liefert.

Joannes Vermorel: Interessanterweise macht genau das ChatGPT. Wenn du dem Tool eine Eingabeaufforderung gibst, tendiert es dazu, alle möglichen allgemein anerkannten Ideen zusammenzustellen, die dem gesunden Menschenverstand oder der vorherrschenden etablierten Perspektive entsprechen. Stell dir vor, du hättest jemanden, der deine Fragen ausschließlich mit Sprichwörtern beantwortet. ChatGPT macht das, aber noch besser, indem es Binsenweisheiten aus buchstäblich jedem einzelnen Bereich aneinanderreiht. Es ist beeindruckend, weil du normalerweise nicht einmal weißt, was in einem Bereich, von dem du gar nichts verstehst, eine Binsenweisheit wäre. Das ist die Schönheit des Trainings eines Generators mit einem supermassiven Datensatz, der Millionen von Seiten Text aus unglaublich vielfältigen Feldern umfasst.

Conor Doherty: Wenn es darum geht, all dies tatsächlich anzuwenden, gibt es deiner Meinung nach nützliche Anwendungen der generativen KI, wenn es beispielsweise um Unternehmen oder supply chain geht?

Joannes Vermorel: Unternehmen ist ein sehr breites Feld, daher beschränke ich mich auf supply chain. Für supply chain würde ich sagen, höchstwahrscheinlich nicht, zumindest nicht direkt. Aber die Zukunft vorherzusagen, ist unglaublich schwierig. Der Grund, warum ich denke, dass diese Welle von Generatoren keinen massiven Einfluss auf supply chain haben wird, liegt darin, dass die Stärke dieser Generatoren darin besteht, auf einen riesigen Pool von Umgebungswissen zuzugreifen, der im Grunde das Web ist, mit all den Bildern und Tags, die man kostenlos abrufen kann. Doch wenn es um die Optimierung einer supply chain geht, sind die relevantesten Daten deine Transaktionshistorie. Wenn du beispielsweise Türrahmen verkaufst, hilft es dir in der supply chain-Planung nicht wirklich, viele allgemeine Informationen über Türrahmen zu kennen. Deine Verkaufszahlen der Türrahmen vom letzten Jahr sagen dir viel mehr darüber, was genau du bestellen, produzieren und wie du den Lagerbestand verteilen solltest. Die relevantesten Daten werden also nicht öffentlich geteilt. Sie existieren im isolierten Bereich deines Unternehmens. Unternehmen werden, im Gegensatz zu ChatGPT, dadurch verzerrt, dass diese Tools besser funktionieren, wenn es um Dinge geht, bei denen viele Materialien online öffentlich verfügbar sind. Wenn du über Themen sprichst, die nicht weit verbreitet online veröffentlicht werden, gerät ChatGPT schnell ins Leere. Konkret würde ich sagen, dass, wenn man an die Methoden denkt, die zur Optimierung eingesetzt werden könnten, ich mir nicht sicher bin, einfach weil die nötigen Eingabedaten nicht vorhanden sind. Allerdings könnten diese Tools potenziell entscheidend zur Unterstützung deiner Entwicklung werden. Zum Beispiel ist ChatGPT tatsächlich ziemlich gut darin, Code-Snippets zu generieren. Beim Programmieren, weil es sich um generische Sprache und somit um eine Folge von Zeichen handelt, kann ChatGPT Tags, aber auch Code generieren. Aufgrund der Tatsache, dass online eine gigantische Menge an Code verfügbar ist – hauptsächlich über GitHub, aber auch an vielen anderen Orten – stehen ChatGPT massive Codebasen zum Training zur Verfügung. Somit ist ChatGPT tatsächlich in der Lage, halbwegs anständige Code-Snippets oder Programme zu erstellen. Als Produktivitätswerkzeug für Programmierer gibt es großes Potenzial. Aber Vorsicht: Der von ChatGPT generierte Code kann genauso fehlerhaft sein wie von Menschen geschriebener Code. Ich würde ihn nicht ohne sorgfältige Überwachung verwenden, wenn du den nächsten Autopiloten für ein Flugzeug oder Auto entwickeln möchtest. Außerdem vermute ich, dass Technologien, die in Zukunft entwickelt werden, Dinge wie Protokolle von Meetings umfassen werden. Im Moment bin ich mir nicht sicher, ob ChatGPT in der Lage wäre, eine zweistündige Diskussion in etwa zwei Seiten zusammenzufassen, während es dabei die größtmögliche Menge an Details beibehält. Aber ähnliche Tools – da bin ich mir ziemlich sicher – werden innerhalb des nächsten Jahrzehnts dazu in der Lage sein. Also, für supply chain wird es viele Vorteile geben. Allerdings vermute ich, dass die meisten davon eher am Rande, an der Peripherie liegen, etwa in der Erleichterung von Meetings, beim Mitschreiben oder in besseren Systemen zum Korrekturlesen von Dokumenten. Aber die Kernprobleme und Herausforderungen liegen in den Daten, und diese Generatoren handhaben die Daten nicht so, wie sie in supply chains vorliegen.

Conor Doherty: Gibt es nicht andere Programme, die speziell fürs Programmieren entwickelt wurden? Ich meine, ChatGPT ist eine textbasierte generative KI, aber es gibt GitHub Co-Pilot, der dafür entwickelt wurde, beim Programmieren zu unterstützen, und er kann ziemlich anständigen Code von sich aus erzeugen, oder?

Joannes Vermorel: Nein, diese Modelle sind nahezu identisch, fast austauschbar. Die Technologie, die dahintersteckt, ist unglaublich ähnlich. Sie verwenden dieselbe Transformer-Architektur. Die einzigen Unterschiede sind leichte Variationen im Korpus und in der Benutzererfahrung. GitHub Co-Pilot zielt darauf ab, bei jedem Tastendruck eine automatische Vervollständigung zu bieten, während ChatGPT mehr auf den Dialog ausgerichtet ist. Aber die Unterschiede sind wirklich nur eine dünne Schicht Fassade darüber. Darunter sind sie gleich. Ich vermute, dass das beste Tool zur Codevervollständigung auf einem Korpus basieren wird, der breiter ist als nur Code. Das wird in einem kürzlich von einem Team bei Amazon veröffentlichten Paper veranschaulicht. Sie präsentierten einen vielversprechenden Generator, der sowohl Bild- als auch Textdaten kombiniert und diese im Wesentlichen vereinheitlicht. Sie behaupten sogar, ChatGPT in einigen Benchmarks zu übertreffen, bei den meisten anderen Metriken vergleichbare Ergebnisse zu liefern. Allerdings sollte man das mit Vorsicht genießen, da die Bestimmung eines guten Generators ein Problem ist, das genauso komplex ist wie dessen Erstellung. Interessant ist jedoch, dass ihr Modell genauso effektiv ist wie ChatGPT, aber mit einer Milliarde Parameter, während ChatGPT fast 100-mal so viele Parameter hat. Das legt nahe, dass man durch die Vermischung vielfältigerer Datensorten ein Modell erhalten kann, das sowohl leistungsstärker als auch einfacher ist – was paradox erscheint. Zum Beispiel ist das ChatGPT-Modell gigantisch, mit einem Parameterbereich im Billionenbereich. Aber es ist unklar, ob ein derart enormes Modell wirklich notwendig ist. Tatsächlich war einer der Durchbrüche von Stable Diffusion, im Vergleich zu anderen Modellen, ein Modell, das zwei Größenordnungen schneller und schlanker ist als das Generative Adversarial Network, das es ersetzt hat. Stable Diffusion hat nur etwa eine Milliarde Parameter, was es im Vergleich zu ChatGPT sehr klein macht. Aber ein Team behauptete kürzlich, dass sie die Leistung von ChatGPT mit einem Modell reproduziert haben, das viel kleiner ist – ungefähr in der Größenordnung einer Milliarde Parameter. Das ist interessant, weil es etwa die gleiche Größe hat wie eine Grafikkarte, die heutzutage üblicherweise in Notebooks und Workstations zu finden ist.

Conor Doherty: Nun, das führt uns wieder voll zurück zu dem, was ich ganz am Anfang oder in der Einleitung gesagt habe: Ist dies insgesamt ein positiver oder negativer Nettobeeinfluss? Siehst du das, im spezifischen Kontext von Unternehmen oder noch detaillierter betrachtet in supply chain, als Ablenkung, als Segen oder als Fluch?

Joannes Vermorel: Als allgemeine Denkweise denke ich, dass jeder Fortschritt in Wissenschaft und Technologie gut ist. Ich habe nicht diese lovecraftsche Perspektive, weißt du, in der es einige tiefgreifende Wahrheiten des Universums gibt, die so brutal und feindlich gegenüber dem menschlichen Verstand sind, dass man verrückt wird, wenn man sie entdeckt. Meine Auffassung ist nicht lovecraftsch. Ich glaube, dass es im Allgemeinen eine gute Sache ist. Es ist sicherlich besser als Ignoranz. Nun, wie jedes Werkzeug seit der Steinzeit, konnte der erste Hammer so konstruiert werden, dass er ein Tier jagt oder deine Mitmenschen tötet. Das war schon immer das Problem mit Technologie und dass sie missbraucht werden kann. Es ist seit Tausenden von Jahren ein Problem. Diese Art von Technologie kann ebenfalls missbraucht werden. Die wahrscheinlichen Missbräuche im Bereich supply chain Enterprise-Software werden eine Zunahme von Verwirrung durch Lärm sein. Anbieter hypen bereits AI wie verrückt, und nun werden sie in der Lage sein, das Ganze auf elf aufzudrehen, indem ihre Marketingabteilung endlose falsche Fallstudien spinnt. In der Vergangenheit bedurfte es einiger Mühe, eine gefälschte Fallstudie zu erstellen. Doch man konnte sie vollkommen fälschen, weil niemand deine Behauptungen überprüfen wird. Die meisten deiner Behauptungen sind unmöglich zu verifizieren. Und, wie ich in meinem Vortrag beschrieb, hat niemand in einer Fallstudie einen Anreiz zu sagen, dass all die Millionen, die du angeblich eingespart, verdient oder generiert hast, falsch sind. Jeder, der Teil einer Fallstudie ist, hat einen enormen Anreiz zu sagen: “Ja, alles, all diese Vorteile sind wahr, und es ist zumindest teilweise mir zu verdanken, wenn wir all das erreichen.” Meine Auffassung ist also, dass die Situation noch undurchsichtiger wird, weil diese Teams ausflippen und noch mehr gefälschte Fallstudien, Behauptungen und hohle Seiten generieren werden, die die Technologie beschreiben. Ich habe einige Zeit auf den Webseiten vieler Lokad-Wettbewerber verbracht. Das Interessante ist, dass man ganze Seiten voller Text lesen kann und am Ende nichts dabei lernt, weil sie es schaffen, Plattitüden oder Inhalt zu drehen, der keinen Aufschluss darüber gibt, was sie tatsächlich tun.

Conor Doherty: Unsinn, oder?

Joannes Vermorel: Ja, genau. Es erstaunt mich immer wieder, wenn ich eine 10-seitige Dokumentation über AI for supply chain durchgehe und am Ende nichts darüber sagen kann, was es ist, was es tut, warum es so konstruiert wurde oder welche Art von Erkenntnissen dieser Sache zugrunde liegen. Das ist ziemlich verblüffend. Ich vermute, dass in der Vergangenheit Marketingteams Tage damit verbracht haben, diese fluffigen Beschreibungen zu erfinden. Jetzt, mit generativer AI, wie ChatGPT, kann eine zehnseitige Beschreibung augenblicklich erstellt werden. Also, wenn du die Gültigkeit von Inhalten hinterfragst, die behaupten, AI in ihrer supply chain Optimierung zu haben, würde ich sagen, dass es größtenteils verdächtig ist. Nicht, weil AI falsch ist, sondern weil sie in diesem Kontext falsch dargestellt wird. Wenn wir über generative AI sprechen, werden spezifische Begriffe verwendet, wie stable diffusion, Transformer-Architektur und generatives Netzwerk. Diese Techniken haben Namen. Fachleute in diesem Bereich sagen nicht einfach “I’m doing AI”. Sie sind präziser. Sie brauchen diese Begriffe, um ihre Arbeit zu beschreiben. Diese Präzision entwickelt sich als Teil eines entstehenden Prozesses innerhalb der Community. Menschen, denen es zu mühsam ist, ihre Technologie im Detail zu beschreiben, greifen oft auf vage Begriffe zurück. Nehmen wir ein einfaches Beispiel: Wenn du ein Fenster für dein Haus kaufen möchtest, wird der Verkäufer das Material des Rahmens, die Anzahl der Glasschichten und so weiter angeben. Wenn ein Verkäufer einfach sagt “Ich verkaufe Fenster, vertrau mir, sie sind gut” ohne irgendwelche Spezifikationen, ist das fragwürdig. Wenn jemand dir keine technischen Details geben kann und stattdessen Schlagwörter wie “nachhaltig” verwendet, klärt das nichts – es fügt nur weitere Rätsel hinzu. Das ist analog zu dem, was mit AI und ChatGPT passiert. Diese Werkzeuge könnten verwirrende Marketingmaterialien generieren und Anbietern die Möglichkeit geben, sie in ihren tech stack zu integrieren, ohne etwas Substanzielles zu schaffen. Es ist ziemlich einfach, diese Werkzeuge in eine bestehende Softwarearchitektur einzubinden, aber es wird nur ein Gimmick sein, wenn deine bestehende Softwarearchitektur nicht darauf ausgelegt ist, die Fähigkeiten der Technologie zu optimieren. Es ist immer etwas einfach, noch ein Teil notdürftig anzubringen – aber das bedeutet nicht, dass es einen Unterschied macht oder nützlich ist. Daher glaube ich, dass diese Situation weitere Verwirrung stiften wird. Sie wird den Anbietern eine weitere Gelegenheit bieten, irgendeine Art von echten Wertalgorithmen anzubringen, aber auf unsinnige Weise. Am Ende fügt dies der Lösung keinen Mehrwert hinzu – was ein weiteres Problem darstellt. Wir haben bereits mehrere Iterationen davon erlebt, zuerst die operative Forschung vor 50 Jahren, dann Data Mining und anschließend Data Science. Nun wird es diese kognitiven AI-Iterationen geben. Das Problem ist jedoch, dass, wenn du das Potenzial dieser Technologie als Enterprise-Software voll ausschöpfen möchtest, sie nicht einfach ein Add-on sein kann. Sie muss schon auf der Design-Ebene deines Produkts integriert werden. Es ist ein Kerndesign, das du danach nicht mehr ändern kannst. Das Problem mit dem Kerndesign von Produkten ist, dass es etwas ist, das du nur zu Beginn realisieren kannst. Du kannst das nicht im Nachhinein einfach dazukleben.

Conor Doherty: Kannst du ein Beispiel für das Kerndesign-Level nennen, von dem du sprichst?

Joannes Vermorel: Wenn du ein System hast, in dessen Kern sich eine transaktionale Datenbank befindet, die dafür ausgelegt ist, transaktionale Integrität sicherzustellen, ist das großartig. Aber dieses Design wird nichts dazu beitragen, irgendeinen Bild- oder Textgenerator zu nutzen. Es steht völlig im Widerspruch zur transaktionalen Perspektive. Du arbeitest mit Transaktionen, aber ein Tool zu haben, das Texte oder Bilder generieren kann, gehört nicht einmal zur gleichen Domäne. Was ich sagen will, ist, dass ein passendes Design nicht selbstverständlich ist. Es erfordert in der Regel umfangreiche Sorgfalt im Hinblick auf das Design und die Leitprinzipien deiner Architektur, damit alles zusammenpasst. Andernfalls operierst du einfach auf zwei getrennten Ebenen. In der Softwarewelt ist es irreführend, dass es immer möglich ist, ein Produkt zu haben und dann ein Add-on daneben zu schalten. Aber es ist nicht richtig integriert, nicht verbunden, und es gibt keine Synergie zwischen den beiden. Du hast einfach ein komplizierteres Durcheinander mit mehr beweglichen Teilen und mehr Bugs. Daher würde ich, angesichts der Gesamtbilanz, davon abraten, dies in supply chain Optimierungen zu integrieren. Aber wenn ein Anbieter damit auf dich zukommt, musst du wirklich hinterfragen, was genau er tut. Mein abschließender Rat an das Publikum wäre: Stelle sicher, dass, wenn du die Technologieseite dieses Anbieters liest, dir alles Sinn macht. Du musst kein Experte sein. Wenn der Anbieter nicht in der Lage ist, verständlich darzulegen, was seine Technologie ist, was sie tut und welche Techniken sie einsetzt, dann ist das höchstwahrscheinlich ein Warnsignal. In meiner gesamten Karriere habe ich noch nie gesehen, dass ein Unternehmen, das in der Lage ist, etwas Schwieriges zu erreichen, dies versteckt. Im Gegenteil, Unternehmen, die diesen technischen Meilenstein erreichen, präsentieren ihre Erfolge gerne der Welt. Übrigens gilt das auch für all diese Modelle – Stable Diffusion, ChatGPT usw. Diese Errungenschaften sind öffentlich. Es wurden wissenschaftliche Arbeiten darüber veröffentlicht. Das sind keine gut gehüteten Geheimnisse. Im Gegenteil, die Unternehmen, die diesen Punkt der technischen Leistungsfähigkeit erreichen, veröffentlichen oft sehr detaillierte Papiere darüber, wie sie es geschafft haben. Das ist ein sehr typisches Verhalten. Aus meiner Sicht lautet der grundlegende Rat, dass, obwohl AI viel Wert hat, es bloß ein Schlagwort ist. Unter diesem Oberbegriff kann fast alles subsumiert werden. Deshalb ist es, wann immer ein Anbieter an dich herantritt, unerlässlich zu verstehen, was genau er tut. Wenn die Person, die an dich verkauft, dieses Verständnis nicht hat und wenn der Anbieter behauptet, keine Ahnung zu haben und stattdessen sagt: “Ich bin nur ein Verkäufer, das Technikteam weiß Bescheid”, dann traue ihnen nicht. Wenn sie so etwas sagen, deutet das darauf hin, dass hinter ihren Behauptungen keine substanziell fundierte Technologie steckt. Das ist eine bewährte Taktik, die seit Jahrzehnten im Einsatz ist: zu behaupten, man habe Nobelpreisträger eingestellt, damit prahlen, dass man “Einsteins” im Hinterzimmer hat, und dir zu sagen, du sollst ihnen vertrauen, weil ihr Team unglaublich klug sei. Wenn sie aber Ahnungslosigkeit über die Technik vortäuschen und dir zusichern, dass es der Rest des Teams weiß, dann garantiert das fast, dass ihren Behauptungen keine Substanz zugrunde liegt. Es ist einfach mehr vom Gleichen.

Conor Doherty: Naja, damit danke ich dir, Joannes. Ich habe eine Menge gelernt. Danke für deine Zeit, und danke an euch alle fürs Zuschauen. Wir sehen uns beim nächsten Mal.