Die Quantitative Supply Chain
Die generative KI ist tot. Es lebe die quantitative Supply Chain… vielleicht.

Viele Softwareanbieter, die durch nicht ganz vernünftige Marktbewertungen ermutigt werden, setzen verstärkt auf den Hype um künstliche Intelligenz. Normalerweise mache ich keine Vorhersagen, aber ich prophezeie, dass im Jahr 2025 die “quantitative künstliche Intelligenz” ein großes Schlagwort sein wird. Wie bei technischen Schlagworten üblich, kann man erwarten, dass sich darin kleine Neuigkeiten in einem Ozean übertriebener Erwartungen verbergen.
Fangen wir damit an, ein wenig zu klären, worum es geht. Vereinfacht gesagt1 sind LLMs (Large Language Models) im Kern Textvervollständigungsmodelle. Sie nehmen rohen Text als Eingabe entgegen und generieren rohen Text als Ausgabe. Da diese Modelle clever vorab über “teranormöse” Mengen an Webmaterial trainiert werden, können sie für eine Vielzahl von Aufgaben verwendet werden (z. B. Übersetzung, Zusammenfassung, Ideengenerierung usw.). LLMs haben tatsächlich das gesamte vorherige Gebiet der natürlichen Sprachverarbeitung (NLP) überflüssig gemacht.
Angesichts der aktuellen Leistung und des Preisniveaus von LLMs ist offensichtlich, dass diese Technologie das Potenzial hat, für jedes Unternehmen mit Büroangestellten einen erheblichen Mehrwert zu liefern. Der Haken ist jedoch weniger offensichtlich. Hier schlägt die quantitative Supply Chain (oder, genauer gesagt, ihre Anbieter) vor, die Kluft zwischen den Rohfähigkeiten von LLMs und ihrer IT-Umgebung zu überbrücken.
In Bezug auf die Details hat Erik Pounds2 (Nvidia) im Oktober 2024 die folgende Definition für die quantitative Supply Chain vorgeschlagen, die meiner Meinung nach das erfasst, was im Allgemeinen unter diesem neuen Schlagwort verstanden wird:
Die quantitative Supply Chain verwendet einen vierstufigen Prozess zur Problemlösung: Wahrnehmen: KI-Agenten sammeln und verarbeiten Daten aus verschiedenen Quellen […]; Denken: Ein großes Sprachmodell fungiert als Orchesterleiter. In diesem Schritt werden Techniken wie retrieval-augmented generation (RAG) verwendet […]; Handeln: Durch Integration mit externen Tools und Software über Anwendungsprogrammierschnittstellen kann die quantitative Supply Chain Aufgaben schnell ausführen […]; Lernen: Die quantitative Supply Chain verbessert sich kontinuierlich durch eine Rückkopplungsschleife oder einen “Datenflügel” […]
Die große Vision der quantitativen Supply Chain besteht darin, den Weg für einen “vollständig digitalen Mitarbeiter” (mein Begriff, nicht Pounds’) zu ebnen, der funktional einem Büroangestellten entspricht. Angesichts von etwa einer Milliarde Büroangestellten weltweit ist es nicht allzu schwer zu verstehen, warum die Märkte angesichts dieser Perspektive den Kopf verlieren.
Bei genauerer Betrachtung sehen wir, dass es zwei deutlich unterschiedliche grundlegende Hürden gibt, die die quantitative Supply Chain zu bewältigen versucht: Instrumentierung und Lernen.
Instrumentierung: Die erste, offensichtlichste Hürde besteht darin, dass das LLM nicht isoliert genutzt werden kann. LLMs sind Software und daher ist eine Art IT-Infrastruktur erforderlich. Diese Infrastruktur stellt sicher, dass das LLM relevante Informationen aus seiner Umgebung abrufen und Befehle ausgeben kann, die dazu dienen, das zu vervollständigen, was vom LLM erwartet wird. Für IT-Abteilungen, die normalerweise bereits in jahrelangen Rückständen versinken, ist die Entwicklung dieser Infrastruktur eine Herausforderung für sich. LLMs selbst können jedoch die Herausforderung erleichtern.
Lernen: So seltsam es auch erscheinen mag, LLMs lernen im Großen und Ganzen nichts nach ihrer Entstehung. Dies ist unsere zweite Hürde. Alles, was das LLM jemals weiß, sind entweder öffentliche Informationen (daher Teil des Vorabtrainings) oder Teil der Eingabeaufforderung. Es gibt so gut wie3 nichts dazwischen. Nach jeder Vervollständigung wird das LLM auf seinen ursprünglichen Zustand zurückgesetzt. Wenn jedoch die das Eingabeaufforderung unterstützende Wissensbasis vom LLM selbst aktualisiert werden könnte, könnte diese Hürde auch konzeptionell erleichtert werden.
Wenn die agentic AI diese beiden Hürden lösen könnte - ohne auf LLMs über diejenigen, die wir jetzt haben, zurückzugreifen -, dann würde sie tatsächlich den Weg für generische digitale Büroarbeiter ebnen. Dies ist jedoch eine sehr gewagte Behauptung, und trotz der Marktbegeisterung erfordert die Bewältigung der genannten Hürden erhebliche Anstrengungen.
Auf der Instrumentierungsebene ist der Vorschlag, einen digitalen Agenten direkt mit Bildschirm und Tastatur interagieren zu lassen - wie ein Mensch -, attraktiv, vor allem, da er scheinbar die zuvor erwähnten IT-Verbindungsprobleme vollständig umgeht. Es ist jedoch auch der monumental überkonstruierteste Weg, um die Herausforderung zu lösen. Um die grafische Benutzeroberfläche wahrzunehmen, müssen Dutzende (Hunderte?) von Bildschirmaufnahmen selbst für die einfachste Interaktion in das LLM eingespeist werden. Um zu handeln, müssen ebenfalls Dutzende (Hunderte?) von Befehlen - z. B. Mausbefehle - ausgegeben werden.
Während ich nicht bezweifle, dass eine solche Leistung bereits mit heutigen LLMs möglich ist, stelle ich die Praktikabilität und Wartbarkeit dieses Ansatzes in Frage. Während die Verarbeitung der Bilder selbst eine massive Überlastung der Rechenressourcen darstellt, ist dies nicht der eigentliche Showstopper (angesichts des Fortschritts der Computertechnik wird diese Überlastung wahrscheinlich im Laufe der Zeit viel geringer sein als die Kosten eines Vollzeitmitarbeiters).
Der Kern des Problems besteht darin, jede einzelne Facette der Interaktion(en) mit den für eine Aufgabe erforderlichen Geschäftsanwendungen eindeutig über Eingabeaufforderungen zu beschreiben, was einen erheblichen Aufwand darstellt. Dies ist ein Aufwand, der mindestens anständige IT-Fähigkeiten erfordert - wenn nicht sogar eine gut entwickelte IT-Mentalität. Ich bezweifle sehr, dass diese Aufgabe von jemandem erledigt werden kann, der anderweitig nicht in der Lage ist zu programmieren - oder der nicht in der Lage ist, innerhalb weniger Monate ein Einsteigerprogrammierer zu werden. Darüber hinaus ändert sich die IT-Landschaft eines jeden größeren Unternehmens ständig, so dass die Angemessenheit der Eingabeaufforderungen überwacht werden muss. Darüber hinaus müssen die Eingabeaufforderungen selbst regelmäßig aktualisiert werden. Daher wird dieser Aufwand fortlaufend sein.
Wird die agentic AI tatsächlich die Notwendigkeit menschlicher digitaler Talente - d. h. das IT-Rückstandproblem - lindern, wenn sie ihre eigenen erheblichen Anforderungen an menschliche digitale Talente mit sich bringt? Ich glaube nicht. Das bringt uns zurück zum Ausgangspunkt, nämlich dass, wenn menschliche digitale Talente eingebracht werden müssen, dann sollten wir dieses Talent nutzen, um das IT-Verbindungsproblem frontal anzugehen.
Durch die Bereitstellung der relevanten Rohdaten (typischerweise relationaler Natur) an das LLM (anstatt alles durch die grafische Benutzeroberfläche zu leiten) können die Eingabeaufforderungen selbst um Größenordnungen vereinfacht werden. 5-zeilige SQL-Abfragen sollten erwartungsgemäß 5-seitige Eingabeaufforderungen ersetzen. Darüber hinaus könnte der menschliche Bediener sogar vom LLM bei der Erstellung dieser SQL-Abfragen unterstützt werden.
Natürlich erfordert das Jonglieren mit SQL-Abfragen - möglicherweise gegen mehrere heterogene Datenbanken - Instrumentierung. Doch diese Art der Instrumentierung ist weitaus einfacher als die von der agentic AI vorgesehene. Sie ist so einfach, dass viele IT-Abteilungen wahrscheinlich eigene Tools für diesen Zweck entwickeln werden - wie sie es routinemäßig für kleinere Hilfsprogramme tun.
Mit der Zeit werden Softwareanbieter wahrscheinlich ihre eigenen Produkte anpassen, um diese Art der LLM-gesteuerten Verbindungsarbeit zu erleichtern, obwohl nicht ganz klar ist, in welcher Form dies geschehen wird (eine Stärkung der APIs ist eine Option, textbasierte Schnittstellen eine andere).
In Bezug auf das Lernen bin ich skeptisch. Agentic AI wird als Schritt hin zur allgemeinen künstlichen Intelligenz präsentiert, der eine der grundlegendsten Einschränkungen von LLMs angeht: das Fehlen echter Lernfähigkeiten. Doch Pounds’ vorgeschlagene Lösung - ein “Datenflügel” powered by retrieval augmented generation (RAG) - ist nichts weiter als ein einfacher Hack, der auf eine ansonsten beeindruckende Technologie (das LLM selbst) aufgesetzt ist.
Es ist denkbar, dass das LLM Befehle zur schrittweisen Anreicherung und Aktualisierung seines eigenen “Datenflügels” gibt. Es ist auch denkbar, dass das LLM seinen eigenen Feinabstimmungsdatensatz generieren könnte, indem es N-Schuss-Versuche zu 1-Schuss-Versuchen zusammenführt und dann einen Befehl zur Auslösung einer Feinabstimmungsphase gibt.
Es ist jedoch nicht klar, dass LLMs - so wie sie derzeit existieren - einen gangbaren Weg zu einer solchen Leistung darstellen. Ich vermute stark, dass es eine Herausforderung sein wird, im Laufe der Zeit einen gesunden Flügel aufrechtzuerhalten, und dass diese Wartung - sofern sie überhaupt funktioniert - eine erhebliche Menge an sehr menschlicher technisch versierter Intelligenz erfordern wird.
Hier berühren wir eine grundlegende Einschränkung des LLM-Paradigmas, wie es derzeit existiert. Es ist unklar, ob diese Einschränkung durch bloßes Hinzufügen von Dingen auf LLMs aufgehoben werden kann. Mein Bauchgefühl sagt mir, dass es erforderlich sein wird, die LLMs selbst neu zu überdenken. Es könnte eine relativ geringfügige Änderung sein, wie sich herausstellte - oder eine komplette Überarbeitung des Ganzen4.
Insgesamt bin ich zwar begeistert von LLMs, aber ich bin nicht überzeugt, dass der Hype um ihre Ausgründung, agentic AI, gerechtfertigt ist. Ich habe keinen Zweifel daran, dass Unternehmen “Agenten” einführen werden, um verschiedene Aufgaben zu mechanisieren - so wie mein eigenes Unternehmen, Lokad, dies in den letzten zwei Jahren getan hat. Doch wenn überhaupt, hat dieser Prozess uns noch abhängiger von einer talentierten, technisch versierten Belegschaft gemacht. Bei genauerer Betrachtung waren die “agentic” Teile immer die banalsten Stücke. Wir haben uns bemüht und sind gelegentlich gescheitert, LLM-gesteuerte Teile in die Produktion zu bringen, aber der “agentic” Aspekt war bestenfalls eine sehr entfernte Sorge.
-
Aktuelle LLMs arbeiten mit Tokens, nicht mit Unicode-Zeichen, obwohl diese Einschränkung in Zukunft aufgehoben werden könnte. LLMs können auch Eingabebilder verarbeiten, wenn diese Bilder im latenten Raum des Kontextfensters linearisiert (eingebettet) sind. ↩︎
-
Neugierige Leser sind eingeladen, das Quellmaterial unter https://blogs.nvidia.com/blog/what-is-agentic-ai zu überprüfen. ↩︎
-
Feinabstimmung ist der Prozess, ein vortrainiertes Modell zu nehmen und seine Schulung auf einem spezialisierten Datensatz oder für eine spezifische Aufgabe fortzusetzen, um das Modell basierend auf privaten Informationen anzupassen. Die Feinabstimmung setzt jedoch die Verfügbarkeit eines hochwertigen Korpus voraus, d.h. manuelle Beiträge von Experten. ↩︎
-
Das o1-Modell, das OpenAI im Dezember 2024 veröffentlicht hat, erhebt die chain-of-thought-Technik zur First-Class-Bürgerin und ermöglicht es dem LLM, mit einem inneren Monolog über den Prompt zu beginnen, bevor es zur Produktion der endgültigen Vervollständigung übergeht. Diese relativ bescheidene Variation der bestehenden LLMs liefert jedoch erhebliche Verbesserungen für bestimmte Aufgabenbereiche wie Mathematik und Programmierung. ↩︎