Agentic AI entschlüsseln

Januar 13, 2025

technology

Joannes Vermorel

Generative AI ist tot. Lang lebe Agentic AI… vielleicht.

Ein Vektorroboter in einem Anzug im Stil der 60er steht vor einem Computer-Tablet.

Viele Softwareanbieter, ermutigt von nicht-ganz-nachvollziehbaren Marktbewertungen, setzen noch stärker auf den Hype um künstliche Intelligenz. Normalerweise gehöre ich nicht zu denen, die Vorhersagen treffen, aber ich prophezeie, dass im Jahr 2025 agentic artificial intelligence zu einem wichtigen Schlagwort werden wird. Wie es bei Technik-Schlagwörtern üblich ist, kann man erwarten, dass winzige Ansätze tatsächlicher Neuheit in einem Meer aufgeblasener Erwartungen untergehen.

Lassen Sie uns zunächst etwas klarstellen, worum es geht. Etwas vereinfacht¹ sind LLMs (Large Language Models) im Kern Textvervollständigungsmodelle. Sie nehmen rohen Text als Eingabe und erzeugen rohen Text als Ausgabe. Da diese Modelle durch raffinierte Vortrainierung auf „teranormos hohen“ Mengen an Webmaterial ausgebildet wurden, können sie leicht für eine Vielzahl von Aufgaben eingesetzt werden (z. B. Übersetzung, Zusammenfassung, Ideenfindung usw.). Tatsächlich haben LLMs das gesamte bisherige Gebiet der NLP (Natural Language Processing) obsolet gemacht.

Angesichts der aktuellen Leistung und des Preispunkts von LLMs ist es offensichtlich, dass diese Technologie das Potenzial hat, jedem Unternehmen, das White Collars beschäftigt, erheblichen value add zu liefern. Das Kleingedruckte ist jedoch weniger offensichtlich. Hier versucht agentic AI (oder, genauer, seine Anbieter) die Lücke zwischen den rohen Fähigkeiten der LLMs und deren IT-Umgebungen zu überbrücken.

Bezüglich der Details schlug Erik Pounds² (Nvidia) im Oktober 2024 die folgende Definition für agentic AI vor, die meiner Meinung nach treffend das einfängt, was allgemein unter diesem neuen Schlagwort zu verstehen ist:

Agentic AI verwendet einen vierstufigen Prozess zur Problemlösung: Wahrnehmen: KI-Agenten sammeln und verarbeiten Daten aus verschiedenen Quellen […]; Schlussfolgern: Ein Large Language Model fungiert als Orchestrator. Dieser Schritt verwendet Techniken wie Retrieval-Augmented Generation (RAG) […]; Handeln: Durch die Integration mit externen Tools und Software über Application Programming Interfaces kann agentic AI Aufgaben schnell ausführen […]; Lernen: Agentic AI verbessert sich kontinuierlich durch eine Feedback-Schleife, oder “data flywheel” […]

Die groß angelegte Vision von agentic AI besteht darin, den Weg für einen „vollständig digitalen Mitarbeiter“ (mein Begriff, nicht Pounds’) zu ebnen, der funktional einem Angestellten entspricht. Da es weltweit, grob geschätzt, etwa eine Milliarde Angestellte gibt, ist es nicht schwer nachzuvollziehen, warum die Märkte angesichts dieser Perspektive scheinbar den Verstand verlieren.

Bei näherer Betrachtung sehen wir, dass es zwei klar voneinander unterscheidbare grundlegende Hürden gibt, die agentic AI zu überwinden versucht: Instrumentierung und Lernen.

Instrumentation: Die erste, offensichtlichste Hürde besteht darin, dass ein LLM nicht im luftleeren Raum genutzt werden kann. LLMs sind Software und erfordern daher eine IT-Infrastruktur irgendeiner Art. Diese Infrastruktur stellt sicher, dass das LLM relevante Informationen aus seiner Umgebung abrufen und Befehle ausgeben kann – so wie es erwartet wird. Für IT-Abteilungen, die in der Regel bereits in jahrelangen Rückständen ertrinken, stellt die Entwicklung dieser Infrastruktur eine besondere Herausforderung dar. Allerdings könnten die LLMs selbst diese Herausforderung abmildern.

Learning: So seltsam es auch erscheinen mag, LLMs lernen im Wesentlichen niemals etwas nach ihrem ursprünglichen Training. Dies ist unsere zweite Hürde. Alles, was das LLM je weiß, stammt entweder aus öffentlichen Informationen (und ist daher Teil des Vortrainings) oder aus dem Prompt. Es gibt fast³ nichts dazwischen. Nach jedem Abschluss wird das LLM in seinen ursprünglichen Zustand zurückgesetzt. Wenn jedoch die Datenbasis, die den Prompt unterstützt, vom LLM selbst aktualisiert werden könnte, dann könnte diese Hürde konzeptionell ebenfalls abgemildert werden.

Wenn agentic AI diese beiden Hürden lösen könnte – ohne dabei auf LLMs zurückzugreifen, die über die derzeit verfügbaren hinausgehen – würde es tatsächlich den Weg für generische digitale Angestellte ebnen. Dies ist jedoch ein sehr kühnes Vorhaben, und trotz der Begeisterung des Marktes könnte die Bewältigung der oben genannten Hürden beträchtliche Anstrengungen erfordern.

Auf der Seite der Instrumentierung ist der Vorschlag, einen digitalen Agenten zu haben, der direkt mit Bildschirm und Tastatur interagiert – wie ein Mensch es tun würde – attraktiv, da er scheinbar die zuvor erwähnten IT-Infrastruktur-Herausforderungen vollständig umgeht. Allerdings ist er auch der monumental überkonstruierteste Weg, um die Herausforderung zu lösen. Um die grafische Benutzeroberfläche wahrzunehmen, müssen Dutzende (Hunderte?) von Bildschirmaufnahmen in das LLM eingespeist werden, selbst für die einfachste Interaktion. Um zu handeln, müssen zudem Dutzende (Hunderte?) von Befehlen – z. B. Mausbefehle – erteilt werden.

Obwohl ich nicht bezweifle, dass ein solches Unterfangen mit den heutigen LLMs bereits möglich ist, bezweifle ich die Praktikabilität und Wartbarkeit dieses Ansatzes. Zwar stellen die Verarbeitung der Bilder an sich einen enormen Aufwand an Rechenressourcen dar, doch ist dies nicht das eigentliche Problem (zumal der Fortschritt in der Computerhardware diesen Aufwand im Laufe der Zeit wahrscheinlich weit unter die Kosten eines Vollzeitmitarbeiters sinken lassen wird).

Der springende Punkt des Problems ist folgender: Jeden noch so kleinen Aspekt der Interaktion(en) mit den Business-Apps unmissverständlich (über Prompts) zu formulieren, ist ein erheblicher Aufwand. Dieser Aufwand erfordert mindestens solide IT-Kenntnisse – wenn nicht sogar ein gut entwickeltes IT-Denken. Ich bezweifle sehr, dass diese Aufgabe von jemandem bewältigt werden kann, der ansonsten nicht programmieren kann – oder der nicht in der Lage wäre, innerhalb weniger Monate ein Programmieranfänger zu werden. Zudem muss angesichts der sich ständig ändernden IT-Landschaft jedes größeren Unternehmens die Angemessenheit der Prompts überwacht werden. Darüber hinaus müssen die Prompts selbst regelmäßig aktualisiert werden. Somit wird dieser Aufwand fortlaufend sein.

Wird agentic AI den Bedarf an menschlichem digitalem Talent – also das IT-Rückstandsproblem – wirklich lindern, wenn man bedenkt, dass es seine eigenen beträchtlichen Anforderungen an menschliches digitales Talent mit sich bringt? Ich glaube nicht. Das führt uns zurück zum Ausgangspunkt, nämlich dass, wenn menschliches digitales Talent hinzugezogen werden muss, wir dieses Talent dazu nutzen sollten, die IT-Infrastruktur selbst frontal anzugehen.

Indem die rohen, relevanten Daten (typischerweise relationaler Natur) dem LLM direkt zugänglich gemacht werden (anstatt alles über die grafische Benutzeroberfläche zu leiten), sollte man erwarten, dass die Prompts um Größenordnungen vereinfacht werden. Es ist zu erwarten, dass 5-zeilige SQL-Abfragen 5-seitige Prompts ersetzen. Zudem könnte der menschliche Bediener beim Schreiben dieser SQL-Abfragen sogar vom LLM unterstützt werden.

Natürlich erfordert das Jonglieren mit SQL-Abfragen – möglicherweise gegen mehrere, heterogene Datenbanken durchgeführt – Instrumentierung. Dennoch ist diese Art der Instrumentierung weitaus einfacher als die, die von agentic AI angedacht wird. Sie ist so einfach, dass tatsächlich viele IT-Abteilungen vermutlich eigene Tools für genau diesen Zweck entwickeln werden – so wie sie es routinemäßig für kleinere Hilfsprogramme tun.

Mit der Zeit werden Softwareanbieter vermutlich auch ihre eigenen Produkte anpassen, um diese Art von LLM-gesteuerter Infrastruktur zu ermöglichen, obwohl nicht ganz klar ist, welche Form dies annehmen wird (eine Option ist die verstärkte Nutzung von APIs, eine andere textbasierte Schnittstellen).

Im Bereich des Lernens bin ich skeptisch. Agentic AI wird als ein Schritt hin zur allgemeinen künstlichen Intelligenz präsentiert, der eine der grundlegendsten Einschränkungen von LLMs angeht: das Fehlen echter Lernfähigkeiten. Doch die von Pounds vorgeschlagene Lösung – ein “data flywheel” angetrieben durch retrieval augmented generation (RAG) – ist nichts weiter als ein einfacher Hack, der über ein ansonsten beeindruckendes Stück Technologie (das LLM selbst) gelegt wird.

Es ist denkbar, dass das LLM Befehle ausgibt, um sein eigenes “data flywheel” schrittweise anzureichern und zu aktualisieren. Ebenso ist es denkbar, dass das LLM seinen eigenen Fine-Tuning-Datensatz erzeugt, indem es N-Shot-Versuche in 1-Shot-Versuche zusammenführt und dann einen Befehl ausgibt, um eine Fine-Tuning-Phase auszulösen.

Allerdings ist nicht klar, dass LLMs – wie sie derzeit existieren – einen gangbaren Weg zu einem solchen Unterfangen darstellen. Ich vermute stark, dass die Aufrechterhaltung eines gesunden flywheels im Laufe der Zeit sich als herausfordernd erweisen wird und dass diese Wartung – falls sie überhaupt funktioniert – einen erheblichen Anteil an sehr menschlich-technisch versierter Intelligenz erfordern wird.

Hier stoßen wir an eine grundlegende Beschränkung des derzeitigen LLM-Paradigmas. Es ist unklar, ob diese Beschränkung allein dadurch aufgehoben werden kann, dass man einfach etwas auf die LLMs draufpackt. Mein Bauchgefühl ist, dass die Behebung dieser Beschränkung ein Umdenken der LLMs selbst erfordern wird. Es könnte sich um eine relativ kleine Änderung handeln, wie sich beim Chain-of-Thought herausstellte – oder um eine vollständige Überarbeitung des Ganzen⁴.

Insgesamt, obwohl ich nach wie vor von den LLMs begeistert bin, bin ich nicht überzeugt, dass der Hype um deren Ableger, agentic AI, gerechtfertigt ist. Ich bezweifle kaum, dass Unternehmen “Agents” einführen werden, um verschiedene Aufgaben zu mechanisieren – genauso wie mein eigenes Unternehmen, Lokad, dies in den letzten zwei Jahren getan hat. Wenn überhaupt, hat uns dieser Prozess jedoch noch abhängiger von einem talentierten, tech-savvy workforce gemacht. Darüber hinaus waren bei diesen Initiativen die “agentic” Teile immer die unscheinbarsten. Wir hatten Schwierigkeiten – und scheiterten gelegentlich – LLM-gestützte Komponenten in die Produktion zu bringen, aber der “agentic” Aspekt war bestenfalls eine sehr untergeordnete Sorge.

Heutige LLMs arbeiten mit Tokens und nicht mit Unicode-Zeichen, obwohl diese Einschränkung in Zukunft möglicherweise aufgehoben wird. LLMs können auch Eingabebilder verarbeiten, sofern diese Bilder innerhalb des latenten Raums des Kontextfensters linearisiert (eingebettet) sind. ↩︎
Neugierige Leser sind eingeladen, das Ausgangsmaterial unter https://blogs.nvidia.com/blog/what-is-agentic-ai zu überprüfen. ↩︎
Fine-Tuning ist der Prozess, ein vortrainiertes Modell zu nehmen und dessen Training mithilfe eines spezialisierten Datensatzes oder für eine spezifische Aufgabe fortzusetzen, um das Modell basierend auf privaten Informationen anzupassen. Fine-Tuning beruht jedoch auf der Verfügbarkeit eines hochwertigen Korpus, d.h. manueller Beiträge von Experten. ↩︎
Das im Dezember 2024 von OpenAI veröffentlichte o1-Modell erhebt die Chain-of-Thought-Technik zu einem erstklassigen Konzept, indem es dem LLM erlaubt, mit einem inneren Monolog, der den Prompt diskutiert, zu beginnen, bevor es zur finalen Ausgabe übergeht. Diese relativ bescheidene Variation der bestehenden LLMs liefert dennoch erhebliche Verbesserungen für bestimmte Aufgabenbereiche, wie Mathematik und Programmierung. ↩︎

Zurück zum Blog ›

Agentic AI entschlüsseln

Weitere Beiträge