Svelare Agentic AI

gennaio 13, 2025

technology

Joannes Vermorel

L’AI generativa è morta. Lunga vita all’Agentic AI… forse.

Un robot vettoriale in un completo in stile anni '60 si trova davanti a un tablet.

Molti software vendors, incoraggiati da valutazioni di mercato non proprio ragionevoli, stanno intensificando il clamore attorno all’artificial intelligence. Di solito non mi occupo di fare previsioni, ma profetizzo che nel 2025, agentic artificial intelligence diventerà un termine di grande impatto. Come avviene per i termini tecnologici, ci si può aspettare frammenti di vera novità diluiti in un mare di aspettative gonfiate.

Iniziamo chiarendo un po’ ciò che è in gioco. Semplificando un po’¹, i LLM (large language models) sono, in fondo, modelli di completamento del testo. Ricevono testo grezzo in input e generano testo grezzo in output. Poiché questi modelli sono abilmente pre-addestrati su quantità “teranormous” di materiali web, possono essere prontamente utilizzati per un’ampia varietà di compiti (es: traduzione, sintesi, generazione di idee, ecc.). In effetti, i LLM hanno reso obsoleta l’intera disciplina precedente della NLP (natural language processing).

Considerando le attuali prestazioni e il prezzo dei LLM, è evidente che questa tecnologia ha il potenziale per fornire un notevole value add a qualsiasi azienda impiegante personale d’ufficio. Tuttavia, i dettagli sono meno chiari. Qui, l’agentic AI (o, più precisamente, i suoi fornitori) propone di colmare il divario tra le capacità grezze dei LLM e i loro ambienti IT.

Per quanto riguarda i dettagli, Erik Pounds² (Nvidia) propose nell’ottobre 2024 la seguente definizione per l’agentic AI che, a mio avviso, coglie perfettamente ciò che generalmente si intende con questo nuovo termine gettonato:

L’agentic AI utilizza un processo in quattro fasi per la risoluzione dei problemi: Percepisce: gli agenti AI raccolgono ed elaborano dati provenienti da varie fonti […]; Ragiona: un large language model agisce come orchestratore. Questa fase utilizza tecniche come la generazione potenziata dal recupero (RAG) […]; Agisce: integrandosi con strumenti e software esterni tramite interfacce di programmazione delle applicazioni, l’agentic AI può eseguire rapidamente i compiti […]; Apprende: l’agentic AI migliora continuamente attraverso un ciclo di feedback, o “data flywheel” […]

La grande visione dell’agentic AI è che essa apra la strada a un “dipendente completamente digitale” (termine coniato da me, non da Pounds) funzionalmente equivalente a un lavoratore d’ufficio. Con, più o meno, circa un miliardo di lavoratori d’ufficio in tutto il mondo, non è difficile capire perché i mercati sembrino perdere la testa su questa prospettiva.

Osservando più da vicino, notiamo che ci sono due ostacoli fondamentali, nettamente distinti, che l’agentic AI cerca di affrontare: la strumentazione e l’apprendimento.

Strumentazione: Il primo ostacolo, il più ovvio, è che il LLM non può essere utilizzato in isolamento. I LLM sono software e, pertanto, è necessaria una qualche infrastruttura IT. Questa infrastruttura garantisce che il LLM possa recuperare informazioni rilevanti dal suo ambiente e fornire comandi — finalizzati a completare quanto richiesto dal LLM. Per i dipartimenti IT — solitamente già sommersi da anni di arretrato — ideare questa infrastruttura è una sfida a sé stante. Tuttavia, gli stessi LLM potrebbero alleviare questa sfida.

Apprendimento: Per quanto strano possa sembrare, i LLM, nella maggior parte dei casi, non apprendono mai nulla dopo la loro creazione. Questo è il nostro secondo ostacolo. Tutto ciò che il LLM sa è o informazione pubblica (quindi parte del pre-addestramento) oppure ciò che è presente nel prompt. Non c’è praticamente³ una via di mezzo. Dopo ogni completamento, il LLM viene ripristinato al suo stato originale. Tuttavia, se la base di conoscenza che supporta il prompt potesse essere aggiornata dallo stesso LLM, allora questo ostacolo potrebbe essere alleviato concettualmente.

Se l’agentic AI riuscisse a risolvere questi due ostacoli — senza ricorrere a LLM diversi da quelli che abbiamo attualmente — allora aprirebbe davvero la strada a impiegati digitali generici. Questa, tuttavia, è una proposta molto audace e, nonostante l’entusiasmo del mercato, affrontare gli ostacoli sopra menzionati potrebbe richiedere sforzi considerevoli.

Per quanto riguarda la strumentazione, la proposta di avere un digital agent che interagisca direttamente con lo schermo e la tastiera — come farebbe un essere umano — è attraente, principalmente in quanto sembra eludere completamente le sfide dell’infrastruttura IT menzionate in precedenza. Tuttavia, è anche il modo più esageratamente sovraccarico di ingegnerizzare la soluzione al problema. Per percepire l’interfaccia grafica, dozzine (centinaia?) di acquisizioni dello schermo dovranno essere canalizzate nel LLM anche per l’interazione più semplice. Per agire, dozzine (centinaia?) di comandi — ad esempio, comandi del mouse — dovranno essere emessi.

Sebbene non dubiti che un’impresa del genere sia già possibile con i LLM attuali, metto in dubbio la praticità e la sostenibilità di questo approccio. Sebbene l’elaborazione delle immagini rappresenti un notevole onere in termini di risorse computazionali, questo non costituisce il vero problema (dato che i progressi nell’hardware probabilmente, col tempo, ridurranno tale onere al di sotto del costo di un dipendente a tempo pieno).

Il nocciolo del problema è il seguente: descrivere in modo inequivocabile (tramite prompt) ogni minimo aspetto dell’interazione con le business apps necessarie per portare a termine un compito rappresenta uno sforzo considerevole. Questo sforzo richiede, almeno, competenze IT decenti — se non una mentalità IT ben sviluppata. Dubito fortemente che questo compito possa essere svolto da qualcuno altrimenti incapace di programmare — o incapace di diventare un programmatore entry-level in pochi mesi. Inoltre, dato che il panorama IT di qualsiasi azienda di notevoli dimensioni è in costante cambiamento, l’adeguatezza dei prompt dovrà essere monitorata. Inoltre, i prompt stessi dovranno essere aggiornati regolarmente. Pertanto, questo sforzo sarà continuo.

L’agentic AI riuscirà veramente ad alleviare la necessità di talento digitale umano — ovvero il problema dell’arretrato IT — considerando che essa stessa richiede notevoli competenze di talento digitale? Non credo. Questo ci riporta al punto di partenza: se bisogna ricorrere al talento digitale umano, allora usiamolo per affrontare direttamente l’infrastruttura IT.

Esporre i dati grezzi rilevanti (tipicamente di natura relazionale) al LLM (invece di convogliare tutto attraverso l’interfaccia grafica) dovrebbe permettere di semplificare i prompt di ordini di grandezza. Dovrebbero essere sostituite query SQL di 5 righe ai prompt di 5 pagine. Inoltre, l’operatore umano potrebbe persino essere assistito dal LLM nella scrittura di tali query SQL.

Naturalmente, gestire query SQL — possibilmente eseguite contro molteplici database eterogenei — richiede strumentazione. Tuttavia, questo tipo di strumentazione è di gran lunga più semplice di quella immaginata dall’agentic AI. È così semplice che, in effetti, molti dipartimenti IT probabilmente svilupperanno strumenti fatti in casa per questo stesso scopo — così come fanno abitualmente per le utilità minori.

Col tempo, anche i fornitori di software probabilmente adatteranno i propri prodotti per facilitare questo tipo di infrastruttura basata sui LLM, sebbene non sia del tutto chiaro quale forma prenderà (puntare dritto sulle API è un’opzione, le interfacce basate su testo ne sono un’altra).

Sul fronte dell’apprendimento, sono scettico. L’agentic AI viene presentata come un passo verso l’intelligenza artificiale generale, affrontando una delle limitazioni più fondamentali dei LLM: la mancanza di vere capacità di apprendimento. Tuttavia, la soluzione proposta da Pounds — un “data flywheel” alimentato dalla generazione potenziata dal recupero (RAG) — non è altro che un facile trucco sovrapposto a un altrimenti impressionante pezzo di tecnologia (lo stesso LLM).

È concepibile che il LLM possa emettere comandi per arricchire e aggiornare progressivamente il proprio “data flywheel”. È inoltre concepibile che il LLM possa generare il proprio dataset per il fine-tuning comprimendo tentativi N-shot in tentativi 1-shot, per poi emettere un comando che attivi una fase di fine-tuning.

Tuttavia, non è chiaro che i LLM — così come esistono attualmente — rappresentino una via praticabile per un’impresa del genere. Sospetto fortemente che mantenere un flywheel funzionante nel tempo possa rivelarsi difficile, e che tale manutenzione — ammesso che funzioni — richieda una notevole quantità di intelligenza tecnica, molto di stampo umano.

Qui stiamo affrontando una limitazione fondamentale del paradigma LLM così come esiste attualmente. Non è chiaro che questa limitazione possa essere superata semplicemente aggiungendo elementi sopra i LLM. Il mio istinto mi porta a pensare che per superare questa limitazione sarà necessario ripensare i LLM stessi. Potrebbe trattarsi di un cambiamento relativamente minore, come è avvenuto con il chain-of-thought, oppure richiedere una completa revisione del sistema⁴.

In generale, pur rimanendo entusiasta dei LLM, non sono convinto che il clamore attorno al loro derivato, l’agentic AI, sia giustificato. Non ho dubbi che le aziende lanceranno “agenti” per meccanizzare vari compiti — proprio come la mia azienda, Lokad, lo fa da due anni. Tuttavia, questo processo ci ha reso ancora più dipendenti da una forza lavoro talentuosa e tech-savvy workforce. Inoltre, osservando quelle iniziative, le parti “agentic” sono sempre risultate essere le più banali. Abbiamo faticato, e talvolta fallito, nell’implementare componenti basati sui LLM in produzione, ma l’aspetto “agentic” era, nel migliore dei casi, una preoccupazione molto distante.

Gli LLM attuali operano sui token, non sui caratteri Unicode, anche se questo vincolo potrebbe essere revocato in futuro. I LLM possono anche elaborare immagini in input, se le suddette immagini sono linearizzate (incorporate) nello spazio latente della finestra di contesto. ↩︎
I lettori curiosi sono invitati a consultare il materiale sorgente su https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎
Il fine-tuning è il processo di prendere un modello pre-addestrato e continuare il suo training su un dataset specializzato o per uno specifico compito, adattando così il modello in base a informazioni private. Tuttavia, il fine-tuning dipende dalla disponibilità di un corpus di alta qualità, cioè contributi manuali da parte di esperti. ↩︎
Il modello o1 rilasciato da OpenAI a dicembre 2024 eleva la tecnica del chain-of-thought a cittadino di prima classe, permettendo al LLM di iniziare con un monologo interno che discute il prompt prima di passare alla produzione del completamento finale. Questa variazione relativamente modesta sui LLM esistenti sta tuttavia producendo miglioramenti sostanziali per determinate classi di compiti, come la matematica e la programmazione. ↩︎

Torna al Blog ›

Svelare Agentic AI

Altri articoli