L’IA generativa è morta. Lunga vita all’IA agente…forse.

Un robot vettoriale in un abito anni '60 si trova di fronte a un tablet.

Molti fornitori di software, incoraggiati da valutazioni di mercato non del tutto ragionevoli, stanno puntando tutto sull’hype intorno all’intelligenza artificiale. Di solito non mi occupo di fare previsioni, ma profetizzo che nel 2025, l’intelligenza artificiale agente sarà una parola di moda importante. Come è consuetudine con le parole di moda tecnologiche, ci si può aspettare piccole novità effettive diluite in un oceano di aspettative esagerate.

Iniziamo con una piccola precisazione su cosa sta in gioco. Semplificando un po’1, gli LLM (large language models) sono, nel loro nucleo, modelli di completamento del testo. Prendono il testo grezzo in input e generano testo grezzo in output. Poiché questi modelli sono intelligentemente preaddestrati su quantità “teranormous” di materiale web, possono essere facilmente utilizzati per una grande varietà di compiti (ad esempio, traduzione, sintesi, generazione di idee, ecc.). Gli LLM hanno, infatti, reso obsoleta l’intera precedente area di NLP (elaborazione del linguaggio naturale).

Considerando le attuali prestazioni e il punto di prezzo degli LLM, è evidente che questa tecnologia ha il potenziale per offrire molto valore aggiunto per qualsiasi azienda che impiega lavoratori impiegati. I dettagli sono meno evidenti, però. Qui, l’IA agente (o, più precisamente, i suoi fornitori) propone di colmare il divario tra le capacità grezze degli LLM e i loro ambienti IT.

Riguardo ai dettagli, Erik Pounds2 (Nvidia) ha proposto nell’ottobre 2024 la seguente definizione per l’IA agente che, a mio avviso, cattura in modo appropriato ciò che generalmente si intende con questa nuova parola di moda:

L’IA agente utilizza un processo in quattro fasi per la risoluzione dei problemi: Percepire: gli agenti di intelligenza artificiale raccolgono e elaborano dati da varie fonti […]; Ragionare: un grande modello di linguaggio agisce come orchestratore. Questa fase utilizza tecniche come la generazione con recupero assistito (RAG) […]; Agire: integrandosi con strumenti e software esterni tramite interfacce di programmazione delle applicazioni, l’IA agente può eseguire rapidamente compiti […]; Apprendere: l’IA agente migliora continuamente attraverso un ciclo di feedback, o “data flywheel” […]

La grande visione dell’IA agente è che apre la strada a un “dipendente completamente digitale” (il mio termine, non quello di Pounds) funzionalmente equivalente a un lavoratore impiegato. Con, più o meno, circa un miliardo di lavoratori impiegati in tutto il mondo, non è troppo difficile capire perché i mercati sembrano perdere la testa per questa prospettiva.

A una visione più attenta, vediamo che ci sono due ostacoli fondamentali, nettamente distinti, che l’IA agente sta cercando di affrontare: l’strumentazione e l’apprendimento.

Strumentazione: Il primo, più ovvio, ostacolo è che gli LLM non possono essere sfruttati nel vuoto. Gli LLM sono software e, quindi, è necessaria una qualche forma di infrastruttura IT. Questa infrastruttura assicura che gli LLM possano recuperare informazioni rilevanti dal loro ambiente e produrre comandi - intesi a completare ciò che ci si aspetta dagli LLM. Per i dipartimenti IT - di solito già sommersi da anni di backlog - ideare questa infrastruttura è una sfida a sé stante. Tuttavia, gli LLM stessi potrebbero alleviare la sfida.

Apprendimento: Per quanto strano possa sembrare, gli LLM, per la maggior parte, non imparano mai nulla dopo la loro creazione. Questo è il nostro secondo ostacolo. Tutto ciò che gli LLM sanno è o informazioni pubbliche (quindi parte del preaddestramento) o parte del prompt. Non c’è quasi3 nulla in mezzo. Dopo ogni completamento, gli LLM vengono ripristinati al loro stato originale. Tuttavia, se la base di conoscenza che supporta il prompt potesse essere aggiornata dall’LLM stesso, allora anche questo ostacolo potrebbe essere concettualmente alleviato.

Se l’intelligenza artificiale agente fosse in grado di superare questi due ostacoli, senza ricorrere a LLM diversi da quelli attuali, allora aprirebbe effettivamente la strada a lavoratori generici digitali di tipo impiegatizio. Questa è, tuttavia, una proposta molto audace e, nonostante l’entusiasmo del mercato, affrontare gli ostacoli sopra menzionati potrebbe richiedere sforzi considerevoli.

Sul fronte della strumentazione, la proposta di avere un agente digitale che interagisce direttamente con lo schermo e la tastiera - come farebbe un essere umano - è allettante, principalmente perché sembra evitare completamente le sfide dell’infrastruttura IT menzionate in precedenza. Tuttavia, è anche il modo più monumentale eccessivamente ingegnerizzato per risolvere la sfida. Per percepire l’interfaccia utente grafica, dozzine (centinaia?) di schermate dovranno essere inviate all’LLM anche per la più semplice interazione. Per agire, dozzine (centinaia?) di comandi - ad esempio comandi del mouse - dovranno anche essere emessi.

Mentre non dubito che una tale impresa sia già possibile con gli LLM attuali, metto in dubbio la praticità e la manutenibilità di questo approccio. Sebbene l’elaborazione delle immagini stesse rappresenti un enorme sovraccarico delle risorse di calcolo, questo non è il vero ostacolo (dato che i progressi dell’hardware informatico probabilmente ridurranno nel tempo questo sovraccarico molto più rispetto al costo di un dipendente a tempo pieno).

Il nocciolo del problema è questo: specificare in modo univoco (tramite prompt) ogni minimo aspetto dell’interazione(i) con le applicazioni aziendali necessarie per svolgere un compito è uno sforzo considerevole. Questo è uno sforzo che richiede, almeno, competenze informatiche decenti - se non una mentalità informatica ben sviluppata. Dubito molto che questo compito possa essere portato a termine da qualcuno altrimenti incapace di programmare - o incapace di diventare un programmatore alle prime armi nel giro di pochi mesi. Inoltre, poiché il panorama IT di qualsiasi azienda di una certa dimensione è in continua evoluzione, l’adeguatezza dei prompt dovrà essere monitorata. Inoltre, i prompt stessi dovranno essere regolarmente aggiornati. Pertanto, questo sforzo sarà continuo.

L’intelligenza artificiale agente sarà in grado di alleviare veramente la necessità di talento digitale umano - ovvero il problema del backlog IT - considerando che comporta anche requisiti considerevoli di talento digitale umano? Non credo. Questo ci riporta al punto di partenza, ovvero che se è necessario coinvolgere talento digitale umano, allora utilizziamo questo talento per affrontare frontalmente l’infrastruttura IT stessa.

Esponendo i dati rilevanti grezzi (tipicamente di natura relazionale) all’LLM (anziché indirizzare tutto attraverso l’interfaccia utente grafica), ci si può aspettare che i prompt stessi siano semplificati di ordini di grandezza. Le query SQL di 5 righe dovrebbero sostituire i prompt di 5 pagine. Inoltre, l’operatore umano potrebbe persino essere assistito dall’LLM quando si tratta di scrivere quelle query SQL.

Naturalmente, gestire le query SQL - possibilmente eseguite su database multipli ed eterogenei - richiede strumentazione. Tuttavia, questo tipo di strumentazione è molto più semplice rispetto a quella immaginata dall’intelligenza artificiale agente. È così semplice che, infatti, molti dipartimenti IT probabilmente svilupperanno strumenti di propria creazione per questo scopo, come fanno abitualmente per le piccole utility.

Nel tempo, i fornitori di software stessi probabilmente adatteranno i propri prodotti per agevolare questo tipo di infrastruttura basata su LLM, anche se non è del tutto chiaro quale forma assumerà (una delle opzioni potrebbe essere il rafforzamento delle API, un’altra potrebbe essere l’uso di interfacce basate su testo).

Sul fronte dell’apprendimento, sono scettico. L’intelligenza artificiale agente viene presentata come un passo verso l’intelligenza artificiale generale, affrontando una delle limitazioni più fondamentali degli LLM: la mancanza di vere capacità di apprendimento. Tuttavia, la soluzione proposta da Pounds - una “ruota dei dati” alimentata dalla generazione potenziata del recupero (RAG) - non è altro che un semplice trucco sovrapposto a una tecnologia altrimenti impressionante (l’LLM stesso).

È concepibile che l’LLM emetta comandi per arricchire e aggiornare incrementalmente la propria “ruota dei dati”. È anche concepibile che l’LLM possa generare il proprio set di dati di messa a punto riducendo i tentativi N-shot a tentativi 1-shot, per poi emettere un comando per avviare una fase di messa a punto.

Tuttavia, non è chiaro che gli LLM - così come esistono attualmente - rappresentino un percorso praticabile verso un tale risultato. Sospetto fortemente che mantenere una ruota dei dati sana nel tempo possa rivelarsi una sfida e che questa manutenzione richiederà, se funziona del tutto, una notevole quantità di intelligenza umana tecnicamente incline.

Qui, stiamo toccando una limitazione fondamentale del paradigma LLM così come esiste attualmente. Non è chiaro che questa limitazione possa essere superata semplicemente aggiungendo cose sopra gli LLM. La mia sensazione è che affrontare questa limitazione richiederà una riconsiderazione degli LLM stessi. Potrebbe essere un cambiamento relativamente minore, come si è rivelata la catena di pensiero - o potrebbe richiedere una revisione completa di tutto4.

Nel complesso, sebbene rimanga entusiasta degli LLM, non sono convinto che l’entusiasmo intorno al loro spin-off, l’intelligenza artificiale agente, sia giustificato. Non ho dubbi che le aziende introdurranno “agenti” per meccanizzare varie attività - proprio come la mia stessa azienda, Lokad, ha fatto negli ultimi due anni. Tuttavia, se mai, questo processo ci ha resi ancora più dipendenti da una forza lavoro talentuosa e tecnologicamente competente. Inoltre, osservando quelle iniziative, le parti “agenti” sono sempre state le più banali. Abbiamo faticato e talvolta fallito nel mettere in produzione pezzi basati su LLM, ma l’aspetto “agente” era, al massimo, una preoccupazione molto lontana.


  1. Gli LLM attuali operano su token, non su caratteri Unicode, anche se questo vincolo potrebbe essere superato in futuro. Gli LLM possono anche elaborare immagini di input, se tali immagini sono linearizzate (incorporate) nello spazio latente della finestra di contesto. ↩︎

  2. I lettori curiosi sono invitati a consultare il materiale originale su https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎

  3. La messa a punto è il processo di prendere un modello pre-addestrato e continuare il suo addestramento su un set di dati specializzato o per un compito specifico, adattando così il modello in base alle informazioni private. Tuttavia, la messa a punto si basa sulla disponibilità di un corpus di alta qualità, ovvero contributi manuali da parte di esperti. ↩︎

  4. Il modello o1 rilasciato da OpenAI nel dicembre 2024 eleva la tecnica della catena di pensiero a cittadino di prima classe, consentendo all’LLM di iniziare con un monologo interiore che discute il prompt prima di passare alla produzione del completamento finale. Questa variazione relativamente modesta sugli LLM esistenti sta tuttavia apportando miglioramenti sostanziali per determinate classi di compiti, come matematica e programmazione. ↩︎