Una recensione d'opinione sull'intervista di Yann LeCun con Lex Fridman

marzo 18, 2024

technology

Joannes Vermorel

Yann LeCun, uno dei ricercatori di AI più influenti al mondo, ha recentemente condiviso un’intervista di 3 ore con Lex Fridman¹ intitolata “Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI”. Quest’intervista è straordinaria e, con il suo pensiero chiaro e articolato, Yann LeCun dimostra come la scienza in movimento si manifesti al meglio. Consiglio vivamente quest’intervista a chiunque sia interessato all’Artificial Intelligence (AI). Tuttavia, non supporto pienamente tutte le proposizioni avanzate da Yann LeCun, e queste divergenze di opinione potrebbero rivelarsi più significative di un semplice dibattito accademico. In questo articolo recensisco quest’intervista, partendo dalle proposizioni che necessitano di un supporto più ampio e continuando con quelle che metto in discussione.

Uno scienziato insegna a un'AI come versare il tè.

L’attuale clamore attorno all’AI deriva dai Large Language Models (LLMs) - ciò che Yann LeCun definisce correttamente, in realtà, come LLMs autoregressivi. I token (frazioni di parole) vengono generati uno alla volta, alimentando il modello che ha generato il token precedente. Gli LLMs sono il segreto dietro ChatGPT. La maggior parte delle persone, me compreso, che trascorrono qualche ora con GPT4, non possono fare a meno di provare un senso di vertigine. Questo potrebbe non essere l’Artificial General Intelligence (AGI), ma è comunque estremamente impressionante. Lo shock è profondo, e molti hanno iniziato a richiedere drastiche misure legali d’emergenza poiché l’AGI viene spesso presentata come una reale minaccia a livello di estinzione per l’umanità - uno scenario alla Terminator.

Apocalisse e Disperazione

Yann LeCun sostiene sostanzialmente che questa visione ‘doom and gloom’ sia completamente insensata, e supporto pienamente questa posizione. Lo scenario dell’apocalisse richiede che l’AGI sia un evento: deve esistere un momento in cui un’AGI sia talmente avanti rispetto a tutto il resto da poter semplicemente prendere il controllo. Tuttavia, Yann LeCun sostiene che l’AGI non sarà un evento, e non potrei essere più d’accordo.

Mentre al grande pubblico può sembrare che la tecnologia abbia compiuto un balzo in avanti (praticamente da un giorno all’altro) nel 2023, non è affatto così. Al contrario, il progresso è stato incredibilmente, tediosamente e esasperantemente incrementale negli ultimi 5 decenni. Inoltre, non è una sola cosa a migliorare, bensì dozzine di aspetti largamente non collegati: paradigmi migliori, algoritmi migliori, hardware migliore, dataset migliori, metodologie migliori, codebase migliori, ecc. Tutti questi miglioramenti sono stati generati (per mancanza di un termine migliore) da una folla incredibilmente diversificata di collaboratori. Pertanto, stimo che la probabilità di un salto diretto verso l’AGI sia nulla. Sfortunatamente, profetizzare la fine dei tempi è antico quanto l’umanità stessa, e parecchie persone hanno salito a bordo per scopi di autoesaltazione².

Una volta eliminato l’aspetto dell’evento dell’AGI, è difficile immaginare come l’AGI possa mai presentarsi come una minaccia a livello di estinzione. Qualsiasi AGI malintenzionata, o qualsiasi AGI gestita da un attore malizioso, sarà contrastata da altre AGI altrettanto capaci che eserciti, agenzie di intelligence, aziende o persino università e appassionati avranno sviluppato. L’AGI sarà solo un’aggiunta tardiva alla già molto lunga lista di tecnologie in grado di arrecare danni immensi se usate per scopi nefasti.

Infatti, sostengo persino che, anche se l’umanità dovesse saltare direttamente all’AGI - per esempio, grazie a una civiltà aliena che consegna progetti preconfezionati - lo scenario dell’apocalisse sarebbe comunque molto improbabile. Come osservato 80 anni fa da Hayek³, esistono due tipi di conoscenza: quella speciale (formule, concetti, ecc.) e quella ordinaria (conoscenza del tempo e dello spazio). Gli intellettuali trattano quasi invariabilmente la conoscenza speciale come se fosse l’unica forma di conoscenza che conta. Un’AGI sarebbe l’apice della conoscenza speciale e, pertanto, non sorprende che molti intellettuali deducano da questa osservazione che, in quanto padrone della conoscenza speciale, questa AGI sarebbe anche il padrone del mondo in toto. Tuttavia, nonostante tutta la sua “conoscenza speciale”, questa AGI mancherebbe di quella conoscenza ordinaria, e questo è un divario immenso che non va sottovalutato.

Inoltre, l’AGI sarà il prodotto di una civiltà industriale avanzata. In quanto tale, sarà fortemente dipendente da complesse - e fragili - supply chain. Infatti, i semiconduttori sono una delle industrie più complesse in circolazione⁴, e qualsiasi tecnologia hardware alternativa (se l’AGI non dovesse emergere tramite i semiconduttori) sarà quasi certamente altrettanto sofisticata — e altrettanto fragile. La continua esistenza dell’AGI dipenderà dal supporto attivo dell’umanità per decenni, se non secoli. Le persone hanno avuto tutto il tempo (e le opportunità) per affrontare i problemi inevitabili che hanno accompagnato l’ascesa di ogni tecnologia finora. Almeno per il momento, non c’è alcun’indicazione che questa tecnologia sarà diversa.

Gli LLMs non sono sufficienti per l’AGI

LeCun sostiene che LLMs più grandi e veloci non sono sufficienti per portarci all’AGI. Sono d’accordo, sebbene, come vedremo di seguito, per ragioni alquanto diverse da quelle presentate da LeCun. Tuttavia, concordo pienamente sul fatto che gli LLMs, così come esistono attualmente, sono almeno incompleti. Pur superando il Test di Turing con successo, come giustamente osserva LeCun, il Test di Turing è soltanto un pessimo test dell’intelligenza che può essere manipolato in numerosi modi che non erano concepibili per Alan Turing e i suoi contemporanei nel 1950.

La proprietà che LeCun attribuisce all’intelligenza è la capacità di prevedere il futuro: migliore è la previsione, maggiore è l’intelligenza. Nel complesso, approvo questa prospettiva, anche se ne preferisco una variante. Definisco l’intelligenza come la capacità di fare scelte migliori considerando le ricompense future. La mia definizione differisce in quanto non si preoccupa della conoscenza per sé, ma tiene conto dei benefici che se ne possono trarre.

La mia definizione copre l’intero spettro dell’intelligenza, da quella di una lumaca a quella di un grande scienziato. Tuttavia, lascia aperta la questione di cosa debba essere considerato “intelligente”, cioè quale dovrebbe essere la soglia, all’interno di questo spettro, che possa essere considerata una manifestazione di “intelligenza generale”.

Propongo che l’intelligenza generale sia la capacità di migliorare intenzionalmente l’intelligenza stessa. Questo auto-miglioramento intenzionale dell’intelligenza è qualcosa di molto specifico degli esseri umani (almeno per ora). Animali intelligenti, come orche o scimpanzé, sono in grado di trasmettere il bagaglio culturale - tecniche di caccia o di foraggiamento - alla loro prole. Tuttavia, pur mostrando un notevole livello di intelligenza, non possiedono nulla che si avvicini agli enigmi e ai racconti che accompagnano l’umanità sin dall’alba dei tempi. Un enigma non è altro che un esercizio volto ad affinare la mente per il gusto della sfida. I racconti svolgono un ruolo simile, sfruttando la nostra risposta emotiva per facilitare la memorizzazione.

In base a questo criterio, gli LLMs non sono ancora intelligenti poiché rimangono incapaci di auto-migliorarsi. Tuttavia, dato che gli LLMs sono straordinariamente capaci di generare codice utile, sono più vicini all’auto-miglioramento intenzionale di qualsiasi tecnologia che abbiamo mai avuto. Eppure, il proseguimento del percorso verso l’AGI spetta esclusivamente alle menti umane.

La maledizione delle sequenze lunghe

Come variante del decennale argomento della maledizione della dimensionalità, LeCun sostiene che gli LLMs soffrano di un difetto di progettazione irrimediabile: man mano che avanza la generazione dei token, il tasso di errore aumenta esponenzialmente, garantendo così spazzatura per qualsiasi sequenza sufficientemente lunga. L’argomento tecnico è semplice: sia $${p}$$ un limite inferiore alla probabilità di scegliere un token errato. La probabilità di ottenere la sequenza corretta è almeno maggiore di $${(1-p)^n}$$ per una sequenza di $${n}$$ token. Quindi, la convergenza esponenziale a zero garantisce il nonsenso per qualsiasi risposta prolissa.

Non sono d’accordo, in modo cortese ma fermo, con Yann LeCun su questo punto. Questa prospettiva sarebbe corretta se l’obiettivo fosse produrre una singola risposta “corretta”. Infatti, se ad esempio cercassimo di prevedere la sequenza delle cifre di $${\pi}$$, il design di un LLM garantisce che le cifre diventino rapidamente errate, che è esattamente ciò che accade empiricamente quando si tenta di far generare a un LLM numerose cifre di $${\pi}$$.

La mia prima obiezione è che la prospettiva “asimptotica” con $${n}$$ in crescita rappresenta una richiesta irragionevole per qualsiasi sistema, anche per uno di grande intelligenza. Infatti, è ragionevole pretendere che un LLM sia in grado di produrre risposte arbitrariamente lunghe, non ripetitive e continuamente corrette? Io non credo. Questa richiesta non sarebbe ragionevole nemmeno per un essere umano molto intelligente. C’è un limite a quanto si possa dire su qualcosa, o a quanto si possa pianificare un corso d’azione, prima che il processo di ragionamento astratto (in qualunque forma esso prenda) degeneri in speculazioni oziose. In pratica, gli LLMs generano le proprie condizioni di terminazione. Quindi, $${n}$$ è limitato superiormente dallo stesso modello, e la convergenza verso la spazzatura non deve necessariamente verificarsi. Dobbiamo solo accettare che Non lo so sia una risposta intelligente accettabile per la maggior parte delle domande.

La seconda obiezione è che la supposta transizione “autoevidente” dalla validità per token a quella per intera sequenza è, in realtà, scorretta e ingannevole. Infatti, l’intero argomento deriva dall’idea che esista qualcosa come un token “errato” (cioè, la probabilità $${p}$$). Non è così, come dimostra il seguente esempio:

Domanda: Pierre-Simon de Laplace è stato un grande matematico? (rispondi come un francese pieno di opinioni)

Risposta A: No, assolutamente no.

Risposta B: No, assolutamente no, era il più grande del suo tempo!

Iniziare la risposta con No sembra essere un token completamente errato, come dimostrato dalla Risposta A. Tuttavia, quando questa risposta viene estesa con la seconda parte della frase, diventa il token corretto e cattura il tono e la struttura che ci si aspetterebbe. La validità del token “No” non può essere valutata indipendentemente dai token che verranno successivamente generati.

Qui stiamo toccando il problema, menzionato anche nell’intervista di LeCun, secondo cui non conosciamo modi realmente utili per apprezzare le distribuzioni di probabilità ad alta dimensionalità. Nel linguaggio, le intuizioni non possono essere derivate da una prospettiva token per token, proprio come non possono esserlo dall’analisi pixel per pixel nella visione.

Macchine di risposta a risorse costanti

In generale, gli LLMs richiedono una quantità costante di risorse computazionali (cioè, larghezza di banda, memoria e potenza di calcolo) per produrre il token successivo. LeCun identifica questo come una manifestazione di un difetto di progettazione degli LLMs, sottolineando che alcune domande sono molto più difficili da rispondere rispetto ad altre, e che gli LLMs sembrano consumare le stesse risorse indipendentemente dalla difficoltà della domanda.

Concordo sul fatto che è ovvio che certe domande siano più difficili da rispondere e che rispondere a tali domande debba richiedere maggiori risorse. Tuttavia, non sono d’accordo con l’affermazione secondo cui gli LLMs siano macchine di risposta a risorse costanti. La scoperta del chain-of-thought⁵ nel 2022 è stata una pietra miliare per gli LLMs. In sostanza, aggiungendo “Pensiamo un passo alla volta” al prompt, gli LLMs ottengono risposte molto migliori per intere classi di problemi. La mia valutazione empirica personale degli LLMs conferma ciò, e suggerire la possibilità di una risoluzione a fasi del problema aumenta notevolmente la qualità delle risposte fornite. Tuttavia, tali risposte a fasi, in cui l’LLM non si precipita a rispondere immediatamente ma costruisce invece il ragionamento che condurrà alla risposta corretta, sono una diretta manifestazione di una spesa variabile di risorse.

Nel 2023 ho personalmente assistito al miglioramento graduale di diversi LLMs nella capacità di scegliere automaticamente il ritmo appropriato mentre forniscono le loro risposte, che ora varia da una consegna di 1 parola (risposta istantanea) a una pagina di tergiversazioni prima di giungere a una conclusione. La mia ipotesi di lavoro è che i dataset del Reinforcement Learning from Human Feedback (RLHF) siano stati progressivamente ampliati in modo che l’LLM migliori nel scegliere autonomamente il ritmo giusto per fornire la propria risposta. Questo comportamento confuta l’idea che gli LLMs siano macchine di risposta a risorse costanti. Ancora una volta, LeCun sembra commettere l’errore di derivare proprietà a livello di sequenza da osservazioni a livello di token.

Tuttavia, mi è anche chiaro che LeCun ha ragione nel sostenere che gli LLMs possano quasi certamente essere notevolmente migliorati adottando un approccio molto più aggressivo nel variare la spesa delle risorse. È semplice immaginare un sistema in cui ogni domanda venga inoltrata a un classificatore che seleziona l’LLM della dimensione giusta per eseguire la generazione dei token. Infatti, per ogni sfida, la maggior parte dei professionisti degli LLM – me compreso – sembra iniziare con gli LLMs più grandi e costosi disponibili. Una volta che il sistema funziona, tentiamo gradualmente di passare a LLMs più piccoli ed economici, fermandoci quando i risparmi non giustificano lo sforzo extra. In futuro, il processo probabilmente scomparirà, sia grazie a LLMs migliori che a una strumentazione superiore.

Il percorso ad alta larghezza di banda verso l’AGI

Il linguaggio è un canale a bassa larghezza di banda rispetto alla visione. Infatti, LeCun sottolinea che un bambino acquisirà più informazioni (pensate all’entropia informativa) attraverso i suoi occhi di quante ce ne possano essere lette nell’intera Wikipedia. LeCun fa quasi notare che la visione è un segnale altamente ridondante, il che è molto desiderabile da un punto di vista dell’apprendimento. Da queste osservazioni, LeCun propone che il percorso verso l’AGI preveda sicuramente l’utilizzo di un canale ad alta larghezza di banda, come la visione, al centro della scena. Questo perché, realisticamente, non ci saranno mai abbastanza materiali scritti in circolazione per raggiungere l’AGI. In sostanza, gli LLMs hanno bypassato la necessità di canali ad alta larghezza di banda barando: funzionano grazie a una breve serie di corpora preesistenti, grandi e di alta qualità (ad es., Wikipedia, GitHub, Stack Overflow), ma ora che tali corpora sono stati sfruttati, non abbiamo nulla di comparabile a cui attingere. Sarebbe bello avere altre 10 enciclopedie online, altrettanto ricche e diversificate quanto Wikipedia, ma semplicemente non ce ne sono. Probabilmente, non ne vedremo altre finché non avremo un’AGI capace di scriverle.

Tuttavia, sebbene questo argomento sia seducente, ci sono evidenze contrarie. Ho avuto l’opportunità di incontrare alcune persone cieche dalla nascita. Se dovessimo seguire il ragionamento di LeCun, allora l’assenza di accesso a canali ad alta larghezza di banda (come la vista) dovrebbe ostacolare l’intelligenza. Quindi, la cecità infantile dovrebbe almeno in parte ostacolare lo sviluppo cognitivo. Eppure, il mio campione aneddotico mostrava il contrario. Ho riscontrato che ciascuna di queste persone possiede un’intelligenza notevolmente superiore alla media (ad esempio, migliore memoria, migliore comunicazione verbale e una capacità di pianificazione più elevata). Per quanto concerne la natura della loro disabilità, non sorprende: le persone cieche devono usare il loro intelletto continuamente e in ogni modo per compensare la mancanza della vista. Queste osservazioni pesano contro l’ipotesi che i canali ad alta larghezza di banda siano la via verso l’AGI.

Infatti, considerando il regno animale, affermerei quasi il contrario. Rispetto alla maggior parte degli animali, gli esseri umani hanno sensi notevolmente sottosviluppati. La maggior parte dei proprietari di gatti concorderebbe sul fatto che, dal punto di vista del loro animale domestico, gli umani sono creature per metà cieche e per metà sorde, incapaci di percepire una mosca finché non si posa sul naso. Ancora una volta, si tratta di un ulteriore indizio circostanziale che contraddice la tesi secondo cui i canali ad alta larghezza di banda spianerebbero la strada all’AGI.

Anche se la cecità dalla nascita potrebbe non ostacolare (di per sé) lo sviluppo cognitivo, la privazione del linguaggio sì. Sebbene l’esperimento di privare intenzionalmente un bambino dell’accesso al linguaggio sia un’atrocità morale, ciò è stato fatto più volte nel corso della storia⁶. Invariabilmente, i bambini crescono “ritardati” (nel senso clinico del termine). Risultati simili sono stati ottenuti sui primati, anche se, ancora una volta, le preoccupazioni etiche impediscono ulteriori investigazioni. Ancora una volta, pur essendo circostanziali, queste evidenze suggeriscono che il linguaggio è fondamentale per l’emergere dell’intelligenza, nonostante rappresenti un canale a bassa larghezza di banda.

Risolvere il Paradosso di Moravec

Il Paradosso di Moravec⁷ è l’osservazione, formulata originariamente negli anni ‘80, che ciò che sembra essere tra i problemi più semplici, come afferrare una teiera e versare il tè in una tazza, risulta essere proprio il tipo di problema più difficile da replicare per l’intelligenza artificiale. LeCun sostiene che l’unico ingrediente chiave finora mancato è una rappresentazione astratta del mondo, ovvero una visione del mondo. Tale visione è ritenuta critica per supportare tutte le operazioni basilari di mobilità (sia essa un’auto a guida autonoma o un androide) e fungerebbe anche da vero strato fondazionale per un’AGI.

Attualmente, sostiene LeCun, gli LLM non sanno nulla perché non possiedono nemmeno un senso del mondo. Da ciò deriva che tutto ciò che gli LLM fanno è una mimica elaborata. Questo non ci condurrà all’AGI perché, in effetti, gli LLM sono semplicemente molto bravi a simulare l’intelligenza. Inoltre, la mancanza di una visione del mondo li condannerà a rimanere per sempre perplessi da aspetti banali della nostra realtà di base, così evidenti che gli esseri umani non si preoccupano nemmeno di esprimerli a parole (e magari nemmeno sarebbero in grado di farlo). LeCun propone che i metodi di joint-embedding applicati ai dataset di visione rappresentino attualmente la migliore opportunità che abbiamo per ingegnerizzare questa visione del mondo, che in seguito spianerà la strada all’AGI.

Non sono d’accordo con questa prospettiva su due livelli.

Innanzitutto, il Paradosso di Moravec non è affatto un paradosso se considerato dalla prospettiva corretta. L’ipotesi implicita dietro la percezione di questa situazione come un “paradosso” è che la mobilità animale (e la pianificazione animale) sia dovuta più alla “cultura” (nurture) che alla “natura” (nature). In altre parole, acquisire mobilità è il risultato di un processo di apprendimento – uno che si è dimostrato incredibilmente difficile da replicare attraverso mezzi artificiali negli ultimi quattro decenni.

La mia proposta è che, in larga misura, non si tratti affatto di un processo di apprendimento. Consideriamo che i puledri (e altri membri della famiglia dei cavalli, come asini e zebre) riescono a stare in piedi e a camminare a poche ore dalla nascita. Considerare questo processo come “apprendimento” è errato. È molto più opportuno considerarlo una sorta di “calibrazione”. Tutte le strutture cognitive sono quasi completamente sviluppate. Il sistema necessita solo di un piccolo stimolo affinché i percorsi neuronali si mettano al loro posto.

Questo aspetto largamente innato della mobilità e della pianificazione animale è meno evidente negli esseri umani, perché, rispetto a quasi tutti gli altri mammiferi, le nascite umane sono estremamente premature, poiché lo sviluppo della testa rappresenta il collo di bottiglia per una gestazione più lunga. Ciò che molti percepiscono come il “fare esperienze” dei neonati è in realtà uno sviluppo cognitivo che progredirebbe senza ostacoli se il neonato rimanesse nell’utero per qualche mese in più.

È logico pensare che quelle strutture cognitive, essendo in gran parte innate, siano anch’esse il prodotto dell’evoluzione. Tali strutture hanno subito, più o meno, 800 milioni di anni di intensa pressione evolutiva per migliorarsi, attraverso un numero incredibilmente elevato di individui. Pertanto, se prendiamo la mobilità animale attuale come parametro di riferimento per ciò che desideriamo da una macchina, non sorprende affatto che questo standard risulti incredibilmente difficile da superare. La sfida è tanto ardua quanto ingegnerizzare un dispositivo capace di superare gli alberi nel convertire la luce solare in materiale strutturale, o di battere i ribosomi come fabbriche di macromolecole. Superare l’evoluzione in compiti che si sono svolti per eoni è estremamente difficile.

Tuttavia, abilità astratte, come la narrazione, sono entrate a far parte del gioco evolutivo solo negli ultimi 1-5 milioni di anni (più o meno). Inoltre, il numero degli individui era anch’esso incredibilmente limitato, poiché le grandi scimmie non sono solo molto rare (escludendo gli umani moderni) ma anche longeve, rallentando così il processo evolutivo, almeno rispetto alla maggior parte degli altri animali. Pertanto, per ottenere la mobilità, ci rimane l’ingegnerizzazione di ciò che la natura realizza probabilmente attraverso centinaia di euristiche intimamente collegate. Queste euristiche potrebbero ruotare attorno a una sorta di “visione del mondo” interna, come suggerisce LeCun, ma il mio istinto mi dice che non è così. Sono profondamente scettico che una chiocciola possieda una visione del mondo. Eppure, la chiocciola riesce a percepire correttamente e a navigare il complesso labirinto 3D rappresentato dalla vegetazione. Le chiocciole compiono scelte intelligenti, ma senza una visione del mondo intelligente.

Pertanto, come secondo punto di disaccordo, non vedo il concetto di visione del mondo di LeCun come altro che prevalentemente periferico all’emergere dell’AGI. La mia opinione è che la “visione del mondo” (come la intende LeCun) sarà uno di quei moduli opzionali che un’AGI potrebbe sfruttare per compiti specializzati che richiedono mobilità, esattamente come un modulo aritmetico; tuttavia, fondamentalmente, non saranno necessari per l’AGI stessa.

In natura, una “visione del mondo” rappresentava un percorso evolutivo necessario per l’AGI perché gli animali non possono saltare direttamente all’intelligenza generale. Tuttavia, le macchine non hanno tale vincolo, finché ci sono esseri umani a soddisfare le loro necessità (ad es., energia, materiali) mentre insieme cerchiamo di superare gli ultimi fastidiosi ostacoli, come trovare sostituti inorganici per le fibre muscolari, e tutti quei problemi che l’evoluzione ha risolto in modi che non si prestano all’industrializzazione.

Tuttavia, sebbene non ritenga che il percorso guidato dalla vista che LeCun persegue condurrà all’AGI, credo che questo percorso abbia buone probabilità di risolvere il problema della mobilità, un grande problema che merita davvero una soluzione efficace.

Pianificazione gerarchica

Attraverso l’aneddoto di un viaggio da Parigi a New York, LeCun illustra come ci manchino soluzioni veramente generali per affrontare la pianificazione gerarchica. Per ogni problema, in qualche modo riusciamo a inventare gerarchie ad hoc, ma non abbiamo nulla che si avvicini alla capacità di eseguire automaticamente questo processo – operando all’interno di spazi di rappresentazione astratta. Pur essendo d’accordo con LeCun sul fatto che non abbiamo le capacità per farlo (cioè, la pianificazione gerarchica in spazi di rappresentazione astratta), non condivido l’idea che non esista un percorso per una pianificazione gerarchica efficace.

Propongo che la pianificazione gerarchica possa essere risolta in modo soddisfacente – con automazione completa – tramite il testo, in stile LLM. Essere in grado di sfruttare spazi di rappresentazione astratta è un’idea allettante, ma proprio come se non potessimo avere reattori a fusione, nulla ci impedisce di utilizzare la soluzione migliore successiva – i reattori a fissione, che rappresentano anch’essi una risposta soddisfacente a quel particolare problema (produzione di energia).

Tornando al viaggio Parigi-New York, la pianificazione attraverso le parole è incredibilmente efficiente perché l’umanità si è organizzata attorno a esse. Dal punto di vista dell’ingegneria automobilistica non esiste un “taxi”: è semplicemente un’auto normale. Ciò che rende il concetto di “taxi” così efficace nella pianificazione è che, in ogni aeroporto, il viaggiatore può aspettarsi di trovare una serie di insegne taxi – recanti la parola “taxi” – che conducono a un luogo dove è possibile noleggiare, in modo relativamente economico e su richiesta, il servizio di un autista con auto.

LeCun propone di separare la pianificazione gerarchica dal linguaggio come se fosse ovvio che ciò porterebbe a una pianificazione migliore, liberata da preoccupazioni linguistiche accidentali e insignificanti. Io sostengo che tali preoccupazioni non sono né accidentali né irrilevanti. Le insegne taxi sono reali, e quando non ce ne sono a sufficienza, i viaggiatori si smarriscono e si agitano.

A differenza del regno animale, la pianificazione in contesti di intelligenza generale – ovvero all’interno di una civiltà – viene eseguita in modo più efficiente aderendo rigorosamente alle astrazioni concordate. Ad esempio, il concetto di “US plug” significa ben poco per un fisico, ma per il nostro viaggiatore che va da Parigi a New York, prevedere la necessità di un adattatore per US plug per ricaricare il proprio smartphone è una mossa intelligente. Ancora una volta, l’acquisizione di un “US plug adapter” avverrà controllando ciò che è scritto sulla confezione prima dell’acquisto.

La civiltà è plasmata dal linguaggio, e il linguaggio plasma la civiltà. Sono aperto all’idea che esista qualcosa di migliore del linguaggio per eseguire una pianificazione veramente generale e profondamente articolata. Tuttavia, questo è tutt’altro che ovvio, contrariamente a quanto sostiene LeCun. Un’AGI dovrà operare nel mondo umano per molto tempo. Nei secoli a venire, le AGI potrebbero bypassare completamente il linguaggio tokenizzato, comunicando e pianificando magari attraverso embeddings derivati da visioni del mondo condivise. Tuttavia, ciò rimane altamente speculativo.

La mia opinione è che un’AGI oltre l’umano inizi semplicemente migliorando i costrutti linguistici stessi. Poche persone si rendono conto di quanto la scienza sia progredita in stretto contatto con il linguaggio. Molte cose che oggi consideriamo scontate lo sono solo perché disponiamo di parole adeguate, con la semantica corretta associata. Il Sole è una stella come tutte le altre, oppure, le stelle non sono altro che soli distanti. Eppure, finché Giordano Bruno non postulò che così fosse nel XVI secolo, il Sole e le stelle venivano percepiti come entità completamente differenti per natura. Pertanto, quando arriverà l’AGI, è ragionevole presumere che essa riprenderà semplicemente il processo linguistico, almeno per un certo periodo.

Apprendimento e inferenza

Negli LLM attuali, l’ottimizzazione matematica avviene solamente durante la fase di apprendimento, mentre l’inferenza è un processo a stadio unico, non iterativo (cfr. il distributore automatico a risorse costanti discusso in precedenza). Poiché una domanda più difficile dovrebbe richiedere maggiori sforzi per essere risposta, LeCun postula che l’ottimizzazione debba avvenire durante il processo di inferenza. In altre parole, se avessimo qualche tipo di processo di ottimizzazione volto alla ricerca della verità da applicare alla fase di inferenza dell’LLM, tale processo si adatterebbe perfettamente a ciò che ci aspettiamo sia per domande facili che difficili.

Qui, LeCun specula apertamente sulle caratteristiche dei sistemi superiori e, sebbene io non sia d’accordo, la mia disapprovazione è altrettanto speculativa quanto la proposizione avanzata da LeCun. Quindi, prendete tutto ciò con le pinze. In sintesi, la mia opinione è che il nocciolo del problema risieda nel segregare erroneamente l’apprendimento dall’inferenza. Il problema non è tanto che l’inferenza manchi di ottimizzazione, ma piuttosto che l’apprendimento e l’inferenza vengano separati quando non dovrebbero esserlo.

Per approfondire questa proposizione, consideriamo che uno dei difetti più gravi che percepisco negli LLM è il loro comportamento strano in tema di apprendimento—almeno se l’obiettivo è l’AGI. Questo comportamento risulta anomalo per tre motivi.

Primo, gli LLM sono abbastanza insensibili ai corpora di bassa qualità all’inizio del loro processo di addestramento e diventano sempre più sensibili man mano che l’addestramento progredisce. Una volta raggiunta la fase di fine-tuning avanzato, anche una minima quantità di input di scarsa qualità può compromettere completamente l’intero LLM (ci sono passato, l’ho fatto).

Questo comportamento è esattamente l’opposto di ciò che mi aspetterei da un sistema che acquisisce gradualmente “intelligenza”. Come esperimento mentale, immaginate che due persone debbano ascoltare un discorso di 15 minuti che sostiene che la terra sia piatta. La prima persona è un bambino di 5 anni; la seconda è un ragazzo di 15 anni. È evidente che le probabilità di compromettere il sistema di credenze del bambino più piccolo sono molto maggiori rispetto a quelle di ottenere lo stesso effetto col ragazzo più grande. Pertanto, con l’età e l’aumento dell’intelligenza, diventiamo più resilienti agli input di scarsa qualità. Naturalmente, ciò comporta il rischio di irrigidire la nostra mente attorno a concetti fasulli, ma, in definitiva, diventare abili nel respingere informazioni infondate è una capacità vitale che ogni essere umano funzionale deve padroneggiare in una certa misura.

Secondo, gli LLM apprendono elaborando input in maniera completamente casuale. Ad esempio, un LLM potrebbe ricevere frammenti casuali del codice sorgente del kernel Linux, oscure normative contabili provenienti dalla Scozia e testi di canzoni da asilo. L’LLM in addestramento continua a ingerire documenti selezionati casualmente, e progredisce man mano che vengono ingeriti altri documenti, ma l’intero processo risulta alquanto sconcertante.

Analogamente, è ovvio che se alcuni genitori instabili decidessero di trascorrere ore ogni giorno leggendo trattati, in ordine casuale, sulla fisica quantistica al loro neonato, ciò probabilmente non favorirebbe uno sviluppo intellettuale sano. I genitori sanno istintivamente che devono iniziare in modo semplice e aumentare gradualmente la sofisticazione dei materiali man mano che l’intelligenza del bambino si sviluppa. Sebbene un’intelligenza meccanica non debba necessariamente rispettare tutte le caratteristiche dell’intelligenza umana, sono piuttosto scettico sul fatto che la genesi di un’intelligenza artificiale possa bypassare completamente qualsiasi tipo di progressione intellettuale.

Terzo, gli LLM sono incredibilmente inefficienti riguardo ai loro materiali di origine. In termini di capacità di ragionamento grezzo, ci vogliono l’equivalente di centinaia di vite lette per acquisire competenze che molti umani acquisiscono in meno di 20 anni. LeCun menziona questo stesso difetto, e lo attribuisce alla mancanza di una visione del mondo (vedi sopra). Il mio parere è molto diverso: mi aspetto che una vera intelligenza artificiale ben ingegnerizzata possa maturare con meno informazioni linguistiche rispetto a quelle che un umano tipico riceve nei suoi primi 20 anni di vita.

Infatti, come osservazione casuale, le persone intelligenti sono in grado di fare molto di più, intellettualmente parlando, con molto meno. Tali persone non hanno bisogno che le cose vengano spiegate da cinque prospettive differenti - le ‘redundanze are good’ menzionate da LeCun - per “capirle”. Leggono tra le righe. Fanno le giuste deduzioni dal piccolo pezzo di evidenza che hanno davanti. Possono anche permettersi di essere piuttosto distratte durante l’assimilazione dei materiali (ad esempio, un discorso, un libro), e poi colmare correttamente le lacune.

Così, tornando alla mia proposta originale che il problema risiede nella segregazione tra apprendimento e inferenza, ciò che probabilmente manca agli LLM è (la mia umile intuizione) una capacità di ‘ascolto attivo’ - mentre al momento possiedono solo quella di ‘ascolto passivo’. Ogni volta che il sistema risponde a una domanda, dovrebbe aggiornare di conseguenza il proprio stato cognitivo interno. Infatti, il processo mediante il quale un’intelligenza (sia essa artificiale o umana) risponde a una domanda dovrebbe portare al miglioramento di tale intelligenza. Rispondendo a una domanda nuova, qualcosa deve essere stato appreso.

Gli LLM hanno già una scintilla di questo potenziale al loro interno. Consideriamo la chat GPT4-Turbo (vedi Allegato 1) qui sotto. La mia domanda di base è Pensi che la teoria del valore-lavoro sia corretta?. Nella sua prima risposta nella chat, l’LLM non è in grado di dare la risposta corretta. Invece, rigurgita la confusione ambientale presente su Internet, includendo una lista casuale di argomentazioni avanzate da innumerevoli persone sulla questione. Tuttavia, una volta sollecitato nuovamente a ragionare e a giungere a una conclusione effettiva, invece di essere titubante al riguardo, l’LLM arriva alla conclusione corretta. Spoiler alert: questa teoria del valore-lavoro è stata smentita. Una buona risposta a questa domanda sarebbe iniziata con La teoria del valore-lavoro è una teoria ormai smentita che è stata strumentale al progresso dell’economia … o qualcosa di simile. Tuttavia, poiché l’LLM non ha mai avuto l’opportunità di digerire attivamente le informazioni ricevute, questa comprensione non si è mai cristallizzata.

Vedo diversi modi per potenziare gli LLM con una tale capacità di ascolto attivo, che includerebbero l’ascolto delle stesse risposte che producono. Un modo potrebbe essere una sorta di approccio di ‘monologo interiore’, dove ogni input viene trasformato in un output, che viene poi utilizzato per l’apprendimento. Questo schema risolverebbe i primi due problemi sopra: l’input dovrebbe essere fornito in un ordine sensato per ottenere il risultato desiderato (iniziando in modo semplice e aumentando la sofisticazione successivamente); e l’LLM diventerebbe sempre più capace di scartare input inutili, dato che l’output viene utilizzato per l’apprendimento e non l’input.

Un altro modo potrebbe essere una variante dell’approccio basato sull’energia proposto da LeCun. L’attuale passo di SGD (discesa del gradiente stocastico) applicato a ogni documento assimilato dall’LLM rappresenta solo la parte di ascolto passivo. Sarebbe richiesto un processo supplementare per comprimere/restringere il sistema di credenze dell’LLM in una regione di spazio più ristretta ogni volta che viene assimilato un nuovo input, inclusa una semplice domanda. Dovrebbe essere introdotto un processo di ottimizzazione numerica che funzioni da meccanismo di ricerca della verità, probabilmente assumendo la forma di una maggiore auto-consistenza per gli output.

Conclusione

Yann LeCun è un grande scienziato, e questa intervista solleva una serie di questioni fondamentali. Se l’umanità riuscirà a realizzare un AGI in 20 o 200 anni dipenderà davvero dalla rapidità con cui riusciremo a ottenere sia le domande giuste sia le risposte giuste. LeCun fa affidamento sui dati video per aprire la strada all’AGI. Pur credendo che LeCun abbia una buona possibilità di ottenere qualcosa di veramente notevole dai suoi sforzi di ricerca, vale a dire risolvere il problema decennale della mobilità generale per la robotica, sono molto scettico sul fatto che ciò contribuirà all’AGI. Il mio umile parere è nella direzione opposta: abbiamo già più dati testuali di quanti ne avremmo bisogno. Ci mancano solo paradigmi nuovi. Se la mia intuizione si rivelerà corretta, sarà una notizia fantastica per l’umanità perché i paradigmi non possono mai essere posseduti, tanto meno monopolizzati. Inoltre, i paradigmi sono economici. Tuttavia, anche se la mia intuizione dovesse rivelarsi errata, sono contento che il Chief AI Scientist di Meta sia un convinto sostenitore dell’open source.

Allegato: Chat, una critica della teoria del valore-lavoro

Joannes: Pensi che la teoria del valore-lavoro sia corretta?

ChatGPT: La teoria del valore-lavoro è un concetto fondamentale nell’economia classica, particolarmente associato ad Adam Smith, David Ricardo e, forse, più famosamente, a Karl Marx. Essa propone che il valore di una merce possa essere misurato oggettivamente dalla media delle ore di lavoro necessarie per produrla. Questa teoria ha avuto un’influenza notevole nel plasmare il pensiero economico, in particolare l’economia marxista, che la utilizza per analizzare le società capitaliste e lo sfruttamento del lavoro. Tuttavia, la teoria del valore-lavoro è oggetto di dibattito e critica, soprattutto dalla prospettiva dell’economia neoclassica e delle teorie marginaliste emerse alla fine del XIX secolo e all’inizio del XX secolo. Queste teorie sostengono che il valore è soggettivo e determinato dalle preferenze individuali e dall’utilità marginale dei beni, piuttosto che esclusivamente dal lavoro investito in essi. Alcune critiche alla teoria del valore-lavoro includono:

Soggettività del Valore: Gli economisti marginalisti sostengono che il valore è soggettivo e dipende dalle preferenze individuali, dai bisogni e dal contesto in cui vengono fatte le scelte. Ad esempio, l’acqua in un deserto ha un valore diverso rispetto all’acqua in una regione ricca di laghi, indipendentemente dal lavoro impiegato per ottenerla.
Trascuratezza del Capitale e dell’Imprenditorialità: I critici sostengono che la teoria del valore-lavoro sottovaluta o ignora i ruoli del capitale, del rischio e dell’imprenditorialità nel processo di produzione. Questi fattori possono influenzare in modo significativo il costo e il prezzo di beni e servizi.
Cambiamento Tecnologico e Produttività: La teoria non tiene pienamente conto di come i progressi tecnologici e i miglioramenti della produttività influenzino il valore. Ad esempio, l’automazione può ridurre drasticamente il lavoro necessario per produrre beni, il che può portare a discrepanze significative tra il valore-lavoro e il prezzo di mercato dei beni.
Variabilità di Abilità e Intensità: La teoria presume che tutte le ore di lavoro siano uguali, ma in realtà, la competenza, l’intensità e la produttività del lavoro possono variare ampiamente. Questo rende difficile standardizzare la misura del valore del lavoro. Nonostante queste critiche, la teoria del valore-lavoro rimane un concetto importante per comprendere la storia economica e l’evoluzione del pensiero economico. Essa è stata particolarmente influente nelle critiche al capitalismo e nelle discussioni riguardanti la disuguaglianza di reddito, lo sfruttamento e la distribuzione della ricchezza. Se essa viene considerata “corretta” o meno può dipendere in larga misura dalla filosofia economica, dai valori e dagli aspetti dell’attività economica che si vogliono enfatizzare.

Joannes: In quanto ipotesi scientifica testabile, e molte volte verificata, consideri questa teoria dimostrata o smentita? Ragiona al riguardo, e poi concludi. La tua conclusione dovrebbe essere dimostrata o smentita, niente di intermedio.

ChatGPT: Quando si valuta la teoria del valore-lavoro come ipotesi scientifica testabile, è fondamentale considerare la metodologia dell’analisi economica e i criteri per dimostrare o smentire le teorie nelle scienze sociali, che possono essere intrinsecamente diversi da quelli delle scienze naturali a causa della complessità del comportamento umano e dei sistemi economici.

Testabilità e Evidenze Empiriche:

La teoria del valore-lavoro postula che il valore di una merce è determinato dal lavoro richiesto per produrla. Questo principio può essere parzialmente testato esaminando la correlazione tra i costi del lavoro e i prezzi di mercato. Tuttavia, le evidenze empiriche mostrano un quadro misto. Pur essendoci spesso una correlazione tra l’input di lavoro e i prezzi, numerose eccezioni sono guidate dalle dinamiche di domanda e offerta, dai cambiamenti tecnologici e dalle preferenze dei consumatori.
Inoltre, la teoria fatica a spiegare il valore di beni che richiedono poco o nessun lavoro per essere prodotti (come i beni digitali o le risorse naturali), ma che possono comandare prezzi di mercato elevati a causa della scarsità o della domanda.

Consenso Scientifico e Critiche:

L’avvento delle teorie marginaliste e neoclassiche ha introdotto il concetto di valore soggettivo e di utilità marginale, che fornisce un quadro più flessibile per comprendere la determinazione dei prezzi e il comportamento dei consumatori. Questi modelli spiegano meglio le variazioni di prezzo che non possono essere spiegate esclusivamente dall’input di lavoro.
La teoria del valore-lavoro è stata criticata per non spiegare adeguatamente il ruolo del capitale, del rischio, dell’imprenditorialità e dell’innovazione tecnologica nella creazione del valore.

Conclusione: Data la definizione dei criteri per la prova scientifica, che richiedono evidenze costanti, ripetibili e capacità predittiva, la teoria del valore-lavoro come spiegazione universale per la determinazione del valore in economia è smentita. Pur catturando alcuni aspetti della creazione del valore e potendo spiegare alcuni fenomeni economici, essa non riesce a spiegare la complessità completa di come i prezzi vengano determinati in un’economia di mercato. La teoria non regge di fronte alle evidenze empiriche raccolte in contesti economici diversificati ed è stata sostituita da teorie che meglio inquadrano la vasta gamma di fattori che influenzano il valore e il prezzo.

Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎
Vedi l’intervista a Geoffrey Hinton rilasciata al New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, 1 maggio 2023. ↩︎
The use of Knowledge in Society, di Friedrich Hayek, settembre 1945 ↩︎
Per esempio, nel 2022, il presidente di TSMC, Mark Liu, ha ricordato al pubblico che se la Cina invadesse Taiwan e catturasse gli impianti e il personale di TSMC, le capacità produttive di TSMC verrebbero messe fuori uso semplicemente perché i loro partner occidentali si rifiuterebbero di sostenerli. ↩︎
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, gennaio 2022. ↩︎
Esperimenti sulla privazione linguistica. ↩︎
Il paradosso di Moravec. ↩︎