Yann LeCun, uno dei ricercatori di intelligenza artificiale più influenti al mondo, ha recentemente condiviso un’intervista di 3 ore con Lex Fridman[^intervista] dal titolo “Meta AI, Open Source, Limiti delle LLM, AGI e il Futuro dell’AI”. Questa intervista è straordinaria e, con il suo pensiero chiaro e articolato, Yann LeCun dimostra come la scienza in movimento si manifesti al meglio. Consiglio vivamente questa intervista a chiunque abbia interesse nell’Intelligenza Artificiale (AI). Tuttavia, non sostengo completamente tutte le proposte avanzate da Yann LeCun e queste divergenze di opinione potrebbero rivelarsi più rilevanti di un semplice dibattito accademico. Nell’articolo seguente, recensisco questa intervista, partendo dalle proposte che hanno maggiormente bisogno di un supporto più ampio e continuando con quelle che metto in discussione.

Uno scienziato insegna a un'intelligenza artificiale come versare il tè.

L’attuale hype intorno all’AI deriva dai Large Language Models (LLM) - ciò che Yann LeCun caratterizza correttamente come LLM autoregressivi. I token (frammenti di parole) vengono generati uno alla volta, alimentando il modello che ha generato il token precedente. I LLM sono l’ingrediente segreto dietro ChatGPT. La maggior parte delle persone, me compreso, che trascorrono qualche ora con GPT4 non può fare a meno di provare un senso di vertigine. Questo potrebbe non essere l’Intelligenza Artificiale Generale (AGI), ma è comunque estremamente impressionante. Lo shock è profondo e molti hanno iniziato a chiedere drastiche misure legali di emergenza poiché l’AGI viene spesso presentata come una vera minaccia per l’estinzione dell’umanità - uno scenario da Terminator nel mondo reale[^scenario].

Disastro e Oscurità

Yann LeCun sostiene essenzialmente che questa prospettiva di “disastro e oscurità” è una completa sciocchezza e sostengo pienamente questa posizione. Lo scenario del giorno del giudizio richiede che l’AGI sia un evento: deve esserci un momento in cui un AGI è così avanti rispetto a tutto il resto che può semplicemente prendere il controllo. Tuttavia, Yann LeCun sostiene che l’AGI non sarà un evento e non potrei essere più d’accordo.

Mentre il pubblico in generale potrebbe avere l’impressione che la tecnologia abbia fatto un balzo in avanti (essenzialmente da un giorno all’altro) nel 2023, questo non è assolutamente vero. Al contrario, il progresso è stato incredibilmente, tediosamente e frustrantemente incrementale negli ultimi 5 decenni. Inoltre, non si tratta di “una” cosa che viene migliorata, ma di decine di preoccupazioni in gran parte non correlate: paradigmi migliori, algoritmi migliori, hardware migliore, dataset migliori, metodologie migliori, codebase migliori, ecc. Tutti questi miglioramenti sono stati generati (per mancanza di una frase migliore) da un gruppo incredibilmente variegato di contributori. Pertanto, stimo che la probabilità di saltare direttamente all’AGI sia nulla. Purtroppo, profetizzare la fine dei tempi è antico quanto l’umanità stessa e parecchie persone si sono unite al carro per scopi di auto-ingrandimento1.

Una volta eliminato l’aspetto dell’AGI come “evento”, è molto difficile capire perché l’AGI possa mai rappresentare una minaccia per l’estinzione. Qualsiasi AGI malintenzionata, o qualsiasi AGI gestita da un attore malintenzionato, verrà contrastata da AGI altrettanto capaci sviluppate da eserciti, agenzie di intelligence, aziende o addirittura università o appassionati. L’AGI sarà solo un’aggiunta tardiva alla già lunga lista di tecnologie che possono causare danni immensi quando utilizzate per scopi malvagi.

In effetti, potrei addirittura sostenere che anche se l’umanità dovesse passare direttamente all’AGI - ad esempio, grazie a una civiltà aliena che fornisce progetti già pronti - lo scenario apocalittico sarebbe comunque molto improbabile. Come ha sottolineato Hayek 80 anni fa2, esistono due tipi di conoscenza: la conoscenza speciale (formule, concetti, ecc.) e la conoscenza ordinaria (conoscenza del tempo e del luogo). Gli intellettuali trattano quasi invariabilmente la conoscenza speciale come se fosse l’unico tipo di conoscenza che conta. Un AGI sarebbe il culmine della conoscenza speciale e quindi, non sorprendentemente, molti intellettuali derivano da questa osservazione che, come padrone della conoscenza speciale, questo AGI sarebbe anche il padrone del mondo in generale. Eppure, nonostante tutta la sua “conoscenza speciale”, questo AGI mancherebbe ancora di tutta la conoscenza ordinaria, e si tratta di una differenza immensa che non va sottovalutata.

Inoltre, l’AGI sarà il prodotto di una civiltà industriale avanzata. Come tale, dipenderà acutamente da catene di approvvigionamento complesse - e fragili. Infatti, i semiconduttori sono una delle industrie più complesse che esistano3, e qualsiasi tecnologia hardware alternativa (se l’AGI non avviene attraverso i semiconduttori) sarà quasi certamente altrettanto sofisticata - e altrettanto fragile. L’esistenza continua dell’AGI dipenderà dal sostegno attivo dell’umanità per decenni, se non secoli. Le persone hanno avuto abbondante tempo (e opportunità) per affrontare i problemi inevitabili che hanno accompagnato la crescita di ogni tecnologia finora. Non c’è, almeno finora, alcun indicazione che questa tecnologia sarà diversa.

Gli LLM non sono sufficienti per l’AGI

LeCun sostiene che LLM più grandi e veloci non sono sufficienti per arrivare all’AGI. Sono d’accordo, anche se, come vedremo in seguito, per ragioni molto diverse da quelle presentate da LeCun. Tuttavia, concordo pienamente sul fatto che gli LLM, così come esistono attualmente, siano almeno incompleti. Mentre gli LLM superano brillantemente il Test di Turing, come LeCun sottolinea correttamente, il Test di Turing è solo un test molto scadente di intelligenza che può essere manipolato in numerosi modi che non erano concepibili per Alan Turing e i suoi contemporanei nel 1950.

La proprietà che LeCun attribuisce all’intelligenza è la capacità di prevedere il futuro: maggiore è la previsione, maggiore è l’intelligenza. Nel complesso, approvo questa prospettiva, anche se preferisco una variante. Definisco l’intelligenza come la capacità di fare scelte migliori quando si considerano le ricompense future. La mia definizione differisce nel senso che non si preoccupa della conoscenza per se stessa, ma tiene conto dei benefici che se ne possono trarre.

La mia definizione copre l’intero spettro dell’intelligenza, dallo spettro di un lumaca a quello di un grande scienziato. Tuttavia, lascia aperto ciò che dovrebbe essere considerato “intelligente”, ovvero quale dovrebbe essere la soglia, all’interno di questo spettro, che può essere considerata come una manifestazione di “intelligenza generale”.

Propongo che l’intelligenza generale sia la capacità di migliorare intenzionalmente l’intelligenza stessa. Questo miglioramento intenzionale dell’intelligenza è qualcosa di molto specifico dell’essere umano (almeno per ora). Animali intelligenti, come orche o scimpanzé, sono capaci di trasmettere ai loro discendenti bagagli culturali - tecniche di caccia o di ricerca del cibo. Tuttavia, sebbene mostrino un grande livello di intelligenza, non hanno nulla di simile agli enigmi e alle storie che sono state con l’umanità fin dall’alba dei tempi. Un enigma non è altro che un esercizio volto a affinare la mente per il gusto di farlo. Le storie svolgono un ruolo simile ma sfruttano la nostra risposta emotiva per facilitare la memorizzazione.

Sulla base di questo test, gli LLM non sono ancora intelligenti in quanto rimangono incapaci di migliorarsi autonomamente. Tuttavia, poiché gli LLM sono estremamente capaci di generare codice utile, sono più vicini all’autonomo miglioramento intenzionale di qualsiasi tecnologia che abbiamo mai avuto. Tuttavia, il proseguimento del viaggio verso l’AGI spetta ancora esclusivamente alle menti umane.

La maledizione delle sequenze lunghe

Come variante dell’argomento decennale della maledizione della dimensionalità, LeCun sostiene che gli LLM stanno soffrendo di un difetto di progettazione irrecuperabile: man mano che la generazione dei token avanza, il tasso di errore aumenta in modo esponenziale, garantendo quindi spazzatura per qualsiasi sequenza sufficientemente lunga. L’argomento tecnico è semplice: sia $${p}$$ un limite inferiore per la probabilità di scegliere un token errato. La probabilità di ottenere la sequenza corretta è almeno maggiore di $${(1-p)^n}$$ per una sequenza di $${n}$$ token. Pertanto, la convergenza esponenziale a zero garantisce assurdità per qualsiasi risposta verbosa.

Sono educatamente, ma fermamente in disaccordo con Yann LeCun su questo punto. Questa prospettiva sarebbe corretta se l’obiettivo fosse quello di produrre una singola risposta “corretta”. Infatti, se stessimo cercando, ad esempio, di prevedere la sequenza di cifre di $${\pi}$$. Per un compito del genere, un design LLM garantisce che le cifre verranno rapidamente sbagliate, il che è esattamente ciò che accade empiricamente quando si cerca di far generare a un LLM numerose cifre per $${\pi}$$.

La mia prima obiezione è che la prospettiva “asintotica” con $${n}$$ che cresce è una richiesta irragionevole per qualsiasi sistema, anche quando si considera un sistema di grande intelligenza. Infatti, è ragionevole pretendere che l’LLM sia in grado di produrre risposte arbitrariamente lunghe, non ripetitive e continuamente corrette? Credo di no. Questa richiesta non sarebbe ragionevole nemmeno per un essere umano molto intelligente. C’è un limite a quanto si può dire su qualcosa, o a quanto si può pianificare un corso di azione prima che il processo di ragionamento astratto (qualunque sia la forma) degeneri in speculazioni inutili. Nella pratica, gli LLM generano le proprie condizioni di terminazione. Pertanto, $${n}$$ è limitato superiormente dal modello stesso e quindi la convergenza a spazzatura non deve necessariamente accadere. Dobbiamo solo accettare che non lo so sia una risposta intelligente accettabile per la maggior parte delle domande.

La seconda obiezione è che la transizione presunta “ovvia” dalla validità per token alla validità per sequenza è, in realtà, errata e ingannevole. Infatti, l’intero argomento deriva dall’idea che esista una cosa come un token “errato” (cioè la probabilità $${p}$$). Questo non è il caso, come dimostra l’esempio seguente:

Domanda: Pierre-Simon de Laplace è stato un grande matematico? (rispondi come un francese di opinione)

Risposta A: No, assolutamente no.

Risposta B: No, assolutamente no, è stato il più grande del suo tempo!

Iniziare la risposta con No sembra essere un token completamente errato, come dimostrato da Risposta A. Tuttavia, quando questa risposta viene estesa con la seconda parte della frase, diventa il token corretto e cattura il tono e la struttura che ci si aspetterebbe qui. La validità del token “No” non può essere valutata indipendentemente dai token che verranno generati successivamente.

Qui stiamo toccando il problema, menzionato anche nell’intervista di LeCun, che non conosciamo modi genuinamente utili per apprezzare le distribuzioni di probabilità ad alta dimensionalità. Nel linguaggio, le intuizioni non possono essere derivate da prospettive basate sui token, proprio come non possono essere derivate da prospettive basate sui pixel per la visione.

Macchine risponditrici a risorse costanti

In generale, le LLM richiedono una quantità costante di risorse di calcolo (cioè, larghezza di banda, memoria e calcolo) per produrre il token successivo. LeCun identifica questo come una manifestazione di un difetto di progettazione delle LLM, sottolineando che certe domande sono molto più difficili da rispondere di altre e che le LLM sembrano consumare le stesse risorse indipendentemente dalla difficoltà della domanda.

Sono d’accordo sul fatto che sia ovvio che certe domande siano più difficili da rispondere e che rispondere a quelle domande richieda più risorse. Tuttavia, non sono d’accordo sulla valutazione che le LLM siano macchine risponditrici a risorse costanti. La catena di pensiero della scoperta4 risalente al 2022 è stata una pietra miliare per le LLM. In sostanza, aggiungendo “Pensiamo un passo alla volta” al prompt, le LLM ottengono risposte molto migliori per intere classi di problemi. La mia personale valutazione empirica delle LLM conferma questo e suggerisce la possibilità di una risoluzione graduale del problema per le LLM che aumenta notevolmente la qualità delle risposte fornite. Tuttavia, tali risposte graduali, in cui le LLM non si affrettano a rispondere immediatamente ma costruiscono invece il ragionamento che porterà alla risposta corretta, sono una manifestazione diretta di una variazione della spesa di risorse.

Nel 2023, ho personalmente osservato diversi miglioramenti progressivi delle LLM nell’auto-selezione del ritmo appropriato durante la fornitura delle risposte, che ora varia dalla consegna di 1 parola (risposta istantanea) a 1 pagina di tergiversazione prima di giungere a una conclusione. La mia ipotesi di lavoro è che i dataset di Reinforcement Learning from Human Feedback (RLHF) siano stati progressivamente ampliati per far sì che le LLM migliorino nell’auto-selezione del giusto ritmo per fornire le risposte. Questo comportamento smentisce l’idea che le LLM siano macchine risponditrici a risorse costanti. Ancora una volta, LeCun sembra commettere l’errore di derivare proprietà a livello di sequenza da osservazioni a livello di token.

Tuttavia, è anche chiaro per me che LeCun ha ragione nel senso che le LLM possono sicuramente essere notevolmente migliorate essendo molto più aggressive nel variare la spesa di risorse. È facile immaginare una configurazione in cui ogni domanda viene alimentata a un classificatore che seleziona le LLM “della giusta dimensione” per eseguire la generazione dei token. Infatti, per qualsiasi sfida data, la maggior parte degli esperti di LLM - me compreso - sembra iniziare con le LLM più grandi e costose disponibili. Una volta che funziona, cerchiamo di passare gradualmente a LLM più piccole e più economiche, fermandoci quando i risparmi non sembrano valere gli sforzi extra. In futuro, questo processo probabilmente scomparirà sia attraverso LLM migliori che attraverso una migliore strumentazione.

Il percorso ad alta larghezza di banda verso AGI

Il linguaggio è un canale a bassa larghezza di banda rispetto alla visione. In effetti, LeCun fa notare che un bambino acquisirà più informazioni (pensate all’entropia informativa) attraverso i suoi occhi di quante se ne possano trovare leggendo l’intera Wikipedia. LeCun fa quasi notare che la visione è un segnale altamente ridondante, il che è molto desiderabile da un punto di vista di apprendimento. Da queste osservazioni, LeCun propone che il percorso verso AGI coinvolga sicuramente mettere in primo piano un canale ad alta larghezza di banda, come la visione. Questo perché, realisticamente, non ci saranno mai abbastanza materiali scritti per arrivare ad AGI. In sostanza, le LLM hanno bypassato la necessità di canali ad alta larghezza di banda barando: le LLM funzionano grazie a una breve serie di corpora preesistenti, grandi e di alta qualità (ad esempio, Wikipedia, GitHub, Stack Overflow), ma ora che quei corpora sono stati sfruttati, non abbiamo nulla di paragonabile a cui rivolgerci. Sarebbe bello avere altre 10 enciclopedie online, altrettanto ricche e diverse come Wikipedia, ma semplicemente non ce ne sono. Molto probabilmente, non ce ne saranno altre fino a quando non avremo un AGI in grado di scriverle.

Eppure, sebbene questo argomento sia seducente, ci sono prove contrarie. Ho avuto la possibilità di incontrare alcune persone nate cieche. Se dovessimo seguire il ragionamento di LeCun, non avere accesso a canali ad alta larghezza di banda (come la visione) dovrebbe ostacolare l’intelligenza. Pertanto, la cecità infantile dovrebbe ostacolare lo sviluppo cognitivo, almeno un po’, per quanto riguarda l’intelligenza. Eppure, il mio campione aneddotico era il contrario. Ho scoperto che ognuna di queste persone era notevolmente più intelligente della media (ad esempio, migliore memorizzazione, migliore comunicazione verbale e migliore pianificazione). Riguardo alla natura del loro handicap, non sorprende: le persone cieche devono usare il loro intelletto tutto il tempo e in tutti i modi possibili per compensare la loro mancanza di visione. Queste osservazioni vanno contro l’ipotesi che i canali ad alta larghezza di banda siano il percorso verso AGI.

Infatti, considerando il regno animale, direi praticamente l’opposto. Rispetto alla maggior parte degli animali, gli esseri umani hanno sensi notevolmente poco sviluppati. La maggior parte dei proprietari di gatti concorderebbe sul fatto che dal punto di vista del loro animale domestico, gli esseri umani sono creature mezzo cieche e mezzo sorde che non riescono a percepire una mosca finché non atterra sul loro naso. Ancora una volta, è un’altra prova circostanziale che contraddice la proposta che i canali ad alta larghezza di banda aprano la strada verso AGI.

Sebbene la cecità alla nascita potrebbe non ostacolare lo sviluppo cognitivo (di per sé), la privazione del linguaggio lo fa. Sebbene l’esperimento di privare intenzionalmente un bambino dell’accesso al linguaggio sia una atrocità morale, è stato fatto più volte nella storia5. Invariabilmente, i bambini sono cresciuti “ritardati” (nel senso clinico del termine). Risultati simili sono stati ottenuti anche sui primati, anche se, ancora una volta, le preoccupazioni etiche impediscono ulteriori indagini. Ancora una volta, sebbene circostanziali, queste prove suggeriscono che il linguaggio sia strumentale nell’emergere dell’intelligenza, nonostante sia un canale a bassa larghezza di banda.

Risolvere il paradosso di Moravec

Il paradosso di Moravec6 è l’osservazione, originariamente fatta negli anni ‘80, che ciò che sembra essere tra i problemi più semplici, come afferrare una teiera e versare il tè in una tazza, sono i tipi di problemi più impegnativi da replicare per l’intelligenza artificiale. LeCun sostiene che l’unico elemento chiave che finora è mancato è una rappresentazione astratta del mondo o della visione del mondo. Questa visione del mondo è prevista per essere fondamentale per supportare tutte le operazioni di mobilità di base (che sia una macchina senza conducente o un androide) e agirebbe anche come il vero strato fondamentale di un AGI.

Attualmente, LeCun sostiene, le LLM non sanno nulla perché non hanno nemmeno un senso del mondo stesso. Da ciò deriva che tutto ciò che riguarda le LLM è una sofisticata imitazione. Questo non ci porterà fino ad AGI perché, beh, le LLM sono solo molto brave a fingere l’intelligenza. Inoltre, la mancanza di una visione del mondo le condannerà a essere per sempre confuse dagli aspetti banali della nostra realtà di base che sono così evidenti che gli esseri umani non si preoccupano nemmeno di metterli in parole (e forse nemmeno sarebbero in grado di farlo). LeCun propone che i metodi di joint-embedding applicati ai dataset di visione siano attualmente la migliore possibilità che abbiamo per ingegnerizzare questa visione del mondo, che aprirà poi la strada ad AGI.

Non sono d’accordo con questa prospettiva su due livelli.

Innanzitutto, il Paradosso di Moravec non è affatto un paradosso se affrontato dalla prospettiva corretta. L’ipotesi implicita dietro la percezione di questa situazione come un “paradosso” è che la mobilità degli animali (e la pianificazione degli animali) sia “nurture” piuttosto che “nature”. In altre parole, acquisire la mobilità è il risultato di un processo di apprendimento - un processo che si è rivelato incredibilmente difficile da replicare attraverso mezzi artificiali negli ultimi quattro decenni.

La mia proposta è che in larga misura non si tratti affatto di un processo di apprendimento. Consideriamo che i puledri (e altri membri della famiglia dei cavalli, come gli asini e le zebre) possono stare in piedi e camminare entro poche ore dalla nascita. Pensare a questo processo come “apprendimento” è sbagliato. È molto più appropriato considerare questo processo come una sorta di “calibrazione”. Tutte le strutture cognitive sono quasi completamente sviluppate. Il sistema ha solo bisogno di essere spinto un po’ affinché i percorsi si mettano in ordine.

Questo aspetto in gran parte innato della mobilità e della pianificazione degli animali è meno evidente tra gli esseri umani, perché rispetto a quasi tutti gli altri mammiferi, le nascite umane sono estremamente premature, a causa dello sviluppo della testa che è il collo di bottiglia per una gestazione più lunga. Quello che molte persone percepiscono come “l’apprendimento delle cose” dei neonati è lo sviluppo cognitivo che procederebbe senza impedimenti se il neonato fosse ancora nell’utero per qualche mese in più.

È logico pensare che quelle strutture cognitive, essendo in gran parte innate, siano anche un prodotto dell’evoluzione. Quelle strutture hanno (più o meno) 800 milioni di anni di pressione evolutiva inarrestabile per migliorare, su un numero incredibilmente grande di individui. Pertanto, se prendiamo la mobilità degli animali di oggi come punto di riferimento di ciò che vogliamo da una macchina, non è affatto sorprendente che questo punto di riferimento si riveli incredibilmente difficile da superare. La sfida è altrettanto difficile come ingegnerizzare un dispositivo migliore degli alberi nel convertire la luce solare in materiale strutturale, o superare i ribosomi come fabbriche di macromolecole. Superare l’evoluzione nei giochi che sono stati giocati per eoni è estremamente difficile.

Tuttavia, le abilità astratte, come la narrazione, sono state parte del gioco evolutivo solo negli ultimi 1-5 milioni di anni (più o meno). Inoltre, il numero di individui era anche incredibilmente limitato, poiché le grandi scimmie non sono solo molto rare (mettendo da parte gli esseri umani moderni) ma anche longeve, rallentando così il processo evolutivo, almeno rispetto alla maggior parte degli altri animali. Pertanto, per raggiungere la mobilità, siamo costretti ad ingegnerizzare ciò che la natura molto probabilmente fa attraverso centinaia di euristiche intricatamente collegate. Queste euristiche possono ruotare attorno a una sorta di “visione del mondo” interna come suggerisce LeCun, ma il mio istinto mi dice che non è così. Sono profondamente scettico che una lumaca abbia una qualsiasi visione del mondo. Eppure, la lumaca può percepire correttamente e navigare nel complesso labirinto tridimensionale che rappresenta la vegetazione. Le lumache prendono decisioni intelligenti, ma senza una visione del mondo intelligente.

Pertanto, come secondo punto di disaccordo, non vedo il concetto di una visione del mondo di LeCun come altro che periferico all’emergere di AGI. La mia opinione è che la “visione del mondo” (come vista da LeCun) sarà uno di quei moduli opzionali che un AGI potrebbe sfruttare per compiti specializzati che richiedono mobilità, esattamente come un modulo aritmetico. Tuttavia, fondamentalmente, non saranno necessari per l’AGI stesso.

Nella natura, una “visione del mondo” era un percorso evolutivo necessario per AGI perché gli animali non possono saltare direttamente all’intelligenza generale. Tuttavia, le macchine non hanno tale vincolo, purché ci siano esseri umani che soddisfino le loro esigenze (ad esempio, energia, materiali) mentre insieme cerchiamo di superare gli ultimi fastidiosi dettagli, come trovare sostituti inorganici per le fibre muscolari e tutti i tipi di problemi che l’evoluzione ha risolto in modi che non si prestano all’industrializzazione.

Tuttavia, sebbene non creda che il percorso basato sulla visione che LeCun persegue porterà all’AGI, credo che questo percorso abbia una buona possibilità di risolvere il problema della mobilità, che è un grande problema che merita davvero una buona soluzione.

Pianificazione gerarchica

Attraverso l’aneddoto della pianificazione di un viaggio da Parigi a New York, LeCun illustra che mancano soluzioni veramente generali per affrontare la pianificazione gerarchica. Per qualsiasi problema dato, possiamo in qualche modo inventare gerarchie ad hoc, ma non abbiamo nulla che si avvicini alla capacità di eseguire questo processo automaticamente - operando all’interno di spazi di rappresentazione astratti. Sebbene io sia d’accordo con LeCun sul fatto che non abbiamo le capacità per farlo (cioè la pianificazione gerarchica in spazi di rappresentazione astratti), non sono d’accordo sul fatto che non abbiamo un percorso per una pianificazione gerarchica efficace.

Propongo che la pianificazione gerarchica possa essere risolta in modo soddisfacente - con automazione completa - con il testo, alias stile LLM. Essere in grado di sfruttare spazi di rappresentazione astratti è un’idea allettante, ma proprio come se non potessimo avere reattori a fusione, nulla ci impedisce di utilizzare la soluzione successiva migliore - i reattori a fissione, che rappresentano anche una risposta soddisfacente a quel particolare problema (produzione di energia).

Tornando al viaggio Parigi-New York, pianificare attraverso le parole è incredibilmente efficiente perché l’umanità si è organizzata attraverso quelle parole. Non esiste una cosa come un “taxi” dal punto di vista dell’ingegneria automobilistica: è solo una macchina normale. Ciò che rende “taxi” (il concetto) così efficace dal punto di vista della pianificazione è che, in qualsiasi aeroporto, il viaggiatore può aspettarsi di trovare una serie di segnali per taxi - con la parola “taxi” - che conducono a un luogo dove i servizi di un autista (con una macchina) possono essere noleggiati a prezzi relativamente bassi e su richiesta.

LeCun propone di separare la pianificazione gerarchica dalla lingua come se fosse un dato di fatto che farlo comporterebbe una pianificazione migliore, liberata da preoccupazioni linguistiche accidentali e insignificanti. Sostengo che tali preoccupazioni non siano né accidentali né insignificanti. I segnali per taxi sono fisicamente reali e quando non ce ne sono abbastanza, i viaggiatori si perdono e si preoccupano.

A differenza del regno animale, la pianificazione in contesti di intelligenza generale - alias pianificazione all’interno di una civiltà - viene eseguita in modo più efficiente attenendosi rigorosamente alle astrazioni concordate. Ad esempio, il concetto di “spina americana” significa molto poco per un fisico, ma per il nostro viaggiatore che va da Parigi a New York, prevedere la necessità di un adattatore per spina americana per caricare il suo smartphone è una mossa intelligente. Di nuovo, il viaggiatore acquisirà un “adattatore per spina americana” controllando cosa c’è scritto sulla scatola prima di acquistare il dispositivo.

La civiltà è plasmata dalla lingua e la lingua plasma la civiltà. Sono aperto all’idea che esista qualcosa di meglio della lingua per eseguire una pianificazione veramente generale e profondamente stratificata. Tuttavia, questo è ben lungi dall’essere così ovvio come LeCun lo presenta. Un AGI dovrà operare nel mondo degli esseri umani per molto tempo. Centinaia di anni dopo, gli AGI potrebbero bypassare completamente il linguaggio tokenizzato, comunicando e pianificando attraverso embeddings derivati da visioni del mondo concordate. Tuttavia, questo è altamente speculativo.

La mia opinione è che un AGI oltre-umano inizierebbe semplicemente migliorando le costruzioni linguistiche stesse. Pochi si rendono conto di quanto la scienza sia progredita insieme alla lingua. Molte cose che oggi consideriamo ovvie lo sono solo perché abbiamo parole adeguate per esse, con la semantica appropriata. Il Sole è una stella come tutte le altre stelle, o viceversa, le stelle sono solo soli lontani. Tuttavia, fino a quando Giordano Bruno non lo ha postulato nel XVI secolo, il Sole e le stelle erano percepite come completamente diverse per natura. Pertanto, quando otteniamo un AGI, è ragionevole presumere che riprenderà semplicemente il processo linguistico, almeno per un po’ di tempo.

Apprendimento e inferenza

Nei LLM attuali, l’ottimizzazione matematica avviene solo durante la fase di apprendimento, mentre l’inferenza è un processo non iterativo a singolo stadio (cf. la macchina per rispondere a risorse costanti discussa in precedenza). Poiché una domanda più difficile richiede più sforzi per essere risolta, LeCun postula che l’ottimizzazione dovrebbe avvenire durante il processo di inferenza. In altre parole, se avessimo un processo di ottimizzazione orientato alla ricerca della verità da applicare alla fase di inferenza del LLM, questo processo si adatterebbe perfettamente a ciò che ci aspettiamo sia dalle domande facili che da quelle difficili.

Qui, LeCun specula apertamente sulle caratteristiche dei sistemi superiori, e sebbene io non sia d’accordo, la mia opinione è altrettanto speculativa quanto la proposta avanzata da LeCun. Quindi, prendi questo con le pinze. In poche parole, la mia opinione è che il nodo del problema sia la separazione errata tra apprendimento e inferenza. Il problema non è tanto che l’inferenza manchi di ottimizzazione, ma piuttosto che l’apprendimento e l’inferenza siano separati quando non dovrebbero esserlo.

Per sviscerare questa proposta, consideriamo che uno dei difetti più gravi che riscontro nei LLM è il loro strano comportamento quando si tratta di apprendimento, almeno se l’AGI è l’obiettivo finale. Questo comportamento è strano per tre motivi.

Innanzitutto, i LLM sono piuttosto insensibili a corpora di bassa qualità all’inizio del loro processo di addestramento e diventano sempre più sensibili man mano che il loro addestramento progredisce. Una volta raggiunta la fase di affinamento finale, anche una quantità molto piccola di input di scarsa qualità può completamente sconvolgere l’intero LLM (ci sono passato, fatto quello).

Questo comportamento è esattamente l’opposto di quello che mi aspetterei da un sistema che acquisisce gradualmente “intelligenza”. Come esperimento mentale, immagina se due persone dovessero ascoltare una presentazione di 15 minuti che sostiene che la Terra è piatta. La prima persona è un bambino di 5 anni; la seconda è un ragazzo di 15 anni. È evidente che le probabilità di influenzare il sistema di credenze del ragazzo più giovane sono molto più alte rispetto al raggiungimento dello stesso risultato con il ragazzo più grande. Pertanto, man mano che invecchiamo e acquisiamo intelligenza, diventiamo più resilienti all’input di scarsa qualità. Naturalmente, ciò pone il problema di irrigidire la nostra mente attorno a concetti falsi, ma tutto sommato, diventare abili nel respingere informazioni fasulle è una competenza vitale che ogni essere umano funzionante deve padroneggiare in una certa misura.

In secondo luogo, i LLM imparano elaborando l’input in modo completamente casuale. Ad esempio, un LLM potrebbe essere alimentato casualmente con frammenti del codice sorgente del kernel Linux, regolamenti contabili oscuri della Scozia e testi di canzoni per bambini. Il LLM in fase di addestramento continua ad ingerire documenti selezionati casualmente e continua a progredire man mano che vengono ingeriti più documenti, ma l’intero processo è un po’ sconcertante.

Allo stesso modo, è ovvio che se alcuni genitori insensati decidessero di passare ore ogni giorno leggendo trattati, in ordine casuale, sulla fisica quantistica al loro bambino, ciò probabilmente non favorirebbe lo sviluppo intellettuale sano. I genitori istintivamente sanno che devono iniziare con cose semplici e aumentare gradualmente la complessità dei materiali man mano che si sviluppa l’intelligenza del bambino. Sebbene un’intelligenza artificiale non debba rispettare tutte le proprietà dell’intelligenza umana, sono molto scettico che la genesi di un’intelligenza meccanica possa bypassare completamente qualsiasi forma di progressione intellettuale.

In terzo luogo, i LLM sono incredibilmente inefficienti per quanto riguarda i loro materiali di origine. In termini di capacità di ragionamento grezzo, ci vogliono l’equivalente di centinaia di vite di sessioni di lettura per il LLM per acquisire competenze che molti esseri umani acquisiscono in meno di 20 anni. LeCun menziona questo difetto molto evidente e lo attribuisce alla mancanza di una visione del mondo (vedi sopra). La mia opinione è molto diversa: mi aspetto che un’intelligenza artificiale veramente ben progettata sia in grado di maturare con meno informazioni linguistiche rispetto a quelle che un essere umano tipico riceve nei suoi primi 20 anni di vita.

Infatti, come osservazione casuale, le persone intelligenti sono in grado di fare molto di più, dal punto di vista intellettuale, con molto meno. Queste persone non hanno bisogno che le cose vengano spiegate da cinque diverse prospettive - le “ridondanze sono buone” menzionate da LeCun - per “capire”. Leggono tra le righe. Fanno le giuste deduzioni dal piccolo pezzo di prova che hanno di fronte. Possono persino permettersi di distrarsi abbastanza quando ingeriscono materiali (ad esempio, una conferenza, un libro) e riempire correttamente le lacune in seguito.

Pertanto, tornando alla mia proposta originale che il problema risiede nella separazione tra apprendimento e inferenza, ciò che manca ai LLM è molto probabilmente (la mia modesta intuizione) una capacità di “ascolto attivo” - mentre tutto ciò che hanno al momento è una capacità di “ascolto passivo”. Ogni volta che il sistema risponde a una domanda, dovrebbe aggiornare corrispondentemente il suo stato cognitivo interno. Infatti, il processo con cui un’intelligenza (meccanica o umana) risponde a una domanda dovrebbe portare al miglioramento di tale intelligenza. Rispondendo a una domanda nuova, qualcosa deve essere stato appreso.

I LLM hanno già una scintilla di questo potenziale in loro. Consideriamo la chat GPT4-Turbo (vedi Allegato 1) di seguito. La mia domanda di base è Pensi che la teoria del valore-lavoro sia corretta?. Nella sua prima risposta in chat, il LLM non è in grado di dare la risposta corretta. Invece, rigurgita la confusione ambigua trovata su Internet, inserendo un elenco casuale di argomenti proposti da innumerevoli persone sul caso. Tuttavia, una volta sollecitato nuovamente a ragionare e arrivare a una conclusione effettiva, invece di essere indeciso al riguardo, il LLM arriva alla conclusione corretta. Spoiler: questa teoria del valore-lavoro è smentita. Una grande risposta a questa domanda sarebbe iniziata con La teoria del valore-lavoro è una teoria ormai smentita che è stata fondamentale per il progresso dell’economia… o qualcosa del genere. Tuttavia, poiché il LLM non ha mai avuto l’opportunità di elaborare attivamente le informazioni ricevute, questa comprensione non si è mai cristallizzata.

Vedrei diverse modalità per potenziare i LLM con una capacità di ascolto attivo, che includerebbe l’ascolto delle stesse risposte che produce. Un modo potrebbe essere un approccio di “monologo interiore”, in cui ogni input viene trasformato in un output, e questo output viene poi utilizzato per l’apprendimento. Questo modello affronterebbe i primi due problemi sopra menzionati: l’input dovrebbe essere fornito in un ordine sensato per ottenere il risultato desiderato (iniziando con cose semplici e aumentando la complessità in seguito); e il LLM diventerebbe sempre più capace di scartare input inutili, poiché è l’output utilizzato per l’apprendimento e non l’input.

Un altro modo potrebbe essere una variante dell’approccio basato sull’energia proposto da LeCun. Il passo SGD (discesa del gradiente stocastico) attualmente applicato a ogni documento ingerito dal LLM è solo la parte di ascolto passivo. Un altro processo supplementare sarebbe necessario per comprimere/restringere il sistema di credenze del LLM in una regione più piccola dello spazio ogni volta che viene ingerito un nuovo input, compresa una domanda diretta. Dovrebbe essere introdotto un processo di ottimizzazione numerica per agire come un meccanismo di ricerca della verità che probabilmente assumerebbe la forma di una maggiore autoconsistenza per gli output.

Conclusioni

Yann LeCun è un grande scienziato, e questa intervista solleva una serie di domande fondamentali. Che l’umanità riesca a creare un AGI in 20 anni o 200 dipenderà davvero da quanto velocemente riusciremo a ottenere sia le domande giuste che le risposte giuste. LeCun punta sui dati video per aprire la strada all’AGI. Sebbene creda che LeCun abbia una buona possibilità di ottenere qualcosa di veramente notevole dai suoi sforzi di ricerca, ovvero risolvere il problema decennale della mobilità generale per la robotica, sono molto scettico che ciò contribuirà all’AGI. La mia modesta opinione va nella direzione opposta: abbiamo già più dati testuali di quanto dovremmo averne bisogno. Ci mancano solo nuovi paradigmi. Se la mia intuizione è corretta, allora è una fantastica notizia per l’umanità perché i paradigmi non possono mai essere posseduti, tanto meno monopolizzati. Inoltre, i paradigmi sono economici. Tuttavia, anche se la mia intuizione si rivela errata, sono contento che il Chief AI Scientist di Meta sia un feroce sostenitore del software open-source.

Allegato: Chat, una critica della teoria del valore-lavoro

Joannes: Pensi che la teoria del valore-lavoro sia corretta?

ChatGPT: La teoria del valore-lavoro è un concetto fondamentale nell’economia classica, particolarmente associato ad Adam Smith, David Ricardo e, più famosamente, a Karl Marx. Propone che il valore di una merce possa essere misurato oggettivamente dal numero medio di ore di lavoro necessarie per produrla. Questa teoria ha influenzato il pensiero economico, specialmente l’economia marxista, che la utilizza per analizzare le società capitaliste e lo sfruttamento del lavoro. Tuttavia, la teoria del valore-lavoro è oggetto di dibattito e critica, specialmente dal punto di vista dell’economia neoclassica e delle teorie marginaliste emerse alla fine del XIX e all’inizio del XX secolo. Queste teorie sostengono che il valore è soggettivo e determinato dalle preferenze individuali e dall’utilità marginale dei beni, piuttosto che solo dal lavoro investito in essi. Alcune critiche alla teoria del valore-lavoro includono:

  1. Soggettività del valore: Gli economisti marginalisti sostengono che il valore è soggettivo e dipende dalle preferenze individuali, dai bisogni e dal contesto in cui vengono prese le decisioni. Ad esempio, l’acqua nel deserto ha un valore diverso dall’acqua in una regione ricca di laghi, indipendentemente dal lavoro necessario per ottenerla.
  2. Nessuna considerazione di capitale e imprenditorialità: I critici sostengono che la teoria del valore-lavoro sottovaluta o ignora i ruoli del capitale, del rischio e dell’imprenditorialità nel processo produttivo. Questi fattori possono influire significativamente sul costo e sul prezzo dei beni e dei servizi.
  3. Cambiamenti tecnologici e produttività: La teoria non tiene pienamente conto di come gli avanzamenti tecnologici e i miglioramenti della produttività influenzino il valore. Ad esempio, l’automazione può ridurre drasticamente il lavoro necessario per produrre beni, il che può portare a significative discrepanze tra il valore-lavoro e il prezzo di mercato dei beni.
  4. Variabilità delle competenze e dell’intensità: La teoria assume che tutte le ore di lavoro siano uguali, ma nella realtà le competenze, l’intensità e la produttività del lavoro possono variare ampiamente. Ciò rende difficile standardizzare la misura del valore-lavoro. Nonostante queste critiche, la teoria del valore-lavoro rimane un concetto importante per comprendere la storia economica e l’evoluzione del pensiero economico. È stata particolarmente influente nelle critiche al capitalismo e nelle discussioni sull’ineguaglianza di reddito, lo sfruttamento e la distribuzione della ricchezza. Se la si considera “corretta” può dipendere in gran parte dalla propria filosofia economica, dai valori e dagli aspetti dell’attività economica che si enfatizzano.

Joannes: Come ipotesi scientifica testabile e molte volte testata, consideri questa teoria provata o confutata? Rifletti su di essa e poi trai una conclusione. La tua conclusione dovrebbe essere provata o confutata, niente di intermedio.

ChatGPT: Quando si valuta la teoria del valore-lavoro come ipotesi scientifica testabile, è fondamentale considerare la metodologia dell’analisi economica e i criteri per provare o confutare le teorie nelle scienze sociali, che possono essere intrinsecamente diverse dalle scienze naturali a causa della complessità del comportamento umano e dei sistemi economici.

Testabilità ed evidenza empirica:

  • La teoria del valore-lavoro sostiene che il valore di una merce sia determinato dal lavoro necessario per produrla. Questo principio può essere parzialmente testato esaminando la correlazione tra i costi del lavoro e i prezzi di mercato. Tuttavia, le prove empiriche mostrano un quadro misto. Sebbene spesso ci sia una correlazione tra l’input di lavoro e i prezzi, numerose eccezioni sono determinate dalla dinamica di offerta e domanda, dai cambiamenti tecnologici e dalle preferenze dei consumatori.
  • Inoltre, la teoria fatica a spiegare il valore dei beni che richiedono poco o nessun lavoro per essere prodotti (come beni digitali o risorse naturali), ma possono comunque avere prezzi di mercato elevati a causa della scarsità o della domanda.

Consensus scientifico e critiche:

  • L’avvento dell’economia marginalista e neoclassica ha introdotto il concetto di valore soggettivo e utilità marginale, che forniscono un quadro più flessibile per comprendere la determinazione dei prezzi e il comportamento dei consumatori. Questi modelli tengono meglio conto delle variazioni dei prezzi che non possono essere spiegate solo dall’input di lavoro.
  • La teoria del valore-lavoro è stata criticata per non spiegare adeguatamente il ruolo del capitale, del rischio, dell’imprenditorialità e dell’innovazione tecnologica nella creazione di valore.

Conclusione: Date le condizioni per la prova scientifica, che richiede prove coerenti, ripetibili e capacità predittive, la teoria del valore-lavoro come spiegazione universale della determinazione del valore in economia è confutata. Sebbene catturi certi aspetti della creazione di valore e possa spiegare alcuni fenomeni economici, non tiene conto della complessità completa di come i prezzi vengono determinati in un’economia di mercato. La teoria non regge alle prove empiriche in contesti economici diversi ed è stata sostituita da teorie che tengono meglio conto della vasta gamma di fattori che influenzano il valore e il prezzo.


  1. Vedi l’intervista di Geoffrey Hinton al New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, 1 maggio 2023. ↩︎

  2. L’uso della conoscenza nella società, di Friedrich Hayek, settembre 1945 ↩︎

  3. Ad esempio, nel 2022, il presidente di TSMC, Mark Liu, ha ricordato al pubblico che se la Cina dovesse invadere Taiwan e catturare le strutture di TSMC e il suo personale, le capacità produttive di TSMC sarebbero rese non operative semplicemente perché i loro partner occidentali diventerebbero riluttanti a continuare a sostenerli. ↩︎

  4. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, gennaio 2022. ↩︎

  5. Esperimenti di privazione linguistica↩︎

  6. Paradosso di Moravec↩︎