00:00:01 Introduzione e discussione sull’IA generativa.
00:01:11 Esplorazione del problema generativo e delle sue soluzioni.
00:02:07 Discussione sull’evoluzione e il progresso dell’IA generativa.
00:03:02 Pietre miliari nell’apprendimento automatico e accessibilità degli strumenti.
00:04:03 Discussione sulle stranezze e i risultati degli strumenti di IA.
00:05:00 La popolarità e l’accessibilità dell’IA generativa.
00:06:33 Generazione di immagini con Stable Diffusion, divenuta accessibile.
00:07:37 Discussione sull’accessibilità degli strumenti generativi.
00:08:43 Spiegazione della generazione di oggetti ad alta dimensionalità.
00:09:38 Sfide e miglioramenti nella capacità dimensionale.
00:10:07 Esplorazione della generazione di testo e delle sue limitazioni.
00:11:15 Discussione sulla coerenza a diverse scale.
00:12:24 Spostamento sul tema della specificità e versatilità del generatore.
00:13:46 Confronto tra risultato generato dall’IA e risultato umano.
00:14:59 Discussione sui modelli di apprendimento automatico e sulla generazione del linguaggio.
00:15:51 Esplorazione del metodo taglia e incolla nell’IA.
00:16:30 Mancanza di senso comune nell’IA evidenziata.
00:17:26 Menzione alle prestazioni di ChatGPT nei test del QI.
00:18:45 Discussione sulla comprensione dell’IA e relativi esempi.
00:19:47 Comprensione superficiale dell’IA e fusione ad alta dimensionalità.
00:20:41 La complessità dell’intelligenza artificiale e la sua storia.
00:21:58 Gli elementi sconosciuti e il progresso dell’intelligenza artificiale.
00:22:25 Discussione sul mutare percezione dell’intelligenza.
00:23:45 Approfondimenti sul deep learning e sull’intelligenza artificiale.
00:24:24 Concetto di conoscenza latente nelle lingue umane.
00:25:59 Comprensione dell’universo nei tempi antichi e moderni.
00:27:02 Introduzione al concetto di ‘anti-fragilità’ dal libro di Nasim Taleb.
00:28:01 Anti-fragilità negli ecosistemi e nelle società umane.
00:29:31 Critica alla capacità di ChatGPT di generare un discorso ‘intelligente’.
00:31:05 Considerazione delle applicazioni dell’IA generativa nelle imprese.
00:31:37 Il potenziale ruolo dell’IA generativa nel supply chain management.
00:33:34 Capacità limitate di ChatGPT in domini con scarsità di dati.
00:35:00 Cautela nell’utilizzo di codice generato dall’IA in sistemi critici.
00:36:04 I benefici dell’IA per la supply chain e le attività periferiche.
00:37:37 Discussione sulla tendenza verso un corpus più ampio per il completamento del codice.
00:38:45 Confronto tra i requisiti di parametri: ChatGPT vs generatore più piccolo.
00:40:45 Le implicazioni dell’IA generativa sulle imprese e sulla supply chain.
00:41:19 Discussione sulla visione di Lovecraft delle verità profonde dell’universo.
00:42:01 Relazione tra l’uso improprio della tecnologia e il software per la supply chain.
00:42:56 Preoccupazioni per la creazione e la verifica di casi di studio falsi.
00:44:04 Critica alle vaghe affermazioni di marketing dei concorrenti di Lokad.
00:45:10 Discussione sui limiti dei modelli linguistici di IA.
00:46:08 Spiegazione delle specificità dell’IA nella tecnologia.
00:47:00 Importanza della terminologia specifica nell’IA.
00:48:01 Analogia dell’acquisto di una finestra alla comprensione dell’IA.
00:48:48 Discussione sui problemi di integrazione dell’architettura software.
00:50:14 L’importanza della progettazione fondamentale nel software aziendale.
00:50:54 Esempio di progettazione fondamentale in un database transazionale.
00:51:48 La necessità di una corretta progettazione e integrazione del software.
00:52:52 Consigli per valutare la tecnologia del fornitore.
00:53:36 Importanza di pubblicizzare i successi in ambito tecnologico.
00:54:20 L’IA come parola d’ordine e la verifica dei fornitori.
00:55:25 Osservazioni conclusive e fine dell’intervista.
Riassunto
Nell’intervista, Joannes Vermorel, il fondatore di Lokad, discute dello stato e dell’impatto dell’IA generativa, concentrandosi in particolare sui progressi come ChatGPT e Stable Diffusion. Vermorel spiega l’IA generativa e la sua storia, evidenziando i progressi incrementali realizzati nella generazione di immagini e testi. Egli menziona la natura user-friendly di strumenti recenti come Stable Diffusion e ChatGPT, che hanno migliorato i tassi di successo e l’accessibilità. Vermorel sottolinea le limitazioni dei modelli di IA attuali in termini di senso comune e di vera intelligenza. Discute anche le sfide e il potenziale dell’IA nel supply chain management e critica le affermazioni vaghe e fuorvianti fatte da alcune aziende sulle loro capacità di IA. Vermorel enfatizza l’importanza di comprendere la tecnologia sottostante ed essere cauti nel valutare le soluzioni di IA.
Riassunto Esteso
Nell’intervista tra il conduttore Conor Doherty e Joannes Vermorel, il fondatore di Lokad, viene discusso lo stato attuale e l’impatto dell’IA generativa, con particolare attenzione ai progressi come ChatGPT per il testo e Stable Diffusion per le immagini.
Vermorel inizia definendo l’IA generativa come una raccolta di soluzioni proposte al problema generativo, che implica lo sviluppo di un algoritmo o di un metodo per creare un’ulteriore istanza di una rappresentazione digitale di un insieme di oggetti. Egli menziona che questo tipo di problemi esiste da decenni e, per applicazioni ristrette, esistono generatori di successo. Ad esempio, i generatori sono stati utilizzati per creare nomi di località dall’aspetto realistico in Inghilterra o titoli per un romanzo di Stephen King.
Allo stesso modo, nel campo della generazione di immagini, sono stati sviluppati generatori in grado di creare una mappa che assomiglia a un’ambientazione tratta da “Il Signore degli Anelli”, completa di montagne, foreste, coste e nomi fantastici. Secondo Vermorel, la progressione in questo campo è stata incrementale, con l’obiettivo di rendere i generatori più ampi e sempre più dipendenti dai set di dati in input, piuttosto che da un ampio insieme di regole predefinite.
Evidenziando due tappe notevoli raggiunte lo scorso anno dalla più ampia comunità di machine learning, Vermorel fa riferimento a ChatGPT per il testo e a Stable Diffusion per le immagini. Pur essendo stati progressi significativi, che hanno reso questi strumenti più accessibili, egli insiste sul fatto che si trattava di miglioramenti incrementali piuttosto che di scoperte rivoluzionarie, non rappresentando nulla di nuovo in statistica, matematica o informatica.
Tuttavia, il fatto che questi strumenti siano stati confezionati e rifiniti a tal punto da permettere anche ai non addetti ai lavori di iniziare a utilizzarli in pochi minuti è stato certamente degno di nota. Ciò contrastava con i precedenti strumenti generativi che, pur essendo in grado di generare immagini o testi impressionanti, presentavano spesso molte stranezze e richiedevano un certo grado di competenza per essere operativi in modo efficace.
Stable Diffusion e ChatGPT si sono distinti per la loro facilità d’uso. Con Stable Diffusion, ad esempio, bastava inserire un prompt semplice, come “castello bello nel mezzo della foresta”, per ottenere un’immagine plausibile nel 20% dei casi. Anche se ciò era lontano dall’essere perfetto, rappresentava un notevole miglioramento rispetto alle tecniche di generazione precedenti, che avevano una percentuale di successo dell'1%.
Ciò ha segnato un miglioramento di un ordine di grandezza, un sentimento che Vermorel ribadisce quando parla di ChatGPT. Come nel caso di Stable Diffusion, l’introduzione di ChatGPT ha segnato un cambio verso strumenti più user-friendly e accessibili nel campo dell’IA generativa.
In questa parte dell’intervista, Conor Doherty e Joannes Vermorel, fondatore di Lokad, discutono della recente evoluzione e dell’impatto dei modelli Generative Pre-trained Transformer (GPT). Vermorel sottolinea che il popolare modello ChatGPT non è fondamentalmente nuovo, ma piuttosto una versione rivisitata e più accessibile di una tecnologia preesistente. Egli indica il 2022 come l’anno di svolta in cui l’IA generativa è diventata ampiamente disponibile al pubblico, in larga misura grazie ai miglioramenti in termini di usabilità.
La conversazione si sposta poi su casi specifici in cui i modelli GPT hanno avuto un impatto significativo sul pubblico. Vermorel richiama l’attenzione sulle uscite dello scorso anno, come Stable Diffusion e la terza iterazione di ChatGPT. Il fascino e il successo di questi modelli, spiega, risiedono nello sforzo compiuto dai team di ricerca nel confezionare queste tecnologie in modo user-friendly.
Vermorel fornisce esempi di questa accessibilità. Egli osserva che Stable Diffusion, uno strumento per la generazione di immagini, è stato rilasciato come software open-source. Ciò ha permesso a utenti con minima esperienza in Python di configurare un ambiente di programmazione Python in circa due ore ed esplorare lo strumento in maniera autonoma. Vermorel sottolinea che per utilizzare Stable Diffusion non è necessario essere programmatori esperti in Python; una conoscenza di base dell’esecuzione tramite riga di comando è sufficiente.
Inoltre, fa riferimento alla disponibilità di tutorial online e al lancio di un’interfaccia utente gratuita, Dream Studio, che permette agli utenti di generare fino a 100 immagini gratuitamente. Per successivi lotti di immagini, gli utenti devono pagare una tariffa, un modello che si applica anche all’applicazione web di GPT.
Joannes Vermorel spiega inizialmente la complessità di creare un’immagine ad alta dimensionalità, citando l’esempio di un’immagine di 1000x1000 pixel, che in sostanza equivale a tre milioni di dimensioni considerando i tre colori primari. Egli aggiunge che le iterazioni iniziali erano limitate ad una capacità di 512x512, anche se sono in corso dei miglioramenti.
Allo stesso modo, viene affrontato il problema della generazione del testo. Vermorel spiega che la dimensionalità nella generazione del testo deriva da due direzioni. La prima riguarda la dimensione dell’input o del prompt, che può variare da una linea a più paragrafi o addirittura pagine. La seconda concerne fino a che punto la generazione può procedere prima che il modello inizi a perdere coerenza.
Vermorel sottolinea le limitazioni dei modelli attuali, in quanto non sono in grado di produrre un intero libro in maniera coerente dall’inizio alla fine. Le sfide aumentano con la dimensione del testo: una singola parola richiede una coerenza locale, una frase richiede una coerenza su scala più ampia, un paragrafo ancora di più, e un libro potrebbe coinvolgere milioni o decine di milioni di dimensioni astratte.
La conversazione si sposta quindi a discutere l’aspetto della “generosità” in questi modelli. Vermorel interpreta questo termine come la capacità di un modello di affrontare problemi differenti o generare output diversificati. Un interessante sviluppo negli ultimi cinque anni, secondo Vermorel, è la capacità della comunità del deep learning di sfruttare set di dati massicci.
Che si tratti di dati testuali provenienti da una varietà di fonti come Wikipedia, forum online o testi legali, i modelli di deep learning hanno fatto progressi nel generare output diversificati. Ora possono produrre qualsiasi cosa, dalla poesia al linguaggio legale, dal codice o addirittura sequenze genomiche quando opportunamente richiesto. Lo stesso vale per le immagini, dove gli output possono variare dall’arte in pixel a immagini fotorealistiche o a diversi stili di pittura.
Conor Doherty chiede a Joannes Vermorel della sofisticazione dei modelli di IA come ChatGPT rispetto agli esseri umani. Vermorel approfondisce il concetto di sofisticazione, spiegando che è complesso a causa della necessità di definirne e chiarirne il significato. In risposta ad una possibile applicazione del test di Turing, afferma che lo stato attuale dei modelli di IA dipende fortemente dalla capacità di fondere insieme enormi quantità di dati, attingendo da un vasto corpus di testi.
In un certo senso, egli sostiene che ciò che ChatGPT produce è una sorta di avanzato processo di “taglia e incolla”, assemblando frammenti di testo reperiti su internet. Riconosce che la forza del modello risiede nella capacità di unire questi pezzi in maniera grammaticalmente e sintatticamente corretta, identificando schemi statistici di alto livello esistenti tra parole, frasi e proposizioni. Vermorel sottolinea che il testo risultante può sembrare umano, ma è principalmente una riproduzione di contenuti già scritti dagli esseri umani.
Tuttavia, Vermorel attenua la discussione evidenziando che questi modelli non possiedono il senso comune. Cita l’esempio del responsabile dell’IA di Facebook, che afferma che anche i modelli di IA più avanzati non possiedono il senso comune di un gatto. Questo perché l’IA opera fondamentalmente su relazioni statistiche e manca della comprensione intuitiva che accompagna il senso comune. Illustra questo punto con uno scenario umoristico in cui un modello di IA suggerisce un percorso GPS per evitare il traffico nel mezzo dell’Oceano Atlantico, perdendo di vista l’assurdità della situazione.
Per articolare ulteriormente le limitazioni dell’IA attuale, Vermorel discute di un esperimento di ricerca di Amazon in cui ChatGPT è stato sottoposto a una serie di test del QI. I risultati hanno collocato il modello di IA circa una deviazione standard al di sotto della norma, cosa che risuona con la sua visione dell’IA che si limita principalmente a raccogliere informazioni senza la comprensione innata che possiedono gli esseri umani.
Tuttavia, egli sottolinea che anche una persona con capacità cognitive limitate è di gran lunga più intelligente di un gatto. Questo confronto serve a sottolineare che, nonostante tutte le sue capacità impressionanti, l’IA è lontana dall’equivalere il livello di intelligenza di un gatto, per non parlare di un essere umano. Vermorel ci ricorda che, nonostante la nostra percezione delle limitazioni cognitive di un gatto, siamo ancora lontani dal creare un modello di IA con un’intelligenza paragonabile.
Questa conversazione evidenzia la complessità della sofisticazione dell’IA, il processo alla base della generazione di testo da parte dell’IA, e le limitazioni che l’IA attualmente affronta in termini di senso comune e comprensione intrinseca. Fornisce una prospettiva preziosa sullo stato dell’IA e sulle sue capacità attuali, pur moderando le aspettative per il suo futuro immediato.
Vermorel approfondisce l’idea che la comprensione del mondo da parte dell’AI sia incredibilmente superficiale. Descrive i processi che questi modelli utilizzano come “high dimensional blending of the input data”. Considera anche la possibilità che modelli più sofisticati possano bastare per raggiungere l’intelligenza, ma sospetta che la vera intelligenza possa essere più complicata.
A suo avviso, il percorso dell’AI è stato più incentrato sull’identificare ciò che l’intelligenza non è, piuttosto che definire cosa essa sia. Questo processo di chiarificazione è in corso da circa 70 anni. Individua il breakthrough del deep learning nel 2011-2012 come un punto di svolta significativo, che ha permesso una moltitudine di applicazioni portando a intuizioni sostanziali. Tuttavia, sottolinea l’incertezza nel campo. Afferma che la nostra comprensione dell’intelligenza potrebbe dover essere ridefinita ogni volta che viene sviluppata una nuova tecnica AI.
Il presentatore interroga quindi Vermorel sui miglioramenti nelle prestazioni dell’AI lungo le diverse iterazioni, concentrandosi su ChatGPT. Vermorel concorda nel dire che l’AI generativa, incluso ChatGPT, è migliorata notevolmente nel tempo, ma osserva la difficoltà di quantificare i miglioramenti necessari per colmare il divario esistente nella comprensione dei concetti da parte dell’AI.
In risposta alla domanda di Doherty su quanto dovesse essere migliore la quarta iterazione di ChatGPT, Vermorel ammette senza mezzi termini la propria incertezza. Sottolinea che il problema non riguarda semplicemente una progressione lineare. Il vero problema, afferma, risiede nel non sapere cosa ci sfugga nella nostra comprensione dell’intelligenza.
Da una prospettiva storica, Vermorel osserva che un secolo fa l’intelligenza di un individuo poteva essere giudicata dalla capacità di eseguire compiti matematici complessi come l’inversione di una matrice. Tuttavia, la nostra comprensione e i nostri metodi di misurazione dell’intelligenza si sono evoluti notevolmente da allora. Lo sviluppo dell’AI, intende dire, potrebbe subire trasformazioni analoghe man mano che continuiamo a esplorare e sfidare le nostre concezioni di intelligenza. Un secolo fa, capacità quali l’inversione delle matrici o il calcolo di 20 cifre di pi erano considerate segno di intelligenza superiore; oggi, invece, tali compiti sono ritenuti meccanici, realizzabili con una semplice calcolatrice tascabile, mettendo così in dubbio il loro legame con l’intelligenza. Nota inoltre che, nonostante i computer siano di ordini di grandezza più performanti degli umani in questi compiti, non vengono considerati intelligenti.
La discussione di Vermorel si sposta sulle capacità e le implicazioni dell’AI, concentrandosi in particolare sulla generazione tramite deep learning. Egli suggerisce che l’AI ha messo in luce molti compiti che, in apparenza, sembrano incredibilmente impegnativi, ma che potrebbero non riflettere l’intelligenza quanto si pensava inizialmente. Ad esempio, considera le capacità di generazione testuale di ChatGPT. Piuttosto che dimostrare cosa sia l’intelligenza, Vermorel propone che esse rivelino ciò che l’intelligenza non è. Vede ChatGPT più come un riflesso dell’enorme quantità di conoscenza latente insita nel linguaggio umano che come una dimostrazione di vera intelligenza.
Approfondendo il concetto di conoscenza latente, Vermorel la descrive come il totale cumulativo della comprensione e della conoscenza umana, rappresentata implicitamente nel linguaggio. Questa conoscenza latente è spesso registrata in forme strutturate, come database, mappe e simili, contenenti dettagli quali proprietà chimiche, resistività dei materiali e punti di fusione. Tuttavia, Vermorel afferma che anche il linguaggio racchiude una parte significativa di tale conoscenza. Sostiene che le parole e le frasi che usiamo rispecchiano la nostra comprensione collettiva dell’universo. Ad esempio, affermare che “planets orbit stars” presuppone una conoscenza dei concetti astrofisici.
Questa conoscenza latente, suggerisce, è incorporata anche nelle forme più semplici di espressione linguistica, come le definizioni trovate nei dizionari, capaci di racchiudere gran parte della scienza moderna. Sostiene inoltre che l’assenza di certe parole o concetti può impedire il riconoscimento di alcune forme di conoscenza. Per illustrare questo aspetto, si riferisce al libro “Anti-Fragile” di Nassim Taleb. Spiega il concetto di “anti-fragility” – un termine coniato da Taleb per descrivere uno stato che non solo resiste al caos e al disordine, ma che riesce a prosperare e migliorare in tali condizioni. Questo è in netto contrasto con qualcosa di “fragile”, che degrada in presenza di disordine, o con qualcosa di “durable”, che si limita a resistere al caos a un ritmo più lento. Vermorel ritiene questo concetto significativo perché introduce una prospettiva nuova per comprendere vari sistemi, dagli ecosistemi alle società umane.
La discussione si estende poi alla relazione intrinseca tra linguaggio e conoscenza. Vermorel illustra come l’introduzione di un nuovo termine o concetto, come “anti-fragile”, possa arricchire sostanzialmente la comprensione, sebbene in un modo difficile da afferrare a causa delle limitazioni del linguaggio. Sottolinea il ruolo del linguaggio nell’esprimere e comunicare la conoscenza.
Passando al tema dell’intelligenza artificiale, Vermorel discute del fenomeno della conoscenza latente presente nel linguaggio. Sottolinea che questa conoscenza latente gioca un ruolo fondamentale in applicazioni come ChatGPT di OpenAI, un modello capace di generare testi simili a quelli umani. Vermorel descrive criticamente ChatGPT come un “platitude generator”, attribuendogli la sua apparente intelligenza alla propensione a combinare idee o modi di dire ampiamente accettati, provenienti da enormi e diversificati dataset.
Nonostante le sue critiche, Vermorel riconosce l’impressionante capacità di ChatGPT di generare contenuti coerenti e contestualmente appropriati, anche in ambiti a lui poco familiari. Egli suggerisce che questa caratteristica è dovuta al fatto che ChatGPT è stato addestrato su un dataset supermassiccio composto da milioni di pagine di testo tratte da campi estremamente diversi.
Man mano che la conversazione procede, si discute delle applicazioni pratiche dell’AI generativa come ChatGPT nel contesto delle imprese e della supply chain management. Dal punto di vista di Vermorel, l’impatto dell’AI generativa sulla supply chain management è improbabile che sia significativo, almeno in senso diretto. Tuttavia, egli sottolinea anche la difficoltà nel prevedere il futuro, implicando che la portata e il potenziale dell’AI generativa potrebbero ancora evolversi e sorprenderci nei prossimi tempi.
Vermorel afferma che, nonostante la crescente rilevanza e le capacità delle tecnologie AI, potrebbero non avere un impatto sostanziale sull’ottimizzazione della supply chain. Spiega che questi modelli prosperano grazie a fonti di informazione ampie e liberamente accessibili, come il web, dove analizzano immagini e tag testuali. Tuttavia, i dati fondamentali per la gestione della supply chain – come, ad esempio, la cronologia delle transazioni – sono specifici per ogni azienda e non sono condivisi apertamente né facilmente accessibili. Pertanto, la forma attuale di questi strumenti AI potrebbe non disporre delle informazioni necessarie per optimize supply chain in modo efficace.
Concentrandosi sull’esempio delle vendite di telai per porte, Vermorel spiega che i dati generici relativi ai telai per porte sono meno utili per la pianificazione della supply chain rispetto alla storia delle vendite specifica di un’azienda. Sottolinea che questi dati, nascosti all’interno del silo, forniscono una previsione più accurata su cosa ordinare, produrre e immagazzinare. Ciò evidenzia come tecnologie AI come ChatGPT, che performano meglio con dati ampiamente disponibili, possano essere meno efficaci quando i dati rilevanti sono scarsi.
Tuttavia, Vermorel riconosce che i modelli di linguaggio AI potrebbero essere utili per alcuni compiti. Ad esempio, ChatGPT può assistere nella generazione di snippet di codice grazie all’enorme quantità di codice liberamente disponibile online, soprattutto su piattaforme come GitHub. Questa disponibilità consente all’AI di generare snippet o programmi di codice decenti, fungendo da strumento di produttività per i programmatori. Tuttavia, avverte della necessità di una supervisione accurata, poiché il codice generato dall’AI potrebbe anche presentare errori.
Guardando al futuro, Vermorel ipotizza che i modelli di linguaggio AI potrebbero essere d’aiuto in settori quali la presa di appunti, la correzione di bozze e la sintesi delle riunioni. Ad esempio, potrebbero ridurre la discussione di una riunione di due ore a un riassunto di due pagine, mantenendo i dettagli critici. Tuttavia, osserva che attualmente strumenti AI come ChatGPT potrebbero avere difficoltà con tali compiti a causa delle loro limitazioni intrinseche. Ciononostante, crede che nel prossimo decennio le tecnologie AI si evolveranno per gestire tali compiti in modo più efficace.
Vermorel individua i dati come la sfida centrale, indicando che i modelli di AI generativa non affrontano adeguatamente le complessità intrinseche dei dati della supply chain.
Vermorel respinge tale osservazione, affermando che GitHub Co-pilot e ChatGPT-3 condividono fondamenti tecnologici quasi identici – entrambi utilizzano l’architettura Transformer. Le differenze risiedono nell’esperienza utente, poiché GitHub Co-pilot offre il completamento automatico a ogni battitura, mentre ChatGPT-3 è maggiormente orientato al dialogo. Vermorel prevede che il miglior strumento per il completamento del codice probabilmente utilizzerà un corpus più ampio rispetto al solo codice.
Continuando, Vermorel fa riferimento a un recente articolo di un team di Amazon. Lo studio discute di un generatore promettente che unisce dati di immagini e testo, sostenendo prestazioni comparabili e talvolta superiori a ChatGPT-3, ma con meno parametri (un miliardo rispetto ai cento miliardi di ChatGPT-3). Questa idea, afferma Vermorel, è affascinante perché suggerisce che la fusione di tipi di dati più diversificati possa dare origine a un modello più semplice eppure più potente.
Vermorel evidenzia un’osservazione paradossale nello sviluppo dei modelli AI: modelli più grandi, come ChatGPT-3, non sono necessariamente migliori. Cita Stable Diffusion, un modello significativamente più snello e veloce del suo predecessore, la Generative Adversarial Network, pur essendo composto da circa un miliardo di parametri. Non è chiaro, afferma, se siano necessari modelli grandi come ChatGPT-3 (che rientra nella fascia dei trilioni di parametri).
Ribadendo questo punto, menziona nuovamente la ricerca del team di Amazon, che afferma di aver quasi riprodotto le prestazioni di ChatGPT-3 con un modello da un miliardo di parametri. Questa dimensione ridotta, spiega, permette il funzionamento su schede grafiche comuni, presenti negli attuali laptop e workstation, aprendo così la strada a una maggiore accessibilità.
Tornando all’argomento iniziale, Doherty si interroga sul fatto che l’AI generativa porti benefici netti o negativi, in particolare per le imprese e, più specificamente, per le supply chains.
Vermorel spiega che il progresso in scienza e tecnologia è generalmente positivo, contraddicendo la visione pessimistica di Lovecraft, il quale credeva che esistessero verità così profonde e brutali nell’universo da risultare troppo ostili per la mente umana, tanto da far impazzire chi le scoprisse.
Vermorel riconosce che ogni strumento, fin dall’età della pietra, può essere usato o abusato. Nel contesto del enterprise software per la supply chain, teme un aumento della confusione a causa dell’uso improprio della tecnologia, in particolare dell’intelligenza artificiale. Secondo lui, i fornitori stanno già iper-promuovendo l’AI, e la situazione potrebbe peggiorare con i reparti marketing che creano innumerevoli casi studio falsi, portando a ulteriori affermazioni fuorvianti e a casi studio non verificabili.
Vermorel spiega che in passato creare un caso studio falso richiedeva un certo impegno, ma ora, grazie all’AI, è diventato praticamente senza sforzo. Sottolinea inoltre che i partecipanti a un caso studio non hanno alcun incentivo a dichiarare che i benefici promessi dall’azienda siano falsi, solitamente confermandoli e attribuendo parte del successo a se stessi. Vermorel prevede che queste tecnologie renderanno la situazione ancora più intricata.
Parlando della strategia di marketing dei suoi concorrenti, Vermorel esprime la sua delusione per l’uso superficiale e poco informativo del termine “AI for supply chain”. Critica la loro mancanza di trasparenza e il modo in cui riescono a redigere pagine interminabili piene di banalità, senza offrire informazioni sostanziali sul loro prodotto. Questo rende difficile per lui comprendere la tecnologia, il funzionamento, il design e le intuizioni che la guidano.
Vermorel sottolinea che le applicazioni autentiche dell’AI nell’ottimizzazione della supply chain richiedono approcci altamente specializzati e tecnici. Tali applicazioni si basano su algoritmi o strutture specifiche, come l’architettura Transformer, le reti generative o approcci gerarchici. Egli esprime la necessità che le aziende siano precise e dettagliate riguardo alle tecniche AI da loro utilizzate, poiché affermazioni vaghe di “fare AI” senza particolari specifiche sono spesso fuorvianti o del tutto infondate.
Per illustrare il suo punto, Vermorel paragona la tecnologia AI all’acquisto di una finestra per una casa. Quando si compra una finestra, l’acquirente si aspetta una descrizione dettagliata del prodotto – è realizzata in legno, alluminio o plastica? È a vetro singolo o doppio? Allo stesso modo, nel campo dell’AI, Vermorel ritiene che le aziende debbano fornire una spiegazione dettagliata delle tecniche AI che adottano e di come queste possano beneficiare la supply chain.
Vermorel estende questa analogia per criticare il termine “sustainable windows”. Sostiene che descrizioni così vaghe generano più confusione che chiarezza. Allo stesso modo, critica le aziende che promettono “excellent light” in relazione alle loro finestre, suggerendo che si tratti di affermazioni sull’AI prive di evidenze concrete o dettagli.
Inoltre, Vermorel prevede che l’uso di tecnologie AI come GPT (Generative Pretrained Transformer) aumenterà la confusione nel settore. Sebbene questi strumenti possano generare materiale di marketing e integrarsi negli stack tecnologici esistenti con relativa facilità, potrebbero non contribuire in modo significativo al funzionamento complessivo o all’ottimizzazione della supply chain se l’architettura software non è stata progettata per tali capacità.
A suo avviso, questo approccio assomiglia a riparare una struttura esistente con del nastro adesivo: potrebbe non migliorare la struttura o addirittura non avere senso nella sua applicazione. Vermorel vede il rischio che le aziende facciano un ulteriore abuso delle tecnologie AI “reali”, integrando algoritmi preziosi nelle loro operazioni in modi insensati, contribuendo così a una maggiore confusione nel settore anziché offrire progressi significativi.
Vermorel critica la tendenza a incorporare l’AI nell’ottimizzazione della supply chain in modi che sono inefficaci e, in realtà, insensati. Sottolinea che questi processi spesso non aggiungono valore alle soluzioni che dovrebbero migliorare. Per supportare il suo punto, Vermorel cita il modello storico delle iterazioni nella ricerca operativa, nel data mining e in data science, implicando che le tendenze attuali, come l’AI cognitiva, potrebbero benissimo essere altro della stessa roba.
Secondo Vermorel, se un’azienda vuole sfruttare al massimo l’AI come parte del suo software aziendale, l’integrazione dovrebbe avvenire a livello di progettazione. Egli si oppone con forza all’idea di “nastrare” l’AI su software esistenti, sottolineando che il design fondamentale di un prodotto può essere definito solo all’inizio del suo sviluppo. Tentare di infilare l’AI in un prodotto dopo che è stato creato si rivela estremamente difficile e spesso controproducente.
Quando gli viene chiesto un esempio del livello di progettazione di base a cui si riferisce, Vermorel discute dei database transazionali. Questi database, costruiti per garantire l’integrità transazionale, non sono progettati per sfruttare tecnologie come generatori di immagini o di testo. A suo avviso, questi paradigmi differenti sono quasi incompatibili, e ottenere un’integrazione tra essi non è scontato. Richiede considerazioni progettuali accurate e un principio guida che assicuri la compatibilità all’interno dell’architettura del software.
Vermorel riconosce la possibilità di avere l’AI come componente aggiuntiva che si affianca a un prodotto esistente, ma sostiene che tale assetto raramente porta a una vera integrazione o sinergia. Anzi, complica il software, introducendo più elementi in movimento e potenziali bug.
Il suo consiglio per chi sta considerando l’integrazione dell’AI nell’ottimizzazione della supply chain è di interrogare a fondo i fornitori riguardo alle loro offerte. Egli sollecita i clienti ad assicurarsi che un fornitore sia in grado di spiegare la propria tecnologia in modo chiaro e sensato. Se un fornitore non riesce a farlo, Vermorel suggerisce che potrebbe indicare un problema con il prodotto o con la comprensione della tecnologia da parte del fornitore.
Vermorel conclude la sua parte della discussione enfatizzando che i veri successi nella tecnologia AI, come la creazione di modelli complessi, vengono spesso resi pubblici tramite articoli di ricerca e altre pubblicazioni. Questa trasparenza è in parte dovuta all’orgoglio che gli sviluppatori provano nel raggiungere qualcosa di difficile. Egli sottolinea che questi traguardi non sono segreti ben custoditi, ma vengono condivisi apertamente affinché il mondo ne prenda atto, sottolineando ulteriormente l’importanza di comprendere la tecnologia sottostante.
Vermorel riconosce i notevoli progressi compiuti da alcune aziende nel settore tecnologico. Egli osserva che le aziende che riescono a raggiungere determinati traguardi tecnici spesso pubblicano rapporti dettagliati per condividere come hanno ottenuto i loro successi. Considera questo come una tendenza comune nel settore, rafforzando l’idea che sia un segno di reale progresso tecnologico.
Successivamente, Vermorel adotta una posizione critica sul ruolo e sulla percezione dell’AI nel mondo aziendale moderno. Egli caratterizza l’AI come una parola d’ordine che ha guadagnato notevole trazione sul mercato. Nonostante l’uso diffuso del termine, sottolinea che il suo significato è così ampio e spesso vago da poter comprendere quasi qualsiasi cosa. Avverte contro l’accettazione acritica delle affermazioni dei fornitori sulle loro capacità di AI, specialmente quando non sono in grado di fornire una descrizione precisa di ciò che offrono con l’etichetta di AI.
Vermorel consiglia fermamente che, quando si ha a che fare con fornitori che sostengono di offrire soluzioni AI, occorre esercitare diligenza per comprendere la natura esatta delle loro offerte. Egli mette in guardia dal fidarsi di un fornitore il cui venditore ammette di non avere conoscenza della tecnologia che sta vendendo, attribuendola al dominio di un team tecnico separato. Vermorel considera questo un chiaro indicatore che l’azienda potrebbe non possedere la competenza tecnologica che dichiara.
Egli approfondisce questo punto mettendo in guardia dal cadere nella retorica del “assumiamo premi Nobel, abbiamo degli Einstein”. Afferma che tali affermazioni sono solitamente una cortina fumogena progettata per convincere i potenziali clienti della loro competenza tecnica senza fornire prove sostanziali. Spesso, sostiene, queste situazioni implicano che non ci sia nulla di veramente innovativo o tecnologicamente avanzato dietro le affermazioni - è solo altro della stessa roba.
Concludendo questa parte della conversazione, Doherty esprime la sua gratitudine verso Vermorel per aver condiviso le sue intuizioni, sottolineando quanto sia stata illuminante la discussione. La sezione si conclude con Doherty che ringrazia il pubblico per il tempo e l’attenzione, promettendo di tornare con ulteriori conversazioni stimolanti in futuro.
Trascrizione Completa
Conor Doherty: L’AI generativa è ovunque al giorno d’oggi, non solo nella supply chain. È un vantaggio netto o uno svantaggio? Qui per spiegarci tutto c’è Joannes Vermorel. Benvenuto.
Joannes Vermorel: Ciao, Conor, è un piacere averti qui.
Conor Doherty: Quindi, se vuoi, mettiamo un po’ in chiaro la questione. Che cos’è esattamente l’AI generativa? Qual è il suo scopo, visto che è ovunque al giorno d’oggi?
Joannes Vermorel: Sì, l’AI generativa è essenzialmente un insieme, una collezione di soluzioni proposte al problema generativo, che è un problema molto antico. Il problema generativo si presenta quando si hanno collezioni di oggetti nella loro rappresentazione digitale e si cerca di trovare un algoritmo, un metodo, una ricetta per generarne un’ulteriore istanza. Questo tipo di problemi si affronta da decenni. Per situazioni specifiche e ristrette, sono esistiti molti generatori. Ad esempio, da decenni esiste un generatore che può creare il nome di un luogo in Inghilterra che suoni realistico o un titolo che suoni verosimile per un romanzo di Stephen King. Se si voleva creare immagini, esistevano generatori che realizzavano una mappa che ricordava un po’ quella de Il Signore degli Anelli. Trasmetteva quell’atmosfera fantasy medievale con piccole montagne, foreste, coste e nomi fantastici sparsi per la mappa. L’idea di disporre di un generatore circola da decenni. I progressi sono stati piuttosto incrementali, puntando a rendere il generatore più ampio, sfruttando set di dati di input maggiori anziché un vasto insieme di regole pre-codificate. È qui che siamo, dopo decenni di processo. L’anno scorso, la comunità del machine learning ha raggiunto due traguardi molto notevoli con ChatGPT-3 per il testo e stable diffusion per le immagini. Tuttavia, questi sono stati traguardi in termini di accessibilità di questi strumenti, non necessariamente una svolta fondamentale in statistica, matematica o informatica. Sono stati i primi prodotti confezionati e rifiniti al punto che anche un profano poteva iniziare a usarli in pochi minuti e sperimentarli. Nel campo delle immagini, per oltre un decennio, sono esistite reti neurali avversarie generative in grado di creare immagini molto belle. Ma questi strumenti presentavano moltissime stranezze. Stable diffusion, invece, ha reso semplice per gli utenti inserire un prompt, ad esempio, “a beautiful castle in the middle of the forest,” e ottenere un’immagine decente. Non perfetta, ma abbastanza buona.
Conor Doherty: Quindi, si tratta di un miglioramento di un ordine di grandezza nell’accessibilità e nell’usabilità di questi strumenti?
Joannes Vermorel: Esattamente, lo stesso vale per ChatGPT. A proposito, il tipo di GPT che è diventato popolare era in realtà un modello che era già in circolazione da un paio d’anni. Era, letteralmente, qualcosa che era stato rielaborato in modo da renderlo molto più accessibile. Si trattava una questione di usabilità. Il traguardo è stato raggiunto nel 2022, quando l’AI generativa è diventata ampiamente accessibile, anziché restare oscura. Nulla di veramente fondamentale è accaduto; si è trattato, in realtà, di una semplice questione di pura usabilità.
Conor Doherty: Ricordo che da giovane c’erano esempi di quei siti generativi, come quello “give me a Ramones name”. Uso quell’esempio famoso. Penso che Childish Gambino, il musicista, abbia generato il suo nome tramite un sito simile. Ma non ero a conoscenza delle iterazioni precedenti di ChatGPT, dato che l’attuale iterazione è la terza. Quindi, cosa ha attirato esattamente l’attenzione del pubblico nelle uscite dello scorso anno, come Stable Diffusion e la terza iterazione di ChatGPT? Ora sono ovunque.
Joannes Vermorel: Ciò che ha catturato l’attenzione del pubblico sono stati gli sforzi compiuti dai team di ricerca nel confezionare la tecnologia. Stable Diffusion è stato rilasciato come open source. Se eri familiare con un ambiente Python, anche se non conoscevi molto Python, potevi configurare un ambiente di programmazione in circa due ore. Potevi sperimentare con tutte le parti in movimento da solo. Non dovevi nemmeno essere un programmatore Python. Bastava essere sufficientemente fluente per eseguire una serie di comandi da linea di comando. C’erano vari tutorial. Stable Diffusion ha reso la generazione di immagini accessibile se sapevi usare la linea di comando. È un po’ da geek, ma non eccessivo. Esisteva persino un’interfaccia utente gratuita, Dream Studio, dove potevi sperimentare gratuitamente per le prime 100 immagini. Dopo di che, dovevi pagare qualcosa come dieci dollari per generare le successive 100 immagini. Open GPT era anch’essa una web app. Con una piccola registrazione e, al giorno d’oggi, devi pagare circa 20 Euro al mese per avere accesso. La cosa interessante è che in entrambi i casi, potevi accedere a un generatore, in senso ampio, in circa un’ora. Ti serviva un po’ di esperienza per iniziare a prendere confidenza con lo strumento, ma era un ordine di grandezza inferiore rispetto a prima. In termini di vero progresso, la cosa interessante è che questi generatori hanno fatto progressi su due fronti per decenni. Un fronte è la dimensionalità. Vuoi essere in grado di generare oggetti ad alta dimensionalità, in senso generale. Per esempio, se vuoi generare un nome per un romano o un luogo in Inghilterra, si tratta di un problema a bassa dimensionalità. Qualcosa come 10-20 dimensioni, a seconda se conti il numero di lettere o di sillabe. Ma se vuoi generare un pezzo di testo di una pagina, stiamo parlando di qualcosa come qualche migliaio di dimensioni. Se vuoi generare un’immagine di mille per mille pixel, affronti una sfida a tre milioni di dimensioni a causa dei tre colori primari. È un aumento significativo. La prima iterazione di Stable Diffusion era limitata a 512 per 512 in termini di capacità. La stanno migliorando, ma questa alta dimensionalità rappresentava una sfida notevole. Lo stesso tipo di problema si presentava con il testo. La dimensionalità si sviluppa in due direzioni. C’è la quantità di testo che puoi usare come prompt di input, che può variare da una singola riga a più paragrafi, o addirittura pagine. Poi c’è la questione di quanto lontano puoi andare a livello testuale prima che il generatore perda qualsiasi coerenza con se stesso. Questi modelli sono limitati. Non possono generare un intero libro da inizio a fine con una conclusione coerente con l’inizio. Per la generazione di testo, una sfida è navigare queste alte dimensioni. Se generi una parola, devi solo mantenere la coerenza a livello locale. Se generi una frase, deve essere coerente su una scala più ampia, e così via. Se si tratta di un libro, stai trattando con forse milioni o decine di milioni di dimensioni astratte, che possono anche essere viste come gradi di libertà o la complessità dell’oggetto in esame. Lo stesso problema esisteva con le immagini. Un percorso di progresso consiste nel passare a dimensioni più elevate mantenendo la coerenza. Se dividi l’oggetto, è più facile generare due immagini più piccole piuttosto che una più grande e coerente.
Conor Doherty: Quindi, quando parli di queste dimensioni maggiori, intendi che il generatore dovrebbe mantenere la coerenza?
Joannes Vermorel: Sì, esattamente. L’obiettivo è mantenere l’intreccio e la coerenza nell’oggetto generato, indipendentemente dalla sua dimensione o complessità. Un altro percorso di progresso è l’universalità. Stai parlando di un generatore specifico per un problema ristretto, o di un generatore in grado di affrontare qualsiasi cosa? Negli ultimi cinque anni, la comunità del deep learning ha fatto enormi progressi nel sfruttare set di dati giganteschi. Se si tratta di testo, copre tutto - Wikipedia, forum web o qualsiasi altra fonte di testo. Così, il generatore, se adeguatamente guidato, può produrre qualsiasi cosa, dalla poesia al gergo legale, al codice o persino consigli sul genoma. Lo stesso vale per le immagini. Abbiamo generatori capaci di creare qualsiasi cosa, dall’art digitale in pixel a viste fotorealistiche o addirittura dipinti ad olio. Si tratta di coprire una gamma di sofisticazione e stile.
Conor Doherty: Quando parli della dimensionalità di queste applicazioni, quanto sono comparabili i risultati? Ad esempio, con ChatGPT, quanto è comparabile un saggio generato da ChatGPT rispetto a quello prodotto da una persona mediamente istruita, diciamo, a livello universitario? Si tratta di livelli di sofisticazione comparabili? Siamo arrivati a quel punto?
Joannes Vermorel: In termini di sofisticazione, è una domanda difficile. Dovremmo definire e chiarire cosa intendiamo per sofisticazione.
Conor Doherty: In realtà, posso intervenire. Diciamo che usiamo il test di Turing, in modo tale che non si riesca a determinare se sia stato generato da ChatGPT o da uno studente in aula.
Joannes Vermorel: Dipende, perché questi modelli, in particolare il generatore di testo, funzionano mescolando enormi quantità di corpus. Alcune persone hanno condotto dei test, e in larga misura, ciò che ChatGPT scrive è letteralmente un copia-incolla di materiale che si trova da qualche parte sul web. La potenza del modello risiede nella sua capacità di incollare insieme questi pezzi in modo che siano grammaticalmente e sintatticamente corretti. Ma si tratta sostanzialmente di identificare modelli statistici di alto livello che esistono tra parole, gruppi di parole e frasi per trovare elementi che si incastrano in modi statisticamente probabili o credibili. Suona come se fosse umano? Molto, sì. Ma la realtà è che ampie parti di ciò che genera possono essere trovate sul web, prelevate da vari siti. Tuttavia, la svolta consiste nel saper fare questo, cosa che era incredibilmente difficile. Non si tratta solo di tagliare e incollare frasi. Si tratta di comprendere le dipendenze statistiche di alto livello in modo tale che possano essere fuse insieme in maniera credibile. Eppure, quando si tratta di buon senso, come ha commentato il responsabile AI di Facebook, nessuno di questi generatori possiede il buon senso di un gatto. Questo è il livello di comprensione con cui abbiamo a che fare. Sono puramente relazioni statistiche. Per esempio, poni una domanda di base come “How can I avoid the traffic jam in the middle of the Atlantic Ocean?” e potrebbe suggerirti di prendere una rotta migliore con un GPS più recente, perdendo completamente il lato umoristico della domanda. Si tratta di incollare pezzi di testo insieme basandosi su relazioni statistiche di alto livello.
Conor Doherty: Credo che i ricercatori di Amazon abbiano sottoposto ChatGPT a una serie di test sul QI e scoperto che si aggirava attorno a una deviazione standard al di sotto della norma, circa 83. Questo sembra coerente con ciò che stai dicendo, semplicemente incollando insieme pezzi di informazioni che appaiono pertinenti.
Joannes Vermorel: Ma penso che tu stia perdendo il punto. Anche un essere umano incredibilmente poco intelligente, qualcuno che non è privo di cervello, è comunque molto più intelligente di un gatto. Eppure, quanto è stato ipotizzato – e io tendo ad essere d’accordo – è che non siamo nemmeno vicini a qualcosa di intelligente come un gatto. Siamo ancora molto lontani. Potresti dire: “Oh, ma il mio gatto è completamente incapace di dirmi qualcosa, diciamo, sulla Teoria della Relatività.” Eppure, ChatGPT è in grado di fare un ragionevole lavoro nel fornirmi un paio di paragrafi introduttivi. Questo perché ChatGPT letteralmente taglia e incolla una bella sintesi di questa teoria da migliaia di istanze che si possono trovare sul web, le mescola insieme e rigurgita. Tuttavia, ciò non significa che capisca qualcosa. Anche un gatto, per esempio, capirebbe che se c’è qualcosa… Usiamo un esempio con GPT. Se chiedi al tuo GPT qualcosa del tipo, “Tre auto hanno bisogno di due ore per passare dalla città di Parigi alla città di Tours. Se hai sei auto, quanto tempo ci vuole?” GPT ti direbbe, “Beh, sei auto sono il doppio di tre, quindi ci vorranno circa quattro ore.” Ancora, se pensi a un gatto, e il gatto pensa, “Se ho un amico, voglio andare da lui,” impiegherà lo stesso tempo indipendentemente dal fatto che ci sia me o il mio gatto amico. Pur non esprimendosi in maniera così elaborata, c’è una certa comprensione di quelle basi fondamentali riguardo al nostro universo tridimensionale, al fluire del tempo e così via. Ancora, GPT è incredibilmente impressionante nella sua capacità, e lo stesso vale per Stable Diffusion. Però si nota una comprensione incredibilmente superficiale, perché tutto ciò che questi modelli fanno è una miscelazione ad alta dimensione dei dati in ingresso. Forse questo è sufficiente. Forse, continuando su questa strada con modelli ancora più elaborati, non c’è altro nell’intelligenza che accumulare queste ricette su scala più ampia. Ma sospetto che la situazione sia più complicata di così. Sospetto che quei ricercatori consapevoli abbiano molte ricerche che dimostrano ancora una volta che tutta la storia dell’intelligenza artificiale serve a chiarire ciò che l’intelligenza non è. E questo è stato come un viaggio, un percorso che abbiamo intrapreso negli ultimi 70 anni circa.
Conor Doherty: Beh, credo che tu abbia detto in precedenza che l’attuale iterazione di ChatGPT e Stable Diffusion, o semplicemente l’IA generativa, è di un ordine di grandezza migliore rispetto alle iterazioni precedenti. Sì. Quanto migliore dovrebbe essere la quarta iterazione di ChatGPT per colmare il divario che hai appena descritto?
Joannes Vermorel: Davvero non lo sappiamo, perché ecco il punto. Ogni volta che si verifica una sorta di svolta, e credo che qui la vera svolta sia stata il deep learning, non queste applicazioni del deep learning, il deep learning è stata la svolta intorno al 2011-2012. Quella è stata la vera svolta matematica e concettuale. Queste sono applicazioni e intuizioni molto elaborate acquisite nell’ultimo decennio. Ma ancora non sappiamo davvero cosa ci manca. È ancora una domanda molto aperta e non dovresti considerarla come una progressione lineare. Questo è il problema dell’intelligenza: non sappiamo cosa ci manca. Una volta che stabiliamo un nuovo tipo di tecnica, ci permette persino di riconsiderare cosa significhi l’intelligenza in primo luogo. Se torniamo indietro di un secolo e chiedessi, “Come puoi stabilire che una persona possiede un’intelligenza superiore?” se interroghi dei professori in ambito accademico, potrebbero rispondere qualcosa come, “Beh, se questa persona sa invertire una matrice o calcolare le prime 20 cifre di pi, ha un’intelligenza superiore.” Oggi, la gente direbbe che anche una calcolatrice tascabile è in grado di farlo. È un compito completamente meccanico. Non c’è alcuna intelligenza nel riuscire a calcolare le prime 20 cifre di pi. Esistono ricette semplici che chiamiamo algoritmi. Puoi eseguirli con un computer e ottenere migliaia di cifre. Questo non ti rende intelligente in alcun modo. Questa era la situazione di un secolo fa, quando ciò che veniva considerato la vera espressione dell’intelligenza umana si rivelava essere la parte facile della meccanizzazione. Oggi, i computer sono letteralmente 10 ordini di grandezza, o addirittura 15, migliori degli umani nell’eseguire questi calcoli, ma non sono intelligenti affatto. Almeno, questo è il consenso generale adesso. Quello che abbiamo scoperto con questa generazione di IA, con il deep learning, è che ci sono molti compiti che in apparenza sembrano incredibilmente difficili o impegnativi, ma che potrebbero non riflettere l’intelligenza in maniera significativa. Ad esempio, ChatGPT spiega più di cosa l’intelligenza non sia rispetto a ciò che realmente è. Quello che afferma è che la quantità di conoscenza latente nella lingua inglese e in tutte le lingue umane è enorme. Quando parliamo di “conoscenza latente”, intendiamo che, diciamo, esiste questa entità astratta che rappresenta il totale della conoscenza umana. Ci sono database, per esempio, che i chimici hanno raccolto nell’ultimo secolo. Questi database descrivono le proprietà di ogni singolo composto chimico. Così, hai un intero database che elenca la resistività di ogni materiale conosciuto sulla Terra, o il punto di fusione di ogni materiale sulla Terra. Abbiamo mappe che raccolgono la conoscenza in altre forme. Esiste anche una sorta di conoscenza latente nella lingua stessa. Le parole che usiamo riflettono una vasta comprensione che abbiamo dell’universo. Se diciamo che ci sono stelle e pianeti, e che i pianeti orbitano attorno alle stelle, significa che abbiamo già compreso molto dell’universo. Ad esempio, gli antichi Greci avevano una visione diversa di cosa fossero stelle e pianeti. Postulare che il sole sia una stella, come tutte le altre, è ora accettato ed è parte del vocabolario. Questa è parte della conoscenza latente. Se guardassi semplicemente le definizioni date in un dizionario, apprenderesti molto su ciò che le scienze moderne hanno da insegnare. Le stesse parole ti raccontano lo stato del sapere. Al contrario, a volte l’assenza di una parola impedisce che una certa conoscenza esista addirittura. Un esempio particolare di questa situazione è il libro “Antifragile” di Nassim Taleb. Il presupposto fondamentale del libro era definire l’opposto reale di fragile. Fragile, secondo la sua definizione, è qualcosa che peggiora quando è soggetto al caos e al disordine. Egli sosteneva che essere duraturi, resistenti o robusti non renda esattamente qualcosa l’opposto di fragile. Tali caratteristiche significano semplicemente che, sotto il caos e il disordine, quella cosa si deteriora o degrada a un ritmo più lento. Taleb si interrogava su quale potesse essere il vero opposto, qualcosa che, sottoposto al caos e al disordine, migliorasse. Questa prospettiva astratta lo ha portato a coniare il termine “anti-fragile”, creando un’intera nuova visione su come osservare gli ecosistemi, le società umane e molte altre realtà. Introducendo questa parola, ha arricchito la nostra conoscenza, sebbene ciò possa essere difficile da afferrare, dato che il modo in cui comunichiamo la conoscenza è proprio attraverso il linguaggio.
Conor Doherty: Questo ci riporta al mio punto di partenza. L’ingegnosità di ChatGPT dimostra che esiste un’enorme quantità di conoscenza latente nella lingua stessa. Ciò spiega, per esempio, perché un politico può offrirti dieci parole d’ordine del giorno che corrispondono alle cause che intendi difendere. Possono elaborare un intero discorso basato su ciò e apparire come se stessero dicendo qualcosa di intelligente, pur fornendo assolutamente nessuna sostanza.
Joannes Vermorel: Curiosamente, questo è ciò che fa ChatGPT. Quando fornisci allo strumento un prompt, tende a mettere insieme ogni sorta di idee ampiamente accettate che si allineano al buon senso o alla prospettiva dominante consolidata. Immagina se avessi qualcuno che rispondesse alle tue domande usando solo proverbi. ChatGPT lo fa, ma meglio, assemblando banalità da letteralmente ogni ambito. È impressionante perché di solito non sei nemmeno a conoscenza di quello che sarebbe una banalità in un settore di cui non sai nulla. Questa è la bellezza di addestrare un generatore su un dataset supermassiccio che include milioni di pagine di testo provenienti da campi estremamente diversificati.
Conor Doherty: Quando si tratta di applicare tutto questo, secondo te o a tuo avviso, esistono applicazioni utili dell’IA generativa in ambito, per esempio, enterprise o supply chain?
Joannes Vermorel: Enterprise è un campo molto ampio, quindi mi concentrerò sulla supply chain. Per la supply chain, direi che molto probabilmente no, almeno non direttamente. Però è incredibilmente difficile prevedere il futuro. La ragione per cui sono incline a pensare che questa ondata di generatori non avrà un impatto massiccio sulla supply chain è che il punto di forza di questi generatori è attingere a un enorme bacino di conoscenza ambientale, che è sostanzialmente il web, con tutte quelle immagini e tag accessibili gratuitamente. Ma quando si tratta dell’ottimizzazione di una supply chain, i dati più rilevanti sono la tua storia transazionale. Se stai vendendo, diciamo, telai per porte, non ti è molto utile nella pianificazione della supply chain conoscere tante informazioni generali sui telai per porte. La tua storia di vendita dei telai per porte dell’anno scorso ti dice molto di più su cosa esattamente dovresti ordinare, produrre e come allocare lo stock. Quindi, i dati più rilevanti non sono esattamente condivisi apertamente con il mondo. Essi esistono nel silos della tua azienda. Le aziende, a differenza di ChatGPT, sono penalizzate dal fatto che questi strumenti funzionano meglio quando si discute di argomenti per cui molto materiale è pubblicamente disponibile online. Se tratti argomenti che non sono ampiamente pubblicati online, ChatGPT diventa rapidamente inesperto in merito. Molto concretamente, direi che, se pensi ai metodi che potrebbero essere usati per eseguire qualsiasi tipo di ottimizzazione, non sono troppo sicuro, semplicemente perché gli input necessari non sono presenti. Tuttavia, questi strumenti potrebbero potenzialmente diventare fondamentali per supportare il tuo sviluppo. Ad esempio, ChatGPT è in realtà piuttosto abile nell’aiutarti a generare snippet di codice. Per la programmazione, dato che si tratta di un linguaggio generico, ossia una sequenza di caratteri, ChatGPT può generare tag, ma anche codice. Visto che esiste una quantità gigantesca di codice disponibile online, per lo più su GitHub ma anche in molti altri luoghi, sono presenti immense codebase su cui ChatGPT può essere addestrato. Così, ChatGPT è effettivamente capace di comporre snippet di codice o programmi abbastanza decenti. Come strumento di produttività per i programmatori, c’è molto potenziale. Però, attenzione, il codice che ChatGPT genera può essere tanto infido quanto quello scritto dagli umani. Non lo userei senza un’attenta supervisione se volessi ingegnerizzare la prossima generazione di pilota automatico per un aereo o un’auto. Inoltre, sospetto che il tipo di tecnologia che uscirà riguarderà ad esempio i verbali delle riunioni. In questo momento, non sono troppo sicuro che ChatGPT sia in grado di riassumere una discussione di due ore in qualcosa come due pagine, mantenendo il massimo dei dettagli su ciò che è stato detto. Ma strumenti simili, sono abbastanza certo che entro il prossimo decennio, saranno in grado di farlo. Quindi, per la supply chain, ci saranno molti benefici. Tuttavia, sospetto che la maggior parte di essi sarà ai margini, in maniera periferica, per esempio nel facilitare riunioni, nel prendere appunti o in sistemi migliori per il controllo dei documenti. Ma i problemi e le sfide principali risiedono nei dati, e quei generatori non gestiscono i dati così come si presentano nelle supply chain.
Conor Doherty: Non esistono altri programmi progettati specificamente per la programmazione? Voglio dire, ChatGPT è un’IA generativa basata su testo, ma esiste GitHub copilot, progettato per assistere nella programmazione, e riesce a produrre codice abbastanza decente da solo, giusto?
Joannes Vermorel: No, quei modelli sono quasi identici, quasi intercambiabili. La tecnologia che li sostiene è incredibilmente simile. Usano la stessa architettura Transformer. Le uniche differenze sono leggere variazioni nel corpus e nell’esperienza utente. GitHub copilot mira a fornire un completamento automatico ad ogni battitura, mentre ChatGPT è più orientato al dialogo. Ma le differenze sono in realtà solo un sottile strato di vernice in superficie. Sotto, sono gli stessi. Sospetto che il miglior strumento per il completamento del codice sarà costruito su un corpus più ampio rispetto al solo codice. Questo viene illustrato da un recente articolo pubblicato da un team di Amazon. Hanno presentato un generatore promettente che combina sia dati visivi che testuali, unificandoli essenzialmente. Affermano addirittura di superare ChatGPT su alcuni benchmark, con risultati comparabili sulla maggior parte degli altri parametri. Tuttavia, prendi questo con le dovute cautele, poiché determinare un buon generatore è un problema complesso quanto la costruzione stessa del generatore. Ciò che è interessante, però, è che il loro modello è efficace quanto ChatGPT, ma con un miliardo di parametri, mentre ChatGPT ne ha quasi 100 volte di più. Questo suggerisce che, mescolando dati di tipo più diversificato, si può ottenere un modello più potente e semplice, il che è paradossale. Ad esempio, il modello di ChatGPT è gigantesco, con una gamma di parametri nell’ordine dei trilioni. Ma non è chiaro se un modello così enorme sia necessario. Infatti, una delle innovazioni di Stable Diffusion, rispetto ad altri modelli, è stata quella di un modello che è due ordini di grandezza più veloce e snello rispetto al Generative Adversarial Network che ha sostituito. Stable Diffusion ha solo circa un miliardo di parametri, rendendolo molto piccolo rispetto a ChatGPT. Ma un team ha recentemente affermato di aver riprodotto le prestazioni di ChatGPT con un modello molto più piccolo, grosso modo della dimensione di un miliardo di parametri. Questo è interessante perché è più o meno della stessa dimensione di quella che può essere gestita da una scheda grafica comunemente trovata in notebook e workstation al giorno d’oggi.
Conor Doherty: Beh, questo ci riporta indietro al cerchio completo di ciò che ho detto all’inizio o nell’introduzione: è un netto positivo o un netto negativo? Ora, nel contesto specifico dell’enterprise o, in modo ancora più dettagliato, della supply chain, vedi questa IA generativa come una distrazione, un vantaggio o una maledizione?
Joannes Vermorel: Come linea di pensiero generale, la mia opinione è che ogni progresso in termini di scienza e tecnologia sia positivo. Non condivido quella prospettiva lovecraftiana, sai, quella in cui esistono verità così profonde e misteriose nell’universo, così brutali e ostili alla mente umana, che scoprirle ti porta alla pazzia. La mia visione non è lovecraftiana. Credo che, in generale, si tratti di una cosa buona. È sicuramente meglio dell’ignoranza. Ora, come per ogni strumento fin dall’Età della Pietra, il primo martello poteva essere progettato per cacciare un animale o per uccidere i propri simili. Quindi, questo è da sempre il problema della tecnologia, che può essere mal utilizzata. È stato un problema per migliaia di anni. Anche questo tipo di tecnologia può essere abusato. I probabili abusi nel campo del software enterprise per la supply chain saranno un aumento della confusione a causa del rumore. I fornitori stanno già promuovendo l’AI come se impazzissero, e ora saranno persino in grado di portare la cosa a un livello superiore, facendo fare al loro dipartimento marketing un giro continuo di casi di studio falsi. In passato, creare un caso di studio falso richiedeva un certo impegno. Eppure, potevi farselo completamente falso perché nessuno avrebbe mai verificato le tue affermazioni. La maggior parte delle tue affermazioni è impossibile da verificare. E, come ho descritto nella mia conferenza, nessuno in un caso di studio ha alcun incentivo a dire che tutti i milioni che affermi di aver risparmiato, guadagnato o generato siano falsi. Tutti coloro che partecipano a un caso di studio hanno un enorme incentivo a dire: “Sì, tutto, tutti quei benefici sono reali, ed è tutto merito mio, almeno in parte, se riusciamo a ottenere tutto ciò.” Quindi, la mia opinione è che la situazione diventerà ancora più confusa, perché questi team impazziranno e genereranno ancora più casi di studio e affermazioni fasulle e pagine vuote che descrivono la tecnologia. Ho passato del tempo sui siti web di molti concorrenti di Lokad. La cosa interessante è che puoi avere intere pagine di testo che leggi e, alla fine, non impari nulla di concreto su ciò che stanno realmente facendo.
Conor Doherty: Sciocchezze, è questo quello che stiamo dicendo?
Joannes Vermorel: Sì, esattamente. Sono sempre un po’ perplesso quando mi imbatto in una documentazione di 10 pagine sull’AI per la supply chain e, alla fine, non riesco a dire cos’è, cosa fa, perché è stata progettata in quel modo o quali intuizioni la guidino. È piuttosto sconcertante. Sospetto che in passato i team di marketing impiegassero giorni per preparare queste descrizioni gonfie. Ora, usando l’AI generativa, come ChatGPT, una descrizione di dieci pagine può essere creata all’istante. Quindi, se metti in dubbio la validità di contenuti che affermano di applicare l’AI alle ottimizzazioni della supply chain, direi che sono per lo più sospetti. Non perché l’AI sia una fandonia, ma perché in questo contesto viene rappresentata in modo fuorviante. Quando si parla di AI generativa, vengono usati termini specifici, come stable diffusion, Transformer architecture e generative network. Queste tecniche hanno dei nomi. I professionisti in questo campo non dicono semplicemente “sto facendo AI”. Sono più precisi. Hanno bisogno di questi termini per descrivere il loro lavoro. Questa precisione si sviluppa come parte di un processo emergente all’interno della comunità. Le persone che non si preoccupano di descrivere la loro tecnologia in dettaglio spesso ricorrono a termini vaghi. Prendiamo un esempio semplice: se vuoi comprare una finestra per la tua casa, il venditore specificherà il materiale del telaio, il numero di strati di vetro e così via. Se un venditore si limita a dire “Vendo finestre, fidati, sono buone” senza alcuna specifica, è discutibile. Se qualcuno non è in grado di fornirti specifiche tecniche e invece usa parole d’ordine come “sostenibile”, non chiarisce nulla; anzi, aggiunge solo ulteriori enigmi. Questo è analogo a ciò che accade con l’AI e ChatGPT. Questi strumenti potrebbero generare materiali di marketing confusi e dare ai fornitori la possibilità di inserirli nel loro tech stack senza creare nulla di sostanziale. È abbastanza facile integrare questi strumenti in un’architettura software esistente, ma sarà solo un gadget se la tua architettura software non è stata progettata per massimizzare le potenzialità della tecnologia. È sempre relativamente semplice attaccare un altro pezzo con del nastro adesivo a un software, ma ciò non significa che farà la differenza o che sarà utile. Quindi, credo che questa situazione genererà ulteriore confusione. Darà un’ulteriore opportunità ai fornitori di inserire qualche algoritmo di valore reale, ma in modi che risultano privi di senso. Alla fine, questo non aggiunge alcun valore alla soluzione, il che è un altro problema. Abbiamo già assistito a diverse iterazioni di ciò, con la ricerca operativa 50 anni fa, poi il Data Mining, e successivamente la data science. Ora ci saranno quelle iterazioni dell’AI cognitiva. Tuttavia, il punto è che, se vuoi sfruttare al massimo questa tecnologia come software enterprise, non può essere semplicemente un componente aggiuntivo. Deve essere integrata nel livello di design del tuo prodotto. È un design fondamentale che non puoi cambiare in seguito. Il problema con il design fondamentale dei prodotti è che è qualcosa che puoi fare solo all’inizio. Non puoi semplicemente aggiungerlo con del nastro adesivo dopo.
Conor Doherty: Puoi fare un esempio del livello di design fondamentale di cui stai parlando?
Joannes Vermorel: Se hai un sistema in cui al centro c’è un database transazionale progettato per garantire l’integrità delle transazioni, è eccellente. Ma quel design non farà nulla per sfruttare un generatore di immagini o testi. È completamente in contrasto con la prospettiva transazionale. Stai gestendo transazioni, mentre avere uno strumento che possa generare testo o immagini non appartiene nemmeno allo stesso ambito. Quello che intendo dire è che avere qualcosa che si integri non è scontato. Di solito richiede una cura approfondita nel design e nei principi guida della tua architettura, perché affinché le cose si adattano davvero. Altrimenti, operi su binari separati. Nell’ambito del software, ciò che fuorviante è che è sempre possibile avere un prodotto e poi aggiungere un componente che rimane ai margini. Però, quel componente non è integrato correttamente, non è connesso, e non c’è sinergia tra i due. Rimani con un pasticcio più complicato, con più parti mobili e più bug. Quindi, a parità di condizioni, consiglierei di non cercare di integrare questo nelle ottimizzazioni della supply chain. Ma se un fornitore si presenta con questa proposta, devi veramente approfondire ciò che sta facendo. Il mio consiglio finale per il pubblico è: assicurati, leggendo la pagina tecnologica di quel fornitore, che tutto abbia senso per te. Non devi essere un esperto. Se il fornitore non riesce a comunicare in modo comprensibile cosa sia la sua tecnologia, cosa faccia e quali tecniche utilizzi, è molto probabilmente un campanello d’allarme. Nella mia carriera non ho mai visto che una società capace di ottenere qualcosa di difficile lo nasconda. Al contrario, le aziende che riescono a raggiungere questo traguardo sono più che felici di mostrare al mondo i loro successi. A proposito, questo vale per tutti quei modelli – Stable Diffusion, ChatGPT, ecc. – che sono pubblici. Ne sono stati pubblicati articoli scientifici. Questi non sono segreti ben custoditi. Al contrario, le aziende che raggiungono questo livello di realizzazione tecnica spesso pubblicano documenti molto dettagliati su come ci sono riuscite. Questo è un comportamento molto tipico. Dal mio punto di vista, il consiglio fondamentale è che, pur avendo molto valore, l’AI è semplicemente una parola d’ordine. Puoi inserire quasi qualsiasi cosa sotto questo ombrello. Pertanto, ogni volta che un fornitore si presenta, è essenziale capire esattamente cosa faccia. Se la persona che ti vende non ha questa comprensione, e se il fornitore afferma di non saperne, dicendo “sono solo un venditore, tocca al team tecnico”, non fidarti. Se dicono cose del genere, significa che non c’è una tecnologia sostanziale dietro le loro affermazioni. È solo la solita storia.
Conor Doherty: Bene, a proposito, grazie, Joannes. Ho imparato parecchio. Grazie per il tuo tempo e grazie a tutti per aver guardato. Ci vediamo alla prossima.