Generative AI nella supply chain (ChatGPT e i pericoli del ciarlatanismo) - Ep 140

marzo 22, 2023

supply chain science and tech

00:00:01 Introduzione e discussione sull’IA generativa.
00:01:11 Esplorazione del problema generativo e delle sue soluzioni.
00:02:07 Discussione sull’evoluzione e il progresso dell’IA generativa.
00:03:02 Punti di svolta nell’apprendimento automatico e accessibilità degli strumenti.
00:04:03 Discussione sugli strani comportamenti e risultati degli strumenti di intelligenza artificiale.
00:05:00 Popolarità e accessibilità dell’IA generativa.
00:06:33 Generazione di immagini con Stable Diffusion, diventando accessibile.
00:07:37 Discussione sull’accessibilità degli strumenti di generazione.
00:08:43 Spiegazione della generazione di oggetti ad alta dimensionalità.
00:09:38 Sfide e miglioramenti nella capacità dimensionale.
00:10:07 Esplorazione della generazione di testo e dei suoi limiti.
00:11:15 Discussione sulla coerenza a diverse scale.
00:12:24 Passaggio all’argomento della specificità e versatilità del generatore.
00:13:46 Confronto tra l’output generato dall’IA e l’output umano.
00:14:59 Discussione sui modelli di apprendimento automatico e sulla generazione del linguaggio.
00:15:51 Esplorazione del metodo di taglia e incolla nell’IA.
00:16:30 Evidenziata la mancanza di buon senso dell’IA.
00:17:26 Menzione delle prestazioni del test di intelligenza di ChatGPT.
00:18:45 Discussione sulla comprensione dell’IA e su esempi.
00:19:47 Superficiale comprensione dell’IA e mescolamento ad alta dimensionalità.
00:20:41 Complessità dell’intelligenza artificiale e sua storia.
00:21:58 Gli elementi sconosciuti e la progressione dell’intelligenza artificiale.
00:22:25 Discussione sul cambiamento della percezione dell’intelligenza.
00:23:45 Approfondimenti sull’apprendimento profondo e sull’intelligenza artificiale.
00:24:24 Concetto di conoscenza latente nelle lingue umane.
00:25:59 Comprensione dell’universo nell’antichità e ai giorni nostri.
00:27:02 Introduzione al concetto di ‘anti-fragilità’ dal libro di Nasim Taleb
00:28:01 Anti-fragilità negli ecosistemi e nelle società umane
00:29:31 Critica alla capacità di ChatGPT di generare un discorso ‘intelligente’
00:31:05 Considerazione delle applicazioni dell’IA generativa nelle imprese.
00:31:37 Il potenziale ruolo dell’IA generativa nella gestione della supply chain.
00:33:34 Limitate capacità di ChatGPT nei domini con pochi dati.
00:35:00 Attenzione nell’utilizzo di codice generato dall’IA in sistemi critici.
00:36:04 Benefici dell’IA per la supply chain e attività periferiche.
00:37:37 Discussione sulla tendenza verso un corpus più ampio per il completamento del codice.
00:38:45 Confronto dei requisiti dei parametri: ChatGPT vs generatore più piccolo.
00:40:45 Implicazioni dell’IA generativa sulle imprese e sulla supply chain.
00:41:19 Discussione sulla visione di Lovecraft sulle profonde verità dell’universo.
00:42:01 Relazione tra l’abuso della tecnologia e il software della supply chain.
00:42:56 Preoccupazioni sulla creazione e verifica di casi studio falsi.
00:44:04 Critica alle vaghe affermazioni di marketing dei concorrenti di Lokad.
00:45:10 Discussione sulle limitazioni dei modelli di linguaggio dell’IA.
00:46:08 Spiegazione dei dettagli dell’IA nella tecnologia.
00:47:00 Importanza di una terminologia specifica nell’IA.
00:48:01 Analogia dell’acquisto di finestre per la comprensione dell’IA.
00:48:48 Discussione sui problemi di integrazione dell’architettura del software.
00:50:14 Importanza del design di base nel software aziendale.
00:50:54 Esempio di design di base in un database transazionale.
00:51:48 Necessità di un adeguato design e integrazione del software.
00:52:52 Consigli per valutare la tecnologia del fornitore.
00:53:36 Importanza della divulgazione dei successi nella tecnologia.
00:54:20 L’IA come buzzword e la selezione dei fornitori.
00:55:25 Conclusioni e fine dell’intervista.

Riassunto

In questa intervista, Joannes Vermorel, fondatore di Lokad, discute lo stato e l’impatto dell’IA generativa, concentrandosi in particolare sugli sviluppi come ChatGPT e Stable Diffusion. Vermorel spiega l’IA generativa e la sua storia, evidenziando i progressi incrementali compiuti nella generazione di immagini e testi. Menziona la natura user-friendly di strumenti recenti come Stable Diffusion e ChatGPT, che hanno migliorato i tassi di successo e l’accessibilità. Vermorel sottolinea le limitazioni dei modelli di IA attuali in termini di buon senso e vera intelligenza. Discute anche le sfide e il potenziale dell’IA nella gestione della supply chain e critica le affermazioni vaghe e fuorvianti fatte da alcune aziende sulle loro capacità di IA. Vermorel sottolinea l’importanza di comprendere la tecnologia sottostante e di essere cauti nella valutazione delle soluzioni di IA.

Riassunto Esteso

Nell’intervista tra l’host Conor Doherty e Joannes Vermorel, fondatore di Lokad, discutono lo stato attuale e l’impatto dell’IA generativa, concentrandosi in particolare sugli sviluppi come ChatGPT per il testo e Stable Diffusion per le immagini.

Vermorel inizia definendo l’IA generativa come una collezione di soluzioni proposte al problema generativo, che consiste nello sviluppare un algoritmo o un metodo per creare una o più istanze di una rappresentazione digitale di una collezione di oggetti. Menziona che questo tipo di problemi esiste da decenni e per applicazioni specifiche sono stati sviluppati generatori di successo. Ad esempio, i generatori sono stati utilizzati per creare nomi di luoghi che sembrano realistici in Inghilterra o titoli per un romanzo di Stephen King.

Allo stesso modo, nel campo della generazione di immagini, sono stati sviluppati generatori capaci di creare una mappa che sembra un ambiente de ‘Il Signore degli Anelli’, completo di montagne, foreste, coste e nomi fantastici. La progressione in questo campo, secondo Vermorel, è stata incrementale con l’obiettivo di rendere i generatori più ampi e sempre più dipendenti da set di dati di input, piuttosto che da un ampio insieme di regole pre-codificate.

Sottolineando due importanti traguardi raggiunti l’anno scorso dalla comunità più ampia di apprendimento automatico, Vermorel fa riferimento a ChatGPT per il testo e a Stable Diffusion per le immagini. Sebbene siano stati passi significativi avanti, rendendo questi strumenti più accessibili, insiste sul fatto che sono stati incrementali piuttosto che rivoluzionari, non rappresentando nuove scoperte in statistica, matematica o informatica.

Tuttavia, il fatto che questi strumenti fossero confezionati e rifiniti a sufficienza da consentire a persone comuni di iniziare a usarli in pochi minuti era sicuramente degno di nota. Questo si contrapponeva ai precedenti strumenti generativi che, sebbene capaci di generare immagini o testi impressionanti, spesso presentavano molte particolarità e richiedevano una certa competenza per essere utilizzati in modo efficace.

Stable Diffusion e ChatGPT si sono distinti per la loro facilità d’uso. Ad esempio, con Stable Diffusion, si poteva inserire un semplice prompt, come ‘bellissimo castello nel mezzo della foresta’, e ottenere un’immagine plausibile il 20% delle volte. Sebbene questo fosse lontano dalla perfezione, rappresentava un miglioramento significativo rispetto alle tecniche di generazione precedenti che avevano solo un tasso di successo dell'1%.

Questo ha segnato un miglioramento di un ordine di grandezza, un sentimento che viene ribadito quando Vermorel parla di ChatGPT. Come per Stable Diffusion, l’introduzione di ChatGPT ha segnato un passaggio verso strumenti più user-friendly e accessibili nel campo dell’IA generativa.

In questo segmento dell’intervista, Conor Doherty e Joannes Vermorel, fondatore di Lokad, discutono dell’evoluzione recente e dell’impatto dei modelli Generative Pre-trained Transformer (GPT). Vermorel sottolinea che il popolare modello ChatGPT non è fondamentalmente nuovo, ma piuttosto una versione riproposta e più accessibile di una tecnologia preesistente. Segna il 2022 come l’anno di svolta in cui l’IA generativa è diventata ampiamente disponibile al pubblico, in gran parte grazie ai miglioramenti dell’usabilità.

La conversazione si sposta poi su casi specifici in cui i modelli GPT hanno avuto un significativo impatto pubblico. Vermorel fa notare i rilasci dell’anno scorso, come Stable Diffusion e la terza iterazione di ChatGPT. L’attrattiva e il successo di questi modelli, spiega, risiedono nello sforzo compiuto dai team di ricerca per confezionare queste tecnologie in modo user-friendly.

Vermorel fornisce esempi di questa accessibilità. Sottolinea che Stable Diffusion, uno strumento per la generazione di immagini, è stato rilasciato come software open-source. Ciò ha permesso agli utenti con una minima esperienza in Python di configurare un ambiente di programmazione Python in circa due ore ed esplorare lo strumento in modo indipendente. Vermorel sottolinea che per utilizzare Stable Diffusion non è necessario essere un programmatore Python esperto; è sufficiente una comprensione di base dell’esecuzione della riga di comando.

Fa anche riferimento alla disponibilità di tutorial online e al lancio di un’interfaccia utente gratuita, Dream Studio, che consente agli utenti di generare fino a 100 immagini gratuitamente. Per batch successivi di immagini, gli utenti devono pagare una tariffa, un modello che si applica anche all’applicazione web di GPT.

Joannes Vermorel spiega inizialmente la complessità della creazione di un’immagine ad alta dimensionalità, citando ad esempio un’immagine di 1000x1000 pixel, che in sostanza equivale a tre milioni di dimensioni considerando i tre colori primari. Menziona inoltre che le prime iterazioni erano limitate a una capacità di 512x512, anche se sono in corso miglioramenti.

Allo stesso modo, viene affrontato il problema della generazione di testo. Vermorel spiega che la dimensionalità nella generazione di testo deriva da due direzioni. La prima riguarda la dimensione di input o prompt, che può variare da una riga a più paragrafi o addirittura pagine. La seconda riguarda fino a che punto la generazione può andare prima che il modello inizi a perdere coerenza.

Vermorel sottolinea i limiti dei modelli attuali, poiché non sono in grado di produrre un intero libro in modo coerente dall’inizio alla fine. Le sfide aumentano con la dimensione del testo: una singola parola richiede coerenza locale, una frase richiede coerenza su una scala più ampia, un paragrafo ancora più ampia e un libro potrebbe coinvolgere potenzialmente milioni o decine di milioni di dimensioni astratte.

La conversazione passa quindi a discutere dell’aspetto della “generosità” in questi modelli. Vermorel interpreta ciò come la capacità di un modello di affrontare problemi diversi o generare output diversi. Uno sviluppo interessante negli ultimi cinque anni, come afferma Vermorel, è la capacità della comunità del deep learning di sfruttare set di dati massicci.

Che si tratti di dati testuali provenienti da una varietà di fonti come Wikipedia, forum web o testi legali, i modelli di deep learning sono progrediti nella generazione di output diversi. Ora possono produrre qualsiasi cosa, dalla poesia al linguaggio legale, al codice o persino alle sequenze genomiche quando vengono correttamente sollecitati. Lo stesso vale per le immagini, dove gli output potrebbero variare dall’arte dei pixel a immagini fotorealistiche o diversi stili di pittura.

Conor Doherty chiede a Joannes Vermorel della sofisticazione dei modelli di intelligenza artificiale come ChatGPT rispetto agli esseri umani. Vermorel approfondisce il concetto di sofisticazione, spiegando che è complesso a causa della necessità di definire e chiarire il suo significato. In risposta a una possibile applicazione del test di Turing, afferma che lo stato attuale dei modelli di intelligenza artificiale dipende fortemente dalla combinazione di vaste quantità di dati, attingendo a un enorme corpus di testi.

In un certo senso, sostiene che ciò che ChatGPT produce è una sorta di processo avanzato di “taglia e incolla”, assemblando pezzi di testo trovati su Internet. Riconosce che il potere del modello risiede nella capacità di unire insieme questi pezzi in modo grammaticalmente e sintatticamente corretto, identificando modelli statistici di alto livello che esistono tra parole, frasi e frasi. Vermorel sottolinea che il testo risultante può sembrare simile a quello scritto da un essere umano, ma è principalmente una riproduzione di contenuti umani esistenti.

Tuttavia, Vermorel tempera la discussione sottolineando che questi modelli non possiedono il senso comune. Cita un esempio del responsabile dell’intelligenza artificiale di Facebook, che afferma che anche i modelli di intelligenza artificiale più avanzati mancano del senso comune di un gatto. Questo perché l’intelligenza artificiale opera fondamentalmente su relazioni statistiche e manca della comprensione intuitiva che deriva dal senso comune. Illustra questo punto con un umoristico scenario in cui un modello di intelligenza artificiale suggerisce un percorso GPS per evitare il traffico nel bel mezzo dell’Oceano Atlantico, senza cogliere l’assurdità della situazione.

Per illustrare ulteriormente i limiti dell’attuale intelligenza artificiale, Vermorel discute di un esperimento di ricerca di Amazon in cui ChatGPT è stato sottoposto a una serie di test di intelligenza. I risultati hanno posizionato il modello di intelligenza artificiale circa un deviazione standard al di sotto della norma, il che risuona con la sua prospettiva secondo cui l’intelligenza artificiale principalmente assembla informazioni senza la comprensione innata che gli esseri umani possiedono.

Tuttavia, sottolinea che anche una persona con capacità cognitive limitate è molto più intelligente di un gatto. Questo confronto serve a sottolineare che anche con tutte le sue impressionanti capacità, l’intelligenza artificiale è lontana dal raggiungere il livello di intelligenza di un gatto, figuriamoci di un essere umano. Vermorel ci ricorda che nonostante la nostra percezione delle limitazioni cognitive di un gatto, siamo ancora lontani dal creare un modello di intelligenza artificiale con un’intelligenza comparabile.

Questa conversazione sottolinea la complessità della sofisticazione dell’intelligenza artificiale, il processo di generazione di testo dell’intelligenza artificiale e i limiti che l’intelligenza artificiale affronta attualmente in termini di senso comune e comprensione intrinseca. Fornisce una preziosa prospettiva sullo stato dell’intelligenza artificiale e sulle sue capacità attuali, temperando le aspettative per il suo futuro immediato.

Vermorel approfondisce l’idea che la comprensione del mondo da parte dell’intelligenza artificiale sia incredibilmente superficiale. Descrive i processi che questi modelli utilizzano come “mescolamento ad alta dimensionalità dei dati di input”. Considera anche la possibilità che con modelli più sofisticati, questo potrebbe essere sufficiente per raggiungere l’intelligenza, ma sospetta che l’intelligenza reale possa essere più complicata.

Secondo lui, il percorso dell’intelligenza artificiale è stato più incentrato sull’identificazione di ciò che l’intelligenza non è, piuttosto che sulla definizione di ciò che è. Questo processo di chiarificazione è in corso da circa 70 anni. Identifica la svolta del deep learning nel 2011-2012 come un punto di svolta significativo, che ha permesso una moltitudine di applicazioni che hanno portato a importanti intuizioni. Tuttavia, sottolinea l’incertezza nel campo. Ipotizza che la nostra comprensione dell’intelligenza potrebbe dover essere ridefinita ogni volta che viene sviluppata una nuova tecnica di intelligenza artificiale.

L’ospite poi interroga Vermorel sul miglioramento delle prestazioni dell’intelligenza artificiale attraverso diverse iterazioni, concentrandosi su ChatGPT. Vermorel concorda sul fatto che l’intelligenza artificiale generativa, inclusa ChatGPT, si sia notevolmente migliorata nel tempo, ma sottolinea la difficoltà di quantificare i miglioramenti necessari per colmare il divario esistente nella comprensione dei concetti da parte dell’intelligenza artificiale.

In risposta alla domanda di Doherty su quanto migliore dovrebbe essere la quarta iterazione di ChatGPT, Vermorel ammette sinceramente la mancanza di certezza. Sottolinea che il problema non è semplicemente una progressione lineare. Il problema fondamentale, afferma, risiede nel non sapere cosa ci manca nella nostra comprensione dell’intelligenza.

Come prospettiva storica, Vermorel osserva che un secolo fa l’intelligenza di un individuo poteva essere giudicata dalla sua capacità di svolgere compiti matematici complessi come l’inversione di una matrice. Tuttavia, la nostra comprensione e le nostre misure dell’intelligenza sono cambiate ed evolute significativamente da allora. Lo sviluppo dell’intelligenza artificiale, suggerisce, potrebbe subire trasformazioni simili mentre continuiamo a esplorare e mettere alla prova le nostre concezioni di intelligenza. Un secolo fa, capacità come l’inversione di matrici o il calcolo delle prime 20 cifre di pi greco erano considerate segni di intelligenza superiore. Oggi, tuttavia, questi compiti sono considerati meccanicistici, realizzabili con una semplice calcolatrice tascabile, mettendo così in discussione la loro associazione con l’intelligenza. Sottolinea che i computer, nonostante siano molto migliori degli esseri umani in questi compiti, non vengono considerati intelligenti.

La discussione di Vermorel si sposta sulle capacità e le implicazioni dell’intelligenza artificiale, concentrandosi in particolare sulla generazione tramite deep learning. Suggerisce che l’intelligenza artificiale abbia messo in luce molte attività che, apparentemente, sembrano incredibilmente sfidanti, ma potrebbero non riflettere l’intelligenza tanto quanto inizialmente pensato. Come esempio, considera le capacità di generazione di testo di ChatGPT. Piuttosto che dimostrare cosa sia l’intelligenza, Vermorel propone che riveli cosa non sia l’intelligenza. Vede ChatGPT più come un riflesso dell’enorme quantità di conoscenza latente all’interno del linguaggio umano che come una dimostrazione di vera intelligenza.

Approfondendo il concetto di conoscenza latente, Vermorel la descrive come il totale cumulativo della comprensione e della conoscenza umana, che è implicitamente rappresentato nel linguaggio. Questa conoscenza latente è spesso registrata in forme strutturate come database, mappe e altre, contenenti dettagli come le proprietà chimiche, la resistività dei materiali e i punti di fusione. Tuttavia, Vermorel afferma che il linguaggio incarna anche una parte significativa di questa conoscenza. Sostiene che le parole e le frasi che usiamo riflettono la nostra comprensione collettiva dell’universo. Ad esempio, dire che “i pianeti orbitano intorno alle stelle” presuppone una comprensione dei concetti astrofisici.

Questa conoscenza latente, suggerisce, è incorporata anche nelle forme più semplici di espressione linguistica, come le definizioni di un dizionario, che possono racchiudere gran parte della scienza moderna. Sostiene inoltre che l’assenza di determinate parole o concetti può impedire il riconoscimento di alcune forme di conoscenza. Per illustrare questo concetto, fa riferimento al libro “Anti-Fragile” di Nassim Taleb. Spiega il concetto di “anti-fragilità” - un termine coniato da Taleb per descrivere uno stato che non solo si oppone al caos e al disordine, ma prospera e migliora in tali condizioni. Questo si contrappone a qualcosa di “fragile”, che si degrada in presenza di disordine, o qualcosa di “durevole”, che semplicemente resiste al caos a un ritmo più lento. Vermorel trova questo concetto significativo poiché introduce una prospettiva nuova per comprendere vari sistemi, dalle ecologie alle società umane.

La loro discussione si estende alla relazione intrinseca tra linguaggio e conoscenza. Vermorel illustra come l’introduzione di un nuovo termine o concetto, come “anti-fragile”, possa arricchire notevolmente la comprensione, sebbene in modo difficile da comprendere a causa delle limitazioni del linguaggio. Sottolinea il ruolo del linguaggio nell’esprimere e comunicare la conoscenza.

Passando all’argomento dell’intelligenza artificiale, Vermorel discute del fenomeno della conoscenza latente presente nel linguaggio. Sottolinea che questa conoscenza latente svolge un ruolo cruciale in applicazioni come ChatGPT di OpenAI, un modello in grado di generare testo simile a quello umano. Vermorel descrive criticamente ChatGPT come un “generatore di banalità”, attribuendo la sua apparente intelligenza alla sua propensione a unire idee o modi di dire ampiamente accettati da vasti e diversi set di dati.

Nonostante le sue critiche, Vermorel riconosce l’impressionante capacità di ChatGPT di generare contenuti coerenti e contestualmente appropriati anche in domini in cui l’utente potrebbe non essere familiare. Questa caratteristica, suggerisce, è dovuta al fatto che ChatGPT è stato addestrato su un enorme set di dati comprendente milioni di pagine di testo provenienti da campi estremamente diversi.

Mentre la conversazione prosegue, si contemplano le applicazioni pratiche dell’intelligenza artificiale generativa come ChatGPT nel contesto dell’impresa e della gestione della catena di approvvigionamento. Secondo Vermorel, l’impatto dell’intelligenza artificiale generativa sulla gestione della catena di approvvigionamento è improbabile che sia significativo, almeno in senso diretto. Tuttavia, sottolinea anche la sfida di prevedere il futuro, implicando che l’ambito e il potenziale dell’intelligenza artificiale generativa potrebbero ancora evolversi e sorprenderci in futuro.

Vermorel afferma che nonostante la crescente importanza e le capacità delle tecnologie dell’intelligenza artificiale, potrebbero non avere un impatto sostanziale sull’ottimizzazione della catena di approvvigionamento. Motiva questa affermazione affermando che questi modelli si basano su ampie fonti di informazioni liberamente accessibili, come il web, dove analizzano immagini e tag di testo. Tuttavia, i dati critici per la gestione della catena di approvvigionamento - ad esempio la storia delle transazioni - sono specifici per ogni azienda e non vengono condivisi apertamente o facilmente accessibili. Pertanto, la forma attuale di questi strumenti di intelligenza artificiale potrebbe mancare delle informazioni necessarie per ottimizzare efficacemente i processi di catena di approvvigionamento.

Concentrandosi sull’esempio delle vendite di telai per porte, Vermorel spiega che i dati generici sui telai per porte sono meno utili per la pianificazione della catena di approvvigionamento rispetto alla storia delle vendite specifica dell’azienda. Sottolinea che questi dati, nascosti all’interno del silos dell’azienda, forniscono una previsione più accurata di cosa ordinare, produrre e tenere in magazzino. Sottolinea il fatto che le tecnologie dell’intelligenza artificiale come ChatGPT, che funzionano meglio con dati ampiamente disponibili, possono essere meno efficaci quando i dati rilevanti sono scarsi.

Tuttavia, Vermorel riconosce che i modelli di linguaggio dell’IA potrebbero essere preziosi per alcune attività. Ad esempio, ChatGPT può aiutare a generare frammenti di codice grazie alla grande quantità di codice liberamente disponibile online, principalmente su piattaforme come GitHub. Questa disponibilità consente all’IA di generare frammenti di codice o programmi decenti, fungendo da strumento di produttività per i programmatori. Tuttavia, avverte della necessità di una supervisione attenta poiché il codice generato dall’IA potrebbe anche essere difettoso.

Guardando al futuro, Vermorel ipotizza che i modelli di linguaggio dell’IA potrebbero aiutare in ambiti come la presa appunti, la correzione di bozze e i riassunti delle riunioni. Ad esempio, potrebbero essere in grado di comprimere una discussione di due ore in una sintesi di due pagine mantenendo i dettagli critici. Tuttavia, suggerisce che attualmente strumenti come ChatGPT potrebbero avere difficoltà con compiti del genere a causa delle loro limitazioni intrinseche. Tuttavia, crede che nella prossima decade le tecnologie dell’IA evolveranno per gestire in modo più efficace tali compiti.

Vermorel identifica i dati come la sfida principale, indicando che i modelli generativi dell’IA non trattano necessariamente bene le complessità intrinseche dei dati della catena di approvvigionamento. Doherty poi propone l’idea di GitHub Co-pilot, uno strumento progettato per assistere nella scrittura del codice che può persino produrre autonomamente del codice decente. Si chiede se questo non sia più adatto per il compito in questione.

Vermorel respinge questa idea, affermando che GitHub Co-pilot e ChatGPT-3 condividono tecnologie quasi identiche: entrambi utilizzano l’architettura Transformer. Le differenze risiedono nell’esperienza utente, con GitHub Co-pilot che fornisce il completamento automatico ad ogni pressione di un tasto, mentre ChatGPT-3 è più orientato al dialogo. Vermorel prevede che lo strumento migliore per il completamento del codice utilizzerà probabilmente un corpus più ampio rispetto al solo codice.

Proseguendo, Vermorel fa riferimento a un recente articolo di un team di Amazon. Esso discute di un generatore promettente che unisce dati di immagini e testo, affermando prestazioni comparabili e talvolta superiori a quelle di ChatGPT-3 ma con meno parametri (un miliardo rispetto ai cento miliardi di ChatGPT-3). Questa idea, afferma Vermorel, è intrigante perché suggerisce che la combinazione di tipi di dati più diversi può creare un modello più semplice ma più potente.

Vermorel evidenzia un’osservazione paradossale nello sviluppo dei modelli di intelligenza artificiale: modelli più grandi, come ChatGPT-3, non sono necessariamente migliori. Fa riferimento a Stable Diffusion, un modello significativamente più snello e veloce rispetto al suo predecessore, il Generative Adversarial Network, nonostante abbia solo circa un miliardo di parametri. Non è chiaro, afferma Vermorel, se modelli grandi come ChatGPT-3 (che rientrano nell’intervallo di trilioni di parametri) siano necessari.

Rafforzando questo punto, menziona nuovamente la ricerca del team di Amazon che afferma di aver riprodotto quasi le stesse prestazioni di ChatGPT-3 con un modello di un miliardo di parametri. Questa dimensione più piccola, spiega, consente il funzionamento su schede grafiche comuni presenti nei laptop e nelle workstation attuali. Ciò apre una porta per una maggiore accessibilità.

Tornando all’argomento iniziale, Doherty chiede se l’IA generativa porti impatti netti positivi o negativi specificamente per le imprese e, in particolare, per le catene di approvvigionamento.

Vermorel spiega che il progresso nella scienza e nella tecnologia è generalmente positivo, contraddicendo la prospettiva pessimistica di Lovecraft che credeva che ci fossero certe verità profonde o profonde nell’universo così brutali e ostili alle menti umane che, se scoperte, le farebbero impazzire.

Vermorel riconosce che qualsiasi strumento, fin dall’età della pietra, può essere usato o abusato. Nel contesto del software aziendale per la catena di approvvigionamento, teme un aumento della confusione a causa dell’abuso della tecnologia, in particolare dell’intelligenza artificiale. Secondo lui, i venditori stanno già esagerando con l’IA e potrebbe peggiorare con i loro reparti marketing che creano infiniti casi studio falsi. Ciò potrebbe portare a reclami ancora più fuorvianti e a casi studio non verificabili.

Vermorel spiega che in passato creare un caso studio falso richiedeva un certo sforzo, ma ora, grazie all’IA, è diventato semplicissimo. Sottolinea anche che i partecipanti a un caso studio non hanno alcun incentivo a dire che i benefici dichiarati dall’azienda sono falsi. Di solito confermano questi benefici e attribuiscono parte del successo a se stessi. Vermorel prevede che queste tecnologie renderanno la situazione ancora più complicata.

Mentre discute della strategia di marketing dei suoi concorrenti, Vermorel esprime la sua delusione per l’uso superficiale e poco informativo del termine “IA per la catena di approvvigionamento”. Critica la loro mancanza di trasparenza e come riescano a scrivere pagine lunghe piene di luoghi comuni, offrendo poche informazioni sostanziali sul loro prodotto. Questo rende difficile per lui capire la loro tecnologia, la sua funzione, il suo design o le intuizioni che la presiedono.

Vermorel sottolinea che le vere applicazioni di intelligenza artificiale nell’ottimizzazione della catena di approvvigionamento coinvolgono approcci altamente specializzati e tecnici. Queste applicazioni si basano su algoritmi o strutture specifiche come architetture Transformer, reti generative o approcci gerarchici. Esprime la necessità che le aziende siano precise e dettagliate sulle tecniche di intelligenza artificiale che utilizzano. Il suo argomento è che le affermazioni di semplicemente “fare IA” senza specifiche spesso sono fuorvianti o del tutto infondate.

Per illustrare il suo punto, Vermorel confronta la tecnologia dell’IA con l’acquisto di una finestra per una casa. Quando si acquista una finestra, l’acquirente si aspetta una descrizione dettagliata del prodotto: è fatta di legno, alluminio o plastica? È a singolo o doppio vetro? Allo stesso modo, quando si tratta di IA, Vermorel ritiene che le aziende dovrebbero offrire una spiegazione dettagliata delle tecniche di IA che utilizzano e di come queste tecniche beneficiano della catena di approvvigionamento. Afferma che le descrizioni generiche o vaghe possono essere equiparate alla vendita di “finestre generiche” senza alcuna specifica.

Vermorel estende questa analogia per criticare il termine “finestre sostenibili”. Sostiene che tali descrizioni vaghe aggiungono più confusione anziché fornire chiarezza. Nello stesso modo, critica le aziende che offrono “luce eccellente” in relazione alle loro finestre, suggerendo che sia equivalente alle affermazioni di IA che mancano di prove concrete o dettagli.

Inoltre, Vermorel prevede che l’uso di tecnologie di IA come GPT (Generative Pretrained Transformer) aumenterà la confusione nel settore. Sebbene questi strumenti possano generare materiale di marketing e essere integrati nelle pile tecnologiche esistenti con relativa facilità, potrebbero non contribuire in modo significativo alla funzione complessiva o all’ottimizzazione della catena di approvvigionamento se l’architettura del software non è stata progettata con queste capacità in mente.

Secondo lui, questo approccio è simile a mettere un pezzo aggiuntivo su una struttura esistente con del nastro adesivo - potrebbe non migliorare la struttura o avere senso nella sua applicazione. Vermorel vede un rischio nell’ulteriore abuso delle tecnologie di IA “vere”, poiché le aziende potrebbero integrare algoritmi preziosi nelle loro operazioni in modi senza senso, contribuendo alla confusione del settore anziché offrire progressi preziosi.

Vermorel critica la tendenza ad incorporare l’IA nell’ottimizzazione della catena di approvvigionamento in modi inefficaci e, in realtà, senza senso. Sottolinea che questi processi spesso non aggiungono alcun valore alle soluzioni che si suppone migliorino. Per sostenere il suo punto, Vermorel fa riferimento al modello storico di iterazioni nella ricerca operativa, nell’estrazione dei dati e nella scienza dei dati, implicando che le tendenze attuali, come l’IA cognitiva, potrebbero essere più o meno la stessa cosa.

Secondo Vermorel, se un’azienda vuole sfruttare al massimo l’IA come parte del suo software aziendale, l’integrazione dovrebbe avvenire a livello di progettazione. Si oppone fermamente all’“applicazione di nastro adesivo” dell’IA su un software esistente, sottolineando che il design fondamentale di un prodotto può essere stabilito solo all’inizio del suo sviluppo. Tentare di inserire l’IA in un prodotto dopo che è stato creato si rivela estremamente difficile e spesso controproducente.

Quando gli viene chiesto un esempio del livello di progettazione fondamentale a cui si riferisce, Vermorel parla dei database transazionali. Questi database, costruiti per garantire l’integrità transazionale, non sono progettati per sfruttare tecnologie come generatori di immagini o di testo. Secondo lui, questi diversi paradigmi sono quasi incompatibili e raggiungere una compatibilità tra di essi non è scontato. Richiede attente considerazioni di progettazione e un principio guida che garantisca la compatibilità all’interno dell’architettura del software.

Vermorel riconosce la possibilità di avere l’IA come un add-on che si trova a lato di un prodotto esistente, ma sostiene che questo tipo di disposizione raramente porta a una vera integrazione o sinergia. Al contrario, complica il software, introducendo più componenti in movimento e potenziali bug.

Il suo consiglio a coloro che stanno considerando l’integrazione dell’IA nell’ottimizzazione della catena di approvvigionamento è di interrogare a fondo i fornitori sulle loro offerte. Esorta i clienti a garantire che un fornitore possa spiegare chiaramente e sensatamente la propria tecnologia. Se un fornitore non è in grado di farlo, Vermorel suggerisce che potrebbe indicare un problema con il prodotto o la comprensione della propria tecnologia da parte del fornitore.

Vermorel conclude la sua parte della discussione sottolineando che i veri successi nella tecnologia dell’IA, come la creazione di modelli complessi, spesso vengono resi pubblici attraverso articoli di ricerca e altre pubblicazioni. Questa apertura è in parte dovuta al orgoglio che gli sviluppatori provano nel raggiungere qualcosa di difficile. Sottolinea che questi risultati non sono segreti ben custoditi, ma sono condivisi apertamente per il mondo intero, sottolineando ulteriormente l’importanza di comprendere la tecnologia sottostante.

Vermorel riconosce i notevoli progressi raggiunti da alcune aziende nel settore tecnologico. Sottolinea che le aziende che riescono a raggiungere determinati traguardi tecnici spesso pubblicano rapporti dettagliati per condividere come hanno ottenuto i loro successi. Vede questo come una tendenza comune all’interno del settore, che rafforza il fatto che è un segno di effettiva progressione tecnologica.

Successivamente, Vermorel assume una posizione critica sul ruolo e la percezione dell’IA nel mondo aziendale moderno. Caratterizza l’IA come una parola di moda che ha guadagnato notevole popolarità sul mercato. Nonostante l’ampio utilizzo del termine, sottolinea che il suo significato è così ampio e spesso vago che può comprendere praticamente qualsiasi cosa. Mette in guardia contro l’accettazione acritica delle affermazioni dei fornitori sulle loro capacità di IA, specialmente quando non sono in grado di fornire una descrizione precisa di ciò che offrono sotto l’etichetta di IA.

Vermorel consiglia vivamente che, quando si tratta di fornitori che affermano di offrire soluzioni di IA, bisogna esercitare diligenza per comprendere l’esatta natura delle loro offerte. Mette in guardia dal fidarsi di un fornitore il cui venditore ammette di non avere conoscenze sulla tecnologia che sta vendendo, attribuendola a un team tecnico separato. Vermorel considera questo un chiaro indicatore che l’azienda potrebbe non possedere le competenze tecnologiche che afferma di avere.

Approfondisce questo punto mettendo in guardia dal cadere nella retorica del “assumiamo premi Nobel, abbiamo degli Einstein”. Afferma che tali affermazioni sono di solito un diversivo progettato per convincere i potenziali clienti della loro competenza tecnica senza alcuna prova sostanziale. Più spesso che no, sostiene, queste situazioni implicano che non c’è nulla di veramente innovativo o tecnologicamente avanzato dietro le affermazioni - è solo più di quello che c’è già.

Concludendo questo segmento della conversazione, Doherty esprime la sua gratitudine a Vermorel per aver condiviso le sue opinioni, sottolineando quanto illuminante sia stata la discussione. Il segmento si conclude con Doherty ringraziando il pubblico per il loro tempo e attenzione, promettendo di tornare con altre conversazioni interessanti in futuro.

Trascrizione completa

Conor Doherty: L’IA generativa è ovunque in questi giorni, non solo nella catena di approvvigionamento. È un aspetto positivo o negativo? Qui per spiegarcelo è Joannes Vermorel. Benvenuto.

Joannes Vermorel: Ciao, Conor, è un piacere averti qui.

Conor Doherty: Quindi, se vuoi, mettiamo un po’ le cose in chiaro. Cos’è esattamente l’IA generativa? Qual è il suo scopo perché è ovunque in questi giorni?

Joannes Vermorel: Sì, l’IA generativa è essenzialmente un insieme, una collezione di soluzioni proposte al vecchio problema generativo. Il problema generativo si presenta quando si hanno collezioni di oggetti nella loro rappresentazione digitale e si vuole trovare un algoritmo, un metodo, una ricetta per generare un’altra istanza. Questo tipo di problemi si verificano da decenni. Per situazioni specifiche e limitate, sono stati creati molti generatori. Ad esempio, da decenni esiste un generatore che può creare il nome di una località che suona realistica in Inghilterra o un titolo che suona realistico per un romanzo di Stephen King. Se volevi creare immagini, c’erano generatori che creavano una mappa che assomigliava un po’ a Il Signore degli Anelli. Portava questa sorta di atmosfera fantasy medievale con piccole montagne, foreste, coste e nomi fantasy sparsi per la mappa. L’idea di avere un generatore è stata in circolazione da decenni. I progressi sono stati piuttosto incrementali, con l’obiettivo di rendere il generatore più ampio, sfruttando più insiemi di dati di input anziché un ampio insieme di regole pre-codificate. Ecco dove ci troviamo, decenni nel processo. L’anno scorso, la comunità di apprendimento automatico ha raggiunto due traguardi molto significativi con ChatGPT-3 per il testo e la diffusione stabile per le immagini. Tuttavia, questi sono stati traguardi in termini di accessibilità di questi strumenti, non necessariamente una svolta fondamentale nelle statistiche, nella matematica o nelle scienze informatiche. Sono stati i primi prodotti che sono stati confezionati e rifiniti abbastanza da consentire a un profano di iniziare in pochi minuti e giocarci. Sul fronte delle immagini, da oltre un decennio esistono reti generative avversariali che possono creare immagini molto belle. Ma questi strumenti avevano molti difetti. La diffusione stabile, d’altra parte, ha reso facile per gli utenti inserire un prompt, ad esempio “un bellissimo castello nel mezzo della foresta”, e ottenere un’immagine decente. Non perfetta, ma abbastanza decente.

Conor Doherty: Quindi, si tratta di un miglioramento di un ordine di grandezza nell’accessibilità e nell’usabilità di questi strumenti?

Joannes Vermorel: Esattamente, lo stesso vale per ChatGPT. A proposito, il tipo di GPT che è diventato popolare era in realtà un modello che era già in circolazione da un paio di anni. Era letteralmente qualcosa che era stato riproposto in un modo che lo rendeva molto più accessibile. Era una questione di usabilità. Il traguardo è stato raggiunto nel 2022 quando l’IA generativa è diventata ampiamente accessibile anziché essere oscura. Non è successo nulla di veramente fondamentale; è stata davvero una questione di pura usabilità.

Conor Doherty: Ricordo che crescendo c’erano esempi di quei siti web generativi, come quello per “darmi un nome dei Ramones”. Uso quell’esempio famoso. Credo che Childish Gambino, il musicista, abbia generato il suo nome attraverso un sito simile. Ma non ero familiare con le precedenti iterazioni di ChatGPT perché l’iterazione attuale è la terza. Quindi, cosa ha attirato l’attenzione del pubblico sui rilasci dell’anno scorso, come Stable Diffusion e la terza iterazione di ChatGPT? Ora sono ovunque.

Joannes Vermorel: Ciò che ha attirato l’attenzione del pubblico sono stati gli sforzi compiuti dai team di ricerca nel confezionamento della tecnologia. Stable Diffusion è stato rilasciato come open source. Se conoscevi un ambiente Python, anche se non sapevi molto di Python, potevi configurare un ambiente di programmazione in circa due ore. Potevi giocare con tutte le parti in movimento da solo. Non dovevi nemmeno essere un programmatore Python. Dovevi solo essere abbastanza fluente da eseguire una serie di comandi. C’erano vari tutorial. Stable Diffusion ha reso l’generazione di immagini accessibile se sapevi giocare con la riga di comando. È un po’ geek ma non esagerato. C’era persino un’interfaccia utente gratuita, Dream Studio, dove potevi giocare gratuitamente per le prime 100 immagini. Dopo di che, dovevi pagare circa dieci dollari per generare le successive 100 immagini. Open GPT era anche un’app web. Solo una piccola registrazione e oggi devi pagare circa 20 euro al mese per accedere. La cosa interessante è che in entrambi i casi, potevi accedere a un generatore in senso lato in una questione di, diciamo, un’ora. Hai bisogno di un po’ di esperienza per iniziare a prendere confidenza con lo strumento, ma era di ordini di grandezza inferiore rispetto a prima. In termini di vera progressione, la cosa interessante è che questi generatori si sono evoluti su due fronti per decenni. Un fronte è la dimensionalità. Vuoi essere in grado di generare oggetti ad alta dimensionalità in senso lato. Ad esempio, se vuoi generare un nome per un romano o una località in Inghilterra, è un problema piuttosto a bassa dimensionalità. Qualcosa come 10-20 dimensioni, a seconda che si conti il numero di lettere o sillabe. Ma se vuoi generare un pezzo di testo lungo una pagina, stiamo parlando di qualcosa come poche migliaia di dimensioni. Se vuoi generare un’immagine di mille per mille pixel, affronti una sfida di circa tre milioni di dimensioni a causa dei tre colori primari. È un aumento significativo. L’iterazione iniziale di Stable Division era limitata a 512 per 512 in termini di capacità. Lo stanno migliorando, ma questa alta dimensionalità era una sfida significativa. Lo stesso tipo di problema si è presentato con il testo. La dimensionalità si manifesta in due direzioni. C’è la quantità di testo che puoi usare come input, che può variare da una singola riga a più paragrafi, o persino pagine. Poi c’è la questione di quanto lontano puoi arrivare nel testo prima che il generatore perda coerenza con se stesso. Questi modelli sono limitati. Non possono generare un intero libro dall’inizio alla fine con una coerenza finale con l’inizio. Per la generazione di testo, una sfida è quella di navigare queste dimensioni superiori. Se generi una parola, devi solo essere coerente a livello locale. Se generi una frase, deve essere coerente su una scala più ampia, e così via. Se si tratta di un libro, stai affrontando forse milioni o decine di milioni di dimensioni astratte, che possono essere viste anche come gradi di libertà o complessità dell’oggetto che stai esaminando. Lo stesso problema esisteva con le immagini. Un’avena di progresso è muoversi verso dimensioni superiori mantenendo la coerenza. Se dividi la cosa, è più facile generare due immagini più piccole anziché una più grande e coerente.

Conor Doherty: Quindi quando parli di queste dimensioni più grandi, intendi che il generatore dovrebbe mantenere la coerenza?

Joannes Vermorel: Sì, esattamente. L’obiettivo è mantenere l’interconnessione e la coerenza nell’oggetto generato, indipendentemente dalla sua dimensione o complessità. Un’altra strada di progresso è l’universalità. Stai parlando di un generatore specifico per un problema ristretto, o è un generatore che può affrontare qualsiasi cosa? Negli ultimi cinque anni, la comunità del deep learning ha compiuto enormi progressi nel sfruttare enormi set di dati. Se si tratta di testo, copre tutto: Wikipedia, forum web o qualsiasi altra fonte di testo. Pertanto, il generatore, quando correttamente sollecitato, può produrre qualsiasi cosa, dalla poesia al linguaggio legale, al codice o persino consigli sul genoma. Lo stesso vale per le immagini. Abbiamo generatori capaci di creare qualsiasi cosa, dalle arti dei pixel alle vedute fotorealistiche o persino dipinti ad olio. Si tratta di coprire una gamma di sofisticazione e stile.

Conor Doherty: Quando parli della dimensionalità di queste applicazioni, quanto sono confrontabili gli output? Ad esempio, su ChatGPT, quanto è confrontabile un saggio generato tramite ChatGPT rispetto a quello generato da una persona mediamente istruita, diciamo, all’università? Sono livelli di sofisticazione confrontabili? Siamo arrivati a quel punto?

Joannes Vermorel: In termini di sofisticazione, è una domanda difficile. Dovremmo definire e chiarire cosa intendiamo per sofisticazione.

Conor Doherty: In realtà, posso intervenire qui. Diciamo che usiamo il test di Turing in modo tale che potresti non essere in grado di determinare se è stato generato da ChatGPT o da uno studente in una classe.

Joannes Vermorel: Dipende, perché questi modelli, specialmente il generatore di testo, funzionano mescolando insieme enormi quantità di corpus. Alcune persone hanno condotto test e, in larga misura, ciò che ChatGPT scrive è letteralmente un taglia e incolla di cose che si trovano da qualche parte sul web. La potenza del modello sta nella sua capacità di unire insieme queste parti in modo che siano grammaticalmente e sintatticamente corrette. Ma si tratta essenzialmente di identificare modelli statistici di alto livello che esistono tra le parole, i gruppi di parole e le frasi per trovare cose che si adattano insieme in modi statisticamente probabili o credibili. Sembra un essere umano? Molto, sì. Ma la realtà è che gran parte di ciò che genera può essere trovato sul web, preso da vari siti. Tuttavia, la svolta sta nel riuscire a fare questo, cosa incredibilmente difficile. Non si tratta solo di tagliare e incollare frasi. Si tratta di comprendere dipendenze statistiche di alto livello in modo che possano essere mescolate insieme in modi credibili. Tuttavia, quando si tratta di buon senso, come ha commentato il capo dell’IA di Facebook, nessuno di questi generatori possiede il buon senso di un gatto. Questo è il livello di comprensione con cui stiamo lavorando. Si tratta esclusivamente di relazioni statistiche. Ad esempio, chiedi una domanda di base come “Come posso evitare il traffico nel bel mezzo dell’Oceano Atlantico?” e potrebbe suggerire di ottenere un percorso migliore con un GPS più recente, perdendo completamente l’umorismo nella domanda. Si tratta di unire pezzi di testo in base a relazioni statistiche di alto livello.

Conor Doherty: Credo che i ricercatori di Amazon abbiano sottoposto ChatGPT a una serie di test di intelligenza e abbiano scoperto che era di circa un deviazione standard al di sotto della norma, intorno all'83. Questo sembra coerente con quello che stai dicendo qui, semplicemente unendo pezzi di informazioni che sembrano appartenere insieme.

Joannes Vermorel: Ma penso che tu stia perdendo il punto. Anche un essere umano incredibilmente poco intelligente, qualcuno che non è cerebroleso, è comunque molto più intelligente di un gatto. Eppure, quello che è stato ipotizzato, e tendo ad essere d’accordo, è che non siamo nemmeno lontanamente vicini a qualcosa di intelligente come un gatto. Siamo ancora molto lontani. Potresti dire: “Oh, ma il mio gatto è completamente incapace di dirmi qualcosa sulla, diciamo, Teoria della Relatività”. Eppure, ChatGPT è in grado di fare un buon lavoro nel darmi un paio di paragrafi di introduzione. Questo perché ChatGPT letteralmente taglia e incolla una bella sintesi di questa teoria dalle migliaia di istanze che si possono trovare sul web, le mescola insieme e le rigurgita. Tuttavia, questo non significa che capisca qualcosa. Anche un gatto, ad esempio, capirebbe che se c’è qualcosa… Prendiamo ad esempio GPT. Se chiedi al tuo GPT qualcosa del tipo: “Tre macchine impiegano due ore per guidare dalla città di Parigi alla città di Tours. Se hai sei macchine, quanto tempo ci vuole?” GPT ti direbbe: “Beh, sei macchine sono il doppio di tre, quindi ci vorranno circa quattro ore”. Di nuovo, se pensi a un gatto e il gatto pensa: “Se ho un amico, voglio andare laggiù”, ci vorrà lo stesso tempo che ci sia io o il mio amico gatto. Anche se il gatto non esprimerà le cose in modo così elaborato, c’è una certa comprensione di quelle cose molto basilari sul nostro universo tridimensionale, sul tempo che scorre, e così via. Di nuovo, GPT è incredibilmente impressionante nella sua capacità, e lo stesso vale per Stable Diffusion. Ma si può vedere che c’è questa sorta di comprensione incredibilmente superficiale perché tutto ciò che questi modelli stanno facendo è una mescolanza ad alta dimensione dei dati di input. Forse questo è sufficiente. Forse se continuiamo su questa strada con modelli ancora più elaborati, non c’è nient’altro nell’intelligenza se non accumulare questo tipo di ricette solo su una scala più grande. Ma sospetto che la situazione sia più complicata di così. Sospetto che quei ricercatori consapevoli abbiano molte ricerche che dimostrano ancora una volta che l’intera storia dell’intelligenza artificiale è quella di chiarire cosa non è l’intelligenza. Ed è stato come un viaggio, un viaggio che abbiamo intrapreso negli ultimi 70 anni circa.

Conor Doherty: Beh, penso che tu abbia detto prima che l’attuale iterazione di ChatGPT e Stable Diffusion, o semplicemente l’IA generativa, sia circa un ordine di grandezza migliore delle iterazioni precedenti. Sì. Quanto migliore dovrebbe essere la quarta iterazione di ChatGPT per colmare il divario che hai appena descritto?

Joannes Vermorel: Non lo sappiamo davvero perché è proprio questo il punto. Ogni volta che c’è una sorta di svolta, e credo che qui la vera svolta sia stata il deep learning, non queste applicazioni del deep learning. Il deep learning è stata la svolta intorno al 2011-2012. Quella è stata la vera svolta matematica e concettuale. Queste sono applicazioni e intuizioni molto elaborate che sono state acquisite nell’ultimo decennio. Ma ancora non sappiamo davvero cosa ci manca. È ancora una domanda molto aperta e non dovresti pensare a una progressione lineare. Questo è il problema dell’intelligenza: non sappiamo cosa ci manca. Una volta stabilita una nuova tecnica, ci permette anche di riconsiderare cosa significa l’intelligenza in primo luogo. Se torniamo indietro di un secolo nel passato e ti chiedessi: “Come puoi stabilire che una persona ha un’intelligenza superiore?” Se chiedessi ai professori dell’accademia, potrebbero dire qualcosa del tipo: “Beh, se questa persona può invertire una matrice o calcolare le prime 20 cifre di pi greco, ha un’intelligenza superiore.” Oggi le persone direbbero che una calcolatrice tascabile può farlo. È un compito completamente meccanico. Non c’è alcuna intelligenza nel saper calcolare le prime 20 cifre di pi greco. Abbiamo semplici ricette che chiamiamo algoritmi. Puoi eseguirli con un computer e ottenere migliaia di cifre. Non ti rende intelligente in alcun modo. Questa era la situazione un secolo fa, in cui ciò che veniva considerato come la vera riflessione dell’intelligenza umana si è rivelato la parte facile della meccanizzazione. Oggi i computer sono letteralmente 10 ordini di grandezza, o addirittura 15 ordini di grandezza, migliori degli esseri umani nel fare questi calcoli, ma non sono affatto intelligenti. Almeno, questo è il consenso generale ora. Quello che abbiamo scoperto con questa generazione di IA, con il deep learning, è che ci sono molte attività che a prima vista sembrano incredibilmente difficili o impegnative ma potrebbero non riflettere così tanto l’intelligenza. Ad esempio, ChatGPT dice di più su cosa non sia l’intelligenza rispetto a cosa sia effettivamente. Quello che dice è che la quantità di conoscenza latente nella lingua inglese e in tutte le lingue umane è enorme. Quando diciamo “conoscenza latente”, significa che, diciamo, abbiamo questa cosa astratta che è la somma totale della conoscenza umana. Ci sono database, ad esempio, che i chimici hanno raccolto nell’ultimo secolo. Questi database dettagliano le proprietà di ogni singolo composto chimico. Quindi, hai un intero database che elenca la resistività di ogni singolo materiale conosciuto sulla Terra, o il punto di fusione di ogni materiale sulla Terra. Abbiamo mappe che raccolgono la conoscenza in un’altra forma. C’è anche una sorta di conoscenza latente nella lingua stessa. Le parole che usiamo riflettono una grande comprensione che abbiamo dell’universo. Se diciamo che ci sono stelle e pianeti, e che i pianeti orbitano intorno alle stelle, significa che abbiamo già capito molto sull’universo. Ad esempio, gli antichi Greci avevano una comprensione diversa di cosa fossero le stelle e i pianeti. Postulare che il sole sia una stella, come tutte le altre stelle, è ora accettato e fa parte del vocabolario. Questo fa parte della conoscenza latente. Se dovessi solo guardare le definizioni date in un dizionario, impareresti molto su ciò che c’è da imparare dalle scienze moderne. Le parole stesse ti parlano dello stato della conoscenza. Al contrario, a volte l’assenza di una parola impedisce persino l’esistenza di una certa conoscenza. Un esempio peculiare di questa situazione sarebbe il libro “Antifragile” di Nassim Taleb. La premessa di base del libro era definire l’opposto effettivo di fragile. Fragile, nella sua definizione, è qualcosa che peggiorerà quando sottoposto al caos e al disordine. Ha sostenuto che essere durevole, duro o robusto non fa esattamente di qualcosa l’opposto di fragile. Queste caratteristiche significano solo che in presenza di caos e disordine, si deteriorerà o si degraderà a un ritmo più lento. Taleb si chiedeva qual era il vero opposto, qualcosa che quando sottoposto al caos e al disordine, migliorasse. Questa prospettiva astratta lo ha portato a coniare il termine ‘anti-fragile’, creando una prospettiva completamente nuova su come guardare agli ecosistemi, alle società umane e a molte altre cose. Introducendo questa sola parola, ha arricchito la nostra conoscenza, anche se potrebbe essere difficile da comprendere perché il modo in cui comunichiamo la conoscenza è attraverso il linguaggio stesso.

Conor Doherty: Questo ci riporta al mio punto di partenza. La brillantezza di ChatGPT dimostra che c’è una quantità enorme di conoscenza latente nella lingua stessa. Questo spiega, ad esempio, perché un politico può darti dieci parole chiave del giorno che corrispondono alle cause che vuoi difendere. Possono sviluppare un intero discorso basato su questo e sembrare come se stessero dicendo qualcosa di intelligente senza fornire assolutamente alcuna sostanza.

Joannes Vermorel: Interessante, è esattamente ciò che fa ChatGPT. Quando dai al tool un prompt, tende a mettere insieme tutte le idee ampiamente accettate che si allineano al buon senso o alla prospettiva dominante stabilita. Immagina se avessi qualcuno che rispondesse alle tue domande usando solo proverbi. ChatGPT fa proprio questo, ma meglio, unendo insieme luoghi comuni provenienti da ogni singolo dominio. È impressionante perché di solito non sei nemmeno familiare con ciò che sarebbe un luogo comune in un dominio di cui non sai nulla. Questa è la bellezza dell’addestramento di un generatore su un dataset super massiccio che include milioni di pagine di testo provenienti da campi estremamente diversi.

Conor Doherty: Quando si tratta di applicare tutto ciò, secondo te, ci sono delle applicazioni utili dell’IA generativa per, diciamo, l’azienda o la supply chain?

Joannes Vermorel: L’azienda è un campo molto ampio, quindi mi limiterò alla supply chain. Per la supply chain, direi che molto probabilmente no, almeno non direttamente. Ma è incredibilmente difficile prevedere il futuro. La ragione per cui sono incline a pensare che questa ondata di generatori non avrà un impatto massiccio sulla supply chain è che la forza di questi generatori è che attingono a una vasta quantità di conoscenza ambientale che è fondamentalmente il web, con tutte quelle immagini e tag a cui puoi accedere gratuitamente. Ma quando si tratta di ottimizzare una supply chain, i dati più rilevanti sono la tua storia transazionale. Se stai vendendo, diciamo, telai per porte, non ti aiuta molto per la pianificazione della supply chain sapere molte cose generali sui telai per porte. La tua storia delle vendite di telai per porte dell’anno scorso ti dice molto di più su cosa dovresti ordinare, produrre e come dovresti allocare le scorte. Quindi, i dati più rilevanti non sono esattamente condivisi apertamente con il mondo. Esistono nel silo della tua azienda. Le aziende, a differenza di ChatGPT, sono distorte dal fatto che questi strumenti funzionano meglio quando si discutono argomenti in cui molti materiali sono disponibili pubblicamente online. Se si discutono argomenti che non sono ampiamente pubblicati online, ChatGPT diventa rapidamente ignorante al riguardo. Molto concretamente, direi che se si pensa ai metodi che potrebbero essere utilizzati per fare qualsiasi tipo di ottimizzazione, non ne sono troppo sicuro perché il tipo di input non è presente. Tuttavia, questi strumenti potrebbero potenzialmente diventare strumentali nel supportare il tuo sviluppo. Ad esempio, ChatGPT è in realtà abbastanza bravo nel aiutarti a generare frammenti di codice. Per la programmazione, poiché si tratta di un linguaggio generico, significa sequenza di caratteri, ChatGPT può generare tag, ma anche codice. Grazie al fatto che esiste una quantità gigantesca di codice disponibile online, principalmente tramite GitHub ma anche molti altri luoghi, hai enormi codebase pronte per essere utilizzate per l’addestramento di ChatGPT. Pertanto, ChatGPT è in grado di comporre frammenti di codice o programmi abbastanza decenti. Come strumento di produttività per i programmatori, c’è molto potenziale. Ma attenzione, il codice generato da ChatGPT può essere altrettanto falso del codice scritto dagli esseri umani. Non lo userei senza una supervisione attenta se si vuole sviluppare la prossima generazione di autopiloti per aerei o auto. Inoltre, sospetto che il tipo di tecnologia che verrà fuori sarà cose come i verbali delle riunioni. Al momento, non sono troppo sicuro che ChatGPT sarebbe in grado di riassumere una discussione di due ore in qualcosa come due pagine preservando il massimo dei dettagli su ciò che è stato detto. Ma strumenti simili, sono abbastanza sicuro che nel prossimo decennio saranno in grado di farlo. Quindi per la supply chain, ci saranno molti benefici. Tuttavia, sospetto che la maggior parte di essi saranno un po’ ai margini, periferici, cose come facilitare le riunioni, prendere appunti o sistemi migliori per la revisione dei documenti. Ma i problemi e le sfide principali sono nei dati, e quei generatori non gestiscono i dati come si presentano nelle supply chain.

Conor Doherty: Non ci sono altri programmi progettati specificamente per la programmazione? Voglio dire, ChatGPT è un’intelligenza artificiale generativa basata su testo, ma c’è GitHub co-pilot che è progettato per assistere nella programmazione, ed è in grado di produrre codice piuttosto decente da solo, giusto?

Joannes Vermorel: No, quei modelli sono quasi identici, quasi interscambiabili. Il tipo di tecnologia che sta dietro di loro è incredibilmente simile. Utilizzano la stessa architettura Transformer. Le uniche differenze sono leggere variazioni nel corpus e nell’esperienza utente. GitHub copilot mira a fornire un completamento automatico ad ogni battuta di tastiera, mentre ChatGPT è più orientato al dialogo. Ma le differenze sono davvero solo uno strato sottile di vernice in cima. Sotto, sono la stessa cosa. Sospetto che il miglior strumento per il completamento del codice sarà costruito su un corpus più ampio del codice. Questo è illustrato da un recente articolo pubblicato da un team di Amazon. Hanno presentato un generatore promettente che combina sia dati di immagini che di testo, unificandoli essenzialmente. Affermano persino di superare ChatGPT su alcuni benchmark, con risultati comparabili su altre metriche. Tuttavia, prendi questo con una certa cautela, poiché determinare un buon generatore è un problema complesso quanto la creazione del generatore stesso. Quello che è interessante, però, è che il loro modello è efficace quanto ChatGPT, ma con un miliardo di parametri, mentre ChatGPT ha quasi 100 volte più parametri. Questo suggerisce che mescolando tipi di dati più diversi, si può avere un modello più potente e più semplice, il che è paradossale. Ad esempio, il modello ChatGPT è gigantesco, con un intervallo di parametri nell’ordine dei trilioni. Ma non è chiaro se un modello così enorme sia necessario. Infatti, una delle innovazioni di Stable Diffusion, rispetto ad altri modelli, è stato un modello che è due ordini di grandezza più veloce e più snello della rete generativa avversaria che ha sostituito. Stable Diffusion ha solo circa un miliardo di parametri, rendendolo molto piccolo rispetto a ChatGPT. Tuttavia, di recente un team ha affermato di aver riprodotto le prestazioni di ChatGPT con un modello molto più piccolo, approssimativamente delle dimensioni di un miliardo di parametri. Questo è interessante perché è più o meno delle stesse dimensioni di ciò che può essere gestito con una scheda grafica comune trovata nei notebook e nelle workstation di oggi.

Conor Doherty: Beh, questo ci riporta un po’ al punto di partenza o all’introduzione generale, è un risultato positivo o negativo? Ora, nel contesto specifico delle imprese o addirittura della catena di approvvigionamento più dettagliata, vedi questa intelligenza artificiale generativa come una distrazione, un vantaggio o una maledizione?

Joannes Vermorel: Come linea generale di pensiero, la mia opinione è che ogni progresso in termini di scienza e tecnologia sia positivo. Non ho questa prospettiva lovecraftiana, sai, dove ci sono alcune verità profonde o profonde dell’universo che sono così brutali e così ostili alla mente umana che se le scopri, impazzisci. La mia opinione non è lovecraftiana. Credo che in generale sia una cosa buona. È certamente meglio dell’ignoranza. Ora, come qualsiasi strumento fin dall’età della pietra, il primo martello poteva essere progettato per cacciare un animale o per uccidere i tuoi simili. Quindi, questo è stato il problema con la tecnologia e può essere abusato. È stato un problema per migliaia di anni. Anche questi tipi di tecnologie possono essere abusati. Gli abusi probabili nel campo del software aziendale della catena di approvvigionamento saranno un aumento della confusione a causa del rumore. I fornitori stanno già esagerando con l’IA, e ora saranno in grado di portare la cosa al massimo, facendo girare i loro reparti marketing con infinite false case study. In passato, creare una falsa case study richiedeva un certo sforzo. Tuttavia, potevi falsificarla completamente perché nessuno verificherà mai le tue affermazioni. La maggior parte delle tue affermazioni è impossibile da verificare. E, come ho descritto nella mia lezione, nessuno in una case study ha alcun incentivo a dire che tutti i milioni che affermi di aver risparmiato o guadagnato o generato sono falsi. Tutti coloro che fanno parte di una case study hanno un enorme incentivo a dire: “Sì, tutto, tutti quei benefici sono veri, e tutto è merito mio, almeno in parte se riusciamo a ottenere tutto questo.” Quindi, la mia opinione è che la situazione diventerà ancora più confusa perché queste squadre impazziranno e genereranno ancora più false case study, affermazioni e pagine vuote che descrivono la tecnologia. Ho passato del tempo sui siti web di molti concorrenti di Lokad. La cosa interessante è che puoi avere intere pagine di testo in cui leggi e alla fine non hai imparato nulla. Riescono a girare luoghi comuni o cose che non rivelano nulla su ciò che stanno effettivamente facendo.

Conor Doherty: Flimflammery, è quello che stiamo dicendo?

Joannes Vermorel: Sì, esattamente. Sono sempre un po’ perplesso quando leggo una documentazione di 10 pagine sull’IA per la supply chain e alla fine non riesco a capire nulla su cosa sia, cosa faccia, perché sia stata progettata in quel modo o quali tipi di informazioni siano alla base di tutto ciò. È davvero sconcertante. Sospetto che in passato i team di marketing passassero giorni interi a creare queste descrizioni vaghe. Ora, utilizzando l’IA generativa, come ChatGPT, una descrizione di dieci pagine può essere creata istantaneamente. Quindi, se stai mettendo in dubbio la validità di contenuti che affermano di utilizzare l’IA per l’ottimizzazione della supply chain, direi che è per lo più sospetto. Non perché l’IA sia fasulla, ma perché viene presentata in modo distorto in questo contesto. Quando parliamo di IA generativa, vengono utilizzati termini specifici, come diffusione stabile, architettura Transformer e rete generativa. Queste tecniche hanno dei nomi. I professionisti di questo settore non dicono semplicemente “sto facendo IA”. Sono più precisi. Hanno bisogno di questi termini per descrivere il loro lavoro. Questa precisione si sviluppa come parte di un processo emergente all’interno della comunità. Le persone che non si prendono la briga di descrivere la propria tecnologia in dettaglio spesso ricorrono a termini vaghi. Prendiamo un semplice esempio. Se vuoi comprare una finestra per la tua casa, il venditore specifica il materiale della cornice, il numero di strati di vetro, e così via. Se un venditore dice semplicemente “vendo finestre, fidati sono buone” senza fornire alcuna specifica, è discutibile. Se qualcuno non può darti specifiche tecniche e invece utilizza parole di moda come “sostenibile”, non sta chiarificando nulla. Sta solo aggiungendo enigmi. Questo è analogo a ciò che accade con l’IA e ChatGPT. Questi strumenti potrebbero generare materiali di marketing confusi e dare ai fornitori la possibilità di includerli nella loro infrastruttura tecnologica senza creare nulla di sostanziale. È piuttosto facile integrare questi strumenti in un’architettura software esistente, ma se l’architettura software esistente non è stata progettata per ottimizzare le capacità della tecnologia, sarà solo un gadget. È sempre abbastanza facile aggiungere un altro pezzo di software con del nastro adesivo, ma ciò non significa che farà la differenza o sarà utile. Pertanto, credo che questa situazione creerà ulteriore confusione. Darà un’ulteriore opportunità ai fornitori di inserire algoritmi di valore reale, ma in modo insensato. Alla fine, ciò non aggiunge alcun valore alla soluzione, il che è un altro problema. Abbiamo già vissuto diverse iterazioni di questo con la ricerca operativa 50 anni fa, poi il data mining e infine la scienza dei dati. Ora ci saranno queste iterazioni di intelligenza artificiale cognitiva. Tuttavia, il problema è che se vuoi sfruttare al massimo questa tecnologia come software aziendale, non può essere solo un’aggiunta. Deve essere parte del design del tuo prodotto. È un design fondamentale che non puoi cambiare in seguito. Il problema con il design fondamentale dei prodotti è che è qualcosa che puoi fare solo all’inizio. Non puoi semplicemente aggiungerlo al tuo prodotto in seguito con del nastro adesivo.

Conor Doherty: Puoi darmi un esempio del livello di design fondamentale di cui stai parlando?

Joannes Vermorel: Se hai un sistema in cui al centro del tuo sistema hai un database transazionale progettato per garantire l’integrità transazionale, è fantastico. Ma questo design non farà nulla per sfruttare qualsiasi tipo di generatore di immagini o testo. È completamente in contrasto con la prospettiva transazionale. Stai gestendo transazioni, ma avere qualche tipo di strumento che può generare testo o immagini, non è nemmeno lo stesso ambito. Quindi, quello che sto dicendo è che avere qualcosa che si adatta non è scontato. Di solito richiede molta attenzione per il design e i principi guida della tua architettura, in modo che le cose si adattino. Altrimenti, sei solo su binari separati. Nel software, ciò che è fuorviante è che è sempre possibile avere un prodotto e poi avere un add-on che si trova a lato. Ma non è correttamente integrato, non collegato e non c’è sinergia tra i due. Hai solo un pasticcio più complicato con più componenti in movimento e più bug. Quindi, in base al bilanciamento del potere, consiglierei di non cercare di integrare questo nelle ottimizzazioni della supply chain. Ma se un fornitore si presenta con questo, devi davvero indagare su cosa stanno facendo. Il mio consiglio finale per il pubblico sarebbe: assicurati che se leggi la pagina tecnologica di questo fornitore, abbia senso per te. Non devi essere un esperto. Se il fornitore non è in grado di comunicare in modo comprensibile quale sia la loro tecnologia e cosa fa, e che tipo di tecniche utilizza, è molto probabilmente un campanello d’allarme. Non ho mai visto in tutta la mia carriera che un’azienda capace di realizzare qualcosa di difficile lo nasconda. Al contrario, le aziende che riescono a raggiungere questo punto sono più che felici di mettere in mostra i loro successi per il mondo intero. A proposito, questo vale per tutti quei modelli - Stable Diffusion, ChatGPT, ecc. Questi risultati sono pubblici. Sono stati pubblicati articoli su di essi. Questi non sono segreti ben custoditi. Al contrario, le aziende che riescono a raggiungere questo livello di successo tecnico spesso pubblicano articoli molto dettagliati su come ci sono riuscite. Questo è un comportamento molto tipico. Dal mio punto di vista, il consiglio fondamentale è che mentre c’è molto valore nell’IA, è solo una parola di moda. Puoi categorizzare quasi tutto sotto questo ombrello. Pertanto, ogni volta che un fornitore si avvicina a te, è essenziale capire cosa fanno esattamente. Se la persona che ti vende non ha questa comprensione e se il fornitore afferma di non sapere dicendo: “Sono solo un venditore, è il team tecnico che sa”, non fidarti di loro. Se dicono queste cose, indica che non c’è una tecnologia sostanziale dietro le loro affermazioni. Questa è una tecnica collaudata che viene utilizzata da decenni: affermare di aver assunto premi Nobel, vantarsi di avere ‘Einstein’ nella stanza dietro, dirti di fidarti di loro perché il loro team è incredibilmente intelligente. Tuttavia, se professano ignoranza sulla tecnologia e ti assicurano che è il resto del team che sa, ciò quasi garantisce che non ci sia sostanza nelle loro affermazioni. È solo più dello stesso.

Conor Doherty: Beh, su questa nota, grazie Joannes. Ho imparato parecchio. Grazie per il tuo tempo e grazie a tutti voi per aver guardato. Ci vediamo la prossima volta.

Torna a Lokad TV ›

PREVIOUS EPISODES