00:00:08 Introduzione e background di Rob Hyndman nella previsione.
00:01:31 Sostenibilità delle tecniche di previsione del mondo reale e dei software.
00:04:08 Applicazione delle tecniche di previsione in vari settori con dati abbondanti.
00:05:43 Sfide nel soddisfare le diverse industrie nella supply chain.
00:07:30 Navigare le complessità del software aziendale e la raccolta dati.
00:08:00 Previsione delle serie temporali e approcci alternativi.
00:09:05 Sfide affrontate da Lokad nell’analisi predittiva.
00:11:29 Longevità e motivazione nello sviluppo di software accademico.
00:13:12 Passaggio dalla previsione puntuale alla previsione probabilistica.
00:15:00 Difetti nei metodi accademici e la loro implementazione nel mondo reale.
00:16:01 Prestazioni di un modello semplice in una competizione.
00:16:56 L’importanza di metodi eleganti e concisi.
00:18:48 Bilanciare accuratezza, complessità e costo nei modelli.
00:19:25 Robustezza e velocità nei pacchetti R per la previsione.
00:20:31 Bilanciare robustezza, accuratezza e costi di implementazione nel business.
00:21:35 Importanza di metodi specifici per il problema nella previsione.
00:23:00 Prevedere la longevità delle tecniche e delle librerie di previsione.
00:25:29 Impegno di Rob nel mantenere le sue librerie di previsione.
00:26:12 Introduzione di Fable e la sua applicazione nella previsione delle serie temporali.
00:27:03 Apprezzare il mondo open-source e il suo impatto sugli strumenti di previsione.

Riassunto

In un’intervista con Kieran Chandler, Joannes Vermorel, fondatore di Lokad, e Rob Hyndman, professore di statistica presso l’Università di Monash, discutono della sostenibilità delle tecniche di previsione del mondo reale. Il software di previsione open-source di Hyndman, che è stato scaricato da milioni di utenti, resiste nel tempo ed è in grado di risolvere circa il 90% dei problemi di previsione delle aziende. Gli ospiti sottolineano le sfide nel soddisfare un vasto pubblico con esigenze diverse nell’industria della gestione della supply chain e l’importanza di creare software user-friendly, efficace e accessibile. Sottolineano anche l’importanza del software open-source e della collaborazione nello sviluppo di metodi di previsione di alta qualità.

Riassunto Esteso

In questa intervista, Kieran Chandler discute della sostenibilità delle tecniche di previsione del mondo reale con Joannes Vermorel, fondatore di Lokad, e Rob Hyndman, professore di statistica presso l’Università di Monash. Il software di previsione open-source di Hyndman è stato scaricato da milioni di utenti e resiste nel tempo, a differenza di molti altri strumenti software.

Vermorel apprezza il lavoro di Hyndman per andare oltre il tipico software accademico, creando un insieme completo di librerie, incorporando molti dei suoi risultati e fornendo un framework coerente basato sul popolare linguaggio R per l’analisi statistica. Vermorel ritiene che ci siano pochi esempi di software scientifico che abbiano avuto tale durata e pubblico.

La ricerca accademica di Hyndman non si limita alla previsione della supply chain; è interessato ad applicare tecniche di previsione a qualsiasi settore con grandi quantità di dati. Il suo lavoro include la previsione del consumo di elettricità, dei tassi di mortalità, della popolazione, dei numeri dei turisti e, recentemente, dei casi di COVID-19 per il governo australiano. Oltre alla previsione, si occupa anche della rilevazione delle anomalie e dell’analisi esplorativa dei dati data analysis.

Discutendo delle sfide nel soddisfare un’ampia audience con esigenze diverse nell’industria della supply chain, Vermorel spiega che il modo in cui i dati sono percepiti e registrati dai software aziendali (ERPs, MRPs, WMS) è spesso semi-accidentale.

Affrontano le complicazioni derivanti dall’utilizzo di dati che non sono principalmente raccolti per scopi di previsione e dalla transizione da un sistema di pianificazione delle risorse aziendali (ERP) a un altro. Discutono anche della necessità di tecniche di previsione che possano adattarsi a diversi paesaggi IT e agli incidenti storici nel deployment del software aziendale.

Vermorel sottolinea l’importanza delle previsioni in contesti che non si prestano all’analisi delle serie temporali, come la moda, dove l’ingegneria della domanda e l’introduzione di nuovi prodotti influenzano il problema della previsione. Sottolinea la necessità che i modelli predittivi tengano conto dei loop di feedback e delle azioni intraprese in base alle previsioni, nonché del controllo di vari fattori come l’assortimento di prodotti e le strategie di promozione. Questo approccio poliedrico è fondamentale per Lokad per affrontare le complesse sfide dell’analisi predittiva.

Hyndman spiega che il suo software di serie temporali è in grado di risolvere circa il 90% dei problemi di previsione delle aziende, ma il restante 10% richiede approcci diversi. Affronta anche il problema del software accademico a breve termine, attribuendolo alla focalizzazione sulla pubblicazione di articoli e alla mancanza di incentivi per mantenere il software a lungo termine. Ciò comporta una mancanza di attenzione alla collaborazione con i professionisti e alla garanzia che i metodi siano ben documentati e abbiano una lunga durata.

L’intervista mette in evidenza le sfide e le complessità dell’ottimizzazione e della previsione della supply chain, compresa la necessità di tecniche adattabili, l’importanza di considerare contesti non basati sulle serie temporali e l’influenza dei loop di feedback e delle decisioni sulla modelli predittivi. Inoltre, sottolinea la discrepanza tra la ricerca accademica e l’applicazione pratica nel campo della previsione.

Entrambi gli ospiti sottolineano l’importanza di creare software user-friendly che sia efficace e accessibile per fare la differenza nel mondo.

Hyndman menziona il passaggio dalla previsione puntuale alla previsione probabilistica nella letteratura accademica negli ultimi 15 anni. Lokad è stata una delle prime aziende di previsione della supply chain a incorporare questo cambiamento nel loro software. Poiché il software iniziale di Hyndman era incentrato sulle previsioni puntuali, i suoi pacchetti più recenti danno priorità alle previsioni probabilistiche.

Vermorel evidenzia i difetti nascosti in molte pubblicazioni accademiche, come l’instabilità numerica, il tempo di calcolo eccessivo o l’implementazione complessa. Sottolinea anche l’importanza di bilanciare l’accuratezza con la semplicità, poiché modelli troppo complicati potrebbero non essere pratici o necessari. Vermorel fornisce un esempio dalla competizione M5, in cui Lokad ha ottenuto un’alta accuratezza utilizzando un modello relativamente semplice.

Hyndman concorda sul fatto che bilanciare i costi di produzione del software, il calcolo e l’accuratezza sia essenziale. Entrambi gli ospiti apprezzano metodi di previsione concisi ed eleganti con ampia applicabilità, come quelli presenti nelle librerie di Hyndman.

La conversazione solleva interrogativi sui compromessi tra accuratezza e complessità nei modelli di previsione. Vermorel mette in discussione la saggezza di perseguire un leggero miglioramento dell’accuratezza a discapito di una complessità molto maggiore, come avviene nei modelli di deep learning. Sia Vermorel che Hyndman sottolineano l’importanza di concentrarsi sull’essenza delle buone previsioni senza perdersi in miglioramenti minimi che potrebbero non giustificare la complessità aggiunta.

Hyndman sottolinea l’importanza di considerare sia l’accuratezza che il costo del calcolo nello sviluppo dei metodi di previsione. Attribuisce la robustezza dei suoi pacchetti di previsione alle loro origini nei progetti di consulenza, dove dovevano essere veloci, affidabili e applicabili a contesti diversi.

Vermorel sottolinea l’importanza di considerare il valore aggiunto che un metodo di previsione porta a un problema. Confronta modelli parametrici semplici con metodi più complessi come gli alberi di boosting del gradiente, notando che in alcuni casi modelli più semplici possono essere sufficienti. Vermorel discute anche le sfide uniche della previsione in settori come la moda e l’aftermarket automobilistico, dove fattori di sostituzione e compatibilità giocano un ruolo significativo.

Gli intervistati sottolineano l’importanza di non farsi distrarre dalla sofisticazione, poiché ciò non equivale necessariamente a risultati scientifici o accurati migliori. Vermorel prevede che le tecniche fondamentali di previsione delle serie temporali saranno ancora rilevanti tra 20 anni, mentre i metodi complessi che si basano sull’hardware attuale potrebbero diventare obsoleti.

Rob Hyndman parla del suo lavoro sulla previsione, in particolare dello sviluppo del software open source “Fable”, che semplifica il processo di previsione per migliaia di serie temporali contemporaneamente. Sottolinea il suo impegno a mantenere il pacchetto per almeno 10 anni e sottolinea i vantaggi del software open source, tra cui la collaborazione e l’accessibilità.

Sia Vermorel che Hyndman sottolineano l’importanza del software open source nel loro lavoro e il potenziale di collaborazione nello sviluppo di metodi di previsione di alta qualità. Hyndman menziona anche la sua dedizione nel mantenere le librerie pubbliche, che esistono dal 2005, e il ruolo che svolgono nell’accessibilità dell’analisi dei dati al pubblico.

Nel complesso, l’intervista mette in evidenza le sfide della previsione in un mondo complesso e in rapida evoluzione e l’importanza del software e della collaborazione nello sviluppo di soluzioni efficaci. L’attenzione al software open source e all’accesso pubblico sottolinea il valore di rendere l’analisi dei dati e la previsione disponibili a un pubblico più ampio.

Entrambi gli intervistati apprezzano la natura open source del loro lavoro, che consente un accesso diffuso e la collaborazione nello sviluppo di metodi di previsione di alta qualità.

Trascrizione completa

Kieran Chandler: La previsione è una pratica antica che è in continua evoluzione e, come tale, molti software non riescono a resistere alla prova del tempo. Una persona che ha sfidato questa tendenza è il nostro ospite di oggi, Rob Hyndman, che ha implementato software open source scaricato da milioni di utenti. Pertanto, oggi parleremo con lui della sostenibilità delle tecniche di previsione nel mondo reale. Quindi, Rob, grazie mille per esserti unito a noi in diretta dall’Australia. So che è un po’ tardi da te. Come sempre, ci piace iniziare conoscendo un po’ i nostri ospiti, quindi forse potresti iniziare raccontandoci qualcosa su di te.

Rob Hyndman: Grazie, Kieran, ed è un piacere unirmi a te. Sì, sono le 8 di sera qui in Australia, quindi non così tardi. Sono professore di statistica e capo del Dipartimento di Econometria e Statistica Aziendale presso l’Università di Monash. Sono lì da 26 anni. Per la maggior parte di quel periodo, sono stato anche direttore editoriale dell’International Journal of Forecasting e direttore dell’International Institute of Forecasters, dal 2005 al 2018. Sono un accademico; scrivo molti articoli e ho scritto alcuni libri, tra cui tre sulla previsione. Se non faccio quello, di solito gioco a tennis.

Kieran Chandler: Bello, anche io mi diverto a giocare a tennis durante i mesi estivi. Forse un giorno possiamo vederti per una partita. Joannes, oggi il nostro argomento è la sostenibilità delle tecniche di previsione nel mondo reale e l’idea di un software che sia sostenibile e duri a lungo nel tempo. Qual è l’idea dietro tutto ciò?

Joannes Vermorel: La maggior parte dei software tende a decadere nel tempo per varie ragioni. Quando si tratta di software scientifico, bisogna pensare a come viene prodotto questo software. Di solito, viene creato per supportare la pubblicazione di un articolo, quindi è essenzialmente un software usa e getta. Quello che ho trovato molto notevole nel lavoro del professor Hyndman è che è andato oltre ciò che di solito si fa negli ambienti accademici, ovvero produrre software usa e getta, pubblicare l’articolo, finire e passare al prossimo articolo. In realtà, ha costruito un vasto insieme di librerie che non solo incorporano molti dei suoi risultati e molti risultati dei suoi colleghi, ma forniscono anche un framework molto coerente basato su un linguaggio diventato molto popolare, ovvero R, un ambiente per l’analisi statistica. Questo ha dimostrato il suo valore nel corso di diverse decadi, ed è un grande risultato. La maggior parte del software che vediamo oggi è vecchio, con poche fondamenta che risalgono a Unix e cose più sofisticate. Per quanto riguarda la scienza dei dati, non ci sono molti esempi di cose che resistono alla prova del tempo, a parte i blocchi di base per l’algebra lineare e campi simili.

Kieran Chandler: … analisi, ma se ci pensi davvero, potrei probabilmente trovare una dozzina di esempi di software che sono riusciti ad avere un pubblico così vasto e una durata così lunga. Tuttavia, non ce ne sono così tanti, in realtà. Credo che ci sia qualcosa di davvero notevole qui che va oltre ciò che di solito si fa nella ricerca accademica. Rob, parliamo un po’ di più della tua ricerca accademica. Ovviamente non sei focalizzato solo sul mondo della supply chain come lo siamo noi qui. Quindi, in che altri ambiti sei interessato ad applicare le tecniche di previsione?

Rob Hyndman: Sono interessato a qualsiasi cosa in cui posso ottenere molti dati. Faccio previsioni sul consumo di elettricità, ad esempio, dove ci sono molti dati molto buoni che risalgono a decenni fa. Faccio previsioni sui tassi di mortalità, sulla popolazione e ultimamente ho lavorato sui numeri dei turisti, che è una cosa piuttosto difficile da prevedere in mezzo a una pandemia. Ho aiutato il governo australiano a capire come funziona. Un altro lavoro che sto facendo per il governo australiano è la previsione dei casi di COVID-19. È il mio primo tentativo di fare qualcosa nel mondo epidemiologico e ho dovuto imparare abbastanza l’approccio epidemiologico alla modellazione e integrarlo in alcuni insiemi di previsione. È stato interessante. Fondamentalmente, se ci sono molti dati, sono interessato a cercare di modellarli. Faccio anche cose come il rilevamento delle anomalie e l’analisi esplorativa dei dati dove ci sono grandi collezioni di dati. Ho lavorato con molte aziende e organizzazioni governative e se mi presentano un problema che coinvolge parecchi dati, sono interessato a pensare a come fare migliori previsioni rispetto a quanto sta accadendo attualmente.

Kieran Chandler: Fantastico, posso immaginare che l’industria turistica sia molto interessante al momento. È davvero un’anomalia dal punto di vista delle previsioni. Johannes, il nostro focus è ovviamente sull’industria della supply chain, ma l’idea è che non ci concentriamo solo su un settore all’interno di essa. Ci rivolgiamo a un pubblico molto ampio, quindi quali sfide puoi incontrare quando cerchi di soddisfare così tante persone con esigenze così diverse?

Joannes Vermorel: Innanzitutto, è il modo in cui percepiamo il mondo. Non abbiamo qualcosa che sia simile a una misurazione scientifica, come le statistiche stabilite per le mortalità o altre cose. Quello che hai sono software aziendali, come ERP, MRP e WMS, che producono o registrano dati quasi in modo casuale. La raccolta dei dati non era il motivo per cui tutti quei software sono stati messi in atto, quindi ti ritrovi con registrazioni, ma queste non sono state progettate come strumenti per effettuare misurazioni nel tempo che potresti prevedere. È un sottoprodotto quasi casuale e questo crea un sacco di complicazioni. Una delle sfide che hai è se puoi fare, in termini di tecniche di previsione e ricerca focalizzata, qualcosa che sopravvive passando da un ERP all’altro. Se cambi il sistema, che è molto disordinato e casuale, devi considerare come ciò influenzerà il processo di previsione.

Kieran Chandler: Quindi, l’argomento successivo che vorrei discutere è il diverso panorama IT e gli incidenti storici in termini di implementazione di vari strumenti software aziendali. Se devi cambiare completamente il metodo, ovviamente non stai costruendo alcun insieme di conoscenze o tecniche. Una delle sfide è: puoi fare qualcosa in questo settore? E dal nostro punto di vista in Lokad, i tipi di previsioni che ci interessano di più sono tipicamente cose che non si presentano naturalmente come serie temporali. Cosa succede se hai un problema che non si presta a essere inquadrato comodamente come una serie temporale? Hai comunque bisogno di qualcosa che sia simile a una previsione, ma si presenta in modi molto diversi. Rob, cosa ne pensi dell’uso di alternative alle previsioni basate su serie temporali?

Rob Hyndman: Beh, dipende molto dai dati, come ha detto Joannes, per determinare quale tipo di modello sarà necessario costruire per quel particolare problema. Il mio software per le serie temporali gestisce molti problemi, ma non tutti. Alcune aziende avranno un set di dati impostato in un certo modo o registrato in un certo modo, quindi dovranno modificarlo o trovare una soluzione diversa. Il software che ho scritto che è più popolare risolve il 90% dei problemi di previsione delle aziende; è l’altro 10% che devi affrontare con cose diverse.

Kieran Chandler: Quanto spesso diresti che c’è quel tipo di 10% nella tua esperienza, Joannes?

Joannes Vermorel: È un problema molto sottile. Il mio percorso personale nel mondo delle previsioni presso Lokad mi ha fatto capire quanto sia profondo. Prima, siamo passati dalle previsioni puntuali alle previsioni probabilistiche, il che ha cambiato il modo in cui guardiamo al problema. Ma è ancora più profondo di così. Ad esempio, se guardiamo alla moda, il problema è che vuoi prevedere la domanda in modo da sapere cosa produrre. Tuttavia, quando decidi cosa stai per produrre, hai la flessibilità di introdurre più o meno prodotti. Quindi, l’idea stessa che tu abbia serie temporali che potresti prevedere dipende dalle tue decisioni. Nella moda, ad esempio, il fatto che introduci un altro prodotto nel tuo assortimento fa parte del tuo problema predittivo. Vuoi non solo prevedere la domanda, ma anche plasmare la domanda. Nel nostro percorso, abbiamo capito di avere incertezze irriducibili che ci danno un angolo completamente ortogonale alla prospettiva classica delle previsioni puntuali. Ma dobbiamo anche affrontare tutti i cicli di feedback.

Kieran Chandler: Quindi, Joannes, puoi dirci come i modelli predittivi influenzano l’ottimizzazione della supply chain?

Joannes Vermorel: Quando facciamo una previsione, prendiamo un’azione che è meglio informata. Questo ha un’influenza profonda sul modo in cui vogliamo costruire i nostri modelli predittivi. Quindi possiamo aggiungere più variabili, come controllare il grado di prodotti, i punti di prezzo, il messaggio e persino la promozione dei prodotti. Se continuo sull’esempio della moda, prevedi le quantità che vuoi avere e poi decidi che nei tuoi negozi alcuni prodotti saranno messi in modo molto più permanente rispetto ad altri. Questo ha un impatto profondo su ciò che osserverai. La sfida che Lokad ha affrontato in termini di analisi predittiva è stata quella di essere in grado di affrontare i problemi guardando i numerosi angoli che si presentano e che complicano la prospettiva pura delle serie temporali.

Kieran Chandler: Ok, Rob, forse spostiamo ora le cose per parlare da un punto di vista accademico. Molte persone creano pezzi di software solo per un articolo e poi viene quasi gettato via. Perché pensi che non ci sia abbastanza longevità in alcuni dei pezzi di software che le persone stanno creando?

Rob Hyndman: Beh, devi pensare alla motivazione della maggior parte degli accademici. Sono pagati per scrivere articoli e tenere lezioni. Una volta scritto l’articolo, potrebbe esserci qualche incoraggiamento a pubblicare un software per implementarlo. Ma non c’è un vero incentivo per la maggior parte degli accademici a farlo, e certamente non c’è un incentivo a mantenere quel software nel lungo periodo. Chiunque lo faccia lo fa perché gli interessa o perché è una questione di amore. Non è davvero ciò per cui vengono pagati. Non è il loro core business. Penso che sia un problema effettivo nel mondo accademico. C’è così tanto focus nel pubblicare nuovi metodi e farli pubblicare, e non abbastanza focus sulla collaborazione con la comunità dei professionisti e sul garantire che i tuoi metodi siano ben documentati e abbiano un software user-friendly disponibile a lungo termine. È un problema di motivazione nel mondo accademico. La mia motivazione è che quando sviluppo una nuova metodologia, voglio che le persone la usino. Non voglio solo pubblicare un articolo e farlo leggere da una dozzina di persone o forse 100 persone, se sono fortunato. In realtà, voglio che i miei metodi facciano la differenza nel mondo. A prescindere da ciò per cui vengo pagato, faccio questo perché trae molta soddisfazione dal vedere i miei metodi effettivamente utilizzati nella pratica.

Joannes Vermorel: I modelli predittivi sono diventati più complicati e non è facile renderli robusti. Presso Lokad, dobbiamo mantenere molto codice vecchio per far funzionare i nostri modelli. La sfida è che non puoi semplicemente creare un modello fantasioso e lasciarlo così. Devi avere un modo per spiegare cosa fa il modello e perché lo fa. Devi assicurarti che il modello sia ben documentato e che le persone possano usarlo nella pratica. Non è una cosa facile da fare, ma è importante se vuoi che i tuoi modelli vengano adottati.

Rob Hyndman: Penso che sia interessante anche il fatto che, nel corso del tempo, si sviluppino nuovi metodi e quindi è necessario fornire nuovi software o nuovi strumenti che tengano conto degli sviluppi nella previsione. Uno dei metodi che Joannes ha menzionato è il passaggio dalla previsione puntiforme alla previsione probabilistica, che è avvenuto nella letteratura accademica negli ultimi 15 anni circa, e Lokad è stata molto rapida nel cogliere questa opportunità e nel fornire previsioni probabilistiche. Penso che probabilmente sia una delle prime aziende di previsione della supply chain al mondo a farlo. Il mio software iniziale, anche se produceva previsioni probabilistiche, metteva sempre l’accento sulle previsioni puntiformi,

Kieran Chandler: Negli ultimi anni, l’accento si è invertito. Si ottengono prima previsioni probabilistiche e poi previsioni puntiformi.

Joannes Vermorel: Una delle mie critiche personali a molte pubblicazioni accademiche è che di solito si finisce con tonnellate di difetti nascosti nei metodi. Quindi hai un metodo che sai che avrà prestazioni migliori nel benchmark, ma quando vuoi metterlo in un’implementazione reale, scoprirai che, ad esempio, è numericamente molto instabile o che i tempi di calcolo sono ridicolmente lunghi al punto che se usi un dataset di prova, ci vorranno già giorni di calcolo. E se vuoi avere un dataset del mondo reale, ci vorranno anni di calcolo.

E puoi avere tutti i tipi di problemi, come ad esempio il metodo che è diabolico da implementare e quindi, anche se in teoria puoi farlo funzionare correttamente, in pratica avrai sempre qualche bug stupido che ti impedirà di ottenere qualcosa. Oppure il metodo può avere dipendenze incredibilmente sottili su una lunga serie di meta-parametri, quindi è un po’ come una forma d’arte oscura farlo funzionare perché hai come 20 parametri oscuri che devi regolare in modi completamente non documentati e di solito solo nella mente dei ricercatori che hanno prodotto il metodo.

Rob Hyndman: È molto interessante perché quando guardo ai metodi che resistono alla prova del tempo, molti metodi super classici che hai prodotto per Hyndman, ad esempio, danno risultati sorprendentemente buoni rispetto a metodi molto sofisticati. Durante la competizione M5 dello scorso anno, Lokad si è classificata al sesto posto su 909 squadre in termini di precisione delle previsioni puntiformi. Ma abbiamo fatto tutto questo con un modello molto semplice, quasi il modello di previsione parametrico di base, e abbiamo utilizzato un piccolo trucco di modellazione ETS per ottenere essenzialmente l’effetto shotgun e la distribuzione probabilistica.

Ma tutto sommato, probabilmente era un modello che avremmo potuto riassumere in una pagina con pochi coefficienti per le stagionalità, il giorno della settimana, la settimana del mese, la settimana dell’anno e basta. Quindi, letteralmente, siamo arrivati a un punto percentuale dal modello più accurato che utilizzava alberi potenziati con il gradiente, e sospetto che in termini di complessità del codice, complessità del modello e opacità complessiva, stiamo parlando di qualcosa che è due ordini di grandezza, se non tre, più complesso.

Joannes Vermorel: Questo è qualcosa in cui credo nel successo delle tue librerie. Quello che mi piace davvero dei metodi è che la maggior parte di essi ha un’implementazione elegante e sono concisi. Quindi, effettivamente, in termini di applicabilità, c’è qualcosa di profondamente vero e valido, dove ottieni l’accuratezza con il minimo sforzo e fastidio, a differenza, direi, dell’altro lato del campo, il campo del deep learning. Non ho nulla contro il deep learning quando si tratta di affrontare problemi incredibilmente difficili come, diciamo, ad esempio…

Kieran Chandler: Benvenuti all’episodio. Oggi abbiamo Joannes Vermorel, fondatore di Lokad, e Rob Hyndman, professore di statistica e capo del Dipartimento di Econometria e Statistica Aziendale presso l’Università di Monash. Parliamo di traduzione automatica e accuratezza del modello.

Joannes Vermorel: Metto in discussione la saggezza di avere un modello che è uno percento più accurato, ma richiede milioni di parametri ed è incredibilmente complesso e opaco. È veramente migliore da un punto di vista scientifico? Forse non dovremmo distrarci nel raggiungere un uno percento di accuratezza in più a discapito di qualcosa che è mille volte più complesso. C’è il pericolo di perdersi completamente. La buona scienza, specialmente nella previsione, dovrebbe concentrarsi sull’essenza di ciò che rende una buona previsione, mettendo da parte le distrazioni che portano un po’ di accuratezza in più ma forse a discapito di molta confusione in più.

Rob Hyndman: Devi bilanciare i due costi: il costo di produrre il software e fare il calcolo effettivo, e il costo dell’accuratezza. Nel mondo accademico, di solito ci si concentra sull’accuratezza senza considerare il costo del calcolo o dello sviluppo del codice. Sono d’accordo con te, Joannes, che dobbiamo tener conto di entrambi. A volte non si vuole necessariamente il metodo più accurato se richiede troppo tempo per mantenere il codice e fare il calcolo. I miei pacchetti di previsione sono robusti perché sono stati sviluppati attraverso progetti di consulenza. Queste funzioni sono state applicate in vari contesti, quindi dovevano essere relativamente robuste. Non volevo che le aziende tornassero da me dicendo che erano rotte o che non funzionavano sul loro set di dati. Il fatto che abbia fatto molte consulenze significa che quelle funzioni hanno visto molti dati prima di essere rilasciate al pubblico. Devono anche essere relativamente veloci perché la maggior parte delle aziende non vuole aspettare giorni per qualche calcolo MCMC su un modello bayesiano di fantasia; vogliono la previsione in un tempo ragionevole.

Kieran Chandler: Come bilanci robustezza, accuratezza e costo di implementazione del modello da un punto di vista aziendale, Joannes?

Joannes Vermorel: Alla fine dipende da ciò che stai aggiungendo al tavolo. Ad esempio, se abbiamo un modello parametrico super semplice come quello che abbiamo usato per la competizione M5 e otteniamo l’uno percento di accuratezza di un metodo molto sofisticato basato su alberi di boosting del gradiente, che è stato il vincitore, vale la pena aggiungere complessità? Il metodo vincente utilizzava alberi di boosting del gradiente con un metodo di data augmentation molto sofisticato, che era fondamentalmente un modo per gonfiare enormemente il tuo set di dati.

Kieran Chandler: Quello è abbastanza grande e alla fine ti ritrovi con un set di dati che è come 20 volte più grande. E poi applichi un modello super pesante e complesso su tutto questo. Quindi la domanda è, stai portando qualcosa di fondamentalmente nuovo e profondo al tavolo? E come si bilancia tutto ciò?

Joannes Vermorel: Il modo in cui bilancio tutto ciò è pensare se mi sto perdendo un elefante nella stanza che devo davvero prendere in considerazione. Ad esempio, se parlo di moda, ovviamente la cannibalizzazione e la sostituzione sono molto forti. Le persone non entrano in un negozio di moda pensando di volere questo esatto codice a barre. Non è nemmeno il modo corretto di pensare al problema. La cannibalizzazione e la sostituzione sono ovunque, e hai bisogno di qualcosa che abbracci quella visione. Se parlo di automotive, ad esempio, e guardo agli aftermarkets automobilistici, il problema è che le persone non comprano pezzi di ricambio perché amano i pezzi di ricambio. Comprano pezzi di ricambio perché il loro veicolo ha un problema e vogliono ripararlo, fine della storia. Si scopre che hai una matrice di compatibilità super complessa tra veicoli e pezzi di ricambio. In Europa, ci sono oltre 1 milione di pezzi di ricambio distinti e oltre 100.000 veicoli distinti. E di solito, per qualsiasi problema che hai, ci sono una dozzina di pezzi di ricambio compatibili diversi, quindi c’è sostituzione, ma a differenza della moda, si presenta in modo completamente deterministico. Le sostituzioni sono quasi perfettamente conosciute e perfettamente strutturate, e vuoi avere un metodo che sfrutti davvero il fatto che non c’è alcuna incertezza al riguardo.

Quindi, problema dopo problema, il modo in cui bilancio tutto ciò è assicurarmi che se vogliamo pagare per una maggiore sofisticazione, ne valga davvero la pena. Ad esempio, se prendo le librerie del Professor Hyndman rispetto, diciamo, a TensorFlow, solo per dare un’idea, per la maggior parte dei modelli si tratta probabilmente di kilobyte di codice. Se guardiamo a TensorFlow, una sola libreria compilata è grande 800 megabyte, e non appena includi TensorFlow versione uno, stai includendo quasi miliardi di righe di codice.

A volte, le persone possono pensare che stiamo discutendo su qualcosa che è solo una questione di sfumature di grigio, e non c’è una risposta giusta o sbagliata. È solo una questione di gusto, se si può avere qualcosa di leggermente più semplice o leggermente più complicato. Ma la realtà di ciò che ho osservato è che di solito, non si tratta solo di sfumature di grigio. Stiamo parlando di metodi con diversi ordini di grandezza di complessità. E quindi, se voglio fare una previsione mia, ad esempio, quali sono le probabilità che le librerie del Professor Hyndman siano ancora qui tra 20 anni, e quali sono le probabilità che TensorFlow versione uno sia ancora qui tra 20 anni? Scommetterei parecchi soldi sull’idea che i metodi fondamentali delle serie temporali saranno ancora rilevanti.

Kieran Chandler: Pensi che la tecnica di previsione sarà ancora qui tra 20 anni?

Joannes Vermorel: Le cose che incorporano letteralmente miliardi di righe di complessità accidentale sulle specificità delle schede grafiche prodotte negli ultimi cinque anni spariranno. Non nego il fatto che ci siano stati alcuni progressi assolutamente sorprendenti nell’apprendimento approfondito. Quello che sto dicendo è che dobbiamo davvero capire il valore aggiunto, che varia molto a seconda dei problemi che stiamo affrontando. Non dovremmo farci distrarre dalla sofisticazione. Non è perché è sofisticato che è intrinsecamente più scientifico, accurato o valido. Può essere più impressionante e da TED talk, ma dobbiamo essere molto attenti a questo.

Kieran Chandler: Rob, lascerò a te l’ultima domanda. Riguardo a ciò di cui ha parlato Joannes, cose che saranno ancora qui tra 10 e 20 anni, riesci a immaginare che le tue librerie saranno ancora lì? Su cosa stai lavorando oggi che pensi sarà utile nei prossimi anni?

Rob Hyndman: La mia prima libreria pubblica risale al 2005, quindi sono durate finora 15 anni. Sono sicuramente impegnato a mantenerle tutte, anche quelle che considero superate da altre. Non è un grande sforzo farlo. I nuovi pacchetti su cui sto lavorando sono questo pacchetto chiamato Fable, che implementa la maggior parte delle stesse tecniche ma in modo diverso per rendere più facile per gli utenti fare previsioni su migliaia di serie temporali contemporaneamente. Fable e alcuni pacchetti correlati sono stati pubblicati da un paio di anni, e il mio nuovo libro di testo li utilizza. Mi aspetto che vengano ampiamente utilizzati per almeno 10 anni, e finché sono in grado, li manterrò e mi assicurerò che siano disponibili. Sono fortunato ad avere un assistente molto bravo che mi aiuta con la manutenzione dei pacchetti. Anche lui è impegnato nel mondo dell’open source e nel fornire software di alta qualità nello sviluppo open source.

Kieran Chandler: È fantastico, e il mondo dell’open source permette a tutti di avervi accesso. Grazie mille a entrambi per il vostro tempo. Dobbiamo concludere qui, e grazie per averci seguito. Ci vediamo nel prossimo episodio.