Previsioni Probabilistiche (Supply Chain)

Di Joannes Vermorel, novembre 2020

Una previsione viene definita probabilistica (anziché deterministica), quando contiene un insieme di probabilità associate a tutti i possibili risultati futuri, piuttosto che individuare un particolare risultato come "la" previsione. Le previsioni probabilistiche sono importanti in quelle situazioni in cui l'incertezza è inevitabile, cosa che si verifica quasi sempre quando si ha a che fare con sistemi complessi. Per quanto riguarda le supply chains, le previsioni probabilistiche sono essenziali per produrre decisioni solide a fronte di condizioni future incerte. In particolare, la domanda e il lead time, due aspetti chiave dell'analisi della supply chain, sono entrambi gestiti al meglio grazie alle previsioni probabilistiche. La prospettiva probabilistica si presta naturalmente alla prioritizzazione economica delle decisioni sulla base dei loro rendimenti attesi ma incerti. Una grande varietà di modelli statistici fornisce previsioni probabilistiche. Alcuni sono strutturalmente vicini a quelli delle loro controparti deterministiche, mentre altri sono molto diversi. La valutazione dell'accuratezza di una previsione probabilistica richiede metriche specifiche, differenti da quelle utilizzate per le previsioni deterministiche, così come l’utilizzo di previsioni probabilistiche richiede strumenti specifici che si discostano da quelli utilizzati per le previsioni deterministiche.

A lot of dices illustrating probabilistic forecasting.



Previsioni deterministiche vs. previsioni probabilistiche

L'ottimizzazione delle supply chains si basa sulla corretta anticipazione degli eventi futuri. Numericamente, questi eventi sono anticipati attraverso previsioni, che comprendono una grande varietà di metodi matematici utilizzati per quantificare proprio questi eventi futuri. A partire dagli anni '70, la forma di previsione più utilizzata è stata la previsione deterministica delle serie temporali: una quantità misurata nel tempo – ad esempio la domanda (in unità) di un prodotto – viene proiettata nel futuro. La sezione passata delle serie temporali è il dato storico, mentre la sezione futura è la previsione.

Moving average as a deterministic forecast.
MA è l'acronimo di "media mobile", che non è particolarmente ben tollerata nelle serie temporali rade.


Queste previsioni delle serie temporali sono dette deterministiche perché per ogni punto di tempo futuro, la previsione fornisce un unico valore che ci si aspetta corrisponda il più possibile al risultato futuro. Infatti, sebbene la previsione abbia un valore unico, è universalmente riconosciuto che essa ha scarse possibilità di essere perfettamente corretta. I risultati futuri si discosteranno dalla previsione. L'aderenza della previsione deterministica ai suoi risultati futuri è valutata quantitativamente attraverso metriche di accuratezza, come ad esempio l'errore quadratico medio (dall’inglese Mean Squared Error o MSE).

Le previsioni probabilistiche adottano invece una prospettiva diversa sull'anticipazione dei risultati futuri. Invece di produrre un solo valore come "migliore" risultato, la previsione probabilistica assegna una probabilità ad ogni possibile risultato. In altre parole, tutti gli eventi futuri rimangono possibili, anche se non sono ugualmente probabili. Qui di seguito è riportata la rappresentazione di una previsione probabilistica delle serie temporali che mostra l'"effetto fucile", che si osserva in genere nella maggior parte delle situazioni del mondo reale. Ritorneremo su questa rappresentazione in modo più dettagliato più in basso.

A probabilistic demand forecast.
Una previsione probabilistica che illustra una situazione di grande incertezza.


La serie temporale, una quantità misurata nel tempo, è probabilmente il modello di dati più conosciuto ed utilizzato. Questo modello di dati può essere pronosticato sia con mezzi deterministici che probabilistici. Tuttavia, esistono anche altri modelli, in genere più sofisticati, che si prestano a previsioni di entrambi i tipi. Ad esempio, un'azienda che ripara motori a reazione potrebbe voler prevedere l'elenco esatto dei pezzi di ricambio che saranno necessari per un’imminente operazione di manutenzione. Questa anticipazione può assumere la forma di una previsione, ma non sarà una previsione di serie temporali. La previsione deterministica associata a questa operazione consiste nell’elenco esatto dei pezzi di ricambio e delle quantità associate. Al contrario, la previsione probabilistica è la probabilità per ogni combinazione di parti (quantità incluse) che questa specifica combinazione sia quella richiesta per eseguire le riparazioni.

Inoltre, mentre il termine "previsione" sottolinea un'anticipazione di qualche tipo, l'idea può essere generalizzata a qualsiasi tipo di affermazione statisticamente dedotta su un sistema, anche per le sue proprietà passate (ma sconosciute). La pratica della previsione statistica è emersa nel corso del XX secolo, prima dell'avvento della più moderna prospettiva di apprendimento statistico, che racchiude tutte le estrapolazioni di dati che possono essere effettuate, indipendentemente dalla dimensione temporale. Per chiarezza, continueremo a usare il termine "previsione" nel seguito, anche se l'aspetto temporale equipara sempre il passato con il noto e il futuro con l'ignoto. Ad esempio, un'azienda potrebbe voler stimare le vendite che avrebbero avuto luogo in un negozio se un determinato prodotto prodotto non fosse stato esaurito in un determinato giorno. La stima è utile per quantificare l'entità del problema in termini di qualità del servizio. Tuttavia, poiché l'evento è passato, il dato "reale" delle vendite non sarà mai osservato. Ciononostante, supponendo che non sia stato ancora minimamente osservato, la stima statistica della domanda passata è un problema che si avvicina molto alla stima della domanda futura.

Le previsioni probabilistiche sono più complete – dal punto di vista informativo – delle loro controparti deterministiche. Sebbene la previsione deterministica fornisca una "migliore ipotesi" sull'esito futuro, non dice nulla sulle alternative. Di fatto, è sempre possibile convertire una previsione probabilistica nella sua controparte deterministica prendendo la media, la mediana, la modalità, ... della distribuzione delle probabilità. Ma non vale il contrario: non è possibile ricavare una previsione probabilistica da una deterministica.

Tuttavia, pur essendo statisticamente superiori alle previsioni deterministiche, le previsioni probabilistiche rimangono poco utilizzate nel campo della supply chain. Eppure, la loro popolarità è andata costantemente aumentando nel corso dell’ultimo decennio. Storicamente, le previsioni probabilistiche sono emerse più tardi, poiché richiedono un numero significativamente più importante di risorse di calcolo. Inoltre, il loro utilizzo ai fini della supply chain necessita di strumenti software specializzati, spesso non disponibili.

Esempi di utilizzo nella supply chain

Ottimizzare una supply chain consiste nel prendere la decisione "giusta" – al momento presente – che meglio affronterà una situazione futura che può essere solo stimata in modo imperfetto. Tuttavia, l'incertezza associata agli eventi futuri è in larga misura inevitabile. Pertanto, l'azienda ha bisogno che la decisione sia solida se l'anticipazione dell'evento futuro – la previsione – è imperfetta. Questo è stato fatto in minima parte dalla metà del XX secolo attraverso l'analisi delle scorte di sicurezza. Tuttavia, come vedremo più avanti, oltre all'interesse storico, non c'è più motivo di privilegiare le scorte di sicurezza rispetto alle formule numeriche probabilistiche "native".

La prospettiva della previsione probabilistica assume una posizione radicale nei confronti dell'incertezza: l’approccio cerca infatti di quantificare al massimo l'incertezza. Nella supply chain, i costi tendono a concentrarsi sugli estremi statistici: è una domanda inaspettatamente alta a creare lo stockout ed è una domanda inaspettatamente bassa che crea il write-off delle scorte. Nel mezzo, l'inventario ruota senza problemi. Le previsioni probabilistiche sono, in poche parole, un tentativo di gestire queste situazioni a bassa frequenza e ad alto costo, onnipresenti nelle moderne supply chains. Le previsioni probabilistiche possono e devono essere viste come un ingrediente fondamentale di qualsiasi pratica di gestione del rischio all'interno della supply chain.

Molti aspetti delle supply chains sono particolarmente indicati per le previsioni probabilistiche, come ad esempio:

  • La domanda: indumenti, accessori, pezzi di ricambio; così come molti altri tipi di prodotti, tendono ad essere associati a una domanda irregolare e/o intermittente. Il lancio di nuovi prodotti può rivelarsi un successo o un insuccesso. Le promozioni dei concorrenti possono cannibalizzare temporaneamente e in modo irregolare ampie porzioni di quote di mercato.
  • I lead times: le importazioni dall'estero possono subire tutta una serie di ritardi in qualsiasi punto della supply chain (produzione, trasporto, dogana, ricezione, ecc.). Anche i fornitori locali possono presentare dei lead times più lunghi se riscontrano, ad esempio, un problema di stockout. I lead times tendono ad essere distribuzioni "a coda pesante".
  • Il rendimento (alimenti freschi): la quantità e la qualità della produzione di molti prodotti freschi dipendono da condizioni, come il meteo, che sono al di fuori del controllo dell'azienda. Le previsioni probabilistiche quantificano questi fattori per l'intera stagione e offrono la possibilità di andare oltre l'orizzonte di riferimento previsto dalle previsioni meteorologiche classiche.
  • I resi (e-commerce): quando un cliente ordina lo stesso prodotto in tre taglie diverse, le probabilità che due di queste vengano restituite sono elevate. Più in generale, e nonostante vi siano forti differenze regionali, i clienti tendono a sfruttare le politiche di reso favorevoli (se esistenti). La probabilità di restituzione per ogni ordine dovrebbe essere valutata.
  • Gli scarti (aviazione): i pezzi riparabili – spesso chiamati rotables – a volte non vengono riparati. In questo caso, il pezzo viene scartato, in quanto non è più idoneo ad essere montato su di un aereo. Sebbene in genere non sia possibile sapere in anticipo se un pezzo sopravviverà o meno alla riparazione, le probabilità che il pezzo venga rottamato dovrebbero essere stimate.
  • Gli stock (vendita al dettaglio B2C): i clienti possono spostare, danneggiare o addirittura rubare le merci presenti in negozio. Pertanto, il livello delle scorte elettroniche è solo un'approssimazione della reale disponibilità sugli scaffali. Il livello delle scorte, così come percepito dai clienti, dovrebbe essere stimato attraverso una previsione probabilistica.


Questo breve elenco dimostra che gli ambiti di applicazione di una previsione probabilistica superano di gran lunga gli ambiti tradizionali delle "previsioni della domanda". L'ottimizzazione ben congegnata di una supply chain richiede di tenere conto di tutte le fonti rilevanti di incertezza. Anche se a volte è possibile ridurre l'incertezza – come sottolinea il concetto di produzione snella – ci sono di solito dei compromessi economici, e di conseguenza, una certa quantità di incertezza rimane inevitabile.

Le previsioni sono, tuttavia, solo delle opinioni educate sul futuro. Anche se le previsioni probabilistiche possono essere considerate come opinioni a grana molto fine, non sono sostanzialmente diverse dalle loro controparti deterministiche a questo proposito. Il valore, per quanto riguarda la supply chain, delle previsioni probabilistiche si trova nel modo in cui questa struttura a grana fine viene impiegata per fornire decisioni più redditizie. Nello specifico, non ci si aspetta che le previsioni probabilistiche siano più accurate delle loro controparti deterministiche, se si utilizzano metriche di accuratezza deterministica per valutare la qualità delle previsioni.

In difesa della variabilità

Nonostante quello che molti approcci alla supply chain sostengono, la variabilità è destinata a rimanere – da qui la necessità di avere previsioni probabilistiche. Il primo errore è considerare la variabilità come una cosa negativa per una supply chain; non lo è affatto. Il secondo errore è credere che la variabilità possa essere progettata; non può esserlo.

La variabilità ha implicazioni positive per le supply chains in molte situazioni. Per esempio, dal punto di vista della domanda, la maggior parte dei settori, come ad esempio quello della moda, dei prodotti culturali, del lusso (soft e hard che sia), sono guidati dalla novità: si tratta di aziende "hit or miss". La maggior parte dei nuovi prodotti non sono dei veri e propri successoni (miss), ma quelli che hanno successo (hit) producono rendimenti elevatissimi. Una variabilità extra è positiva perchè aumenta la probabilità di rendimenti fuori misura, mentre gli aspetti negativi rimangono limitati (nel peggiore dei casi, l'intero inventario viene liquidato). L'incessante flusso di nuovi prodotti immessi sul mercato assicura il costante rinnovamento degli "articoli di successo", mentre quelli meno recenti sono in calo.

Dal punto di vista dell'offerta, un procedimento di sourcing che garantisce offerte a prezzi altamente variabili è superiore – a parità di condizioni – a un procedimento alternativo che genera prezzi molto più stabili (ovvero meno variabili). Infatti, l'opzione a prezzo più basso viene selezionata mentre le altre vengono respinte. Non importa se il prezzo "medio" di provenienza è basso, ciò che conta è scoprire le fonti a prezzo più basso. Quindi, il buon procedimento di sourcing dovrebbe essere concepito per aumentare la variabilità, per esempio enfatizzando la ricerca di nuovi fornitori, invece di limitare il processo di sourcing a quelli già esistenti.

A volte, la variabilità può essere vantaggiosa per ragioni più subdole. Ad esempio, se un marchio è troppo prevedibile nelle proprie operazioni promozionali, i clienti identificano il modello e cominciano a posticipare l'acquisto a quando si aspettano che ci sia una promozione in arrivo. La variabilità – ma anche l'erraticità – delle attività promozionali attenua in qualche misura questo fenomeno.

Un altro esempio è la presenza di fattori di confusione all'interno della stessa supply chain. Se i nuovi prodotti vengono sempre lanciati sia con una campagna televisiva che con una radiofonica, diventa statisticamente difficile distinguere i rispettivi impatti di TV e radio. L'aggiunta di variabilità all'intensità della campagna a seconda del canale assicura che successivamente si possano estrapolare più informazioni statistiche da tali operazioni, che possono essere successivamente trasformate in insight per una migliore allocazione delle risorse marketing.

Chiaramente, non tutta la variabilità è positiva. Il concetto di produzione snella sottolinea infatti che, sul lato della produzione della supply chain, la variabilità è dannosa, soprattutto quando si tratta di ritardi variabili. Infatti, i processi LIFO (last-in first-out) possono accidentalmente insinuarsi, il che, a sua volta, aggrava la variabilità del lead time. In queste situazioni, la variabilità accidentale dovrebbe essere eliminata, in genere attraverso un processo più efficiente, a volte con attrezzature o strutture migliori.

La variabilità, anche se dannosa, è spesso inevitabile. Come vedremo nel prossimo paragrafo, le supply chains si adeguano alla legge dei piccoli numeri. È illusorio pensare che il livello degli stock in negozio possa essere previsto in modo affidabile – da un punto di vista deterministico – anche perchè i clienti non sempre sanno cosa acquisteranno. Più in generale, ridurre la variabilità ha sempre un costo (e abbassarla ulteriormente costa ancora di più), mentre la riduzione marginale della variabilità porta solo rendimenti decrescenti. Pertanto, anche quando la variabilità può essere ridotta, molto raramente può essere completamente eliminata a causa delle implicazioni economiche.

La legge dei piccoli numeri

La legge dei piccoli numeri della supply chain può essere definita come: "I piccoli numeri prevalgono ovunque lungo la catena". Questa legge di osservazione è il risultato delle economie di scala e di poche altre forze che guidano la maggior parte degli aspetti strutturali delle supply chains:

  • un fornitore che rifornisce decine di migliaia di unità di materiali al giorno ha probabilmente dei quantitativi minimi d'ordine (MOQ) o sconti in base alle quantità acquistate che impediscono di effettuare ordini di acquisto con una frequenza troppo elevata. Il numero di ordini di acquisto trasmessi in un dato giorno a un fornitore raramente supera un numero di una sola cifra.
  • una fabbrica che produce decine di migliaia di unità al giorno è probabile che operi attraverso lotti composti da migliaia di unità. È probabile inoltre che la produzione venga confezionata in pallet. Il numero di lotti in un dato giorno è al massimo un piccolo numero a due cifre.
  • è probabile che un magazzino che riceve decine di migliaia di unità al giorno sia rifornito da camion, ed ogni camion scarica il suo intero contenuto nel magazzino. Il numero di consegne in un dato giorno raramente supera un numero a due cifre, anche per magazzini molto grandi.
  • un negozio al dettaglio che può contenere decine di migliaia di unità in stock è in grado di ripartire il proprio assortimento in migliaia di referenze. Il numero di unità in magazzino per ogni prodotto supera molto raramente un numero a una sola cifra.
  • ...

Ovviamente, cambiando l'unità di misura, è sempre possibile gonfiare i numeri. Ad esempio, se invece di contare il numero di pallet si conta il numero di grammi di pallet, o il loro valore monetario in centesimi di dollaro, compaiono grandi numeri. Tuttavia, la legge dei piccoli numeri dovrebbe essere interpretata nel senso del contare le cose dal punto di vista della supply chain. Sebbene, in teoria, questo principio possa apparire abbastanza soggettivo, in pratica non è così, a causa delle ovvie e diverse pratiche delle moderne supply chains: pacchetti, scatole, pallet, contenitori, camion…

Questa legge è di grande rilevanza per le previsioni probabilistiche. In primo luogo, essa sottolinea che le previsioni discrete dominano nelle situazioni relative alla supply chain, cioè il risultato da anticipare (o decidere) è un intero, in contrapposizione ad un numero frazionato. Le previsioni probabilistiche sono particolarmente indicate per le situazioni discrete, poiché una probabilità può essere stimata per ogni risultato discreto. Al contrario, le previsioni deterministiche si scontrano con gli esiti discreti. Ad esempio, cosa significa che le vendite giornaliere attese di un prodotto sono di 1,3 unità? Le unità non sono vendute in modo frazionato. Mentre da questa affermazione si possono dedurre interpretazioni "discrete" più sensate, la sua controparte probabilistica (ad esempio, 27% di probabilità di 0 unità, 35% di probabilità di 1 unità, 23% di 2 unità, ecc.) è molto più diretta, perché abbraccia la natura discreta del fenomeno di riferimento.

In secondo luogo, anche se le previsioni probabilistiche possono sembrare radicalmente più impegnative in termini di risorse di calcolo grezze, non è esattamente così nella pratica, proprio per la legge dei piccoli numeri. Infatti, tornando alle vendite giornaliere di prodotti di cui si è parlato sopra, non ha senso valutare numericamente le probabilità che la domanda superi le 100 unità in un dato giorno. Tali probabilità possono essere arrotondate a zero – o a qualche valore arbitrariamente piccolo. L'impatto sulla precisione numerica del modello della supply chain rimane trascurabile. Come regola generale, è ragionevole considerare che le previsioni probabilistiche richiedono circa tre ordini di grandezza in più di risorse di calcolo rispetto alle loro controparti deterministiche. Tuttavia, nonostante queste spese di gestione, i benefici in termini di performance della supply chain superano di gran lunga il costo delle risorse di calcolo.

Metriche di precisione per le previsioni probabilistiche

Qualunque cosa accada, una previsione probabilistica ben concepita indica che vi era effettivamente una probabilità non nulla che questo risultato si verificasse. Questo è interessante perché a prima vista può sembrare che le previsioni probabilistiche siano in qualche modo immuni dalla realtà, proprio come un indovino che fa affermazioni profetiche molto ambigue che non possono essere smentite, poiché l'indovino può sempre suggerire una spiegazione posteriore sul modo corretto di interpretare le profezie. In realtà, esistono molteplici modi per valutare quantitativamente la qualità di una previsione probabilistica. Alcuni di questi modi sono metriche simili nello spirito alle metriche utilizzate per valutare l'accuratezza delle previsioni deterministiche. Altri modi divergono in modi più estremi e profondi rispetto alla prospettiva deterministica.

Passiamo brevemente in rassegna quattro approcci utili per valutare l'accuratezza di una previsione probabilistica:

  • la funzione di perdita pinball
  • il continuous ranked probability score (CRPS)
  • la probabilità bayesiana
  • la prospettiva generativa antagonista

La funzione di perdita pinball offre una metrica di precisione per una stima quantile da ricavare da una previsione probabilistica. Ad esempio, se si vuole valutare la quantità di stock che ha il 98% di probabilità di essere maggiore o uguale alla domanda del cliente in un negozio per un determinato prodotto, tale quantità può essere ottenuta direttamente da previsioni probabilistiche semplicemente sommando le probabilità a partire da 0 unità di domanda, 1 unità di domanda etc., fino a quando la probabilità non supera di poco il 98%. La funzione di perdita pinball fornisce una misura diretta della qualità di questa stima parziale della domanda futura. Può essere vista come uno strumento per valutare la qualità di qualsiasi punto della funzione di densità cumulativa della previsione probabilistica.

Il continuous ranked probability score (CRPS) offre una metrica, che può essere interpretata come la "quantità di spostamento" della massa di probabilità necessaria per spostare tutta la massa di probabilità verso il risultato osservato. È la generalizzazione più diretta dell'errore medio assoluto (MAE) verso una prospettiva probabilistica. Il valore CRPS è omogeneo con l'unità di misura dell'esito stesso. Questa prospettiva può essere generalizzata a spazi metrici arbitrari, invece che a situazioni monodimensionali, attraverso la cosiddetta "teoria dei trasporti" e la distanza di Monge-Kantorovich (che va oltre lo scopo del presente articolo).

La probabilità e l’entropia incrociata adottano la prospettiva bayesiana del minimo grado di sorpresa: più alta è la probabilità dei risultati osservati, meglio è. Per esempio, abbiamo due modelli probabilistici A e B: il modello A afferma che la probabilità di osservare 0 unità di domanda è del 50% per un dato giorno; il modello B afferma che la probabilità di osservare 0 unità di domanda è dell'1% per un dato giorno. Osserviamo la domanda in 3 giorni e otteniamo le seguenti osservazioni: 0, 0, 1. Il modello A aveva circa il 10% di probabilità di generare queste osservazioni, mentre il modello B, aveva solo una probabilità di circa lo 0,01%. Quindi, il modello B ha molte meno probabilità di essere il modello corretto rispetto al modello A. La probabilità si discosta dalla prospettiva deterministica di avere un criterio significativo assoluto per valutare i modelli. Al contrario, fornisce un meccanismo per confrontare i modelli, ma numericamente, il meccanismo può essere usato unicamente per confrontare i modelli.

La prospettiva generativa antagonista è la prospettiva più moderna in materia (Ian Goodfellow et al., 2014). In sostanza, questa prospettiva afferma che il modello probabilistico "migliore" è quello che può essere utilizzato per generare risultati – sullo stile Monte Carlo – indistinguibili da quelli reali. Ad esempio, se considerassimo lo storico delle transazioni di un ipermercato, potremmo troncare questa storia in un momento arbitrario del passato e utilizzare il modello probabilistico per generare transazioni false ma realistiche. Il modello sarebbe considerato "perfetto" se fosse impossibile, attraverso l'analisi statistica, recuperare il punto di tempo in cui il set di dati passa dai dati "reali" ai dati "falsi". Il senso dell'approccio generativo antagonista è quello di "imparare" le metriche che accentuano il difetto di qualsiasi modello probabilistico. Invece di concentrarsi su una particolare metrica, questa prospettiva sfrutta ricorsivamente le tecniche di machine learning per "imparare" le metriche stesse.

La ricerca di metodi per migliorare la qualità delle previsioni probabilistiche è un’area ancora in corso di esplorazione. Non c'è una chiara delimitazione tra le domande: "come produrre una previsione più attendibile?" e "come capire se una previsione è più attendibile? I recenti studi hanno notevolmente offuscato le linee di demarcazione tra le due domande, ed è probabile che le prossime scoperte implicheranno ulteriori cambiamenti nel modo stesso in cui le previsioni probabilistiche vengono considerate.

Probabilità sempre più piccole e funzione di verosimiglianza

Le probabilità molto piccole sorgono naturalmente quando si guarda ad una situazione multidimensionale attraverso il prisma delle previsioni probabilistiche. Queste piccole probabilità sono fastidiose perché i computer non elaborano numeri precisi a tempo indeterminato. I valori di probabilità grezzi sono spesso piccolissimi, nel senso che vengono arrotondati a zero a causa dei limiti della precisione numerica. La soluzione a questo problema non è l'aggiornamento del software a calcoli di precisione arbitraria – che è molto inefficiente in termini di risorse di calcolo – ma l'uso del "log-trick", che trasforma le moltiplicazioni in addizioni. Questo trucco è utilizzato – in un modo o nell'altro – da praticamente ogni software che si occupa di previsioni probabilistiche.

Supponiamo di avere $X_1$, $X_2$, …, $X_n$ variabili casuali che rappresentano la domanda giornaliera per tutti i $n$ diversi prodotti venduti all'interno di un determinato negozio. Lasciamo che $\hat{x}_1$, $\hat{x}_2$, .., $\hat{x}_n$ corrispondano alla domanda empirica osservata alla fine della giornata per ogni prodotto. Per il primo prodotto – regolato da$X_1$ - la probabilità di osservare $\hat{x}_1$ è scritta $P(X_1 = \hat{x}_1)$. Ora, supponiamo in modo un po' abusivo, ma per chiarezza, che tutti i prodotti siano assolutamente indipendenti dalla domanda. La probabilità per l'evento congiunto di osservare $\hat{x}_1$, $\hat{x}_2$, .., $\hat{x}_n$ è:

$$P(X_1 = \hat{x}_1 \dots X_n = \hat{x}_n) = \prod_{k=1}^n P(X_k = \hat{x}_k)$$ Se $P(X_k = \hat{x}_k) \approx \frac{1}{2}$ (approssimazione lorda) e $n = 10000$ allora la probabilità congiunta di cui sopra è dell'ordine di $\frac{1}{2^{10000}} \approx 5 * 10^{-3011}$, che è un valore molto piccolo. Questo valore scende al di sotto del più piccolo numero rappresentabile, anche considerando i numeri a virgola mobile a 64 bit che sono generalmente utilizzati per il calcolo scientifico.

Il log-trick consiste nel lavorare con il logaritmo dell'espressione, ovvero:

$$\ln P(X_1 = \hat{x}_1 \dots X_n = \hat{x}_n) = \sum_{k=1}^n \ln P(X_k = \hat{x}_k)$$ Il logaritmo trasforma la serie di moltiplicazioni in una serie di addizioni, che si rivelano essere molto più stabili, dal punto di vista numerico, di una serie di moltiplicazioni.

L'uso del log-trick è frequente quando si ha a che fare con previsioni probabilistiche. La funzione di verosimiglianza è letteralmente il logaritmo della probabilità (introdotta in precedenza) proprio perché la probabilità grezza sarebbe di solito numericamente non rappresentabile considerando i comuni tipi di numeri a virgola mobile.

Approcci algoritmici per le previsioni probabilistiche

La questione della generazione computerizzata di previsioni probabilistiche è vasta quasi quanto il campo del machine learning stesso. Le eventuali delimitazioni tra i due campi sono per lo più una questione di scelte soggettive. Tuttavia, questa sezione presenta una lista piuttosto selettiva di approcci algoritmici che possono essere utilizzati per ottenere previsioni probabilistiche.

All'inizio del XX secolo, e probabilmente già alla fine del XIX secolo, è emersa l'idea degli stock di sicurezza, secondo cui l'incertezza della domanda è modellata su una distribuzione normale. Poiché le tabelle precalcolate della distribuzione normale erano già state stabilite per altre scienze, in particolare per la fisica, l'applicazione di stock di sicurezza richiedeva solo la moltiplicazione di un livello di domanda per un coefficiente di "stock di sicurezza" ricavato da una tabella preesistente. A titolo di aneddoto, molti libri di testo sulla supply chain scritti fino agli anni '90 contenevano ancora nelle loro appendici queste tabelle della distribuzione normale. Sfortunatamente, il principale svantaggio di questo approccio è che le distribuzioni normali non sono una proposta ragionevole per le supply chains. In primo luogo, per quanto riguarda le supply chains, è lecito supporre che nulla sia mai normalmente distribuito. In secondo luogo, la distribuzione normale è una distribuzione continua, il che è in contrasto con la natura discreta degli eventi della supply chain (si veda sopra la "Legge dei piccoli numeri"). Pertanto, mentre tecnicamente gli "stock di sicurezza" hanno una componente probabilistica, la metodologia di base e le ricette numeriche sono saldamente orientate verso una prospettiva deterministica. Questo approccio è qui elencato per chiarezza.

In rapida ascesa verso i primi anni 2000, i metodi di apprendimento collettivo – i cui rappresentanti più noti sono probabilmente le foreste casuali e gli alberi decisionali – sono relativamente semplici da estendere dalle loro origini deterministiche alla prospettiva probabilistica. L'idea chiave alla base dell'apprendimento collettivo è quella di combinare numerosi e deboli predittori deterministici, come gli alberi decisionali, in un predittore deterministico superiore. Tuttavia, è possibile regolare il processo di miscelazione per ottenere delle probabilità piuttosto che un singolo aggregato, trasformando così il metodo di apprendimento collettivo in un metodo di previsione probabilistica. Questi metodi non sono parametrici e sono in grado di adattarsi a distribuzioni a coda pesante e/o multimodali, che si trovano comunemente nella supply chain. Questi metodi tendono ad avere due notevoli svantaggi. In primo luogo, per costruzione, la funzione di probabilità di densità prodotta da questa classe di modelli tende ad includere molti zeri, il che impedisce qualsiasi tentativo di sfruttare la metrica di verosimiglianza. Più in generale, questi modelli non si adattano alla prospettiva bayesiana, poiché le osservazioni più recenti sono spesso dichiarate "impossibili" (zero probabilità) dal modello. Questo problema, tuttavia, può essere risolto con metodi di regolarizzazione[1]. In secondo luogo, i modelli tendono ad essere grandi quanto una frazione considerevole del dataset di input, e l'operazione di "previsione" tende ad essere tanto costosa dal punto di vista computazionale quanto l'operazione di "apprendimento".

I metodi iperparametrici conosciuti collettivamente sotto il nome di "deep learning", emersi in modo esplosivo nella seconta decade de XXI secolo, erano, per puro caso, quasi probabilistici. Infatti, mentre la stragrande maggioranza degli ambiti in cui il deep learning funziona davvero (ad esempio la classificazione delle immagini) si concentrano solo su previsioni deterministiche, si scopre che la metrica dell’entropia incrociata – una variante della funzione di verosimiglianza discussa sopra – presenta gradienti molto ripidi, che spesso ben si adattano alla discesa stocastica (dall’inglese Stochastic Gradient Descent o SGD), che si trova al centro dei metodi di deep learning. Pertanto, i modelli di deep learning si rivelano essere progettati come probabilistici, non perché le probabilità fossero interessanti, ma perché la discesa del gradiente converge più velocemente quando la funzione di perdita riflette una previsione probabilistica. Così, per quanto riguarda il deep learning, la supply chain si distingue per il suo interesse per l'effettivo output probabilistico del modello di deep learning, mentre la maggior parte degli altri casi d'uso fa collassare la distribuzione delle probabilità alla sua media, mediana o modalità. La Mixture Density Networks è un tipo di rete di deep learning orientata all'apprendimento di distribuzioni di probabilità complesse. Il risultato stesso è una distribuzione parametrica, eventualmente fatta di gaussiani. Tuttavia, a differenza delle "scorte di sicurezza", una miscela di molti gaussiani può, in pratica, riflettere i comportamenti della coda pesante che si osservano nelle supply chains. Mentre i metodi di deep learning sono spesso considerati come lo stato dell'arte, va notato che il raggiungimento della stabilità numerica, soprattutto quando sono coinvolte density mixtures, rimane un po' un'"arte oscura".

La programmazione differenziabile è una discendente del deep learning, che ha guadagnato popolarità alla fine della prima decade del XXI secolo. Ha molti attributi tecnici in comune con il deep learning, ma differisce in modo significativo da quest’ultimo per quanto riguarda la messa a fuoco. Mentre il deep learning si concentra sull'apprendimento di funzioni complesse arbitrarie (ad es. giocare a Go) impilando un gran numero di funzioni semplici (ad es. livelli convoluzionali), la programmazione differenziabile si concentra sulla struttura fine del processo di apprendimento. La struttura più fine e più espressiva, letteralmente, può essere formattata come programma, che coinvolge rami, loop, chiamate di funzione, ecc. La programmazione differenziabile è di grande interesse per la supply chain, perché i problemi tendono a presentarsi in modi altamente strutturati, e tali strutture sono note agli esperti[2]. Ad esempio, le vendite di una data camicia possono essere cannibalizzate da quelle di un'altra camicia di colore diverso, ma non saranno cannibalizzate dalle vendite di una camicia di tre taglie in più. Tali priori strutturali sono fondamentali per ottenere un'elevata efficienza dei dati. Infatti, dal punto di vista della supply chain, la quantità di dati tende ad essere molto limitata (si veda il paragrafo dedicato alla legge dei piccoli numeri). Quindi, "inquadrare" strutturalmente il problema aiuta a garantire che i modelli statistici desiderati siano appresi, anche quando si affrontano dati limitati. I priori strutturali aiutano anche ad affrontare i problemi di stabilità numerica. Rispetto ai metodi di insieme, i priori strutturali tendono ad essere un aspetto meno dispendioso in termini di tempo rispetto all'ingegneria delle caratteristiche; anche la manutenzione dei modelli è semplificata. Lo svantaggio è che la programmazione differenziabile rimane ad oggi una prospettiva relativamente recente.

Il metodo Monte Carlo (1930 / 1940) può essere utilizzato per approcciare le previsioni probabilistiche da un'angolazione diversa. I modelli finora discussi forniscono funzioni di densità di probabilità (dall’inglese Probability Density Functions o PDF). Tuttavia, dal punto di vista del metodo Monte Carlo, un modello può essere sostituito da un generatore – o sampler – che genera casualmente i possibili risultati (talvolta chiamati "deviazioni"). I PDF possono essere recuperati facendo la media dei risultati del generatore, anche se spesso i PDF vengono bypassati completamente per ridurre i requisiti in termini di risorse computazionali. In effetti, il generatore è spesso progettato per essere molto più compatto, in termini di dati, dei PDF che rappresenta. La maggior parte dei metodi di machine learning – compresi quelli elencati sopra per gestire direttamente le previsioni probabilistiche – possono contribuire all'apprendimento di un generatore. I generatori possono assumere la forma di modelli parametrici a bassa dimensione (ad esempio modelli di spazio di stato) o di modelli iperparametrici (ad esempio i modelli LSTM e GRU usati nel deep learning). I metodi Ensemble sono raramente utilizzati per supportare i processi generativi a causa dei loro elevati costi di calcolo per le loro operazioni di "previsione", su cui si fa ampio affidamento per supportare l'approccio Monte Carlo.

Lavorare con le previsioni probabilistiche

Per ricavare intuizioni e decisioni utili dalle previsioni probabilistiche è necessario uno strumento numerico dedicato. A differenza delle previsioni deterministiche, dove troviamo dei numeri semplici, le previsioni stesse sono o esplicite (funzioni di densità di probabilità), o generatori di Monte-Carlo. La qualità dello strumento probabilistico è, in pratica, importante quanto la qualità delle previsioni probabilistiche. Senza questo strumento, l’utilizzo di previsioni probabilistiche si trasforma in un processo deterministico (per saperne di più, si veda la sezione "Antipattern" più in basso).

Per esempio, lo strumento dovrebbe essere in grado di eseguire compiti come:

  • Combinare il tempo di produzione con il tempo di trasporto, entrambi incerti, per ottenere il tempo di trasporto "totale", anch'esso incerto.
  • Combinare la domanda con il tempo di consegna, entrambi incerti, per ottenere la domanda "totale", incerta, che deve essere soddisfatta con lo stock che sta per essere ordinato.
  • Combinare i resi con la data di arrivo dell'ordine del fornitore in transito, entrambi incerti, per ottenere il lead time incerto del cliente.
  • Aumentare la previsione della domanda, prodotta con un metodo statistico, con un rischio di coda derivante manualmente da una comprensione di alto livello di un contesto non riflesso dai dati storici, come una pandemia.
  • Combinare la domanda incerta con uno stato incerto degli stock in relazione alla data di scadenza (vendita al dettaglio di prodotti alimentari), per ottenere gli avanzi di stock di fine giornata incerti.
  • ...

Una volta che tutte le previsioni probabilistiche – non solo quelle della domanda – sono correttamente combinate, si dovrebbe procedere all'ottimizzazione delle decisioni relative alla supply chain. Ciò comporta una prospettiva probabilistica sui vincoli, così come la funzione score. Tuttavia, illustrare questo aspetto va oltre lo scopo del presente articolo.

Ci sono due ampie tipologie di strumenti per lavorare con le previsioni probabilistiche: il primo sono le algebre di variabili casuali ed il secondo la programmazione probabilistica. Queste due tue tipologie si completano a vicenda in quanto non hanno lo stesso mix di pro e contro.

Un'algebra di variabili casuali lavora in genere su funzioni esplicite di densità di probabilità. L'algebra supporta le consuete operazioni aritmetiche (addizione, sottrazione, moltiplicazione, ecc.) ma trasposte alle loro controparti probabilistiche, trattando spesso le variabili casuali come statisticamente indipendenti. L'algebra fornisce una stabilità numerica che è quasi alla pari con la sua controparte deterministica (cioè i numeri semplici). Tutti i risultati intermedi possono essere conservati per un uso successivo, il che si rivela molto utile per organizzare e risolvere i problemi della pipeline di dati. L'aspetto negativo è che l'espressività di queste algebre tende ad essere limitata, in quanto non è generalmente possibile esprimere tutte le sottili dipendenze condizionali che esistono tra le variabili casuali.

La programmazione probabilistica adotta una prospettiva Monte Carlo al problema. La logica è scritta una volta sola, in genere attenendosi ad una prospettiva interamente deterministica, ma viene eseguita più volte attraverso lo strumento (cioè il processo Monte Carlo) per raccogliere le statistiche desiderate. La massima espressività è ottenuta attraverso costrutti "programmatici": è possibile modellare dipendenze arbitrarie e complesse tra le variabili casuali. Anche la scrittura della logica stessa attraverso la programmazione probabilistica tende ad essere leggermente più semplice rispetto ad un'algebra di variabili casuali, in quanto la logica comporta solo numeri regolari. L'aspetto negativo è che vi è un costante compromesso tra la stabilità numerica (più iterazioni producono una migliore precisione) e le risorse di calcolo (più iterazioni hanno un costo maggiore). Inoltre, i risultati intermedi non sono in genere facilmente accessibili, in quanto la loro esistenza è solo transitoria, proprio per alleviare la pressione sulle risorse di calcolo…

Recenti lavori di approfondimento indicano che esistono anche altri approcci al di là dei due presentati sopra. Per esempio, gli autoencoder variazionali offrono prospettive per eseguire operazioni su spazi latenti, producendo risultati impressionanti mentre si cercano trasformazioni molto complesse sui dati (ad esempio, rimuovere automaticamente gli occhiali da un ritratto fotografico). Sebbene questi approcci siano concettualmente molto affascinanti, non hanno mostrato, fino ad oggi, molta rilevanza pratica nel risolvere i problemi della supply chain.

Rappresentazione delle previsioni probabilistiche

Il modo più semplice per visualizzare una distribuzione discreta delle probabilità è un istogramma, dove l'asse verticale indica la probabilità e l'asse orizzontale il valore della variabile casuale di interesse. Ad esempio, una previsione probabilistica di un lead time può essere rappresentata in questo modo:

A probabilistic lead time forecast represented as a histogram.
Una previsione probabilistica del lead time raffigurata tramite un istogramma.


Anche la domanda futura, sommata in un determinato periodo di tempo, può essere rappresentata da un istogramma. Più in generale, l'istogramma è adatto a tutte le variabili casuali unidimensionali su $\mathbb{Z}$, l'insieme dei relativi numeri interi.

La rappresentazione dell'equivalente probabilistico di una serie temporale equispaziata – ovvero una quantità che varia su periodi di tempo discreti di uguale lunghezza – è già molto più impegnativa. Infatti, a differenza della variabile casuale unidimensionale, non esiste una visualizzazione canonica di tale distribuzione. Attenzione, i periodi non possono essere considerati come indipendenti. Pertanto, sebbene sia possibile rappresentare una serie temporale "probabilistica" allineando una serie di istogrammi, uno per periodo, questa rappresentazione non raffigurerebbe a dovere il modo in cui gli eventi si svolgono in una supply chain.

A probabilistic demand forecast represented via quantile thresholds.
Una previsione probabilistica della domanda rappresentata tramite soglie quantili.


Ad esempio, non è improbabile che un prodotto appena lanciato abbia buone prestazioni e raggiunga elevati volumi di vendita (un successo). Non è nemmeno improbabile che lo stesso prodotto appena lanciato non abbia successo e registri bassi volumi di vendita (un insuccesso). Tuttavia, grandi oscillazioni quotidiane tra i livelli di vendita "hit-or-miss" sono estremamente improbabili.

Gli intervalli di previsione, che si riscontrano spesso nella letteratura sulla supply chain, sono in qualche modo fuorvianti. Essi tendono ad enfatizzare situazioni a bassa incertezza che non sono rappresentative delle situazioni reali della supply chain;

Prediction intervals over time-series.
Estratto da Visualization of probabilistic forecasts, di Rob J Hyndman, 21 Novembre 2014


Si noti come questi intervalli di previsione siano esattamente le distribuzioni di probabilità, messe una accanto all'altra con uno schema di colorazione per delineare specifiche soglie quantilitiche.

Una migliore rappresentazione – che non migliora le forti dipendenze inter-periodo – è quella di guardare i valori cumulativi nel tempo, prendendo i quantili di questi, e poi differenziarli per recuperare gli incrementi per periodo (si veda l’illustrazione di una previsione probabilistica all'inizio del presente articolo). La visualizzazione è la stessa, ma la semantica sottostante è diversa. Ora stiamo esaminando i quantili rispetto agli scenari, delineando gli scenari estremamente favorevoli (o sfavorevoli).

Gli antipattern delle previsioni probabilistiche

Le previsioni probabilistiche mettono in discussione il modo in cui molte persone pensano "intuitivamente" al futuro. In questa sezione, trattiamo alcuni degli aspetti che spesso vengono fraintesi sulle previsioni probabilistiche.

Non esistono eventi "imprevedibili"

Dal punto di vista deterministico, prevedere l'esito di una lotteria è impossibile, in quanto le probabilità di vincerla sono "una su un milione". Tuttavia, dal punto di vista probabilistico, il problema è triviale: ogni biglietto ha "una probabilità di vincita su un milione". L'altissima varianza del risultato non va confusa con una certa "inconoscibilità" del fenomeno stesso, che può essere perfettamente compresa, come nel caso di una lotteria. La previsione probabilistica consiste nel quantificare e strutturare lo scostamento, non nell'eliminarlo.

Non esistono distribuzioni "normali"

Le distribuzioni normali, note anche come gaussiane, sono onnipresenti sia nella supply chain che nei libri di fisica. Eppure, per quanto riguarda gli affari umani, quasi nulla è "normalmente" distribuito. Le distribuzioni normali, per design, rendono le grandi deviazioni (rispetto alle deviazioni medie) estremamente rare, al punto da essere escluse dal modello - ovvero le probabilità sono inferiori a una su un miliardo. La domanda, il lead time, i rendimenti sono esempi di modelli che non sono distribuiti normalmente. L'unico aspetto positivo delle normali distribuzioni è che sono adatte ad evocare esercizi da manuale per gli studenti, in quanto si prestano a soluzioni analitiche esplicite.

Probabilità cherry picking

Quando ci si trova di fronte a una distribuzione di probabilità, si è tentati di scegliere un punto della distribuzione, generalmente la media o la mediana, e procedere in base a questo numero. Questo processo va contro l'essenza stessa dell'aspetto probabilistico della previsione. Le probabilità non dovrebbero essere ridotte a un unico punto di stima perché, indipendentemente dal punto scelto, questo processo comporta una massiccia perdita di informazioni. Pertanto, pur essendo alquanto inquietante, le probabilità sono destinate ad essere conservate come tali il più a lungo possibile. Il punto di collasso è generalmente la decisione finale della supply chain, che massimizza i rendimenti, pur affrontando futuri incerti.

Rimozione degli outlier statistici

La maggior parte dei metodi numerici classici – saldamente radicati nella prospettiva deterministica delle previsioni (ad esempio, le medie mobili) – si comportano malamente quando incontrano degli outlier statistici. Di conseguenza, molte aziende stabiliscono processi per "pulire" manualmente lo storico dei dati da questi outlier. Tuttavia, la necessità di un tale processo di pulizia non fa che evidenziare le carenze di tali metodi numerici. Al contrario, gli outlier statistici sono un ingrediente essenziale della previsione probabilistica in quanto contribuiscono ad ottenere un quadro migliore di ciò che accade nella coda della distribuzione. In altre parole, gli outlier sono la chiave per quantificare la probabilità di incontrare ulteriori outlier.

Portare una spada in uno scontro a fuoco

Per manipolare le distribuzioni di probabilità sono necessarie attrezzature specifiche. La produzione di una previsione probabilistica è solo un passo tra tanti per fornire un valore reale all'azienda. Molti professionisti della supply chain finiscono per ignorare le previsioni probabilistiche per la mancanza di strumenti adatti a farne uso. Molti venditori di software si sono uniti al carrozzone e sostengono di supportare le "previsioni probabilistiche" (insieme all' "IA" e alla "blockchain"), ma in realtà non sono mai andati oltre l'implementazione cosmetica di alcuni modelli probabilistici (si veda la sezione precedente). L'esposizione di un modello di previsione probabilistica non vale quasi nulla senza l'ampia strumentazione necessaria per sfruttarne i risultati numerici.

Note

[1]: La funzione smooth() presente in Envision è utile per regolarizzare le variabili casuali attraverso un processo di campionamento discreto.

[2]: La conoscenza preliminare della struttura del problema non deve essere confusa con la conoscenza preliminare della soluzione stessa. I "sistemi esperti" sono stati pionieri già negli anni '50, quando una raccolta di regole scritte a mano non ha funzionato, perché gli esperti non sono riusciti a mettere in pratica, tramite formule numeriche, la loro intuizione. I priori strutturali, utilizzati nella programmazione differenziabile delineano il principio della soluzione.