Tre anni fa, abbiamo pubblicato [Overfitting: quando la misura dell’accuratezza va male](/blog/2009/4/22/overfitting-when-accuracy-measure-goes-wrong/), tuttavia l’overfitting è ben lontano dall’essere l’unica situazione in cui le semplici misurazioni di accuratezza possono essere molto fuorvianti. Oggi, ci concentriamo su una situazione molto soggetta a errori: la domanda intermittente, che si verifica tipicamente quando si analizzano le vendite a livello di negozio (o Ecommerce).

Crediamo che questo singolo problema da solo abbia impedito alla maggior parte dei rivenditori di adottare sistemi di previsione avanzati a livello di negozio. Come per la maggior parte dei problemi di previsione, è sottile, è controintuitivo, e alcune aziende chiedono molto per fornire risposte insoddisfacenti alla domanda.

Illustrazione delle vendite intermittenti

Le metriche di errore più popolari per le previsioni di vendita sono l’Errore Medio Assoluto (MAE) e l’Errore Percentuale Medio Assoluto (MAPE). Come linea guida generale, suggeriamo di utilizzare il MAE poiché il MAPE si comporta molto male quando le serie temporali non sono regolari, ovvero tutto il tempo, per quanto riguarda i rivenditori. Tuttavia, ci sono situazioni in cui anche il MAE si comporta male. Le basse volumi di vendita rientrano in queste situazioni.

Analizziamo l’illustrazione qui sopra. Abbiamo un articolo venduto in 3 giorni. Il numero di unità vendute nei primi due giorni è zero. Il terzo giorno viene venduta un’unità. Supponiamo che la domanda sia, in realtà, esattamente di 1 unità ogni 3 giorni. Tecnicamente parlando, si tratta di una distribuzione di Poisson con λ=1/3.

Di seguito, confrontiamo due modelli di previsione:

  • un modello piatto M a 1/3 ogni giorno (la media).
  • un modello piatto Z a zero ogni giorno.

Per quanto riguarda l’ottimizzazione delle scorte, il modello zero (Z) è dannoso. Presumendo che l’analisi delle scorte di sicurezza verrà utilizzata per calcolare un punto di riordino, una previsione zero è molto probabile che produca un punto di riordino pari a zero, causando frequenti esaurimenti di magazzino. Una metrica di accuratezza che favorirebbe il modello zero rispetto a previsioni più ragionevoli si comporterebbe piuttosto male.

Analizziamo i nostri due modelli in base al MAPE (*) e al MAE.

  • M ha un MAPE del 44%.
  • Z ha un MAPE del 33%.
  • M ha un MAE di 0.44.
  • Z ha un MAE di 0.33.

(*) La definizione classica del MAPE comporta una divisione per zero quando il valore effettivo è zero. Qui assumiamo che il valore effettivo venga sostituito con 1 quando è zero. In alternativa, avremmo potuto dividere per la previsione (anziché per il valore effettivo) o utilizzare il sMAPE. Questi cambiamenti non fanno differenza: la conclusione della discussione rimane la stessa.

In conclusione, qui, sia secondo il MAPE che il MAE, prevale il modello zero.

Tuttavia, si potrebbe sostenere che questa è una situazione semplicistica e che non riflette la complessità di un vero negozio. Questo non è del tutto vero. Abbiamo effettuato benchmark su decine di negozi al dettaglio, e di solito il modello vincente (secondo il MAE o il MAPE) è il modello zero - il modello che restituisce sempre zero. Inoltre, questo modello di solito vince con un margine confortevole su tutti gli altri modelli.

Nella pratica, a livello di negozio, fare affidamento sul MAE o sul MAPE per valutare la qualità dei modelli di previsione è chiamare guai: la metrica favorisce i modelli che restituiscono zeri; più zeri ci sono, meglio è. Questa conclusione vale per quasi tutti i negozi che abbiamo analizzato finora (ad eccezione di alcuni articoli ad alto volume che non soffrono di questo problema).

I lettori che sono familiari con le metriche di accuratezza potrebbero proporre di optare invece per l’Errore Quadratico Medio (MSE) che non favorirà il modello zero. Questo è vero, tuttavia, l’MSE quando applicato a dati erratici - e le vendite a livello di negozio sono erratiche - non è numericamente stabile. Nella pratica, qualsiasi valore anomalo nella storia delle vendite influenzerà notevolmente i risultati finali. Questo tipo di problema è LA ragione per cui gli statistici hanno lavorato così duramente sulle statistiche robuste in primo luogo. Non c’è pranzo gratis qui.

Come valutare quindi le previsioni a livello di negozio?

Ci è voluto molto, molto tempo per trovare una soluzione soddisfacente al problema di quantificare l’accuratezza delle previsioni a livello di negozio. Prima del 2011, stavamo essenzialmente barando. Invece di guardare i punti dati giornalieri, quando i dati sulle vendite erano troppo scarsi, passavamo tipicamente a aggregati settimanali (o addirittura a aggregati mensili per dati estremamente scarsi). Passando a periodi di aggregazione più lunghi, aumentavamo artificialmente i volumi di vendita per periodo, rendendo così di nuovo utilizzabile il MAE.

La svolta è arrivata solo alcuni mesi fa attraverso i quantili. In sostanza, l’illuminazione è stata: dimentica le previsioni, contano solo i punti di riordino. Cercando di ottimizzare le nostre previsioni classiche in base alle metriche X, Y o Z, stavamo cercando di risolvere il problema sbagliato.

Aspetta! Dal momento che i punti di riordino vengono calcolati in base alle previsioni, come puoi dire che le previsioni sono irrilevanti?

Non stiamo dicendo che le previsioni e l’accuratezza delle previsioni siano irrilevanti. Tuttavia, stiamo affermando che conta solo l’accuratezza dei punti di riordino stessi. La previsione, o qualsiasi altra variabile utilizzata per calcolare i punti di riordino, non può essere valutata da sola. Solo l’accuratezza dei punti di riordino deve e dovrebbe essere valutata.

Risulta che esiste una metrica per valutare i punti di riordino: è la funzione di perdita pinball, una funzione che è nota agli statistici da decenni. La funzione di perdita pinball è nettamente superiore non per le sue proprietà matematiche, ma semplicemente perché si adatta al trade-off dell’inventario: troppo stock vs troppi stockout.