Misurare l'accuratezza delle previsioni

La maggior parte degli ingegneri ti dirà che:
Non puoi ottimizzare ciò che non misuri
Si scopre che le previsioni non fanno eccezione. Misurare l’accuratezza delle previsioni è uno dei pochi pilastri di ogni tecnologia di previsioni.
Un fraintendimento comune riguardo la misurazione dell’accuratezza è che Lokad debba aspettare che le previsioni diventino passate, per confrontare finalmente le previsioni con quanto realmente accaduto.
Sebbene questo approccio funzioni in una certa misura, presenta notevoli svantaggi:
- È dolorosamente lento: una previsione a 6 mesi richiede 6 mesi per essere validata.
- È molto sensibile a overfitting. L’overfitting non va preso alla leggera, ed è una delle poche cose che potrebbe compromettere gravemente le tue misurazioni di accuratezza.
Misurare l’accuratezza delle previsioni fornite è un compito arduo per noi. La misurazione dell’accuratezza rappresenta circa la metà della complessità della nostra tecnologia di previsioni: più avanzata è la tecnologia delle previsioni, maggiore è la necessità di misurazioni di accuratezza robuste.
In particolare, Lokad restituisce l’accuratezza delle previsioni associata a ciascuna previsione che forniamo (ad esempio, il nostro Excel-addin riporta l’accuratezza delle previsioni). La metrica utilizzata per la misurazione dell’accuratezza è il MAPE (Mean Absolute Percentage Error).
Per calcolare un’accuratezza stimata, Lokad procede (approssimativamente) tramite cross-validation ottimizzata per le previsioni su serie temporali. La cross-validation è più semplice di quanto sembri. Se consideriamo una previsione settimanale a 10 settimane in avanti con 3 anni (cioè 150 settimane) di dati storici, allora la cross-validation appare così:
- Prendi la prima settimana, effettua una previsione a 10 settimane in avanti, e confronta i risultati con l’originale.
- Prendi le prime 2 settimane, effettua una previsione a 10 settimane in avanti, e confronta.
- Prendi le prime 3 settimane, effettua una previsione a 10 settimane in avanti, e confronta.
- …
Il processo è piuttosto tedioso, poiché si finisce per ricalcolare le previsioni circa 150 volte per soli 3 anni di dati storici. Ovviamente, la cross-validation urla per essere automatizzata, e c’è poca speranza di affrontare tale processo senza il supporto del computer. Tuttavia, i computer costano tipicamente meno degli errori di previsione aziendale, e Lokad si affida al cloud computing per fornire tali computazioni ad alta intensità.
I tentativi di “semplificare” il processo descritto rischiano molto di causare problemi di overfitting. Suggeriamo di procedere con molta cautela, poiché l’overfitting non è un problema da prendere alla leggera. In caso di dubbi, attenersi a una cross-validation completa.
Commenti dei lettori (1)
Voglio calcolare l’accuratezza delle previsioni rispetto alle vendite, in cui ho una colonna con i dati reali delle vendite e altre due colonne con le previsioni. Ciò che mi serve è mostrare l’accuratezza di ciascuna previsione rispetto alle vendite reali in termini percentuali. Voglio calcolare l’accuratezza delle previsioni rispetto alle vendite, in cui ho una colonna con i dati reali delle vendite e altre due colonne con le previsioni. Ciò che mi serve è mostrare l’accuratezza di ciascuna previsione rispetto alle vendite reali in termini percentuali. Mostrare semplicemente la differenza percentuale non è sufficiente (può variare da -200% a +200% dato che i nostri responsabili delle vendite sono pessimi nelle previsioni), devo mostrare l’accuratezza come una cifra da 0% a 100%.
acekard 2i (8 years ago)