Regressione Quantile

learn menu
Di Joannès Vermorel, febbraio 2012

La regressione quantile è un tipo di regressione (cioè previsione) che introduce appositamente un bias nel risultato. Invece di cercare la media della variabile da prevedere, la regressione quantile cerca la mediana e qualsiasi altro quantile (a volte chiamati percentili). I quantili sono particolarmente utili per l’ottimizzazione dell’inventario come metodo diretto per calcolare il punto di riordino.

Regressione qui è un sinonimo di previsione. “Regressione” enfatizza l’approccio matematico, mentre “previsione” enfatizza l’utilizzo pratico del risultato.

La nozione di regressione quantile è un argomento statistico relativamente avanzato, l’obiettivo di questo articolo non è quello di affrontare un trattamento rigoroso di questo argomento, ma piuttosto di fornire un’introduzione (relativamente) intuitiva all’argomento per i professionisti del settore al dettaglio o della produzione.

Illustrazione visiva dei quantili

Le serie temporali dei quantili inferiori e superiori affiancate alla serie temporale della previsione media.

Il grafico sopra illustra 3 diverse previsioni:

  • in rosso, una previsione del 75% dei quantili.
  • in nero, una previsione media.
  • in verde, una previsione del 25% dei quantili.

Visivamente, i quantili si comportano molto simili agli intervalli di confidenza. Tuttavia, nella pratica, il quantile è necessario solo per una singola percentuale target.

Quantili (o percentile) della domanda futura

La previsione classica e più intuitiva è la previsione media: i rispettivi pesi della sovrastima e della sottostima dovrebbero essere uguali, altrimenti la previsione è distorta (più precisamente distorta rispetto alla media).

Anche se avere una previsione non distorta è una proprietà desiderabile, non dice nulla sulla precisione della previsione. In particolare, una previsione può essere non distorta ma ampiamente imprecisa. Il bias si riferisce solo alla propensione del modello di previsione a sovrastimare o sottostimare il futuro.

Una prima raffinazione di questa visione è la previsione mediana: la rispettiva frequenza della sovrastima e della sottostima dovrebbe essere uguale, altrimenti le previsioni sono distorte rispetto alla mediana.

A questo punto, abbiamo già spostato la nozione di previsioni non distorte da pesi uguali verso probabilità uguali. Questo spostamento è sottile, ma in alcune situazioni potrebbe avere un grande impatto numerico.

Illustrazione: Reddito medio vs mediano delle famiglie negli Stati Uniti

Il reddito delle famiglie illustra la profonda differenza tra media e mediana.

Secondo l’Ufficio del censimento degli Stati Uniti, nel 2004 il reddito mediano delle famiglie era di $44.389, mentre nello stesso anno il reddito medio (media) era di $60.528, quasi il 40% più alto della mediana.

Questa discrepanza è spiegata dai redditi elevati (in confronto) delle famiglie più ricche degli Stati Uniti rispetto al resto della popolazione. Tale discrepanza tra media e mediana si troverà in tutte le distribuzioni che non sono simmetriche, tipicamente tutte le distribuzioni che non seguono una distribuzione normale.

Generalizzazione della mediana

La mediana rappresenta la soglia in cui la distribuzione è divisa in probabilità del 50/50. Tuttavia, è possibile considerare altri rapporti di frequenza. Ad esempio, possiamo considerare l'80/20 o il 90/10 o qualsiasi altro rapporto in cui il totale rimane al 100%.

I quantili rappresentano una generalizzazione della mediana per qualsiasi percentuale data. Per τ, un valore compreso tra 0 e 1, la regressione quantile Q(τ) rappresenta la soglia in cui la probabilità di osservare un valore inferiore alla soglia è esattamente τ.

Previsioni dei quantili

Sia le previsioni classiche che quelle dei quantili prendono in input una serie temporale. La serie temporale rappresenta i dati di input. Oltre ai dati, una previsione classica media delle serie temporali richiede due impostazioni strutturali aggiuntive:

  • il periodo, come giorno, settimana o mese.
  • l’orizzonte, un numero intero che rappresenta il numero di periodi da prevedere.

Implicitamente, la serie temporale viene aggregata in base al periodo, e l’orizzonte viene scelto in modo sufficientemente ampio da essere di utilità pratica, tipicamente maggiore del tempo di consegna.

Le previsioni medie beneficiano di una proprietà molto utile: è matematicamente corretto sommare le previsioni. Ad esempio, se y1, y2, y3 e y4 rappresentano la previsione a 4 settimane, allora se abbiamo bisogno della domanda prevista solo per le prossime due settimane, possiamo sommare y1+y2.

Tuttavia, sommando le previsioni dei quantili è matematicamente scorretto, o più precisamente la somma dei quantili non restituisce il quantile della somma (somma dei segmenti).

Illustreremo perché i quantili non possono essere sommati. Supponiamo che abbiamo un giocatore d’azzardo che gioca una moneta da $1 in una slot machine ogni settimana. Supponiamo che le probabilità di vincita siano del 1% per un premio di $50 e zero in caso contrario. Se guardiamo il quantile del 99% della ricompensa attesa, abbiamo una ricompensa settimanale di $50 ogni settimana. Tuttavia, se guardiamo il quantile del 99% per due settimane, la ricompensa attesa è ancora uguale a $50. Infatti, la probabilità di vincere due volte è solo dello 0,01% (1% moltiplicato per 1%), quindi il quantile del 99% rimane invariato. Sommando i due quantili settimanali del 99% darebbe $100, ma in realtà ci vogliono 16 settimane per accumulare $100 di guadagno per il quantile del 99% (la dimostrazione di questo risultato numerico non viene fornita in quanto andrebbe oltre lo scopo di questo articolo).

Poiché le previsioni dei quantili non possono essere sommate, le previsioni delle serie temporali dei quantili devono ripensare la stessa nozione di aggregazione per periodo. Infatti, produrre previsioni dei quantili per periodo è inutile, perché queste previsioni elementari non possono essere combinate per produrre quantili corretti su segmenti.

Pertanto, la previsione delle serie temporali dei quantili ha una struttura distinta:

  • τ il quantile di destinazione, in percentuale.
  • λ l’orizzonte che esprime una durata (tipicamente in giorni).

Ad esempio, se le serie temporali rappresentano le vendite di un prodotto A e abbiamo le impostazioni τ=0.90 e λ=14 giorni, allora la previsione dei quantili (τ, λ) restituirà il valore della domanda che ha esattamente il 90% di probabilità di essere maggiore della domanda totale osservata in 14 giorni (rispettivamente il 10% di probabilità di essere inferiore alla domanda nello stesso periodo di 14 giorni).

A differenza delle previsioni classiche, le previsioni dei quantili producono un solo valore per serie temporale, indipendentemente dall’orizzonte. In un certo senso, le previsioni dei quantili sono più agnostiche rispetto al periodo rispetto ai loro equivalenti classici.

Attenzione di Lokad

A prima vista, le previsioni dei quantili sembrano leggermente più complicate rispetto a quelle classiche. Tuttavia, in molte situazioni reali, gli operatori finiscono per produrre prima previsioni medie al fine di estrapolare immediatamente previsioni dei quantili, assumendo tipicamente che le previsioni seguano una distribuzione normale. Tuttavia, questa fase di estrapolazione rappresenta spesso il punto debole del processo e può degradare significativamente il risultato finale. La tecnologia di previsione dovrebbe adattarsi alle esigenze pratiche, ovvero fornire previsioni dei quantili native e non il contrario.

Ulteriori letture