Quando si tratta di analisi dei dati, gli esperti sottolineano frequentemente (e giustamente) l’importanza di avere un dataset pulito prima di iniziare qualsiasi analisi. Altrimenti, si finisce con Garbage In, Garbage Out.

Di conseguenza, la maggior parte dei toolkit di previsione offre funzionalità estese per supportare la pulizia/preparazione dei dati; eppure, Lokad non fornisce alcuna funzionalità esplicita a supporto della pulizia dei dati.

Ci siamo persi qualcosa di IMPORTANTE qui?

No lo crediamo. Ci sono alcuni malintesi quando si parla di pulizia dei dati per il fine della previsione delle vendite (a breve termine). Infatti, oggi le vendite della maggior parte dei rivenditori, grossisti, produttori vengono archiviate in un ERP oppure in un sistema contabile. Dalla nostra esperienza, a partire dal 2010, i dati transazionali associati alle vendite sono sorprendentemente puliti. Se esiste una transazione registrata il 1° novembre 2010 che indica che il prodotto X è stato venduto in quantità Y, allora la probabilità che questa informazione sia vera è molto elevata, con una confidenza superiore al 99,9% per la maggior parte dei processi di vendita.

Infatti, le aziende non possono permettersi di non sapere cosa stanno vendendo. Di conseguenza, negli ultimi due decenni sono stati investiti sforzi massicci per assicurarsi veramente che i dati di vendita siano affidabili in una certa misura. Non stiamo dicendo che nessuna voce errata di vendita mai entri nel sistema, stiamo solo affermando che la proporzione è tipicamente insignificante.

Se i dati di vendita sono puliti, perché continuiamo a spingere per la pulizia dei dati?

Abbiamo osservato molte pratiche di pulizia dei dati nel settore, e risulta che le operazioni indicate come pulizia tendono a comprendere ben più della semplice ricerca dell'0,1% di transazioni errate. L’illustrazione qui sopra offre qualche spunto sulle operazioni effettive coinvolte nella fase tipica di pulizia dei dati: si tratta di livellare gli estremi. Ad esempio, le vendite parziali durante le rotture di stock vengono aumentate manualmente, e le vendite promozionali/eccezionali vengono limitate.

Per non dire, non crediamo a questo approccio. I dati di vendita reali non dovrebbero essere sostituiti dai dati di vendita fittizi. Infatti, nulla può dimostrare con certezza al 100% quanto i prodotti sarebbero stati venduti se non ci fosse stata alcuna carenza. Le vendite parziali sono gli unici dati tangibili che abbiamo e che non si basano già sull’estrapolazione statistica.

Tuttavia, c’è un interessante effetto collaterale della pratica di livellare gli estremi: la livellazione migliora l’accuratezza dei metodi di previsione naivi, che si comportano in modo molto simile alla media mobile.

È allettante, se l’unico strumento a tua disposizione è un martello, trattare tutto come se fosse un chiodo., Abraham Maslow, 1966

Cercare di adattare i dati di vendita per farli meglio combaciare con l’unico modello di previsione a disposizione è semplicemente un cattivo esempio della legge dello strumento. Il nostro approccio consiste nel affrontare direttamente i pattern complessi invece di cercare di eluderli.