Quando si tratta di analisi dei dati, gli esperti sottolineano spesso (e giustamente) l’importanza di avere un dataset pulito prima di iniziare qualsiasi analisi. Altrimenti, si finisce con la spazzatura in entrata, spazzatura in uscita.

Di conseguenza, la maggior parte dei toolkit di previsione fornisce ampie funzionalità per supportare la pulizia dei dati / preparazione dei dati; eppure, Lokad non fornisce alcuna funzionalità esplicita per supportare la pulizia dei dati.

Abbiamo perso qualcosa di GRANDE qui?

Non crediamo di sì. Ci sono alcuni fraintendimenti quando si tratta di pulizia dei dati per le previsioni di vendita (a breve termine). Infatti, al giorno d’oggi, le vendite della maggior parte dei rivenditori, grossisti, produttori sono registrate in un ERP o in qualche sistema di contabilità. Sulla base della nostra esperienza, a partire dal 2010, i dati transazionali associati alle vendite sono notevolmente puliti. Se c’è una transazione registrata il 1 novembre 2010 che indica che il prodotto X è stato venduto in quantità Y, allora la probabilità che queste informazioni siano vere è molto alta, con una confidenza superiore al 99,9% per la maggior parte dei processi di vendita.

Infatti, le aziende non possono permettersi di non sapere cosa stanno vendendo. Di conseguenza, negli ultimi due decenni sono stati fatti sforzi massicci per assicurarsi che i dati sulle vendite siano affidabili in qualche misura. Non stiamo dicendo che nessuna voce di vendita errata entri mai nel sistema, stiamo solo dicendo che la proporzione è tipicamente non significativa.

Se i dati sulle vendite sono puliti, perché stiamo ancora facendo sforzi sulla pulizia dei dati?

Abbiamo osservato molte pratiche di pulizia dei dati nell’industria e si scopre che le operazioni indicate come pulizia tendono ad essere molto più che cercare effettivamente le transazioni errate dello 0,1%. L’illustrazione qui sopra fornisce alcune informazioni sulle operazioni effettive coinvolte in una tipica fase di pulizia dei dati: si tratta di smussare gli estremi. Ad esempio, le vendite parziali durante le scorte insufficienti vengono aumentate manualmente e le vendite promozionali/eccezionali vengono limitate.

Non c’è bisogno di dire che non crediamo in questo approccio. I dati sulle vendite reali non dovrebbero essere sostituiti da dati sulle vendite fittizie. Infatti, nulla può dire con il 100% di certezza quanti prodotti sarebbero stati venduti se non ci fosse stata alcuna carenza. Le vendite parziali sono gli unici dati tangibili che abbiamo che non si basano già su una statistica di interpolazione.

Tuttavia, c’è un interessante effetto collaterale della pratica di smussare-gli-estremi: lo smussamento migliora l’accuratezza dei metodi di previsione naive che si comportano molto come la media mobile.

È tentante, se l’unico strumento che hai è un martello, trattare tutto come se fosse un chiodo., Abraham Maslow, 1966

Cercare di adattare i dati sulle vendite per adattarli meglio all’unico modello di previsione a disposizione è solo un brutto caso della legge dello strumento. Il nostro approccio consiste nel affrontare direttamente i modelli complessi anziché cercare di aggirarli.