promotions.jpg

La previsione è quasi sempre un esercizio difficile, ma esiste un’area nel retail della merce generale considerata un ordine di grandezza più complicata rispetto alle altre: pianificazione promozioni. Da Lokad, la pianificazione delle promozioni è una delle frequenti sfide che affrontiamo per i nostri clienti più importanti, tipicamente mediante missioni Big Data ad hoc.

Questo post è il primo di una serie sulla pianificazione delle promozioni. Copriremo le varie sfide che i rivenditori affrontano nella previsione della domanda promozionale e forniremo alcuni spunti sulle soluzioni che proponiamo.

La prima sfida che i rivenditori affrontano quando gestiscono le promozioni è la qualità dei dati. Questo problema è solitamente ampiamente sottovalutato, sia dai rivenditori di medie dimensioni che da quelli grandi. Tuttavia, senza dati altamente qualificati sulle promozioni passate, l’intera iniziativa di pianificazione affronta un problema di Garbage In Garbage Out.

Problemi di qualità dei dati nei record delle promozioni

La qualità dei dati promozionali è tipicamente scarsa - o almeno molto peggiore rispetto alla qualità dei dati di vendita regolari. Un record promozionale, al livello più disaggregato, rappresenta un identificativo dell’articolo, un identificativo del negozio, una data di inizio (una data di fine) oltre a tutte le dimensioni che descrivono la promozione stessa.

Questi record promozionali presentano numerosi problemi:

  • I record esistono, ma il negozio non ha implementato completamente il piano promozionale, specialmente per quanto riguarda l’esposizione.
  • I record esistono, ma la promozione non si è mai verificata in nessuna sede della rete. Infatti, gli accordi promozionali sono tipicamente negoziati 3-6 mesi in anticipo con i fornitori. A volte un accordo viene cancellato con solo poche settimane di preavviso, ma i dati promozionali corrispondenti non vengono mai ripuliti.
  • Le iniziative off the record da parte dei negozi, come lo spostamento di un articolo in eccesso su scaffali finali, non vengono registrate. L’esposizione è uno dei fattori più determinanti nell’aumento promozionale e non dovrebbe essere sottovalutata.
  • I dettagli dei meccanismi promozionali non sono registrati in modo accurato. Ad esempio, la presenza di un imballaggio personalizzato e la descrizione strutturata dell’imballaggio sono raramente conservati.

Dopo aver osservato problemi simili in molti dataset dei rivenditori, riteniamo che la spiegazione sia semplice: ci sono pochi o nessun imperativo operativo per correggere i record promozionali. Infatti, se i dati di vendita sono errati, si creano così tanti problemi operativi e contabili, che la risoluzione del problema diventa rapidamente la priorità numero 1.

Al contrario, i record promozionali possono rimanere estremamente imprecisi per anni. Finché nessuno tenta di produrre un tipo di modello di previsione basato su tali record, i record inaccurati hanno un impatto negativo trascurabile sulle operazioni dei rivenditori.

La soluzione primaria a questi problemi di qualità dei dati è rappresentata dai processi di qualità dei dati, e validare empiricamente quanto siano resilienti tali processi di fronte alle condizioni reali del negozio.

Tuttavia, il miglior processo non può riparare i dati passati danneggiati. Poiché in genere sono necessari 2 anni di dati promozionali di qualità per ottenere risultati decenti, è importante investire in modo precoce e aggressivo nella storicizzazione dei record promozionali.

Problemi strutturali dei dati

Oltre ai problemi relativi ai record promozionali, la pianificazione accurata delle promozioni soffre anche di problemi più ampi e insidiosi legati al modo in cui le informazioni vengono raccolte nel retail.

Truncamento della cronologia: La maggior parte dei rivenditori non conserva indefinitamente la loro storia delle vendite. Di solito, i dati “vecchi” vengono eliminati seguendo due regole:

  • se il record ha più di 3 anni, allora elimina il record.
  • se l’articolo non è stato venduto per 1 anno, allora elimina l’articolo e tutti i record di vendita associati.

Ovviamente, a seconda del rivenditore, le soglie potrebbero differire, ma mentre la maggior parte dei grandi rivenditori esiste da decenni, è eccezionale trovare una storia delle vendite di 5 anni non troncata. Questi troncamenti si basano tipicamente su due false supposizioni:

  • conservare i dati vecchi è costoso: Conservare l’intera storia delle vendite di 10 anni (fino al livello di scontrino) di Walmart – e la tua azienda è certamente più piccola di Walmart – può essere fatto per meno di 1000 USD di storage al mese. L’archiviazione dei dati non è solo incredibilmente economica ora, lo era già incredibilmente economica 10 anni fa, per quanto riguarda le reti di retail.
  • i dati vecchi non servono a nulla: Sebbene i dati di 10 anni fa possano non avere scopi operativi, da un punto di vista statistico, anche i dati di 10 anni fa possono essere utili per affinare l’analisi su molti problemi. In parole povere, una lunga storia offre una gamma molto più ampia di possibilità per validare la prestazione dei modelli di previsione e per evitare problemi di overfitting.

Sostituire i GTIN con codici prodotto interni: Molti rivenditori conservano la loro storia delle vendite codificata con identificativi alternativi degli articoli invece dei GTIN nativi (ovvero UPC o EAN13 a seconda se ti trovi in Nord America o in Europa). Sostituendo il GTIN con codici identificativi ad hoc, si ritiene frequentemente che diventi più facile monitorare le sostituzioni dei GTIN e aiuti a evitare una storia segmentata.

Tuttavia, le sostituzioni dei GTIN non sono sempre accurate, e le voci errate diventano quasi impossibili da rintracciare. Peggio ancora, una volta che due GTIN sono stati fusi, i dati precedenti vengono persi: non è più possibile ricostruire i due insiemi originali di record di vendita.

Invece, è una pratica molto migliore preservare le voci del GTIN, perché i GTIN rappresentano la realtà fisica dell’informazione raccolta dal POS (point of sales). Successivamente, gli indizi per le sostituzioni dei GTIN dovrebbero essere memorizzati separatamente, rendendo possibile rivedere le associazioni in seguito, se necessario.

Non preservare le informazioni sull’imballaggio: Nel retail alimentare, molti prodotti sono declinati in una varietà di formati distinti: da porzioni individuali a porzioni familiari, da bottiglie singole a confezioni, dal formato regolare ai formati promozionali con +25%, ecc.

Preservare le informazioni su tali formati è importante perché per molti clienti un formato alternativo dello stesso prodotto è frequentemente un buon sostituto quando l’altro formato manca.

Ancora una volta, sebbene possa essere allettante unire le vendite in una sorta di meta-GTIN in cui tutte le varianti di dimensione sono state fuse, potrebbero esserci eccezioni, e non tutte le dimensioni sono sostituti equivalenti (es: Nutella da 18g vs Nutella da 5kg). Pertanto, le informazioni sull’imballaggio dovrebbero essere preservate, ma mantenute separate dalle vendite grezze.

Qualità dei dati, un investimento estremamente redditizio

La qualità dei dati è una delle poche aree in cui gli investimenti sono tipicamente ripagati dieci volte nel retail. Dati migliori migliorano tutti i risultati a valle, dai metodi più naïf a quelli più avanzati. In teoria, la qualità dei dati dovrebbe soffrire del principio dei rendimenti decrescenti, tuttavia, le nostre osservazioni indicano che, ad eccezione di alcune stelle emergenti del commercio online, la maggior parte dei rivenditori è molto lontana dal punto in cui investire di più nella qualità dei dati non sarebbe estremamente redditizio.

Quindi, a differenza della costruzione di modelli predittivi avanzati, la qualità dei dati non richiede tecnologie complicate, ma molto buon senso e un forte senso della semplicità.

Rimanete sintonizzati, la prossima volta discuteremo delle sfide di processo per la pianificazione delle promozioni.