Fehlannahmen bei der Datenbereinigung für (kurzfristige) Verkaufsprognosen
Wenn es um Datenanalyse geht, betonen Experten häufig (und zu Recht) die Bedeutung eines sauberen Datensatzes, bevor mit irgendeiner Analyse begonnen wird. Andernfalls erhalten Sie Garbage In, Garbage Out.
Infolgedessen bieten die meisten Prognose-Toolkits umfangreiche Funktionen zur Unterstützung der Datenbereinigung / Datenaufbereitung; und dennoch stellt Lokad keine explizite Funktion zur Unterstützung der Datenbereinigung.

Haben wir hier etwas GROßES übersehen?
Wir glauben das nicht. Es gibt einige Missverständnisse in Bezug auf die Datenbereinigung für kurzfristige Verkaufsprognosen. Tatsächlich werden heutzutage die Verkäufe der meisten Einzelhändler, Großhändler, Hersteller entweder in einem ERP oder in einem Buchhaltungssystem erfasst. Nach unserer Erfahrung sind ab 2010 die transaktionsbezogenen Daten zu Verkäufen bemerkenswert sauber. Wenn am 1. November 2010 eine Transaktion verzeichnet wird, die anzeigt, dass das Produkt X in Y Menge verkauft wurde, dann ist die Wahrscheinlichkeit, dass diese Information korrekt ist, sehr hoch, mit einer Vertrauensrate von über 99,9 % bei den meisten Verkaufsprozessen.
Tatsächlich können es sich Unternehmen nicht leisten, nicht zu wissen, was sie verkaufen. Infolgedessen wurden in den letzten zwei Jahrzehnten enorme Anstrengungen unternommen, um sicherzustellen, dass Verkaufsdaten gewissermaßen zuverlässig sind. Wir behaupten nicht, dass niemals fehlerhafte Verkaufseinträge ins System gelangen, sondern nur, dass der Anteil in der Regel unbedeutend ist.
Wenn Verkaufsdaten sauber sind, warum investieren wir dann weiterhin in die Datenbereinigung?
Wir haben in der Branche viele Praktiken der Datenbereinigung beobachtet, und es stellt sich heraus, dass die als Bereinigung bezeichneten Vorgänge weitaus mehr umfassen als lediglich das Suchen nach den 0,1% fehlerhaften Transaktionen. Die obige Illustration gibt einige Einblicke in die tatsächlichen Vorgänge, die in einer typischen Phase der Datenbereinigung ablaufen: Es geht darum, die Extreme zu glätten. Zum Beispiel werden Teilverkäufe während Fehlbeständen manuell erhöht, und Promotions-/Ausnahmeverkäufe werden gedeckelt.
Ganz zu schweigen davon, wir glauben nicht an diesen Ansatz. Echte Verkaufsdaten sollten nicht durch fiktive Verkaufsdaten ersetzt werden. Tatsächlich kann nichts mit 100%iger Sicherheit sagen, wie viele Produkte verkauft worden wären, wenn es keinen Fehlbestand gegeben hätte. Die Teilverkäufe sind die einzigen greifbaren Daten, die wir haben und die nicht bereits auf statistischer Extrapolation beruhen.
Dennoch gibt es einen interessanten Nebeneffekt der Glatte-die-Extreme-Praxis: Das Glätten verbessert die Genauigkeit der naiven Prognosemethoden, die sich sehr ähnlich wie der gleitende Durchschnitt verhalten.
Es ist verlockend, wenn das einzige Werkzeug, das man hat, ein Hammer ist, alles so zu behandeln, als wäre es ein Nagel., Abraham Maslow, 1966
Der Versuch, die Verkaufsdaten anzupassen, um sie besser an das einzige vorhandene Prognosemodell anzupassen, ist nur ein klassischer Fall des Gesetzes des Instruments. Unser Ansatz besteht darin, die komplexen Muster direkt anzugehen statt zu versuchen, sie zu umgehen.