Wenn es um die Datenanalyse geht, betonen Experten häufig (und zu Recht) die Bedeutung eines sauberen Datensatzes, bevor sie mit einer Analyse beginnen. Andernfalls enden Sie mit Müll rein, Müll raus.

Als Ergebnis bieten die meisten Prognose-Toolkits umfangreiche Funktionen zur Unterstützung der Datenbereinigung / Datenvorbereitung an; und dennoch bietet Lokad keine explizite Funktion zur Unterstützung der Datenbereinigung.

Haben wir hier etwas WICHTIGES übersehen?

Das glauben wir nicht. Es gibt einige Missverständnisse, wenn es um die Datenbereinigung für (kurzfristige) Umsatzprognosen geht. Tatsächlich werden heutzutage die Verkäufe der meisten Einzelhändler, Großhändler und Hersteller entweder in einem ERP oder einem Buchhaltungssystem gespeichert. Unsere Erfahrung zeigt, dass ab 2010 transaktionale Daten, die mit Verkäufen verbunden sind, bemerkenswert sauber sind. Wenn am 1. November 2010 eine Transaktion aufgezeichnet wurde, die besagt, dass das Produkt X in der Menge Y verkauft wurde, dann ist die Wahrscheinlichkeit, dass diese Information wahr ist, sehr hoch, mit einer Zuverlässigkeit von über 99,9% für die meisten Verkaufsprozesse.

Tatsächlich können sich Unternehmen nicht leisten, nicht zu wissen, was sie verkaufen. Daher wurden in den letzten zwei Jahrzehnten massive Anstrengungen unternommen, um sicherzustellen, dass Verkaufsdaten in gewissem Maße zuverlässig sind. Wir sagen nicht, dass keine fehlerhaften Verkaufseinträge jemals in das System gelangen, sondern nur, dass der Anteil in der Regel nicht signifikant ist.

Wenn die Verkaufsdaten sauber sind, warum setzen wir dann immer noch Anstrengungen auf die Datenbereinigung?

Wir haben viele Datenbereinigungspraktiken in der Branche beobachtet, und es stellt sich heraus, dass die als Bereinigung bezeichneten Vorgänge viel mehr sind als nur das Suchen nach den 0,1% fehlerhaften Transaktionen. Die obige Abbildung gibt einige Einblicke in die tatsächlichen Vorgänge, die in einer typischen Datenbereinigungsphase durchgeführt werden: Es geht darum, die Extreme zu glätten. Zum Beispiel werden teilweise Verkäufe während Engpässen manuell erhöht und Werbe-/Ausnahmeverkäufe begrenzt.

Unnötig zu sagen, dass wir keine Anhänger dieses Ansatzes sind. Echte Verkaufsdaten sollten nicht durch fiktive Verkaufsdaten ersetzt werden. Tatsächlich kann nichts mit 100%iger Sicherheit sagen, wie viele Produkte verkauft worden wären, wenn es keinen Engpass gegeben hätte. Die teilweisen Verkäufe sind die einzigen greifbaren Daten, die wir haben und die nicht bereits auf statistischer Extrapolation beruhen.

Dennoch gibt es einen interessanten Nebeneffekt der Praxis des Glättens der Extreme: das Glätten verbessert die Genauigkeit der naiven Prognosemethoden, die sich ähnlich wie der gleitende Durchschnitt verhalten.

Wenn der einzige Werkzeug, das du hast, ein Hammer ist, behandelt man alles wie einen Nagel., Abraham Maslow, 1966

Der Versuch, die Verkaufsdaten anzupassen, um besser zum einzigen verfügbaren Prognosemodell zu passen, ist nur ein schlechter Fall des Gesetzes des Instruments. Unser Ansatz besteht darin, die komplexen Muster direkt anzugehen anstatt sie zu umgehen.