Statistische Prognose ist ein hochgradig gegenintuitives Gebiet. Und die meisten Annahmen, die auf den ersten Blick intuitiv erscheinen mögen, erweisen sich als schlichtweg falsch. In diesem Beitrag stellen wir eine kurze Liste der schlimmsten Vergehen unter all den statistischen Kuriositäten zusammen, die das Kerngeschäft von Lokad ausmachen.

1. Fortgeschrittene Prognosesysteme LERNEN NICHT aus ihren Fehlern

Prognosesysteme aktualisieren in der Regel ihre Prognosen täglich oder wöchentlich. Jedes Mal, wenn eine neue Charge von Prognosen erstellt wird, hat ein Prognosesystem die Möglichkeit, seine älteren Prognosen mit den neu erworbenen Daten zu vergleichen und möglicherweise daraus zu lernen. Daher wäre es sehr vernünftig zu erwarten, dass ein bestimmtes Prognosesystem aus seinen Fehlern lernt, genauso wie ein menschlicher Experte es tun würde. Dies ist jedoch nicht der Fall. Ein fortgeschrittenes Prognosesystem wird NICHT versuchen, aus seinen Fehlern zu lernen. Tatsächlich gibt es bessere Methoden, wie zum Beispiel Backtesting, die eine überlegene statistische Leistung bieten. Mit dem Backtesting stellt sich das System bei jeder Generierung einer Prognose nicht nur der neuesten Inkrementierung der Daten, sondern der gesamten verfügbaren Historie.

2. Die wichtigsten statistischen Faktoren sind Rauschen und Zufälligkeit

Wenn Praktiker nach den dominanten Faktoren in ihrer Nachfrage gefragt werden, antworten viele: Saisonalität, Produktlebenszyklus, Marktdruck, Geschäftswachstum usw. Doch die meiste Zeit gibt es ein Elefant im Raum: der Elefant ist das statistische Rauschen, das bei der Beobachtung der Nachfrage gefunden wird.

Die Herausforderung der Prognose wird meistens so angegangen, als ob man mit ausreichenden Anstrengungen genaue Nachfrageprognosen erstellen könnte. Doch dieser Standpunkt ist falsch, da die meisten Prognosen die unvermeidliche Ungenauigkeit haben. Die Akzeptanz der Zufälligkeit in der Nachfrage führt in der Regel zu besseren Geschäftsergebnissen als der Versuch, diese Zufälligkeit zu eliminieren.

3. Expertenkorrekturen machen Prognosen in der Regel weniger zufriedenstellend

Obwohl es vernünftig erscheint, statistische Prognosen mit branchenspezifischen Erkenntnissen manuell anzupassen, haben wir in vielen Fällen beobachtet, dass diese Praxis nicht die gewünschten Ergebnisse liefert. Selbst wenn manuelle Korrekturen von einem Experten auf diesem Gebiet durchgeführt werden, neigen sie dazu, die Gesamtgenauigkeit zu verschlechtern, es sei denn, die zugrunde liegenden Prognosesysteme sind von Natur aus schlecht. Nur in diesem Fall können manuelle Korrekturen dazu beitragen, die Prognoseergebnisse zu verbessern.

Dies hängt oft damit zusammen, dass die menschliche Wahrnehmung stark von der Wahrnehmung von “Mustern” beeinflusst wird. Häufig führt dies zu falschen Wahrnehmungen von Trends, die nichts weiter als zufällige Geschäftsschwankungen sind. Die fehlerhafte Interpretation von Zufälligkeit als “Muster” erzeugt oft viel größere Fehler als das Ignorieren des Musters von Anfang an und die Behandlung als bloßes Rauschen.

4. Prognosefehler müssen in Dollar gemessen werden

Eine genauere Prognose führt nicht zwangsläufig zu besseren Geschäftsergebnissen. Tatsächlich besteht die klassische Betrachtungsweise von Prognosen darin, Metriken wie MAPE (mittlerer absoluter prozentualer Fehler) zu optimieren, die nur schwach mit den Hauptinteressen des Unternehmens korreliert sind. Solche Metriken sind irreführend, weil sie aus eher illusorischem Denken stammen, dass bei perfekt genauen Prognosen der MAPE-Fehler null wäre. Eine perfekt genaue Prognose ist jedoch kein realistisches Szenario, und der Sinn einer Leistungsmetrik besteht darin, sie mit den Interessen eines bestimmten Unternehmens in Einklang zu bringen. Mit anderen Worten, der Prognosefehler sollte in Dollar, nicht in Prozent, ausgedrückt werden. Tägliche, wöchentliche und monatliche Prognosen sind nicht konsistent.

Wenn Prognosen sowohl täglich als auch wöchentlich erstellt werden, wäre es sehr vernünftig zu erwarten, dass, wenn die täglichen Prognosen zu wöchentlichen Prognosen summiert werden, beide Prognosen auf die gleichen Werte konvergieren, vorausgesetzt, dass dieselbe Technologie und dieselben Einstellungen verwendet wurden, um die beiden Prognosesätze zu generieren.

Leider ist dies nicht der Fall, und die beiden Prognosesätze werden auseinandergehen; und das aus sehr fundierten statistischen Gründen. Kurz gesagt, tägliche (bzw. wöchentliche) Prognosen werden gegen eine auf täglicher (bzw. wöchentlicher) Ebene ausgedrückte Metrik optimiert; statistisch gesehen haben diese beiden Metriken keine Grundlage, um numerisch übereinzustimmen.

5. SKU-Ebene Prognosen stimmen nicht mit Kategorie-Ebene Prognosen überein

Wenn dasselbe Prognosesystem sowohl auf SKU-Ebene als auch auf Kategorie-Ebene verwendet wird, würde man erwarten, dass die beiden Prognosesätze konsistent sind: indem man alle Prognosen zusammenzählt, die mit den SKUs verbunden sind, die zu einer bestimmten Kategorie gehören, wäre es nicht unvernünftig anzunehmen, dass man am Ende die gleiche Zahl wie die Prognose für die Kategorie selbst erhält. Dies ist aus denselben Gründen der Fall, wie sie im vorherigen Absatz erläutert wurden.

Noch alarmierender ist, dass es tatsächlich sehr häufig vorkommt, dass völlig unterschiedliche Muster zwischen den Prognosen auf SKU-Ebene und auf Kategorie-Ebene existieren. Zum Beispiel könnten alle SKU-Prognosen streng abnehmend sein, während die Prognosen auf Kategorie-Ebene stetig steigen. Ein weiterer typischer Fall ist die Saisonalität, die auf Kategorie-Ebene sehr sichtbar ist, auf SKU-Ebene jedoch kaum bemerkbar ist. Wenn eine ähnliche Situation auftritt, könnte es verlockend sein, SKU-Ebene Prognosen zu korrigieren, um sie mit Kategorie-Prognosen in Einklang zu bringen, aber eine solche Technik würde die Gesamtgenauigkeit der Prognose nur verschlechtern.

6. Die Maßeinheit ändern macht einen Unterschied

Auf den ersten Blick sollte die verwendete Maßeinheit keinen Einfluss haben. Wenn die Nachfrage in Bestandseinheiten gezählt wird und wenn alle Punkte in der Historie mit 10 multipliziert werden, dann würde man erwarten, dass alle Prognosen mit 10 multipliziert werden, ohne weitere Konsequenzen. Mit Technologien wie der von Lokad entwickelten Prognoseprozess wird dies jedoch nicht genau so ablaufen.

Tatsächlich nutzt eine fortschrittliche Nachfrageprognosetechnologie viele Tricks mit kleinen Zahlen. Die Menge von 1 ist nicht einfach irgendeine Menge. Zum Beispiel haben wir festgestellt, dass durchschnittlich mehr als 75% der Positionen in Supermarkt- und Hypermarktbelegen eine Menge von 1 haben. Dies führt dazu, dass viele statistische Tricks mit “kleinen Zahlen” zusammenhängen. Das Multiplizieren einer gegebenen Nachfragehistorie mit 10 würde alle Heuristiken für jedes fortschrittliche Handelsprognosesystem verwirren.

7. Die besten Promotions Prognosen werden häufig generiert, wenn Promotionen ignoriert werden

Die Prognose von Promotionen ist schwierig, wirklich schwierig. Im Einzelhandel kann die Nachfrageantwort auf eine Promotion von nichts (kein Anstieg) bis zu einem 100-fachen Anstieg reichen, und die Faktoren, die Promotionen beeinflussen, sind komplex, vielfältig und werden in IT-Systemen normalerweise nicht genau erfasst. Die Kombination komplexer Geschäftsverhalten mit ungenauen Daten führt in der Regel zu einem “Garbage In, Garbage Out” Problem.

Tatsächlich haben wir routinemäßig festgestellt, dass das Verwerfen von Promotionsdaten zumindest als sehr bescheidener erster Ansatz der am wenigsten ineffiziente Weg ist, um die Nachfrage nach Promotionen vorherzusagen. Wir behaupten nicht, dass diese Methode sehr zufriedenstellend oder optimal ist, sondern versuchen lediglich zu zeigen, dass eine native Prognose, die auf korrekten, aber unvollständigen historischen Daten aufgebaut ist, in der Regel komplexen Modellen überlegen ist, die auf umfangreicheren, aber teilweise ungenauen Daten basieren.

8. Je unregelmäßiger die Historie, desto “flacher” die Prognose

Visuell gesehen würde man erwarten, dass eine Prognose ähnlich starke visuelle Muster aufweist, wenn die historischen Daten starke visuelle Muster aufweisen. Wenn jedoch die historischen Daten unregelmäßige Schwankungen aufweisen, trifft diese Erwartung nicht zu und das Gegenteil passiert: je unregelmäßiger die Nachfragehistorie, desto glatter sind die Prognosen.

Der Grund dafür ist erneut, dass der menschliche Verstand darauf ausgerichtet ist, Muster wahrzunehmen. Unregelmäßige Schwankungen sind keine Muster (im statistischen Sinne), sondern Rauschen, und ein Prognosesystem verhält sich, wenn es korrekt konzipiert ist, genau wie ein Filter für dieses Rauschen. Sobald das Rauschen entfernt ist, bleibt oft nur eine “flache” Prognose übrig.

9. Tägliche, wöchentliche und monatliche Prognosen sind in der Regel unnötig

Periodische Prognosen sind überall - von Wirtschaftsnachrichten bis hin zu Wetterberichten. Und dennoch stellen sie selten eine angemessene statistische Antwort auf “realwirtschaftliche” Herausforderungen dar. Das Problem bei diesen periodischen Prognosen liegt darin, dass sie anstatt die von einer unsicheren Zukunft abhängige Geschäftsentscheidung direkt anzugehen, typischerweise auf indirekte Weise genutzt werden, um die Entscheidung im Nachhinein zu konstruieren.

Eine viel effektivere Strategie besteht darin, Geschäftsentscheidungen als Prognosen zu betrachten. Dadurch wird es viel einfacher, Prognosen mit spezifischen Geschäftsbedürfnissen und Prioritäten in Einklang zu bringen, z.B. die Prognosefehler in Dollar statt in Prozent, wie oben detailliert.

10. Der Großteil der Literatur zur Bestandsprognose ist von geringem Nutzen

Wenn man mit einem schwierigen Thema konfrontiert wird, ist es vernünftig, dieses Thema zu erforschen, indem man die verschiedenen in wissenschaftlicher Literatur verfügbaren peer-reviewed Materialien untersucht. Insbesondere im Hinblick auf die Nachfrageprognose und die Bestandsoptimierung stehen dem Leser tausende von Artikeln und Beiträgen zur Verfügung.

Dennoch haben wir festgestellt, dass die quasi-Gesamtheit der in solchen Literaturanalysen untersuchten Methoden einfach nicht funktionieren. Mathematische Korrektheit führt nicht zu geschäftlicher Weisheit. Viele als “zeitlose Klassiker” geltende Modelle sind einfach dysfunktional. Zum Beispiel,

  • Sicherheitsbestände sind falsch, da sie auf Annahmen über die Normalverteilung basieren,
  • EOQ (economic order quantities) sind ungenau, da sie auf einer Pauschalgebühr pro Bestellung basieren, die völlig unrealistisch ist,
  • Holt-Winters ist ein Prognosemodell, das numerisch ziemlich instabil ist und zu viel historische Tiefe erfordert, um handhabbar zu sein,
  • ARIMA, das Archetyp des mathematisch orientierten Ansatzes, ist viel zu kompliziert für zu geringe Ergebnisse,
  • usw.

Kuriositäten in der Nachfrageprognose sind (wahrscheinlich) unzählig. Zögern Sie nicht, Ihre eigenen Beobachtungen im Kommentarbereich unten zu veröffentlichen.