Statistische Prognose ist ein höchst kontraintuitives Feld. Und die meisten Annahmen, die auf den ersten Blick intuitiv erscheinen mögen, erweisen sich als völlig falsch. In diesem Beitrag stellen wir eine kurze Liste der schlimmsten Übeltäter unter all den statistischen Merkwürdigkeiten zusammen, die das tägliche Geschäft von Lokad ausmachen.

1. Fortschrittliche Prognosesysteme lernen NICHT aus ihren Fehlern

Prognosesysteme aktualisieren ihre Vorhersagen in der Regel täglich oder wöchentlich. Jedes Mal, wenn eine neue Charge von Vorhersagen erstellt wird, hat ein Prognosesystem die Möglichkeit, seine älteren Vorhersagen mit den neu erworbenen Daten zu vergleichen und möglicherweise daraus zu lernen. Daher wäre es sehr vernünftig anzunehmen, dass jedes Prognosesystem aus seinen Fehlern lernt, so wie es ein menschlicher Experte tun würde. Dies ist jedoch nicht der Fall. Ein fortschrittliches Prognosesystem wird NICHT versuchen, aus seinen Fehlern zu lernen. Tatsächlich gibt es bessere Methoden, nämlich backtesting, die eine überlegene statistische Leistung bieten. Beim Backtesting stellt sich das System bei jeder erzeugten Vorhersage der gesamten verfügbaren Historie gegenüber und nicht nur dem neuesten Datenzuwachs.

2. Die wichtigsten statistischen Faktoren sind Rauschen und Zufälligkeit

Wenn Praktiker nach den dominanten Faktoren ihrer Nachfrage gefragt werden, antworten viele: Saisonalität, Produktlebenszyklus, Marktdruck, Unternehmenswachstum usw. Allerdings gibt es meistens einen Elefanten im Raum: und zwar das statistische Rauschen, das in der Beobachtung der Nachfrage zu finden ist.

Häufig wird die Herausforderung der Prognose so angegangen, als ob sich die Nachfrageprognosen bei ausreichendem Aufwand präzise erstellen ließen. Allerdings ist diese Sichtweise falsch, denn meist sind Prognosen irreduzibel ungenau. Das Akzeptieren der in der Nachfrage enthaltenen Zufälligkeit führt in der Regel zu besseren Geschäftsergebnissen als der Versuch, diese Zufälligkeit auszuschalten.

3. Expertenkorrekturen machen Prognosen im Allgemeinen weniger zufriedenstellend

Obwohl es vernünftig erscheint, statistische Prognosen manuell anhand branchenspezifischer Erkenntnisse anzupassen, haben wir wiederholt beobachtet, dass diese Praxis nicht die gewünschten Ergebnisse liefert. Selbst wenn manuelle Korrekturen von einem Experten auf diesem Gebiet durchgeführt werden, neigen sie dazu, die gesamte Genauigkeit zu verschlechtern, es sei denn, die zugrunde liegenden Prognosesysteme sind von vornherein mangelhaft. Nur in diesem Fall können manuelle Korrekturen dazu beitragen, die Prognoseergebnisse zu verbessern.

Dies hängt häufig mit der Tatsache zusammen, dass die menschliche Wahrnehmung stark auf die Erkennung von „Mustern“ voreingenommen ist. Oft führt dies zu falschen Wahrnehmungen von Trends, die nichts weiter als zufällige Geschäftsschwankungen sind. Wenn Zufälligkeit fälschlicherweise als „Muster“ interpretiert wird, entstehen in der Regel viel gravierendere Fehler, als wenn man das Muster einfach ignoriert und als bloßes Rauschen behandelt.

4. Prognosefehler müssen in Dollar gemessen werden

Eine präzisere Prognose führt nicht zwangsläufig zu besseren Geschäftsergebnissen. Tatsächlich besteht der klassische Ansatz zur Betrachtung von Prognosen darin, Kennzahlen wie den MAPE (Mean Absolute Percentage Error) zu optimieren, die nur schwach mit den wesentlichen Geschäftsinteressen korreliert sind. Solche Kennzahlen sind irreführend, da sie aus der eher unrealistischen Annahme stammen, dass bei perfekt genauen Prognosen der MAPE-Fehler null betragen würde. Eine perfekt genaue Prognose ist jedoch kein vernünftiges Szenario, und der ganze Sinn der Verwendung eines Leistungsmaßstabs besteht darin, diesen an den Interessen eines Unternehmens auszurichten. Mit anderen Worten, der Prognosefehler sollte in Dollar und nicht in Prozent ausgedrückt werden. Tägliche, wöchentliche und monatliche Prognosen sind nicht konsistent.

Wenn Prognosen sowohl auf täglicher als auch auf wöchentlicher Basis erstellt werden, wäre es sehr vernünftig anzunehmen, dass, wenn die Tagesprognosen zu Wochenprognosen summiert werden, beide Prognosen in denselben Werten münden, vorausgesetzt, dass dieselbe Technologie und dieselben Einstellungen zur Erzeugung der beiden Prognosesätze verwendet wurden.

Leider ist dies nicht der Fall, und die beiden Prognosesätze werden auseinanderdriften – und das aus sehr fundierten statistischen Gründen. Kurz gesagt, werden Tagesprognosen (bzw. Wochenprognosen) anhand eines auf Tages- (bzw. Wochen-) Basis ausgedrückten Maßstabs optimiert; statistisch gesehen, da diese beiden Maßstäbe unterschiedlich sind, gibt es für die numerischen Ergebnisse der Optimierung schlicht keinen Grund, übereinzustimmen.

5. Prognosen auf SKU-Ebene stimmen nicht mit den Prognosen auf Kategorieebene überein

Wenn dasselbe Prognosesystem verwendet wird, um die Nachfrage sowohl auf SKU-Ebene als auch auf Kategorieebene zu prognostizieren, würde man erwarten, dass die beiden Prognosesätze konsistent sind: Indem man alle Prognosen summiert, die den SKUs, die zu einer bestimmten Kategorie gehören, zugeordnet sind, erscheint es nicht unvernünftig anzunehmen, dass man auf die gleiche Zahl kommt wie die Prognose, die sich auf die Kategorie selbst bezieht. Dies ist aus denselben Gründen der Fall wie in dem vorhergehenden Absatz erläutert.

Noch beunruhigender ist, dass es tatsächlich sehr häufig vorkommt, recht merkwürdige Situationen zu beobachten, in denen völlig abweichende Muster zwischen den Prognosen auf SKU-Ebene und auf Kategorieebene bestehen. Beispielsweise, könnten alle SKU-Prognosen strikt fallend sein, während die Prognosen auf Kategorieebene stetig ansteigen. Ein weiteres typisches Beispiel ist die Saisonalität, die auf Kategorieebene sehr deutlich sichtbar ist, auf SKU-Ebene jedoch kaum bemerkbar. Wenn eine ähnliche Situation eintritt, mag es verlockend sein, die Prognosen auf SKU-Ebene anzupassen, um sie mit den Kategorieprognosen in Einklang zu bringen, doch würde eine solche Technik die gesamte Prognosegenauigkeit nur weiter verschlechtern.

6. Die Änderung der Maßeinheit spielt eine Rolle

Auf den ersten Blick sollte die verwendete Einheit zur Messung der Nachfrage keinerlei Auswirkungen haben. Wenn die Nachfrage in Inventareinheiten gemessen wird und alle Werte in der Historie mit 10 multipliziert würden, könnte man erwarten, dass auch alle Prognosen mit 10 multipliziert werden – ohne weitere Konsequenzen. Allerdings wird der Prognoseprozess mit Technologien wie der von Lokad entwickelten nicht genau so ablaufen.

Tatsächlich nutzt eine fortschrittliche Nachfrageprognosetechnologie viele Kniffe, die auf kleinen Zahlen basieren. Die Menge 1 ist nicht einfach irgendeine Menge. Beispielsweise haben wir beobachtet, dass im Durchschnitt mehr als 75% der Positionen in den Kassenzetteln von Supermärkten und Hypermärkten mit einer Menge von 1 angegeben sind. Dies führt dazu, dass viele statistische Tricks mit „kleinen Zahlen“ zusammenhängen. Die Multiplikation einer beliebigen Nachfragehistorie mit 10 würde alle im System verankerten Heuristiken eines fortschrittlichen Handelsprognosemodells einfach durcheinanderbringen.

7. Die besten promotion Prognosen werden häufig erzeugt, wenn Aktionen ignoriert werden

Die Prognose von Promotionen ist schwierig, wirklich schwierig. Im Einzelhandel kann die Nachfragereaktion auf eine Promotion nicht nur von keinerlei Anstieg (kein Uplift) bis zu einem 100-fachen Uplift reichen, sondern die Faktoren, die Promotionen beeinflussen, sind zudem komplex, vielfältig und werden in IT-Systemen meist nicht präzise erfasst. Die Kombination komplexer Geschäftsverhalten mit ungenauen Daten ist ein Rezept, das sehr wahrscheinlich zu einem „Garbage In, Garbage Out“-Problem führt.

In der Tat haben wir routinemäßig beobachtet, dass das Ausklammern von Aktionsdaten – zumindest als sehr bescheidener Anfangsansatz – der am wenigsten ineffiziente Weg war, um die Nachfrage während Promotionen zu prognostizieren. Wir behaupten nicht, dass diese Methode höchst befriedigend oder optimal ist, sondern wollen lediglich aufzeigen, dass eine native Prognose, die auf korrekten, wenn auch unvollständigen historischen Daten basiert, in der Regel komplexe Modelle, die auf umfangreicheren, aber teilweise ungenauen Daten beruhen, übertrifft.

8. Je unbeständiger die Historie, desto „flacher“ die Prognose

Optisch, wenn historische Daten starke visuelle Muster aufweisen, würde man erwarten, dass auch eine Prognose ähnlich ausgeprägte visuelle Muster zeigt. Sobald jedoch in den historischen Daten unregelmäßige Schwankungen auftreten, trifft diese Erwartung nicht zu – stattdessen passiert das Gegenteil: Je unbeständiger die Nachfragehistorie, desto gleichmäßiger erscheinen die Prognosen.

Erneut liegt der Kern des Problems darin, dass der menschliche Geist darauf ausgerichtet ist, Muster zu erkennen. Unregelmäßige Schwankungen sind – im statistischen Sinne – keine Muster, sondern Rauschen, und ein korrekt gestaltetes Prognosesystem verhält sich genau wie ein Filter, der dieses Rauschen entfernt. Ist das Rauschen erst einmal herausgefiltert, bleibt oft nur eine „relativ flache“ Prognose übrig.

9. Tägliche, wöchentliche und monatliche Prognosen sind in der Regel überflüssig

Periodische Prognosen finden sich überall – von Wirtschaftsnachrichten bis hin zu Wetterberichten – und dennoch bieten sie selten eine adäquate statistische Antwort auf „reale“ geschäftliche Herausforderungen. Das Problem dieser periodischen Prognosen liegt darin, dass sie, anstatt die Geschäftsentscheidung direkt anzugehen, die von einer unsicheren Zukunft abhängt, typischerweise auf indirekte Weise genutzt werden, um die Entscheidung im Nachhinein zu konstruieren.

Eine wesentlich effektivere Strategie besteht darin, über Geschäftsentscheidungen als Prognosen nachzudenken. Dadurch wird es viel einfacher, die Prognosen mit spezifischen Geschäftsbedürfnissen und Prioritäten in Einklang zu bringen, beispielsweise indem der Prognosefehler in Dollar statt in Prozent gemessen wird, wie oben bereits erläutert.

10. Der Großteil der Literatur zur Bestandsprognose ist wenig nützlich

Wenn man sich einem schwierigen Thema gegenübersieht, ist es vernünftig, dieses zu erforschen, indem man die verschiedenen, in der wissenschaftlichen Literatur begutachteten Materialien untersucht – insbesondere, da tausende von Arbeiten und Artikeln zu den Themen Nachfrageprognose und Bestandsoptimierung verfügbar sind.

Dennoch haben wir festgestellt, dass die Quasi-Gesamtheit der in dieser Literatur analysierten Methoden einfach nicht funktioniert. Mathematische Korrektheit übersetzt sich nicht automatisch in betriebswirtschaftliche Weisheit. Viele Modelle, die als ewige Klassiker gelten, sind schlichtweg funktionsunfähig. Zum Beispiel,

  • Sicherheitsbestände sind falsch, da sie auf Annahmen der Normalverteilung beruhen,
  • EOQ (Economic Order Quantities) sind ungenau, da sie auf einer pauschalen Bestellgebühr basieren, die völlig unrealistisch ist,
  • Holt-Winters ist ein Prognosemodell, das numerisch ziemlich instabil ist und zu viel historische Tiefe erfordert, um handhabbar zu sein,
  • ARIMA, der Inbegriff eines mathematisch getriebenen Ansatzes, ist viel zu kompliziert für zu wenig Ergebnisse,
  • usw.

Seltsamkeiten in der Nachfrageprognose sind (wahrscheinlich) unzählig. Zögern Sie nicht, Ihre eigenen Beobachtungen im Kommentarfeld unten zu posten.