Vor drei Jahren haben wir [Overfitting: wenn die Genauigkeitsmessung schief geht](/blog/2009/4/22/overfitting-when-accuracy-measure-goes-wrong/) veröffentlicht, aber Overfitting ist bei weitem nicht die einzige Situation, in der einfache Genauigkeitsmessungen sehr irreführend sein können. Heute konzentrieren wir uns auf eine sehr fehleranfällige Situation: intermittierende Nachfrage, die typischerweise bei Verkäufen auf Ladenebene (oder E-Commerce) auftritt.

Wir glauben, dass dieses einzelne Problem die meisten Einzelhändler daran gehindert hat, auf fortschrittliche Prognosesysteme auf Ladenebene umzusteigen. Wie bei den meisten Prognoseproblemen ist es subtil, es ist gegenintuitiv und einige Unternehmen verlangen viel Geld für schlechte Antworten auf die Frage.

Illustration of intermittent sales

Die beliebtesten Fehlermetriken bei der Umsatzprognose sind der Mean Absolute Error (MAE) und der Mean Absolute Percentage Error (MAPE). Als allgemeine Richtlinie empfehlen wir, sich auf den MAE zu konzentrieren, da sich der MAPE immer dann sehr schlecht verhält, wenn Zeitreihen nicht glatt sind, das heißt, immer, soweit es Einzelhändler betrifft. Es gibt jedoch Situationen, in denen sich auch der MAE schlecht verhält. Geringe Verkaufsvolumina fallen in diese Kategorie.

Schauen wir uns die obige Illustration genauer an. Ein Artikel wird über 3 Tage verkauft. Die Anzahl der verkauften Einheiten an den ersten beiden Tagen beträgt null. Am dritten Tag wird eine Einheit verkauft. Nehmen wir an, die Nachfrage beträgt tatsächlich genau 1 Einheit alle 3 Tage. Technisch gesehen handelt es sich um eine Poisson-Verteilung mit λ=1/3.

Im Folgenden vergleichen wir zwei Prognosemodelle:

  • ein flaches Modell M mit 1/3 pro Tag (der Durchschnitt).
  • ein flaches Modell Z mit null pro Tag.

Was die Bestandsoptimierung betrifft, ist das Modell null (Z) absolut schädlich. Wenn angenommen wird, dass zur Berechnung eines Nachbestellpunkts eine Sicherheitsbestandsanalyse verwendet wird, wird eine Nullprognose sehr wahrscheinlich auch zu einem Nachbestellpunkt von null führen und somit häufige Lagerbestandsausfälle verursachen. Eine Genauigkeitsmetrik, die das Modell null gegenüber vernünftigeren Prognosen bevorzugen würde, würde sich eher schlecht verhalten.

Schauen wir uns unsere beiden Modelle im Hinblick auf den MAPE (*) und den MAE an.

  • M hat einen MAPE von 44%.
  • Z hat einen MAPE von 33%.
  • M hat einen MAE von 0.44.
  • Z hat einen MAE von 0.33.

(*) Die klassische Definition des MAPE beinhaltet eine Division durch Null, wenn der tatsächliche Wert null ist. Wir nehmen hier an, dass der tatsächliche Wert durch 1 ersetzt wird, wenn er null ist. Alternativ könnten wir auch durch die Prognose (anstatt des tatsächlichen Werts) geteilt haben oder den sMAPE verwenden. Diese Änderungen machen keinen Unterschied: Die Schlussfolgerung der Diskussion bleibt dieselbe.

Zusammenfassend lässt sich sagen, dass hier das Modell null sowohl nach dem MAPE als auch nach dem MAE überwiegt.

Man könnte jedoch argumentieren, dass dies eine vereinfachte Situation ist und nicht die Komplexität eines echten Geschäfts widerspiegelt. Das ist nicht ganz richtig. Wir haben Benchmarks über Dutzende von Einzelhandelsgeschäften durchgeführt, und in der Regel ist das Gewinnermodell (gemäß MAE oder MAPE) das Modell null - das Modell, das immer null zurückgibt. Darüber hinaus gewinnt dieses Modell in der Regel mit einem komfortablen Vorsprung gegenüber allen anderen Modellen.

In der Praxis ist es auf Geschäftsebene problematisch, sich entweder auf MAE oder MAPE zu verlassen, um die Qualität von Prognosemodellen zu bewerten: Die Metrik bevorzugt Modelle, die Nullen zurückgeben; je mehr Nullen, desto besser. Diese Schlussfolgerung gilt für nahezu jedes einzelne Geschäft, das wir bisher analysiert haben (abzüglich weniger Artikel mit hohem Volumen, die dieses Problem nicht haben).

Leser, die mit Genauigkeitsmetriken vertraut sind, könnten vorschlagen, stattdessen den Mean Square Error (MSE) zu verwenden, der das Modell null nicht bevorzugt. Das ist wahr, aber MSE ist bei unregelmäßigen Daten - und Verkäufe auf Geschäftsebene sind unregelmäßig - nicht numerisch stabil. In der Praxis wird jedes Ausreißer in der Verkaufshistorie die endgültigen Ergebnisse stark verzerren. Diese Art von Problem ist DER Grund, warum Statistiker so hart an robusten Statistiken gearbeitet haben. Hier gibt es kein kostenloses Mittagessen.

Wie bewertet man dann Prognosen auf Geschäftsebene?

Es hat uns sehr lange gedauert, um eine zufriedenstellende Lösung für das Problem der Quantifizierung der Genauigkeit von Prognosen auf Geschäftsebene zu finden. Bis 2011 und davor haben wir im Grunde geschummelt. Anstatt tägliche Datenpunkte zu betrachten, wenn die Verkaufsdaten zu spärlich waren, wechselten wir in der Regel zu wöchentlichen Aggregaten (oder sogar zu monatlichen Aggregaten für extrem spärliche Daten). Durch den Wechsel zu längeren Aggregationsperioden haben wir den Umsatz pro Periode künstlich erhöht und den MAE wieder verwendbar gemacht.

Der Durchbruch kam erst vor einigen Monaten durch Quantile. Im Wesentlichen war die Erleuchtung: Vergessen Sie die Prognosen, nur die Bestellpunkte sind wichtig. Indem wir unsere klassischen Prognosen gegen Metriken X, Y oder Z optimieren wollten, versuchten wir, das falsche Problem zu lösen.

Moment mal! Da Bestellpunkte auf der Grundlage der Prognosen berechnet werden, wie können Sie sagen, dass Prognosen irrelevant sind?

Wir sagen nicht, dass Prognosen und Prognosegenauigkeit irrelevant sind. Wir stellen jedoch fest, dass nur die Genauigkeit der Bestellpunkte selbst wichtig ist. Die Prognose oder eine andere Variable, die zur Berechnung der Bestellpunkte verwendet wird, kann nicht allein bewertet werden. Nur die Genauigkeit der Bestellpunkte muss und sollte bewertet werden.

Es stellt sich heraus, dass eine Metrik zur Bewertung von Bestellpunkten existiert: die Pinball-Verlustfunktion, eine Funktion, die Statistikern seit Jahrzehnten bekannt ist. Die Pinball-Verlustfunktion ist nicht deshalb überlegen, weil sie mathematische Eigenschaften hat, sondern einfach, weil sie den Lagerbestandskompromiss berücksichtigt: zu viel Lagerbestand vs. zu viele Fehlbestände.