Ein Team von Lokad-Mitarbeitern, nämlich Rafael de Rezende (Leiter), Ignacio Marín Eiroa, Katharina Egert und Guilherme Thompson 1, belegte den 6. Platz im M5 Forecasting Wettbewerb von 909 konkurrierenden Teams. Es ist eine beeindruckende Leistung, und ich bin stolz darauf, was dieses Team erreicht hat. Der Aufbau einer Kultur, die sich an quantitativen Ergebnissen orientiert, ist ein langjähriges Ziel von Lokad, und das Ergebnis dieses Wettbewerbs zeigt, wie weit wir auf diesem Weg gekommen sind.

Lokad rangierte auf Platz 6 von 909 Teams im M5 Forecasting Wettbewerb

Soweit ich weiß, ist dies das erste Mal, dass ein öffentlicher Nachfrage-forecasting competition Quantilprognosen einbezogen hat – eine Erkenntnis, die direkt an Lokads Arbeit bereits 2012 anknüpft. Obwohl es acht Jahre gedauert hat, bis die Wissenschaft bei den Quantilen aufgeholt hat, schmälert das die Bedeutung dieser Leistung nicht. Schlichte „klassische“ Prognosen sind per Design nahezu fehlerhaft, was die supply chain betrifft. Quantilprognosen sind not the endgame, funktionieren aber dort, wo Sicherheitsbestände es nicht tun. Dies betrachte ich als einen wichtigen Schritt in die richtige Richtung.

Ergebnisbezogen sind die Platzierungen der Teams von Rang 1 bis 6 unglaublich dicht beieinander. Das erstplatzierte Team2 schaffte es, einige Prozentpunkte vorauszuspringen. Meine eigene Erfahrung zeigt jedoch, dass selbst für ein riesiges Einzelhandelsnetzwerk wie Walmart eine 5%-Reduktion des pinball-Verlusts – ein Maß, das zur Beurteilung der Genauigkeit von Quantilprognosen herangezogen werden kann – in Bezug auf den monetären Fehler nahezu unbemerkt bliebe. Tatsächlich sind auf diesem Genauigkeitsniveau die Prognosemodelle im Wesentlichen gleichwertig, und andere Aspekte (die im M5-Wettbewerb nicht berücksichtigt wurden) dominieren – wie etwa die Fähigkeit, mit Fehlbeständen, variierenden Sortimenten, Kannibalisierungseffekten, unregelmäßigen Durchlaufzeiten etc. umzugehen. Diese Aspekte machen einen weitaus größeren Unterschied als ein paar Prozentpunkte Pinball-Verlust.

Modellseitig nutzte das Lokad-Team ein parametrisches Modell mit niedriger Dimensionalität, das relevante Zyklen (Wochentag, Tag des Monats, Monat des Jahres) auf Filial-/Kategorieebene berücksichtigte, eine Basislinie, die Zyklen und Fehlbestand-Rauschen eliminierte, sowie ein Zustandsraummodell mit 2 Parametern, um die Basislinie in tägliche Verläufe umzuwandeln (mit multiplikativen Beiträgen der Zyklen). Auch, wie das Siegerteam, verwendete Lokad weder Preisdaten noch externe Daten. Die größte technische Herausforderung für das Lokad-Team erwies sich darin, mit Fehlbeständen umzugehen, die prognostiziert werden mussten: Es handelte sich um eine sales forecasting exercise, nicht um eine demand forecasting exercise. Dies wird später ausführlicher besprochen, wenn wir die Details dieses Modells näher betrachten.

Im Allgemeinen, wenn ein gut gewähltes, parametrisches Modell mit niedriger Dimensionalität – wie das von Lokad im M5-Wettbewerb verwendete – eine Genauigkeit erreicht, die nur um wenige Prozentpunkte von der neuesten Methode abweicht (nämlich range-augmented gradient boosted trees), dann ist dieses Modell in der Produktion garantiert viel besser handhabbar im Vergleich zu nichtparametrischen oder hyperparametrischen Modellen und viel leichter strukturell anzupassen 3, wenn Bedarf besteht.

Zudem erweist sich die Rechenleistung des Modells häufig als ein nicht zu unterschätzender operativer Ausfallfaktor. Das erstplatzierte Team berichtete, dass die Ausführung ihrer Prognose „a couple hours” (sic) auf einem 10+10 CPU-Workstation-Setup in Anspruch nahm. Dies mag schnell erscheinen, aber bedenken Sie, dass der M5-Datensatz nur 30k SKUs umfasste, was very small ist im Vergleich zur Anzahl der SKUs in den meisten Einzelhandelsnetzwerken (einige Kategorien über wenige Geschäfte). Ich schätze, dass Walmart weltweit über 100M SKUs verwaltet, sodass es sich um tens of thousands Rechenstunden per prediction 4 handelt. Die Einzelhandelsnetzwerke, die Lokad bedient, geben uns in der Regel ein etwa 2-stündiges Fenster pro Tag, um unsere Prognosen zu aktualisieren, sodass die von uns gewählten Modelle mit diesem Zeitplan sowohl für Training als auch für Forecasting kompatibel sein müssen 5. Der Einsatz des Modells des erstplatzierten Teams ist sicherlich im Maßstab von Walmart möglich, aber allein die Verwaltung des Compute-Clusters würde ein eigenes Team erfordern.

Der M5-Wettbewerb war eine wesentliche Verbesserung gegenüber seinen bisherigen Iterationen. Dennoch ist der Datensatz noch weit davon entfernt, eine reale Einzhandelssituation abzubilden. Beispielsweise waren die Preisinformationen nur für die past verfügbar. In der Praxis finden promotions nicht zufällig statt, sondern sie werden geplant. Wären also für den zu prognostizierenden Zeitraum Preisdaten zur Verfügung gestellt worden, hätte der Wettbewerb in Modelle gelenkt werden können, die diese Informationen tatsächlich nutzen, anstatt sie sofort zu verwerfen.

Neben zukünftigen Preisen fehlten im M5-Wettbewerb auch zwei wichtige Datensätze: stock levels und disaggregated transactions, die in Einzelhandelsketten nahezu immer verfügbar sind. Lagerbestände sind wichtig, da offensichtlich ohne Bestand keine Verkäufe stattfinden (Zensurbias). Transaktionsbezogene Einzelaufstellungen sind bedeutsam, weil es meiner Erfahrung nach nahezu unmöglich ist, jegliche Art von Kannibalisierung oder Substitution ohne sie zu beurteilen – während ein beiläufiger Blick auf die Regaldisplays im Einzelhandel deutlich zeigt, dass sie eine große Rolle spielen. Weder das Modell, das das Lokad-Team auf Rang sechs brachte, noch das Modell, das den ersten Platz belegte, verfügte über solche Daten.

Abschließend ist es ein fantastisches Ergebnis für Lokad. Obwohl definitiv noch Fortschritte zu erzielen sind, um Forecasting-Wettbewerbe realistischer zu gestalten, möchte ich meine Leser darauf hinweisen, diese Ergebnisse nicht zu wörtlich zu nehmen – M5 ist ein forecasting Wettbewerb. In der realen Welt müssen Fehlbestände, Produkteinführungen, Produkt-Promotions, Sortimentsänderungen, Lieferantenprobleme, Lieferpläne und all diese Faktoren berücksichtigt werden. Die größte Herausforderung besteht nicht darin, ein paar Prozentpunkte Fehler hier und da herauszuschneiden, sondern sicherzustellen, dass das End-to-End numerische Rezept keine dummen blinden Flecken aufweist, die letztlich die gesamte supply chain optimization Initiative ruinieren.


  1. Technisch gesehen war er zum Zeitpunkt des Wettbewerbs ein ehemaliger Lokad-Mitarbeiter. ↩︎

  2. Das siegreiche Team umfasste Northquay (Pseudonym) und Russ Wolfinger. Ihr Team wurde für diesen M5-Wettbewerb Everyday Low SPLices genannt. Der Klarheit halber bezeichne ich sie hier einfach als das erstplatzierte Team. ↩︎

  3. Krisen treten routinemäßig in der supply chain auf. Covid-19 ist nur die neueste weltweite Krise, aber lokale Krisen kommen ständig vor. Historische Daten spiegeln nicht immer die Ereignisse wider, die sich in der supply chain abspielen. Häufig ist die übergeordnete Erkenntnis des supply chain scientist der einzige Weg, Modelle zu sinnvollen Entscheidungen zu lenken. ↩︎

  4. Das erstplatzierte Team setzte LightGBM ein, eine C++-Bibliothek, die in der Lage ist, eine erstklassige algorithmische Leistung für diese Modellklasse zu liefern. Darüber hinaus verwendete das Team etwas fortgeschrittene numerische Leistungstricks, wie die Nutzung von Halbpräzisionszahlen. Beim Übergang zu einer Produktionsumgebung würde die Rechenleistung pro SKU höchstwahrscheinlich abnehmen aufgrund der zusätzlichen Komplexität / Heterogenität, die durch eine tatsächliche Produktionsumgebung bedingt ist. ↩︎

  5. Nicht alle Modelle eignen sich gleichermaßen dafür, das Training von der Evaluierung zu isolieren. Die Ergebnisse können variieren. Datenprobleme treten hin und wieder auf, sodass in diesen Situationen die Modelle neu trainiert werden müssen und dies schnell geschehen muss. ↩︎