Ein Team von Lokad-Mitarbeitern, nämlich Rafael de Rezende (Leiter), Ignacio Marín Eiroa, Katharina Egert und Guilherme Thompson 1, hat den 6. Platz im M5-Prognosewettbewerb von insgesamt 909 teilnehmenden Teams erreicht. Eine beeindruckende Leistung, und ich bin stolz auf das, was dieses Team erreicht hat. Der Aufbau einer Kultur, die auf quantitativen Ergebnissen basiert, war schon lange ein Ziel für Lokad, und das Ergebnis dieses Wettbewerbs zeigt, wie weit wir auf dieser Reise vorangekommen sind.

Lokad erreicht den 6. Platz im M5-Prognosewettbewerb von insgesamt 909 Teams

Meines Wissens ist dies das erste Mal, dass ein öffentlicher Prognosewettbewerb für die Nachfrage Quantilprognosen umfasst, eine Erkenntnis, die direkt mit Lokads Arbeit aus dem Jahr 2012 zusammenhängt. Obwohl es 8 Jahre gedauert hat, bis die Wissenschaft mit Quantilen aufgeholt hat, macht dies diese Leistung nicht weniger bedeutend. “Klassische” Prognosen sind im Bereich der Supply Chain sozusagen von Grund auf fehlerhaft. Quantilprognosen sind nicht das Endziel, funktionieren aber dort, wo Sicherheitsbestände nicht funktionieren. Das sehe ich als einen großen Schritt in die richtige Richtung.

In Bezug auf die Ergebnisse sind die Teams von Platz 1 bis 6 unglaublich nah beieinander. Das erstplatzierte Team2 konnte sich um einige Prozentpunkte absetzen. Meine eigene Erfahrung zeigt jedoch, dass selbst für ein sehr großes Einzelhandelsnetzwerk wie Walmart eine 5%ige Reduzierung des Pinball-Verlusts - eine Metrik, die zur Bewertung der Genauigkeit von Quantilprognosen verwendet werden kann - in Bezug auf den Fehler in Dollar kaum spürbar wäre. Tatsächlich sind die Prognosemodelle auf diesem Genauigkeitsniveau im Wesentlichen gleichwertig, und andere Aspekte (die nicht vom M5-Wettbewerb abgedeckt wurden) dominieren - wie die Fähigkeit, mit Lagerbestandslücken, unterschiedlichen Sortimenten, Kannibalisierungen, unregelmäßigen Durchlaufzeiten usw. umzugehen. Diese Aspekte machen einen viel größeren Unterschied als ein paar Prozentpunkte Pinball-Verlust.

In Bezug auf das Modell verwendete das Lokad-Team ein parametrisches Modell mit niedriger Dimensionalität, das die relevanten Zyklen (Wochentag, Tag des Monats, Monat des Jahres) auf der Ebene des Geschäfts/Kategorie einschloss, eine Baseline, die Zyklen und Bestandsausfälle eliminierte, und ein 2-Parameter-Zustandsraummodell, um die Baseline in tägliche Verläufe umzuwandeln (mit multiplikativen Beiträgen der Zyklen). Auch wie das Gewinnerteam hat Lokad keine Preisdaten oder externe Daten verwendet. Die größte technische Herausforderung für das Lokad-Team bestand darin, mit Bestandsausfällen umzugehen, die prognostiziert werden mussten: Es handelte sich um eine Verkaufsprognoseübung, nicht um eine Nachfrageprognose. Dies wird später noch genauer besprochen, wenn wir uns die Feinheiten dieses Modells ansehen.

Insgesamt kann ein gut gewähltes parametrisches Modell mit niedriger Dimensionalität, wie das von Lokad im M5-Wettbewerb verwendet wurde, eine Genauigkeit erreichen, die nur wenige Prozentpunkte von der modernsten Methode entfernt ist - die zufällig range-augmented gradient boosted trees sind. In der Produktion ist dieses Modell jedoch garantiert viel besser zu handhaben als nichtparametrische oder hyperparametrische Modelle und viel einfacher strukturell anzupassen 3, wenn es erforderlich ist.

Auch die Rechenleistung des Modells erweist sich als nicht ganz subtiler Betriebskiller. Das erstplatzierte Team berichtete, dass die Ausführung ihrer Vorhersage “ein paar Stunden” (sic) auf einem 10+10 CPU-Workstation-Setup dauerte. Das mag schnell erscheinen, aber bedenken Sie, dass der M5-Datensatz nur 30.000 SKUs umfasste, was im Vergleich zur Anzahl der SKUs in den meisten Einzelhandelsnetzwerken (einige Kategorien über einige Geschäfte) sehr gering ist. Ich schätze, dass Walmart weltweit über 100 Millionen SKUs verwalten muss, also sprechen wir von Zehntausenden von Rechenstunden pro Vorhersage 4. Die Einzelhandelsnetzwerke, die Lokad bedient, geben uns in der Regel ein Zeitfenster von etwa 2 Stunden pro Tag, um unsere Prognosen zu aktualisieren. Daher müssen die von uns gewählten Modelle sowohl für das Training als auch für die Vorhersage mit diesem Zeitplan kompatibel sein 5. Das Bereitstellen des Modells des erstplatzierten Teams ist sicherlich in der Größenordnung von Walmart möglich, aber allein die Verwaltung des Rechenclusters würde ein eigenes Team erfordern.

Der M5-Wettbewerb war eine erhebliche Verbesserung gegenüber den vorherigen Ausgaben. Der Datensatz ist jedoch immer noch weit davon entfernt, einer realen Einzelhandelssituation nahe zu kommen. Zum Beispiel waren die Preisinformationen nur für die Vergangenheit verfügbar. In der Praxis passieren Promotions nicht zufällig: sie werden geplant. Wenn also die Preisdaten für den zu prognostizierenden Zeitraum zur Verfügung gestanden hätten, wäre der Wettbewerb in Richtung Modelle gelenkt worden, die diese Informationen tatsächlich nutzen, anstatt sie sofort abzulehnen.

Neben zukünftigen Preisen fehlten dem M5-Wettbewerb zwei wichtige Daten: Bestandsniveaus und aufgeschlüsselte Transaktionen, die in Einzelhandelsketten fast immer verfügbar sind. Bestandsniveaus sind wichtig, weil ohne Bestand keine Verkäufe möglich sind (Zensur-Bias). Aufgeschlüsselte Transaktionen sind wichtig, weil es meiner Erfahrung nach nahezu unmöglich ist, irgendeine Art von Kannibalisierung oder Substitution ohne sie zu bewerten - während eine oberflächliche Beobachtung der Einzelhandelsregale deutlich zeigt, dass sie eine große Rolle spielen. Das Modell, das das Lokad-Team auf den sechsten Platz brachte, hatte diesbezüglich nichts zu bieten, und das Modell, das den ersten Platz belegte, hatte dies ebenfalls nicht.

Zusammenfassend lässt sich sagen, dass dies ein fantastisches Ergebnis für Lokad ist. Obwohl es definitiv Fortschritte gibt, um Prognosewettbewerbe realistischer zu gestalten, möchte ich meine Leser bitten, diese Ergebnisse nicht zu wörtlich zu nehmen. M5 ist ein Prognose-Wettbewerb. In der realen Welt müssen Bestandsausfälle, Produktstarts, Produktaktionen, Sortimentsänderungen, Lieferantenprobleme, Lieferpläne usw. in die Betrachtung einbezogen werden. Die größte Herausforderung besteht nicht darin, einen winzigen Fehler von wenigen Prozentpunkten nach links oder rechts zu korrigieren, sondern sicherzustellen, dass das End-to-End-numerische Rezept keine dummen blinden Flecken hat, die die gesamte Supply-Chain-Optimierung gefährden.


  1. Technisch gesehen ein ehemaliger Mitarbeiter von Lokad zum Zeitpunkt des Wettbewerbs. ↩︎

  2. Das siegreiche Team bestand aus Northquay (Pseudonym) und Russ Wolfinger. Ihr Team wurde für diesen M5-Wettbewerb als Everyday Low SPLices bezeichnet. Um Missverständnisse zu vermeiden, bezeichne ich sie hier einfach als das erstplatzierte Team. ↩︎

  3. Krisen treten in der Supply Chain routinemäßig auf. Covid-19 ist nur die neueste weltweite Krise, aber lokale Krisen treten ständig auf. Historische Daten spiegeln nicht immer die Ereignisse wider, die sich in der Supply Chain entfalten. Häufig ist der hochrangige Einblick des Supply Chain Scientist der einzige Weg, um Modelle auf vernünftige Entscheidungen auszurichten. ↩︎

  4. Das erstplatzierte Team verwendete LightGBM, eine C++-Bibliothek, die eine algorithmische Spitzenleistung für diese Art von Modellen bietet. Darüber hinaus verwendete das Team fortgeschrittene numerische Leistungstricks wie die Verwendung von Halbpräzisionszahlen. Bei der Umstellung auf eine Produktionsumgebung würde die Rechenleistung pro SKU höchstwahrscheinlich aufgrund der zusätzlichen Komplexität / Heterogenität, die durch eine tatsächliche Produktionsumgebung auferlegt wird, abnehmen↩︎

  5. Nicht alle Modelle eignen sich gleichermaßen gut, um das Training von der Bewertung (Training) zu isolieren. Die Ergebnisse können variieren. Datenprobleme treten gelegentlich auf, daher müssen Modelle in solchen Situationen schnell neu trainiert werden. ↩︎