00:01 Einführung
01:56 Die M5 Unsicherheitsherausforderung - Daten (1/3)
04:52 Die M5 Unsicherheitsherausforderung - Regeln (2/3)
08:30 Die M5 Unsicherheitsherausforderung - Ergebnisse (3/3)
11:59 Der bisherige Verlauf
14:56 Was (wahrscheinlich) passieren wird
15:43 Pinball-Verlust - Grundlage 1/3
20:45 Negative Binomialverteilung - Grundlage 2/3
24:04 Innovation Space State Model (ISSM) - Grundlage 3/3
31:36 Verkaufsstruktur - Das REMT-Modell 1/3
37:02 Zusammenfügen - Das REMT-Modell 2/3
39:10 Aggregierte Ebenen - Das REMT-Modell 3/3
43:11 Einstufiges Lernen - Diskussion 1/4
45:37 Muster vollständig - Diskussion 2/4
49:05 Fehlende Muster - Diskussion 3/4
53:20 Grenzen des M5 - Diskussion 4/4
56:46 Fazit
59:27 Bevorstehende Vorlesung und Fragen des Publikums

Beschreibung

Im Jahr 2020 erreichte ein Team bei Lokad den 5. Platz von 909 teilnehmenden Teams beim M5, einem weltweiten Prognosewettbewerb. Auf der SKU-Aggregationsebene landeten diese Prognosen jedoch auf dem 1. Platz. Die Nachfrageprognose ist von entscheidender Bedeutung für die Supply Chain. Der in diesem Wettbewerb gewählte Ansatz erwies sich als untypisch und unterschied sich von den anderen Methoden der anderen Top 50 Teilnehmer. Aus diesem Erfolg lassen sich viele Lehren ziehen, die als Vorbereitung auf weitere prognostische Herausforderungen für die Supply Chain dienen.

Vollständiges Transkript

Folie 1

Willkommen zu dieser Reihe von Vorlesungen zur Supply Chain. Ich bin Joannes Vermorel und heute werde ich “Nummer Eins auf SKU-Ebene im M5-Prognosewettbewerb” präsentieren. Eine genaue Nachfrageprognose gilt als eine der Grundlagen der Optimierung der Supply Chain. Tatsächlich spiegelt jede einzelne Entscheidung in der Supply Chain eine gewisse Erwartung an die Zukunft wider. Wenn wir überlegene Einblicke in die Zukunft gewinnen können, können wir Entscheidungen ableiten, die quantitativ überlegen für unsere Supply Chain-Zwecke sind. Daher ist die Identifizierung von Modellen, die modernste prädiktive Genauigkeit liefern, von entscheidender Bedeutung und Interesse für die Optimierung der Supply Chain.

Heute werde ich ein einfaches Verkaufsprognosemodell präsentieren, das trotz seiner Einfachheit auf SKU-Ebene in einem weltweiten Prognosewettbewerb namens M5 den ersten Platz belegte, basierend auf einem von Walmart bereitgestellten Datensatz. Diese Vorlesung hat zwei Ziele. Das erste Ziel besteht darin, zu verstehen, was erforderlich ist, um eine modernste Verkaufsprognosegenauigkeit zu erreichen. Dieses Verständnis wird von grundlegender Bedeutung sein für spätere Bemühungen im Bereich des prädiktiven Modellierens. Das zweite Ziel besteht darin, die richtige Perspektive zu setzen, wenn es um prädiktives Modellieren für Supply Chain-Zwecke geht. Diese Perspektive wird auch dazu dienen, unsere spätere Entwicklung in diesem Bereich des prädiktiven Modellierens für die Supply Chain zu leiten.

Folie 2

Der M5 war ein Prognosewettbewerb, der 2020 stattfand. Dieser Wettbewerb ist nach Spyros Makridakis benannt, einem bedeutenden Forscher auf dem Gebiet der Prognose. Dies war die fünfte Ausgabe dieses Wettbewerbs. Diese Wettbewerbe finden alle paar Jahre statt und variieren je nach Art des verwendeten Datensatzes in Bezug auf den Fokus. Der M5 war eine Herausforderung im Zusammenhang mit der Supply Chain, da der verwendete Datensatz Einzelhandelsdaten von Walmart enthielt. Die M6-Herausforderung, die noch bevorsteht, wird sich auf Finanzprognosen konzentrieren.

Der für den M5 verwendete Datensatz war und ist ein öffentlicher Datensatz. Es handelte sich um aggregierte Einzelhandelsdaten von Walmart auf täglicher Ebene. Dieser Datensatz umfasste etwa 30.000 SKUs, was im Einzelhandel eine ziemlich kleine Datenmenge ist. Tatsächlich hält ein einzelner Supermarkt in der Regel etwa 20.000 SKUs, und Walmart betreibt über 10.000 Filialen. Insgesamt war dieser Datensatz - der M5-Datensatz - also weniger als 0,1% des weltweiten Walmart-Datensatzes, der aus Sicht der Supply Chain relevant wäre.

Darüber hinaus fehlten dem M5-Datensatz, wie wir im Folgenden sehen werden, ganze Klassen von Daten. Daher schätze ich, dass dieser Datensatz tatsächlich näher an 0,01% des Maßstabs dessen liegt, was im Maßstab von Walmart erforderlich wäre. Dennoch reicht dieser Datensatz aus, um eine sehr solide Benchmark für Prognosemodelle in einer realen Umgebung durchzuführen. In einer realen Umgebung müssten wir uns jedoch genau mit Skalierbarkeitsproblemen befassen. Aus Sicht eines Prognosewettbewerbs ist es jedoch fair, den Datensatz so klein zu machen, dass die meisten Methoden, selbst die weitgehend ineffizienten Methoden, im Prognosewettbewerb verwendet werden können. Außerdem stellt dies sicher, dass die Teilnehmer nicht durch die Menge an Rechenressourcen eingeschränkt sind, die sie tatsächlich in diesen Prognosewettbewerb einbringen können.

Folie 3

Der M5-Wettbewerb umfasste zwei verschiedene Herausforderungen namens Genauigkeit und Unsicherheit. Die Regeln waren einfach: Es gab einen öffentlichen Datensatz, auf den jeder Teilnehmer zugreifen konnte, und um an einer oder beiden dieser Herausforderungen teilzunehmen, musste jeder Teilnehmer einen eigenen Datensatz erstellen, der sein Prognosedatensatz war, und diesen auf der Kaggle-Plattform einreichen. Die Genauigkeitsherausforderung bestand darin, eine durchschnittliche Zeitreihen-Prognose zu liefern, die die klassischste Art von formaler Prognose ist. In dieser speziellen Situation ging es darum, eine tägliche Durchschnittsprognose für etwa 40.000 Zeitreihen abzugeben. Die Unsicherheitsherausforderung bestand darin, Quantilprognosen abzugeben. Quantile sind Prognosen mit einer Verzerrung, wobei die Verzerrung beabsichtigt ist. Das ist der eigentliche Sinn von Quantilen. Diese Vorlesung konzentriert sich ausschließlich auf die Unsicherheitsherausforderung, und der Grund dafür ist, dass in der Supply Chain die unerwartet hohe Nachfrage zu Lagerbestandsausfällen führt und die unerwartet niedrige Nachfrage zu Inventurabschreibungen führt. Die Kosten in Supply Chains konzentrieren sich auf die Extremwerte. Es geht uns nicht um den Durchschnitt.

Tatsächlich bedeutet der Durchschnitt in der Situation von Walmart, dass für die meisten Produkte, in den meisten Geschäften, an den meisten Tagen der zu beobachtende durchschnittliche Umsatz null ist. Daher haben die meisten Produkte eine durchschnittliche Prognose, die kleiner als eins ist. Solche durchschnittlichen Prognosen sind aus Sicht der Supply Chain sehr enttäuschend. Wenn Ihre Optionen darin bestehen, entweder null zu lagern oder eine Einheit aufzufüllen, sind durchschnittliche Prognosen von geringer Relevanz. Der Einzelhandel befindet sich hier nicht in einer einzigartigen Position; es handelt sich praktisch um die gleiche Situation, egal ob es sich um FMCG, Luftfahrt, Fertigung oder Luxus handelt - praktisch jede andere Branche.

Zurück zur Herausforderung der Unsicherheit M5 mussten vier Quantile produziert werden, jeweils bei 50%, 67%, 95% und 99%. Sie können sich diese Quantilziele als Serviceniveauziele vorstellen. Die Genauigkeit dieser Quantilprognosen wurde anhand einer Metrik namens Pinball Loss-Funktion bewertet. Später in diesem Vortrag werde ich auf diese Fehlermetrik zurückkommen.

Folie 4

In dieser Unsicherheitsherausforderung traten weltweit 909 Teams gegeneinander an. Ein Team von Lokad belegte insgesamt den fünften Platz, aber den ersten Platz auf der SKU-Ebene. Tatsächlich machten SKUs etwa drei Viertel der Zeitreihen in dieser Herausforderung aus, es gab jedoch verschiedene Aggregationsebenen von Bundesstaaten (wie Texas, Kalifornien usw.) bis hin zur SKU, und alle Aggregationsebenen wurden im Endergebnis dieses Wettbewerbs gleich gewichtet. Daher machten SKUs zwar etwa drei Viertel der Zeitreihen aus, hatten aber nur etwa 8% des Gesamtgewichts im Endergebnis des Wettbewerbs.

Die von diesem Team von Lokad verwendete Methode wurde in einem Artikel mit dem Titel “A White Box ISSM Approach to Estimate Uncertainty Distribution of Walmart’s Sales” veröffentlicht. Ich werde nach Abschluss dieses Vortrags einen Link zu diesem Artikel in die Beschreibung dieses Videos aufnehmen. Dort finden Sie alle Elemente detaillierter. Um Klarheit und Kürze willen werde ich das in diesem Artikel vorgestellte Modell als BRAMPT-Modell bezeichnen, einfach benannt nach den Initialen der vier Co-Autoren.

Auf dem Bildschirm habe ich die fünf besten Ergebnisse für das M5 aufgelistet, die aus einem Artikel stammen, der allgemeine Einblicke in das Ergebnis dieses Prognosewettbewerbs bietet. Die genaue Rangfolge hängt stark von der gewählten Metrik ab. Das ist nicht allzu überraschend. Die Unsicherheitsherausforderung verwendete eine skalierte Version der Pinball-Loss-Funktion. Wir werden in einer Minute auf diese Fehlermetrik zurückkommen. Obwohl die Unsicherheitsherausforderung M5 gezeigt hat, dass wir nicht die Mittel haben, um Unsicherheit mit den Prognosemethoden, die wir haben, auch nur annähernd zu beseitigen, ist dies kein überraschendes Ergebnis. Angesichts der Tatsache, dass der Einzelhandelsverkauf tendenziell unregelmäßig und intermittierend ist, betont dies die Bedeutung, Unsicherheit zu akzeptieren, anstatt sie einfach vollständig abzulehnen. Es ist jedoch bemerkenswert, dass Lieferanten von Supply Chain Software in den Top 50 Rängen dieses Prognosewettbewerbs vollständig abwesend waren, was umso interessanter ist, wenn man bedenkt, dass diese Anbieter angeblich über eine überlegene, hochmoderne Prognosetechnologie verfügen.

Folie 5

Dieser Vortrag ist Teil einer Reihe von Supply Chain-Vorträgen. Dieser Vortrag ist der erste von dem, was mein fünftes Kapitel in dieser Reihe sein wird. Dieses fünfte Kapitel wird der prädiktiven Modellierung gewidmet sein. Tatsächlich ist es notwendig, quantitative Erkenntnisse zu sammeln, um eine Supply Chain zu optimieren. Bei jeder Entscheidung in der Supply Chain - sei es der Kauf von Materialien, die Produktion eines bestimmten Produkts, die Verlagerung von Lagerbeständen von einem Ort zum anderen oder die Erhöhung oder Senkung des Preises eines verkauften Produkts - geht diese Entscheidung mit einer bestimmten Erwartung an die zukünftige Nachfrage einher. Jede einzelne Supply Chain-Entscheidung enthält marginal eine eingebaute Erwartung an die Zukunft. Diese Erwartung kann implizit und verborgen sein. Wenn wir jedoch die Qualität unserer Erwartung an die Zukunft verbessern möchten, müssen wir diese Erwartung konkretisieren, was in der Regel durch eine Prognose erfolgt, auch wenn es nicht unbedingt eine Zeitreihenprognose sein muss.

Das fünfte und vorliegende Kapitel trägt den Namen “Prädiktive Modellierung” anstelle von “Prognose” aus zwei Gründen. Erstens wird Prognose fast immer mit Zeitreihenprognose in Verbindung gebracht. Wie wir jedoch in diesem Kapitel sehen werden, gibt es viele Supply Chain-Situationen, die sich nicht wirklich für die Perspektive der Zeitreihenprognose eignen. In diesem Sinne ist prädiktive Modellierung ein neutralerer Begriff. Zweitens sind es die Modelle, die die eigentliche Erkenntnis bringen, nicht die Modelle selbst. Wir suchen nach Modellierungstechniken, und es ist durch diese Techniken, dass wir erwarten können, mit der Vielfalt der Situationen umgehen zu können, die in realen Supply Chains auftreten.

Der vorliegende Vortrag dient als Prolog für unser Kapitel zur prädiktiven Modellierung, um zu verdeutlichen, dass prädiktive Modellierung keine Art von Wunschdenken in Bezug auf Prognosen ist, sondern als modernste Prognosetechnik gilt. Dies kommt zusätzlich zu allen anderen Vorteilen, die im Laufe dieses Kapitels nach und nach deutlich werden.

Folie 6

Der Rest dieses Vortrags wird in drei Teile gegliedert sein. Zunächst werden wir eine Reihe mathematischer Bestandteile überprüfen, die im Wesentlichen die Bausteine des BRAMPT-Modells sind. Zweitens werden wir diese Bestandteile zusammenfügen, um das BRAMPT-Modell zu konstruieren, genau wie es während des M5-Wettbewerbs gemacht wurde. Drittens werden wir besprechen, was getan werden kann, um das BRAMPT-Modell zu verbessern, und auch sehen, was getan werden könnte, um die Prognoseherausforderung selbst zu verbessern, wie sie im M5-Wettbewerb präsentiert wurde.

Folie 7

Die Unsicherheitsherausforderung des M5-Wettbewerbs zielt darauf ab, Quantilschätzungen zukünftiger Verkäufe zu berechnen. Ein Quantil ist ein Punkt in einer eindimensionalen Verteilung, und per Definition ist ein 90-Prozent-Quantil der Punkt, an dem es eine 90-prozentige Chance gibt, unter diesem Mengenwert zu liegen, und eine 10-prozentige Chance, darüber zu liegen. Das Median ist per Definition das 50-Prozent-Quantil.

Die Pinball-Verlustfunktion ist eine Funktion mit einer tiefen Affinität zu Quantilen. Im Wesentlichen kann für jeden gegebenen Tau-Wert zwischen null und eins Tau aus einer Supply Chain-Perspektive als Ziel für den Servicegrad interpretiert werden. Für jeden Tau-Wert ist das mit Tau verbundene Quantil der Wert in der Wahrscheinlichkeitsverteilung, der die Pinball-Verlustfunktion minimiert. Auf dem Bildschirm sehen wir eine einfache Implementierung der Pinball-Verlustfunktion, geschrieben in Envision, der domänenspezifischen Programmiersprache von Lokad, die für Zwecke der Supply Chain-Optimierung entwickelt wurde. Die Syntax ähnelt Python und sollte für das Publikum relativ transparent sein.

Wenn wir versuchen, diesen Code zu entpacken, haben wir y, was den realen Wert darstellt, y-hat, was unsere Schätzung ist, und tau, was unser Quantilziel ist. Nochmals, das Quantilziel ist im Wesentlichen das Servicegradziel in Supply Chain-Begriffen. Wir sehen, dass die Unterprognose mit einem Gewicht von Tau kommt, während die Überprognose mit einem Gewicht von eins minus Tau kommt. Die Pinball-Verlustfunktion ist eine Verallgemeinerung des absoluten Fehlers. Wenn wir zu Tau gleich 0,5 zurückkehren, können wir sehen, dass die Pinball-Verlustfunktion gerade der absolute Fehler ist. Wenn wir eine Schätzung haben, die den absoluten Fehler minimiert, erhalten wir eine Schätzung des Medians.

Auf dem Bildschirm sehen Sie eine Darstellung der Pinball-Verlustfunktion. Diese Verlustfunktion ist asymmetrisch, und durch eine asymmetrische Verlustfunktion erhalten wir nicht die durchschnittliche oder mediane Prognose, sondern eine Prognose mit einem kontrollierten Bias, was genau das ist, was wir für eine Quantilschätzung haben möchten. Das Schöne an der Pinball-Verlustfunktion ist ihre Einfachheit. Wenn Sie eine Schätzung haben, die die Pinball-Verlustfunktion minimiert, dann haben Sie eine Quantilsprognose durch Konstruktion. Wenn Sie also ein Modell haben, das Parameter hat und die Optimierung der Parameter durch die Linse der Pinball-Verlustfunktion steuern, erhalten Sie im Wesentlichen ein Quantilsprognosemodell aus Ihrem Modell.

Die M5 Unsicherheits-Herausforderung stellte eine Reihe von vier Quantilzielen bei 50, 67, 95 und 99 vor. Ich bezeichne eine solche Reihe von Quantilzielen in der Regel als Quantilgitter. Ein Quantilgitter oder quantisierte Gitterprognosen sind keine rein probabilistischen Prognosen; es ist nah dran, aber noch nicht ganz da. Bei einem Quantilgitter wählen wir immer noch gezielt unsere Ziele aus. Wenn wir zum Beispiel sagen, dass wir eine Quantilsprognose für 95 Prozent erstellen möchten, stellt sich die Frage, warum 95, warum nicht 94 oder 96? Diese Frage bleibt unbeantwortet. Wir werden uns das später in diesem Kapitel genauer ansehen, aber nicht in diesem Vortrag. Lassen Sie uns sagen, dass der Hauptvorteil probabilistischer Prognosen darin besteht, diesen gezielten Aspekt der Quantilgitter vollständig zu eliminieren.

Slide 8

Den meisten Zuhörern ist wahrscheinlich die Normalverteilung bekannt, die glockenförmige Kurve, die in natürlichen Phänomenen sehr häufig vorkommt. Eine Zähldistribution ist eine Verteilung von Wahrscheinlichkeiten über jede ganze Zahl. Im Gegensatz zu kontinuierlichen reellen Verteilungen wie der Normalverteilung, die Ihnen eine Wahrscheinlichkeit für jede einzelne reelle Zahl gibt, kümmern sich Zähldistributionen nur um nicht-negative ganze Zahlen. Es gibt viele Klassen von Zähldistributionen; heute liegt unser Interesse jedoch auf der negativen Binomialverteilung, die vom REM-Modell verwendet wird.

Die negative Binomialverteilung hat wie die Normalverteilung zwei Parameter, die auch effektiv den Mittelwert und die Varianz der Verteilung steuern. Wenn wir den Mittelwert und die Varianz für eine negative Binomialverteilung so wählen, dass der Großteil der Masse der Wahrscheinlichkeitsverteilung weit von null entfernt ist, haben wir ein Verhalten für die negative Binomialverteilung, das asymptotisch zu einem Normalverteilungsverhalten konvergiert, wenn wir alle Wahrscheinlichkeitswerte zu den nächstgelegenen ganzen Zahlen zusammenfallen lassen würden. Wenn wir uns jedoch Verteilungen ansehen, bei denen der Mittelwert klein ist, insbesondere im Vergleich zur Varianz, werden wir feststellen, dass die negative Binomialverteilung in Bezug auf das Verhalten im Vergleich zu einer Normalverteilung signifikant abweicht. Insbesondere bei kleinen Mittelwert-Negative-Binomialverteilungen werden wir feststellen, dass diese Verteilungen im Gegensatz zur Normalverteilung stark asymmetrisch werden, unabhängig davon, welchen Mittelwert und welche Varianz Sie wählen.

Auf dem Bildschirm ist eine negative Binomialverteilung durch Envision dargestellt. Der Code, der verwendet wurde, um diese Darstellung zu erzeugen, wird unten angezeigt. Die Funktion nimmt zwei Argumente, was zu erwarten ist, da diese Verteilung zwei Parameter hat, und das Ergebnis ist nur eine Zufallsvariable, die als Histogramm dargestellt wird. Ich werde hier in diesem Vortrag nicht auf die Feinheiten der negativen Binomialverteilung eingehen. Das ist einfache Wahrscheinlichkeitstheorie. Wir haben explizite geschlossene analytische Formeln für den Modus, den Median, die kumulative Verteilungsfunktion, Schiefe, Kurtosis usw. Die Wikipedia-Seite gibt eine ziemlich gute Zusammenfassung all dieser Formeln, daher lade ich das Publikum ein, einen Blick darauf zu werfen, wenn sie mehr über diese spezielle Art von Zähldistribution erfahren möchten.

Slide 9

Lassen Sie uns zum Innovation Space State Model (ISSM) übergehen. Das Innovation Space State Model ist ein langer und beeindruckend klingender Name für etwas, das ziemlich einfach ist. Tatsächlich ist das ISSM ein Modell, das eine Zeitreihe in einen Random Walk umwandelt. Mit dem ISSM können Sie eine einfache Zeitreihenprognose, und wenn ich von Durchschnitt spreche, meine ich eine Prognose, bei der für jeden Zeitraum ein Wert auf den Durchschnitt gesetzt wird, in eine probabilistische Prognose umwandeln, und nicht nur eine Quantilprognose, sondern direkt eine probabilistische Prognose. Auf dem Bildschirm sehen Sie eine vollständige ISSM-Implementierung, die wieder einmal in Envision geschrieben wurde. Wir können sehen, dass es nur etwa ein Dutzend Zeilen Code sind, und tatsächlich machen die meisten dieser Zeilen Code nicht einmal viel. Das ISSM ist buchstäblich sehr einfach und es wäre sehr einfach, dieses Stück Code in jeder anderen Sprache wie Python neu zu implementieren.

Werfen wir einen genaueren Blick auf die Feinheiten dieser Codezeilen. In Zeile eins gebe ich den Bereich der Zeiträume an, in denen der Random Walk stattfinden wird. Aus Sicht des M5 möchten wir einen Random Walk für einen Zeitraum von 28 Tagen, also haben wir 28 Punkte, einen Punkt pro Tag. In den Zeilen drei, vier und fünf führen wir eine Reihe von Parametern ein, die den Random Walk selbst steuern werden. Der erste Parameter ist die Streuung, die als Argument verwendet wird, um die Form der negativen Binomialverteilungen zu steuern, die im ISSM-Prozess auftreten. Dann haben wir Alpha, das im Wesentlichen der Faktor ist, der den exponentiellen Glättungsprozess steuert, der ebenfalls im ISSM stattfindet. In Zeile fünf haben wir das Level, das einfach der Anfangszustand des Random Walks ist. Schließlich haben wir in Zeile sechs eine Reihe von Faktoren, die normalerweise dazu dienen, alle Kalendermuster zu erfassen, die wir in unser Prognosemodell einbetten möchten.

Nun kommen die Werte von Zeile drei bis sechs nur mit einer Scheininitialisierung. Um der Kürze willen werde ich gleich darauf eingehen, wie diese Werte tatsächlich optimiert werden, aber hier sind alle Initialisierungen, die Sie sehen, nur Scheinwerte. Ich ziehe sogar zufällige Werte für die Baseline. Wir werden darauf eingehen, wie Sie diese Werte richtig initialisieren müssen, wenn Sie dieses Modell verwenden möchten, was wir später in diesem Vortrag tun werden.

Werfen wir nun einen Blick auf den Kern des ISSM-Prozesses. Der Kern beginnt in Zeile acht und beginnt mit einer Schleife von 1000 Iterationen. Ich habe gerade gesagt, dass der ISSM-Prozess ein Prozess ist, um Random Walks zu generieren, also machen wir hier 1000 Iterationen, oder wir werden 1000 Random Walks machen. Wir könnten mehr haben, wir könnten weniger haben; es ist ein einfacher Monte Carlo-Prozess. Dann in Zeile neun machen wir eine zweite Schleife. Dies ist die Schleife, die einen Tag nach dem anderen für den interessierenden Zeitraum iteriert. Wir haben also die äußere Schleife, die im Wesentlichen eine Iteration pro Random Walk ist, und dann haben wir die innere Schleife, die eine Iteration ist, die sich einfach von einem Tag zum nächsten innerhalb des Random Walks bewegt.

In Zeile 10 haben wir ein Keep-Level. Um das Level beizubehalten, sagen wir einfach, dass dieser Parameter innerhalb der inneren Schleife mutiert wird, nicht innerhalb der äußeren Schleife. Das bedeutet, dass das Level etwas ist, das sich ändert, wenn wir von einem Tag zum nächsten gehen, aber wenn wir von einem Random Walk zum nächsten durch die Monte Carlo-Schleife gehen, wird dieses Level auf seinen anfänglichen Wert zurückgesetzt, der oben deklariert ist. In Zeile 11 berechnen wir den Mittelwert. Der Mittelwert ist der zweite Parameter, den wir verwenden, um die negative Binomialverteilung zu steuern. Wir haben also den Mittelwert, wir haben die Streuung und wir haben eine negative Binomialverteilung. In Zeile 12 ziehen wir eine Abweichung gemäß der normalen Binomialverteilung. Das Ziehen einer Abweichung bedeutet einfach, dass wir eine zufällige Stichprobe aus dieser Zähldistribution nehmen. Dann in Zeile 13 aktualisieren wir dieses Level basierend auf der Abweichung, die wir gesehen haben, und der Aktualisierungsprozess ist einfach ein sehr einfacher exponentieller Glättungsprozess, der durch den Alpha-Parameter gesteuert wird. Wenn wir Alpha sehr groß nehmen, gleich eins, bedeutet das, dass wir das gesamte Gewicht auf der letzten Beobachtung haben. Im Gegensatz dazu, wenn wir Alpha gleich null setzen würden, würde das bedeuten, dass wir keinen Drift hätten; wir würden der ursprünglichen Zeitreihe treu bleiben, wie sie in der Baseline definiert ist.

Übrigens, in Envision, wenn es “.baseline” heißt, sehen wir hier, dass es sich um eine Tabelle handelt, also um eine Tabelle, die zum Beispiel NDM5 hat; das würde 28 Werte haben, und die Baseline ist einfach ein Vektor, der zu dieser Tabelle gehört. In Zeile 15 sammeln wir alle Abweichungen und summieren sie über “someday.q”. Wir senden sie in eine Variable namens “total”, also haben wir innerhalb eines Random Walks die Summe der Abweichungen, die für jeden einzelnen Tag gesammelt wurden. Somit haben wir die Summe der Verkäufe für 28 Tage. Schließlich sammeln und sammeln wir in Zeile 16 im Wesentlichen diese Proben in einem “render”. Ein “render” ist ein spezifisches Objekt in Envision, das im Wesentlichen eine Wahrscheinlichkeitsverteilung von relativen ganzen Zahlen, positiven und negativen, ist.

Zusammenfassend haben wir den ISSM als einen Zufallsgenerator von eindimensionalen Random Walks. Im Kontext der Umsatzprognose kann man sich diese Random Walks als mögliche zukünftige Beobachtungen für die Umsätze selbst vorstellen. Es ist interessant, weil wir die Prognose nicht als Durchschnitt oder Median betrachten; wir betrachten unsere Prognose buchstäblich als eine mögliche Instanz einer Zukunft.

Slide 10

An diesem Punkt haben wir alles gesammelt, was wir brauchen, um das REMT-Modell zusammenzustellen, was wir jetzt tun werden.

Das REMT-Modell verwendet eine multiplikative Struktur, die an das Holt-Winters-Prognosemodell erinnert. Jeder Tag erhält eine Baseline, die ein einziger Wert ist und das Produkt von fünf Kalendereffekten ist. Wir haben nämlich den Monat des Jahres, den Wochentag, den Tag des Monats, Weihnachten und Halloween-Effekte. Diese Logik ist als prägnantes Envision-Skript implementiert.

Envision verfügt über eine relationale Algebra, die Rundfunkbeziehungen zwischen Tabellen bietet, die für diese Situation sehr praktisch sind. Die fünf Tabellen, die wir erstellt haben, eine Tabelle pro Kalendermuster, sind als Gruppierungstabellen konstruiert. Wir haben also die Datentabelle, und die Datentabelle hat einen Primärschlüssel namens “date”. Wenn wir schreiben, dass wir eine neue Tabelle mit einer “by” Aggregation deklarieren und dann das Datum haben, bauen wir eine Tabelle, die eine direkte Rundfunkbeziehung zur Datentabelle hat.

Wenn wir uns speziell die Tabelle für den Wochentag in Zeile vier ansehen, bauen wir eine Tabelle, die genau sieben Zeilen haben wird. Jede Zeile der Tabelle wird mit genau einer Zeile des Wochentags verknüpft sein. Wenn wir also Werte in diese Wochentagstabelle einfügen, können wir diese Werte ganz natürlich übertragen, weil jede Zeile auf der Empfängerseite, auf der Datumsseite, eine Zeile hat, die in dieser Wochentagstabelle übereinstimmt.

In Zeile neun wird mit dem Vektor “de.dot.baseline” die einfache Multiplikation der fünf Faktoren auf der rechten Seite der Zuweisung berechnet. Alle diese Faktoren werden zuerst an die Datentabelle übertragen, und dann führen wir eine einfache zeilenweise Multiplikation für jede einzelne Zeile in der Datentabelle durch.

Jetzt haben wir ein Modell, das einige Dutzend Parameter hat. Wir können diese Parameter zählen: Wir haben 12 Parameter für den Monat des Jahres, von 1 bis 12; wir haben sieben Parameter für den Wochentag; und wir haben 31 Parameter für den Tag des Monats. Im Fall von NDM5 werden wir jedoch keinen Parameterwert für all diese Werte für jede einzelne SKU lernen, da wir sonst eine massiv große Anzahl von Parametern hätten, die höchstwahrscheinlich das Walmart-Datenset stark überanpassen würden. Stattdessen wurde bei NDM5 ein Trick namens Parameter Sharing angewendet.

Parameter Sharing bedeutet, dass wir anstelle von unterschiedlichen Parametern für jede einzelne SKU Untergruppen festlegen und dann diese Parameter auf Untergruppenebene lernen werden. Anschließend verwenden wir dieselben Werte innerhalb dieser Gruppen für diese Parameter. Parameter Sharing ist eine sehr klassische Technik, die in der Deep Learning-Forschung weit verbreitet ist, obwohl sie älter ist als das Deep Learning selbst. Während des M5-Wettbewerbs wurden der Monat des Jahres und der Wochentag auf der Ebene der Geschäftsabteilung gelernt. Ich werde gleich auf die verschiedenen Aggregationsebenen des M5 zurückkommen. Der Tag des Monats war tatsächlich fest codierte Faktoren, die auf der Bundesebene festgelegt wurden, und wenn ich von Bundesstaat spreche, meine ich die Vereinigten Staaten, wie Kalifornien, Texas, etc. Während des M5 wurden all diese Kalenderparameter einfach als direkte Durchschnitte über ihre entsprechenden Bereiche gelernt. Es ist ein sehr direkter Weg, um diese Parameter festzulegen: Sie nehmen einfach alle SKUs, die zum gleichen Bereich gehören, mitteln alles, normalisieren und schon haben Sie Ihren Parameter.

Folie 11

Jetzt haben wir alles zusammen, um das REMT-Modell zusammenzusetzen. Wir haben gesehen, wie man die tägliche Baseline erstellt, die alle Kalendermuster enthält. Die Kalendermuster wurden durch direkte Durchschnitte eines bestimmten Bereichs gelernt, was ein roher, aber effektiver Lernmechanismus ist. Wir haben auch gesehen, dass das ISSM eine Zeitreihe in einen Random Walk umwandelt. Es bleibt uns nur noch, die richtigen Werte für die ISSM-Parameter festzulegen, nämlich Alpha, den Parameter, der für den exponentiellen Glättungsprozess innerhalb des SSM verwendet wird; die Dispersion, die ein Parameter ist, der die negative Binomialverteilung steuert; und der Anfangswert für den Level, der verwendet wird, um unseren Random Walk zu initialisieren.

Während des M5-Wettbewerbs hat das Team von Lokad eine einfache Rastersuche-Optimierung verwendet, um diese drei verbleibenden Parameter zu lernen. Rastersuche bedeutet im Wesentlichen, dass man über alle möglichen Kombinationen dieser Werte iteriert und dabei kleine Inkremente verwendet. Die Rastersuche wurde mit der Pinball-Verlustfunktion gesteuert, die ich zuvor beschrieben habe, um die Optimierung dieser drei Parameter zu lenken. Für jede SKU ist die Rastersuche wahrscheinlich eine der ineffizientesten Formen der mathematischen Optimierung. Angesichts der Tatsache, dass wir nur drei Parameter haben und dass wir nur eine Optimierung pro Zeitreihe durchführen müssen und dass der M5-Datensatz selbst ziemlich klein ist, war sie jedoch für den M5-Wettbewerb geeignet.

Folie 12

Bisher haben wir gezeigt, wie das REMT-Modell auf der SKU-Ebene funktioniert. Im M5 gab es jedoch 12 verschiedene Aggregationsebenen. Die SKU-Ebene, als die am feinsten aufgeschlüsselte Ebene, war die wichtigste. Eine SKU, oder Lagerhaltungseinheit, ist buchstäblich ein Produkt an einem Ort. Wenn Sie dasselbe Produkt an 10 verschiedenen Orten haben, haben Sie 10 SKUs. Obwohl die SKU-Ebene wahrscheinlich die relevanteste Aggregationsebene für eine Lieferkette ist, werden nahezu alle Bestandsentscheidungen, wie beispielsweise die Lagerauffüllung und das Sortiment, auf SKU-Ebene getroffen. Der M5 war in erster Linie ein Prognosewettbewerb, und daher lag der Schwerpunkt auf den anderen Aggregationsebenen.

Auf dem Bildschirm sind die Aggregationsebenen zusammengefasst, die im M5-Datensatz vorhanden waren. Sie können sehen, dass wir die Bundesstaaten wie Kalifornien und Texas haben. Um mit den höheren Aggregationsebenen umzugehen, wurden vom Team von Lokad zwei Techniken verwendet: Entweder wurden die Zufallswanderungen summiert, d.h. die Zufallswanderungen wurden auf einer niedrigeren Aggregationsebene durchgeführt, summiert und dann auf einer höheren Aggregationsebene Zufallswanderungen durchgeführt; oder der Lernprozess wurde vollständig neu gestartet und direkt zur höheren Aggregationsebene gewechselt. Im M5 Unsicherheitswettbewerb war das REMT-Modell auf SKU-Ebene am besten, aber auf den anderen Aggregationsebenen war es nicht das beste, obwohl es insgesamt gut abschnitt.

Meine eigene Arbeitsannahme, warum das REMT-Modell nicht auf allen Ebenen das Beste war, lautet wie folgt (bitte beachten Sie, dass dies eine Hypothese ist und wir sie tatsächlich nicht getestet haben): Die negative Binomialverteilung bietet zwei Freiheitsgrade durch ihre zwei Parameter. Bei der Betrachtung von relativ dünnen Daten, wie sie auf der SKU-Ebene zu finden sind, bieten zwei Freiheitsgrade das richtige Gleichgewicht zwischen Unteranpassung und Überanpassung. Wenn wir uns jedoch auf höhere Aggregationsebenen zubewegen, werden die Daten dichter und reicher, sodass der Kompromiss wahrscheinlich zu etwas verschoben wird, das besser geeignet ist, die Form der Verteilung genauer zu erfassen. Wir bräuchten ein paar zusätzliche Freiheitsgrade - wahrscheinlich nur ein oder zwei zusätzliche Parameter -, um dies zu erreichen.

Ich vermute, dass eine Erhöhung des Parametrierungsgrads der Zähldistribution, die im Kern des REMT-Modells verwendet wird, einen großen Beitrag dazu geleistet hätte, etwas sehr Ähnliches, wenn nicht sogar direkt State-of-the-Art, für die höheren Aggregationsebenen zu erreichen. Wir hatten jedoch keine Zeit dafür, und wir werden den Fall möglicherweise zu einem späteren Zeitpunkt erneut prüfen. Damit schließen wir ab, was das Team von Lokad während des M5-Wettbewerbs getan hat.

Folie 13

Lassen Sie uns besprechen, was hätte anders oder besser gemacht werden können. Obwohl das REMT-Modell ein niedrigdimensionales parametrisches Modell mit einer einfachen multiplikativen Struktur ist, war der Prozess, um die Werte der Parameter während des M5 zu erhalten, etwas zufällig kompliziert. Es war ein mehrstufiger Prozess, bei dem jedes Kalendermuster eine eigene ad hoc Behandlung hatte und mit einer maßgeschneiderten Rastersuche zur Vervollständigung des REMT-Modells endete. Der gesamte Prozess war für Datenwissenschaftler zeitaufwändig und ich vermute, dass er aufgrund der großen Menge an ad hoc Code in Produktionsumgebungen ziemlich unzuverlässig wäre.

Insbesondere bin ich der Meinung, dass wir den Lernprozess aller Parameter als einen einzigen Prozess vereinheitlichen können und sollten oder zumindest den Lernprozess so vereinheitlichen, dass dieselbe Methode wiederholt verwendet wird. Heutzutage verwendet Lokad differentiable Programmierung, um genau das zu tun. Differentiable Programmierung beseitigt die Notwendigkeit von ad hoc Aggregationen in Bezug auf die Kalendermuster. Es beseitigt auch das Problem, die Extraktion der Kalendermuster präzise zu ordnen, indem alle Muster auf einmal extrahiert werden. Schließlich ersetzt differentiable Programmierung die Rastersuche durch eine viel effizientere Optimierungslogik, da es selbst ein Optimierungsprozess ist. Wir werden in späteren Vorlesungen in diesem Kapitel genauer untersuchen, wie differentiable Programmierung für die prädiktive Modellierung im Kontext von Supply Chain-Zwecken verwendet werden kann.

Folie 14

Nun, eines der überraschendsten Ergebnisse des M5-Wettbewerbs war, dass kein statistisches Muster unbenannt blieb. Wir hatten buchstäblich vier Muster: Einfachheit, Zustand, Streuung und Drift, die alle erforderlich waren, um eine erstklassige Prognosegenauigkeit im M5-Wettbewerb zu erreichen.

Einfachheiten basieren alle auf dem Kalender und keines davon ist auch nur annähernd überraschend. Der Zustand kann als eine einzige Zahl dargestellt werden, die den erreichten Level des SKU zu einem bestimmten Zeitpunkt darstellt. Die Streuung kann mit einer einzigen Zahl dargestellt werden, die zur Parametrisierung der negativen Binomialverteilung verwendet wird, und die Drift kann mit einer einzigen Zahl dargestellt werden, die mit dem exponentiellen Glättungsprozess verbunden ist, der im SSM auftritt. Wir mussten nicht einmal den Trend einschließen, der für einen 28-tägigen Horizont zu schwach war.

Während wir uns die insgesamt fünf Jahre aggregierter Verkäufe für das M5 auf dem Bildschirm anzeigen lassen, zeigt die Aggregation deutlich einen bescheidenen Aufwärtstrend. Dennoch funktioniert das REMT-Modell auch ohne ihn und hatte keinerlei Auswirkungen auf die Genauigkeit. Die Leistung des REMT-Modells stellt die Frage: Gibt es noch ein anderes Muster zu erfassen und haben wir irgendwelche Muster übersehen?

Zumindest zeigt die Leistung des REMT-Modells, dass keines der anspruchsvolleren Modelle, die an diesem Wettbewerb beteiligt waren, wie Gradient Boosting Trees oder Deep Learning-Methoden, etwas über diese vier Muster hinaus erfasst hat. Tatsächlich hätten diese Modelle, wenn sie etwas Wesentliches erfasst hätten, das REMT-Modell auf SKU-Ebene bei weitem übertroffen, was sie nicht getan haben. Das Gleiche gilt für alle anspruchsvolleren statistischen Methoden wie ARIMA. Diese Modelle konnten ebenfalls nichts über das hinaus erfassen, was dieses sehr einfache multiplikative parametrische Modell erfasst hat.

Das Prinzip des Occam’schen Rasiermessers besagt, dass wir, solange wir keinen sehr guten Grund haben zu glauben, dass uns ein Muster entgeht, oder einen sehr guten Grund für eine sehr interessante Eigenschaft haben, die die Einfachheit dieses Modells übertrifft, keinen Grund haben, etwas anderes als ein Modell zu verwenden, das mindestens so einfach ist wie das REMT-Modell.

Folie 15

Es gab jedoch eine Reihe von Mustern, die aufgrund des Designs des M5-Datensatzes im M5-Wettbewerb fehlten. Diese Muster sind wichtig und in der Praxis wird jedes Modell, das sie ignoriert, in einer realen Einzelhandelsumgebung schlecht funktionieren. Ich stütze diese Aussage auf meine eigene Erfahrung.

Zunächst haben wir die Produktstarts. Der M5-Wettbewerb umfasste nur Produkte, die mindestens fünf Jahre Verkaufshistorie hatten. Dies ist eine unrealistische Annahme, was die Supply Chain betrifft. Tatsächlich haben FMCG-Produkte in der Regel nur eine Lebensdauer von ein oder zwei Jahren, und daher gibt es in einem tatsächlichen Geschäft immer einen erheblichen Teil des Sortiments, das weniger als ein Jahr Verkaufshistorie hat. Darüber hinaus müssen bei Produkten mit langen Durchlaufzeiten zahlreiche Supply Chain-Entscheidungen getroffen werden, noch bevor das Produkt überhaupt einmal in einem Geschäft verkauft werden kann. Daher benötigen wir Prognosemodelle, die auch ohne Verkaufshistorie für ein bestimmtes Produkt funktionieren können.

Das zweite Muster von entscheidender Bedeutung sind Bestandslücken. Bestandslücken treten im Einzelhandel auf, und der M5-Wettbewerbsdatensatz hat sie vollständig ignoriert. Bestandslücken begrenzen jedoch den Umsatz. Wenn ein Produkt im Geschäft nicht vorrätig ist, wird es an diesem Tag nicht verkauft, und daher führen Bestandslücken zu einer erheblichen Verzerrung der beobachteten Verkäufe. Das Problem bei Walmart und allgemeinen Warenhäusern ist noch komplizierter, da den elektronischen Aufzeichnungen, die die Bestandsbestände erfassen, nicht vollständig vertraut werden kann. Es gibt zahlreiche Bestandsungenauigkeiten, die ebenfalls berücksichtigt werden müssen.

Drittens haben wir Promotions. Der M5-Wettbewerb enthielt zwar historische Preisinformationen, jedoch wurden die Preisdaten nicht für den zu prognostizierenden Zeitraum bereitgestellt. Daher scheint es, dass kein Teilnehmer in diesem Wettbewerb die Preisinformationen nutzen konnte, um die Prognosegenauigkeit zu verbessern. Das REMT-Modell verwendet überhaupt keine Preisinformationen. Abgesehen davon, dass uns die Preisinformationen für den Prognosezeitraum fehlten, geht es bei Promotionen nicht nur um den Preis. Ein Produkt kann durch eine prominente Platzierung in einem Geschäft beworben werden, was die Nachfrage erheblich steigern kann, unabhängig davon, ob der Preis gesenkt wurde. Darüber hinaus müssen bei Promotionen Kannibalisierungs- und Substitutionseffekte berücksichtigt werden.

Insgesamt kann der M5-Datensatz aus Sicht der Supply Chain als Spielzeugdatensatz betrachtet werden. Obwohl er wahrscheinlich der beste öffentliche Datensatz ist, der für Supply Chain-Benchmarks zur Verfügung steht, ist er immer noch weit entfernt von einer tatsächlichen Produktionsumgebung in einer Einzelhandelskette von bescheidener Größe.

Folie 16

Die Einschränkungen des M5-Wettbewerbs sind jedoch nicht nur auf den Datensatz zurückzuführen. Aus Sicht der Supply Chain gibt es grundlegende Probleme mit den Regeln, die für den M5-Wettbewerb verwendet wurden.

Das erste grundlegende Problem besteht darin, Verkäufe nicht mit Nachfrage zu verwechseln. Wir haben dieses Problem bereits bei Bestandslücken angesprochen. Aus Sicht der Supply Chain liegt das wahre Interesse darin, die Nachfrage vorherzusagen, nicht die Verkäufe. Das Problem geht jedoch tiefer. Die ordnungsgemäße Schätzung der Nachfrage ist grundsätzlich ein unüberwachtes Lernproblem. Nur weil willkürliche Entscheidungen über das anwendbare Sortiment in einem Geschäft getroffen wurden, sollte die Nachfrage nach einem Produkt nicht geschätzt werden. Wir müssen die Nachfrage nach Produkten schätzen, unabhängig davon, ob sie Teil des Sortiments in einem bestimmten Geschäft sind.

Der zweite Aspekt ist, dass Quantilprognosen weniger nützlich sind als probabilistische Prognosen. Das Auswählen von Servicelevels hinterlässt Lücken im Bild, und Quantilprognosen sind in Bezug auf die Verwendung in der Supply Chain relativ schwach. Eine probabilistische Prognose liefert eine viel umfassendere Vision, da sie die vollständige Wahrscheinlichkeitsverteilung liefert und diese Art von Problemen eliminiert. Der einzige Nachteil probabilistischer Prognosen besteht darin, dass sie mehr Werkzeuge erfordern, insbesondere wenn es darum geht, nach der Prognose tatsächlich etwas mit der Prognose zu tun. Übrigens liefert das REMT-Modell tatsächlich etwas, das als probabilistische Prognose qualifiziert, da Sie durch den Monte-Carlo-Prozess eine vollständige Wahrscheinlichkeitsverteilung generieren können. Sie müssen nur die Anzahl der Monte-Carlo-Iterationen anpassen.

Im Einzelhandel ist es den Kunden eigentlich egal, wie die SKU-Perspektive oder das erreichbare Servicelevel für eine bestimmte SKU ist. Die Wahrnehmung der Kunden in einem Warenhaus wie Walmart wird vom Einkaufswagen bestimmt. In der Regel gehen Kunden mit einer kompletten Einkaufsliste im Kopf in einen Walmart-Laden, nicht nur für ein Produkt. Außerdem gibt es im Laden viele Alternativen. Das Problem bei der Verwendung einer einzigen SKU-Metrik zur Beurteilung der Servicequalität besteht darin, dass sie völlig verfehlt, was Kunden als Servicequalität im Laden wahrnehmen.

Folie 17

Zusammenfassend lässt sich sagen, dass der M5-Wettbewerb als Benchmark für Zeitreihenprognosen in Bezug auf Datensätze und Methodik solide ist. Die Zeitreihenperspektive selbst ist jedoch aus Sicht der Supply Chain unzureichend. Zeitreihen spiegeln nicht die Daten wider, wie sie in Supply Chains zu finden sind, und sie spiegeln auch nicht die Probleme wider, wie sie sich in Supply Chains darstellen. Während des M5-Wettbewerbs gab es viele weitaus ausgefeiltere Methoden unter den Top-Rängen. Meiner Meinung nach sind diese Modelle jedoch Sackgassen. Sie sind bereits zu kompliziert für den Einsatz in der Produktion und sie setzen die Zeitreihenperspektive so stark ein, dass sie keinen Spielraum haben, um sich in die Art von frischer Perspektive zu entwickeln, die erforderlich ist, um diese Modelle an unsere eigenen Bedürfnisse in der Supply Chain anzupassen.

Im Gegensatz dazu ist das REMT-Modell als Ausgangspunkt so gut wie es nur geht. Es ist eine sehr einfache Kombination von Zutaten, die für sich genommen sehr einfach sind. Außerdem erfordert es nicht viel Vorstellungskraft zu erkennen, dass es viele Möglichkeiten gibt, diese Elemente über die spezifische Kombination hinaus zu verwenden und zu kombinieren, die für den M5-Wettbewerb zusammengestellt wurde. Der Rang, den das REMT-Modell im M5-Wettbewerb erreicht hat, zeigt, dass wir uns bis auf Weiteres an ein sehr einfaches Modell halten sollten, da wir keinen zwingenden Grund haben, uns für sehr komplizierte Modelle zu entscheiden, die fast garantiert schwerer zu debuggen, schwerer in der Produktion zu betreiben und deutlich mehr Rechenressourcen zu verbrauchen sind.

In den kommenden Vorlesungen in diesem fünften Kapitel werden wir sehen, wie wir die Zutaten, die Teil des REMT-Modells waren, sowie viele andere Zutaten verwenden können, um die umfangreiche Vielfalt der Vorhersageherausforderungen anzugehen, wie sie in Supply Chains zu finden sind. Das Wichtigste ist, sich daran zu erinnern, dass das Modell unwichtig ist; es kommt auf das Modellieren an.

Folie 18

Frage: Warum negative Binomialverteilungen? Was war die Überlegung bei der Auswahl?

Das ist eine sehr gute Frage. Nun, es stellt sich heraus, dass es bei den Zähldistributionen wahrscheinlich etwa 20 sehr bekannte Zähldistributionen gibt. Bei Lokad haben wir etwa ein Dutzend für unsere eigenen internen Bedürfnisse getestet. Es stellt sich heraus, dass die Poisson-Verteilung, eine sehr einfache Zähldistribution mit nur einem Parameter, recht gut funktioniert, wenn die Daten sehr spärlich sind. Poisson ist also ziemlich gut, aber tatsächlich war der M5-Datensatz etwas reicher. Im Fall des Walmart-Datensatzes haben wir Zähldistributionen ausprobiert, die ein paar mehr Parameter hatten, und es schien zu funktionieren. Wir haben keinen Beweis dafür, dass es tatsächlich die beste ist; es gibt wahrscheinlich bessere Optionen. Die negative Binomialverteilung hat ein paar entscheidende Vorteile: Die Implementierung ist sehr einfach und es handelt sich um eine umfangreich untersuchte Zähldistribution. Es gibt also einen sehr bekannten Algorithmus, nicht nur um die Wahrscheinlichkeiten zu berechnen, sondern auch um eine Abweichung zu sampeln, den Mittelwert oder die kumulative Verteilung zu erhalten. Alle Werkzeuge, die Sie in Bezug auf Zähldistributionen erwarten können, sind vorhanden, was bei allen Zähldistributionen nicht der Fall ist.

Bei dieser Wahl spielte ein gewisser Pragmatismus eine Rolle, aber auch ein wenig Logik. Bei der Poisson-Verteilung haben Sie einen Freiheitsgrad; die negative Binomialverteilung hat zwei. Dann können Sie Tricks wie die Zero-Inflated Negative Binomialverteilung verwenden, die Ihnen sozusagen zwei und einen halben Freiheitsgrad gibt, usw. Ich würde nicht sagen, dass es einen bestimmten definitiven Wert für diese Zähldistribution gibt.

Frage: Es gab andere Anbieter von Software zur Optimierung der Lieferkette im M5, aber niemand hat Live-Modelle verwendet, die gut in der Produktion skaliert haben. Was verwenden die meisten, schwere maschinelle Lernmodelle?

Zunächst einmal würde ich sagen, wir müssen unterscheiden und klären, dass der M5 auf Kaggle durchgeführt wurde, einer Plattform für Data Science. Auf Kaggle haben Sie einen massiven Anreiz, die komplizierteste Maschinerie zu verwenden. Der Datensatz ist klein, Sie haben viel Zeit und um den ersten Platz zu erreichen, müssen Sie nur 0,1% genauer sein als der andere. Das ist alles, was zählt. Daher würden Sie in praktisch jedem einzelnen Kaggle-Wettbewerb feststellen, dass die Spitzenplätze von Personen belegt sind, die sehr komplizierte Dinge gemacht haben, um eine 0,1%ige Genauigkeit zu erreichen. Die Natur eines Prognosewettbewerbs gibt Ihnen also einen starken Anreiz, alles auszuprobieren, einschließlich der schwersten Modelle, die Sie finden können.

Wenn wir uns fragen, ob die Leute tatsächlich diese schweren maschinellen Lernmodelle in der Produktion verwenden, ist meine eigene beiläufige Beobachtung, dass dies absolut nicht der Fall ist. Es ist tatsächlich äußerst selten. Als CEO von Lokad, einem Anbieter von Supply-Chain-Software, habe ich mit Hunderten von Supply-Chain-Direktoren gesprochen. Buchstäblich mehr als 90% der großen Lieferketten werden über Excel betrieben. Ich habe noch nie eine groß angelegte Lieferkette gesehen, die mit Gradient Boosted Trees oder Deep Learning Networks betrieben wird. Wenn wir Amazon beiseite lassen, ist Amazon wahrscheinlich einzigartig. Es gibt vielleicht ein halbes Dutzend Unternehmen wie Amazon, Alibaba, JD.com und einige andere - die sehr großen E-Commerce-Supergiganten -, die tatsächlich diese Art von Technologie verwenden. Aber sie sind in dieser Hinsicht eine Ausnahme. Ihre Mainstream-Unternehmen im Bereich FMCG oder große Einzelhandelsunternehmen mit stationären Geschäften verwenden solche Dinge nicht in der Produktion.

Frage: Es ist seltsam, dass Sie viele mathematische und statistische Begriffe erwähnen, aber die Natur des Einzelhandels und die Hauptfaktoren, die ihn beeinflussen, ignorieren.

Ich würde sagen, ja, das ist eher ein Kommentar, aber meine Frage an Sie wäre: Was bringen Sie mit? Das habe ich gesagt, als Anbieter von Supply-Chain-Lösungen, die mit überlegener Prognosetechnologie prahlen, alle abwesend waren. Warum ist es so, dass Sie, wenn Sie absolut überlegene Prognosetechnologie haben, immer dann abwesend sind, wenn es so etwas wie einen öffentlichen Benchmark gibt? Die andere Erklärung ist, dass die Leute bluffen.

In Bezug auf die Natur des Einzelhandels und viele Einflussfaktoren habe ich die verwendeten Muster aufgelistet, und indem ich diese vier Muster verwendet habe, landete das REMT-Modell in Bezug auf die Genauigkeit auf SKU-Ebene auf Platz eins. Wenn Sie die Behauptung aufstellen, dass es dort draußen viel wichtigere Muster gibt, liegt die Beweislast bei Ihnen. Mein eigener Verdacht ist, dass wenn diese Muster unter mehr als 900 Teams nicht beobachtet wurden, sie wahrscheinlich nicht vorhanden waren oder dass das Erfassen dieser Muster so weit außerhalb dessen liegt, was wir mit der Art von Technologie tun können, die wir haben, dass es aus praktischer Sicht so ist, als ob diese Muster nicht existieren würden.

Frage: Haben bei M5 Wettbewerbern Ideen angewendet, die Lokad zwar nicht geschlagen haben, aber wertvoll wären, insbesondere für generische Anwendungen? Ehrenvolle Erwähnung?

Ich habe meinen Mitbewerbern viel Aufmerksamkeit geschenkt, und ich bin mir ziemlich sicher, dass sie auch Lokad Aufmerksamkeit schenken. Das habe ich nicht gesehen. Das REMT-Modell war wirklich einzigartig, völlig anders als das, was von praktisch allen anderen Top 50 Teilnehmern für beide Aufgaben gemacht wurde. Die anderen Teilnehmer verwendeten Dinge, die in den Kreisen des maschinellen Lernens viel klassischer waren.

Während des Wettbewerbs wurden einige sehr clevere Data-Science-Tricks gezeigt. Zum Beispiel haben einige Leute sehr clevere Tricks verwendet, um die Datenvergrößerung auf dem Walmart-Datensatz durchzuführen, um ihn viel größer zu machen als er war, um einige Prozentpunkte an Genauigkeit zu gewinnen. Dies wurde vom Teilnehmer durchgeführt, der im Unsicherheitswettbewerb den ersten Platz belegte. Datenvergrößerung, nicht Dateninflation, ist der richtige Begriff. Datenvergrößerung wird häufig bei Deep-Learning-Techniken verwendet, aber hier wurde sie mit Gradient Boosted Trees auf eine ziemlich ungewöhnliche Weise verwendet. Während dieses Wettbewerbs wurden clevere und sehr intelligente Data-Science-Tricks gezeigt. Ich bin mir nicht sicher, ob sich diese Tricks gut auf die Lieferkette übertragen lassen, aber ich werde wahrscheinlich im Rest dieses Kapitels ein paar davon erwähnen, wenn sich die Gelegenheit ergibt.

Frage: Haben Sie höhere Ebenen geschätzt, indem Sie Ihre SKU-Ebenen aggregiert haben oder indem Sie mittelwärts für höhere Ebenen neu berechnet haben? Wenn beides, wie haben sie sich verglichen?

Das Problem mit Quantilgittern besteht darin, dass Sie Modelle separat für jede Zielstufe optimieren. Bei Quantilgittern kann es zu Quantilüberschreitungen kommen, was bedeutet, dass Ihr 99. Quantil aufgrund numerischer Instabilitäten niedriger ist als Ihr 97. Quantil. Dies ist unerheblich; normalerweise ordnen Sie einfach die Werte neu an. Grundsätzlich handelt es sich dabei um das Problem, auf das ich in Bezug auf Quantilgitter hingewiesen habe, dass sie keine wirklich probabilistischen Prognosen sind. Sie haben viele kleine Details zu lösen, aber die Realität ist, dass sie im großen Ganzen unerheblich sind. Wenn Sie zu probabilistischen Prognosen übergehen, treten diese Probleme nicht mehr auf.

Frage: Wenn Sie einen weiteren Wettbewerb für Softwareanbieter entwerfen würden, wie würde er aussehen?

Ehrlich gesagt weiß ich es nicht, und das ist eine sehr schwierige Frage. Ich glaube, dass M5 trotz all meiner schweren Kritik der beste Benchmark für Prognosen ist, den wir haben. Nun, was die Benchmarks für die Lieferkette betrifft, ist das Problem, dass ich nicht einmal vollständig überzeugt bin, dass es überhaupt möglich ist. Als ich angedeutet habe, dass einige der Probleme tatsächlich unüberwachtes Lernen erfordern, ist dies schwierig. Wenn Sie in den Bereich des unüberwachten Lernens eintreten, müssen Sie auf Metriken verzichten, und die gesamte Welt des fortgeschrittenen maschinellen Lernens ringt immer noch als Gemeinschaft darum, sich damit auseinanderzusetzen, was es überhaupt bedeutet, überlegene, automatisierte Lernwerkzeuge in einem Bereich einzusetzen, in dem Sie unüberwacht sind. Wie können Sie solche Dinge überhaupt benchmarken?

Für das Publikum, das nicht bei meinem Vortrag über maschinelles Lernen dabei war, bedeutet überwachtes Lernen im Wesentlichen, eine Aufgabe zu erfüllen, bei der Sie Eingabe-Ausgabe-Paare und eine Metrik zur Bewertung der Qualität Ihrer Ausgaben haben. Wenn Sie unüberwacht sind, bedeutet dies, dass Sie keine Labels haben, nichts zum Vergleichen haben und die Dinge viel schwieriger werden. Darüber hinaus möchte ich darauf hinweisen, dass es in der Lieferkette viele Dinge gibt, die Sie nicht einmal rückwirkend testen können. Neben dem unüberwachten Aspekt gibt es auch die Perspektive des rückwirkenden Tests, die nicht vollständig zufriedenstellend ist. Wenn Sie beispielsweise die Nachfrage prognostizieren, werden bestimmte Arten von Entscheidungen generiert, wie z.B. Preisentscheidungen. Wenn Sie sich entscheiden, den Preis nach oben oder unten anzupassen, ist das eine Entscheidung, die Sie getroffen haben, und sie wird die Zukunft für immer beeinflussen. Sie können also nicht in die Vergangenheit zurückgehen und sagen: “Okay, ich werde eine andere Nachfrageprognose erstellen und dann eine andere Preisentscheidung treffen und dann die Geschichte wiederholen lassen, außer dass ich diesmal einen anderen Preis habe.” Es gibt viele Aspekte, bei denen selbst die Idee des rückwirkenden Tests nicht funktioniert. Deshalb glaube ich, dass ein Wettbewerb aus prognostischer Sicht sehr interessant ist. Er ist als Ausgangspunkt für die Lieferkette nützlich, aber wir müssen besser und anders vorgehen, wenn wir etwas haben wollen, das für die Lieferkette wirklich zufriedenstellend ist. In diesem Kapitel über prädiktives Modellieren werde ich zeigen, warum das Modellieren einer solchen Aufmerksamkeit würdig ist.

Frage: Kann diese Methodik in Situationen verwendet werden, in denen nur wenige Datenpunkte vorhanden sind?

Ich würde sagen, absolut. Diese Art von strukturiertem Modellieren, wie hier am Beispiel des REMT-Modells gezeigt, glänzt besonders in Situationen, in denen nur sehr wenige Daten vorhanden sind. Der Grund ist einfach: Sie können eine Menge menschlichen Wissens in die Struktur des Modells einbetten. Die Struktur des Modells ist nicht etwas, das aus dem Nichts entstanden ist; sie ist buchstäblich die Konsequenz des Verständnisses des Lokad-Teams für das Problem. Wenn wir uns zum Beispiel Kalendermuster wie den Wochentag, den Monat usw. ansehen, haben wir nicht versucht, diese Muster zu entdecken; das Lokad-Team wusste von Anfang an, dass diese Muster bereits vorhanden waren. Die einzige Unsicherheit bestand in der jeweiligen Häufigkeit des Tages-im-Monat-Musters, das in vielen Situationen schwach ist. Im Fall der Walmart-Einrichtung lag dies einfach daran, dass es in den USA ein Stempelprogramm gibt, wodurch dieses Tages-im-Monat-Muster so stark ist, wie es ist.

Wenn Sie nur wenige Daten haben, funktioniert dieser Ansatz außerordentlich gut, weil der Lernmechanismus, den Sie verwenden möchten, die von Ihnen auferlegte Struktur umfassend nutzen wird. Ja, es stellt sich die Frage: Was ist, wenn die Struktur falsch ist? Aber deshalb ist das Denken und Verständnis der Supply Chain wirklich wichtig, damit Sie die richtigen Entscheidungen treffen können. Letztendlich haben Sie Möglichkeiten, zu bewerten, ob Ihre willkürlichen Entscheidungen gut oder schlecht waren, aber grundsätzlich geschieht dies sehr spät im Prozess. Später in diesem Kapitel über die Vorhersagemodellierung werden wir zeigen, wie strukturierte Modellierung effektiv auf Datensätze angewendet werden kann, die unglaublich dünn besetzt sind, wie zum Beispiel in der Luftfahrt, im Bereich der Luxusgüter und bei Smaragden aller Art. In diesen Situationen glänzen strukturierte Modelle wirklich.

Die nächste Vorlesung findet am 2. Februar statt, einem Mittwoch, zur gleichen Tageszeit um 15 Uhr Pariser Zeit. Bis dann!

Referenzen

  • Ein White-Boxed ISSM-Ansatz zur Schätzung von Unsicherheitsverteilungen des Walmart-Umsatzes, Rafael de Rezende, Katharina Egert, Ignacio Marin, Guilherme Thompson, Dezember 2021 (link)
  • Der M5 Unsicherheitswettbewerb: Ergebnisse, Erkenntnisse und Schlussfolgerungen, Spyros Makridakis, Evangelos Spiliotis, Vassilis Assimakopoulos, Zhi Chen, November 2020 (link)