Ich bewundere Warren Powells Ehrgeiz, die weitreichende Familie der „Entscheidungen im Zeitverlauf“ zu vereinheitlichen. Sein Framework der sequenziellen Entscheidungsanalytik (SDA) spannt ein großzügiges Zelt auf: von der Kontrolle bis zum Reinforcement Learning, vom Transport bis zur Energie und E‑Commerce, die Botschaft ist, dass sequenzielle Entscheidungen eine gemeinsame Struktur besitzen und durch die Optimierung über Politiken gelöst werden sollten. Innerhalb dieser Struktur gibt es vier breite Arten, Entscheidungen zu treffen – myopische oder Kostenfunktionsapproximationen, Wertfunktionsapproximationen, direkte Vorausbetrachtung und Politikfunktionsapproximationen – jede ein Weg durch die Unlösbarkeit dynamischer Probleme. Es ist ein kraftvoller Rahmen, und er hat viele Bereiche gleichzeitig beeinflusst.1

zwei Männer spielen Schach am Strand

Meine eigene Arbeit geht von einem anderen Ausgangspunkt aus. In Introduction to Supply Chain argumentiere ich, dass supply chain nicht ein Zweig der Mathematik oder der Software per se ist; vielmehr ist es ein angewandter Zweig der Wirtschaftswissenschaften. Das tägliche Handwerk besteht darin, unter Variabilität von Optionalitäten Geld zu machen, wobei der Gewinn – sachgerecht risikoadjustiert – als Maßstab dient. Diese Haltung ist kein Slogan. Sie bestimmt, wie wir modellieren, wie wir messen und letztlich, wie wir automatisieren. Wenn das Ziel Münzen in einem Kassenbuch sind, dann muss jedes wesentliche Konzept – Knappheit, Abwägungen, Opportunitätskosten – bepreist werden, bevor es optimiert wird. Siehe Kapitel 3 („Epistemologie“) und Kapitel 4 („Ökonomie“).2

Wo SDA und ich zusammentreffen

SDA liegt richtig, die Zukunft als eine Abfolge von Beobachtungen und Entscheidungen zu behandeln, wobei die Handlungsfähigkeit durch Politiken bewahrt wird, die auf das jeweils Bekannte reagieren. Supply chains leben genau in dieser Welt. Aber wer versucht hat, ein Unternehmen in großem Umfang zu führen, weiß, dass Daten als Nebenprodukt von Aufzeichnungssystemen eintreffen, dass Anreize manchmal gegen die Wahrheit arbeiten und dass der Nachweis teuer zu erbringen ist. Aus diesem Grund widmet das Buch Aufmerksamkeit der Frage, wie Wissen in Unternehmen produziert wird, sowie den Verzerrungen, die sich einschleichen – was ich „epistemische Korruption“ nenne. Ein Rahmen, der im Labor hervorragend funktioniert, muss dennoch den Anreizen und der Semantik am Shopfloor standhalten. Siehe Kapitel 3 („Epistemologie“, esp. 3.6).2

Die Taxonomie der Politikklassen von SDA ist auch eine nützliche Checkliste, wenn wir das, was nicht exakt gelöst werden kann, approximieren müssen. In diesem Sinne ist meine Arbeit sympathisch: supply chain engines mischen oft einfache myopische Schritte mit kurzer Vorausbetrachtung, wo es sich lohnt. Das Vokabular von SDA hilft dabei, solche Strategien zu vergleichen, und erinnert uns daran, dass keine einzelne Klasse alle Probleme dominiert.1

Wo wir auseinandergehen

Die Divergenz beginnt mit dem ersten Schritt. SDA startet mit einem Modell – Zustand, Entscheidung, exogene Informationen, Übergang, Ziel – und sucht anschließend nach Politiken. Ich beginne früher, mit der Preisgestaltung. Bevor ich irgendeinen „Zustand“ akzeptiere, möchte ich, dass die Kosten und Nutzen, die eine Entscheidung wirtschaftlich legitimieren, sichtbar und prüfbar sind. Anders ausgedrückt ziehe ich es vor, die Konsequenzen zu bepreisen, bis viele sequentielle Feinheiten in solide, einstufige Entscheidungen zusammenfallen.

Dies wird am deutlichsten, wenn wir ein sequentielles Problem „abflachen“, indem wir die richtigen Preise einsetzen. Betrachten Sie den Versand knappen Bestands aus einem Verteilzentrum. Wenn wir dem Bestand des DC einen sichtbaren Haltepreis zuordnen – einen Schattenpreis, der die Option widerspiegelt, morgen eine bessere Anfrage zu bedienen – dann erhält ein Geschäft eine Einheit nur, wenn seine Grenzrendite den Haltepreis tatsächlich übertrifft. Wir ignorieren die Zukunft nicht; wir kalkulieren sie mit einer Zahl ein, die die Kapitalkosten, den Informationswert und die Möglichkeit zu warten widerspiegelt. Siehe Kapitel 8 („Entscheidungen“, §8.5).2

Zwei Instrumente machen dieses Abflachen so sicher, dass es täglich durchgeführt werden kann. Das erste ist ein Verantwortungsfenster: ein begrenzter Horizont, über den die heutige Entscheidung zur Rechenschaft gezogen wird, während spätere Entscheidungen den Rest übernehmen. Wir müssen nicht die gesamte Saison durchplanen, um zu beurteilen, ob die Bestellung eines Containers (oder der Versand an ein Geschäft) klug war; wir messen die in Münzen ausgedrückten Konsequenzen in einem Fenster und machen weiter. Das zweite ist die Ökonomie des Wartens: Nichtstun ist noch eine legitime Option, mit einer Ausschlussregel, die nur greift, wenn die erwartete, risikoadjustierte Rendite der besten zulässigen Aktion die Schattenkosten des Kapitals der Firma zuzüglich des Optionswerts einer Verzögerung übertrifft. Zusammen bewahren diese Instrumente die Handlungsfähigkeit, während sie die Fragilität tiefer Vorausbetrachtungen vermeiden, wenn Daten und Semantik unvollkommen sind. Siehe Kapitel 8 („Entscheidungen“, §8.5).2

Die Preisgestaltung ermöglicht es uns auch, langfristige Nebeneffekte zu internalisieren, ohne jede Eventualität modellieren zu müssen. Ein Einzelhändler, der den Bestand ausschließlich anhand beobachteter Verkäufe bewertet, wird bei der Serviceleistung unterinvestieren; das Gegenmittel ist eine Stockout-Strafe, eine Schattenbewertung, die die langfristigen Kosten von verlorenen Verkäufen widerspiegelt. Mit diesem Preis wird der sequentielle Schmerz, einem Kunden morgen zu enttäuschen, – richtig – durch die heutige Zuteilung spürbar. Siehe Kapitel 4 und 8.2

Diese „Preiszuerst“-Haltung trägt in die Technik über. SDA ist überwiegend modellorientiert; ich bin ingenieurorientiert. Das Buch argumentiert, dass die Programmierparadigmen, die zur Darstellung von Entscheidungen verwendet werden, mindestens ebenso wichtig sind wie das statistische Modell. Supply chains profitieren von Sprachen und Laufzeitumgebungen, in denen Zeit, Geld und uncertainty erstklassige Bürger sind; in denen Arrays und Tabellen dominieren; in denen Determinismus eine Revision ermöglicht; und in denen partielle Neukombination die Rückkopplungsschleifen verkürzt. Das Ziel sind unbeaufsichtigte Engines, deren Entscheidungen in Münzen nachvollziehbar sind, und nicht dashboards, die um 7 Uhr morgens gerettet werden müssen. Siehe Kapitel 9 („Engineering“, §9.5) und Kapitel 6 („Intelligence“, §6.3).2

Schließlich stellt sich die Frage, wie wir lernen. Feldbeweise sind teuer und mehrdeutig; das einzige praktikable Gegenmittel ist die experimentelle Optimierung: messen, Entscheidungen treffen, auf „verrückte“ Empfehlungen achten, die Einflussfaktoren anpassen und erneut ausführen. Diese Schleife gibt nicht vor, endgültig zu konvergieren; sie hält das System angesichts sich entwickelnder Bedingungen fest in der Realität. Siehe Kapitel 9 („Engineering“, §9.2).2

Was das in der Praxis bedeutet

Die Breite von SDA ist ein Vorteil. Wenn Sie eine Vorausbetrachtung für einen Energiespeicher kalibrieren, eine Politik für einen Robotercontroller entwerfen oder Wertfunktionsapproximationen mit direkten Rollouts vergleichen, bietet SDA eine kohärente Sprache und eine Methodenkarte zum Ausprobieren. Es erinnert uns auch daran, dass wir letztlich über Politiken optimieren.1

Aber die enterprise supply chain ist eine ganz andere Art von Wildnis. Data semantics verschieben sich buchstäblich unter Ihren Füßen; Anreize verformen Beweise; Experimente sind riskant und langsam. In diesem Terrain hatte ich mehr Erfolg, indem ich zuerst bepreise und dann modellierte. Die Methode ist einfach zu formulieren, wenn auch anspruchsvoll in der Ausführung. Bepreisen Sie, was knapp ist – einschließlich Aufmerksamkeit und Kapazität. Hängen Sie explizite Strafen an, wo die Zukunft schmerzt – stockouts, Überlastung, Veralterung. Begrenzen Sie die Zuschreibung mit einem Fenster. Erkennen Sie „Warten“ als Option an und setzen Sie eine Ausschlussregel durch, die sowohl Kapital als auch Unsicherheit respektiert. Bringen Sie das Ganze in ein Paradigma, das Geld und Zeit zu etwas Angeborenem macht. Dann iterieren Sie, bis unbeaufsichtigte Entscheidungen nicht mehr verrückt erscheinen.

Dies ist kein Widerspruch zu SDA. Es ist eine Frage der Reihenfolge. SDA sucht die Approximationen, die die dynamische Optimierung machbar machen. Ich suche die Preise, die alltägliche Entscheidungen wirtschaftlich korrekt machen, sodass das dynamische Problem, das wir tatsächlich approximieren müssen, kleiner, besser handhabbar und den zusätzlichen Aufwand wert ist. Die beiden Ansätze können kombiniert werden: ein bepreister, technisch ausgedachter Außenbereich; eine gezielte Vorausbetrachtung oder Wertfunktionsapproximation im Inneren, wo sie wirklich benötigt wird.

Leser, die an meiner detaillierten Position interessiert sind, finden die wirtschaftlichen Grundlagen in den Kapiteln 3–4, die Behandlung sequentieller Entscheidungen in Kapitel 8 und die technische Haltung – Programmierparadigmen und experimentelle Optimierung – in Kapitel 9 von Introduction to Supply Chain. Für eine kompakte Darstellung des Umfangs von SDA und der vier Politikklassen, die seine Methoden umfassen, sind Powells einheitliches Framework und sein Modellierungsbuch die besten Ausgangspunkte.1

Anmerkungen