Über sequentielle Entscheidungsanalyse.

November 10, 2025

supply chain science

Joannes Vermorel

Ich bewundere Warren Powells Ehrgeiz, die weit verzweigte Familie der „Entscheidungen im Zeitverlauf“ zu vereinigen. Seine sequentielle Entscheidungsanalyse (SDA) spannt ein großzügiges Zelt auf: von der Steuerung bis zum Reinforcement Learning, von Transport über Energie bis hin zu E‑Commerce, die Botschaft ist, dass sequentielle Entscheidungen eine gemeinsame Struktur besitzen und durch Optimierung von Richtlinien gelöst werden sollten. Innerhalb dieser Struktur gibt es vier breite Wege, Entscheidungen zu treffen – myopische oder Kostenfunktionsapproximationen, Wertfunktionsapproximationen, direkte Vorausplanung und Richtlinienfunktionsapproximationen – jeder ein Pfad durch die Unlösbarkeit dynamischer Probleme. Es ist eine kraftvolle Rahmung, und sie hat viele Bereiche gleichzeitig beeinflusst.¹

Meine eigene Arbeit geht von einem anderen Ausgangspunkt aus. In Introduction to Supply Chain behaupte ich, dass supply chain nicht ein Zweig der Mathematik oder der Software per se ist; es ist ein angewandter Zweig der Wirtschaftswissenschaften. Das tägliche Handwerk besteht darin, Möglichkeiten unter Variabilität in Geld umzuwandeln, wobei der Gewinn – ordnungsgemäß risikoadjustiert – das Maß ist. Diese Haltung bestimmt, wie wir modellieren, wie wir messen und letztendlich wie wir automatisieren. Wenn das Ziel Münzen in einem Kassenbuch sind, dann muss jedes relevante Konzept – Knappheit, Abwägungen, Opportunitätskosten – bewertet werden, bevor es optimiert wird. Siehe Kapitel 3 („Epistemologie“) und Kapitel 4 („Ökonomie“).²

Wo SDA und ich aufeinandertreffen

Es ist richtig von SDA, die Zukunft als eine Abfolge von Beobachtungen und Entscheidungen zu betrachten, wobei die Handlungsfähigkeit durch Richtlinien gewahrt bleibt, die auf das reagieren, was in jedem Schritt bekannt ist. Supply chains existieren genau in dieser Welt. Aber wer versucht hat, ein Unternehmen im großen Maßstab zu führen, weiß, dass Daten als Nebenprodukt von Aufzeichnungssystemen ankommen, dass Anreize manchmal der Wahrheit abträglich sind und dass Beweise teuer zu gewinnen sind. Aus diesem Grund widmet das Buch der Frage, wie Wissen innerhalb von Unternehmen produziert wird, und den Verzerrungen, die sich einschleichen – was ich „epistemische Korruption“ nenne. Ein im Labor hervorragendes Rahmenwerk muss dennoch den Kontakt mit den Anreizen und der Semantik der Produktionshalle überstehen. Siehe Kapitel 3 („Epistemologie“, insbesondere 3.6).²

Die Taxonomie der Richtlinienklassen von SDA ist auch eine nützliche Checkliste, wenn wir das Approximieren müssen, was nicht exakt gelöst werden kann. Insofern ist meine Arbeit sympathisch: supply chain Systeme mischen oft einfache myopische Schritte mit kurzen Vorausplanungen, wo es sich rechnet. Das Vokabular von SDA hilft dabei, solche Strategien zu vergleichen, und erinnert uns daran, dass keine einzelne Klasse alle Probleme dominiert.¹

Wo wir unterschiedliche Wege gehen

Die Divergenz beginnt mit dem ersten Schritt. SDA startet mit einem Modell – state, decision, exogenous information, transition, objective – und sucht dann nach Richtlinien. Ich beginne früher, mit der Preisgestaltung. Bevor ich irgendeinen „state“ akzeptiere, möchte ich, dass die Kosten und Nutzen, die eine Entscheidung wirtschaftlich legitim machen, sichtbar und überprüfbar sind. Anders ausgedrückt, bevorzuge ich es, die Konsequenzen zu bewerten, bis viele sequentielle Feinheiten in fundierte, einstufige Entscheidungen zusammenfallen.

Dies wird am deutlichsten, wenn wir ein sequentielles Problem „abflachen“ durch das Einfügen der richtigen Preise. Betrachten Sie die Entsendung knappen Bestands aus einem Distributionszentrum. Wenn wir dem Bestand des DC einen sichtbaren Sperrpreis zuordnen – einen Schattenpreis, der die Option widerspiegelt, morgen eine bessere Anfrage zu bedienen – erhält ein Laden erst dann eine Einheit, wenn sein Grenzertrag den Sperrpreis tatsächlich übertrifft. Wir ignorieren die Zukunft nicht; wir kaufen sie aus mit einer Zahl, die die Kapitalkosten, den Informationswert und die Warteoption widerspiegelt. Siehe Kapitel 8 („Decisions“, §8.5).²

Zwei Instrumente machen dieses Abflachen ausreichend sicher, um es täglich anzuwenden. Das erste ist ein Verantwortungsfenster: ein begrenzter Horizont, über den die heutige Entscheidung zur Rechenschaft gezogen wird, wobei spätere Entscheidungen den Rest übernehmen. Wir müssen nicht die gesamte Saison durchplanen, um zu beurteilen, ob die Bestellung eines Containers (oder der Versand zu einem Laden) klug war; wir messen die in Münzen ausgedrückten Konsequenzen in einem Fenster und machen weiter. Das zweite ist die Ökonomie des Wartens: Nichts zu tun ist eine legitime Option, mit einer Sperrregel, die nur dann greift, wenn der erwartete, risikoadjustierte Ertrag des besten zulässigen Schritts die Schattenkapitalkosten des Unternehmens zuzüglich des Optionswerts des Verzugs übersteigt. Zusammen bewahren diese Instrumente die Handlungsfähigkeit, während sie die Fragilität tiefer Vorausplanung vermeiden, wenn Daten und Semantik unvollkommen sind. Siehe Kapitel 8 („Decisions“, §8.5).²

Die Preisgestaltung ermöglicht es auch, langfristige Nebeneffekte zu internalisieren, ohne jede Eventualität modellieren zu müssen. Ein Einzelhändler, der den Bestand ausschließlich anhand beobachteter Verkäufe bewertet, wird in den Service unterinvestieren; das Gegenmittel ist eine Lagerausfallstrafe, eine Schattenbewertung, die die langfristigen Kosten von lost sales widerspiegelt. Mit diesem Preis spürt die heutige Zuteilung den sequentiellen Schmerz, einen Kunden morgen zu enttäuschen – in angemessener Weise. Siehe Kapitel 4 und 8.²

Diese „Preis-zuerst“-Haltung zieht sich auch in die Technik. SDA ist weitgehend modellbasiert; ich bin ingenieurwissenschaftlich ausgerichtet. Das Buch argumentiert, dass die Programmierparadigmen, die zur Ausdruck der Entscheidungen genutzt werden, mindestens genauso wichtig sind wie das statistische Modell. Supply chains profitieren von Sprachen und Laufzeitumgebungen, in denen Zeit, Geld und uncertainty als Bürger erster Klasse behandelt werden; in denen Arrays und Tabellen dominieren; in denen Determinismus Revisionen ermöglicht; und in denen teilweise Neuberechnungen die Rückkopplungsschleifen verkürzen. Das Ziel sind unbeaufsichtigte Systeme, deren Entscheidungen in Münzen lesbar sind, nicht dashboards die um 7 Uhr morgens gerettet werden müssen. Siehe Kapitel 9 („Engineering“, §9.5) und Kapitel 6 („Intelligence“, §6.3).²

Schließlich stellt sich die Frage, wie wir lernen. Felddaten sind teuer und mehrdeutig; das einzige praktikable Gegenmittel ist experimentelle Optimierung: instrumentieren, Entscheidungen abgeben, auf „verrückte“ Empfehlungen achten, die Treiber beheben und erneut ausführen. Diese Schleife gibt nicht vor, endgültig zu konvergieren; sie hält das System verankert in der Realität, während sich die Bedingungen entwickeln. Siehe Kapitel 9 („Engineering“, §9.2).²

Was das in der Praxis bedeutet

Die Weite von SDA ist ein Merkmal. Wenn Sie eine Vorausplanung für einen Energiespeicher kalibrieren, eine Richtlinie für einen robotischen Controller entwerfen oder Wertfunktionsapproximationen mit direkten Rollouts vergleichen, bietet SDA eine kohärente Sprache und eine Methodenkarte zum Ausprobieren. Es erinnert uns auch daran, dass wir letztlich über Richtlinien optimieren.¹

Aber die Enterprise supply chain ist eine andere Art von Wildnis. Data semantics verändern sich unter Ihren Füßen; Anreize verzerren Beweise; Experimente sind riskant und langsam. In diesem Terrain hatte ich mehr Erfolg, indem ich zuerst den Preis festlege und dann modelliere. Die Methode ist einfach zu formulieren, wenn auch anspruchsvoll in der Umsetzung. Bewerten Sie das, was knapp ist – einschließlich Aufmerksamkeit und Kapazität. Versehen Sie Bereiche, in denen die Zukunft schmerzt – Lagerausfälle, Staus, Veralterung – mit expliziten Strafen. Grenzen Sie die Zuschreibung mit einem Fenster ab. Akzeptieren Sie „Warten“ als Option und erzwingen Sie eine Sperrgrenze, die sowohl Kapital als auch Unsicherheit respektiert. Drücken Sie das Ganze in einem Paradigma aus, das Geld und Zeit natürlich integriert. Dann iterieren Sie, bis unbeaufsichtigte Entscheidungen aufhören, verrückt auszusehen.

Dies ist kein Widerspruch zu SDA. Es ist eine Frage der Reihenfolge. SDA sucht die Approximationen, die die dynamische Optimierung machbar machen. Ich suche die Preise, die alltägliche Entscheidungen wirtschaftlich korrekt machen, sodass das dynamische Problem, das wir tatsächlich approximieren müssen, kleiner, besser handhabbar und die zusätzliche Anstrengung wert ist. Die beiden Ansichten können kombiniert werden: ein bepreister, technisch gestalteter Außenbereich; ein gezielter Lookahead oder eine Wertfunktionsapproximation im Inneren, wo es wirklich gebraucht wird.

Leser, die an meiner detaillierten Position interessiert sind, finden die wirtschaftlichen Grundlagen in den Kapiteln 3–4, die Behandlung sequentieller Entscheidungen in Kapitel 8 und die ingenieurwissenschaftliche Ausrichtung – Programmierparadigmen und experimentelle Optimierung – in Kapitel 9 von Introduction to Supply Chain. Für eine kompakte Darstellung des Umfangs von SDA und der vier Richtlinienklassen, die seine Methoden umfassen, sind Powells einheitliches Rahmenwerk und sein Modellierungstext die besten Anlaufstellen.¹

Anmerkungen

Zurück zum Blog ›

Über sequentielle Entscheidungsanalyse.

Wo SDA und ich aufeinandertreffen

Wo wir unterschiedliche Wege gehen

Was das in der Praxis bedeutet

Anmerkungen

Weitere Beiträge