Sur l'analyse décisionnelle séquentielle.
J’admire l’ambition de Warren Powell de réunifier la vaste famille des « décisions au fil du temps ». Son approche d’analyse décisionnelle séquentielle (SDA) dresse un cadre généreux : du contrôle à l’apprentissage par renforcement, du transport à l’énergie et le e‑commerce, le message est que les décisions séquentielles partagent une structure commune et doivent être résolues en optimisant les politiques. Au sein de cette structure se trouvent quatre grandes manières de prendre des décisions — des approximations myopes de la fonction de coût, des approximations de la fonction de valeur, une anticipation directe et des approximations de la fonction de politique —, chacune représentant une voie à travers l’intractabilité des problèmes dynamiques. C’est un cadrage puissant, et il a influencé de nombreux domaines simultanément.1
Mon propre travail part d’un point de départ différent. Dans Introduction to Supply Chain j’expose que la supply chain n’est pas une branche des mathématiques ou du logiciel en tant que tel ; c’est une branche appliquée de l’économie. Le travail quotidien consiste à transformer l’optionalité face à la variabilité en argent, avec le profit — correctement ajusté au risque — comme étalon. Cette position n’est pas un slogan. Elle régit notre manière de modéliser, de mesurer et, en fin de compte, d’automatiser. Si l’objectif est d’obtenir des pièces sur un registre, alors chaque concept important — rareté, compromis, coût d’opportunité — doit être valorisé avant d’être optimisé. Voir le chapitre 3 (« Epistémologie ») et le chapitre 4 (« Économie »).2
Là où SDA et moi nous rejoignons
SDA a raison de traiter l’avenir comme une séquence d’observations et de choix où l’autonomie est préservée grâce à des politiques qui réagissent en fonction de ce qui est connu à chaque étape. Les supply chains évoluent exactement dans ce monde. Mais quiconque a tenté de diriger une entreprise à grande échelle sait que les données arrivent comme le sous-produit de systèmes d’enregistrement, que les incitations s’opposent parfois à la vérité et que recueillir des preuves est coûteux. C’est pourquoi le livre consacre du temps à la manière dont le savoir est produit au sein des entreprises, ainsi qu’aux distorsions qui s’insinuent — ce que j’appelle « corruption épistémique ». Un cadre qui excelle en laboratoire doit néanmoins résister au contact des incitations et de la sémantique du terrain. Voir le chapitre 3 (« Epistémologie », esp. 3.6).2
La taxonomie des classes de politiques de SDA constitue également une liste de contrôle utile lorsque nous devons approcher ce qui ne peut être résolu exactement. En ce sens, mon travail y est conciliant : les moteurs de supply chain mélangent souvent des étapes myopes simples avec une courte anticipation là où cela se justifie. Le vocabulaire de SDA aide à comparer de telles stratégies et nous rappelle qu’aucune classe unique ne domine tous les problèmes.1
Là où nos chemins se séparent
La divergence commence dès le premier mouvement. SDA part d’un modèle — état, décision, information exogène, transition, objectif — puis explore les politiques. Pour ma part, je commence plus tôt, avec la tarification. Avant d’accepter un quelconque « état », je veux que les coûts et bénéfices qui légitiment économiquement une décision soient visibles et vérifiables. En d’autres termes, je préfère valoriser les conséquences jusqu’à ce que de nombreuses subtilités séquentielles se résument à des choix solides et instantanés.
Cela est particulièrement évident lorsque nous « aplatissons » un problème séquentiel en insérant les bons prix. Considérez l’expédition de stocks rares depuis un centre de distribution. Si nous attachons un prix de réserve visible aux stocks du centre de distribution — un prix d’ombre qui reflète l’option de satisfaire une meilleure demande demain — alors un magasin ne reçoit une unité que lorsque son rendement marginal dépasse réellement ce prix de réserve. Nous n’ignorons pas l’avenir ; nous l’achetons à hauteur d’un chiffre qui reflète le coût du capital, la valeur de l’information et l’opportunité d’attendre. Voir le chapitre 8 (« Décisions », §8.5).2
Deux instruments rendent cet aplatissement suffisamment sûr pour être utilisé au quotidien. Le premier est une fenêtre de responsabilité : un horizon limité sur lequel la décision d’aujourd’hui est imputée, les décisions ultérieures héritant du reste. Nous n’avons pas besoin de scénariser toute la saison pour juger si commander un conteneur (ou expédier vers un magasin) était judicieux ; nous mesurons les conséquences libellées en devises sur une fenêtre, puis nous passons à autre chose. Le second est l’économie de l’attente : ne rien faire pour l’instant est une option légitime, assortie d’une règle de coupure qui ne s’active que lorsque le rendement espéré, ajusté au risque, du meilleur mouvement admissible dépasse le coût d’ombre du capital de l’entreprise additionné de la valeur de l’option de délai. Ensemble, ces dispositifs préservent l’autonomie tout en évitant la fragilité d’une anticipation approfondie lorsque les données et la sémantique sont imparfaits. Voir le chapitre 8 (« Décisions », §8.5).2
La tarification nous permet également d’intérioriser les effets secondaires à long terme sans modéliser chaque éventualité. Un détaillant qui évalue ses stocks uniquement sur la base des ventes observées sous-investit dans le service ; la solution est une pénalité de rupture de stock, une valorisation d’ombre qui reflète le coût à long terme des ventes perdues. Avec ce prix en place, la douleur séquentielle de décevoir un client demain se fait sentir — à juste titre — dans l’allocation d’aujourd’hui. Voir les chapitres 4 et 8.2
Cette posture de tarification d’abord s’étend à l’ingénierie. SDA est largement basé sur le modèle ; moi, je privilégie l’ingénierie. Le livre soutient que les paradigmes de programmation utilisés pour exprimer les décisions comptent au moins autant que le modèle statistique. Les supply chains bénéficient de langages et d’environnements d’exécution où le temps, l’argent et l’incertitude sont des citoyens de première classe ; où les tableaux et les matrices dominent ; où le déterminisme permet l’audit ; et où la recomputation partielle réduit les cycles de rétroaction. L’objectif est des moteurs autonomes dont les décisions se traduisent en valeurs monétaires, et non des tableaux de bord nécessitant d’être secourus à 7 h du matin. Voir le chapitre 9 (« Engineering », §9.5) et le chapitre 6 (« Intelligence », §6.3).2
Enfin, il y a la question de la manière dont nous apprenons. Les preuves de terrain sont coûteuses et ambiguës ; le seul antidote pratique est l’optimisation expérimentale : instrumenter, émettre des décisions, surveiller les recommandations « déjantées », corriger les leviers, et relancer. Cette boucle ne prétend pas converger une fois pour toutes ; elle maintient le système ancré dans la réalité au fur et à mesure que les conditions évoluent. Voir le chapitre 9 (« Engineering », §9.2).2
Ce que cela signifie en pratique
La portée de SDA est une force. Que vous calibriez une anticipation pour un stockage d’énergie, que vous conceviez une politique pour un contrôleur robotique ou que vous compariez des approximations de la fonction de valeur à des déploiements directs, SDA offre un langage cohérent et une cartographie des méthodes à essayer. Il nous rappelle également qu’en fin de compte, nous optimisons sur les politiques.1
Mais la supply chain d’entreprise est une nature sauvage d’un autre genre. Les sémantiques de données évoluent sous vos pieds ; les incitations déforment les preuves ; les expériences sont risquées et lentes. Dans ce contexte, j’ai rencontré plus de succès en tarifiant d’abord et en modélisant ensuite. La méthode est simple à énoncer, bien que difficile à exécuter. Valorisez ce qui est rare — y compris l’attention et la capacité. Appliquez des pénalités explicites là où l’avenir fait mal — ruptures de stock, congestion, obsolescence. Limitez l’attribution avec une fenêtre. Admettez l’option de « patienter » et appliquez une coupure qui respecte à la fois le capital et l’incertitude. Exprimez le tout dans un paradigme qui rend l’argent et le temps natifs. Puis itérez jusqu’à ce que les décisions autonomes cessent d’avoir l’air insensées.
Ceci n’est pas une réfutation de SDA. C’est un choix d’ordre. SDA recherche les approximations qui rendent l’optimisation dynamique réalisable. Pour ma part, je recherche les prix qui rendent les décisions quotidiennes économiquement correctes, de sorte que le problème dynamique que nous devons approcher soit plus petit, mieux maîtrisé et justifie l’effort supplémentaire. Les deux approches peuvent être combinées : un périmètre tarifié et ingénierisé à l’extérieur ; une anticipation ciblée ou une approximation de la fonction de valeur à l’intérieur, là où cela est vraiment nécessaire.
Les lecteurs intéressés par ma position détaillée trouveront les fondements économiques aux chapitres 3–4, le traitement des décisions séquentielles au chapitre 8, et la posture ingénierique — les paradigmes de programmation et l’optimisation expérimentale — au chapitre 9 de Introduction to Supply Chain. Pour une énonciation concise de la portée de SDA, et des quatre classes de politiques qui recouvrent ses méthodes, le cadre unifié de Powell ainsi que son ouvrage de modélisation constituent les meilleurs points de départ.1