L'analyse des décisions séquentielles
J’admire l’ambition de Warren Powell d’unifier la vaste famille des « décisions dans le temps ». Son cadre d’analyse des décisions séquentielles (SDA) déploie un vaste éventail : du contrôle à l’apprentissage par renforcement, du transport à l’énergie et le e-commerce, le message étant que les décisions séquentielles partagent une structure commune et doivent être résolues par l’optimisation des politiques. Au sein de cette structure se trouvent quatre grandes manières de prendre des décisions — approximations myopes ou par fonction de coût, approximations de la fonction de valeur, anticipation directe et approximations par fonction de politique —, autant de voies permettant de contourner l’intractabilité des problèmes dynamiques. C’est une approche puissante, et elle a influencé de nombreux domaines simultanément.1
Mon propre travail part d’un point de départ différent. Dans Introduction to Supply Chain j’affirme que la supply chain n’est pas une branche des mathématiques ou des logiciels per se ; c’est une branche appliquée de l’économie. Le travail quotidien consiste à transformer l’optionnalité face à la variabilité en argent, le profit — correctement ajusté au risque — servant de repère. Cette approche régit notre manière de modéliser, de mesurer et, en fin de compte, d’automatiser. Si l’objectif est d’inscrire des pièces dans un registre, alors chaque concept important — rareté, compromis, coût d’opportunité — doit être valorisé avant d’être optimisé. Voir Chapitre 3 (« Epistémologie ») et Chapitre 4 (« Économie »).2
Là où SDA et moi nous rencontrons
Il est judicieux pour SDA de considérer le futur comme une séquence d’observations et de choix dans lesquels l’autonomie est préservée grâce à des politiques réagissant à ce qui est connu à chaque étape. Les supply chains évoluent exactement dans ce monde. Mais quiconque a tenté de diriger une entreprise à grande échelle sait que les données arrivent comme sous-produit des systèmes de gestion des enregistrements, que les incitations sont parfois adverses à la vérité et que la preuve est coûteuse à obtenir. C’est pourquoi le livre consacre du temps à la manière dont le savoir est produit au sein des entreprises, ainsi qu’aux distorsions qui s’introduisent — ce que j’appelle la « corruption épistémique ». Un cadre qui excelle en laboratoire doit encore résister aux incitations et à la sémantique du terrain. Voir Chapitre 3 (« Epistémologie », esp. 3.6).2
La taxonomie des classes de politiques de SDA constitue également une liste de vérification utile lorsque nous devons approcher ce qui ne peut être résolu exactement. En ce sens, mon travail se montre conciliant : les moteurs de supply chain combinent souvent des étapes myopes simples à une anticipation courte lorsque cela se justifie. Le vocabulaire de SDA aide à comparer de telles stratégies et nous rappelle qu’aucune classe unique ne domine l’ensemble des problèmes.1
Là où nous nous séparons
La divergence commence dès le premier mouvement. SDA part d’un modèle — état, décision, information exogène, transition, objectif — avant de rechercher parmi les politiques. Pour ma part, je commence plus tôt, avec la tarification. Avant d’accepter un quelconque « état », je veux que les coûts et les bénéfices qui légitiment économiquement une décision soient visibles et vérifiables. Autrement dit, je préfère valoriser les conséquences jusqu’à ce que de nombreuses subtilités séquentielles se résument à de solides choix en une seule étape.
Cela se voit tout particulièrement lorsque nous « aplatissons » un problème séquentiel en insérant les prix appropriés. Considérons l’expédition de stocks rares depuis un centre de distribution. Si nous attachons un prix de blocage visible aux stocks du centre de distribution — un prix d’ombre qui reflète l’option de satisfaire une meilleure demande demain — alors un magasin ne reçoit une unité que lorsque son rendement marginal dépasse réellement ce prix de blocage. Nous n’ignorons pas l’avenir ; nous l’achetons avec un chiffre qui reflète le coût du capital, la valeur de l’information et l’opportunité d’attendre. Voir Chapitre 8 (« Décisions », §8.5).2
Deux instruments rendent cet aplatissement suffisamment sûr pour être exécuté quotidiennement. Le premier est une fenêtre de responsabilité : un horizon limité sur lequel la décision d’aujourd’hui est tenue pour responsable, les décisions ultérieures héritant du reste. Nous n’avons pas besoin de scénariser toute une saison pour juger si le fait de commander un conteneur (ou de l’expédier à un magasin) était judicieux ; nous mesurons les conséquences exprimées en monnaie dans une fenêtre et passons à autre chose. Le second est l’économie de l’attente : ne rien faire pour l’instant est une option légitime, assortie d’une règle de seuil qui s’applique uniquement lorsque le rendement espéré, ajusté en fonction du risque, du meilleur mouvement admissible dépasse le coût d’ombre du capital de l’entreprise augmenté de la valeur de l’option de délai. Ensemble, ces dispositifs préservent l’autonomie tout en évitant la fragilité d’une anticipation trop profonde lorsque les données et la sémantique sont imparfaites. Voir Chapitre 8 (« Décisions », §8.5).2
La tarification nous permet également d’internaliser les effets secondaires sur le long terme sans avoir à modéliser chaque éventualité. Un détaillant qui évalue ses stocks uniquement sur la base des ventes observées investira insuffisamment dans le service ; le remède est une pénalité de rupture de stock, une valorisation d’ombre qui reflète le coût à long terme des ventes perdues. Avec ce prix en place, la douleur séquentielle de décevoir un client demain se répercute — à juste titre — sur l’allocation d’aujourd’hui. Voir Chapitres 4 et 8.2
Cette posture « tarification d’abord » se prolonge dans l’ingénierie. SDA est largement axé sur le modèle ; pour ma part, c’est l’ingénierie qui prime. Le livre soutient que les paradigmes de programmation utilisés pour exprimer les décisions comptent tout autant que le modèle statistique. Les supply chains tirent profit de langages et d’environnements d’exécution où le temps, l’argent et l’incertitude sont considérés comme des citoyens de première classe ; où les tableaux et les matrices dominent ; où le déterminisme permet l’audit ; et où la recomputation partielle raccourcit les boucles de rétroaction. L’objectif est de disposer de moteurs autonomes dont les décisions se lisent en termes monétaires et non de tableaux de bord nécessitant une intervention à 7 h du matin. Voir Chapitre 9 (« Engineering », §9.5) et Chapitre 6 (« Intelligence », §6.3).2
Enfin, il s’agit de la manière dont nous apprenons. Les preuves de terrain sont coûteuses et ambiguës ; le seul antidote pratique est l’optimisation expérimentale : instrumenter, émettre des décisions, surveiller les recommandations « délirantes », corriger les facteurs déterminants et relancer. Cette boucle ne prétend pas converger une bonne fois pour toutes ; elle maintient le système ancré dans la réalité au fur et à mesure que les conditions évoluent. Voir Chapitre 9 (« Engineering », §9.2).2
Ce que cela signifie en pratique
La portée de SDA est une caractéristique. Que vous ajustiez une anticipation pour un magasin d’énergie, conceviez une politique pour un contrôleur robotique ou compariez des approximations de fonction de valeur à des déploiements directs, SDA offre un langage cohérent et une cartographie des méthodes à expérimenter. Il nous rappelle également qu’en fin de compte, nous optimisons les politiques.1
Mais la supply chain d’entreprise est une nature sauvage de tout autre acabit. La sémantique des données change sous vos pieds ; les incitations déforment les preuves ; les expériences sont risquées et lentes. Dans ce contexte, j’ai rencontré plus de succès en adoptant d’abord la tarification et en modélisant ensuite. La méthode est simple à énoncer, quoique exigeante à exécuter. Valorisez ce qui est rare — y compris l’attention et la capacité. Appliquez des pénalités explicites là où l’avenir fait mal — ruptures de stock, congestion, obsolescence. Limitez l’attribution à l’aide d’une fenêtre. Admettez « l’attente » comme option et imposez un seuil qui respecte à la fois le capital et l’incertitude. Exprimez le tout dans un paradigme qui rend l’argent et le temps natifs. Puis itérez jusqu’à ce que les décisions non supervisées cessent de paraître délirantes.
Ce n’est pas une réfutation de SDA. C’est un choix d’ordre. SDA recherche les approximations qui rendent l’optimisation dynamique réalisable. Pour ma part, je recherche les prix qui rendent les décisions quotidiennes économiquement correctes, de sorte que le problème dynamique que nous devons approcher soit plus réduit, mieux maîtrisé et justifie l’effort supplémentaire. Les deux approches peuvent être combinées : un périmètre valorisé et ingénieré à l’extérieur ; une anticipation ciblée ou une approximation de la fonction de valeur à l’intérieur, là où c’est vraiment nécessaire.
Les lecteurs intéressés par ma position détaillée trouveront les fondements économiques dans les Chapitres 3–4, le traitement des décisions séquentielles dans le Chapitre 8, ainsi que la posture d’ingénierie — paradigmes de programmation et optimisation expérimentale — dans le Chapitre 9 de Introduction to Supply Chain. Pour une déclaration concise de la portée de SDA, et des quatre classes de politiques qui en constituent le socle, le cadre unifié de Powell ainsi que son ouvrage de modélisation sont les meilleurs points de départ.1