Sull'analisi delle decisioni sequenziali.
Io ammiro l’ambizione di Warren Powell di unificare la vasta famiglia delle “decisioni nel tempo.” Il suo Analisi delle decisioni sequenziali (SDA) propone un tendone generoso: dal controllo all’apprendimento per rinforzo, dal trasporto all’energia e‑commerce, il messaggio è che le decisioni sequenziali condividono una struttura comune e debbano essere risolte ottimizzando le policy. All’interno di quella struttura si trovano quattro ampi modi di prendere decisioni — approssimazioni miope o basate sulla funzione di costo, approssimazioni della funzione di valore, lookahead diretto e approssimazioni della funzione policy — ciascuno un percorso attraverso l’inaffrontabilità dei problemi dinamici. È un inquadramento potente e ha influenzato molti campi contemporaneamente.1
Il mio lavoro parte da un punto di partenza diverso. In Introduction to Supply Chain sostengo che supply chain non sia un ramo della matematica o del software per se; è un ramo applicato dell’economia. L’arte quotidiana consiste nel trasformare l’opzionalità, in presenza di variabilità, in denaro, con il profitto—adeguatamente corretto per il rischio—come metro di misura. Questa posizione non è uno slogan. Essa governa il modo in cui modelliamo, misuriamo e, in ultima analisi, automatizziamo. Se l’obiettivo sono monete sul libro mastro, allora ogni concetto che conta—scarsità, compromessi, costo opportunità—deve essere prezzato prima di essere ottimizzato. Vedi il Capitolo 3 (“Epistemologia”) e il Capitolo 4 (“Economia”).2
Dove SDA e io ci incontriamo
SDA ha ragione nel trattare il futuro come una sequenza di osservazioni e scelte in cui l’agency viene preservata attraverso policy che reagiscono a ciò che è noto ad ogni passo. Le supply chain vivono esattamente in questo mondo. Ma chiunque abbia provato a gestire un’impresa su larga scala sa che i dati arrivano come sottoprodotto dei sistemi di registrazione, che gli incentivi talvolta si oppongono alla verità, e che le evidenze sono costose da ottenere. È per questo che il libro dedica del tempo a come viene prodotta la conoscenza all’interno delle aziende, e alle distorsioni che insidiano—quello che io chiamo “corruzione epistemica.” Un framework che eccelle in laboratorio deve comunque sopravvivere al contatto con gli incentivi e la semantica del reparto operativo. Vedi il Capitolo 3 (“Epistemologia”, esp. 3.6).2
La tassonomia delle classi di policy di SDA è anche una lista di controllo utile quando dobbiamo approssimare ciò che non può essere risolto esattamente. In tal senso, il mio lavoro è in sintonia: i motori delle supply chain spesso mescolano semplici passaggi miopi con brevi lookahead dove conviene. Il vocabolario di SDA aiuta a confrontare tali strategie e ci ricorda che nessuna classe singola domina tra i vari problemi.1
Dove le nostre strade si separano
La divergenza inizia con la prima mossa. SDA parte da un modello—stato, decisione, informazione esogena, transizione, obiettivo—e poi ricerca tra le policy. Io inizio prima, con la determinazione dei prezzi. Prima di accettare qualsiasi “stato,” desidero che i costi e i benefici che rendono una decisione economicamente legittima siano visibili e verificabili. In altre parole, preferisco prezzare le conseguenze finché molte complessità sequenziali non collassano in scelte solide a un solo passo.
Questo diventa più evidente quando “appiattiamo” un problema sequenziale inserendo i prezzi giusti. Considera la spedizione di scorte scarse da un centro di distribuzione. Se attribuiamo un prezzo di sospensione visibile all’inventario del centro di distribuzione—un prezzo ombra che riflette l’opzione di servire una richiesta migliore domani—allora un negozio riceverà un’unità solo quando il suo rendimento marginale supera genuinamente quel prezzo di sospensione. Non stiamo ignorando il futuro; lo stiamo “acquistando” con un numero che riflette il costo del capitale, il valore dell’informazione e l’opportunità di attendere. Vedi il Capitolo 8 (“Decisioni”, §8.5).2
Due strumenti rendono questo appiattimento sufficientemente sicuro da eseguirlo quotidianamente. Il primo è una finestra di responsabilità: un orizzonte limitato sul quale la decisione di oggi viene ritenuta responsabile, con le decisioni successive che ereditano il residuo. Non è necessario pianificare l’intera stagione per giudicare se ordinare un container (o spedire a un negozio) sia stata una scelta saggia; misuriamo le conseguenze espresse in valuta in una finestra e procediamo. Il secondo è l’economia dell’attesa: non fare nulla è ancora un’opzione legittima, con una regola di cutoff che interviene solo quando il rendimento atteso, corretto per il rischio, della migliore mossa ammissibile supera il costo ombra del capitale dell’azienda più il valore dell’opzione di ritardo. Insieme, questi strumenti conservano l’agency evitando al contempo la fragilità di un lookahead profondo quando dati e semantica sono imperfetti. Vedi il Capitolo 8 (“Decisioni”, §8.5).2
La determinazione dei prezzi ci permette anche di internalizzare gli effetti collaterali a lungo orizzonte senza dover modellare ogni eventualità. Un rivenditore che valuta l’inventario esclusivamente sulla base delle vendite osservate tenderà a investire meno nel servizio; il rimedio è una penalità per stockout, una valutazione ombra che riflette il costo a lungo termine delle vendite perse. Con quel prezzo in atto, il dolore sequenziale di deludere un cliente domani viene percepito—adeguatamente—dall’allocazione di oggi. Vedi i Capitoli 4 e 8.2
Questa posizione di prezzare prima si estende anche all’ingegneria. SDA è in gran parte orientato al modello; io sono orientato all’ingegneria. Il libro sostiene che i paradigmi di programmazione utilizzati per esprimere le decisioni contino almeno quanto il modello statistico. Le supply chain beneficiano di linguaggi e ambienti di esecuzione in cui tempo, denaro e incertezza sono cittadini di prima classe; dove array e tabelle dominano; dove il determinismo consente la verifica; e dove una ricalcolazione parziale accorcia i cicli di feedback. L’obiettivo è avere motori non supervisionati le cui decisioni siano leggibili in termini di denaro, e non dashboard che necessitano di intervento alle 7 del mattino. Vedi il Capitolo 9 (“Ingegneria”, §9.5) e il Capitolo 6 (“Intelligenza”, §6.3).2
Infine, c’è la questione di come apprendiamo. Le prove sul campo sono costose e ambigue; l’unico antidoto pratico è l’ottimizzazione sperimentale: strumentare, emettere decisioni, osservare raccomandazioni “insane”, correggere i driver e ripetere il ciclo. Questo loop non intende convergere una volta per tutte; mantiene il sistema ancorato alla realtà mentre le condizioni evolvono. Vedi il Capitolo 9 (“Ingegneria”, §9.2).2
Cosa significa tutto ciò nella pratica
La vastità di SDA è una caratteristica. Quando stai calibrando un lookahead per un centro di accumulo energetico, progettando una policy per un controller robotico o confrontando approssimazioni della funzione di valore con rollouts diretti, SDA offre un linguaggio coerente e una mappa di metodi da provare. Inoltre, ci ricorda che, alla fine, stiamo ottimizzando le policy.1
Ma la supply chain aziendale è un tipo diverso di territorio selvaggio. La semantica dei dati cambia sotto i tuoi piedi; gli incentivi distorcono le evidenze; gli esperimenti sono rischiosi e lenti. In quel contesto, ho ottenuto maggiori successi prezzando prima e modellando dopo. Il metodo è semplice da enunciare, sebbene impegnativo da eseguire. Prezza ciò che è scarso—compresa l’attenzione e la capacità. Applica penalità esplicite dove il futuro arreca danno—stockout, congestione, obsolescenza. Limita l’attribuzione con una finestra. Ammetti “attesa” come opzione ed applica una regola di cutoff che rispetti sia il capitale che l’incertezza. Esprimi il tutto in un paradigma che faccia di denaro e tempo elementi nativi. Quindi, itera finché le decisioni non supervisionate smettono di sembrare insensate.
Questo non è un confutazione di SDA. È una scelta di ordine. SDA cerca le approssimazioni che rendono l’ottimizzazione dinamica realizzabile. Io cerco i prezzi che rendono le decisioni quotidiane economicamente corrette, affinché il problema dinamico che dobbiamo approssimare sia più piccolo, meglio gestito e degno dello sforzo extra. Le due visioni possono essere combinate: un perimetro prezzato e ingegnerizzato all’esterno; un lookahead mirato o un’approssimazione della funzione di valore all’interno, dove è veramente necessario.
I lettori interessati alla mia posizione dettagliata troveranno le fondamenta economiche nei Capitoli 3–4, il trattamento delle decisioni sequenziali nel Capitolo 8 e l’approccio ingegneristico—paradigmi di programmazione e ottimizzazione sperimentale—nel Capitolo 9 di Introduction to Supply Chain. Per una sintesi compatta dell’ambito di SDA, e delle quattro classi di policy che ne delineano i metodi, il framework unificato di Powell e il suo testo di modellizzazione sono i migliori punti di partenza.1