Sobre Sequential Decision Analytics.

noviembre 10, 2025

supply chain science

Joannes Vermorel

Admiro la ambición de Warren Powell de unificar la extensa familia de “decisiones a lo largo del tiempo.” Su Sequential Decision Analytics (SDA) establece una amplia cobertura: desde el control hasta el aprendizaje por refuerzo, desde el transporte hasta la energía y e‑commerce, el mensaje es que las decisiones secuenciales comparten una estructura común y deben resolverse optimizando políticas. Dentro de esa estructura se encuentran cuatro amplias formas de tomar decisiones—aproximaciones miopes o de función de costo, aproximaciones de función de valor, lookahead directo y aproximaciones de función política—cada una un camino a través de la intratabilidad de los problemas dinámicos. Es un encuadre poderoso, y ha influido en muchos campos a la vez.¹

Mi propio trabajo parte de un punto de partida diferente. En Introduction to Supply Chain sostengo que supply chain no es una rama de las matemáticas ni del software per se; es una rama aplicada de la economía. El oficio del día a día consiste en convertir la opcionalidad bajo variabilidad en dinero, con la ganancia—adecuadamente ajustada por riesgo—como la medida. Esta postura gobierna cómo modelamos, cómo medimos y, en última instancia, cómo automatizamos. Si el objetivo son monedas en un libro contable, entonces cada concepto que importa—escasez, compensaciones, costo de oportunidad—debe tener un precio antes de optimizarlo. Vea el Capítulo 3 (“Epistemología”) y el Capítulo 4 (“Economía”).²

Donde SDA y yo coincidimos

SDA tiene razón al tratar el futuro como una secuencia de observaciones y elecciones en la que la agencia se preserva mediante políticas que reaccionan a lo que se conoce en cada paso. Los supply chain operan exactamente en este mundo. Pero cualquiera que haya intentado dirigir una empresa a gran escala sabe que los datos llegan como subproducto de los sistemas de registro, que los incentivos a veces se oponen a la verdad, y que la evidencia es costosa de obtener. Por ello, el libro dedica tiempo a cómo se produce el conocimiento dentro de las empresas, y a las distorsiones que se cuelan—lo que yo llamo “corrupción epistémica.” Un marco que sobresale en el laboratorio debe aún sobrevivir al contacto con los incentivos y la semántica del piso de fábrica. Vea el Capítulo 3 (“Epistemología,” esp. 3.6).²

La taxonomía de clases de políticas de SDA también es una lista de verificación útil cuando debemos aproximar lo que no puede solucionarse exactamente. En ese sentido, mi trabajo es comprensivo: los motores de supply chain a menudo combinan pasos miopes simples con lookahead corto cuando resulta provechoso. El vocabulario de SDA ayuda a comparar tales estrategias y nos recuerda que ninguna clase domina en todos los problemas.¹

Donde separamos caminos

La divergencia comienza con el primer movimiento. SDA parte de un modelo—estado, decisión, información exógena, transición, objetivo—y luego busca entre políticas. Yo empiezo antes, con la fijación de precios. Antes de aceptar cualquier “estado,” quiero que los costos y beneficios que hacen que una decisión sea económicamente legítima sean visibles y auditables. Dicho de otra manera, prefiero fijar el precio de las consecuencias hasta que muchas complejidades secuenciales se colapsen en decisiones sólidas de un solo paso.

Esto es más evidente cuando “aplanamos” un problema secuencial insertando los precios correctos. Considere despachar stock escaso desde un centro de distribución. Si asignamos un precio de retención visible al inventario del centro de distribución—un precio sombra que refleja la opción de atender una mejor solicitud mañana—entonces una tienda recibe una unidad solo cuando su retorno marginal supera genuinamente ese precio de retención. No estamos ignorando el futuro; lo estamos comprando mediante un número que refleja el costo de capital, el valor de la información y la oportunidad de esperar. Vea el Capítulo 8 (“Decisiones”, §8.5).²

Dos instrumentos hacen que este aplanamiento sea lo suficientemente seguro para operar a diario. El primero es una ventana de responsabilidad: un horizonte acotado sobre el cual se hace rendir cuentas la decisión de hoy, y las decisiones posteriores heredan el resto. No es necesario planificar toda la temporada para juzgar si ordenar un contenedor (o enviar a una tienda) fue prudente; medimos las consecuencias denominadas en moneda en una ventana y seguimos adelante. El segundo es la economía de la espera: no hacer nada todavía es una opción legítima, con una regla de corte que actúa solo cuando el retorno esperado, ajustado por riesgo, de la mejor jugada admisible supera el costo sombra de capital de la empresa más el valor de la opción de retraso. Juntos, estos dispositivos preservan la agencia al tiempo que evitan la fragilidad del lookahead profundo cuando los datos y la semántica son imperfectos. Vea el Capítulo 8 (“Decisiones”, §8.5).²

La fijación de precios también nos permite internalizar los efectos secundarios a largo plazo sin modelar cada contingencia. Un minorista que valora el inventario únicamente en base a las ventas observadas subinvertirá en el servicio; el remedio es una penalización por faltante de stock, una valoración sombra que refleja el costo a largo plazo de ventas perdidas. Con ese precio establecido, el dolor secuencial de decepcionar a un cliente mañana se siente—de manera apropiada—a través de la asignación de hoy. Vea los Capítulos 4 y 8.²

Esta postura de pricing first se extiende a la ingeniería. SDA es en gran medida model‑first; yo soy engineering‑first. El libro sostiene que los programming paradigms utilizados para expresar las decisiones importan al menos tanto como el modelo estadístico. Los supply chain se benefician de lenguajes y entornos de ejecución donde el tiempo, el dinero y uncertainty son ciudadanos de primera clase; donde dominan los arrays y las tablas; donde el determinismo posibilita la auditoría; y donde la recomputación parcial acorta los ciclos de retroalimentación. El objetivo es obtener motores no vigilados cuyas decisiones sean legibles en monedas, y no dashboards que necesiten ser rescatados a las 7 a.m. Vea el Capítulo 9 (“Engineering,” §9.5) y el Capítulo 6 (“Intelligence,” §6.3).²

Finalmente, está el asunto de cómo aprendemos. La evidencia de campo es costosa y ambigua; el único antídoto práctico es experimental optimization: instrumentar, emitir decisiones, vigilar recomendaciones “insane”, arreglar los impulsores, y volver a ejecutar. Este ciclo no pretende converger de una vez por todas; mantiene el sistema anclado a la realidad a medida que las condiciones evolucionan. Vea el Capítulo 9 (“Engineering,” §9.2).²

Lo que esto significa en la práctica

La amplitud de SDA es una característica. Cuando calibras un lookahead para un almacén de energía, diseñas una política para un controlador robótico, o comparas aproximaciones de función de valor con rollouts directos, SDA ofrece un lenguaje coherente y un mapa de métodos para probar. También nos recuerda que, al final, estamos optimizando sobre políticas.¹

Pero el supply chain empresarial es un tipo diferente de desierto. Data semantics cambian bajo tus pies; los incentivos distorsionan la evidencia; los experimentos son riesgosos y lentos. En ese terreno, he tenido más éxito al fijar precios primero y modelar segundo. El método es simple de enunciar, aunque exigente de ejecutar. Pon precio a lo que es escaso—incluyendo la atención y la capacidad. Aplica penalizaciones explícitas donde el futuro duele—faltante de stock, congestión, obsolescencia. Limita la atribución con una ventana. Admite la opción de “wait” y aplica una regla de corte que respete tanto el capital como la incertidumbre. Expresa todo en un paradigma que haga que el dinero y el tiempo sean nativos. Luego itera hasta que las decisiones no atendidas dejen de parecer insanas.

Esto no es una refutación de SDA. Es una elección de orden. SDA busca las aproximaciones que hacen factible la optimización dinámica. Yo busco los precios que hacen que las decisiones cotidianas sean económicamente correctas, de modo que el problema dinámico que sí debemos aproximar sea menor, de mejor comportamiento y que justifique el esfuerzo extra. Las dos perspectivas pueden combinarse: un perímetro valorado e ingenieril por fuera; un lookahead dirigido o una aproximación de función de valor por dentro, donde realmente se necesita.

Los lectores interesados en mi postura detallada encontrarán los fundamentos económicos en los Capítulos 3–4, el tratamiento de las decisiones secuenciales en el Capítulo 8, y la postura de ingeniería—programming paradigms y experimental optimization—en el Capítulo 9 de Introduction to Supply Chain. Para una declaración compacta del alcance de SDA, y de las cuatro clases de política que abarcan sus métodos, el marco unificado de Powell y su texto de modelado son los mejores puntos de partida.¹

Notas

Regresar al Blog ›

Sobre Sequential Decision Analytics.

Donde SDA y yo coincidimos

Donde separamos caminos

Lo que esto significa en la práctica

Notas

Más publicaciones