Admiro la ambición de Warren Powell por unificar la extensa familia de “decisiones a lo largo del tiempo.” Su Sequential Decision Analytics (SDA) establece una amplia carpa: desde el control hasta el aprendizaje por refuerzo, desde el transporte hasta la energía y e‑commerce, el mensaje es que las decisiones secuenciales comparten una estructura común y deben resolverse optimizando sobre políticas. Dentro de esa estructura se encuentran cuatro amplias maneras de tomar decisiones—aproximaciones miopes o de función de costo, aproximaciones de función de valor, lookahead directo y aproximaciones de función de política—cada una una vía a través de la intratabilidad de los problemas dinámicos. Es un marco poderoso, y ha influenciado a muchos campos a la vez.1

two men play chess on the beach

Mi propio trabajo parte de un punto de partida diferente. En Introduction to Supply Chain sostengo que supply chain no es una rama de las matemáticas ni del software per se; es una rama aplicada de la economía. El oficio diario consiste en convertir la opcionalidad bajo variabilidad en dinero, con el beneficio—debidamente ajustado por riesgo—como la medida. Esta postura no es un eslogan. Rige cómo modelamos, cómo medimos y, en última instancia, cómo automatizamos. Si el objetivo son monedas en un libro contable, entonces cada concepto que importa—escasez, compensaciones, costo de oportunidad—debe ser valorado antes de optimizarlo. Véase el Capítulo 3 (“Epistemología”) y el Capítulo 4 (“Economía”).2

Donde SDA y yo nos encontramos

Es correcto que SDA considere el futuro como una secuencia de observaciones y elecciones donde se preserva la agencia mediante políticas que reaccionan a lo que se conoce en cada paso. Las supply chains viven en exactamente este mundo. Pero cualquiera que haya intentado dirigir una empresa a gran escala sabe que los datos llegan como subproducto de los sistemas de registro, que los incentivos a veces son adversos a la verdad, y que obtener evidencia es costoso. Por ello, el libro dedica tiempo a cómo se produce el conocimiento dentro de las empresas, y a las distorsiones que se infiltran—lo que yo llamo “corrupción epistémica.” Un marco que destaca en el laboratorio debe aún sobrevivir al contacto con los incentivos y la semántica del piso de producción. Véase el Capítulo 3 (“Epistemología,” esp. 3.6).2

La taxonomía de clases de políticas de SDA es también una lista de verificación útil cuando debemos aproximar lo que no puede resolverse de forma exacta. En ese sentido, mi trabajo es empático: los motores de supply chain a menudo combinan pasos miopes simples con lookahead corto donde conviene. El vocabulario de SDA ayuda a comparar tales estrategias y nos recuerda que ninguna clase domina en todos los problemas.1

Donde nos separamos

La divergencia comienza con el primer movimiento. SDA parte de un modelo—estado, decisión, información exógena, transición, objetivo—y luego busca entre políticas. Yo comienzo antes, con la fijación de precios. Antes de aceptar cualquier “estado,” quiero que los costos y beneficios que hacen que una decisión sea económicamente legítima sean visibles y auditables. Dicho de otro modo, prefiero valorar las consecuencias hasta que muchas complejidades secuenciales se colapsen en elecciones sólidas de un solo paso.

Esto es más evidente cuando “aplanamos” un problema secuencial insertando los precios correctos. Considere despachar stock escaso desde un centro de distribución. Si asignamos un precio de retención visible al inventario del centro de distribución—un precio sombra que refleja la opción de atender una solicitud mejor mañana—entonces una tienda recibe una unidad solo cuando su rendimiento marginal supera genuinamente ese precio de retención. No estamos ignorando el futuro; lo estamos comprando con un número que refleja el costo de capital, el valor de la información y la oportunidad de esperar. Véase el Capítulo 8 (“Decisiones,” §8.5).2

Dos instrumentos hacen que este aplanamiento sea lo suficientemente seguro como para ejecutarse a diario. El primero es una ventana de responsabilidad: un horizonte acotado sobre el cual se hace responsable la decisión de hoy, dejando que las decisiones posteriores hereden lo restante. No es necesario guionizar toda la temporada para juzgar si ordenar un contenedor (o enviar a una tienda) fue prudente; medimos las consecuencias denominadas en monedas en una ventana y seguimos adelante. El segundo es la economía de la espera: no hacer nada aún es una opción legítima, con una regla de corte que actúa solo cuando el retorno esperado, ajustado por riesgo, de la mejor jugada admisible supera el costo sombra de capital de la empresa más el valor de la opción de demora. Juntos, estos dispositivos preservan la agencia mientras evitan la fragilidad de un lookahead profundo cuando los datos y la semántica son imperfectos. Véase el Capítulo 8 (“Decisiones,” §8.5).2

La fijación de precios también nos permite internalizar efectos secundarios de largo plazo sin modelar cada contingencia. Un minorista que valora el inventario únicamente en base a las ventas observadas subinvertirá en servicio; el remedio es una penalización por faltante de stock, una valoración sombra que refleja el costo a largo plazo de lost sales. Con ese precio establecido, el dolor secuencial de decepcionar a un cliente mañana se siente—debidamente—por la asignación de hoy. Véase los Capítulos 4 y 8.2

Esta postura de pricing first se traslada a la ingeniería. SDA es en gran medida model‑first; yo soy engineering‑first. El libro argumenta que los paradigmas de programación usados para expresar decisiones importan al menos tanto como el modelo estadístico. Las supply chains se benefician de lenguajes y entornos de ejecución donde el tiempo, el dinero y uncertainty son ciudadanos de primera clase; donde predominan los arrays y las tablas; donde el determinismo permite la auditoría; y donde la recomputación parcial acorta los ciclos de retroalimentación. El objetivo son motores no atendidos cuyas decisiones son legibles en monedas, no dashboards que necesitan ser rescatados a las 7 a.m. Véase el Capítulo 9 (“Ingeniería,” §9.5) y el Capítulo 6 (“Inteligencia,” §6.3).2

Finalmente, está la cuestión de cómo aprendemos. La evidencia de campo es costosa y ambigua; el único antídoto práctico es la optimización experimental: instrumentar, emitir decisiones, observar recomendaciones “insanas”, arreglar los impulsores y volver a ejecutar. Este ciclo no pretende converger de una vez por todas; mantiene el sistema anclado a la realidad a medida que las condiciones evolucionan. Véase el Capítulo 9 (“Ingeniería,” §9.2).2

Lo que esto significa en la práctica

La amplitud de SDA es una característica. Cuando estás calibrando un lookahead para un almacén de energía, diseñando una política para un controlador robótico, o comparando aproximaciones de función de valor con despliegues directos, SDA ofrece un lenguaje coherente y un mapa de métodos para probar. También nos recuerda que, al final, estamos optimizando sobre políticas.1

Pero la supply chain empresarial es un tipo diferente de desierto. Data semantics cambian bajo tus pies; los incentivos distorsionan la evidencia; los experimentos son arriesgados y lentos. En ese terreno, he tenido más éxito fijando precios primero y modelando después. El método es simple de enunciar, aunque exigente de ejecutar. Valora lo que es escaso—including la atención y la capacidad. Aplica penalizaciones explícitas donde el futuro duele—faltante de stock, congestión, obsolescencia. Limita la atribución con una ventana. Admite “wait” como una opción y aplica un corte que respete tanto el capital como la incertidumbre. Expresa todo en un paradigma que haga al dinero y al tiempo nativos. Luego itera hasta que las decisiones no atendidas dejen de parecer insanas.

Esto no es una refutación de SDA. Es una cuestión de orden. SDA busca las aproximaciones que hacen factible la optimización dinámica. Yo busco los precios que hacen que las decisiones cotidianas sean económicamente correctas, de modo que el problema dinámico que realmente tenemos que aproximar sea más pequeño, de mejor comportamiento y que valga el esfuerzo adicional. Las dos perspectivas se pueden combinar: un perímetro con precios e ingeniería en el exterior; un lookahead dirigido o aproximación de función de valor en el interior, donde es realmente necesario.

Los lectores interesados en mi postura detallada encontrarán los fundamentos económicos en los Capítulos 3–4, el tratamiento de las decisiones secuenciales en el Capítulo 8, y la postura de ingeniería—paradigmas de programación y optimización experimental—en el Capítulo 9 de Introduction to Supply Chain. Para una declaración compacta del alcance de SDA, y de las cuatro clases de políticas que abarcan sus métodos, el marco unificado de Powell y su texto de modelado son los mejores puntos de partida.1

Notas