Muéstrame el dinero: Reflexiones sobre ISF 2024
“Para mejorar tu juego, debes estudiar el final antes que nada; ya que, mientras que los finales pueden ser estudiados y dominados por sí mismos, el medio juego y la apertura deben estudiarse en relación con el final.” Fuente: Últimas clases de ajedrez de Capablanca (1966), p. 23
Hace unas semanas, participé en un panel en el 44º Simposio Internacional sobre Forecasting en Dijon, Francia. El tema del panel fue Planificación de la Demanda y el Rol del Juicio en el Nuevo Mundo de AI/ML.
Como embajador de Lokad, puedes imaginar cuál era mi perspectiva:
-
el forecast y la toma de decisiones deberían automatizarse por completo;
-
la calidad del forecast debería evaluarse desde la perspectiva de mejores decisiones;
-
se debería utilizar el juicio humano para mejorar la automatización (no para ajustar forecasts o decisiones).
Curiosamente, mi postura sobre la automatización no provocó tanto desacuerdo como podrías pensar. El presidente (Jefe de Comunicación de Lokad, Conor Doherty) y los demás panelistas (Sven Crone de iqast y Nicolas Vandeput de SupChains) estuvieron casi unánimemente de acuerdo en que éste era el futuro del forecast. El único desacuerdo fue cuán rápidamente podríamos alcanzar este estado (nota: creo que ya lo estamos logrando).
Lo que sí causó bastante desacuerdo, y quizás incluso confusión, fue mi argumento de que la precisión del forecast no es ni de lejos tan importante como tomar mejores decisiones. Este desacuerdo no se limitó a los demás panelistas, sino también a los miembros de la audiencia. Creo que hay dos razones principales para esto:
-
Cuando hablé en el escenario, no contaba con un recurso visual para respaldar este punto. Hay varias piezas en movimiento en la explicación, por lo que un recurso visual definitivamente habría ayudado a la comprensión.
-
La idea de que la precisión del forecast es menos importante que las decisiones contradice la educación, capacitación y experiencia de la mayoría de los profesionales.
Al final de este ensayo, espero haber abordado ambos puntos mencionados anteriormente. Con respecto al primer punto, he incluido una explicación breve pero sistemática y un recurso visual intuitivo. Con respecto al segundo punto, solo puedo pedirle al lector que mantenga una mente abierta durante los próximos 5 a 10 minutos, y trate de abordar estas palabras como si no tuviera ninguna formación previa en supply chain forecasting.
Preguntas orientadoras
En mi opinión, hay cinco preguntas fundamentales que deben ser respondidas para clarificar mi postura. En esta sección, haré mi mejor esfuerzo por proporcionar respuestas cortas (más o menos) a cada una, lo que podríamos llamar la “esencia” del asunto. Tengan la seguridad de que Lokad cuenta con una gran cantidad de recursos adicionales para explicar los detalles técnicos, a los que enlazaré al final del ensayo.
P1: ¿Qué significa que un forecast ‘agregue valor’?
Comenzaré de inmediato con un ejemplo. Supongamos que existe un mecanismo por defecto para generar decisiones en una empresa (por ejemplo, forecast estadístico automatizado + política de inventario automatizada).
Para que un forecast modificado agregue valor, necesita cambiar una decisión por defecto (generada mediante el proceso por defecto de la empresa) de una manera que afecte directa y positivamente los retornos financieros de la empresa (es decir, dólares, libras o euros de retorno).
Si un forecast es más preciso (en términos de predecir la demanda real) pero no resulta en que se tome una decisión diferente y mejor, entonces no ha agregado valor.
Muchas empresas todavía utilizan modelos de forecasting basados en series de tiempo, mientras que Lokad prefiere forecasts probabilísticos para ayudar a generar decisiones ajustadas al riesgo. Sin embargo, el mismo estándar se aplica a ambos paradigmas de forecasting. Para que cualquier tipo de forecast agregue valor, debe modificar una decisión por defecto de una manera que afecte directa y positivamente los retornos financieros de la empresa.
Por ejemplo, una nueva decisión (“alterada”) podría eliminar directamente un futuro faltante de stock que la decisión por defecto habría presentado.
“Directamente” es crítico aquí. En términos muy simples, el forecast solo agrega valor si puedes identificar el cambio de decisión exacto que influyó en los retornos financieros adicionales o evitó pérdidas financieras (en comparación con la decisión por defecto).
Piensa en causalidad, no en correlación.
P2: ¿Siempre agrega valor un forecast más preciso?
Técnicamente, no. Un forecast más preciso, por sí solo, no necesariamente “agrega valor”. Esto se debe a que, como se mencionó anteriormente, para que algo (en este caso un forecast) agregue valor, debe afectar directa y positivamente los retornos financieros de una empresa mediante una mejor decisión.
A diferencia de los forecasts, las decisiones de supply chain tienen restricciones de viabilidad (por ejemplo, MOQs, multiplicadores de lote, tamaños de lote, etc.) e incentivos financieros (por ejemplo, descuentos, términos de pago, etc.). Puede haber muchos más forecasts que decisiones factibles.
Esto significa que las decisiones de supply chain pueden, ocasionalmente (y muy a menudo), ser insensibles a los cambios en la precisión del forecast. Esto es cierto tanto para los forecasts basados en series de tiempo como para los probabilistic forecasts.
La razón de esta insensibilidad se debe a las restricciones en la toma de decisiones (por ejemplo, MOQs). Es perfectamente posible que un forecast más preciso (por ejemplo, un 10% más preciso) conduzca a la misma decisión que uno menos preciso. El gráfico a continuación ilustra este punto.
En el ejemplo anterior, supongamos que el forecast consensus de 55 unidades fue más preciso que el forecast automatizado de 50 unidades. Desde una perspectiva financiera, el aumento en la precisión no resultó en una decisión diferente (debido a la presencia de un MOQ). Por lo tanto, el forecast más preciso no agregó valor.
De hecho, existe un argumento sólido de que el forecast consensus más preciso resultó en valor agregado negativo. Esto se debe a que los pasos adicionales de revisión (según un proceso estándar de Forecast Value Added) cuestan dinero (tiempo y esfuerzo extra) para la empresa, y no resultaron en una mejor decisión. Desde una perspectiva puramente financiera, esos pasos de revisión manual fueron un neto negativo.
Consideremos también un caso en el que no exista la restricción de MOQ.
Imagina el mismo escenario general, pero con un multiplicador de lote en lugar de un MOQ. Las decisiones factibles son incrementos de 50 unidades (por ejemplo, 50 unidades en una caja o en un pallet). En esta situación, tendríamos que comprar 50 o 100 unidades (1 o 2 cajas o pallets).
En realidad, podría ser menos rentable comprar 100 unidades (que cubrirían la sugerencia del forecast consensus de 55 unidades) que comprar 50 unidades (ligeramente menos de lo que sugiere el forecast “más preciso”). Se podría intentar cubrir la demanda restante con backorders o simplemente perder ventas (por ejemplo, al vender productos perecederos como alimentos frescos).
Desde una perspectiva económica, la mejor decisión financiera podría no ser seguir el forecast “más preciso”. En este escenario, tanto el forecast automatizado (50 unidades de demanda) como el forecast consensus (55 unidades de demanda) resultan en la misma decisión (ordenar 50 unidades). Por lo tanto, el forecast “más preciso” no resultó en un valor financiero incrementado.
Claro, no todas las situaciones imponen restricciones de la misma manera, sin embargo, supply chain está llena de este tipo de escenarios. Por supuesto, reconozco que diferentes forecasts darán lugar a decisiones distintas, pero la cuestión del valor sigue abierta. En todo momento, debemos considerar si el retorno adicional esperado por comprar unidades extra es mayor que los recursos adicionales consumidos para mejorar la precisión del forecast.
Quizás la precisión extra valga la pena en algunas situaciones. Sin embargo, los forecasters y profesionales de supply chain parecen asumir de forma reflexiva que lo es en términos absolutos, a pesar de que existen escenarios obvios en los que no lo es.
Si has pensado en un escenario que no encaja perfectamente con los ejemplos descritos aquí, está bien. Recuerda, el objetivo hoy es demostrar un punto general (que hay situaciones en las que la precisión extra del forecast no vale la pena perseguirla), y no analizar en profundidad cada posible escenario de toma de decisiones en supply chain.
P3: ¿Cómo podemos asegurar que el valor obtenido justifica el costo de la intervención por juicio?
Un elemento central de la discusión en panel en Dijon fue el valor (o la falta del mismo) de la intervención por juicio (o “human overrides”) en el proceso de forecasting. Para parafrasear a la otra parte, “tenemos que tener a personas en el circuito para corregir cuando el forecast automatizado haya fallado en algo”.
Esta es una perspectiva muy interesante para mí, ya que presupone que el human override agrega valor; de lo contrario, ¿por qué alguien lo haría?
Para esta sección, voy a ignorar una discusión acerca de si los humanos pueden (ocasionalmente o incluso a menudo) superar a un forecast automatizado (en términos de precisión). De hecho, estoy dispuesto a conceder que, en cualquier SKU aislado, un humano puede desempeñarse igual o quizás incluso mejor que un forecast automatizado en términos de precisión.
Nota: No creo que esto sea cierto si consideramos el forecasting de decenas de miles de SKUs para cientos de tiendas cada día, como en un supply chain de gran tamaño1. En este último escenario, un forecast automatizado supera significativamente a equipos enteros de forecasters increíblemente capacitados y otros expertos funcionales, simplemente porque la gran mayoría de los SKUs no pueden ser revisados manualmente debido a restricciones de tiempo.
Hago esta concesión de que el juicio humano a veces puede igualar o superar al forecasting automatizado por dos razones:
-
En mi opinión, hace el ensayo más interesante, y;
-
La solidez de mi argumento no se basa en ninguna discusión sobre la “precisión”.
Mi postura es, como probablemente ya puedas adivinar, que los human overrides solo “agregan valor” si… agregan valor financiero - un valor que dura más que un solo ciclo de reorder. Esto es completamente independiente de cualquier beneficio en precisión.
Este valor puede entenderse como “produce directamente mejores decisiones de las que se generaron originalmente, considerando los beneficios extra de la mejor decisión y restando el costo del override”.
En pocas palabras, las intervenciones por juicio (human overrides) tienen un costo, por lo tanto una empresa debería esperar ver un retorno de inversión significativo. Así, mi argumento es que la precisión del forecast es una métrica arbitraria (cuando se evalúa aisladamente de las decisiones), y las empresas deberían centrarse en acciones que incrementen los retornos financieros.
El human override muy probablemente puede aumentar la precisión del forecast (nuevamente, hago esta concesión por el bien de la discusión), sin embargo, no necesariamente incrementa el retorno financiero. Esto realmente no debería ser una proposición radical, de la misma manera que alguien puede ser la persona más alta en una sala y la más baja en otra.
Tengan en cuenta que no es mi responsabilidad proporcionar evidencia de que una mayor precisión no se traduce en mayores beneficios. Es, por definición, responsabilidad de quienes argumentan que una mayor precisión es por sí misma rentable proporcionar alguna evidencia concreta, directa e indiscutible para esta afirmación.
De nuevo, esta no debería ser una postura radical o contraria. En mi opinión, debería ser la postura predeterminada de cualquiera que esté “involucrado en la acción”.
Ten en cuenta que, para que los human overrides sean rentables, debemos considerar la totalidad de los overrides. Es decir, sopesar el valor financiero generado por todos los “aciertos” y restar todas las pérdidas financieras ocasionadas por los “fallos”.
Este experimento también debería realizarse a gran escala, para una enorme red de tiendas (clientes empresariales en el caso de B2B) y a lo largo de todo su catálogo de SKUs, cada día, durante un período considerable de tiempo.
«¿Cuánto tiempo debería durar este experimento, Alexey?» Sobre esto, soy ambivalente. Digamos que un año, pero estoy muy abierto a debatir este punto. Depende de muchas cosas, incluido el número de ciclos de decisión en un año, así como los lead times, naturalmente.
Dicho esto, toda esta discusión plantea la pregunta de cuál es el umbral de error aceptable para el human override.
- Si los aciertos superan ligeramente a los fallos, ¿es eso aceptable?
- ¿Qué pasa con el costo de los human overrides en sí?
- ¿Cómo debemos incluir estos costos directos e indirectos en el cálculo?
Por cierto, estas no son preguntas triviales. Son el tipo de preguntas que un estudiante de primer año haría en cualquier curso introductorio en un campo STEM (o relacionado con STEM).
Hasta que alguien proporcione una prueba definitiva de que el human override, implementado a gran escala, es financieramente rentable, la posición económicamente más inteligente es suponer que no lo es y continuar confiando en forecasts automatizados y toma de decisiones automatizada.
P4: ¿Cómo determinamos cuándo un forecast más preciso debería reemplazar al forecast actual para la toma de decisiones?
En resumen, la manera más sencilla de saberlo es considerar la siguiente pregunta: ¿resulta en mejores decisiones el nuevo forecast? La métrica de evaluación en este caso debería ser el retorno de inversión (ROI).
Para ser un poco más específico, el reemplazo debe hacerse basado en la utilidad comparativa general del nuevo modelo (por ejemplo, ROI, aplicabilidad, mantenibilidad, etc.), no solo basado en su ganancia actual de accuracy. ROI es lo que orienta a la compañía en la dirección del éxito. La aplicabilidad, como demostraré a continuación, está diseñada con una mirada hacia ROI. Recuerda: la accuracy es, si se persigue de forma aislada, un KPI.
Por ejemplo, imagina que tenemos dos modelos: uno que puede gestionar el historial de faltante de stock explícitamente y otro que ignora el faltante de stock (utilizando algunos trucos de preprocesamiento de datos). Puede ser que el faltante de stock no haya ocurrido tan a menudo, y desde una perspectiva de toma de decisiones ambos modelos funcionen casi por igual. Sin embargo, aún sería más prudente favorecer el modelo que puede gestionar el faltante de stock. Esto se debe a que, si el faltante de stock comienza a ocurrir con mayor frecuencia, este modelo será más confiable.
Esto demuestra otro aspecto de la filosofía de Lokad: correctness by design. Esto significa que, a nivel de diseño, nuestro objetivo es crear un modelo que considere de manera proactiva - y sea capaz de responder a - tanto eventos probables como improbables. Esto es de suma importancia porque las mayores penalizaciones financieras a menudo se encuentran en los extremos - en otras palabras, en los eventos improbables.
Q5: ¿Cómo hacemos la transición de un modelo de forecast a otro en producción?
Es importante recordar que el forecast es solo una parte del motor general de toma de decisiones. Como tal, actualizar algunas partes puede tener impactos menores o mayores en el rendimiento global del motor. La transición de un modelo antiguo a uno nuevo podría ser problemática, incluso si el nuevo modelo, en última instancia, generará mejores decisiones (y, por ende, mayores ganancias).
Esto se debe a que las mejores decisiones en teoría pueden encontrarse con restricciones sin precedentes en la realidad si se implementan demasiado rápido.
Por ejemplo, un nuevo modelo de forecast podría ayudar a generar POs mucho más mejorados, pero es posible que aún no exista el espacio requerido para almacenar el inventario extra o que los proveedores no puedan ajustar inmediatamente sus supply chains para satisfacer la demanda incrementada. Apresurarse a completar los POs ahora, en busca de ganancias inmediatas, podría resultar en pérdidas en otros aspectos, como que el stock se dañe o se perime más rápido debido a la falta de espacio adecuado en el warehouse (o límites en la capacidad de la fuerza laboral).
En tal escenario, podría ser prudente hacer una transición progresiva entre modelos. En la práctica, esto podría implicar realizar algunos POs consecutivos ligeramente mayores para corregir gradualmente las posiciones de stock, en lugar de emitir de inmediato un único PO enorme.
Las personas con experiencia práctica abordando el bullwhip effect (incluyendo a los defensores de DDMRP) deberían ver de inmediato por qué esta es una táctica prudente.
Reflexión final
Si has leído hasta aquí, agradezco tu atención. Si no has estado de acuerdo en algún punto, agradezco aún más tu atención.
Para aquellos que no estén de acuerdo, permítanme un último argumento: value means more money, and more money comes from better decisions. En lo que a mí respecta, nada puede sustituir unas decisiones buenas (o mejores). No un forecast más exacto. Ni un proceso de S&OP más eficiente.
Si aún no estamos de acuerdo, está bien, pero al menos sabemos en qué posición nos encontramos ambos.
Gracias por leer.
Antes de que te vayas
Aquí hay algunos recursos más que te pueden resultar útiles (especialmente si no has estado de acuerdo conmigo):
-
En cuanto a cómo Lokad realmente hace forecast de todas las fuentes de incertidumbre (por ejemplo, demanda, tiempos de entrega, tasas de devolución, etc.), consulta nuestras conferencias en video sobre probabilistic forecasts y lead time forecasting.
-
En cuanto a cómo Lokad realmente toma decisiones ajustadas al riesgo, consulta nuestro tutorial educativo sobre purchasing optimization y la conferencia en video sobre retail stock allocation.
-
En cuanto a cómo Lokad diseña la demanda y optimiza las estrategias de precios, consulta nuestra conferencia en video sobre pricing optimization.
Notas
-
Los supply chains más grandes representan cifras aún mayores: decenas de miles de tiendas en más de cien países con varios cientos de centros de distribución. Los catálogos de tales gigantes a menudo contienen cientos de miles (si no millones) de productos diferentes. ↩︎