Mejorando una tecnología de forecast
Desde la creación de Lokad, nuestro objetivo ha sido mejorar de manera implacable nuestra tecnología de forecast para ofrecer formas superiores de supply chain optimization. Hace casi una década, ya señalaba que ser una empresa de machine learning es extraño: el progreso es constante pero también no lineal y errático. Además, la mayoría de los ángulos que se consideran de sentido común en otros dominios están totalmente equivocados en lo que respecta al machine learning. Sin embargo, esto no implica que este progreso se deje al azar: hay un método en ello.
Mejorar nuestra tecnología de forecast comienza con el perfeccionamiento de los datos. Sin una preparación de datos, el proceso se reduce a un ejercicio de basura entra, basura sale. Asegurarse de que las promociones, los faltantes de stock y los plazos de entrega estén representados correctamente en un conjunto de datos dado requiere mucho tiempo y pericia. En la práctica, dado que las complicaciones de los datos tienden a ser específicas de cada dominio, se necesita un equipo completo de Supply Chain Scientist en Lokad para consolidar una variedad de conjuntos de datos que representan verticales tan diversos como aeroespacial, moda, venta minorista de alimentos, etc.
Luego, cuando inventamos1 un nuevo método estadístico, usualmente resulta que este método muestra un desempeño superior en un conjunto de datos dado, y un desempeño inferior en otro. Desafortunadamente, cuando esto ocurre, el nuevo método estadístico tiende a ser frágil: podría tener algo de suerte o ser víctima de un problema de overfitting. Así, aunque pueda ser tentador crear un caso especial para un cliente determinado de Lokad, porque un método estadístico parece encajar de forma superior para este cliente, no operamos de esa manera. Nuestra década de experiencia nos ha demostrado que esos resultados invariablemente terminan siendo frágiles y que el método supuestamente superior puede no permanecer así por mucho tiempo. Si la empresa cliente experimenta cambios sustanciales – los cuales bien podrían ser causados por las propias acciones de Lokad – el desempeño del nuevo método podría desmoronarse.
Por lo tanto, nos centramos en descubrir métodos estadísticos que ofrezcan resultados superiores para una gran variedad de situaciones, a lo largo de muchos verticales algo no relacionados, idealmente proporcionando una mejora uniforme en todos los casos en lugar de una mezcla de mejoras y retrocesos, incluso si dicha mezcla se inclina fuertemente hacia las mejoras. Esta metodología es más desafiante que simplemente aplicar feature-engineering[^features] hasta agotar un conjunto de datos, mientras se recicla interminablemente el mismo(s) algoritmo(s) de machine learning, que es lo que la mayoría de las agencias de análisis de datos ofrecerían hoy en día.
Este enfoque nos obliga a revisar los mismos fundamentos del statistical forecasting. Por ejemplo, la transición hacia cross entropy como una métrica superior para medir la precision de forecast fue instrumental para aprovechar al máximo el deep learning. Más recientemente, actualizamos hacia redes de densidad de mezcla, un enfoque poderoso pero poco utilizado2 para capturar comportamientos de cola complejos en las supply chains. Estas redes de densidad de mezcla proporcionan una solución tratable para estimar de manera fiable la probabilidad de eventos raros, lo cual es crítico en industrias como la aeroespacial.
Nuestra tecnología de forecast sigue siendo un trabajo en progreso. Existen muchos desafíos que aún se abordan de manera imperfecta. Por ejemplo, las canibalizaciones y la respuesta del mercado a los cambios de precio siguen siendo retos muy duros. Sin embargo, no nos rendimos, y aun después de 10 años en I+D, seguimos avanzando.
El feature engineering es un proceso que consiste en crear manualmente una representación del conjunto de datos que sea adecuada para un determinado algoritmo de machine learning. El feature engineering es una forma poderosa de mitigar las debilidades conocidas de los algoritmos de machine learning.
-
Nos apoyamos en los hombros de gigantes. Los esfuerzos de I+D de Lokad son, típicamente, variaciones de ideas obtenidas de la amplia comunidad de machine learning, que normalmente no se dedica a problemas de supply chain, sino a problemas generales como la detección de patrones, el reconocimiento de voz o el procesamiento del lenguaje natural. ↩︎
-
El artículo original Mixture Density Networks (MDN) de Christopher M. Bishop data de 1994. Sin embargo, tomó casi dos décadas para que el hardware alcanzara las posibilidades abiertas por este trabajo pionero. A diferencia del artículo original, que se aplicó a la cinemática inversa de robots, estamos utilizando MDNs para ofrecer forecasts probabilísticos de demanda. ↩︎