Bosques Aleatorios Columnados

enero 11, 2019

technology

Joannes Vermorel

Muchos desafíos de supply chain pueden enmarcarse como problemas de clasificación o de regresión. Por ejemplo, la previsión de la demanda puede considerarse una regresión; mientras que decidir si alinear un precio con el punto de precio de un competidor es aceptable puede considerarse una clasificación.

Un random forest es una técnica de machine learning que puede utilizarse para aprender patrones a partir de los datos, con la intención de realizar ya sea una clasificación o una regresión.

Aunque los random forests ya no son machine learning de última generación - deep learning los supera en muchas, si no en la mayoría de las situaciones - aún existen ventajas prácticas distintivas asociadas con los random forests, las cuales han sido excelentemente resumidas por Ahmed El Deeb en The Unreasonable Effectiveness of Random Forests.

De hecho, cuando Ahmed El Deeb señala que ¡Es realmente difícil construir un mal Random Forest!, coincido, y esto representa una notable ventaja práctica. En contraste, los modelos de deep learning son, bueno, quisquillosos por decir lo menos, y una multitud de parámetros oscuros pueden mejorar - o degradar - el rendimiento de maneras que no siempre son muy claras para el científico de datos.

Así, los random forests ahora están integrados en Envision. Bonus: las predicciones de los random forests se devuelven como variables aleatorias, lo que constituye una buena combinación para enfoques probabilísticos de optimización de supply chain.

Bajo el capó, hemos implementado nuestra propia versión de random forest altamente optimizada. Robamos muchos conocimientos de xgBoost. La idea principal es que estamos aprovechando una estrategia de procesamiento de datos columnar - a diferencia de los enfoques anteriores, que eran tabulares. Dentro del contexto de Envision, este enfoque proporciona beneficios adicionales en cuanto al rendimiento, ya que los datos ya están organizados en un formato columnar. Además, en un contexto de supply chain, las características de entrada son con frecuencia dispersas o de baja cardinalidad - por ejemplo, productos de lenta rotación. El enfoque columnar nos permite comprimir significativamente los datos, lo que genera aceleraciones adicionales para esos random forests.

Los random forests más rápidos pueden parecer una característica pequeña, sin embargo, el rendimiento es una característica. El recurso más escaso es, generalmente, el Supply Chain Scientist en persona. Gastar menos tiempo esperando a que se produzcan los resultados numéricos significa que se puede dedicar más tiempo a pensar y resolver el verdadero desafío de supply chain.

Bosques Aleatorios Columnados

Más publicaciones

¿Dudas?