De nombreux défis de la supply chain peuvent être formulés comme des problèmes de classification ou de régression. Par exemple, prévoir la demande peut être considéré comme une régression; tandis que décider si l’alignement d’un prix sur le point de prix d’un concurrent est acceptable peut être considéré comme une classification.

Une forêt aléatoire est une technique d’apprentissage automatique qui peut être utilisée pour apprendre des motifs à partir de données, généralement dans le but d’effectuer une classification ou une régression.

Bien que les forêts aléatoires ne soient plus à la pointe de l’apprentissage automatique - l’apprentissage profond les surpasse dans de nombreuses situations, voire la plupart - elles présentent toujours des avantages pratiques distincts, qui ont été bien résumés par Ahmed El Deeb dans The Unreasonable Effectiveness of Random Forests.

En effet, lorsque Ahmed El Deeb souligne que Il est vraiment difficile de construire une mauvaise forêt aléatoire!, je suis d’accord, et cela représente un avantage pratique significatif. En revanche, les modèles d’apprentissage profond sont, eh bien, capricieux, pour le moins que l’on puisse dire, et une multitude de paramètres obscurs peuvent améliorer - ou dégrader - les performances de manière pas toujours très claire pour le data scientist.

Ainsi, les forêts aléatoires sont désormais intégrées à Envision. Bonus : les prédictions des forêts aléatoires sont renvoyées sous forme de variables aléatoires, ce qui constitue un bel atout pour les approches probabilistes de l’optimisation de la supply chain.

Sous le capot, nous avons déployé notre propre implémentation de forêts aléatoires hautement optimisée. Nous avons emprunté de nombreuses idées à xgBoost. L’idée principale est que nous exploitons une stratégie de traitement des données colonnaire - contrairement aux approches antérieures, qui étaient tabulaires. Dans le contexte d’Envision, cette approche offre des avantages de performance supplémentaires car les données elles-mêmes sont déjà organisées dans un format en colonnes dans Envision. De plus, dans un contexte de supply chain, les caractéristiques d’entrée sont souvent soit dispersées, soit de faible cardinalité - par exemple, les produits à faible rotation. L’approche en colonnes nous permet de compresser considérablement les données, ce qui entraîne des accélérations supplémentaires pour ces forêts aléatoires.

Des forêts aléatoires plus rapides peuvent sembler une petite fonctionnalité, cependant la performance est une fonctionnalité. La ressource la plus rare est généralement le scientifique de la supply chain lui-même. Passer moins de temps à attendre que les résultats numériques soient produits signifie que plus de temps peut être consacré à réfléchir et à résoudre le véritable défi de la supply chain.