Forêts aléatoires colonnières

janvier 11, 2019

technology

Joannes Vermorel

De nombreux défis de la supply chain peuvent être formulés soit comme un problème de classification, soit comme un problème de régression. Par exemple, la prévision de la demande peut être perçue comme une régression; tandis que décider si l’alignement d’un prix avec le point de tarification d’un concurrent est acceptable peut être considéré comme une classification.

Une forêt aléatoire est une technique de machine learning qui peut être utilisée pour apprendre des motifs à partir des données, généralement dans le but de réaliser soit une classification, soit une régression.

Bien que les forêts aléatoires ne soient plus l’apprentissage automatique de pointe - le deep learning les surpasse dans de nombreuses situations, sinon dans la plupart - il existe néanmoins des avantages pratiques distinctifs associés aux forêts aléatoires, qui ont été joliment résumés par Ahmed El Deeb dans The Unreasonable Effectiveness of Random Forests.

En effet, lorsque Ahmed El Deeb souligne que Il est vraiment difficile de construire une mauvaise forêt aléatoire !, je suis d’accord, et cela représente un avantage pratique significatif. En revanche, les modèles de deep learning sont, disons, capricieux pour ne pas dire plus, et une multitude de paramètres obscurs peut améliorer - ou détériorer - la performance de façons qui ne sont pas toujours très claires pour le data scientist.

Ainsi, les forêts aléatoires sont désormais intégrées dans Envision. Bonus : les prédictions des forêts aléatoires sont renvoyées sous forme de variables aléatoires, ce qui constitue une belle combinaison pour les approches probabilistes de l’optimization de la supply chain.

Sous le capot, nous avons déployé notre propre implémentation de forêts aléatoires hautement optimisée. Nous avons emprunté de nombreux éclairages à xgBoost. L’idée principale est que nous tirons parti d’une stratégie de traitement des données columnar - contrairement aux approches antérieures, qui étaient tabulaires. Dans le contexte d’Envision, cette approche offre des avantages de performance supplémentaires puisque les données sont déjà organisées dans un format columnar au sein d’Envision. De plus, dans un contexte de supply chain, les caractéristiques d’entrée sont souvent soit éparses, soit de faible cardinalité - par exemple, les produits à faible rotation. L’approche columnar nous permet de compresser significativement les données, ce qui se traduit par des gains de vitesse supplémentaires pour ces forêts aléatoires.

Des forêts aléatoires plus rapides peuvent sembler être une fonctionnalité mineure, cependant la performance est une fonctionnalité. La ressource la plus rare est généralement le supply chain scientist lui-même. Passer moins de temps à attendre la production des résultats numériques signifie que davantage de temps peut être consacré à réfléchir et à résoudre le véritable défi de la supply chain.

Forêts aléatoires colonnières

Plus d’articles

Une question ?