Spaltenorientierte Random Forests

Januar 11, 2019

technology

Joannes Vermorel

Viele supply chain challenges können entweder als Klassifikations- oder Regressionsprobleme betrachtet werden. Zum Beispiel kann die Vorhersage der Nachfrage als Regression angesehen werden; während die Entscheidung, ob die Angleichung eines Preises an den Preispunkt eines Wettbewerbers akzeptabel ist, als Klassifikation betrachtet werden kann.

Ein Random Forest ist eine Technik des maschinellen Lernens, die dazu verwendet werden kann, Muster aus Daten zu lernen, typischerweise mit dem Ziel, entweder eine Klassifikation oder eine Regression durchzuführen.

Obwohl Random Forests nicht mehr die modernste Methode im maschinellen Lernen darstellen – Deep Learning übertrifft sie in vielen, wenn nicht den meisten Fällen – bieten Random Forests dennoch deutliche praktische Vorteile, die von Ahmed El Deeb in The Unreasonable Effectiveness of Random Forests treffend zusammengefasst wurden.

Tatsächlich stimme ich Ahmed El Deeb zu, wenn er feststellt: It’s really hard to build a bad Random Forest!, und dies stellt einen erheblichen praktischen Vorteil dar. Im Gegensatz dazu sind deep learning Modelle, naja, gelinde gesagt launisch, und eine Vielzahl obskurer Parameter kann die Leistung auf Weisen verbessern – oder verschlechtern –, die für den Data Scientist nicht immer ganz klar ersichtlich sind.

Somit sind Random Forests nun in Envision integriert. Bonus: Die Vorhersagen der Random Forests werden als Zufallsvariablen zurückgegeben, was eine schöne Kombination für probabilistische Ansätze der supply chain Optimierung darstellt.

Unter der Haube haben wir unsere eigene hochoptimierte Random Forest Implementierung ausgerollt. Wir haben viele Erkenntnisse von xgBoost übernommen. Die wichtigste Erkenntnis ist, dass wir eine columnar Datenverarbeitungsstrategie nutzen – im Gegensatz zu früheren Ansätzen, die tabellarisch waren. Im Envision-Kontext liefert dieser Ansatz zusätzliche Performance-Vorteile, da die Daten selbst bereits in einem columnar Format innerhalb von Envision organisiert sind. Außerdem sind im supply chain Kontext Input-Features häufig entweder spärlich oder von niedriger Kardinalität – z. B. Slow Mover. Der columnar Ansatz ermöglicht es uns, die Daten signifikant zu komprimieren, was weitere Geschwindigkeitssteigerungen für diese Random Forests zur Folge hat.

Schnellere Random Forests mögen wie ein kleines Feature erscheinen, jedoch ist Performance ein Feature. Die knappste Ressource ist in der Regel der Supply Chain Scientist selbst. Weniger Zeit damit zu verbringen, auf die Erstellung numerischer Ergebnisse zu warten, bedeutet, dass mehr Zeit für das Nachdenken und Lösen der tatsächlichen supply chain Herausforderung zur Verfügung steht.

Spaltenorientierte Random Forests

Weitere Beiträge

Lokad fragen