Viele Herausforderungen in der Supply Chain können entweder als Klassifikations- oder Regressionsprobleme betrachtet werden. Zum Beispiel kann die Nachfrageprognose als Regression betrachtet werden, während die Entscheidung, ob eine Preisanpassung an den Preis eines Konkurrenten akzeptabel ist, als Klassifikation betrachtet werden kann.

Ein Random Forest ist eine Technik des maschinellen Lernens, die verwendet werden kann, um Muster aus Daten zu lernen, in der Regel mit dem Ziel, entweder eine Klassifikation oder eine Regression durchzuführen.

Während Random Forests nicht mehr der neueste Stand der Technik im maschinellen Lernen sind - Deep Learning übertrifft sie in vielen, wenn nicht den meisten Situationen - gibt es immer noch deutliche praktische Vorteile, die mit Random Forests verbunden sind, die von Ahmed El Deeb in The Unreasonable Effectiveness of Random Forests schön zusammengefasst wurden.

Tatsächlich stimme ich Ahmed El Deeb zu, wenn er darauf hinweist, dass Es ist wirklich schwer, einen schlechten Random Forest zu bauen!, und das stellt einen erheblichen praktischen Vorteil dar. Im Gegensatz dazu sind Deep Learning-Modelle nun ja, launisch, um es vorsichtig auszudrücken, und eine Vielzahl von obskuren Parametern kann die Leistung auf eine Weise verbessern oder verschlechtern, die für den Datenwissenschaftler nicht immer sehr klar ist.

Daher sind Random Forests jetzt in Envision integriert. Bonus: Die Vorhersagen von Random Forests werden als Zufallsvariablen zurückgegeben, was eine schöne Kombination für probabilistische Ansätze der Supply Chain-Optimierung darstellt.

Unter der Haube haben wir unsere eigene hochoptimierte Implementierung von Random Forests entwickelt. Wir haben viele Erkenntnisse von xgBoost übernommen. Die wichtigste Erkenntnis ist, dass wir eine spaltenbasierte Datenverarbeitungsstrategie nutzen - im Gegensatz zu früheren Ansätzen, die tabellarisch waren. Im Envision-Kontext führt dieser Ansatz zu weiteren Leistungsvorteilen, da die Daten selbst bereits in einem spaltenbasierten Format in Envision organisiert sind. Außerdem sind die Eingabemerkmale im Supply Chain-Kontext häufig entweder dünn besetzt oder haben eine geringe Kardinalität - z.B. langsame Beweger. Der spaltenbasierte Ansatz ermöglicht es uns, die Daten signifikant zu komprimieren, was weitere Geschwindigkeitsvorteile für diese Random Forests bringt.

Schnellere Random Forests mögen eine kleine Funktion sein, aber Leistung ist eine Funktion. Die knappste Ressource ist normalerweise der Supply Chain Scientist selbst. Weniger Zeit für das Warten auf die numerischen Ergebnisse bedeutet, dass mehr Zeit für das Nachdenken und die Lösung der eigentlichen Supply Chain-Herausforderung aufgewendet werden kann.