Многие вызовы цепочки поставок можно сформулировать как задачи классификации или регрессии. Например, прогнозирование спроса можно рассматривать как регрессию; в то время как решение о том, является ли выравнивание цены с ценовой точкой конкурента приемлемым, можно рассматривать как классификацию.

Случайный лес - это техника машинного обучения, которая может использоваться для изучения закономерностей из данных, обычно с целью выполнения классификации или регрессии.

Хотя случайные леса больше не являются передовым методом машинного обучения - глубокое обучение превосходит их во многих, если не в большинстве случаев - все еще существуют отличительные практические преимущества, связанные со случайными лесами, которые были хорошо подведены итоги Ахмедом Эль Дибом в The Unreasonable Effectiveness of Random Forests.

Действительно, когда Ахмед Эль Диб указывает, что It’s really hard to build a bad Random Forest!, я согласен, и это представляет собой значительное практическое преимущество. В отличие от моделей глубокого обучения, которые, мягко говоря, капризны, и множество неясных параметров могут улучшить - или ухудшить - производительность таким образом, что не всегда очень понятно для ученого-исследователя данных.

Таким образом, случайные леса теперь встроены в Envision. Бонус: прогнозы случайных лесов возвращаются в виде случайных переменных, что создает отличную комбинацию для вероятностных подходов к оптимизации цепи поставок.

Внутри, мы разработали собственную высокооптимизированную реализацию случайного леса. Мы позаимствовали много идей у xgBoost. Основная идея заключается в том, что мы используем стратегию обработки данных в колоночном формате - в отличие от предыдущих подходов, которые были табличными. В контексте Envision этот подход дает дополнительные преимущества производительности, так как сами данные уже организованы в колоночном формате в Envision. Кроме того, в контексте цепи поставок входные признаки часто являются разреженными или имеют низкую мощность - например, медленные движители. Колоночный подход позволяет существенно сжимать данные, что приводит к дополнительному ускорению для этих случайных лесов.

Быстрый случайный лес может показаться незначительной особенностью, однако производительность - это особенность. Самый дефицитный ресурс обычно - это сам ученый-исследователь по цепям поставок. Тратить меньше времени на ожидание получения числовых результатов означает, что больше времени можно потратить на мышление и решение реальной задачи цепи поставок.