Колонковый случайный лес

января 11, 2019

technology

Joannes Vermorel

Многие проблемы управления цепями поставок можно рассматривать как задачи классификации или регрессии. Например, прогнозирование спроса можно трактовать как регрессию; в то время как определение, приемлемо ли согласование цены с уровнем цен конкурента, можно считать классификацией.

Случайный лес — это метод машинного обучения, который можно использовать для распознавания закономерностей в данных, обычно с целью выполнения классификации или регрессии.

Хотя случайные леса уже не являются передовыми технологиями машинного обучения — глубокое обучение превосходит их во многих, если не во всех ситуациях — всё же существуют определённые практические преимущества, связанные со случайными лесами, которые были отлично описаны Ахмедом Эль Дибом в The Unreasonable Effectiveness of Random Forests.

Действительно, когда Ахмед Эль Диб указывает, что очень сложно создать плохой случайный лес!, я полностью с этим согласен, и это представляет собой значительное практическое преимущество. В отличие от этого, модели глубокого обучения — скажем прямо, капризны, и множество неочевидных параметров могут либо улучшить, либо ухудшить производительность таким образом, который не всегда понятен специалисту по данным.

Таким образом, случайные леса теперь встроены в Envision. Плюс: прогнозы случайных лесов возвращаются в виде случайных переменных, что является удачным сочетанием для вероятностных подходов в оптимизации управления цепями поставок.

В основе нашей системы лежит собственная высоко оптимизированная реализация случайного леса. Мы позаимствовали множество идей из xgBoost. Главная идея заключается в том, что мы используем стратегию обработки данных в колоночном формате — в отличие от ранних подходов, которые были табличными. В контексте Envision этот подход даёт дополнительные преимущества в производительности, так как сами данные уже организованы в колоночном формате. Кроме того, в условиях управления цепями поставок входные признаки часто оказываются либо разреженными, либо имеют низкую кардинальность — например, товары с медленным оборотом. Колоночный подход позволяет нам значительно сжимать данные, что дополнительно ускоряет работу этих случайных лесов.

Более быстрые случайные леса могут показаться незначительной особенностью, однако производительность — это функция. Самым дефицитным ресурсом обычно является сам специалист по цепям поставок. Меньше времени, затраченного на ожидание результатов вычислений, означает больше времени, которое может быть уделено размышлениям и решению реальной проблемы управления цепями поставок.

Колонковый случайный лес

Больше записей

Вопрос?