Команда сотрудников Lokad, а именно Рафаэль де Резенде (лидер), Игнасио Марин Эйроа, Катарина Эгерт и Гильерме Томпсон 1, заняла 6-е место в соревновании по прогнозированию M5 среди 909 конкурирующих команд. Это впечатляющий результат, и я горжусь тем, что эта команда достигла таких высот. Создание культуры, ориентированной на количественные результаты, является долгосрочной целью Lokad, и результат этого соревнования показывает, насколько мы продвинулись на этом пути.

Lokad заняла 6-е место среди 909 команд в соревновании по прогнозированию M5

Насколько мне известно, впервые публичное соревнование по прогнозированию спроса [^forecasting competition] включало квантильные прогнозы, что напрямую связано с работой Lokad в 2012 году. Хотя академической науке потребовалось 8 лет, чтобы догнать квантили, это не делает этот достижение менее значимым. Обычные “классические” прогнозы практически бесполезны для управления цепями поставок. Квантильные прогнозы не являются конечной целью, но они работают там, где резервные запасы не справляются. Я считаю это значительным шагом в правильном направлении.

По результатам соревнования, команды с 1-го по 6-е место находятся в невероятной близости друг от друга. Команда, занявшая первое место 2, удалось немного опередить остальных. Однако мой опыт показывает, что даже для супербольшой розничной сети, такой как Walmart, снижение потерь pinball на 5% - метрики, которая может использоваться для оценки точности квантильных прогнозов - практически не заметно с точки зрения долларовой ошибки. На этом уровне точности модели прогнозирования практически эквивалентны, и другие аспекты (которые не были охвачены соревнованием M5) играют главную роль - такие как способность справляться с дефицитом товара, изменяющимися ассортиментами, каннибализацией, непостоянными сроками поставки и т.д. Эти проблемы имеют гораздо большее значение, чем несколько процентов потерь в pinball.

По модели, команда Lokad использовала низкоразмерную параметрическую модель, которая включала соответствующие цикличности (день недели, день месяца, месяц года) на уровне магазина/категории, базовую модель, устраняющую цикличности и шум от отсутствия товара, а также двухпараметрическую модель пространства состояний, преобразующую базовую модель в ежедневные траектории (с мультипликативными вкладами цикличностей). Также, как и победившая команда, Lokad не использовала данные о ценах и никакие внешние данные. Самой большой технической сложностью для команды Lokad оказалось прогнозирование отсутствия товара: это было упражнение по прогнозированию продаж, а не спроса. Об этом будет подробнее рассказано позже, когда мы вернемся к деталям этой модели.

В целом, если хорошо выбранная низкоразмерная параметрическая модель, подобная той, которую использовала Lokad в соревновании M5, может дать точность, отличающуюся на несколько процентов от метода последнего поколения - который, кстати, является градиентными деревьями с увеличенным диапазоном - то в производстве эта модель гарантированно будет намного более предсказуемой по сравнению с непараметрическими или гиперпараметрическими моделями и намного проще подвергаться структурным изменениям [^изменения].

Кроме того, производительность вычислений модели обычно является не слишком заметным операционным убийцей. Первая команда сообщила, что выполнение их прогноза занимает “несколько часов” (sic) на рабочей станции с 10+10 процессорами. Это может показаться быстрым, но следует помнить, что набор данных M5 состоял всего из 30 тыс. SKU, что очень мало по сравнению с количеством SKU в большинстве розничных сетей (несколько категорий в нескольких магазинах). Я оцениваю, что у Walmart есть более 100 млн SKU для управления в масштабе всей компании, поэтому мы говорим о десятках тысяч часов вычислений на один прогноз [^накладные расходы]. Розничные сети, которым обслуживает Lokad, обычно предоставляют окно в ~2 часа каждый день для обновления наших прогнозов, поэтому любые модели, которые мы выбираем, должны быть совместимы с этим графиком как для обучения, так и для прогнозирования [^изоляция]. Развертывание модели первой команды, конечно, возможно в масштабе Walmart, но управление кластером вычислений само по себе потребует отдельной команды.

Соревнование M5 было значительным улучшением по сравнению с предыдущими версиями. Однако набор данных все еще далек от реальной розничной ситуации. Например, информация о ценах была доступна только для прошлого. На практике акции не происходят случайно: они планируются. Поэтому, если бы данные о ценах были предоставлены для прогнозируемого периода, соревнование было бы направлено на модели, которые действительно используют эту информацию, а не отвергают ее сразу же.

Кроме будущих цен, из набора данных M5 отсутствовали два основных элемента: уровни запасов и детализированные транзакции, которые практически всегда доступны в розничных сетях. Уровни запасов имеют значение, потому что, очевидно, без товара нет продаж (цензурирование). Детализированные транзакции важны, потому что, по моему опыту, практически невозможно оценить любой вид каннибализма или замещения без них, в то время как небрежное наблюдение за розничными полками ясно указывает на то, что они играют большую роль. В модели, которую использовала команда Lokad, занявшая шестое место, ничего подобного не было, и в модели, занявшей первое место, тоже не было.

В заключение, это фантастический результат для Lokad. Хотя, безусловно, есть прогресс в направлении более реалистичных прогнозных соревнований, я бы настоятельно рекомендовал своим читателям не воспринимать эти результаты слишком буквально, M5 - это прогнозное соревнование. В реальном мире необходимо учитывать отсутствие товара на складе, запуск продукта, продвижение продукта, изменение ассортимента, проблемы с поставщиками, графики доставки и многое другое. Самая большая проблема заключается не в том, чтобы уменьшить ошибку на несколько процентов влево или вправо, а в том, чтобы убедиться, что числовой рецепт от начала до конца не имеет глупых слепых пятен, которые могут испортить всю инициативу по оптимизации цепи поставок.


  1. Технически сотрудник Lokad на момент соревнования. ↩︎

  2. Победительская команда включала в себя Northquay (псевдоним) и Расса Вольфингера. Их команда называлась Everyday Low SPLices для этого соревнования M5. Для ясности, я просто называю их здесь командой, занявшей первое место. ↩︎