Лучшие прогнозы продвижения в розничной торговле
Начиная с нашего масштабного обновления Тегов+Событий прошлой осенью, мы активно занимаемся прогнозированием промо-акций для розничной торговли. В нашей базе данных теперь содержится информация о тысячах промо-акций, анализ которых привел нас к весьма интересным выводам.
И, неудивительно, мы обнаружили, что:
- прогнозы промо-акций, выполняемые вручную специалистами, обычно сопровождаются ошибками прогнозирования свыше 60% в среднем. Результаты могут варьироваться, но типичные ошибки прогноза продаж в розничной торговле обычно ближе к 20%.
- учет данных о промо-акциях посредством тегов и событий снижает среднюю ошибку прогноза примерно на 50%. Опять же, результаты могут варьироваться в зависимости от объема данных о ваших промо-акциях.
В качестве менее интуитивного результата, мы также обнаружили, что методы, основанные на правилах, и линейные методы, хотя и широко рекламируются некоторыми экспертами и программными средствами, очень слабы в борьбе с переобучением, и могут искажать оценку ошибок прогнозирования, создавая ложное впечатление о качестве прогнозирования промо-акций.
Также отмечаем, что это 50%-ное улучшение было достигнуто при использовании, как правило, довольно ограниченного объема информации — обычно не более 2 или 3 бинарных признаков для каждой промо-акции.
Даже упрощенные данные о ваших промо-акциях приводят к значительным улучшениям прогноза, что влечет за собой существенную экономию оборотного капитала.
Первый шаг к улучшению ваших прогнозов промо-акций заключается в сборе точных данных о промо-акциях. По нашему опыту, этот шаг является самым сложным и дорогостоящим. Если у вас нет точной записи ваших промо-акций, то маловероятно получение точных прогнозов. Как говорится, “мусор на входе – мусор на выходе”.
Тем не менее, мы заметили, что даже один единственный признак промо-акции, бинарная переменная, которая просто указывает, что товар в данный момент продвигается или нет, может привести к значительному улучшению прогноза. Таким образом, хотя ваши записи должны быть точными, они не обязаны быть детальными для улучшения ваших прогнозов.
Поэтому мы советуем вам точно отслеживать время проведения ваших промо-акций: когда они начинаются? когда заканчиваются? Обратите внимание, что для электронной коммерции отображение на главной странице часто оказывает эффект, сопоставимый с промо-акцией товара, поэтому вам необходимо отслеживать эволюцию вашей главной страницы.
Кроме того, описание товара имеет значение. Действительно, по нашему опыту, даже самые часто продвигаемые товары не будут иметь более десятка промо-акций за всё время их нахождения на рынке. В среднем, количество известных прошлых промо-акций для конкретного товара крайне низко, варьируясь от нуля до одной прошлой промо-акции в среднем. В результате, вы не можете ожидать надёжных результатов, если будете сосредотачиваться на прошлых промо-акциях для одного товара за раз, поскольку, как правило, их просто не бывает.
Таким образом, вам необходимо сфокусироваться на товарах, похожих на тот, который вы планируете продвигать. С помощью Lokad вы можете сделать это, сопоставив теги вашим продажам. Обычно ритейлеры используют иерархию для организации своего каталога. Подумайте об иерархии товаров с категориями, подкатегориями, товарами, вариантами и т.д.
Преобразование иерархического каталога в теги можно выполнить довольно просто, следуя процессу, описанному ниже для вымышленного продавца конфет:

Теги, связанные с историей продаж средних лимонных леденцов на палочке, будут: LOLLIPOPS, LEMON, MEDIUM
Этот процесс, как правило, создаст от 2 до 6 тегов для каждого товара в вашем каталоге — в зависимости от сложности вашего каталога.
Мы уже говорили, что даже очень ограниченная информация о ваших промо-акциях может быть использована для немедленного улучшения прогноза продаж. Однако, более подробная информация о промо-акциях явно улучшает точность прогноза.
Мы обнаружили, что два элемента являются очень ценными для повышения точности прогноза:
- механизм, описывающий характер скидки, предлагаемой вашим клиентам. Типичные механизмы — это фиксированная скидка (например, -20%), но существуют и другие механизмы, такие как бесплатная доставка или скидка при покупке больших объёмов (например, купи один — получи один бесплатно).
- канал коммуникации, описывающий, как ваши клиенты узнают о промо-акции. Как правило, коммуникация включает маркетинговые операции, такие как реклама на радио, в газетах или местных объявлениях, а также фирменная упаковка (если имеется) и видимость продвигаемых товаров в точках продаж.
В случае более крупных дистрибьюторских сетей, общая доступность промо-акции также должна быть описана, если товары продвигаются не повсеместно. Такая ситуация обычно возникает, если менеджеры точек продаж могут отказаться от участия в промо-акциях.
Обсуждая с профессионалами, мы обнаружили, что многие ритейлеры ожидают, что Lokad сформирует набор правил, которые должны объяснять промо-акции, такие как
ЕСЛИ TV_ADS И PERCENT25_DISCOUNT
ТОГДА PROMO_SALES = 5 * REGULAR_SALES;
В принципе, эти ожидаемые правила всегда следуют более или менее одним и тем же шаблонам:
- Набор бинарных условий, определяющих область применения правила.
- Набор линейных коэффициентов для оценки влияния правила.
Мы обнаружили, что на программном рынке существует множество инструментов, которые помогут вам обнаружить эти правила в ваших данных; что, по всей видимости, заставило многих поверить, что этот подход является единственно возможным.
Однако, согласно нашим экспериментам, методы, основанные на правилах, далеки от оптимальных. Что еще хуже, эти правила действительно слабы в борьбе с переобучением. Эта слабость часто приводит к неприятным ситуациям, когда существует значительный разрыв между оцененной точностью прогноза и реальной точностью прогноза.
Переобучение — это очень тонкое, но в то же время очень важное явление в статистическом прогнозировании. По сути, центральная проблема прогнозирования заключается в том, что вы хотите построить модель, которая будет очень точной на данных, которых у вас нет.
В частности, статистическая теория указывает, что можно построить модели, которые оказываются очень точными при применении к историческим данным, но при этом крайне неточными в прогнозировании будущего. Проблема в том, что на практике, если вы не обдумаете проблему переобучения заранее, построение такой модели не является просто возможностью, а наиболее вероятным результатом вашего процесса.
Таким образом, вам действительно нужно оптимизировать вашу модель с учетом данных, которых у вас нет. Однако эта проблема выглядит как полный парадокс, потому что, по определению, вы не можете измерить то, чего нет. И мы обнаружили, что многие профессионалы отказались от решения этой задачи, поскольку она вообще не кажется выполнимой.
Наш совет: НЕ СДАВАЙТЕСЬ
Основная проблема этих правил заключается в том, что они слишком хорошо работают на исторических данных. Каждое новое правило механически снижает ошибку прогноза, которую вы измеряете на исторических данных. Если добавить достаточно правил, вы получите кажущийся почти нулевой ошибку прогноза. Однако эмпирическая ошибка, которую вы измеряете на исторических данных, является артефактом процесса, использованного для построения правил изначально. Нулевая ошибка прогноза на исторических данных не выливается в нулевую ошибку прогноза для будущих промо-акций. Напротив, такие модели, как правило, показывают очень плохие результаты в будущем.
Хотя оптимизация для данных, которых у вас нет сложна, теория статистического обучения предлагает как теоретическое понимание, так и практические решения этой проблемы. Центральная идея заключается во введении понятия минимизации структурного риска, которое уравновешивает эмпирическую ошибку.
Об этом будет рассказано в последующем посте, следите за обновлениями.
(Беспардонная реклама) Многие из этих современных решений, то есть математические модели, которые учитывают проблему переобучения, были реализованы компанией Lokad, чтобы вам не пришлось нанимать команду экспертов для их использования.
Комментарии читателей (1)
Обработка данных о спросе представляет те же проблемы, что данные в реальном времени создают в любой отрасли: как получить доступ и интегрировать большие объемы данных, а затем комбинировать и анализировать их вместе с исторической информацией.
Business Opportunities (9 years ago)