С момента нашего крупного обновления Тегов+Событий прошлой осенью, мы активно работаем над прогнозированием продвижения для розницы. У нас теперь тысячи мероприятий по продвижению в наших базах данных; и анализ этих событий привел нас к очень интересным результатам.

Также неудивительно, что:

  • прогнозы продвижения, выполненные вручную практикующими, обычно сопряжены с ошибками прогнозирования более 60% в среднем. Ваш опыт может отличаться, но типичные ошибки прогнозирования продаж в рознице обычно ближе к 20%.
  • включение данных о продвижении через теги и события снижает среднюю ошибку прогнозирования примерно на 50%. Опять же, ваш опыт может отличаться в зависимости от объема данных о ваших мероприятиях по продвижению.

Как менее интуитивный результат, мы также обнаружили, что методы на основе правил и линейные методы, хотя и широко рекламируются некоторыми экспертами и некоторыми программными инструментами, очень слабы против переобучения, и могут исказить оценку ошибки прогнозирования, приводя к ложному впечатлению о производительности в прогнозировании продвижения.

Также обратите внимание, что это улучшение на 50% было достигнуто обычно с довольно ограниченным количеством информации, обычно не более 2 или 3 бинарных дескрипторов на продвижение.

Даже грубые данные о ваших продвижениях приводят к значительному улучшению прогнозов, что приводит к значительным экономиям оборотного капитала.

Первый шаг к улучшению ваших прогнозов продвижения состоит в сборе точных данных о продвижении. По нашему опыту, этот шаг является самым сложным и самым затратным. Если у вас нет точных записей о ваших продвижениях, то мало надежды получить точные прогнозы. Как говорят, мусор на входе, мусор на выходе.

Тем не менее, мы заметили, что даже один дескриптор продвижения, бинарная переменная, которая просто указывает, продвигается ли в данный момент товар или нет, может привести к значительному улучшению прогноза. Таким образом, хотя ваши записи должны быть точными, они не должны быть подробными для улучшения ваших прогнозов.

Поэтому мы советуем вам точно отслеживать время ваших продвижений: когда они начались? когда они закончились? Обратите внимание, что для электронной коммерции отображение на главной странице часто имеет эффект, сравнимый с продвижением товара, поэтому вам нужно отслеживать эволюцию вашей главной страницы.

Затем описание товара имеет значение. Действительно, по нашему опыту, даже самые часто продвигаемые товары не будут иметь более десятка продвижений за время их существования на рынке. В среднем количество известных прошлых продвижений для данного товара смехотворно низкое, варьируя от нуля до одного прошлого продвижения в среднем. В результате, нельзя ожидать надежных результатов, сосредотачиваясь на прошлых продвижениях по одному продукту, потому что, большую часть времени их просто нет.

Поэтому вам нужно сосредоточиться на товарах, похожих на товар, который вы планируете продвигать. С Lokad вы можете сделать это, ассоциируя теги со своими продажами. Обычно розничные компании используют иерархию для организации своего каталога. Представьте себе иерархию товаров семейств, подсемейств, товаров, вариантов и т. д.

Преобразование иерархического каталога в теги можно сделать довольно просто, следуя процессу, иллюстрированному ниже для вымышленного продавца конфет:

Теги, связанные с историей продаж средних лимонных леденцов, будут LOLLIPOPS, LEMON, MEDIUM

Этот процесс обычно создает от 2 до 6 тегов на товар в вашем каталоге - в зависимости от сложности вашего каталога.

Мы сказали, что даже очень ограниченная информация о ваших акциях может быть использована для улучшения ваших прогнозов продаж немедленно. Тем не менее, более детальная информация о акциях явно улучшает точность прогноза.

Мы обнаружили, что два элемента очень ценны для улучшения точности прогноза:

  • механизм, описывающий характер предлагаемой скидки вашим клиентам. Типичные механизмы - фиксированная скидка (например, -20%), но существует множество других механизмов, таких как бесплатная доставка или скидка при покупке большего количества (например, купи один и получи второй бесплатно).
  • коммуникация, описывающая, как ваши клиенты уведомляются о акционном событии. Обычно коммуникация включает маркетинговые операции, такие как радио, газеты или местные объявления, а также индивидуальную упаковку (если есть) и видимость продвигаемых товаров в точках продаж.

В случае крупных сетей распространения также следует описать общую доступность акции, если товары не продвигаются повсюду. Такая ситуация обычно возникает, если менеджеры точек продаж могут отказаться от акционных операций.

Общение с профессионалами показало, что многие розничные компании ожидают, что Lokad создаст набор правил; и эти правила должны объяснять акции, такие как

ЕСЛИ ТВ_РЕКЛАМА И СКИДКА25_ПРОЦЕНТОВ 
ТОГДА ПРОДАЖИ_АКЦИИ = 5 * ОБЫЧНЫЕ_ПРОДАЖИ;

В основном, эти ожидаемые правила всегда следуют более или менее одним и тем же шаблонам:

  • Набор бинарных условий, определяющих область действия правила.
  • Набор линейных коэффициентов для оценки эффекта правила.

Мы обнаружили, что на рынке программного обеспечения доступно множество инструментов, которые помогут вам обнаружить эти правила в ваших данных; что, кажется, заставило многих людей верить, что этот подход является единственно возможным.

Однако, согласно нашим экспериментам, методы на основе правил далеки от оптимальных. Более того, эти правила действительно слабы против переобучения. Эта слабость часто приводит к болезненным ситуациям, когда есть значительный разрыв между оцененной точностью прогноза и реальной точностью прогноза.

Переобучение - очень тонкое, и в то же время очень важное, явление в статистическом прогнозировании. В основном, центральная проблема в прогнозировании заключается в том, что вы хотите построить модель, которая очень точно предсказывает данные, которых у вас нет.

В частности, статистическая теория показывает, что возможно построить модели, которые оказываются очень точными, когда применяются к историческим данным, и все же очень неточными для прогнозирования будущего. Проблема заключается в том, что на практике, если вы не тщательно продумаете проблему переобучения заранее, построение такой модели не является просто возможностью, а наиболее вероятным результатом вашего процесса.

Таким образом, вам действительно нужно оптимизировать свою модель по данным, которых у вас нет. Однако, эта проблема выглядит как полный парадокс, потому что, по определению, вы не можете измерить ничего, если у вас нет соответствующих данных. И мы обнаружили, что многие специалисты отказались от этой проблемы, потому что это все равно не выглядит как разрешимая проблема.

Наш совет: НЕ СДАВАЙТЕСЬ

Основная проблема с этими правилами заключается в том, что они слишком хорошо работают на исторических данных. Каждое правило, которое вы добавляете, механически уменьшает прогностическую ошибку, которую вы измеряете на ваших исторических данных. Если вы добавите достаточно правил, вы получите видимую практически нулевую ошибку прогнозирования. Однако эмпирическая ошибка, которую вы измеряете на ваших исторических данных, является артефактом процесса, используемого для построения правил в первую очередь. Нулевая ошибка прогнозирования на исторических данных не переводится в нулевую ошибку прогнозирования на будущие продвижения. На самом деле, такие модели склонны к очень плохим результатам на будущие продвижения.

Хотя оптимизация для данных, которых у вас нет, сложная задача, статистическая теория обучения предлагает как теоретическое понимание, так и практические решения этой проблемы. Центральная идея заключается во введении понятия минимизации структурного риска, которое балансирует эмпирическую ошибку.

Об этом будет рассказано в следующем посте, следите за обновлениями.

(Бесстыжая реклама) Многие из этих современных решений, т.е. математические модели, которые осторожно относятся к проблеме переобучения, были реализованы Lokad, так что вам не нужно нанимать команду экспертов, чтобы воспользоваться ими.


Комментарии читателей (1)

Обработка данных о сигналах спроса вызывает те же проблемы, что и данные в реальном времени, в любой отрасли: как получить доступ и интегрировать большие объемы данных, а затем объединить и проанализировать их наряду с исторической информацией. Бизнес-возможности (9 лет назад)