Планирование акций в розничной торговле – Проблемы с данными

Прогнозирование почти всегда является сложной задачей, но есть одна область в розничной торговле товарами, которая считается на порядок более сложной, чем остальные: планирование акций. В Lokad, планирование акций является одной из частых задач, с которыми мы сталкиваемся для наших крупнейших клиентов, обычно посредством специализированных Big Data проектов.
Этот пост — первый в серии о планировании акций. Мы рассмотрим различные проблемы, с которыми сталкиваются розничные сети при прогнозировании спроса на акции, и поделимся некоторыми решениями, которые мы предлагаем.
Первая проблема, с которой сталкиваются розничные сети при проведении акций, — это качество данных. Эта проблема обычно значительно недооценивается как средними, так и крупными ритейлерами. Однако без высококачественных данных о прошлых акциях вся инициатива планирования сталкивается с проблемой «мусор на входе – мусор на выходе».
Проблемы качества данных в записях об акциях
Качество данных по акциям обычно низкое — или, по крайней мере, намного хуже, чем качество обычных данных о продажах. Запись об акции, на самом детализированном уровне, представляет собой идентификатор товара, идентификатор магазина, дату начала (и дату окончания), а также все параметры, описывающие саму акцию.
Эти записи об акциях имеют многочисленные проблемы:
- Записи существуют, но магазин не полностью реализовал план акции, особенно в отношении выкладки товара.
- Записи существуют, но акция так и не состоялась ни в одном магазине сети. Действительно, условия акций обычно оговариваются с поставщиками за 3-6 месяцев до их проведения. Иногда сделка отменяется за несколько недель до начала, однако соответствующие данные об акции так и не очищаются.
- Неофициальные инициативы магазинов, такие как перемещение товара с избытком на полки в конце прохода, не фиксируются. Выкладка товара является одним из самых сильных факторов, влияющих на рост продаж при акциях, и не должна недооцениваться.
- Детали механизмов проведения акции записываются не точно. Например, наличие индивидуальной упаковки и структурированное описание упаковки редко сохраняются.
После наблюдения подобных проблем в наборах данных многих ритейлеров, мы пришли к выводу, что объяснение простое: нет операционных стимулов для исправления записей об акциях. Действительно, если данные о продажах ошибочны, это вызывает так много операционных и бухгалтерских проблем, что исправление становится приоритетом номер один очень быстро.
В отличие от этого, записи об акциях могут оставаться крайне неточными в течение многих лет. Пока никто не пытается создать какой-либо прогнозирующий алгоритм на основе этих записей, их неточность оказывает незначительное негативное влияние на работу розничных сетей.
Основное решение этих проблем с качеством данных — это процессы контроля качества данных, и эмпирическая проверка того, насколько устойчивы эти процессы при реальных условиях работы магазина.
Однако, даже лучший процесс не может исправить поврежденные исторические данные. Поскольку для получения приличных результатов обычно требуется 2 года качественных данных об акциях, важно инвестировать рано и агрессивно в историзацию записей об акциях.
Структурные проблемы данных
Помимо проблем с записями об акциях, точное планирование акций также страдает от более широких и коварных проблем, связанных со способом сбора информации в ритейле.
Обрезка истории: Большинство ритейлеров не сохраняют бесконечно свои исторические данные о продажах. Обычно «старые» данные удаляются по двум правилам:
- если запись старше 3 лет, то её удаляют.
- если товар не продавался в течение 1 года, то товар удаляется, а также все связанные записи о продажах.
Очевидно, что в зависимости от ритейлера пороговые значения могут различаться, но, несмотря на то, что большинство крупных ритейлеров существует десятилетиями, найти историю продаж за 5 лет без обрезки — редкость. Такая обрезка обычно основана на двух ложных предпосылках:
- хранение старых данных дорого: Хранение всех 10-летних данных о продажах (до уровня чеков) Walmart – а ваша компания, безусловно, меньше Walmart – может обойтись в менее 1000 USD в месяц. Хранение данных не только невероятно дёшево сейчас, но и 10 лет назад было невероятно дёшево, если говорить о розничных сетях.
- старые данные не имеют значения: Хотя 10-летние данные, безусловно, не служат операционным целям, с точки зрения статистики даже 10-летние данные могут быть полезны для улучшения анализа многих задач. Проще говоря, длинная история предоставляет гораздо больше возможностей для проверки эффективности прогнозирующих моделей и для избегания проблем переобучения.
Замена GTIN на внутренние коды товаров: Многие ритейлеры сохраняют свою историю продаж с использованием альтернативных идентификаторов товаров вместо нативных GTIN (также известных как UPC или EAN13, в зависимости от того, находитесь ли вы в Северной Америке или Европе). При замене GTIN на специально разработанные идентификационные коды часто считают, что таким образом становится проще отслеживать замены GTIN и избегать сегментированной истории.
Тем не менее, замены GTIN не всегда точны, и неправильные записи практически невозможно обнаружить. Что ещё хуже, как только два GTIN объединяются, предыдущие данные теряются: восстановить два оригинальных набора записей о продажах становится невозможно.
Лучшей практикой является сохранение записей GTIN, поскольку GTIN отражают физическую реальность информации, собираемой системой POS (точкой продаж). Затем подсказки для замен GTIN должны храниться отдельно, что позволит при необходимости пересмотреть ассоциации.
Неполное сохранение информации об упаковке: В продовольственном ритейле многие продукты предлагаются в различных форматах: от индивидуальных порций до семейных наборов, от отдельных бутылок до упаковок, от стандартного формата до промо-формата с увеличенным размером на +25% и т.д.
Сохранение информации о таких форматах важно, потому что для многих покупателей альтернативный формат того же продукта часто является хорошей заменой, если другой формат отсутствует.
Опять же, хотя может возникнуть соблазн объединить данные о продажах в некий мета-GTIN, где все варианты размеров объединены, возможны исключения, и не все размеры являются равнозначными заменами (например: 18 г Nutella против 5 кг Nutella). Поэтому информация об упаковке должна сохраняться, но отделяться от необработанных данных о продажах.
Качество данных — весьма прибыльное вложение
Качество данных — одна из немногих областей, где инвестиции, как правило, окупаются в десять раз в розничной торговле. Более качественные данные улучшают все последующие результаты, от самых наивных до самых продвинутых методов. В теории качество данных должно страдать от эффекта убывающей отдачи, однако наши наблюдения показывают, что, за исключением нескольких растущих звезд онлайн-торговли, большинству ритейлеров еще далеко до того, чтобы инвестиции в улучшение качества данных не приносили огромной прибыли.
Таким образом, в отличие от создания сложных предиктивных моделей, улучшение качества данных не требует сложных технологий, а лишь большого здравого смысла и сильного чувства простоты.
Оставайтесь с нами, в следующий раз мы обсудим проблемы процессов при планировании акций.