Когда речь заходит об анализе данных, эксперты часто подчеркивают (и не зря) важность наличия чистого набора данных перед началом любого анализа. В противном случае вы получите Garbage In, Garbage Out.

В результате, большинство инструментов прогнозирования предоставляют обширные возможности для поддержки очистки данных / подготовки данных; и все же, Lokad не предоставляет никаких явных функций для поддержки очистки данных.

Не упустили ли мы что-то ВАЖНОЕ здесь?

Мы считаем иначе. Существует некоторое недопонимание в отношении очистки данных для целей (краткосрочного) прогнозирования продаж. Действительно, в настоящее время продажи большинства розничных продавцов, оптовиков и производителей хранятся либо в ERP, либо в какой-либо бухгалтерской системе. По нашему опыту, начиная с 2010 года, транзакционные данные, связанные с продажами, удивительно чистые. Если зафиксирована транзакция 1 ноября 2010 года, указывающая, что продукт X был продан в объеме Y, то вероятность того, что эта информация верна, чрезвычайно высока, с доверием свыше 99.9% для большинства процессов продаж.

Действительно, компаниям не может позволить себе не знать что они продают. В результате, за последние два десятилетия были вложены огромные усилия, чтобы убедиться, что данные о продажах надежны в определенной степени. Мы не утверждаем, что в систему никогда не попадают ошибочные записи о продажах, мы лишь говорим, что их доля, как правило, незначительна.

Если данные о продажах чистые, зачем нам все еще прилагать усилия к их очистке?

Мы наблюдали за множеством практик очистки данных в индустрии, и оказалось, что операции, называемые очисткой, охватывают гораздо больше, чем фактический поиск 0.1% ошибочных транзакций. Приведенная выше иллюстрация дает представление о реальных операциях, связанных с типичной фазой очистки данных: все сводится к смягчению крайностей. Например, частичные продажи во время дефицита вручную увеличиваются, а промоционные/исключительные продажи ограничиваются.

Несомненно, мы не сторонники этого подхода. Реальные данные о продажах не должны заменяться фиктивными данными о продажах. Действительно, ничто не может с уверенностью 100% сказать, сколько товаров было бы продано, если бы не было дефицита. Частичные продажи – это единственные осязаемые данные, которые у нас есть и которые не основаны на статистической экстраполяции.

Тем не менее, существует один интересный побочный эффект практики смягчения крайностей: смягчение улучшает точность наивных методов прогнозирования, которые ведут себя примерно как скользящая средняя.

Если все, что у вас есть, — молоток, то всё выглядит как гвоздь., Абрахам Маслоу, 1966

Попытки подогнать данные о продажах под единственную имеющуюся модель прогнозирования – это просто плохой пример применения Закона инструмента. Наш подход заключается в прямом решении сложных закономерностей вместо попыток обойти их.