Когда речь идет о анализе данных, эксперты часто подчеркивают (и справедливо) важность наличия чистого набора данных перед началом анализа. В противном случае, вы получаете мусор на выходе, если входные данные были некачественными.

В результате большинство инструментов прогнозирования предоставляют обширные возможности для поддержки очистки данных / подготовки данных; и тем не менее, Lokad не предоставляет никаких явных функций для поддержки очистки данных.

Мы что-то упустили ЗДЕСЬ?

Мы не считаем, что это так. Есть некоторые недоразумения, когда речь идет о очистке данных для целей (краткосрочного) прогнозирования продаж. Действительно, в настоящее время продажи большинства розничных торговцев, оптовиков, производителей хранятся в ERP или некоторой системе учета. По нашему опыту, начиная с 2010 года, транзакционные данные, связанные с продажами, являются замечательно чистыми. Если есть запись о транзакции 1 ноября 2010 года, указывающая, что продукт X был продан в количестве Y, то вероятность того, что эта информация верна, очень высока, с уверенностью более 99,9% для большинства процессов продаж.

Действительно, компании не могут позволить себе не знать, что они продают. В результате в последние два десятилетия были вложены огромные усилия, чтобы быть уверенными в надежности данных о продажах в некоторой степени. Мы не говорим, что в систему никогда не попадают ошибочные записи о продажах, мы только говорим, что их доля обычно незначительна.

Если данные о продажах чисты, зачем мы все еще тратим усилия на их очистку?

Мы наблюдали множество практик по очистке данных в индустрии, и оказалось, что операции, называемые очисткой, часто являются гораздо большими, чем просто поиском 0,1% ошибочных транзакций. Иллюстрация выше дает представление о фактических операциях, выполняемых в типичной фазе очистки данных: все дело в сглаживании крайних значений. Например, частичные продажи во время дефицита вручную увеличиваются, а акционные/исключительные продажи ограничиваются.

Само собой разумеется, мы не верим в такой подход. Реальные данные о продажах не должны заменяться фиктивными данными о продажах. Действительно, никто не может с уверенностью на 100% сказать, сколько продуктов было бы продано, если бы не было недостатка. Частичные продажи - это единственные конкретные данные, которые у нас есть и которые не основаны на статистической экстраполяции.

Однако есть один интересный побочный эффект практики сглаживания-крайних-значений: сглаживание улучшает точность наивных методов прогнозирования, которые ведут себя подобно скользящей средней.

Если у вас есть только молоток, то все кажется гвоздем., Абрахам Маслоу, 1966

Попытка привести данные о продажах в соответствие с единственной имеющейся моделью прогнозирования - это просто плохой случай закона инструмента. Наш подход заключается в непосредственном решении сложных паттернов вместо попыток обойти их.