Falacias en la limpieza de datos para el forecast de ventas (a corto plazo)
Cuando se trata de análisis de datos, los expertos frecuentemente enfatizan (y con razón) la importancia de contar con un conjunto de datos limpio antes de iniciar cualquier análisis. De lo contrario, se termina con Garbage In, Garbage Out.
Como resultado, la mayoría de los toolkits de forecast ofrece amplias funciones para soportar la limpieza de datos / la preparación de datos; y sin embargo, Lokad no proporciona ninguna función explícita que soporte la limpieza de datos.

¿Hemos pasado por alto algo GRANDE aquí?
No lo creemos así. Existen algunos malentendidos en lo que respecta a la limpieza de datos con el propósito de forecast de ventas (a corto plazo). De hecho, hoy en día, las ventas de la mayoría de minoristas, mayoristas y fabricantes se almacenan en un ERP o en algún sistema de contabilidad. Según nuestra experiencia, a partir de 2010, los datos transaccionales asociados a las ventas son notablemente limpios. Si se registra una transacción el 1 de noviembre de 2010 indicando que el producto X se ha vendido en Y cantidad, entonces, la probabilidad de que esta información sea cierta es muy alta, con una confianza superior al 99,9% para la mayoría de los procesos de ventas.
De hecho, las empresas no pueden permitirse no saber lo que están vendiendo. Como resultado, se han invertido esfuerzos masivos en las últimas dos décadas para asegurarse realmente de que los datos de ventas sean confiables hasta cierto punto. No estamos diciendo que nunca se ingrese en el sistema alguna entrada de ventas errónea, solo decimos que la proporción es típicamente insignificante.
Si los datos de ventas son limpios, ¿por qué seguimos impulsando esfuerzos en la limpieza de datos?
Hemos estado observando muchas prácticas de limpieza de datos en la industria, y resulta que las operaciones denominadas limpieza tienden a abarcar mucho más que simplemente buscar el 0.1% de las transacciones erróneas. La ilustración de arriba da algunas ideas sobre las operaciones reales involucradas en una fase típica de limpieza de datos: se trata de suavizar los extremos. Por ejemplo, las ventas parciales durante faltante de stock se incrementan manualmente, y las ventas promocionales/exceptionales se limitan.
Ni que decir tiene que no somos partidarios de este enfoque. Los datos reales de ventas no deberían ser reemplazados por datos ficticios. De hecho, nada puede decir con un 100% de confianza cuántos productos se habrían vendido si no hubiera habido ningún faltante de stock. Las ventas parciales son los únicos datos tangibles que tenemos y que no dependen ya de la extrapolación estadística.
Sin embargo, hay un efecto secundario interesante de la práctica de suavizar-los-extremos: suavizar mejora la precisión de los métodos naive de forecast que se comportan de manera muy similar al promedio móvil.
Es tentador, si la única herramienta que tienes es un martillo, tratar todo como si fuera un clavo., Abraham Maslow, 1966
Intentar ajustar los datos de ventas para que se adapten mejor al único modelo de forecast disponible es simplemente un mal caso de la Ley de la herramienta. Nuestro enfoque consiste en abordar directamente los patrones complejos en lugar de tratar de esquivarlos.