Cuando se trata de análisis de datos, los expertos enfatizan con frecuencia (y con razón) la importancia de tener un conjunto de datos limpio antes de comenzar cualquier análisis. De lo contrario, terminarás con Basura de Entrada, Basura de Salida.

Como resultado, la mayoría de los conjuntos de herramientas de pronóstico proporcionan amplias funciones para admitir la limpieza de datos / preparación de datos; y sin embargo, Lokad no proporciona ninguna función explícita que admita la limpieza de datos.

¿Hemos pasado por alto algo IMPORTANTE aquí?

No creemos que sea así. Hay algunos malentendidos cuando se trata de la limpieza de datos con fines de pronóstico de ventas (a corto plazo). De hecho, en la actualidad, las ventas de la mayoría de los minoristas, mayoristas y fabricantes se almacenan en un ERP o algún sistema de contabilidad. En nuestra experiencia, a partir de 2010, los datos transaccionales asociados a las ventas son notablemente limpios. Si hay una transacción registrada el 1 de noviembre de 2010 que indica que se ha vendido el producto X en una cantidad Y, entonces la probabilidad de que esta información sea verdadera es muy alta, con una confianza superior al 99,9% para la mayoría de los procesos de ventas.

De hecho, las empresas no pueden permitirse no saber lo que están vendiendo. Como resultado, se han invertido grandes esfuerzos en las últimas dos décadas para asegurarse de que los datos de ventas sean confiables en cierta medida. No estamos diciendo que ninguna entrada de venta errónea nunca ingrese al sistema, solo estamos diciendo que la proporción es típicamente no significativa.

Si los datos de ventas están limpios, ¿por qué seguimos esforzándonos en la limpieza de datos?

Hemos estado observando muchas prácticas de limpieza de datos en la industria, y resulta que las operaciones denominadas limpieza tienden a ser mucho más que simplemente buscar el 0,1% de transacciones erróneas. La ilustración anterior proporciona información sobre las operaciones reales involucradas en una fase típica de limpieza de datos: se trata de suavizar los extremos. Por ejemplo, las ventas parciales durante desabastecimientos se incrementan manualmente y las ventas promocionales/excepcionales se limitan.

No hace falta decir que no creemos en este enfoque. Los datos de ventas reales no deben ser reemplazados por datos de ventas ficticios. De hecho, nada puede decir con un 100% de confianza cuántos productos se habrían vendido si no hubiera habido ningún desabastecimiento. Las ventas parciales son los únicos datos tangibles que tenemos que no se basan en una extrapolación estadística.

Sin embargo, hay un efecto secundario interesante de la práctica de suavizar_los_extremos: la suavización mejora la precisión de los métodos de pronóstico ingenuos que se comportan de manera similar al promedio móvil.

Es tentador, si la única herramienta que tienes es un martillo, tratar todo como si fuera un clavo., Abraham Maslow, 1966

Intentar ajustar los datos de ventas para que se ajusten mejor al único modelo de pronóstico disponible es simplemente un mal caso de la Ley del instrumento. Nuestro enfoque consiste en abordar directamente los patrones complejos en lugar de tratar de evitarlos.