Lorsqu’il s’agit danalyse de données, les experts soulignent fréquemment (et à raison) l’importance de disposer d’un jeu de données propre avant de commencer toute analyse. Sinon, on se retrouve avec Garbage In, Garbage Out.

En conséquence, la plupart des kits d’outils de prévision offrent des fonctionnalités étendues pour supporter le nettoyage des données / la préparation des données; et pourtant, Lokad ne fournit aucune fonctionnalité explicite pour le nettoyage des données.

Avons-nous manqué quelque chose de GRAND ici?

Nous ne le pensons pas. Il existe quelques malentendus en ce qui concerne le nettoyage des données dans le but de prévoir les ventes (court terme). En effet, de nos jours, les ventes de la plupart des détaillants, grossistes, fabricants sont enregistrées soit dans un ERP soit dans un système comptable. D’après notre expérience, dès 2010, les données transactionnelles associées aux ventes sont remarquablement propres. S’il existe une transaction enregistrée le 1er novembre 2010 indiquant que le produit X a été vendu en Y quantité, alors la probabilité que cette information soit vraie est très élevée, avec une confiance supérieure à 99,9% pour la plupart des processus de vente.

En effet, les entreprises ne peuvent pas se permettre de ne pas savoir ce qu’elles vendent. En conséquence, d’énormes efforts ont été investis au cours des deux dernières décennies pour s’assurer réellement que les données de ventes soient fiables dans une certaine mesure. Nous ne disons pas qu’aucune erreur dans l’enregistrement des ventes n’arrive jamais dans le système, nous disons seulement que la proportion est généralement négligeable.

Si les données de ventes sont propres, pourquoi continuons-nous à investir des efforts dans le nettoyage des données ?

Nous avons observé de nombreuses pratiques de nettoyage des données dans l’industrie, et il s’avère que les opérations désignées par nettoyage tendent à être bien plus que la simple recherche des 0,1% de transactions erronées. L’illustration ci-dessus donne quelques indications sur les opérations réelles impliquées dans une phase typique de nettoyage des données : il s’agit avant tout de lisser les extrêmes. Par exemple, les ventes partielles lors des ruptures de stock sont manuellement augmentées, et les ventes promotionnelles/exceptionnelles sont plafonnées.

Il va sans dire que nous ne sommes pas adeptes de cette approche. Les données de ventes réelles ne devraient pas être remplacées par des données de ventes fictives. En effet, rien ne peut indiquer avec une confiance de 100% combien de produits auraient été vendus s’il n’y avait pas eu de pénurie. Les ventes partielles sont les seules données tangibles dont nous disposons qui ne reposent pas déjà sur une extrapolation statistique.

Cependant, il existe un effet secondaire intéressant de la pratique du lissage des extrêmes : le lissage améliore la précision des méthodes de prévision naïves qui se comportent à l’instar de la moyenne mobile.

Il est tentant, si le seul outil dont vous disposez est un marteau, de traiter tout comme si c’était un clou., Abraham Maslow, 1966

Essayer d’ajuster les données de ventes pour mieux correspondre au seul modèle de prévision disponible n’est qu’un mauvais exemple de l’effet de l’outil unique. Notre approche consiste à s’attaquer directement aux motifs complexes au lieu de tenter de les contourner.