Lorsqu’il s’agit d’analyse de données, les experts soulignent fréquemment (et à juste titre) l’importance de disposer d’un ensemble de données propre avant de commencer toute analyse. Sinon, vous vous retrouvez avec Garbage In, Garbage Out.

En conséquence, la plupart des kits d’outils de prévision offrent de nombreuses fonctionnalités pour soutenir le nettoyage / la préparation des données; et pourtant, Lokad ne propose aucune fonctionnalité explicite soutenant le nettoyage de données.

Avons-nous manqué quelque chose de GROS ici ?

Nous ne le pensons pas. Il existe quelques malentendus lorsqu’il s’agit du nettoyage de données dans le but de prévisions de ventes (à court terme). En effet, de nos jours, les ventes de la plupart des détaillants, grossistes, fabricants sont stockées soit dans un ERP, soit dans un système comptable. D’après notre expérience, dès 2010, les données transactionnelles associées aux ventes sont remarquablement propres. Si une transaction enregistrée le 1er novembre 2010 indique que le produit X a été vendu en quantité Y, alors la probabilité que cette information soit vraie est très élevée, avec une confiance supérieure à 99,9 % pour la plupart des processus de vente.

En effet, les entreprises ne peuvent pas se permettre de ne pas savoir ce qu’elles vendent. Par conséquent, d’énormes efforts ont été investis au cours des deux dernières décennies pour s’assurer vraiment que les données de vente soient fiables dans une certaine mesure. Nous ne disons pas qu’aucune saisie erronée de vente ne passe jamais dans le système, nous affirmons seulement que la proportion est généralement non significative.

Si les données de vente sont propres, pourquoi continuons-nous à investir des efforts dans le nettoyage de données ?

Nous avons observé de nombreuses pratiques de nettoyage de données dans l’industrie, et il s’avère que les opérations qualifiées de nettoyage tendent à être bien plus que la simple recherche des 0,1 % de transactions erronées. L’illustration ci-dessus donne quelques indications sur les opérations réelles impliquées dans une phase typique de nettoyage de données : il s’agit avant tout de d’aplanir les extrêmes. Par exemple, les ventes partielles lors de ruptures de stock sont manuellement majorées, et les ventes promotionnelles/exceptionnelles sont plafonnées.

Inutile de le dire, nous ne croyons pas à cette approche. Les données de vente réelles ne devraient pas être remplacées par des données de vente fictives. En effet, rien ne peut indiquer avec une certitude de 100 % combien de produits auraient été vendus s’il n’y avait pas eu de rupture. Les ventes partielles sont les seules données tangibles dont nous disposons qui ne reposent pas déjà sur une extrapolation statistique.

Pourtant, il existe un effet secondaire intéressant de la pratique d’aplanissement des extrêmes : l’aplanissement améliore la précision des méthodes de prévision naïves qui se comportent de manière très similaire à la moyenne mobile.

Il est tentant, si le seul outil que vous possédez est un marteau, de traiter tout comme s’il s’agissait d’un clou., Abraham Maslow, 1966

Essayer d’ajuster les données de vente pour mieux correspondre au seul modèle de prévision disponible n’est qu’un mauvais exemple de l’effet de la loi de l’instrument. Notre approche consiste à s’attaquer directement aux motifs complexes plutôt que d’essayer de les contourner.