Il y a trois ans, nous avons publié [Le surajustement : quand la mesure de précision se trompe](/blog/2009/4/22/overfitting-when-accuracy-measure-goes-wrong/), cependant, le surajustement est loin d’être la seule situation où les mesures de précision simples peuvent être très trompeuses. Aujourd’hui, nous nous concentrons sur une situation très propice aux erreurs : la demande intermittente, qui est généralement rencontrée lorsqu’on examine les ventes au niveau du magasin (ou du commerce électronique).

Nous pensons que ce seul problème a empêché la plupart des détaillants de passer à des systèmes de prévision avancés au niveau du magasin. Comme pour la plupart des problèmes de prévision, c’est subtil, c’est contre-intuitif, et certaines entreprises facturent beaucoup pour apporter de mauvaises réponses à la question.

Illustration des ventes intermittentes

Les métriques d’erreur les plus populaires dans la prévision des ventes sont l’erreur absolue moyenne (MAE) et l’erreur absolue moyenne en pourcentage (MAPE). En règle générale, nous suggérons de privilégier la MAE, car la MAPE se comporte très mal lorsque les séries temporelles ne sont pas régulières, c’est-à-dire tout le temps, en ce qui concerne les détaillants. Cependant, il existe des situations où la MAE se comporte également mal. Les faibles volumes de vente entrent dans ces situations.

Examinons l’illustration ci-dessus. Nous avons un article vendu sur 3 jours. Le nombre d’unités vendues les deux premiers jours est zéro. Le troisième jour, une unité est vendue. Supposons que la demande soit en réalité exactement de 1 unité tous les 3 jours. Techniquement parlant, il s’agit d’une distribution de Poisson avec λ=1/3.

Dans ce qui suit, nous comparons deux modèles de prévision :

  • un modèle plat M à 1/3 chaque jour (la moyenne).
  • un modèle plat Z à zéro chaque jour.

En ce qui concerne l’optimisation des stocks, le modèle zéro (Z) est extrêmement préjudiciable. En supposant que l’analyse des stocks de sécurité sera utilisée pour calculer un point de réapprovisionnement, une prévision nulle est très susceptible de produire un point de réapprovisionnement nul, entraînant ainsi des ruptures de stock fréquentes. Une métrique de précision qui favoriserait le modèle zéro par rapport à des prévisions plus raisonnables se comporterait plutôt mal.

Examinons nos deux modèles par rapport à la MAPE (*) et à la MAE.

  • M a une MAPE de 44%.
  • Z a une MAPE de 33%.
  • M a une MAE de 0.44.
  • Z a une MAE de 0.33.

(*) La définition classique de la MAPE implique une division par zéro lorsque la valeur réelle est zéro. Nous supposons ici que la valeur réelle est remplacée par 1 lorsque celle-ci est nulle. Alternativement, nous aurions également pu diviser par la prévision (au lieu de la valeur réelle), ou utiliser la sMAPE. Ces changements ne font aucune différence : la conclusion de la discussion reste la même.

En conclusion, ici, selon la MAPE et la MAE, le modèle zéro l’emporte.

Cependant, on pourrait soutenir que cette situation est simpliste et ne reflète pas la complexité d’un vrai magasin. Ce n’est pas tout à fait vrai. Nous avons réalisé des comparaisons sur des dizaines de magasins de détail, et généralement le modèle gagnant (selon la MAE ou la MAPE) est le modèle zéro - le modèle qui renvoie toujours zéro. De plus, ce modèle l’emporte généralement avec une marge confortable sur tous les autres modèles.

En pratique, au niveau du magasin, se fier à la MAE ou à la MAPE pour évaluer la qualité des modèles de prévision est demander des ennuis : la métrique favorise les modèles qui renvoient des zéros ; plus il y a de zéros, mieux c’est. Cette conclusion s’applique à presque tous les magasins que nous avons analysés jusqu’à présent (à l’exception des quelques articles à fort volume qui ne souffrent pas de ce problème).

Les lecteurs familiers des métriques de précision pourraient proposer d’utiliser plutôt l’erreur quadratique moyenne (MSE) qui ne favorisera pas le modèle zéro. C’est vrai, cependant, le MSE lorsqu’il est appliqué à des données erratiques - et les ventes au niveau du magasin sont erratiques - n’est pas numériquement stable. En pratique, tout écart dans l’historique des ventes faussera considérablement les résultats finaux. Ce genre de problème est LA raison pour laquelle les statisticiens ont travaillé si dur sur les statistiques robustes en premier lieu. Pas de repas gratuit ici.

Comment évaluer les prévisions au niveau du magasin alors ?

Il nous a fallu beaucoup, beaucoup de temps pour trouver une solution satisfaisante au problème de quantification de l’exactitude des prévisions au niveau du magasin. Avant 2011, nous trichions essentiellement. Au lieu de regarder les points de données quotidiens, lorsque les données de vente étaient trop rares, nous passions généralement à des agrégats hebdomadaires (voire mensuels pour des données extrêmement rares). En passant à des périodes d’agrégation plus longues, nous augmentions artificiellement les volumes de vente par période, rendant ainsi la MAE utilisable à nouveau.

La percée est survenue il y a seulement quelques mois grâce aux quantiles. En essence, l’illumination était : oubliez les prévisions, seuls les points de réapprovisionnement comptent. En essayant d’optimiser nos prévisions classiques en fonction des métriques X, Y ou Z, nous essayions de résoudre le mauvais problème.

Attendez ! Puisque les points de réapprovisionnement sont calculés en fonction des prévisions, comment pouvez-vous dire que les prévisions sont sans importance ?

Nous ne disons pas que les prévisions et l’exactitude des prévisions sont sans importance. Cependant, nous affirmons que seule l’exactitude des points de réapprovisionnement eux-mêmes compte. La prévision, ou toute autre variable utilisée pour calculer les points de réapprovisionnement, ne peut pas être évaluée seule. Seule l’exactitude des points de réapprovisionnement doit et devrait être évaluée.

Il s’avère qu’une métrique pour évaluer les points de réapprovisionnement existe : c’est la fonction de perte flippeur, une fonction connue des statisticiens depuis des décennies. La fonction de perte flippeur est largement supérieure non pas en raison de ses propriétés mathématiques, mais simplement parce qu’elle correspond au compromis des stocks : trop de stocks par rapport à trop de ruptures de stock.