Prévision probabiliste (Supply Chain)

learn menu
Par Joannes Vermorel, novembre 2020

Une prévision est dite probabiliste, au lieu d’être déterministe, si elle contient un ensemble de probabilités associées à tous les résultats futurs possibles, au lieu de pointer un résultat particulier comme “la” prévision. Les prévisions probabilistes sont importantes chaque fois que l’incertitude est irréductible, ce qui est presque toujours le cas lorsque des systèmes complexes sont concernés. Pour les supply chains, les prévisions probabilistes sont essentielles pour prendre des décisions robustes face à des conditions futures incertaines. En particulier, la demande et le délai d’approvisionnement, deux aspects clés de l’analyse de la supply chain, sont mieux abordés par le biais de prévisions probabilistes. La perspective probabiliste se prête naturellement à la priorisation économique des décisions en fonction de leurs rendements attendus mais incertains. Une grande variété de modèles statistiques permettent de produire des prévisions probabilistes. Certains sont structurellement proches de leurs homologues déterministes, tandis que d’autres sont très différents. L’évaluation de la précision d’une prévision probabiliste nécessite des mesures spécifiques, qui diffèrent de celles des prévisions déterministes. L’exploitation des prévisions probabilistes nécessite des outils spécialisés qui diffèrent de leurs homologues déterministes.

Beaucoup de dés illustrant la prévision probabiliste

Prévisions déterministes vs. probabilistes

L’optimisation des supply chains repose sur l’anticipation adéquate des événements futurs. Numériquement, ces événements sont anticipés par le biais de prévisions, qui englobent une grande variété de méthodes numériques utilisées pour quantifier ces événements futurs. À partir des années 1970, la forme de prévision la plus largement utilisée a été la prévision déterministe des séries temporelles : une quantité mesurée dans le temps - par exemple la demande en unités pour un produit - est projetée dans le futur. La section passée de la série temporelle est constituée des données historiques, la section future de la série temporelle est la prévision.

Moyenne mobile en tant que prévision déterministe.
MA signifie “moyenne mobile”, elle n’est pas particulièrement adaptée aux séries temporelles clairsemées.

Ces prévisions de séries temporelles sont dites “déterministes” car pour chaque point dans le futur, la prévision fournit une seule valeur qui est censée correspondre le plus possible au résultat futur. En effet, bien que la prévision soit une valeur unique, il est largement admis que la prévision a peu de chances d’être parfaitement correcte. Les résultats futurs divergeront de la prévision. L’adhérence de la prévision déterministe à ses résultats futurs est évaluée quantitativement à l’aide de mesures de précision, telles que l’erreur quadratique moyenne (MSE) par exemple.

Les prévisions probabilistes adoptent une perspective différente sur l’anticipation des résultats futurs. Au lieu de produire une seule valeur comme “meilleur” résultat, la prévision probabiliste consiste à attribuer une probabilité à chaque résultat possible. En d’autres termes, tous les événements futurs restent possibles, mais ils ne sont pas également probables. Ci-dessous se trouve la visualisation d’une prévision probabiliste de séries temporelles présentant l’effet “shotgun”, qui est généralement observé dans la plupart des situations réelles. Nous reviendrons sur cette visualisation en détail par la suite.

Une prévision probabiliste de la demande.
Une prévision probabiliste illustrant une situation à forte incertitude.

Les séries temporelles, une quantité mesurée dans le temps, sont probablement le modèle de données le plus connu et le plus utilisé. Ce modèle de données peut être prévu de manière déterministe ou probabiliste. Cependant, il existe de nombreux autres modèles de données, généralement plus riches, qui se prêtent également à des prévisions des deux types. Par exemple, une entreprise qui répare des moteurs d’avion peut souhaiter anticiper la liste exacte des pièces de rechange nécessaires pour une prochaine opération de maintenance. Cette anticipation peut prendre la forme d’une prévision, mais ce ne sera pas une prévision de séries temporelles. La prévision déterministe associée à cette opération est la liste exacte des pièces et de leurs quantités. En revanche, la prévision probabiliste est la probabilité pour chaque combinaison de pièces (y compris les quantités) que cette combinaison spécifique sera celle nécessaire pour effectuer les réparations.

De plus, bien que le terme “prévision” mette l’accent sur une anticipation quelconque, l’idée peut être généralisée à tout type d’affirmation statistiquement déduite sur un système, y compris pour ses propriétés passées (mais inconnues). La pratique de la prévision statistique a émergé au cours du XXe siècle, avant l’avènement de la perspective plus moderne de l’apprentissage statistique, qui englobe toutes les extrapolations basées sur les données qui peuvent être effectuées, indépendamment de toute dimension temporelle. Pour plus de clarté, nous continuerons à utiliser le terme “prévision” dans la suite, même si l’aspect temporel n’équivaut pas toujours au passé connu et au futur inconnu. Par exemple, une entreprise peut souhaiter estimer les ventes qui auraient eu lieu pour un produit dans un magasin si le produit n’avait pas été en rupture de stock ce jour-là. L’estimation est utile pour quantifier l’ampleur du problème en termes de qualité de service. Cependant, comme l’événement est passé, le chiffre de vente “réel” ne sera jamais observé. Néanmoins, en supposant qu’il n’ait pas encore été triviallement observé, l’estimation statistique de la demande passée est un problème très proche de l’estimation de la demande future.

Les prévisions probabilistes sont plus riches en termes d’informations que leurs homologues déterministes. Alors que la prévision déterministe fournit une “meilleure estimation” du résultat futur, elle ne dit rien sur les alternatives. En fait, il est toujours possible de convertir une prévision probabiliste en sa version déterministe en prenant la moyenne, la médiane, le mode, … de la distribution de probabilité. Cependant, l’inverse n’est pas vrai : il n’est pas possible de récupérer une prévision probabiliste à partir d’une prévision déterministe.

Pourtant, bien que les prévisions probabilistes soient statistiquement supérieures aux prévisions déterministes, elles restent peu utilisées dans la supply chain. Cependant, leur popularité a augmenté régulièrement au cours de la dernière décennie. Historiquement, les prévisions probabilistes sont apparues plus tard, car elles nécessitent des ressources informatiques considérablement plus importantes. L’utilisation de prévisions probabilistes à des fins de supply chain nécessite également des outils logiciels spécialisés, qui sont également fréquemment indisponibles.

Cas d’utilisation de la supply chain

L’optimisation d’une supply chain consiste à prendre la “bonne” décision - au point actuel dans le temps - qui permettra de répondre de manière rentable à une situation future qui n’est estimée qu’imparfaitement. Cependant, l’incertitude associée aux événements futurs est en grande partie irréductible. Ainsi, l’entreprise a besoin que la décision soit robuste si l’anticipation de l’événement futur - c’est-à-dire la prévision - est imparfaite. Cela a été fait minimalement depuis le milieu du XXe siècle grâce à l’analyse des stocks de sécurité. Cependant, comme nous le verrons ci-dessous, en dehors de l’intérêt historique, il n’y a plus aucune raison de privilégier les stocks de sécurité par rapport aux “recettes numériques” probabilistes recettes numériques.

La perspective des prévisions probabilistes adopte une position radicale vis-à-vis de l’incertitude : cette approche tente de quantifier l’incertitude dans la plus grande mesure possible. Dans la supply chain, les coûts ont tendance à se concentrer sur les extrêmes statistiques : c’est la demande inattendue élevée qui crée la rupture de stock, c’est la demande inattendue faible qui crée la dépréciation des stocks. Entre les deux, les stocks tournent très bien. Les prévisions probabilistes sont - pour simplifier - une tentative de gestion de ces situations à faible fréquence et à coût élevé qui sont omniprésentes dans les supply chains modernes. Les prévisions probabilistes peuvent et doivent être considérées comme un ingrédient essentiel de toute pratique de gestion des risques au sein de la supply chain.

De nombreux aspects des supply chains sont particulièrement adaptés aux prévisions probabilistes, tels que :

  • demande : les vêtements, les accessoires, les pièces de rechange ; ainsi que de nombreux autres types de produits, ont tendance à être associés à une demande erratique et/ou intermittente. Les lancements de produits peuvent être réussis ou non. Les promotions des concurrents peuvent temporairement et de manière erratique cannibaliser une grande partie des parts de marché.
  • délai de livraison : les importations d’outre-mer peuvent entraîner toute une série de retards à n’importe quel point de la chaîne (production, transport, douanes, réception, etc.). Même les fournisseurs locaux peuvent avoir occasionnellement de longs délais de livraison s’ils rencontrent un problème de rupture de stock. Les délais de livraison ont tendance à suivre des distributions à “queue grasse”.
  • rendement (produits frais) : la quantité et la qualité de la production de nombreux produits frais dépendent de conditions, telles que la météo, qui échappent au contrôle de l’entreprise. La prévision probabiliste quantifie ces facteurs pour toute la saison et offre la possibilité de dépasser l’horizon de pertinence des prévisions météorologiques classiques.
  • retours (e-commerce) : lorsqu’un client commande le même produit dans trois tailles différentes, il y a de fortes chances que deux de ces tailles soient retournées. Plus généralement, bien que des différences régionales importantes existent, les clients ont tendance à profiter des politiques de retour favorables lorsqu’elles existent. La probabilité de retours pour chaque commande doit être évaluée.
  • rebuts (aviation) : les pièces d’avion réparables - souvent appelées pièces interchangeables - échouent parfois à être réparées. Dans ce cas, la pièce est mise au rebut, car elle n’est plus adaptée à être montée à nouveau sur un avion. Bien qu’il ne soit généralement pas possible de savoir à l’avance si une pièce survivra à sa réparation ou non, il convient d’estimer les chances que la pièce soit mise au rebut.
  • stocks (commerce de détail B2C) : les clients peuvent déplacer, endommager ou même voler des marchandises dans un magasin de détail. Ainsi, le niveau de stock électronique est seulement une approximation de la disponibilité réelle en rayon telle que perçue par les clients. Le niveau de stock, tel que perçu par les clients, doit être estimé grâce à une prévision probabiliste.

Cette courte liste illustre que les angles éligibles à une prévision probabiliste dépassent largement les seuls angles traditionnels de “prévision de la demande”. L’optimisation bien conçue d’une supply chain nécessite de prendre en compte toutes les sources pertinentes d’incertitude. Bien qu’il soit parfois possible de réduire l’incertitude - comme le souligne le lean manufacturing - il y a généralement des compromis économiques impliqués, et par conséquent, une certaine quantité d’incertitude reste irréductible.

Les prévisions, cependant, ne sont que des opinions éclairées sur l’avenir. Bien que les prévisions probabilistes puissent être considérées comme des opinions remarquablement détaillées, elles ne sont pas fondamentalement différentes de leurs homologues déterministes à cet égard. La valeur, du point de vue de la supply chain, des prévisions probabilistes réside dans la manière dont cette structure fine est exploitée pour prendre des décisions plus rentables. En particulier, on ne s’attend généralement pas à ce que les prévisions probabilistes soient plus précises que leurs homologues déterministes si l’on utilise des mesures de précision déterministes pour évaluer la qualité des prévisions.

En défense de la variabilité

Contrairement à ce que préconisent de nombreuses approches de la supply chain, la variabilité est là pour rester - d’où la nécessité de prévisions probabilistes. La première idée fausse est que la variabilité est nécessairement une mauvaise chose pour une supply chain ; ce n’est pas le cas. La deuxième idée fausse est que la variabilité peut être éliminée par l’ingénierie ; ce n’est pas possible.

La variabilité a des implications positives pour les supply chains dans de multiples situations. Par exemple, du côté de la demande, la plupart des secteurs sont stimulés par la nouveauté, tels que la mode, les produits culturels, le luxe souple et dur - tout comme les entreprises “hit or miss”. La plupart des nouveaux produits ne sont pas des succès (misses), mais ceux qui réussissent (hits) rapportent des rendements massifs. Une variabilité supplémentaire est bénéfique car elle augmente la probabilité de rendements exceptionnels, tandis que les inconvénients restent limités (dans le pire des cas, l’inventaire entier est annulé). Le flux incessant de nouveaux produits poussés sur le marché assure le renouvellement constant des “hits”, tandis que les anciens s’estompent.

Du côté de l’approvisionnement, un processus d’approvisionnement qui garantit des offres à prix très variables est supérieur - toutes choses étant égales par ailleurs - à un processus alternatif qui génère des prix beaucoup plus cohérents (c’est-à-dire moins variables). En effet, l’option au prix le plus bas est sélectionnée tandis que les autres sont rejetées. Peu importe que le prix moyen d’approvisionnement soit bas, ce qui importe, c’est de découvrir des sources à prix inférieur. Ainsi, le bon processus d’approvisionnement devrait être conçu pour augmenter la variabilité, par exemple en mettant l’accent sur l’exploration régulière de nouveaux fournisseurs plutôt que de limiter le processus d’approvisionnement aux fournisseurs bien établis.

Parfois, la variabilité peut être bénéfique pour des raisons plus subtiles. Par exemple, si une marque est trop prévisible en ce qui concerne ses opérations promotionnelles, les clients identifient le schéma et retardent leur achat car ils savent qu’une promotion est imminente. La variabilité - voire l’erraticité - des activités promotionnelles atténue quelque peu ce comportement.

Un autre exemple est la présence de facteurs de confusion au sein de la chaîne d’approvisionnement elle-même. Si de nouveaux produits sont toujours lancés avec à la fois une campagne télévisée et une campagne radio, il devient statistiquement difficile de distinguer les impacts respectifs de la télévision et de la radio. En ajoutant de la variabilité à l’intensité de la campagne respective en fonction du canal, il est possible d’extraire plus d’informations statistiques de ces opérations par la suite, ce qui peut ensuite être transformé en connaissances pour une meilleure allocation des ressources marketing.

Naturellement, toute variabilité n’est pas bonne. La fabrication à flux tendu a raison de souligner que, du côté de la production de la chaîne d’approvisionnement, la variabilité est généralement préjudiciable, en particulier en ce qui concerne les délais variables. En effet, des processus LIFO (dernier entré, premier sorti) peuvent s’introduire accidentellement, ce qui, à son tour, aggrave la variabilité des délais. Dans ces situations, la variabilité accidentelle doit être éliminée par une meilleure procédure, parfois par un meilleur équipement ou des installations.

La variabilité - même lorsqu’elle est préjudiciable - est souvent irréductible. Comme nous le verrons dans la section suivante, les chaînes d’approvisionnement obéissent à la loi des petits nombres. Il est illusoire de penser que le niveau des magasins pourra jamais être prédit de manière fiable - d’un point de vue déterministe - alors que les clients ne savent pas toujours eux-mêmes ce qu’ils s’apprêtent à acheter. Plus généralement, la réduction de la variabilité a toujours un coût (et la réduire davantage coûte encore plus cher), tandis que la réduction marginale de la variabilité n’apporte que des rendements décroissants. Ainsi, même lorsque la variabilité peut être réduite, elle ne peut que très rarement être entièrement éliminée en raison des implications économiques.

La loi des petits nombres

La loi des petits nombres de la chaîne d’approvisionnement peut être formulée comme suit : les petits nombres prévalent partout le long de la chaîne. Cette loi d’observation résulte des économies d’échelle et de quelques autres forces qui régissent la plupart des aspects structurels des chaînes d’approvisionnement :

  • un fournisseur qui fournit des dizaines de milliers d’unités de matériaux par jour est susceptible d’avoir des quantités minimales de commande (MOQ) ou des réductions de prix qui empêchent de passer des commandes trop fréquemment. Le nombre de commandes passées à un fournisseur un jour donné dépasse rarement un chiffre à un seul chiffre.
  • une usine qui produit des dizaines de milliers d’unités par jour est susceptible de fonctionner par le biais de grands lots de milliers d’unités. La production est susceptible d’être conditionnée en palettes entières. Le nombre de lots au cours d’une journée donnée est au plus un petit nombre à deux chiffres.
  • un entrepôt qui reçoit des dizaines de milliers d’unités par jour est susceptible d’être livré par des camions, chaque camion déchargeant sa cargaison entière dans l’entrepôt. Le nombre de livraisons de camions un jour donné dépasse rarement un nombre à deux chiffres, même pour les entrepôts très grands.
  • un magasin de détail qui peut contenir des dizaines de milliers d’unités en stock est susceptible de répartir son assortiment en milliers de références de produits distinctes. Le nombre d’unités détenues en stock pour chaque produit dépasse rarement un chiffre à un seul chiffre.

Naturellement, en changeant l’unité de mesure, il est toujours possible d’augmenter les chiffres. Par exemple, si au lieu de compter le nombre de palettes, nous comptons le nombre de grammes de palettes, ou leur valeur monétaire en cents USD, de grands nombres apparaissent. Cependant, la loi des petits nombres doit être comprise avec la notion de comptage des choses d’un point de vue sensible de la supply chain. Bien que, en théorie, ce principe puisse sembler assez subjectif, ce n’est pas le cas en pratique, en raison des réalités discrètes évidentes des chaînes d’approvisionnement modernes : lots, boîtes, palettes, conteneurs, camions…

Cette loi est d’une grande pertinence pour la perspective de prévision probabiliste. Premièrement, elle souligne que les prévisions discrètes dominent dans les situations de supply chain, c’est-à-dire que le résultat à anticiper (ou à décider) est un nombre entier, par opposition à un nombre fractionnaire. Les prévisions probabilistes conviennent particulièrement aux situations discrètes, car une probabilité peut être estimée pour chaque résultat discret. En revanche, les prévisions déterministes ont du mal avec les résultats discrets. Par exemple, que signifie-t-il que les ventes quotidiennes attendues d’un produit sont de 1,3 unités ? Les unités ne sont pas vendues de manière fractionnaire. Bien que des interprétations “discrètes” plus sensées puissent être déduites de cette déclaration, son équivalent probabiliste (par exemple, 27% de chances d’aucune demande, 35% de chances d’une unité de demande, 23% de chances de 2 unités de demande, etc.) est beaucoup plus direct, car il embrasse la nature discrète du phénomène d’intérêt.

Deuxièmement, bien que les prévisions probabilistes puissent sembler radicalement plus difficiles en termes de ressources informatiques brutes, ce n’est pas vraiment le cas en pratique, précisément en raison de la loi des petits nombres. En effet, en revenant aux ventes quotidiennes de produits discutées ci-dessus, il est inutile d’évaluer numériquement les chances que la demande dépasse 100 un jour donné. Ces probabilités peuvent être arrondies à zéro - ou à une valeur arbitrairement petite. L’impact sur la précision numérique du modèle de supply chain reste négligeable. En règle générale, il est raisonnable de considérer que les prévisions probabilistes nécessitent environ trois ordres de grandeur de ressources informatiques de plus que leurs homologues déterministes. Cependant, malgré ce surcoût, les avantages en termes de performance de la supply chain dépassent largement le coût des ressources informatiques.

Métriques de précision pour les prévisions probabilistes

Quoi qu’il arrive, une prévision probabiliste raisonnablement bien conçue indique qu’il y avait effectivement une probabilité non nulle pour que ce résultat se produise. Cela est intrigant car à première vue, il peut sembler que les prévisions probabilistes étaient en quelque sorte immunisées contre la réalité, tout comme un diseur de bonne aventure faisant des déclarations prophétiques extrêmement ambiguës qui ne peuvent jamais être prouvées fausses, car le diseur de bonne aventure peut toujours invoquer une explication ultérieure sur la manière appropriée d’interpréter les prophéties après coup. En réalité, il existe plusieurs façons d’évaluer quantitativement la qualité d’une prévision probabiliste. Certaines de ces façons sont des “métriques” similaires dans l’esprit aux métriques utilisées pour évaluer la précision des prévisions déterministes. D’autres façons divergent de manière plus radicale et plus profonde par rapport à la perspective déterministe.

Passons brièvement en revue quatre approches distinctes pour évaluer la précision d’une prévision probabiliste :

  • la fonction de perte du flippeur
  • le score de probabilité classé en continu (CRPS)
  • la vraisemblance bayésienne
  • la perspective antagoniste générative

La fonction de perte du flippeur fournit une métrique de précision pour une estimation de quantile à dériver à partir d’une prévision probabiliste. Par exemple, si nous souhaitons évaluer la quantité de stock qui a 98% de chances d’être supérieure ou égale à la demande du client dans un magasin pour un produit donné, cette quantité peut être obtenue directement à partir des prévisions probabilistes en additionnant simplement les probabilités à partir de 0 unité de demande, 1 unité de demande, … jusqu’à ce que la probabilité dépasse légèrement 98%. La fonction de perte du flippeur loss function fournit une mesure directe de la qualité de cette estimation biaisée de la demande future. On peut la considérer comme un outil pour évaluer la qualité de n’importe quel point de la fonction de densité cumulative de la prévision probabiliste.

Le score de probabilité classé en continu (CRPS) fournit une métrique, qui peut être interprétée comme la “quantité de déplacement” de la masse de probabilités nécessaire pour déplacer toute la masse de probabilité vers le résultat observé. Il s’agit de la généralisation la plus directe de l’erreur absolue moyenne (MAE) vers une perspective probabiliste. La valeur du CRPS est homogène à l’unité de mesure du résultat lui-même. Cette perspective peut être généralisée à des espaces métriques arbitraires, au lieu de situations unidimensionnelles, grâce à ce qui est connu sous le nom de “théorie du transport” et de la distance de Monge-Kantorovich (qui dépasse le cadre du présent document).

La vraisemblance et son cousin l’entropie croisée adoptent la perspective bayésienne du degré minimal de surprise : plus la probabilité des résultats observés est élevée, mieux c’est. Par exemple, nous avons deux modèles probabilistes A et B : le modèle A indique que la probabilité d’observer 0 unité de demande est de 50% pour n’importe quel jour donné ; le modèle B indique que la probabilité d’observer 0 unité de demande est de 1% pour n’importe quel jour donné. Nous observons la demande sur 3 jours et obtenons les observations suivantes : 0, 0, 1. Le modèle A avait environ 10% de chances de générer ces observations, tandis que pour le modèle B, il n’y avait qu’environ 0,01% de chances. Ainsi, le modèle B est beaucoup moins susceptible d’être le modèle correct par rapport au modèle A. La vraisemblance s’éloigne de la perspective déterministe d’avoir un critère absolu significatif pour évaluer les modèles. Au lieu de cela, elle fournit un mécanisme pour comparer les modèles, mais numériquement, le mécanisme ne peut pas vraiment être utilisé pour autre chose que pour comparer les modèles.

La perspective antagoniste générative est la perspective la plus moderne sur la question (Ian Goodfellow et al., 2014). Essentiellement, cette perspective affirme que le “meilleur” modèle probabiliste est celui qui peut être utilisé pour générer des résultats - de style monte-carlo - indiscernables des résultats réels. Par exemple, si nous devions considérer la liste historique des transactions dans un hypermarché local, nous pourrions tronquer cette histoire à un point arbitraire dans le passé et utiliser le modèle probabiliste pour générer des transactions fausses mais réalistes à partir de là. Le modèle serait considéré comme “parfait” s’il était impossible, par une analyse statistique, de retrouver le moment où l’ensemble de données passe des données “réelles” aux données “fausses”. L’approche antagoniste générative vise à “apprendre” les métriques qui exacerbent le défaut de tout modèle probabiliste. Au lieu de se concentrer sur une métrique particulière, cette perspective utilise de manière récursive des techniques d’apprentissage automatique pour “apprendre” les métriques elles-mêmes.

La recherche de meilleures façons d’évaluer la qualité des prévisions probabilistes est encore un domaine de recherche actif. Il n’y a pas de délimitation claire entre les deux questions “Comment produire une meilleure prévision ?” et “Comment savoir si une prévision est meilleure ?”. Les travaux récents ont considérablement brouillé les frontières entre les deux, et il est probable que les prochaines percées impliqueront des changements supplémentaires dans la façon même dont les prévisions probabilistes sont envisagées.

Probabilités infinitésimales et vraisemblance logarithmique

Les probabilités très faibles se produisent naturellement lorsqu’on examine une situation multidimensionnelle à travers le prisme des prévisions probabilistes. Ces petites probabilités posent problème car les ordinateurs ne traitent pas des nombres indéfiniment précis. Les valeurs de probabilité brutes sont souvent “infinitésimales” au sens où elles sont arrondies à zéro en raison des limites de précision numérique. La solution à ce problème n’est pas de mettre à niveau le logiciel vers des calculs de précision arbitraire - ce qui est très inefficace en termes de ressources informatiques - mais d’utiliser le “truc du logarithme”, qui transforme les multiplications en additions. Ce truc est utilisé - d’une manière ou d’une autre - par pratiquement tous les logiciels traitant des prévisions probabilistes.

Supposons que nous ayons $$X_1, X_2, \ldots, X_n$$ des variables aléatoires représentant la demande du jour pour tous les $$n$$ produits distincts servis dans un magasin donné. Soit $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ correspondant à la demande empirique observée à la fin de la journée pour chaque produit. Pour le premier produit - régi par $$X_1$$ - la probabilité d’observer $$\hat{x}_1$$ est écrite $$P(X_1=\hat{x}_1)$$. Maintenant, supposons, de manière abusive mais pour plus de clarté, que tous les produits sont strictement indépendants en termes de demande. La probabilité de l’événement conjoint d’observer $$\hat{x}_1, \hat{x}_2, \ldots, \hat{x}_n$$ est :

$$P(X_1=\hat{x}\_1 \ldots X_n=\hat{x}\_n)=\prod_{k=1}^{n}P(X_k=\hat{x}_k)$$

Si $$P(X_k=\hat{x}_k) \approx \tfrac{1}{2}$$ (grossière approximation) et $$n=10000$$, alors la probabilité conjointe ci-dessus est de l’ordre de $$\tfrac{1}{{2^{10000}}} \approx 5 \times 10^{-3011}$$, ce qui est une valeur très faible. Cette valeur est inférieure à la limite inférieure représentable, même en tenant compte des nombres à virgule flottante sur 64 bits généralement utilisés pour le calcul scientifique.

Le “truc du logarithme” consiste à travailler avec le logarithme de l’expression, c’est-à-dire :

$$lnP(X_1=\hat{x}_1 \ldots X_n=\hat{x}\_n)= \sum_k^n lnP(X_k=\hat{x}_k)$$

Le logarithme transforme la série de multiplications en une série d’additions, ce qui se révèle être beaucoup plus stable numériquement qu’une série de multiplications.

L’utilisation du “truc du logarithme” est fréquente chaque fois que des prévisions probabilistes sont impliquées. La log-vraisemblance est littéralement le logarithme de la vraisemblance (présentée précédemment) précisément parce que la vraisemblance brute serait généralement inreprésentable numériquement compte tenu des types courants de nombres à virgule flottante.

Variantes algorithmiques des prévisions probabilistes

La question de la génération automatisée de prévisions probabilistes est presque aussi vaste que le domaine de l’apprentissage automatique lui-même. Les délimitations entre les deux domaines, le cas échéant, relèvent principalement de choix subjectifs. Néanmoins, cette section présente une liste plutôt sélective d’approches algorithmiques notables pouvant être utilisées pour obtenir des prévisions probabilistes.

Au début du XXe siècle, peut-être à la fin du XIXe siècle, l’idée du stock de sécurité a émergé, où l’incertitude de la demande est modélisée selon une distribution normale. Comme des tables précalculées de la distribution normale avaient déjà été établies pour d’autres sciences, notamment la physique, l’application du stock de sécurité ne nécessitait qu’une multiplication d’un niveau de demande par un coefficient de “stock de sécurité” tiré d’une table préexistante. De manière anecdotique, de nombreux manuels de gestion de la chaîne d’approvisionnement rédigés jusqu’aux années 1990 contenaient encore des tables de la distribution normale dans leurs annexes. Malheureusement, le principal inconvénient de cette approche est que les distributions normales ne sont pas une proposition raisonnable pour les chaînes d’approvisionnement. Premièrement, en ce qui concerne les chaînes d’approvisionnement, il est raisonnable de supposer que rien n’est jamais normalement distribué. Deuxièmement, la distribution normale est une distribution continue, ce qui est en contradiction avec la nature discrète des événements de la chaîne d’approvisionnement (voir “Loi des petits nombres” ci-dessus). Ainsi, bien que techniquement les “stocks de sécurité” aient une composante probabiliste, la méthodologie sous-jacente et les recettes numériques sont résolument orientées vers la perspective déterministe. Cette approche est néanmoins répertoriée ici pour des raisons de clarté.

Revenons au début des années 2000, les méthodes d’apprentissage en ensemble - dont les représentants les plus connus sont probablement les forêts aléatoires et les arbres boostés par gradient - sont relativement simples à étendre de leur origine déterministe à la perspective probabiliste. L’idée clé derrière l’apprentissage en ensemble est de combiner de nombreux prédicteurs déterministes faibles, tels que des arbres de décision, en un prédicteur déterministe supérieur. Cependant, il est possible d’ajuster le processus de mélange pour obtenir des probabilités plutôt qu’un simple agrégat, transformant ainsi la méthode d’apprentissage en ensemble en une méthode de prévision probabiliste. Ces méthodes sont non paramétriques et capables de s’adapter à des distributions à queues épaisses et/ou multimodales, comme on en trouve couramment dans la supply chain. Ces méthodes ont tendance à présenter deux inconvénients notables. Premièrement, par construction, la fonction de densité de probabilité produite par cette classe de modèles a tendance à inclure beaucoup de zéros, ce qui empêche toute tentative d’exploiter la métrique de log-vraisemblance. Plus généralement, ces modèles ne correspondent pas vraiment à la perspective bayésienne, car les nouvelles observations sont fréquemment déclarées “impossibles” (c’est-à-dire avec une probabilité nulle) par le modèle. Ce problème peut cependant être résolu grâce à des méthodes de régularisation1. Deuxièmement, les modèles ont tendance à être aussi volumineux qu’une fraction importante de l’ensemble de données d’entrée, et l’opération de “prédiction” a tendance à être presque aussi coûteuse en termes de calcul que l’opération d’“apprentissage”.

Les méthodes hyper-paramétriques collectivement connues sous le nom d’“apprentissage profond”, qui ont explosé dans les années 2010, étaient presque accidentellement probabilistes. En effet, alors que la grande majorité des tâches où l’apprentissage profond brille vraiment (par exemple, la classification d’images) se concentrent uniquement sur des prévisions déterministes, il s’avère que la métrique de l’entropie croisée - une variante de la log-vraisemblance mentionnée ci-dessus - présente des gradients très raides qui conviennent fréquemment à la descente de gradient stochastique (SGD), qui est au cœur des méthodes d’apprentissage profond. Ainsi, il s’avère que les modèles d’apprentissage profond sont conçus comme probabilistes, non pas parce que les probabilités étaient intéressantes, mais parce que la descente de gradient converge plus rapidement lorsque la fonction de perte reflète une prévision probabiliste. Ainsi, en ce qui concerne l’apprentissage profond, la supply chain se distingue par son intérêt pour la sortie probabiliste réelle du modèle d’apprentissage profond, tandis que la plupart des autres cas d’utilisation réduisent la distribution de probabilité à sa moyenne, sa médiane ou son mode. Les réseaux de densité de mélange sont un type de réseau d’apprentissage profond conçu pour apprendre des distributions de probabilité complexes. Le résultat lui-même est une distribution paramétrique, éventuellement composée de gaussiennes. Cependant, contrairement aux “stocks de sécurité”, un mélange de nombreuses gaussiennes peut, en pratique, refléter les comportements à queue épaisse observés dans les supply chains. Bien que les méthodes d’apprentissage profond soient souvent considérées comme étant à la pointe de la technologie, il convient de noter que l’obtention d’une stabilité numérique, en particulier lorsque des mélanges de densités sont impliqués, reste un peu une “science occulte”.

La programmation différentiable est issue de l’apprentissage profond, qui a gagné en popularité à la fin des années 2010. Elle partage de nombreuses caractéristiques techniques avec l’apprentissage profond, mais diffère significativement dans son objectif. Alors que l’apprentissage profond se concentre sur l’apprentissage de fonctions complexes arbitraires (par exemple, jouer au Go) en empilant un grand nombre de fonctions simples (par exemple, des couches de convolution), la programmation différentiable se concentre sur la structure fine du processus d’apprentissage. La structure la plus fine, la plus expressive, peut littéralement être formatée comme un programme, qui comprend des branches, des boucles, des appels de fonctions, etc. La programmation différentiable est d’un grand intérêt pour la supply chain, car les problèmes ont tendance à se présenter de manière très structurée, et ces structures sont connues des experts2. Par exemple, les ventes d’une chemise donnée peuvent être cannibalisées par une autre chemise d’une couleur différente, mais elles ne seront pas cannibalisées par les ventes d’une chemise de trois tailles différentes. Ces connaissances a priori structurelles sont essentielles pour atteindre une grande efficacité des données. En effet, d’un point de vue de la supply chain, la quantité de données tend à être très limitée (cf. la loi des petits nombres). Ainsi, “encadrer” le problème structurellement permet de s’assurer que les modèles statistiques souhaités sont appris, même en présence de données limitées. Les connaissances a priori structurelles aident également à résoudre les problèmes de stabilité numérique. Comparé aux méthodes d’ensemble, les connaissances a priori structurelles ont tendance à être moins chronophages que l’ingénierie des caractéristiques ; la maintenance des modèles est également simplifiée. En revanche, la programmation différentiable reste à ce jour une perspective assez récente.

La perspective de Monte Carlo (années 1930/1940) peut être utilisée pour aborder les prévisions probabilistes sous un angle différent. Les modèles discutés jusqu’à présent fournissent des fonctions de densité de probabilité (PDF) explicites. Cependant, d’un point de vue de Monte Carlo, un modèle peut être remplacé par un générateur - ou un échantillonneur - qui génère aléatoirement des résultats possibles (parfois appelés “déviations”). Les PDF peuvent être récupérées en moyennant les résultats du générateur, bien que les PDF soient souvent contournées entièrement afin de réduire les exigences en termes de ressources informatiques. En effet, le générateur est souvent conçu pour être beaucoup plus compact - en termes de données - que les PDF qu’il représente. La plupart des méthodes d’apprentissage automatique - y compris celles mentionnées ci-dessus pour aborder directement les prévisions probabilistes - peuvent contribuer à l’apprentissage d’un générateur. Les générateurs peuvent prendre la forme de modèles paramétriques de faible dimension (par exemple, des modèles d’espace d’état) ou de modèles hyper-paramétriques (par exemple, les modèles LSTM et GRU en apprentissage profond). Les méthodes d’ensemble sont rarement utilisées pour soutenir les processus de génération en raison de leurs coûts de calcul élevés pour leurs opérations de “prédiction”, sur lesquelles on s’appuie largement pour soutenir l’approche de Monte Carlo.

Travailler avec des prévisions probabilistes

Obtenir des informations utiles et prendre des décisions à partir de prévisions probabilistes nécessite des outils numériques spécialisés. Contrairement aux prévisions déterministes où il y a des chiffres simples, les prévisions elles-mêmes sont soit des fonctions de densité de probabilité explicites, soit des générateurs de Monte Carlo. La qualité des outils probabilistes est, en pratique, aussi importante que la qualité des prévisions probabilistes. Sans ces outils, l’exploitation des prévisions probabilistes se réduit à un processus déterministe (voir la section “Antipatterns” ci-dessous pour plus de détails).

Par exemple, les outils doivent être capables d’effectuer des tâches telles que :

  • Combinez le délai de production incertain avec le délai de transport incertain pour obtenir le délai total incertain.
  • Combinez la demande incertaine avec le délai incertain pour obtenir la demande totale incertaine à couvrir par le stock à commander.
  • Combinez les retours de commande incertains (e-commerce) avec la date d’arrivée incertaine de la commande du fournisseur en transit pour obtenir le délai client incertain.
  • Augmentez la prévision de la demande, produite par une méthode statistique, avec un risque de queue dérivé manuellement à partir d’une compréhension globale d’un contexte non reflété par les données historiques, tel qu’une pandémie.
  • Combinez la demande incertaine avec un état incertain du stock par rapport à la date d’expiration (commerce alimentaire) pour obtenir le stock incertain restant en fin de journée.

Une fois que toutes les prévisions probabilistes - pas seulement celles de la demande - sont correctement combinées, l’optimisation des décisions de la chaîne d’approvisionnement doit avoir lieu. Cela implique une perspective probabiliste sur les contraintes, ainsi que sur la fonction de score. Cependant, cet aspect de l’outil dépasse le cadre du présent document.

Il existe deux grandes “saveurs” d’outils pour travailler avec des prévisions probabilistes : d’abord, les algèbres sur les variables aléatoires, ensuite, la programmation probabiliste. Ces deux saveurs se complètent mutuellement car elles n’ont pas le même mélange d’avantages et d’inconvénients.

Une algèbre de variables aléatoires travaille généralement sur des fonctions de densité de probabilité explicites. L’algèbre prend en charge les opérations arithmétiques habituelles (addition, soustraction, multiplication, etc.) mais transposées à leurs contreparties probabilistes, traitant fréquemment les variables aléatoires comme statistiquement indépendantes. L’algèbre offre une stabilité numérique presque équivalente à celle de sa contrepartie déterministe (c’est-à-dire les nombres simples). Tous les résultats intermédiaires peuvent être conservés pour une utilisation ultérieure, ce qui s’avère très pratique pour organiser et dépanner le pipeline de données. En revanche, l’expressivité de ces algèbres tend à être limitée, car il n’est généralement pas possible d’exprimer toutes les subtilités des dépendances conditionnelles qui existent entre les variables aléatoires.

La programmation probabiliste adopte une perspective de Monte Carlo pour le problème. La logique est écrite une fois, en restant généralement dans une perspective entièrement déterministe, mais exécutée de nombreuses fois à travers l’outil (c’est-à-dire le processus de Monte Carlo) afin de collecter les statistiques souhaitées. Une expressivité maximale est obtenue grâce à des constructions “programmatiques” : il est possible de modéliser des dépendances arbitraires et complexes entre les variables aléatoires. L’écriture de la logique elle-même à travers la programmation probabiliste tend également à être légèrement plus facile par rapport à une algèbre de variables aléatoires, car la logique ne comprend que des nombres réguliers. En revanche, il existe un compromis constant entre la stabilité numérique (plus d’itérations donnent une meilleure précision) et les ressources informatiques (plus d’itérations coûtent plus cher). De plus, les résultats intermédiaires ne sont généralement pas facilement accessibles, car leur existence est seulement transitoire - précisément pour soulager la pression sur les ressources informatiques.

Des travaux récents en deep learning indiquent également que d’autres approches existent au-delà des deux présentées ci-dessus. Par exemple, les autoencodeurs variationnels offrent des perspectives pour effectuer des opérations sur des “espaces latents” produisant des résultats impressionnants tout en recherchant des transformations très complexes sur les données (par exemple, supprimer automatiquement les lunettes d’un portrait photographique). Bien que ces approches soient conceptuellement très intrigantes, elles n’ont pas montré - à ce jour - une grande pertinence pratique lorsqu’il s’agit de résoudre des problèmes de chaîne d’approvisionnement.

Visualisation des prévisions probabilistes

La manière la plus simple de visualiser une distribution de probabilité discrète est un histogramme, où l’axe vertical indique la probabilité et l’axe horizontal la valeur de la variable aléatoire d’intérêt. Par exemple, une prévision probabiliste d’un délai de livraison peut être affichée comme suit :

probabilistic-forecast-leadtime
Une distribution empirique des délais de livraison observés par tranches journalières.

La demande future, cumulée sur une période de temps spécifiée, peut également être représentée par un histogramme. Plus généralement, l’histogramme convient bien à toutes les variables aléatoires unidimensionnelles sur $${ℤ}$$, l’ensemble des entiers relatifs.

La visualisation de l’équivalent probabiliste d’une série temporelle équidistante - c’est-à-dire une quantité variant sur des périodes de temps discrètes de même longueur - est déjà beaucoup plus difficile. En effet, contrairement à la variable aléatoire unidimensionnelle, il n’existe pas de visualisation canonique d’une telle distribution. Attention, les périodes ne peuvent pas être considérées comme indépendantes. Ainsi, bien qu’il soit possible de représenter une série temporelle “probabiliste” en alignant une série d’histogrammes - un par période -, cette représentation donnerait une mauvaise idée de la façon dont les événements se déroulent dans une chaîne d’approvisionnement.

probabilistic-demand-intervals
Une prévision probabiliste de la demande représentée par des seuils de quantiles.

Par exemple, il n’est pas trop improbable qu’un produit récemment lancé connaisse un grand succès et atteigne des volumes de vente élevés (un succès). Il n’est pas non plus trop improbable que le même produit récemment lancé échoue et donne lieu à des volumes de vente faibles (un échec). Cependant, des oscillations quotidiennes considérables entre des niveaux de vente réussis ou ratés sont extrêmement improbables.

Les intervalles de prédiction, tels qu’on les trouve couramment dans la littérature sur la chaîne d’approvisionnement, sont quelque peu trompeurs. Ils ont tendance à mettre l’accent sur des situations de faible incertitude qui ne sont pas représentatives des situations réelles de la chaîne d’approvisionnement ;

rob-hyndman-prediction-intervals
Extrait de Visualization of probabilistic forecasts, par Rob J Hyndman, 21 novembre 2014

Remarquez comment ces intervalles de prédiction correspondent exactement aux distributions de probabilité, mises côte à côte avec un schéma de couleur pour mettre en évidence des seuils quantiles spécifiques.

Une meilleure représentation - c’est-à-dire qui ne renforce pas les fortes dépendances inter-périodes - consiste à regarder les valeurs cumulatives au fil du temps, en prenant les quantiles de celles-ci, puis à les différencier pour récupérer les augmentations par période (voir la première illustration d’une prévision probabiliste donnée au début de cet article). La visualisation est la même, mais la sémantique sous-jacente diffère. Nous regardons maintenant les quantiles sur des scénarios, mettant en évidence les scénarios extrêmement favorables (resp. défavorables).

Antipatterns de prévision probabiliste

Les prévisions probabilistes remettent en question la façon dont de nombreuses personnes pensent “intuitivement” à l’avenir. Dans cette section, nous abordons certains aspects les plus fréquemment mal compris de la prévision probabiliste.

Il n’y a pas de tels événements “imprévisibles”

Du point de vue déterministe, prédire le résultat de la loterie est impossible, car les chances de réussir sont “d’une sur un million”. Cependant, du point de vue probabiliste, le problème est trivial : chaque billet a une chance “d’une sur un million” de gagner. La très grande variance du résultat ne doit pas être confondue avec une “inconnue” du phénomène lui-même, qui peut être parfaitement compris, comme c’est le cas pour une loterie. La prévision probabiliste consiste à quantifier et structurer la variance, et non à éliminer la variance.

Il n’y a pas de telles distributions “normales”

Les distributions normales, également connues sous le nom de gaussiennes, sont omniprésentes dans les manuels de la chaîne d’approvisionnement et de physique. Pourtant, en ce qui concerne les affaires humaines, presque rien n’est distribué de manière “normale”. Les distributions normales, par conception, rendent les grandes déviations (par rapport aux déviations moyennes) extrêmement rares, au point d’être exclues comme étant tout simplement impossibles par le modèle - c’est-à-dire des chances inférieures à une sur un milliard. La demande, le délai de livraison, les retours sont de nombreux motifs qui ne sont catégoriquement pas distribués de manière normale. Le seul avantage des distributions normales est qu’elles conviennent parfaitement pour créer des exercices de manuels scolaires, car elles se prêtent à des solutions analytiques explicites.

Sélectionner les probabilités à la carte

Lorsqu’on est confronté à une distribution de probabilité, il est tentant de sélectionner une seule valeur de la distribution, éventuellement la moyenne ou la médiane, et de procéder en fonction de ce nombre. Ce processus va à l’encontre même de l’aspect probabiliste de la prévision. Les probabilités ne doivent pas être réduites à une seule estimation ponctuelle, car quel que soit le point choisi, ce processus entraîne une perte massive d’informations. Ainsi, bien que quelque peu perturbantes, les probabilités sont destinées à être préservées en tant que telles aussi longtemps que possible. Le point de convergence est généralement la décision finale de la chaîne d’approvisionnement, qui maximise les rendements tout en faisant face à des futurs incertains.

Supprimer les valeurs aberrantes statistiques

La plupart des méthodes numériques classiques - fermement ancrées dans la perspective déterministe des prévisions (par exemple, les moyennes mobiles) - se comportent mal lorsqu’elles rencontrent des valeurs aberrantes statistiques. Ainsi, de nombreuses entreprises établissent des processus pour “nettoyer” manuellement les données historiques de ces valeurs aberrantes. Cependant, ce besoin de processus de nettoyage ne fait que souligner les lacunes de ces méthodes numériques. Au contraire, les valeurs aberrantes statistiques sont un ingrédient essentiel de la prévision probabiliste car elles contribuent à donner une meilleure image de ce qui se passe à la queue de la distribution. En d’autres termes, ces valeurs aberrantes sont la clé pour quantifier la probabilité de rencontrer d’autres valeurs aberrantes.

Se présenter à un duel avec une épée

Des outils spécialisés sont nécessaires pour manipuler les distributions de probabilité. Produire une prévision probabiliste n’est qu’une étape parmi tant d’autres pour apporter une réelle valeur à l’entreprise. De nombreux praticiens de la chaîne d’approvisionnement finissent par rejeter les prévisions probabilistes en raison du manque d’outils adaptés pour les exploiter. De nombreux éditeurs de logiciels se sont engouffrés dans la brèche et prétendent maintenant prendre en charge la “prévision probabiliste” (ainsi que l’“IA” et la “blockchain”), mais n’ont jamais dépassé la simple mise en œuvre cosmétique de quelques modèles probabilistes (cf. la section ci-dessus). Présenter un modèle de prévision probabiliste ne vaut presque rien sans les outils étendus pour exploiter ses résultats numériques.

Notes


  1. La fonction smooth() dans Envision est pratique pour régulariser les variables aléatoires grâce à un processus d’échantillonnage discret de quelque sorte. ↩︎

  2. La connaissance préalable de la structure du problème ne doit pas être confondue avec la connaissance préalable de la solution elle-même. Les “systèmes experts” pionniers des années 1950 en tant que collection de règles rédigées à la main ont échoué, car les experts humains échouent littéralement à traduire leur intuition en règles numériques dans la pratique. Les connaissances préalables structurelles, utilisées dans la programmation différentiable, définissent le principe, et non les détails, de la solution. ↩︎