00:01 Introduction
01:56 Le défi de l’incertitude M5 - Données (1/3)
04:52 Le défi de l’incertitude M5 - Règles (2/3)
08:30 Le défi de l’incertitude M5 - Résultats (3/3)
11:59 L’histoire jusqu’à présent
14:56 Ce qui est (probablement) sur le point de se produire
15:43 Pinball loss - Fondation 1/3
20:45 Binomiale négative - Fondation 2/3
24:04 Modèle d’état d’espace d’innovation (ISSM) - Fondation 3/3
31:36 Structure des ventes - Le modèle REMT 1/3
37:02 Mise en place - Le modèle REMT 2/3
39:10 Niveaux agrégés - Le modèle REMT 3/3
43:11 Apprentissage à un seul stade - Discussion 1/4
45:37 Motif complet - Discussion 2/4
49:05 Motifs manquants - Discussion 3/4
53:20 Limites du M5 - Discussion 4/4
56:46 Conclusion
59:27 Prochain cours et questions du public

Description

En 2020, une équipe de Lokad a obtenu la 5e place sur 909 équipes concurrentes lors de la compétition mondiale de prévision M5. Cependant, au niveau d’agrégation SKU, ces prévisions ont atteint la 1ère place. La prévision de la demande est d’une importance primordiale pour la supply chain. L’approche adoptée dans cette compétition s’est avérée atypique, contrairement aux autres méthodes adoptées par les 50 meilleures équipes concurrentes. Il y a plusieurs leçons à tirer de cette réussite en guise de prélude pour relever d’autres défis prédictifs pour la supply chain.

Transcription complète

Slide 1

Bienvenue dans cette série de cours sur la supply chain. Je suis Joannes Vermorel et aujourd’hui je vais présenter “Number One au niveau SKU dans la compétition de prévision M5”. Une prévision précise de la demande est considérée comme l’un des piliers de l’optimisation de la supply chain. En effet, chaque décision de la supply chain reflète une certaine anticipation de l’avenir. Si nous pouvons obtenir des informations supérieures sur l’avenir, nous pouvons alors prendre des décisions quantitativement supérieures pour nos besoins en supply chain. Ainsi, identifier des modèles qui offrent une précision prédictive de pointe est d’une importance et d’un intérêt primordiaux pour l’optimisation de la supply chain.

Aujourd’hui, je vais présenter un modèle simple de prévision des ventes qui, malgré sa simplicité, s’est classé numéro un au niveau SKU lors d’une compétition mondiale de prévision appelée M5, basée sur un ensemble de données fourni par Walmart. Cette conférence aura deux objectifs. Le premier objectif sera de comprendre ce qu’il faut pour atteindre une précision de prévision des ventes de pointe. Cette compréhension sera d’un intérêt fondamental pour les efforts ultérieurs en matière de modélisation prédictive. Le deuxième objectif sera de prendre la bonne perspective en ce qui concerne la modélisation prédictive à des fins de supply chain. Cette perspective sera également utilisée pour guider notre progression ultérieure dans ce domaine de la modélisation prédictive pour la supply chain.

Slide 2

Le M5 était une compétition de prévision qui a eu lieu en 2020. Cette compétition porte le nom de Spyros Makridakis, un chercheur notable dans le domaine de la prévision. Il s’agissait de la cinquième édition de cette compétition. Ces compétitions ont lieu tous les deux ans et ont tendance à varier en termes de focus en fonction du type d’ensemble de données utilisé. Le M5 était un défi lié à la supply chain, car l’ensemble de données utilisé était des données de magasins de détail fournies par Walmart. Le défi M6, qui doit encore avoir lieu, se concentrera sur la prévision financière.

L’ensemble de données utilisé pour le M5 était et reste un ensemble de données public. Il s’agissait de données de magasins de détail Walmart agrégées au niveau quotidien. Cet ensemble de données comprenait environ 30 000 SKUs, ce qui est assez petit en termes de vente au détail. En effet, en règle générale, un seul supermarché détient généralement environ 20 000 SKUs et Walmart exploite plus de 10 000 magasins. Ainsi, dans l’ensemble, cet ensemble de données - l’ensemble de données M5 - représentait moins de 0,1% de l’ensemble de données à l’échelle mondiale de Walmart qui serait pertinent d’un point de vue de la supply chain.

De plus, comme nous le verrons par la suite, il y avait des classes entières de données manquantes dans l’ensemble de données M5. Par conséquent, mon estimation approximative est que cet ensemble de données est en réalité plus proche de 0,01% de l’échelle de ce qu’il faudrait à l’échelle de Walmart. Néanmoins, cet ensemble de données est largement suffisant pour réaliser un benchmark très solide des modèles de prévision dans un environnement réel. Dans un environnement réel, nous devrions prêter une attention particulière aux problèmes d’évolutivité. Cependant, du point de vue d’une compétition de prévision, il est juste de rendre l’ensemble de données suffisamment petit pour que la plupart des méthodes, même les méthodes inefficaces, puissent être utilisées dans la compétition de prévision. Cela garantit également que les concurrents ne sont pas limités par la quantité de ressources informatiques qu’ils peuvent réellement consacrer à cette compétition de prévision.

Slide 3

La compétition M5 comprenait deux défis distincts connus sous le nom de Précision et Incertitude. Les règles étaient simples : il y avait un ensemble de données public auquel chaque participant pouvait accéder, et pour participer à l’un ou aux deux de ces défis, chaque participant devait produire son propre ensemble de données, qui était son ensemble de prévisions, et le soumettre à la plateforme Kaggle. Le défi de Précision consistait à fournir une prévision moyenne des séries temporelles, qui est le type de prévision formelle le plus classique. Dans cette situation spécifique, il s’agissait de fournir une prévision moyenne quotidienne pour environ 40 000 séries temporelles. Le défi d’Incertitude consistait à fournir des prévisions quantiles. Les quantiles sont des prévisions avec un biais ; cependant, le biais est intentionnel. C’est tout l’intérêt d’avoir des quantiles. Cette conférence se concentre exclusivement sur le défi d’Incertitude, car dans la supply chain, c’est la demande inattendue élevée qui crée des ruptures de stock, et c’est la demande inattendue faible qui crée des dépréciations d’inventaire. Les coûts dans les supply chains sont concentrés aux extrêmes. Ce n’est pas la moyenne qui nous intéresse.

En effet, si nous examinons ce que signifie même la moyenne dans la situation de Walmart, il s’avère que pour la plupart des produits, dans la plupart des magasins, la plupart des jours, les ventes moyennes qui seront observées sont nulles. Ainsi, la plupart des produits ont une prévision moyenne fractionnaire. De telles prévisions moyennes sont très décevantes en ce qui concerne la supply chain. Si vos options sont soit de stocker zéro soit de réapprovisionner une unité, les prévisions moyennes sont peu pertinentes. Le secteur de la vente au détail n’est pas dans une position unique ici ; c’est à peu près la même situation que nous discutions de la grande consommation, de l’aviation, de la fabrication ou du luxe - pratiquement tous les autres secteurs.

Revenons au défi d’Incertitude M5, il fallait produire quatre quantiles, respectivement à 50%, 67%, 95% et 99%. Vous pouvez considérer ces quantiles cibles comme des objectifs de taux de service. La précision de ces prévisions quantiles a été évaluée selon une métrique connue sous le nom de fonction de perte flippeur. Je reviendrai sur cette métrique d’erreur plus tard dans cette conférence.

Slide 4

Il y avait 909 équipes en compétition dans le monde entier pour ce défi d’Incertitude. Une équipe de Lokad s’est classée cinquième au classement général, mais première au niveau des SKU. En effet, bien que les SKU représentent environ les trois quarts des séries temporelles de ce défi, il y avait différents niveaux d’agrégation allant de l’état (comme les États-Unis - Texas, Californie, etc.) au SKU, et tous les niveaux d’agrégation étaient pondérés de manière équivalente dans le score final de cette compétition. Ainsi, même si les SKU représentaient environ les trois quarts des séries temporelles, ils ne représentaient que environ 8% du poids total dans le score final de la compétition.

La méthode utilisée par cette équipe de Lokad a été publiée dans un article intitulé “Une approche ISSM en boîte blanche pour estimer la distribution d’incertitude des ventes de Walmart”. Je mettrai un lien vers cet article dans la description de cette vidéo une fois cette conférence terminée. Vous y trouverez tous les éléments en détail. Pour des raisons de clarté et de concision, je ferai référence au modèle présenté dans cet article comme le modèle BRAMPT, simplement nommé d’après les initiales des quatre co-auteurs.

À l’écran, j’ai répertorié les cinq meilleurs résultats pour le défi M5, obtenus à partir d’un article qui fournit des informations générales sur le résultat de cette compétition de prévision. Les détails du classement dépendent beaucoup de la métrique choisie. Ce n’est pas très surprenant. Le défi d’Incertitude utilisait une version adaptée de la fonction de perte flippeur. Nous reviendrons sur cette métrique d’erreur dans un instant. Bien que le défi d’Incertitude M5 ait démontré que nous n’avons pas les moyens d’éliminer l’incertitude avec les méthodes de prévision que nous avons, loin de là, ce n’est pas du tout un résultat surprenant. Étant donné que les ventes en magasin ont tendance à être erratiques et intermittentes, cela souligne l’importance d’embrasser l’incertitude au lieu de la rejeter complètement. Cependant, il est remarquable de noter que les éditeurs de logiciels de chaîne d’approvisionnement étaient tous absents des 50 premiers rangs de cette compétition de prévision, ce qui est d’autant plus intrigant compte tenu du fait que ces éditeurs se vantent de posséder leur propre technologie de prévision de pointe soi-disant supérieure.

Slide 5

Cette conférence fait partie d’une série de conférences sur la chaîne d’approvisionnement. Cette conférence actuelle est la première de ce qui sera mon cinquième chapitre dans cette série. Ce cinquième chapitre sera consacré à la modélisation prédictive. En effet, rassembler des informations quantitatives est nécessaire pour optimiser une chaîne d’approvisionnement. Chaque fois qu’une décision de chaîne d’approvisionnement est prise - qu’il s’agisse de décider d’acheter des matériaux, de produire un certain produit, de déplacer des stocks d’un endroit à un autre, ou d’augmenter ou de diminuer le prix d’un produit que vous vendez - cette décision s’accompagne d’une certaine anticipation de la demande future. Marginalement, chaque décision de chaîne d’approvisionnement est accompagnée d’une attente concernant l’avenir. Cette attente peut être implicite et cachée. Cependant, si nous voulons améliorer la qualité de notre attente concernant l’avenir, nous devons rendre cette attente concrète, ce qui se fait généralement par le biais d’une prévision, bien que cela ne soit pas nécessairement une prévision de séries temporelles.

Le cinquième et présent chapitre est intitulé “Modélisation prédictive” plutôt que “Prévision” pour deux raisons. Premièrement, la prévision est presque invariablement associée à la prévision de séries temporelles. Cependant, comme nous le verrons dans ce chapitre, il existe de nombreuses situations de chaîne d’approvisionnement qui ne se prêtent pas vraiment à la perspective de la prévision de séries temporelles. Ainsi, à cet égard, la modélisation prédictive est un terme plus neutre. Deuxièmement, c’est la modélisation qui détient la véritable compréhension, pas les modèles. Nous recherchons des techniques de modélisation, et c’est grâce à ces techniques que nous pouvons espérer être en mesure de faire face à la diversité des situations rencontrées dans les chaînes d’approvisionnement du monde réel.

La présente conférence sert de prologue à notre chapitre sur la modélisation prédictive afin d’établir que la modélisation prédictive n’est pas une sorte de vœu pieux concernant la prévision, mais qu’elle est qualifiée comme une technique de prévision de pointe. Cela s’ajoute à tous les autres avantages qui deviendront progressivement clairs au fur et à mesure de l’avancement de ce chapitre.

Slide 6

Le reste de cette conférence sera organisé en trois parties. Tout d’abord, nous passerons en revue une série d’éléments mathématiques, qui sont essentiellement les éléments constitutifs du modèle BRAMPT. Deuxièmement, nous assemblerons ces éléments afin de construire le modèle BRAMPT, tout comme cela a été fait lors de la compétition M5. Troisièmement, nous discuterons de ce qui peut être fait pour améliorer le modèle BRAMPT et également pour voir ce qui pourrait être fait pour améliorer le défi de prévision lui-même, tel qu’il a été présenté dans la compétition M5.

Slide 7

Le défi de l’incertitude du M5 vise à calculer des estimations quantiles des ventes futures. Un quantile est un point dans une distribution unidimensionnelle, et par définition, un quantile de 90 pour cent est le point où il y a 90 pour cent de chances d’être en dessous de cette valeur de quantité et 10 pour cent de chances d’être au-dessus. La médiane est, par définition, le quantile de 50 pour cent.

La fonction de perte de pinball est une fonction qui a une affinité profonde pour les quantiles. Essentiellement, pour une valeur de tau donnée entre zéro et un, tau peut être interprété, d’un point de vue de la chaîne d’approvisionnement, comme un objectif de taux de service. Pour toute valeur de tau, le quantile associé à tau se trouve être la valeur dans la distribution de probabilité qui minimise la fonction de perte de pinball. À l’écran, nous voyons une implémentation simple de la fonction de perte de pinball, écrite en Envision, le langage de programmation spécifique au domaine de Lokad dédié à l’optimisation de la chaîne d’approvisionnement. La syntaxe est assez similaire à Python et devrait être relativement transparente pour le public.

Si nous essayons de décomposer ce code, nous avons y, qui est la valeur réelle, y-hat, qui est notre estimation, et tau, qui est notre objectif de quantile. Encore une fois, l’objectif de quantile est fondamentalement l’objectif de taux de service en termes de chaîne d’approvisionnement. Nous voyons que la sous-estimation est pondérée équitablement à tau, tandis que la sur-estimation est pondérée équitablement à un moins tau. La fonction de perte de pinball est une généralisation de l’erreur absolue. Si nous revenons à tau égal à 0,5, nous pouvons voir que la fonction de perte de pinball est simplement l’erreur absolue. Si nous avons une estimation qui minimise l’erreur absolue, ce que nous obtenons est une estimation de la médiane.

À l’écran, vous pouvez voir un graphique de la fonction de perte de pinball. Cette fonction de perte est asymétrique, et grâce à une fonction de perte asymétrique, nous pouvons obtenir non pas la prévision moyenne ou médiane, mais une prévision avec un biais contrôlé, ce qui est exactement ce que nous voulons avoir pour une estimation de quantile. La beauté de la fonction de perte de pinball réside dans sa simplicité. Si vous avez une estimation qui minimise la fonction de perte de pinball, alors vous avez une prévision de quantile par construction. Ainsi, si vous avez un modèle qui a des paramètres et que vous orientez l’optimisation des paramètres à travers les lentilles de la fonction de perte de pinball, ce que vous obtiendrez de votre modèle est essentiellement un modèle de prévision de quantile.

Le défi de l’incertitude M5 a présenté une série de quatre objectifs de quantile à 50, 67, 95 et 99. Je les appelle généralement une grille de quantiles. Une grille de quantiles, ou des prévisions quantifiées en grille, ne sont pas tout à fait des prévisions probabilistes ; c’est proche, mais pas encore là. Avec une grille de quantiles, nous choisissons encore nos objectifs. Par exemple, si nous disions que nous voulons produire une prévision de quantile pour les 95 pour cent, la question devient : pourquoi 95, pourquoi pas 94 ou 96 ? Cette question reste sans réponse. Nous y jetterons un coup d’œil plus tard dans ce chapitre, mais pas dans cette conférence. Disons simplement que le principal avantage que nous avons avec les prévisions probabilistes est d’éliminer complètement cet aspect de sélection arbitraire des grilles de quantiles.

Slide 8

La plupart du public est probablement familier avec la distribution normale, la courbe en forme de cloche gaussienne qui se produit très fréquemment dans les phénomènes naturels. Une distribution de comptage est une distribution de probabilités sur chaque entier. Contrairement aux distributions réelles continues comme la distribution normale qui vous donne une probabilité pour chaque entier réel, les distributions de comptage ne se soucient que des entiers non négatifs. Il existe de nombreuses classes de distributions de comptage ; cependant, aujourd’hui, notre intérêt se porte sur la distribution binomiale négative, qui est utilisée par le modèle REM.

La distribution binomiale négative est livrée avec deux paramètres, tout comme la distribution normale, qui contrôlent également efficacement la moyenne et la variance de la distribution. Si nous choisissons la moyenne et la variance pour une distribution binomiale négative de telle sorte que la majeure partie de la masse de la distribution de probabilité soit éloignée de zéro, nous avons un comportement pour la distribution binomiale négative qui converge asymptotiquement vers un comportement de distribution normale si nous devions réduire toutes les valeurs de probabilité vers les entiers les plus proches. Cependant, si nous examinons des distributions où la moyenne est petite, en particulier par rapport à la variance, nous verrons que la distribution binomiale négative commence à diverger de manière significative en termes de comportement par rapport à une distribution normale. En particulier, si nous examinons de petites distributions binomiales négatives moyennes, nous verrons que ces distributions deviennent très asymétriques, contrairement à la distribution normale, qui reste complètement symétrique quelle que soit la moyenne et la variance que vous choisissez.

À l’écran, une distribution binomiale négative est tracée à travers Envision. La ligne de code qui a été utilisée pour produire ce graphique est affichée ci-dessous. La fonction prend deux arguments, ce qui est attendu car cette distribution a deux paramètres, et le résultat est simplement une variable aléatoire qui est affichée sous forme d’histogramme. Je ne vais pas entrer dans les détails de la distribution binomiale négative ici dans cette conférence. Il s’agit de la théorie des probabilités simple. Nous avons des formules analytiques explicites en forme fermée pour le mode, la médiane, la fonction de distribution cumulative, l’asymétrie, l’aplatissement, etc. La page Wikipedia vous donne un résumé assez décent de toutes ces formules, donc j’invite le public à y jeter un coup d’œil s’ils veulent en savoir plus sur ce type spécifique de distribution de comptage.

Slide 9

Passons au modèle d’état de l’espace d’innovation, ou ISSM. Le modèle d’état de l’espace d’innovation est un nom long et impressionnant pour faire quelque chose de très simple. En fait, l’ISSM est un modèle qui transforme une série chronologique en une marche aléatoire. Avec l’ISSM, vous pouvez transformer une simple prévision de série chronologique, et quand je dis moyenne, je veux dire une prévision où pour chaque période vous aurez une valeur fixée à la moyenne, en une prévision probabiliste, et pas seulement une prévision de quantile mais directement une prévision probabiliste. À l’écran, vous pouvez voir une implémentation complète de l’ISSM écrite une fois de plus dans Envision. Nous pouvons voir que ce ne sont qu’une douzaine de lignes de code environ, et en réalité, la plupart de ces lignes de code ne font même pas grand-chose. L’ISSM est littéralement très simple, et il serait très simple de réimplémenter ce morceau de code dans n’importe quel autre langage, comme Python.

Jetons un coup d’œil de plus près aux détails de ces lignes de code. À la ligne un, je spécifie la plage des périodes où la marche aléatoire se produira. Du point de vue du M5, nous voulons une marche aléatoire pour une période de 28 jours, donc nous avons 28 points, un point par jour. Aux lignes trois, quatre et cinq, nous introduisons une série de paramètres qui contrôleront la marche aléatoire elle-même. Le premier paramètre est la dispersion, qui sera utilisée comme argument pour contrôler la forme des binomiales négatives qui se produisent à l’intérieur du processus ISSM. Ensuite, nous avons alpha, qui est essentiellement le facteur qui contrôle le processus de lissage exponentiel qui se produit également à l’intérieur de l’ISSM. À la ligne cinq, nous avons le niveau, qui est simplement l’état initial de la marche aléatoire. Enfin, à la ligne six, nous avons une série de facteurs qui sont généralement destinés à capturer tous les motifs calendaires que nous voulons intégrer dans notre modèle de prévision.

Maintenant, les valeurs des lignes trois à six sont simplement initialisées de manière factice. Pour des raisons de concision, je vais expliquer comment ces valeurs sont réellement optimisées dans un instant, mais ici, toutes les initialisations que vous voyez ne sont que des valeurs factices. Je tire même des valeurs aléatoires pour la ligne de base. Nous verrons comment, en réalité, si vous voulez utiliser ce modèle, vous devrez initialiser correctement ces valeurs, ce que nous ferons plus tard dans cette leçon.

Maintenant, examinons le cœur du processus ISSM. Le cœur commence à la ligne huit et commence par une boucle de 1000 itérations. Je viens de dire que le processus ISSM est un processus pour générer des marches aléatoires, donc ici nous faisons 1000 itérations, ou nous allons faire 1000 marches aléatoires. Nous pourrions en avoir plus, nous pourrions en avoir moins ; c’est un processus de Monte Carlo simple. Ensuite, à la ligne neuf, nous faisons une deuxième boucle. Il s’agit de la boucle qui itère un jour à la fois pour la période d’intérêt. Nous avons donc la boucle externe, qui est essentiellement une itération par marche aléatoire, et ensuite nous avons la boucle interne, qui est une itération, simplement en passant d’un jour à l’autre à l’intérieur de la marche aléatoire elle-même.

À la ligne 10, nous avons un niveau de conservation. Pour conserver le niveau, disons simplement que ce paramètre va être modifié à l’intérieur de la boucle interne, et non à l’intérieur de la boucle externe. Cela signifie que le niveau varie lorsque nous passons d’un jour à l’autre, mais lorsque nous passons d’une marche aléatoire à l’autre à travers la boucle de Monte Carlo, ce niveau sera réinitialisé à sa valeur initiale déclarée ci-dessus. À la ligne 11, nous calculons la moyenne. La moyenne est le deuxième paramètre que nous utilisons pour contrôler la distribution binomiale négative. Nous avons donc la moyenne, la dispersion et une distribution binomiale négative. À la ligne 12, nous tirons un écart selon la distribution binomiale normale. Tirer un écart signifie simplement que nous prenons un échantillon aléatoire extrait de cette distribution de comptage. Ensuite, à la ligne 13, nous mettons à jour ce niveau en fonction de l’écart que nous avons observé, et le processus de mise à jour est simplement un processus de lissage exponentiel très simple, guidé par le paramètre alpha. Si nous prenons alpha très grand, égal à un, cela signifie que nous mettons tout le poids sur la dernière observation. Au contraire, si nous devions mettre alpha égal à zéro, cela signifierait que nous aurions une dérive nulle ; nous resterions fidèles à la série temporelle originale telle que définie dans la référence.

Au fait, dans Envision, lorsque c’est écrit “.baseline,” ce que nous voyons ici, c’est qu’il y a une table, donc c’est une table qui a, disons, NDM5 ; cela aurait 28 valeurs, et la référence est simplement un vecteur qui appartient à cette table. À la ligne 15, nous collectons tous les écarts et les additionnons à travers “someday.q.” Nous les envoyons dans une variable appelée “total,” donc dans une marche aléatoire, nous avons le total des écarts qui ont été collectés pour chaque jour. Ainsi, nous avons le total des ventes pour 28 jours. Enfin, à la ligne 16, nous rassemblons et collectons essentiellement ces échantillons dans un “rendu”. Un rendu est un objet spécifique dans Envision, qui est essentiellement une distribution de probabilité d’entiers relatifs, positifs et négatifs.

En résumé, ce que nous avons, c’est l’ISSM en tant que générateur aléatoire de marches aléatoires unidimensionnelles. Dans le contexte de la prévision des ventes, vous pouvez penser à ces marches aléatoires comme des observations futures possibles pour les ventes elles-mêmes. C’est intéressant car nous ne pensons pas à la prévision comme la moyenne ou la médiane ; nous pensons littéralement à notre prévision comme une instance possible d’un futur.

Slide 10

À ce stade, nous avons rassemblé tout ce dont nous avons besoin pour commencer à assembler le modèle REMT, ce que nous allons faire maintenant.

Le modèle REMT adopte une structure multiplicative, qui rappelle le modèle de prévision de Holt-Winters. Chaque jour reçoit une référence, qui est une seule valeur qui se trouve être le produit de cinq effets calendaires. Nous avons, à savoir, le mois de l’année, le jour de la semaine, le jour du mois, les effets de Noël et d’Halloween. Cette logique est mise en œuvre sous la forme d’un script Envision concis.

Envision dispose d’une algèbre relationnelle qui offre des relations de diffusion entre les tables, ce qui est très pratique dans cette situation. Les cinq tables que nous avons construites, une table par motif calendrier, sont construites comme des tables de regroupement. Ainsi, nous avons la table des dates, et la table des dates a une clé primaire appelée “date”. Lorsque nous écrivons que nous déclarons une nouvelle table avec une agrégation “by” et que nous avons la date, nous construisons une table qui a une relation de diffusion directe avec la table des dates.

Si nous examinons spécifiquement la table du jour de la semaine à la ligne quatre, nous construisons une table qui aura exactement sept lignes. Chaque ligne de la table sera associée à une seule ligne du jour de la semaine. Ainsi, si nous mettons des valeurs dans cette table du jour de la semaine, nous pouvons diffuser ces valeurs assez naturellement car chaque ligne du côté destinataire, du côté de la date, aura une ligne à faire correspondre dans cette table du jour de la semaine.

À la ligne neuf, avec le vecteur “de.dot.baseline”, il est calculé comme la multiplication simple des cinq facteurs du côté droit de l’affectation. Tous ces facteurs sont d’abord diffusés à la table des dates, puis nous procédons à une multiplication simple ligne par ligne pour chaque ligne de la table des dates.

Maintenant, nous avons un modèle qui a quelques dizaines de paramètres. Nous pouvons compter ces paramètres : nous avons 12 paramètres pour le mois de l’année, de 1 à 12 ; nous avons sept paramètres pour le jour de la semaine ; et nous avons 31 paramètres pour le jour du mois. Cependant, dans le cas de NDM5, nous n’allons pas apprendre une valeur de paramètre distincte pour chaque valeur de chaque SKU, car nous nous retrouverions avec un nombre massivement élevé de paramètres qui seraient très probablement surajustés sur l’ensemble de données Walmart. Au lieu de cela, à NDM5, on a utilisé une astuce appelée partage de paramètres.

Le partage de paramètres signifie qu’au lieu d’apprendre des paramètres distincts pour chaque SKU, nous allons établir des sous-groupes et apprendre ces paramètres au niveau du sous-groupe. Ensuite, nous utilisons les mêmes valeurs à l’intérieur de ces groupes pour ces paramètres. Le partage de paramètres est une technique très classique qui est largement utilisée dans l’apprentissage profond, bien qu’elle précède l’apprentissage profond lui-même. Pendant le M5, le mois de l’année et le jour de la semaine ont été appris au niveau de l’agrégation du département du magasin. Je reviendrai sur les différents niveaux d’agrégation du M5 dans un instant. La valeur du jour du mois était en fait des facteurs codés en dur qui étaient définis au niveau de l’État, et lorsque je parle de l’État, je fais référence aux États-Unis, tels que la Californie, le Texas, etc. Pendant le M5, tous ces paramètres calendaires ont simplement été appris comme des moyennes directes sur leurs scopes associés. C’est une façon très directe de définir ces paramètres : vous prenez simplement tous les SKUs qui appartiennent au même scope, vous faites la moyenne de tout, vous normalisez, et vous avez votre paramètre.

Slide 11

Maintenant, à ce stade, nous avons rassemblé tout ce dont nous avons besoin pour assembler le modèle REMT. Nous avons vu comment construire la ligne de base quotidienne, qui intègre tous les motifs calendaires. Les motifs calendaires ont été appris grâce à des moyennes directes d’une certaine portée, ce qui constitue un mécanisme d’apprentissage rudimentaire mais efficace. Nous avons également vu que l’ISSM transforme une série temporelle en une marche aléatoire. Il ne nous reste plus qu’à établir les valeurs appropriées pour les paramètres de l’ISSM, à savoir alpha, le paramètre utilisé pour le processus de lissage exponentiel qui s’est produit à l’intérieur du SSM ; la dispersion, qui est un paramètre utilisé pour contrôler la distribution binomiale négative ; et la valeur initiale pour le niveau, qui est utilisée pour initialiser notre marche aléatoire.

Pendant la compétition M5, l’équipe de Lokad a utilisé une optimisation de recherche en grille simple pour apprendre ces trois paramètres restants. La recherche en grille signifie essentiellement que vous itérez sur toutes les combinaisons possibles de ces valeurs, en effectuant de petites augmentations à chaque fois. La recherche en grille a été dirigée en utilisant la fonction de perte de pinball, que j’ai décrite précédemment, pour orienter l’optimisation de ces trois paramètres. Pour chaque SKU, la recherche en grille est probablement l’une des formes les plus inefficaces d’optimisation mathématique. Cependant, étant donné que nous n’avons que trois paramètres et que nous n’avons besoin de réaliser qu’une seule optimisation par série temporelle, et que l’ensemble de données M5 lui-même est assez petit, cela convenait à la compétition M5.

Slide 12

Jusqu’à présent, nous avons présenté le fonctionnement du modèle REMT au niveau SKU. Cependant, dans le cadre de la compétition M5, il y avait 12 niveaux d’agrégation distincts. Le niveau SKU, étant le niveau le plus désagrégé, était le plus important. Un SKU, ou unité de gestion des stocks, est littéralement un produit dans un emplacement. Si vous avez le même produit dans 10 emplacements, alors vous avez 10 SKUs. Bien que le SKU soit sans doute le niveau d’agrégation le plus pertinent pour une supply chain, presque toutes les décisions liées aux stocks, telles que le réapprovisionnement et l’assortiment, se font au niveau SKU. La compétition M5 était principalement une compétition de prévision, et donc il y avait beaucoup d’accent mis sur les autres niveaux d’agrégation.

À l’écran, ces niveaux résument les niveaux d’agrégation qui étaient présents dans l’ensemble de données M5. Vous pouvez voir que nous avons les États, tels que la Californie et le Texas. Pour traiter les niveaux d’agrégation supérieurs, l’équipe de Lokad a utilisé deux techniques : soit en additionnant les marches aléatoires, c’est-à-dire en effectuant les marches aléatoires à un niveau d’agrégation inférieur, en les additionnant, puis en obtenant des marches aléatoires à un niveau d’agrégation supérieur ; soit en recommençant entièrement le processus d’apprentissage, en passant directement au niveau d’agrégation supérieur. Dans le cadre du défi d’incertitude M5, le modèle REMT était le meilleur au niveau SKU, mais il n’était pas le meilleur aux autres niveaux d’agrégation, bien qu’il se soit bien comporté dans l’ensemble.

Ma propre hypothèse de travail sur la raison pour laquelle le modèle REMT n’était pas le meilleur à tous les niveaux est la suivante (veuillez noter qu’il s’agit d’une hypothèse et que nous ne l’avons pas réellement testée) : la distribution binomiale négative offre deux degrés de liberté grâce à ses deux paramètres. Lorsque l’on examine des données assez clairsemées, comme on en trouve au niveau SKU, deux degrés de liberté permettent de trouver le bon équilibre entre le sous-ajustement et le surajustement. Cependant, à mesure que nous nous déplaçons vers des niveaux d’agrégation plus élevés, les données deviennent plus denses et plus riches, de sorte que le compromis se déplace probablement vers quelque chose de mieux adapté pour capturer plus précisément la forme de la distribution. Nous aurions besoin de quelques degrés de liberté supplémentaires - probablement seulement un ou deux paramètres supplémentaires - pour y parvenir.

Je soupçonne que l’augmentation du degré de paramétrisation de la distribution des comptes utilisée au cœur du modèle REMT aurait permis d’atteindre quelque chose de très proche, voire directement de pointe, pour les niveaux d’agrégation supérieurs. Néanmoins, nous n’avons pas eu le temps de le faire, et nous pourrions revoir le cas à un moment donné à l’avenir. Cela conclut ce qui a été fait par l’équipe de Lokad lors de la compétition M5.

Slide 13

Discutons de ce qui aurait pu être fait différemment ou mieux. Bien que le modèle REMT soit un modèle paramétrique à faible dimension avec une structure multiplicatrice simple, le processus utilisé pour obtenir les valeurs des paramètres lors de la compétition M5 était quelque peu compliqué de manière accidentelle. C’était un processus en plusieurs étapes, chaque motif de calendrier ayant son propre traitement spécial ad hoc, se terminant par une recherche en grille sur mesure pour compléter le modèle REMT. Tout le processus était assez long pour les data scientists, et je soupçonne qu’il serait assez peu fiable dans des environnements de production en raison de la quantité de code ad hoc impliqué.

En particulier, je pense que nous pouvons et devons unifier le processus d’apprentissage de tous les paramètres en un seul processus ou, à tout le moins, unifier le processus d’apprentissage de sorte que la même méthode soit utilisée de manière répétée. De nos jours, Lokad utilise la programmation différentiable pour faire exactement cela. La programmation différentiable élimine le besoin d’agrégations ad hoc en ce qui concerne les motifs de calendrier. Elle élimine également le problème de l’ordonnancement précis de l’extraction des motifs de calendrier en extrayant tous les motifs en une seule fois. Enfin, comme la programmation différentiable est un processus d’optimisation en soi, elle remplace la recherche en grille par une logique d’optimisation beaucoup plus efficace. Nous examinerons plus en détail comment la programmation différentiable peut être utilisée pour la modélisation prédictive dans le contexte des objectifs de la supply chain dans les prochaines leçons de ce chapitre.

Slide 14

Maintenant, l’un des résultats les plus surprenants de la compétition M5 était qu’aucun motif statistique n’est resté sans nom. Nous avions littéralement quatre motifs : simplicités, état, dispersion et dérive, qui étaient tout ce qu’il fallait pour atteindre une précision de prévision de pointe dans la compétition M5.

Les simplicités sont toutes basées sur le calendrier et aucune d’entre elles n’est même vaguement surprenante. L’état peut être représenté par un seul nombre qui représente le niveau atteint par le SKU à un moment donné. La dispersion peut être représentée par un seul nombre qui est la dispersion utilisée pour paramétrer la binomiale négative, et la dérive peut être représentée par un seul nombre associé au processus de lissage exponentiel qui s’est produit dans le SSM. Nous n’avons même pas eu besoin d’inclure la tendance, qui était trop faible pour un horizon de 28 jours.

Bien que nous examinions les cinq années de ventes agrégées pour le M5 telles qu’elles sont affichées à l’écran, l’agrégation montre clairement une tendance à la hausse modeste. Néanmoins, le modèle REMT fonctionne sans elle et n’a eu aucune conséquence en termes de précision. Les performances du modèle REMT soulèvent la question : y a-t-il un autre motif à capturer, et avons-nous manqué des motifs ?

Au minimum, les performances du modèle REMT montrent que aucun des modèles plus sophistiqués impliqués dans cette compétition, tels que les arbres de renforcement de gradient ou les méthodes d’apprentissage profond, n’ont capturé autre chose que ces quatre motifs. En effet, si l’un de ces modèles avait réussi à capturer de manière substantielle quelque chose, il aurait largement surpassé le modèle REMT au niveau du SKU, ce qui n’a pas été le cas. On peut en dire autant de toutes les méthodes statistiques plus sophistiquées comme ARIMA. Ces modèles n’ont pas non plus réussi à capturer autre chose que ce que ce modèle paramétrique multiplicatif très simple a capturé.

Le principe de la navette d’Occam nous dit que, à moins que nous ne puissions trouver une très bonne raison de penser qu’un motif nous échappe ou une très bonne raison pour une propriété très intéressante qui l’emporte sur la simplicité de ce modèle, nous n’avons aucune raison d’utiliser autre chose qu’un modèle qui est au moins aussi simple que le modèle REMT.

Slide 15

Cependant, une série de motifs étaient absents de la compétition M5 en raison de la conception même de l’ensemble de données M5. Ces motifs sont importants et, dans la pratique, tout modèle qui les ignore fonctionnera mal dans un environnement de vente au détail réel. Je base cette affirmation sur ma propre expérience.

Tout d’abord, nous avons les lancements de produits. La compétition M5 n’incluait que des produits ayant au moins cinq ans d’historique des ventes. C’est une hypothèse déraisonnable en ce qui concerne la chaîne d’approvisionnement. En effet, les produits de grande consommation ont généralement une durée de vie de seulement quelques années, et donc dans un magasin réel, il y a toujours une partie importante de l’assortiment qui a moins d’un an d’historique des ventes. De plus, lorsqu’on examine les produits avec de longs délais d’approvisionnement, de nombreuses décisions de chaîne d’approvisionnement doivent être prises avant même que le produit ait une chance d’être vendu une seule fois dans un magasin quelconque. Ainsi, nous avons besoin de modèles de prévision qui peuvent même fonctionner avec zéro historique des ventes pour un produit donné.

Le deuxième motif d’une importance critique est les ruptures de stock. Les ruptures de stock se produisent dans la vente au détail, et l’ensemble de données de la compétition M5 les a complètement ignorées. Cependant, les ruptures de stock limitent les ventes. Si un produit est en rupture de stock dans le magasin, il ne sera pas vendu ce jour-là, et donc les ruptures de stock introduisent un biais significatif dans les ventes que nous observons. Le problème dans le cas de Walmart et des magasins de marchandises générales est encore plus compliqué car les enregistrements électroniques qui capturent les valeurs de stock en main ne peuvent pas être entièrement fiables. Il existe de nombreuses inexactitudes des stocks, et cela doit également être pris en compte.

Troisièmement, nous avons les promotions. La compétition M5 incluait des données historiques sur les prix ; cependant, les données de prix n’ont pas été fournies pour la période à prévoir. Par conséquent, il semble qu’aucun concurrent dans cette compétition n’ait réussi à exploiter les informations sur les prix pour améliorer la précision des prévisions. Le modèle REMT n’utilise pas du tout les informations sur les prix. Au-delà du fait que nous n’avions pas les informations sur les prix pour la période de prévision, les promotions ne concernent pas seulement les prix. Un produit peut être promu en étant mis en évidence dans un magasin, ce qui peut stimuler considérablement la demande, indépendamment de la baisse de prix. De plus, avec les promotions, nous devons prendre en compte les effets de cannibalisation et de substitution.

Dans l’ensemble, l’ensemble de données M5, d’un point de vue de la supply chain, peut être considéré comme un ensemble de données jouet. Bien qu’il reste probablement le meilleur ensemble de données public existant pour réaliser des benchmarks de la supply chain, il est encore loin d’être équivalent à une configuration de production réelle, même dans une chaîne de vente au détail de taille modeste.

Slide 16

Cependant, les limites de la compétition M5 ne sont pas seulement dues à l’ensemble de données. D’un point de vue de la supply chain, il existe des problèmes fondamentaux avec les règles utilisées pour mener la compétition M5.

Le premier problème fondamental est de ne pas confondre les ventes avec la demande. Nous avons déjà abordé ce problème avec les ruptures de stock. D’un point de vue de la supply chain, l’intérêt réel réside dans l’anticipation de la demande, pas dans les ventes. Cependant, le problème est plus profond. L’estimation correcte de la demande est fondamentalement un problème d’apprentissage non supervisé. Ce n’est pas parce que des choix arbitraires ont été faits concernant l’assortiment applicable dans un magasin que la demande d’un produit ne doit pas être estimée. Nous devons estimer la demande de produits, qu’ils fassent partie ou non de l’assortiment dans un magasin donné.

Le deuxième aspect est que les prévisions quantiles sont moins utiles que les prévisions probabilistes. Le choix sélectif des taux de service laisse des lacunes dans l’image, et les prévisions quantiles sont relativement faibles en termes d’utilisation dans la supply chain. Une prévision probabiliste offre une vision beaucoup plus complète car elle fournit la distribution de probabilité complète, éliminant ainsi cette catégorie de problèmes. Le seul inconvénient majeur des prévisions probabilistes est qu’elles nécessitent plus d’outils, en particulier lorsqu’il s’agit de faire réellement quelque chose avec la prévision en aval une fois que la prévision a été produite. Au fait, le modèle REMT fournit en réalité quelque chose qui peut être qualifié de prévision probabiliste car, grâce au processus de Monte Carlo, vous pouvez générer une distribution de probabilité complète. Il vous suffit de régler le nombre d’itérations de Monte Carlo.

Dans la vente au détail, les clients ne se soucient pas vraiment de la perspective SKU ou du taux de service qui peut être atteint sur un SKU donné. La perception des clients dans un magasin de marchandises générales comme Walmart est influencée par le panier. En général, les clients entrent dans un magasin Walmart avec une liste de courses complète en tête, pas seulement un produit. De plus, il y a des tonnes de substituts disponibles dans le magasin. Le problème d’utiliser une seule métrique SKU pour évaluer la qualité du service est qu’elle passe complètement à côté de ce que les clients perçoivent comme la qualité du service dans le magasin.

Slide 17

En conclusion, en tant que référence pour la prévision des séries temporelles, la compétition M5 est solide en termes de jeux de données et de méthodologie. Cependant, la perspective des séries temporelles elle-même est insuffisante en ce qui concerne la supply chain. Les séries temporelles ne reflètent pas les données telles qu’elles se trouvent dans les chaînes d’approvisionnement, ni les problèmes tels qu’ils se présentent dans les chaînes d’approvisionnement. Pendant la compétition M5, il y avait de nombreuses méthodes beaucoup plus sophistiquées parmi les meilleurs classements. Cependant, à mon avis, ces modèles sont des impasses. Ils sont déjà trop compliqués pour une utilisation en production et ils embrassent tellement la perspective des séries temporelles qu’ils n’ont aucune marge de manœuvre opérationnelle pour évoluer vers la sorte de perspective fraîche nécessaire pour ajuster ces modèles à nos propres besoins en matière de supply chain.

Au contraire, en tant que point de départ, le modèle REMT est aussi bon qu’il peut l’être. C’est une combinaison très simple d’ingrédients qui sont, en eux-mêmes, très simples. De plus, il ne faut pas beaucoup d’imagination pour voir qu’il y a de nombreuses façons d’utiliser et de combiner ces éléments au-delà de la combinaison spécifique mise en place pour la compétition M5. Le classement obtenu par le modèle REMT dans la compétition M5 démontre que, jusqu’à preuve du contraire, nous devrions nous en tenir à un modèle très simple, car nous n’avons aucune raison convaincante d’opter pour des modèles très compliqués qui sont presque garantis d’être plus difficiles à déboguer, plus difficiles à utiliser en production et qui consommeront beaucoup plus de ressources informatiques.

Dans les prochaines conférences de ce cinquième chapitre, nous verrons comment nous pouvons utiliser les ingrédients qui faisaient partie du modèle REMT, ainsi que quelques autres ingrédients, pour relever la vaste variété de défis prédictifs tels qu’ils se présentent dans les chaînes d’approvisionnement. La chose essentielle à retenir est que le modèle n’a pas d’importance ; c’est la modélisation qui compte.

Slide 18

Question : Pourquoi des binomiales négatives ? Quelle était la raison lorsque vous les avez sélectionnées ?

C’est une très bonne question. Eh bien, il s’avère que s’il existe un bestiaire mondial des distributions de comptage, il existe probablement une vingtaine de distributions de comptage très largement connues. Chez Lokad, nous en avons testé une douzaine pour nos propres besoins internes. Il s’avère que la distribution de Poisson, qui est une distribution de comptage très simpliste avec un seul paramètre, fonctionne assez bien lorsque les données sont très dispersées. Donc, Poisson est assez bon, mais en réalité, l’ensemble de données M5 était un peu plus riche. Dans le cas de l’ensemble de données Walmart, nous avons essayé des distributions de comptage qui avaient quelques paramètres de plus, et cela semblait fonctionner. Nous n’avons pas la preuve que c’est effectivement la meilleure ; il y a probablement de meilleures options. La distribution de binomiale négative présente quelques avantages clés : la mise en œuvre est très simple, et c’est une distribution de comptage largement étudiée. Ainsi, vous disposez d’un algorithme très connu, non seulement pour calculer les probabilités, mais aussi pour échantillonner un déviateur, obtenir la moyenne ou la distribution cumulative. Tout l’outillage que vous pouvez attendre en termes de distribution de comptage est là, ce qui n’est pas le cas pour toutes les distributions de comptage.

Il y a un degré de pragmatisme qui a été pris en compte dans ce choix, mais aussi un peu de logique. Avec la distribution de Poisson, vous avez un degré de liberté ; la binomiale négative en a deux. Ensuite, vous pouvez utiliser des astuces comme la binomiale négative à inflation de zéro, qui vous donne en quelque sorte deux degrés et demi de liberté, etc. Je ne dirais pas qu’il y a une valeur spécifique définitive à cette distribution de comptage.

Question : Il y avait d’autres fournisseurs de logiciels d’optimisation de la chaîne d’approvisionnement dans le M5, mais personne n’utilisait de modèles en direct qui s’échelonnaient bien en production. Que font la plupart des gens, des modèles d’apprentissage automatique lourds ?

Tout d’abord, je dirais que nous devons distinguer et préciser que le M5 a été réalisé sur Kaggle, une plateforme de science des données. Sur Kaggle, vous avez une incitation massive à utiliser les machines les plus compliquées possibles. L’ensemble de données est petit, vous avez beaucoup de temps, et pour être classé en tête, vous devez simplement être plus précis de 0,1 % que l’autre personne. C’est tout ce qui compte. Ainsi, dans pratiquement toutes les compétitions Kaggle, vous verriez que les premières places sont occupées par des personnes qui ont fait des choses très compliquées juste pour obtenir une précision supplémentaire de 0,1 %. Donc, la nature même d’une compétition de prévision vous incite fortement à tout essayer, y compris les modèles les plus lourds que vous pouvez trouver.

Si nous nous demandons si les gens utilisent réellement ces modèles d’apprentissage automatique lourds en production, mon observation occasionnelle personnelle est absolument pas. C’est en fait extrêmement rare. En tant que PDG de Lokad, un fournisseur de logiciels de chaîne d’approvisionnement, j’ai parlé à des centaines de directeurs de chaîne d’approvisionnement. Littéralement, plus de 90 % des grandes chaînes d’approvisionnement fonctionnent avec Excel. Je n’ai jamais vu de chaîne d’approvisionnement à grande échelle fonctionner avec des arbres à gradient renforcé ou des réseaux d’apprentissage profond. Si nous mettons de côté Amazon, Amazon est probablement unique en son genre. Il y a peut-être une demi-douzaine d’entreprises, comme Amazon, Alibaba, JD.com et quelques autres - les très grands supergéants du commerce électronique - qui utilisent réellement ce genre de technologie. Mais elles sont exceptionnelles à cet égard. Vos grandes entreprises de produits de grande consommation ou de vente au détail en magasin ne utilisent pas ce genre de choses en production.

Question : Il est étrange que vous mentionniez beaucoup de termes mathématiques et statistiques, mais que vous ignoriez la nature des ventes au détail et les principaux facteurs d’influence.

Je dirais, oui, c’est plus comme un commentaire, mais ma question pour vous serait : qu’apportez-vous ? C’est ce que je disais quand les fournisseurs de chaîne d’approvisionnement se vantant d’une technologie de prévision supérieure étaient tous absents. Pourquoi est-ce que si vous avez une technologie de prévision absolument supérieure, vous êtes absent chaque fois qu’il y a quelque chose comme un benchmark public ? L’autre explication est que les gens bluffent.

En ce qui concerne la nature des ventes au détail et de nombreux facteurs d’influence, j’ai énuméré les modèles qui ont été utilisés, et en utilisant ces quatre modèles, le modèle REMT s’est retrouvé en première position au niveau du SKU en termes de précision. Si vous partez du principe qu’il existe beaucoup plus de modèles importants, c’est à vous de le prouver. Je soupçonne que si parmi plus de 900 équipes ces modèles n’ont pas été observés, ils n’étaient probablement pas là, ou la capture de ces modèles est tellement en dehors de ce que nous pouvons faire avec la technologie que nous avons que, pour l’instant, c’est comme si ces modèles n’existaient pas d’un point de vue pratique.

Question : Est-ce que des concurrents dans le M5 ont appliqué des idées qui, bien qu’elles n’aient pas battu Lokad, seraient précieuses à incorporer, en particulier pour des applications génériques ? Mention honorable ?

J’ai beaucoup prêté attention à mes concurrents, et je suis assez sûr qu’ils prêtent également attention à Lokad. Je n’ai pas vu cela. Le modèle REMT était vraiment unique en son genre, complètement différent de ce qui était fait par essentiellement tous les autres 50 meilleurs concurrents pour l’une ou l’autre des tâches. Les autres participants utilisaient des choses beaucoup plus classiques dans les cercles de l’apprentissage automatique.

Il y avait quelques astuces très intelligentes en science des données démontrées pendant la compétition. Par exemple, certaines personnes ont utilisé des astuces très intelligentes et sophistiquées pour augmenter les données de l’ensemble de données Walmart afin de le rendre beaucoup plus grand qu’il ne l’était, afin d’obtenir quelques pourcentages de précision supplémentaires. Cela a été fait par le concurrent qui s’est classé premier dans le défi de l’incertitude. L’augmentation des données, et non l’inflation des données, est le terme approprié. L’augmentation des données est couramment utilisée dans les techniques d’apprentissage profond, mais ici elle a été utilisée avec des arbres boostés par gradient de manière assez inhabituelle. Il y avait des astuces sophistiquées et très intelligentes en science des données démontrées pendant cette compétition. Je ne suis pas sûr que ces astuces se généralisent bien à la supply chain, mais je mentionnerai probablement quelques-unes d’entre elles au cours du reste de ce chapitre si l’occasion se présente.

Question : Avez-vous estimé les niveaux supérieurs en agrégeant vos niveaux SKU ou en calculant fraisement les niveaux intermédiaires pour les niveaux supérieurs ? Si les deux, comment se comparent-ils ?

Le problème avec les grilles de quantiles, c’est que vous avez tendance à optimiser les modèles séparément pour chaque niveau cible. Ce qui peut se produire avec les grilles de quantiles, c’est que vous pouvez avoir des croisements de quantiles, ce qui signifie que juste à cause d’instabilités numériques, votre 99e quantile se retrouve inférieur à votre 97e quantile. Cela n’a pas d’importance ; généralement, vous réorganisez simplement les valeurs. Fondamentalement, c’est le genre de problème auquel je faisais référence en termes de grilles de quantiles qui ne sont pas tout à fait des prévisions probabilistes. Vous avez des tonnes de détails pointilleux à résoudre, mais la réalité est qu’ils sont sans conséquence dans l’ensemble des choses. Lorsque vous passez aux prévisions probabilistes, ces problèmes n’existent même plus.

Question : Si vous deviez concevoir une autre compétition pour les fournisseurs de logiciels, à quoi ressemblerait-elle ?

Franchement, je ne sais pas, et c’est une question très difficile. Je crois que, malgré toutes mes critiques sévères, en ce qui concerne les références en matière de prévisions, M5 est la meilleure que nous ayons. Maintenant, en ce qui concerne les références en matière de supply chain, le problème est que je ne suis même pas convaincu que cela soit possible. Lorsque j’ai laissé entendre que certains des problèmes nécessitent en réalité un apprentissage non supervisé, c’est délicat. Lorsque vous entrez dans le domaine de l’apprentissage non supervisé, vous devez renoncer à avoir des métriques, et l’ensemble du domaine de l’apprentissage automatique avancé lutte encore en tant que communauté pour trouver un terrain d’entente sur ce que cela signifie même d’exploiter des outils d’apprentissage automatisés supérieurs dans un domaine où vous êtes non supervisé. Comment évaluez-vous même ce genre de choses ?

Pour le public qui n’était pas présent lors de ma conférence sur l’apprentissage automatique, dans les paramètres supervisés, vous essayez essentiellement d’accomplir une tâche où vous avez des entrées-sorties et une métrique pour évaluer la qualité de vos sorties. Lorsque vous êtes non supervisé, cela signifie que vous n’avez pas d’étiquettes, vous n’avez rien à comparer, et les choses deviennent beaucoup plus difficiles. De plus, je soulignerais que dans la supply chain, il y a beaucoup de choses que vous ne pouvez même pas tester en arrière. Au-delà de l’aspect non supervisé, il y a même la perspective des tests en arrière qui n’est pas complètement satisfaisante. Par exemple, prévoir la demande générera certains types de décisions, telles que des décisions de tarification. Si vous décidez d’ajuster le prix à la hausse ou à la baisse, c’est une décision que vous avez prise, et cela influencera à jamais l’avenir. Donc, vous ne pouvez pas revenir en arrière pour dire : “D’accord, je vais faire une prévision de demande différente, puis prendre une décision de tarification différente, et ensuite laisser l’histoire se répéter, sauf que cette fois j’ai un prix différent.” Il y a de nombreux aspects où même l’idée des tests en arrière ne fonctionne pas. C’est pourquoi je pense qu’une compétition est quelque chose de très intéressant d’un point de vue de la prévision. C’est utile comme point de départ pour la supply chain, mais nous devons faire mieux et différemment si nous voulons aboutir à quelque chose de vraiment satisfaisant pour la supply chain. Dans ce chapitre sur la modélisation prédictive, je vais montrer pourquoi la modélisation mérite une telle attention.

Question : Cette méthodologie peut-elle être utilisée dans des situations où vous disposez de peu de points de données ?

Je dirais absolument. Ce type de modélisation structurée, comme le montre ici le modèle REMT, brille particulièrement dans les situations où vous disposez de très peu de données. La raison est simple : vous pouvez intégrer beaucoup de connaissances humaines dans la structure même du modèle. La structure du modèle n’est pas quelque chose qui a été tiré de nulle part ; c’est littéralement la conséquence de l’équipe Lokad qui comprend le problème. Par exemple, lorsque nous examinons les motifs calendaires tels que le jour de la semaine, le mois de l’année, etc., nous n’avons pas essayé de découvrir ces motifs ; l’équipe Lokad savait dès le départ que ces motifs étaient déjà là. La seule incertitude était la prévalence respective du motif du jour du mois, qui tend à être faible dans de nombreuses situations. Dans le cas de la configuration de Walmart, c’était simplement dû au fait qu’il existe un programme de timbres aux États-Unis que ce motif du jour du mois est aussi fort qu’il l’est.

Si vous disposez de peu de données, ce type d’approche fonctionne extrêmement bien car quel que soit le mécanisme d’apprentissage que vous essayez d’utiliser, il va largement exploiter la structure que vous avez imposée. Donc oui, cela soulève la question : et si la structure est fausse ? Mais c’est pourquoi la réflexion et la compréhension de la supply chain sont vraiment importantes afin que vous puissiez prendre les bonnes décisions. En fin de compte, vous avez des moyens d’évaluer si vos décisions arbitraires étaient bonnes ou mauvaises, mais fondamentalement, cela se produit très tard dans le processus. Plus tard dans ce chapitre sur la modélisation prédictive, nous illustrerons comment la modélisation structurée peut être utilisée efficacement sur des ensembles de données incroyablement rares, tels que ceux de l’aviation, du luxe haut de gamme et des émeraudes de toutes sortes. Dans ces situations, les modèles structurés brillent vraiment.

La prochaine conférence aura lieu le 2 février, qui est un mercredi, à la même heure, à 15h heure de Paris. À bientôt !

Références

  • Une approche ISSM en boîte blanche pour estimer les distributions d’incertitude des ventes Walmart, Rafael de Rezende, Katharina Egert, Ignacio Marin, Guilherme Thompson, décembre 2021 (lien)
  • La compétition d’incertitude M5 : Résultats, conclusions et découvertes, Spyros Makridakis, Evangelos Spiliotis, Vassilis Assimakopoulos, Zhi Chen, novembre 2020 (lien)