00:00:00 Introduction de l’interview
00:00:47 Parcours et travail de Nikos Kourentzes
00:03:25 Compréhension de la congruence des prévisions
00:04:44 Limites de la précision dans les prévisions
00:06:14 Congruence dans les prévisions de séries temporelles
00:08:02 Considérations pour la modélisation des stocks de la supply chain
00:09:03 Congruence et cohérence des prévisions
00:10:29 Métriques mathématiques en production
00:12:08 Considérations pour les stocks d’un horloger de luxe
00:14:47 Déclenchement de la production en cas de fluctuation à la hausse
00:16:03 Optimisation du modèle pour la demande d’un SKU
00:17:41 Recherche sur les estimateurs de rétrécissement et les hiérarchies temporelles
00:19:05 Meilleurs modèles pour tous les horizons
00:21:32 Controverse autour de la congruence des prévisions
00:24:05 Calibration des politiques de stocks
00:26:27 Équilibre entre précision et congruence
00:31:14 Astuces d’agrégation temporelle pour lisser les prévisions
00:32:54 Importance des gradients dans l’optimisation
00:35:28 Corrélations dans la supply chain
00:38:10 Au-delà de la prévision des séries temporelles
00:40:27 Honnêteté de la prévision probabiliste
00:42:32 Similitudes entre la congruence et le ratio du coup de fouet
00:45:18 Importance de l’analyse de la prise de décision séquentielle
00:47:27 Avantages de la séparation des étapes
00:49:34 Interaction humaine avec les modèles
00:52:05 Maintien de l’élément humain dans les prévisions
00:54:35 Confiance dans les experts et les analystes
00:57:28 Situation réaliste de gestion de millions de SKUs
01:00:01 Ajustements de modèles de haut niveau
01:02:13 Décisions guidées par la probabilité d’événements rares
01:04:44 Point de vue de Nikos sur les ajustements
01:07:14 Perdre du temps sur des ajustements mineurs
01:09:08 Contre les ajustements manuels quotidiens
01:11:43 Avantages pour toute l’entreprise de la modification du code
01:13:33 Rôle de l’équipe de data science
01:15:35 Les prévisions probabilistes dissuadent les interférences manuelles
01:18:12 La question à un million de dollars sur l’IA
01:21:11 Importance de comprendre les modèles d’IA
01:24:35 Valeur et coût des modèles d’IA
01:26:02 Résolution des problèmes de stocks
À propos de l’invité
Nikolaos Kourentzes est professeur en analyse prédictive et en IA au laboratoire d’IA de l’Université de Skövde en Suède. Ses domaines de recherche portent sur la prévision des séries temporelles, avec des travaux récents sur la modélisation de l’incertitude, les hiérarchies temporelles et les modèles de prévision hiérarchique. Ses recherches se concentrent sur la traduction des prévisions en décisions et actions, dans des domaines tels que la gestion des stocks, la modélisation de la liquidité pour les opérations monétaires et les soins de santé. Il possède une vaste expérience de travail tant dans l’industrie que dans le secteur public et a rédigé diverses bibliothèques open source pour faciliter l’utilisation de méthodes de prévision avancées dans la pratique.
Résumé
Lors d’une récente interview de LokadTV, Nikos Kourentzes, professeur à l’Université de Skövde, et Joannes Vermorel, PDG de Lokad, ont discuté de la congruence des prévisions dans la prise de décision en matière de supply chain. Ils ont souligné l’importance d’aligner les prévisions sur les décisions, en reconnaissant que les modèles peuvent être mal spécifiés. Ils ont fait la distinction entre précision des prévisions et congruence, en affirmant que la prévision la plus précise peut ne pas être la meilleure pour la prise de décision si elle n’est pas alignée sur l’objectif de la décision. Ils ont également discuté de l’application pratique de la congruence des prévisions dans la prise de décision en matière de gestion des stocks et de son potentiel pour atténuer l’effet coup de fouet. Le rôle de l’IA et de l’implication humaine dans la congruence des prévisions a également été abordé.
Résumé détaillé
Lors d’une récente interview animée par Conor Doherty, responsable de la communication chez Lokad, Nikos Kourentzes, professeur à l’Université de Skövde, et Joannes Vermorel, PDG et fondateur de Lokad, ont discuté du concept de congruence des prévisions dans le contexte de la prise de décision en matière de supply chain.
Kourentzes, qui dirige une équipe de recherche axée sur l’IA à l’Université de Skövde, a expliqué que son travail tourne principalement autour du risque de modèle et de la spécification du modèle. Il a souligné l’importance d’aligner les prévisions sur les décisions qu’elles soutiennent, un concept qu’il appelle la congruence des prévisions. Cette approche vise à améliorer la précision en reconnaissant que les modèles peuvent être mal spécifiés.
Kourentzes a ensuite fait la distinction entre la précision des prévisions et la congruence des prévisions. Alors que la précision est une mesure de l’ampleur des erreurs de prévision, la congruence décrit la cohérence des prévisions dans le temps. Il a soutenu que la prévision la plus précise n’est pas nécessairement la meilleure pour la prise de décision si elle n’est pas alignée sur la fonction objectif de la décision.
Vermorel, en accord avec Kourentzes, a souligné que les mesures mathématiques sont souvent insuffisantes lorsqu’elles sont mises en pratique. Il a donné des exemples de décisions différentes pouvant avoir des coûts asymétriques divers, tels que la vente de produits périssables par rapport aux articles de luxe. Vermorel a également discuté de l’effet cliquet dans la gestion de la supply chain, où les fluctuations des prévisions de la demande peuvent conduire à des décisions irréversibles.
Kourentzes a partagé son passage de la focalisation uniquement sur la précision à la prise en compte d’autres facteurs dans les prévisions. Il a souligné l’importance de comprendre le fonctionnement sous-jacent des modèles et les hypothèses sur lesquelles ils sont basés. Il a suggéré que, une fois une collection de prévisions précises trouvée, la plus congruente devrait être choisie.
Vermorel, quant à lui, a partagé que chez Lokad, ils optimisent directement les résultats financiers, plutôt que de se concentrer sur les mesures mathématiques. Il a expliqué que les gradients sont cruciaux pour l’optimisation, car ils fournissent la direction dans laquelle les paramètres doivent être ajustés pour minimiser les erreurs. Il a également discuté de l’importance des prévisions probabilistes, qui prennent en compte tous les futurs possibles, non seulement pour la demande, mais aussi pour les délais d’approvisionnement variables et les incertitudes.
La discussion s’est ensuite orientée vers l’application pratique de la congruence des prévisions dans la prise de décision en matière de gestion des stocks et son potentiel pour atténuer l’effet coup de fouet. Kourentzes a expliqué que la congruence et le ratio du coup de fouet présentent de nombreuses similitudes, et que la conception de prévisions en tenant compte de la congruence peut aider à réduire l’effet coup de fouet.
Le rôle de l’intervention humaine dans la congruence des prévisions a également été discuté. Kourentzes estime que l’intervention humaine ne devrait pas être éliminée, mais plutôt guidée pour ajouter de la valeur là où c’est possible. Vermorel, cependant, a partagé que Lokad n’autorise plus les ajustements de prévisions par les humains, car cela a conduit à de meilleurs résultats.
La conversation s’est conclue par une discussion sur le rôle de l’IA dans la congruence des prévisions et la prise de décision dans les chaînes d’approvisionnement. Kourentzes et Vermorel ont tous deux convenu que si l’IA a un rôle à jouer dans la résolution des défis liés aux prévisions, elle ne devrait pas remplacer toutes les méthodes existantes et qu’il est crucial de comprendre le processus.
Dans ses remarques finales, Kourentzes a appelé à un changement des méthodes de prévision traditionnelles vers une approche plus intégrée avec la prise de décision. Il a souligné la nécessité de mettre à jour notre façon de penser, nos logiciels et nos manuels, et a salué l’inclusion de personnes issues de différents domaines dans le domaine des prévisions. Il a conclu en soulignant l’importance de la collaboration et des perspectives diverses pour relever ces défis.
Transcription complète
Conor Doherty: Bienvenue. Habituellement, les discussions sur les prévisions tournent autour de l’idée de l’exactitude. Notre invité d’aujourd’hui, Nikos Kourentzes, a une perspective différente. Il est professeur au Laboratoire d’intelligence artificielle de l’Université de Skövde. Aujourd’hui, il va parler avec Joannes Vermorel et moi du concept de congruence des prévisions. Maintenant, Nikos, pouvez-vous confirmer devant la caméra que j’ai prononcé Skövde correctement ?
Nikos Kourentzes: C’est la meilleure prononciation que je puisse faire aussi.
Conor Doherty: Eh bien, je n’ai plus de questions alors. Merci beaucoup de nous avoir rejoints.
Nikos Kourentzes: C’est un plaisir.
Conor Doherty: Plus sérieusement, je travaille à l’Université de Skövde, au Laboratoire d’intelligence artificielle. Ça a l’air très impressionnant. Que faites-vous exactement et quelle est votre formation en général ?
Nikos Kourentzes: Eh bien, laissez-moi d’abord vous présenter un peu le laboratoire, puis je vous parlerai un peu de mon parcours. Nous sommes une équipe diversifiée d’universitaires intéressés par la recherche en IA. L’accent est principalement mis sur la science des données, mais l’espace d’application est assez diversifié. Par exemple, comme vous l’avez déjà mentionné, je vais probablement parler de prévisions et de modélisation des séries temporelles. Mais par exemple, d’autres collègues s’intéressent à des sujets tels que la fusion d’informations, l’analyse visuelle, les voitures autonomes, les aspects cognitifs de l’IA. C’est ce qui est génial avec l’équipe, car nous avons une polyphonie de recherche et, vous savez, lorsque vous avez des discussions, vous obtenez beaucoup d’idées diverses qui vont au-delà de la littérature typique. Du moins, je trouve que c’est un très bel espace où se trouver.
L’université est, vous savez, ce que je dis habituellement à mes collègues, c’est que lorsque vous utilisez des noms suédois à l’international, cela peut être n’importe quoi. Donc, il serait probablement utile de dire que l’université, en termes de science des données et d’IA, a une certaine tradition même si son nom n’est pas largement connu. Mais, vous savez, je suis très heureux d’avoir rejoint l’équipe. En ce qui me concerne, j’ai travaillé dans les prévisions, la modélisation des séries temporelles, que ce soit avec des statistiques, de l’économétrie ou de l’IA, depuis environ 20 ans. J’ai fait mon doctorat à l’université de Lancaster en intelligence artificielle. C’était dans l’école de commerce. Et à l’origine, ma formation était en gestion. Mais à un moment donné, je me suis dit, d’accord, c’est bien beau. Je sais quelles questions poser, mais je ne sais pas comment les résoudre. Alors j’ai fait un peu de travail en recherche opérationnelle, d’où mon intérêt pour la supply chain, et finalement mon doctorat en intelligence artificielle. Et ensuite, je me suis davantage intéressé à l’économétrie. Donc, j’ai réussi à diversifier ma compréhension des séries temporelles également.
Conor Doherty: Merci, Nikos. Et en fait, la façon dont Joannes et moi avons découvert votre profil, en premier lieu, la façon dont je l’ai découvert, c’était un supply chain scientist qui suit en fait certains de vos travaux sur LinkedIn qui m’a envoyé un article où vous aviez écrit sur la congruence des prévisions et inclus un lien vers votre document de travail sur le sujet. L’essentiel de la conversation d’aujourd’hui portera sur les prévisions et leur application à la supply chain. Mais avant d’entrer dans les détails, pourriez-vous nous donner un peu de contexte sur ce qu’est la congruence des prévisions et comment cela est devenu un domaine de recherche pour vous ?
Nikos Kourentzes: Une bonne partie de mon travail a porté sur le risque de modèle et la spécification du modèle. Souvent, dans les prévisions de séries temporelles, nous identifions un modèle et nous disons, d’accord, maintenant nous y allons. Mais nous ne reconnaissons pas vraiment que chaque modèle sera incorrect à certains égards. Je veux dire, c’est le mantra habituel des prévisions, nous l’entendons toujours, d’accord, tous les modèles sont faux, certains sont utiles. Mais je pense que nous pouvons aller plus loin que cela car nous pouvons commencer à quantifier à quel point les modèles sont faux. Mais l’autre aspect également, qui dans la littérature ne va souvent pas aussi loin, et cela change, je dois dire que cela change, ce n’est pas seulement moi qui le dis, il y a beaucoup de collègues qui le disent, c’est que nous devons relier la prévision à la décision qui est soutenue.
Ainsi, la congruence est née de ces deux idées. J’ai travaillé avec mon collègue de l’université de Lancaster, Kandrika Pritularga, qui est également co-auteur de l’article que vous avez mentionné. Et nous étions assez intéressés à dire, d’accord, si nous avons tous les deux le point de vue selon lequel les modèles sont en quelque sorte mal spécifiés, nous approchons simplement la demande à laquelle nous sommes confrontés ou les ventes selon la façon dont vous voulez le prendre, alors quel est le coût réel de cela ? Et la congruence des prévisions va essentiellement dans l’idée de dire, pouvons-nous faire mieux que la précision ? Parce que la précision, à bien des égards, suppose que vous faites du bon travail pour approximer vos données.
Et vous savez, oui, nous essayons de le faire avec sérieux, mais nous pourrions simplement ne pas utiliser le bon modèle. Par exemple, vous pouvez avoir un logiciel qui vous propose une sélection de X modèles, mais l’approximation correcte serait un modèle manquant dans votre pool de modèles. C’est là que tout cela devient une motivation, en essayant de relier les prévisions à une décision une fois que nous reconnaissons que probablement nos modèles seront mal spécifiés. C’est un peu le contexte.
Si je veux être plus scientifique à ce sujet, une chose que je devrais dire, c’est que généralement, avec mes collègues, nous commençons toujours nos sujets de recherche avec une idée un peu plus idiote. Donc, vous savez, nous faisons autre chose et nous disons, oh, il y a un crochet intéressant ici, explorons-le un peu plus. Et souvent, une fois que vous faites cela, vous finissez par avoir quelque chose qui peut être une idée utile. Pourquoi je mentionne cela, c’est parce que je pense que la congruence des prévisions, ce qu’elle apporte sur la table, est un peu une pensée différente. Et c’est pourquoi je pense que c’est initialement agréable parce que, en commençant comme une blague en quelque sorte, cela nous a permis de voir tout le point de vue d’une perspective différente.
Conor Doherty: Joannes, je vais revenir vers vous dans un instant à ce sujet, mais pourriez-vous expliquer un peu plus ? Encore une fois, lorsque vous parlez de précision des prévisions, tout le monde a plus ou moins une compréhension de ce que cela signifie. Mais lorsque vous parlez de congruence ou de congruence des prévisions, cela aide les gens à voir les choses d’un point de vue différent, pourriez-vous expliquer un peu plus cette distinction afin que les gens comprennent exactement ce que vous voulez dire par congruence dans le contexte des prévisions de séries temporelles ?
Nikos Kourentzes: D’accord, tout d’abord, le nom n’est pas le plus direct et il y a une raison à cela. Ce que nous essayons de décrire avec cette congruence des prévisions, c’est essentiellement à quel point les prévisions sont similaires dans le temps. Maintenant, c’est une façon plus facile de le dire, mais voici quelques problèmes. Beaucoup des mots que l’on pourrait utiliser pour cela, par exemple, la stabilité, sont déjà utilisés dans la prévision statistique, nous ne voulons donc pas causer de confusion là-bas.
Et l’autre problème est que, comme nous le verrons probablement dans la discussion un peu plus loin, il y a des difficultés techniques à mesurer à quel point les prévisions sont similaires dans le temps. Parce que par exemple, si vous pensez à une série temporelle saisonnière et à une série temporelle non saisonnière, elles impliquent quelque chose de très différent car la saisonnalité elle-même impose une différence de prévision dans le temps. C’est le schéma que vous devez gérer là-bas. Donc ce n’est pas le genre de non-similarité qui nous intéresse. Et c’est ce qui rend un peu, si vous voulez, des acrobaties mathématiques pour définir la congruence. Mais là réside la différence avec la précision. La précision, nous la comprenons généralement, quel que soit la métrique que vous allez utiliser, comme un résumé de l’ampleur de vos erreurs de prévision.
Maintenant, nous supposerions bien sûr que si nous obtenons la prévision la plus précise, cela impliquerait que nous fournissons les meilleures informations pour les décisions prises. Cependant, cela suppose que les décisions prises ont le même type de fonction objective que la prévision la plus précise, disons minimiser vos erreurs quadratiques. Mais ce n’est pas le cas. Je veux dire, si vous pensez à la modélisation des stocks d’une chaîne d’approvisionnement, nous devons peut-être penser aux coûts liés au regroupement des commandes, nous devons peut-être penser aux coûts de surstockage et de sous-stockage qui peuvent modifier votre position par rapport à la prévision la plus précise. Nous devons peut-être penser à d’autres aspects tels que les contraintes provenant de nos fournisseurs ou d’autres limitations de capacité des lignes de production ou de nos entrepôts, etc. Donc, une fois que vous pensez au véritable coût des stocks ou à la chaîne d’approvisionnement de manière plus générale, vous voyez soudainement que la prévision la plus précise n’est pas nécessairement celle qui est le mieux alignée avec la décision. Et c’est vraiment le point le plus intéressant concernant la congruence.
Donc, d’une part, il y a une ligne de recherche, et mes coauteurs et moi-même avons publié pas mal dans cette direction, qui montre que la plupart des métriques de précision ne sont pas bien corrélées avec de bonnes décisions. Cela ne signifie pas qu’elles sont inutiles ou quoi que ce soit de ce genre, c’est juste qu’elles ne racontent pas toute l’histoire. Cela pousse un peu vers la congruence. La congruence, d’autre part, essaie de dire que si les prévisions ne changent pas trop au fil du temps, il y a probablement une certaine confiance dans les prévisions. Mais d’autre part, ce serait aussi une prévision sur laquelle les gens peuvent planifier avec une certaine cohérence. Je n’ai pas à mettre à jour toute ma planification à chaque cycle de prévision car la prévision sera assez similaire. Donc, même si ce ne sont pas les prévisions les plus précises, elles échouent de manière prévisible, ce qui peut faciliter la prise de décision. Et c’est en fait ce que nous constatons également dans notre travail. Nous constatons que les décisions prises sur la base de prévisions plus congruentes sont des décisions qui sont plus cohérentes dans le temps également. Il y a donc moins d’efforts à fournir pour prendre ces décisions.
Conor Doherty: Eh bien, merci, Nikos. Et Joannes, je vous laisse la parole maintenant. J’ai l’impression que cela résonne probablement beaucoup avec vous. Des prévisions plus précises ne se traduisent pas nécessairement par de meilleures décisions en matière de stocks.
Joannes Vermorel: Oui, je veux dire exactement. Notre perspective générale de nos jours est que pratiquement toutes les métriques mathématiques, dans le sens où vous choisissez une formule et dites que c’est une formule mathématique qui caractérise votre métrique que vous essayez d’optimiser, lorsque cette formule tombe du ciel ou est simplement inventée, même si elle est accompagnée de bonnes intentions, disons norme un, norme deux, quelque chose qui a des propriétés mathématiques attachées, elle est généralement très décevante une fois mise en production pour diverses raisons.
Il y a plus d’une décennie, Lokad a commencé à prôner l’idée que les gens ne devraient pas faire ce que nous appelons maintenant les prévisions nues. Fondamentalement, je soutiens Nikos dans sa proposition selon laquelle une prévision est un instrument pour une décision et vous ne pouvez évaluer la validité de la prévision qu’à travers la validité des décisions.
Et c’est un peu étrange parce que si vous avez 10 décisions différentes, vous pourriez vous retrouver avec des prévisions incohérentes pour soutenir ces décisions. Et cela semble bizarre, mais la réalité est que c’est acceptable, même si c’est contre-intuitif. Et pourquoi est-ce acceptable ? Eh bien, parce que vous avez un ensemble de décisions qui peuvent avoir des coûts asymétriques très divers en termes de dépassement ou de sous-estimation.
Ainsi, si vous avez une décision où un dépassement est une catastrophe. Disons, par exemple, que vous vendez des fraises. Donc, les fraises que vous ne vendez pas à la fin de la journée, vous les jetez pratiquement. Donc, tout ce que vous dépassez est catastrophique dans le sens où c’est une perte immédiate garantie ou une annulation de stock.
Au contraire, si vous êtes un horloger de luxe et que vos articles sont en or, en platine et autres métaux et pierres fantaisie, si vous ne les vendez pas, le stock n’expire pas. Même si tout ce que vous forgez et mettez dans des articles sort de la mode, vous pouvez toujours reprendre les matériaux et en façonner quelque chose de plus en phase avec le désir actuel du marché.
Donc fondamentalement, si vous faites de la bijouterie, vous n’avez jamais de pertes de stock. Vous pouvez avoir certains coûts pour façonner vos produits, mais c’est un jeu très, très différent.
L’un des problèmes de base qui est pratiquement jamais mentionné dans les manuels de gestion de la chaîne d’approvisionnement est simplement l’effet cliquet. Disons que vous jouez à un jeu de réapprovisionnement de stock. Chaque jour, vous avez un SKU, vous avez une prévision de la demande et si la demande dépasse un certain seuil, vous passez une commande.
Mais il s’avère que si votre prévision fluctue, cela signifie que votre stock est toujours réglé pour capturer le point le plus élevé de votre fluctuation. Je veux dire, en considérant, vous savez, un mois par exemple, si votre cycle de réapprovisionnement typique est d’environ un mois, alors votre prévision fluctue pendant ce mois. Et disons que chaque jour, donc cela va être, vous savez, 30, 31 jours du mois, vous relancez simplement la logique de prévision et vous passerez invariablement une commande d’achat le jour où votre prévision est la plus élevée.
C’est un effet cliquet parce que une fois que votre prévision fluctue à la hausse ou à la baisse, et donc en termes de précision, cela peut être assez bon d’avoir ces fluctuations. Cela capture joliment la variation à court terme, mais le prix que vous devez payer, c’est que chaque fois que vous déclenchez une décision, vous êtes engagé dans cette décision.
Et lorsque vous avez ces fluctuations, ce qui se passe généralement, c’est que vous allez capturer la fluctuation à la hausse. La fluctuation à la baisse n’est pas si grave, vous retardez simplement quelque chose d’un jour de plus, mais la fluctuation à la hausse déclenche la production en série, le réapprovisionnement du stock, l’allocation du stock, la baisse des prix.
Parce que encore une fois, c’est la même chose. Si vous baissez votre prix et que vous avez une augmentation de la demande causée par la baisse du prix, mais que vous avez sous-estimé la demande, et maintenant vous pensiez avoir trop de stock, mais en réalité ce n’était pas le cas. Et maintenant que vous avez baissé le prix, vous vous retrouvez accidentellement dans une position de rupture de stock.
Ce sont toutes ces sortes de choses où vous avez ces effets cliquet où si vous avez ces fluctuations, vous agirez, et ensuite les performances de votre entreprise refléteront la sorte de variation extrême de votre modèle statistique prédictif, quel qu’il soit. Ce n’est pas bon car vous capturez, en termes de décision, le bruit du modèle prédictif.
Nikos Kourentzes: Puis-je ajouter quelque chose? Tout d’abord, je suis tout à fait d’accord. Mais cela peut aider un peu de voir également le même argument du point de vue d’un spécialiste des séries temporelles comme moi qui a été élevé dans la pensée de la précision.
Là où j’ai finalement changé d’avis, c’est que supposons que vous avez une demande d’une unité de stock, d’un SKU, et que vous trouvez votre meilleur modèle et que vous optimisez ce modèle sur quelque chose comme une vraisemblance ou en minimisant votre erreur quadratique moyenne.
Maintenant, l’hypothèse derrière cela est que vous avez fait une bonne approximation du modèle, et généralement votre erreur est une prédiction à un pas en avant. C’est ce que nous faisons habituellement, nous minimisons l’erreur en échantillon.
Si votre modèle n’est pas le bon modèle, le bon modèle impliquant que vous connaissez d’une certaine manière le processus de génération des données, ce qui n’est jamais vrai, si vous minimisiez cette erreur, alors votre prévision serait parfaite pour tous les horizons de prévision. Mais ce n’est pas le cas car votre modèle est juste une approximation.
Supposons donc que vous minimisez vos erreurs pour un pas en avant comme nous le faisons habituellement, alors votre modèle peut très bien fonctionner pour cette prédiction à un pas en avant, mais pas sur la durée de la commande. La durée de la commande nécessite des pas supplémentaires en avant.
Si vous dites alors: “Oh, je peux régler mon modèle pour être très bon peut-être dans 3 mois à partir de maintenant, disons trois pas en avant”, eh bien, vous finissez par avoir l’effet inverse. Votre modèle est très bon pour être réglé à cet horizon de prévision, mais pas à l’horizon de prévision qui est plus court. Donc, encore une fois, sur la durée de la commande, vous passez à côté d’informations.
Donc, ce que j’essaie de dire avec cela, c’est que la façon traditionnelle de penser, comment nous optimisons les modèles, conduira invariablement à des prévisions effectivement inexactes dans le sens où elles seront toujours calibrées pour l’erreur que l’optimiseur recherche et non pour la décision réelle que nous essayons de soutenir. Cela a un horizon différent.
C’est là que, par exemple, beaucoup de recherches sur les estimateurs de rétrécissement ou le travail que des collègues et moi avons fait sur les hiérarchies temporelles ont aidé un peu car ces techniques pensent toujours à ne pas surajuster les données. Ne pas être obsédé par la minimisation d’une statistique d’erreur.
Donc, vous savez, ce que Joannes a décrit, c’est essentiellement vous pouvez le voir des deux perspectives. L’un est l’effet sur la supply chain, et l’autre est le fondement statistique pour lequel vous aurez cela invariablement.
Joannes Vermorel: Oui, en effet. Chez Lokad, notre pratique actuelle, et cela fait un moment déjà dans le cadre de la Supply Chain Quantitative, consiste en une optimisation purement financière. Nous optimisons directement les euros ou les dollars.
Et en effet, ces métriques sont découvertes. Nous avons même une méthodologie spécifique pour cela appelée optimisation expérimentale, car les systèmes de supply chain sont très opaques, très complexes, et donc la métrique n’est pas donnée, c’est tout un sujet à découvrir.
Maintenant, la chose intéressante concerne les horizons de prévision et la variation de la prévision avec cela. J’y ai réfléchi pendant longtemps, mais essentiellement, les dernières compétitions de prévision de Makridakis, M4, M5, M6, ont prouvé que les meilleurs modèles sont les meilleurs pour tous les horizons, peu importe celui que vous choisissez.
Lokad, nous avons été classés numéro un en 2020 au niveau SKU pour Walmart, et nous étions les meilleurs pour un jour à l’avance, sept jours à l’avance, tout. Pendant longtemps, j’ai travaillé avec cette possibilité que vous pourriez avoir des modèles qui fonctionnent mieux à certains horizons.
Mais si vous regardez les modèles modernes, ceux comme la programmation différentiable, par exemple, ces nouvelles classes de modèles de prévision, maintenant c’est assez uniforme. De nos jours, il est très rare que nous ayons des modèles qui fonctionnent mieux à un pas en avant plutôt qu’à six mois en avant.
Et essentiellement, il existe des modèles qui sont à horizon indéfini, ils prévoient jusqu’à la fin des temps, et vous arrêtez simplement pour économiser des ressources de calcul car ce serait du gaspillage. Mais néanmoins, le point reste que, en général, la métrique qui est optimisée ne doit pas être considérée comme connue.
Elle ne doit pas être supposée être l’une des élégantes métriques mathématiques comme la vraisemblance logarithmique si vous voulez aller dans une approche bayésienne, ou l’erreur quadratique moyenne, ou autre chose. C’est très bien si vous voulez prouver des théorèmes sur papier, mais prouver des théorèmes et des propriétés des modèles ne se traduit pas par des résultats opérationnels.
Cela peut créer beaucoup de défauts subtils dans le comportement qui ne sont pas immédiatement apparents du point de vue mathématique.
Conor Doherty: Eh bien, merci. Nikos, pour revenir à quelque chose que vous avez dit plus tôt et aller de l’avant, vous avez dit que vous vous considérez comme un spécialiste des séries temporelles et qu’auparavant vous vous étiez concentré sur l’exactitude, puis vous avez dit : “Oh, j’ai changé d’avis et je suis passé au-delà de l’exactitude ou de la focalisation sur l’exactitude en isolation.” Pourriez-vous décrire ce processus ? Parce que c’est quelque chose qui, chaque fois que je parle de prévisions, il est assez difficile de convaincre les gens de ne pas considérer l’exactitude des prévisions comme une fin en soi. Je me souviens même dans votre article vous avez dit : “L’objectif des prévisions n’est pas l’exactitude.” Cette déclaration est assez controversée selon à qui vous la dites. Alors, comment avez-vous exactement procédé dans ce parcours ?
Nikos Kourentzes: Oui, je veux dire que c’est controversé, vous avez tout à fait raison. Mais je pense que c’est un argument que les personnes qui sont dans le domaine des séries temporelles sont plus enclines à accepter que les utilisateurs de prévisions, si je peux le dire comme ça. Permettez-moi de commencer par reprendre quelque chose que vous venez de mentionner sur les horizons de prévision.
Je pense que cette compréhension que les modèles sont capables de produire de bonnes prévisions pour tous les horizons vient de la façon dont nous comparons les modèles eux-mêmes. Comme vous le savez, en reprenant les compétitions M que vous avez mentionnées. C’est une lecture utile des compétitions M, mais tous ces modèles sont optimisés de manière similaire. Même si vous prenez un simple lissage exponentiel et que vous modifiez votre fonction objectif, la façon dont vous estimez vos paramètres, vous pouvez en fait le faire fonctionner beaucoup mieux ou beaucoup moins bien sur différents objectifs ou différents horizons.
Donc, pour moi, c’était aussi un point de départ pour dire, eh bien, peut-être qu’il se passe quelque chose ici. Et c’est là que, par exemple, je suis un peu critique de l’utilisation standard… permettez-moi de reformuler cela. Lorsque je dois travailler avec des étudiants en doctorat ou des étudiants en master qui rédigent une thèse, parfois je leur demande de faire la mise en œuvre de manière plus difficile plutôt que de prendre une bibliothèque et de le faire, car je veux qu’ils comprennent ce qui se passe réellement sous le modèle. Et c’est là que vous pouvez trouver certains détails et dire, eh bien, est-ce que cela a du sens ?
L’une des choses qui a déjà été mentionnée précédemment, c’est que nous aimons les formules et les expressions qui sont faciles à manipuler mathématiquement. Je veux dire facile entre guillemets, vous savez parfois elles sont assez complexes, mais oui elles sont encore faciles dans le sens où vous pouvez, avec les bonnes hypothèses, travailler les mathématiques. Mais c’est là que se situe le problème pour moi, c’est qu’en faisant cela, nous finissons par avoir une bonne compréhension de ce qui se passe sous les hypothèses et c’est très utile. Mais nous oublions souvent de dire, bon, et si cette hypothèse est maintenant violée ? Et si nous avons une spécification du modèle ?
Donc, pour moi, cette spécification du modèle est le point de départ. Une fois que vous l’introduisez, bon nombre de ces expressions deviennent problématiques. Je dois être prudent ici et, vous savez, en tant qu’universitaire moi-même, cela ne rend pas cette recherche inutile de quelque manière que ce soit. Mais c’est une étape. Nous devons comprendre toutes les propriétés, puis dire, bon, maintenant introduisons la spécification du modèle.
J’ai quelques collègues d’Espagne avec lesquels j’ai travaillé sur l’étalonnage des politiques d’inventaire. Et un article sur lequel nous essayons de faire passer la revue, c’est toujours un aspect compliqué pour les universitaires, essaie justement de faire cela. Il essaie de dire, vous savez, supposons que nous avons une politique très simple comme une politique de commande jusqu’à, voici ce que nous obtiendrions si nous supposions que le modèle est bon et voici ce que nous obtiendrions si nous disions non, le modèle est mal spécifié. Parce que vous pouvez voir qu’il y a des risques supplémentaires dans la chaîne d’approvisionnement, il y a des risques supplémentaires dans la définition de l’inventaire.
Donc pour moi, le moment où je dis que la précision n’est pas suffisante, c’est lorsque je commence à penser que le modèle est mal spécifié, qu’est-ce que ce risque supplémentaire implique ? Si vous y réfléchissez dans le cadre des politiques d’inventaire stochastiques, ce que nous disons, c’est qu’il y a un risque stochastique provenant du processus de demande, très bien. Mais ce n’est pas le seul risque. Et je ne suggère en aucun cas que je capture tous les risques de la manière dont je le pense, mais au moins la logique dit que cela doit être quelque chose qui est plus qu’un seul objectif de précision.
Cela ne signifie pas abandonner cet objectif, il doit y avoir, vous savez, même si vous abandonnez cet objectif, il doit encore y avoir une sorte de corrélation entre cet objectif et d’autres objectifs. Parce que si vous ignorez complètement le fait d’avoir une prévision précise, au sens large, alors vous ne ferez pas bien votre travail, du moins d’après mon expérience.
Vous pouvez complètement changer d’objectif, comme par exemple dans la congruence, nous trouvons même théoriquement qu’il y a une connexion avec la précision. Ce n’est pas une connexion à 100%, mais il y a une faible connexion. Donc cela ne signifie pas pour moi, d’accord, nous jetons donc la précision par la fenêtre. Mais ce n’est certainement pas la fin de la discussion. Maintenant, si vous pouvez la remplacer par une meilleure mesure qui a des propriétés similaires ou une collection de mesures, très bien. Je suis d’accord avec ça. Je me fiche que nous appelions la mesure comme ça ou comme ça, ou si c’est ma mesure ou la mesure de quelqu’un d’autre. Mais je crois vraiment que lorsque nous abordons la spécification du modèle et les risques qui en découlent dans le processus, nous ne pouvons pas nous en tenir aux mesures traditionnelles.
Conor Doherty: Merci, Nikos. Et Joannes, je reviendrai vers vous dans un instant, mais je tiens à souligner un point, en fait deux points. Tout d’abord, je pense que je me suis trompé. J’aurais dû dire que la précision n’est pas l’objectif de la prévision. Je crois que je l’ai dit dans l’autre sens. Mais pour rebondir sur un point que vous venez de soulever, et c’est un point clé je pense de l’article, vous ne préconisez pas, corrigez-moi si je me trompe, vous ne préconisez pas de poursuivre la prévision la plus congruente. C’est un mélange entre la précision et la congruence. Est-ce une lecture juste ? Et si oui, pourriez-vous développer cela pour quelqu’un qui ne comprendrait peut-être pas comment poursuivre un mélange de ces deux mesures ?
Nikos Kourentzes: Je tiens d’abord à souligner que c’est un travail en cours, donc je n’ai pas la réponse complète à cela. Mais il semble qu’une simple heuristique serait quelque chose comme, une fois que vous avez trouvé votre collection de prévisions précises, alors parmi celles-ci, choisissez la plus congruente. Ne choisissez pas directement la prévision la plus congruente car cela pourrait être une prévision très imprécise, si cela a du sens.
Donc je vois ces deux objectifs, si je le formule d’une manière un peu différente, il y a une région où les deux s’améliorent ensemble et ensuite vous vous retrouvez avec un compromis. Lorsque vous atteignez ce compromis, allez ensuite et privilégiez davantage le côté congruent.
Conor Doherty: Eh bien, c’était alors la question qui allait être posée à nouveau. Vous utilisez le terme de compromis et encore une fois, c’est quelque chose sur lequel nous nous concentrons beaucoup, encore une fois les compromis. Comment, et je comprends encore une fois que c’est un travail en cours, comment vous ou comment une entreprise évaluez ces compromis, précision par rapport à la congruence ? Et je sais encore une fois que vous essayez de réduire les fluctuations, les variations entre toutes les prévisions congruentes. Mais même ainsi, je veux dire que la précision des prévisions est simple. Nous pouvons convenir qu’elle peut être imparfaite, mais c’est simple à comprendre. Je veux juste plus de précision, je veux que le chiffre augmente. Mais maintenant, nous introduisons une autre dimension. Donc, encore une fois, la pondération de cela, comment une entreprise l’aborde est plus précisément ce que je veux dire.
Nikos Kourentzes: Oui, donc j’ai du mal ici à donner une réponse claire car je n’ai pas encore la réponse claire. Mais peut-être que je peux donner un exemple de la logique.
J’ai fait remarquer précédemment la série temporelle saisonnière. Donc, lorsque la difficulté de définir la congruence comme une métrique, et c’est une discussion que j’ai eue avec d’autres collègues qui disent oh mais vous pourriez faire ceci ou cela à la place, c’est essentiellement l’idée de la moyenne conditionnelle de la prévision. Qu’est-ce que c’est ? Supposons que la demande soit effectivement saisonnière, il y a donc une certaine structure sous-jacente. Cette structure sous-jacente qui est inconnue est la moyenne conditionnelle.
Si je disais que je veux la prévision la plus stable ou ce que nous appelons congruente, en principe ce serait une ligne droite, une ligne plate. Cette ligne plate ne porterait aucune information sur la saisonnalité. Donc la prévision la plus congruente serait effectivement une prévision déterministe qui ne suppose aucune stochasticité, aucune structure dans la série, rien de tel. Donc c’est clairement une mauvaise prévision.
Donc là où intervient l’équilibre, c’est que nous voulons la prévision la plus congruente en termes de cette moyenne conditionnelle. Nous voulons qu’elle essaie d’être saisonnière, nous voulons qu’elle essaie de suivre cette structure. Mais nous n’allons pas la pousser assez loin pour dire que je vais essayer de choisir tous les détails. Donc on pourrait dire qu’il y a un lien avec la surajustement et le sous-ajustement, mais ce n’est pas une connexion à 100% car nous pouvons tous convenir que la surajustement est une mauvaise chose.
Mais lorsque nous avons examiné le même aspect en termes de sur-congruence et de sous-congruence, il est facile de montrer que la sous-congruence est une mauvaise chose, comme cette ligne plate que nous avons mentionnée précédemment. Mais la sur-congruence n’est en fait pas nécessairement une mauvaise chose. Et le “pas nécessairement” est là où les choses deviennent intéressantes et compliquées. Le “pas nécessairement” est fortement lié aux points que Joannes a soulevés précédemment, qu’il y a d’autres aspects dans la gestion des stocks dans la supply chain qui nous intéressent. Donc, en ayant cette congruence supplémentaire dans les prévisions, nous facilitons effectivement la vie des décideurs par la suite. D’un point de vue statistique, ce ne sera pas la prévision la plus précise, mais elle fournira des informations suffisantes pour que le décideur puisse agir. Ainsi, les décisions suivantes seront plus faciles à obtenir sur le plan financier, ou selon toute autre mesure d’inventaire que vous allez utiliser, comme par exemple moins de gaspillage ou quelque chose dans ce genre.
Je suis un peu vague ici car je n’ai rien de mieux à offrir pour le moment que l’heuristique que j’ai mentionnée précédemment. C’est pourquoi j’espère que le prochain article fournira l’expression mathématique complète pour dire que c’est en réalité un problème trivial. Je ne l’ai pas encore. Donc, je dirais qu’en pratique, ce que je suggère aux gens de faire pour le moment, c’est d’identifier votre collection de prévisions précises et de choisir celle qui maximise la congruence parmi ces prévisions. Donc, en quelque sorte, une sélection en deux étapes, d’abord obtenir un ensemble de prévisions précises, puis choisir celle qui est la plus congruente.
Ce qui est intéressant, c’est qu’il s’avère que dans la plupart de nos expériences, il s’agit d’un modèle qui utilise soit des astuces provenant d’estimateurs de rétrécissement, soit des astuces provenant de l’agrégation temporelle, etc., car cela tend à lisser les prévisions. Je tiens à souligner ici que d’autres collègues ont également proposé des idées similaires. Ils peuvent modifier la fonction de perte pour inclure, par exemple, un terme visant également à minimiser la variabilité des prévisions, etc. Ce qui, je pense, différencie un peu la métrique de congruence, c’est que nous essayons également de montrer le lien avec la précision, de fournir les expressions pour dire exactement où elles sont connectées, exactement où elles divergent.
Conor Doherty: Merci, Nikos. Joannes, qu’en pensez-vous ?
Joannes Vermorel: Oui, je veux dire, chez Lokad, nous abordons cela d’un angle légèrement différent. Nous adoptons une approche radicale selon laquelle les erreurs en dollars, les erreurs en euros, sont complètement arbitraires. C’est tellement brutal de vouloir optimiser quelque chose où la métrique est n’importe quoi. Alors, comment abordons-nous cela ? Eh bien, il s’avère que si la métrique est n’importe quoi, c’est en fait un programme, vous savez, un programme informatique. Vous pouvez avoir des métriques qui ne peuvent même pas être représentées comme des programmes informatiques, en mathématiques, vous pouvez inventer des choses qui échappent même aux ordinateurs. Mais pour ancrer la discussion, nous supposons que nous n’allons pas dans des espaces mathématiques super bizarres et hyper abstraits. Donc, nous avons quelque chose qui peut être calculé au moins. Donc, c’est un programme, un programme arbitraire.
La bonne chose, c’est que si vous voulez optimiser à peu près n’importe quoi, ce dont vous avez besoin, c’est d’avoir des gradients. Dès que vous avez des gradients, vous pouvez diriger. Pour le public, dès que vous pouvez avoir la pente, cela signifie que vous pouvez orienter vos paramètres dans la bonne direction qui minimise ce que vous essayez de minimiser. Donc, chaque fois que vous voulez optimiser, obtenir quelque chose de plus élevé ou de plus bas avec une intention spécifique, si vous pouvez obtenir les gradients, cela vous donne la direction dans laquelle vous devriez aller, cela aide énormément.
C’est là que la Programmation Différentiable aide vraiment car la Programmation Différentiable est littéralement un paradigme de programmation que Lokad utilise largement. Cela vous permet de prendre n’importe quel programme et d’obtenir les gradients, et c’est super puissant. C’est généralement ainsi que nous connectons cette perspective financière. Nous allons découvrir ces éléments financiers. Ce sera un processus désordonné, très aléatoire, et ce que nous deviendrons est un programme un peu étrange qui reflète simplement les particularités, les bizarreries de la supply chain qui nous intéresse.
Nous pouvons différencier n’importe quel programme, nous pouvons donc différencier cela, puis nous pouvons optimiser en fonction de cela, quel que soit le modèle que nous avons, à condition que le modèle lui-même soit différentiable. Cela limite notre approche aux modèles qui ont une structure différentiable, mais force est de constater que c’est en réalité la majorité. Dans cette compétition, le M5, pour cette compétition Walmart, nous avons essentiellement été classés au niveau SKU numéro un avec un modèle différentiable.
Ainsi, imposer la différentiabilité n’est pas quelque chose qui vous empêche d’obtenir des résultats de pointe. Maintenant, avançons rapidement, c’est simplement l’essentiel de ce qui se passe lorsque vous abandonnez vos métriques et que vous abandonnez parce que généralement nous finissons par équilibrer des tonnes et des tonnes de choses.
Maintenant, une autre chose est la prévision probabiliste, c’est l’idée que nous examinons tous les futurs possibles, mais pas seulement pour la demande. Par exemple, vous mentionniez les délais avec des horizons possibles et tout ça, mais la réalité est que le délai de livraison varie, il y a aussi de l’incertitude.
Pire encore, le délai de livraison que vous observerez est lié à la quantité que vous commandez. Si vous commandez, par exemple, 100 unités, cela peut aller plus vite que si vous commandez 1000 unités simplement parce que, eh bien, l’usine qui produit les choses aura besoin de plus de temps.
Vous vous retrouvez donc avec des tonnes de corrélations qui façonnent et structurent l’incertitude. Ainsi, la perspective unidimensionnelle sur la série temporelle est insuffisante, même si nous parlons d’un seul SKU, car nous devons ajouter quelques couches d’incertitude supplémentaires, au moins avec les délais de livraison, au moins avec les retours avec le e-commerce, et ainsi de suite.
J’utiliserai le terme “congruence” de manière vague car vous venez de l’introduire, mais notre observation pratique, lorsque nous sommes passés aux modèles probabilistes, était que ces modèles, numériquement parlant, étaient beaucoup plus stables.
C’était très intéressant car la plupart de ces instabilités, incohérences, quoi que ce soit, reflètent simplement le fait que vous avez beaucoup d’incertitude ambiante. Et vous avez des zones de probabilités relativement plates. Ainsi, selon à peu près n’importe quelle métrique, tant que vous avez une prévision ponctuelle, le modèle peut fluctuer largement.
Et en termes de métriques, à peu près n’importe quelle métrique que vous choisissez, ce sera à peu près la même chose. Ainsi, vous vous retrouvez avec la propriété bizarre que, encore une fois, si vous êtes coincé avec des prévisions ponctuelles, si vous avez une situation d’incertitude élevée, une incertitude ambiante élevée, vous vous retrouvez avec le genre de problèmes où vous pouvez avoir des prévisions très, très différentes qui sont, selon vos métriques, quasi les mêmes.
Et donc, vous vous retrouvez avec ce tremblement et tout ça. Et c’est lorsque vous passez à ces prévisions probabilistes que vous entrez dans un domaine où, eh bien, le bon modèle va simplement être celui qui exprime cette dispersion, qui exprime cette incertitude ambiante élevée. Et cela en soi est beaucoup plus, je dirais, constant.
C’est très étrange, mais vous vous retrouvez avec, nous avons eu de nombreuses situations où nous avons tellement lutté pour obtenir un peu de stabilité numérique, et puis lorsque vous passez au domaine des prévisions probabilistes, dès le départ, vous avez quelque chose qui est beaucoup plus stable, où ces problèmes qui faisaient vraiment mal deviennent simplement secondaires.
Donc, c’est assez intéressant. Et ensuite, nous pouvons relier tout cela à d’autres choses. Lorsque nous allons au-delà des prévisions de séries temporelles, nous en avons discuté un peu sur cette chaîne, mais cela serait une digression, c’est que la plupart des problèmes de supply chain sont accompagnés d’un fort couplage entre les SKUs, d’un couplage entre les produits.
Et donc, nous devons très souvent passer à une perspective non basée sur les séries temporelles, une perspective plus multidimensionnelle. Mais encore une fois, c’est une digression sur une digression.
Nikos Kourentzes: Je suis tout à fait d’accord. Les prévisions probabilistes sont absolument nécessaires. J’en suis arrivé au point où, lorsque je regarde certains des articles inachevés qui ont été mis de côté pendant quelques années et que je vois qu’il n’y a pas de prévisions probabilistes, je pense que je dois tout revoir. Il doit y avoir des prévisions probabilistes, nous sommes maintenant en 2024. Mais voici la chose, j’aime les prévisions probabilistes, surtout la façon dont Joannes l’a expliqué, car cela me donne une autre façon de souligner la spécification du modèle.
Lorsque vous regardez l’incertitude autour de votre prévision, nous supposons généralement que cette incertitude est due à la stochasticité de la série temporelle. Mais une bonne partie de cette incertitude est due à l’incertitude du modèle lui-même. Vous avez l’incertitude provenant des données, l’incertitude provenant de votre estimation et l’incertitude du modèle lui-même. Il peut manquer certains termes, ou il peut y avoir plus de termes, ou il peut simplement être complètement erroné. Diviser cette incertitude reste un gros problème.
Si vous ne divisez pas cette incertitude, vous constaterez souvent qu’un grand nombre de modèles différents, à moins qu’ils ne soient substantiellement différents, finiront par masquer l’incertitude par leur incertitude de modèle. Ils vous donneront une incertitude plus élevée, du moins empiriquement parlant, et une bonne partie de cette incertitude semblera similaire car ce qu’elle essaie de vous dire, c’est que tous ces modèles posent problème.
Vous n’arrivez pas à la véritable profondeur de cette incertitude due aux éléments stochastiques de la demande. Je n’ai toujours pas réussi à trouver un bon moyen de le résoudre et je n’ai rien vu dans la littérature. Mais au moins, les prévisions probabilistes sont honnêtes en disant, eh bien, regardez, voici votre incertitude. Elle est un peu plus grande que ce que nous pensions si vous êtes passé de la prévision ponctuelle. C’est un bon pas vers la solution.
Conor Doherty: Merci à vous deux. Il me vient à l’esprit que j’ai à la fois deux universitaires et deux praticiens ici. Je pense qu’à ce stade, il serait bon de me tourner vers la pratique. Tout l’objectif de ce que fait Lokad, mais certainement votre article et vos recherches en général, Nikos, c’est de l’appliquer à la prise de décision en matière de stocks. À ce sujet, Joannes, lorsque vous avez parlé des particularités de la chaîne d’approvisionnement, des délais de livraison variables et de l’effet coup de fouet, tous ces concepts, votre position, Nikos, dans le document de travail dont nous parlons, était que la recherche de la congruence des prévisions peut aider à faire face à ou atténuer les effets de l’effet coup de fouet. Pourriez-vous expliquer cela pour que les gens comprennent comment cette idée peut aider à résoudre un problème sérieux, l’effet coup de fouet ?
Nikos Kourentzes: Je suppose que votre public en est bien conscient. Le problème que j’ai avec de nombreuses recherches sur l’effet coup de fouet, c’est qu’elles se contentent plus de le décrire que de proposer des actions pour y remédier. Du moins, en particulier du point de vue des séries temporelles, nous disons, oh regardez, voici votre ratio de coup de fouet. Mais cela ne fait en réalité que décrire le problème. Cela ne vous dit pas comment y faire face une fois que vous l’avez mesuré.
C’est là que je dis, bon d’accord, si je veux relier les prévisions à la décision plutôt que de les séparer, alors nécessairement j’ai besoin de quelque chose qui puisse me dire, eh bien, si vous allez dans cette direction, vous allez réduire votre coup de fouet. Il s’avère que sans comprendre cela dès le départ, si vous travaillez sur les équations, la congruence et le ratio de coup de fouet semblent du moins avoir beaucoup de similitudes. Cette imposition de la similarité sur des périodes, ou la congruence comme nous le disons simplement, semble être en accord avec l’idée d’avoir un faible coup de fouet provenant de vos prévisions. Bien sûr, il y a de nombreuses autres raisons pour lesquelles vous allez avoir un coup de fouet.
Donc, si nous allons utiliser une mesure de congruence ou quelque chose de similaire pour sélectionner ou spécifier vos modèles de prévision, vous pouvez déjà viser une solution qui sera plus favorable en termes de coup de fouet. Ici, je pense qu’au moins depuis que je travaille dans le domaine des prévisions, je dois reconnaître que le coup de fouet est beaucoup plus large que les prévisions. Les prévisions ne sont qu’une partie de cela. Il y a tellement d’autres éléments qui entrent en jeu. Mais au moins pour les prévisions, vous pouvez concevoir, si vous réfléchissez à la congruence et à des façons similaires de penser, des prévisions qui sont au moins favorables à cela.
Joannes Vermorel: Lorsque nous commençons à aborder le coup de fouet, lorsque j’ai dit que nous examinons la décision et que nous optimisons les euros et les dollars, je simplifiais en réalité. Parce que la réalité est que nous examinons en réalité le processus de prise de décision séquentielle. Et ici, nous touchons essentiellement à l’optimisation stochastique des processus de prise de décision séquentielle, un sujet discuté avec le professeur Warren Powell.
Nous optimisons non seulement la prochaine décision, mais aussi toutes les décisions qui suivent. Nous devons avoir un mécanisme pour ramener toutes ces informations du futur, où nous avons joué le rôle des décisions futures qui seront générées grâce à ces prévisions, dans le présent. C’est là que la programmation différentiable brille, car vous avez essentiellement un programme qui joue le rôle, simule si vous voulez, les décisions du futur et vous devez être capable de le rétropropager afin de réinjecter ces résultats financiers futurs dans l’ingénierie de vos prévisions actuelles.
La façon dont nous regardons généralement cela, c’est que si nous revenons au coup de fouet, ne soyez pas surpris par le coup de fouet. Il n’y a rien dans votre cadre d’optimisation qui reconnaît même les coûts en euros qu’il générera au fil du temps. Il n’y a rien qui analyse cette prise de décision séquentielle de simplement répéter la décision dans le temps et de voir si vous allez avoir des problèmes de coup de fouet.
La solution n’est pas si compliquée. Il s’agit simplement d’optimiser non seulement la prochaine décision que nous examinons, mais aussi toutes celles qui suivent. Implicitement, ce que nous optimisons, c’est un peu la politique. Mais généralement, les gens pensent que l’optimisation de la politique est strictement indépendante de la prévision. Ils auraient l’optimisation de la politique qui ne fait que consommer la prévision. La façon dont Lokad voit les choses, c’est que non, ces choses sont en réalité entrelacées.
La prévision supérieure va de pair avec la politique supérieure. Les deux sont très liés. Il y a même un article récent d’Amazon, “Deep Inventory Optimization”, où ils abandonnent littéralement la distinction entièrement. Ils ont directement quelque chose qui unifie la modélisation prédictive et la recherche opérationnelle qui sont généralement séparées. Ils disent non, nous allons simplement faire les deux choses en même temps et ils ont un modèle d’optimisation prédictive tout en même temps grâce à l’apprentissage profond.
C’est très intéressant car cela signifie littéralement que la décision est optimisée de manière prédictive, mais la prévision elle-même devient complètement latente. C’est juste une autre façon de voir le problème, mais c’est très futuriste et cela crée d’autres problèmes. Mais pour l’examiner, nous avons toujours la partie modélisation prédictive et la partie optimisation stochastique comme deux étapes, mais deux étapes qui sont très liées et il y aura beaucoup d’allers-retours entre les deux étapes.
Nikos Kourentzes: Je pense en réalité que le fait de garder les étapes séparées présente des avantages. Cependant, elles ne devraient pas être isolées et il y a une raison à cela. Je suis tout à fait d’accord qu’une devrait guider l’autre. J’ai travaillé par le passé avec l’idée d’avoir une optimisation conjointe à la fois pour la politique d’inventaire et la prévision. L’article est disponible, donc les détails sont là pour que les gens puissent les consulter s’ils veulent voir ce qui se passe. Mon souci avec ce travail était que je n’arrivais pas à le rendre évolutif. Je n’avais pas de moyen de rendre l’optimisation de manière à pouvoir gérer un grand nombre de références. Cela pourrait être dû à mes limites en matière d’optimisation plutôt qu’à la configuration elle-même.
Je pense que le fait de garder les deux étapes séparées aide à avoir plus de transparence dans le processus. Si j’ai une solution conjointe et que soudainement je dis que votre inventaire pour vos commandes pour la prochaine période devrait être de 10 et que quelqu’un dit que ça devrait être 12, il est très difficile de justifier pourquoi 10 a plus de mérite que 12. Si vous comprenez la prévision et la politique basée sur la prévision, vous pouvez avoir une discussion plus transparente. “D’accord, voici ma prévision, voici les tenants et aboutissants de la prévision, voici ma politique basée sur une bonne prévision ou éventuellement ajustée en fonction des options de prévision que j’ai ou vice versa”, vous pouvez dire, “Si je suis coincé avec ces politiques, peut-être que seules ces sortes d’options de prévision devraient être prises en compte.” Mais vous avez toujours la transparence et vous pouvez dire, “Je peux voir des éléments de prévision problématique ici, je peux voir des éléments de commande problématique ici.”
Et l’autre élément avec lequel j’ai un problème, c’est quand les gens se lancent complètement dans une optimisation ou une prévision obscure où ils ont une très grande confiance en l’apprentissage profond. Peu importe comment nous modélisons, à un moment donné, les humains interagiront avec le modèle et les résultats. La recherche et mon expérience suggèrent que si les gens comprennent ce qui se passe, leur interaction avec le modèle et les chiffres, les ajustements qu’ils peuvent faire pour intégrer des informations contextuelles seront plus réussis.
Si c’est un chiffre très obscur, cette boîte noire, beaucoup de gens ont tendance à dire que les gens ne sauront pas quoi faire avec le chiffre ou qu’ils interagiront de manière destructive avec le chiffre. J’aime garder la séparation car cela favorise la transparence. Cela compose le problème, dit que c’est la contribution qui vient d’ici, cette contribution qui vient d’ici. Donc, je suis plutôt d’accord avec l’approche que Johannes décrit. Nous devons d’une manière ou d’une autre joindre les tâches, nous devons en mener une à l’autre, mais nous devons aussi être en mesure de décrire ce que chaque étape fait.
Conor Doherty: Merci, Nikos. Je reviendrai vers vous, mais je souhaite revenir sur un point. Vous avez mentionné plusieurs fois l’implication humaine et les ajustements. Quel est le rôle de l’implication humaine en termes de congruence de prévision ? La tendance est souvent de dire, si vous mesurez simplement l’exactitude, “le modèle est faux, je sais mieux, laissez-moi intervenir”, et bien sûr, vous augmentez simplement le bruit dans de nombreux cas. Comment la congruence de prévision en tant que concept traite-t-elle cela ? Implique-t-elle beaucoup d’ajustements ou non ?
Nikos Kourentzes: Cette prévision comportementale ou ces ajustements intuitifs, différents noms dans la littérature, je pense que nous n’en savons toujours pas assez, bien que ce soit un domaine de recherche très actif. Certains articles soutiennent que nous devrions éliminer ces ajustements car ils sont contre-productifs ou même destructeurs en termes d’exactitude ou de résultat final. Le problème avec cette façon de penser est que vous devez avoir une métrique. Si j’utilise l’erreur absolue moyenne en pourcentage, je vais obtenir une réponse. Si j’utilise l’erreur quadratique moyenne, je vais obtenir une autre réponse. Si j’utilise la congruence, je vais obtenir une autre réponse.
Cependant, la question que je me pose alors, en revenant à notre point de départ de la discussion, c’est pourquoi je ne devrais pas simplement me concentrer sur l’exactitude ? Je veux dire, c’est la même chose pour vous, vous ne vous concentrez pas uniquement sur l’exactitude. Tant que nous reconnaissons que cela est important, nous devrions évidemment ajuster ou évaluer les aspects comportementaux du processus de prévision ou du processus d’inventaire avec une métrique qui est plus consciente que simplement l’exactitude. Je ne pense pas que nous devrions nous passer de l’intervention humaine. Je pense qu’il existe suffisamment de preuves que lorsque les informations contextuelles qu’ils peuvent utiliser sont riches, ils peuvent faire mieux que la plupart des modèles. Cependant, ils ne peuvent pas ajouter de la valeur de manière constante. Il y a de nombreux cas où ils ont simplement l’impression de devoir faire quelque chose ou ils peuvent réagir de manière excessive à l’engouement ou à des informations qui sont très difficiles à comprendre comment cela pourrait affecter votre inventaire. Dans ces cas, c’est une interaction destructrice avec le modèle ou les prévisions.
Nous devons conserver l’élément humain car il peut ajouter de la valeur, mais nous devons guider quand ils devraient ajouter de la valeur. C’est un processus qui prend du temps. Si je peux dire aux analystes de laisser certaines tâches à l’automatisation complète et de concentrer leur attention sur des actions spécifiques, je peux également rendre leur travail plus efficace. Ils peuvent consacrer plus de temps et de ressources à améliorer ce qu’ils font déjà bien. La congruence intervient dans cette discussion où nous disons que si nous devons aller au-delà de l’exactitude, alors en évaluant quelles étapes ajoutent de la valeur, cela peut aider à discriminer celles-ci dans le cadre de l’inventaire ou plus généralement dans le cadre de la prise de décision.
Une discussion similaire que je ferais pour les commandes. Les modèles ou les politiques vous fourniront probablement une bonne base si vous faites bien votre travail en tant qu’analyste. Cependant, je ne peux pas voir que cela puisse être universellement le chiffre le plus informatif. Il y aura toujours des éléments, des perturbations qui viennent de se produire ce matin dans la chaîne d’approvisionnement par exemple, quelque chose de difficile à évaluer. Cela n’aura pas de problème de vieillissement ou non. Il se passe quelque chose dans le monde. Typiquement, il se passe toujours quelque chose dans le monde. Parfois, cela affectera votre chaîne d’approvisionnement, parfois cela n’affectera pas votre chaîne d’approvisionnement. Parfois, cela peut exercer des pressions, disons sur l’inflation, et ainsi vos consommateurs peuvent commencer à agir différemment. Ce sont des choses extrêmement difficiles à modéliser.
C’est là que j’ai confiance envers les experts et les analystes qui ont le temps de faire cela, leur travail correctement. Et peut-être que je peux conclure avec cela, en ce qui concerne les ajustements, en disant que la recherche suggère que la décomposition de vos ajustements, c’est-à-dire si vous allez dire : “D’accord, je vais affiner le chiffre de 100”, en disant : “D’accord, pourquoi 100 ? Parce que 20 à cause de cette raison et 80 à cause de cette raison”, cela correspond beaucoup à ce que nous disions précédemment, décomposer si vous le souhaitez ou garder les deux étapes de la prévision et de l’inventaire distinctes, mais pas isolées.
Parce que si vous dites : “D’accord, je vais changer ma commande de x%”, si nous demandons à la personne qui fait cela : “Pouvez-vous expliquer quelle partie de cela vient de votre compréhension du risque provenant du modèle de prévision ou des réalités de la chaîne d’approvisionnement ?” Potentiellement, ils peuvent proposer un meilleur ajustement.
Conor Doherty: Merci, Nikos. Johannes, je m’adresse à vous. Vous êtes un grand fan de l’intervention humaine, n’est-ce pas ?
Joannes Vermorel: Non, pendant les cinq premières années chez Lokad, nous laissions les gens ajuster les prévisions et c’était une terrible erreur. Le jour où nous avons commencé à devenir un peu dogmatiques et à l’interdire complètement, les résultats se sont considérablement améliorés. Donc, nous ne le permettons pratiquement plus.
Donc, tout d’abord, considérons le rôle des humains. Je veux dire, les gens parlent d’un seul SKU et ils pensent que c’est typique. Une chaîne d’approvisionnement typique comprend des millions de SKUs. Et donc, lorsque les gens disent qu’ils veulent apporter des ajustements, ils gèrent en réalité de manière microscopique un système incroyablement complexe. Et donc, ils sont littéralement, c’est un peu comme si vous entriez dans la mémoire aléatoire de votre ordinateur et que vous essayiez de réorganiser la façon dont les choses sont stockées dans votre ordinateur alors que vous avez des gigaoctets de mémoire et de stockage, et ainsi de suite. Vous ne faites que choisir certaines choses qui ont attiré votre attention et ce n’est tout simplement pas une bonne utilisation de votre temps.
Et peu importe la quantité d’informations que vous obtenez, les informations que vous obtenez, vous ne les obtenez presque jamais au niveau du SKU. Donc oui, il se passe quelque chose dans le monde, mais est-ce quelque chose qui se passe au niveau du SKU ? Parce que si votre interaction avec un système consiste à ajuster quelque chose comme un SKU, sur quelle base avez-vous cette information de haut niveau qui se traduit par quelque chose de pertinent au niveau du SKU ? Nous avons donc cette énorme déconnexion.
Les gens pensent que lorsque vous prenez un exemple de jouet, je pense que c’est une situation réaliste, il suffit de penser à 10 millions de SKUs, c’est une base pour une entreprise qui n’est même pas très grande. C’est mon problème et c’est là où Lokad, nous avons constaté une énorme amélioration, c’est parce que c’est surtout du non-sens. Vous ne faites que choisir 0,5% des SKUs pour faire des choses et cela n’a pas de sens et généralement cela crée beaucoup de problèmes. Et plus que cela, cela crée beaucoup de code car les gens ne réalisent pas que permettre une interaction signifie que vous devez écrire beaucoup de code pour le prendre en charge et beaucoup de code qui peut contenir des bugs. C’est le problème des logiciels d’entreprise. Les gens regardent généralement cela comme s’il s’agissait simplement des propriétés mathématiques, mais les logiciels d’entreprise ont des bugs, même ceux que Lokad écrit, malheureusement.
Et lorsque vous avez une grande entreprise, vous voulez avoir une interaction humaine, vous avez besoin de flux de travail, d’approbations, de vérifications, de traçabilité. Vous vous retrouvez donc avec tellement de fonctionnalités que vous, vous commencez avec un modèle qui comporte environ mille lignes de code, qui est le modèle statistique si vous voulez, et vous vous retrouvez avec un flux de travail qui comporte environ un million de lignes de code juste pour tout mettre en œuvre.
Donc oui, l’intention est plutôt bonne et je crois qu’il y a de la valeur dans l’interaction humaine, mais absolument pas de la manière typique dont elle est produite. La manière typique dont Lokad aborde l’interaction humaine est de dire, d’accord, il se passe quelque chose dans le monde, oui. Maintenant, revoyons la structure même du modèle. Vous voyez, encore une fois, du modèle prédictif et de l’optimisation. Et encore une fois, la position classique dans la littérature est de considérer les modèles comme quelque chose de donné. Vous avez un article, il est publié, donc vous opérez avec ça. Lokad, nous n’opérons pas de cette façon. Nous n’avons que des modèles prédictifs et d’optimisation essentiellement basés sur des paradigmes de programmation. Donc Lokad n’a pas de modèles, nous n’avons que de longues séries de paradigmes de programmation. Donc essentiellement, c’est toujours entièrement sur mesure et assemblé sur place.
Et donc essentiellement, c’est du code, avec les bons paradigmes de programmation. Et lorsque quelque chose se produit, ces paradigmes de programmation vous permettent essentiellement d’exprimer vos modèles prédictifs ou d’optimisation de manière très précise, très concise. C’est littéralement réduire ces 1 000 lignes de code, les réduire à 20 avec une notation appropriée si vous le souhaitez.
Ensuite, vous pouvez revenir à votre code et réfléchir, d’accord, j’ai quelque chose et j’ai besoin d’intervenir. Ce n’est pas au niveau du SKU, il est très rare d’avoir cette information détaillée. Les informations que vous obtenez du monde extérieur sont généralement beaucoup plus générales. Et donc vous allez généralement ajuster certains aspects généraux de votre modèle. Et c’est là que réside la beauté, c’est que vous n’avez pas nécessairement besoin d’avoir beaucoup d’informations très précises.
Par exemple, si vous pensez, disons que vous êtes dans l’industrie des semi-conducteurs et que vous vous inquiétez de la montée en puissance de la Chine et de Taïwan. Ce que vous diriez, c’est que je vais simplement prendre les délais de livraison et je vais ajouter une queue où je dirai par exemple, 5% de chances que les délais de livraison doublent. Normalement, les délais de livraison dans l’industrie des semi-conducteurs sont très longs, comme 18 mois, mais ici vous ajoutez de nulle part un aspect, disons 5% de chances annuelles que les délais de livraison doublent pour quelque raison que ce soit.
Vous n’avez pas besoin d’être précis, vous savez, à la fin cela peut être un conflit, cela peut être une série de confinements, cela peut être une grippe qui ferme les ports, cela peut être n’importe quoi. Mais c’est là que réside la beauté de cette approche probabiliste combinée à des paradigmes de programmation, cela vous permet d’injecter une intention de haut niveau dans la structure même de vos modèles. Cela va être très rudimentaire, mais cela vous permettra également de faire ce que vous voulez dans la direction souhaitée, plutôt que de gérer de manière micro la réécriture au niveau du SKU.
Et la chose intéressante, c’est que si je reviens à cet exemple où nous ajoutons cette probabilité de 5% de doubler les délais de livraison, la chose intéressante, c’est que vous pouvez littéralement nommer ce facteur. Vous diriez que c’est notre Facteur de Peur et c’est tout. Vous dites simplement, d’accord, c’est mon facteur de peur des choses, vous savez, des choses vraiment mauvaises qui se produisent et c’est bien. Et c’est là que réside la beauté, une fois que vous avez cela, toutes vos décisions seront doucement orientées vers cette probabilité supplémentaire d’un événement rare et vous n’avez pas à gérer de manière micro le SKU par SKU et à faire toutes sortes de choses qui ne vieilliront pas bien.
Et si, six mois plus tard, vous réalisez que votre peur était injustifiée, alors il est très facile d’annuler cela. Pourquoi ? Parce que vous avez du code où vous avez ce Facteur de Peur qui est accompagné d’un commentaire qui dit que c’est mon terme qui est le Facteur de Peur. Donc vous voyez, en termes de documentation, de traçabilité, de réversibilité, lorsque vous abordez un problème à travers des paradigmes de programmation, vous obtenez quelque chose de super maintenable. Parce que c’est aussi un problème que nous avions dans le passé lorsque les gens intervenaient manuellement, et c’était en réalité la majeure partie du coût, c’était la mauvaise maintenance des remplacements.
Parfois, les gens ont une idée appropriée, ils mettent un remplacement et puis ils l’oublient. Et puis la chose reste et devient radicalement mauvaise. Et c’est le problème parce que vous voyez, une fois que vous introduisez un remplacement, vous diriez, oh, mais pourquoi avez-vous cela ? Eh bien, le problème avec les remplacements, c’est que lorsque vous êtes un fournisseur de logiciels comme Lokad, vous allez régénérer votre prévision tous les jours. Donc les gens ne peuvent pas simplement remplacer votre prévision et c’est tout, car demain vous allez tout régénérer.
Et donc ils ont besoin de persister le remplacement d’une manière ou d’une autre. Et le problème, c’est que maintenant vous avez un paramètre persistant qui va être là et qui est responsable de sa maintenance ? Et vous vous retrouvez avec un flux de travail encore plus complexe pour effectuer la maintenance des remplacements, la phase de suppression du remplacement, etc. Et toutes ces choses ne sont jamais discutées dans la littérature. C’est très intéressant, mais du point de vue d’un fournisseur de logiciels d’entreprise, c’est juste une situation très douloureuse et vous vous retrouvez avec 20 fois, voire 100 fois plus de lignes de code pour gérer cela, ce qui est un aspect très peu intéressant par rapport à la gestion de l’aspect plus fondamental de l’optimisation prédictive.
Nikos Kourentzes : En principe, la position que Joannes adopte est une position avec laquelle je ne pense pas que beaucoup de gens seraient en désaccord, ou du moins les personnes qui ont fait face aux deux côtés. Mon point de vue est que les ajustements ne doivent pas se faire de cette manière. Je n’ai pas encore de solution à cela car c’est un domaine de recherche très actif. Comme je l’ai dit, je sais que beaucoup de gens ont travaillé sur la question de savoir si nous devrions éliminer ce type d’ajustements ou ce type d’ajustements.
Vous pourriez également envisager le problème d’une manière très différente. Permettez-moi d’essayer de répondre en quelque sorte en reprenant une recherche analogue avec l’un de mes collègues, Ive Sager. Il est en Belgique. Nous avons beaucoup travaillé pour essayer de comprendre comment nous pouvons transférer les informations qui existent au niveau stratégique ou au niveau de l’entreprise au niveau du SKU.
Cela pourrait potentiellement donner une façon de dire, regardez, je ne vais pas ajuster chaque SKU. Je suis tout à fait d’accord que la gestion micro n’est pas une bonne idée, je veux dire pour votre SKU ou en général, je dirais. Mais c’est une autre discussion. Si vous laissez les gens faire n’importe quoi avec leurs ajustements, la plupart du temps, en raison des biais humains, de la propriété, etc., ils vont généralement perdre du temps. Qu’ils soient destructeurs ou constructifs avec les ajustements reste à voir, mais ils vont sûrement perdre du temps.
Le côté logiciel dont Joannes a parlé, je dois prendre votre opinion telle quelle. Je ne suis pas dans le même domaine, même si je conviens que les bugs sont partout, y compris dans mon code. Mais je peux voir qu’il y a une autre façon de penser aux ajustements dans leur ensemble en tant que processus.
Je ne pense pas que cela soit précieux de dire, vous savez, j’ai maintenant besoin de gérer X nombre de séries temporelles. Ce serait plutôt, vous savez, stratégiquement, nous changeons de direction ou notre concurrent a fait X. Ces actions sont très difficiles à quantifier, il serait donc peut-être préférable de dire que l’inaction est meilleure que de quantifier au hasard.
Mais je peux aussi voir que cette information n’est pas dans les modèles. Donc, si j’ajoutais au modèle un risque supplémentaire que l’utilisateur peut calibrer ou si je pouvais demander à l’utilisateur, pouvez-vous trouver une autre façon d’ajuster votre sortie ? Cela reste un élément subjectif d’une manière ou d’une autre. Quelle est la meilleure façon d’introduire cet élément subjectif, je pense que c’est une question ouverte.
Je ne vois pas la manière habituelle de faire des ajustements comme étant la manière productive. Ce n’est pas seulement les aspects de complication du processus que Joannes mentionne, c’est aussi que je vois les gens perdre leur temps. Ils s’embrouillent trop là-dedans, ils disent que mon travail consiste à venir au bureau et à passer en revue chaque série temporelle une par une, regarder les chiffres ou les graphiques. Ce n’est pas ce qu’un analyste devrait faire.
Surtout de nos jours, où les entreprises commencent à avoir des équipes de data science, il y a de l’expertise, il y a des personnes bien formées sur le marché. Nous ne devrions pas gaspiller leur temps comme ça, nous devrions les utiliser pour corriger le processus. C’est pourquoi je pense qu’il y a une place pour les ajustements, mais pas de la manière traditionnelle. Je pense que la recherche est assez concluante à ce sujet, car en raison des incohérences, des biais, en moyenne, vous n’obtiendrez pas d’avantages.
Conor Doherty: Rien n’empêche d’avoir l’automatisation en poursuivant la congruence de prévision comme une métrique. L’automatisation pourrait toujours faire partie du processus de prévision dans la poursuite de la congruence, n’est-ce pas ? Ou ai-je mal compris ?
Nikos Kourentzes: Dans un sens, vous avez raison. Ma compréhension de la congruence, telle qu’elle est définie et telle que nous l’avons observée empiriquement dans les données de l’entreprise, indiquerait en fait à l’utilisateur d’éliminer tous les ajustements mineurs. Parce que les ajustements provoqueraient des fluctuations supplémentaires qui seraient incongruentes. Donc naturellement, cela pousserait à éliminer beaucoup d’ajustements.
Mais je suis un peu sceptique car nous devrions comprendre où nous devenons trop congruents, où les informations que les experts auraient seraient critiques. C’est encore une question ouverte. Mais si nous réfléchissons au processus habituel que Joannes et moi avons critiqué, les mesures de congruence vous aideraient à voir le problème.
Conor Doherty: Donc, aucun de vous n’est d’avis qu’il devrait y avoir une prise en charge manuelle quotidienne de chaque SKU et d’ajustement. Ce serait simplement une perte d’argent futile. Donc, il y a un accord total à ce sujet.
Joannes Vermorel: Mais c’est une pratique de facto de la plupart des entreprises. Je suis d’accord lorsque vous dites que vous voulez traduire l’intention stratégique. Je suis tout à fait d’accord. Et lorsque je dis que j’utilise le terme de paradigmes de programmation, je fais référence aux instruments qui vous permettent de le faire. Donc, essentiellement, vous ne voulez pas que les gens soient accablés par la gestion micro de SKUs, vous ne voulez pas que quiconque dans l’équipe de science des données soit accablé par l’écriture de code long et inélégant qui est plus susceptible que la plupart d’avoir encore plus de bugs et de problèmes.
Par exemple, vous avez une distribution de probabilité pour la demande, vous avez une distribution de probabilité pour les délais de livraison, et vous voulez simplement combiner les deux. Avez-vous un opérateur pour le faire ? Si vous avez un opérateur, Lokad en a un, vous pouvez littéralement avoir une seule ligne de code qui vous donne la demande intégrée. C’est la demande intégrée sur une durée de livraison variable. Sinon, vous pouvez vous en sortir avec Monte Carlo, pas de problème. Ce n’est pas très difficile. Vous savez, avec Monte Carlo, vous échantillonnerez votre demande, vous échantillonnerez vos délais de livraison, et voilà, vous ferez cela, pas de problème. Mais au lieu d’avoir quelque chose qui prendra une ligne, cela prendra du temps, et vous aurez une boucle. Donc, si vous avez une boucle, cela signifie que vous pouvez avoir des exceptions d’index hors limites, vous pouvez avoir des exceptions de décalage d’un, vous avez toutes sortes de problèmes. Encore une fois, vous pouvez résoudre cela en ayant une programmation en binôme, des tests unitaires, et ainsi de suite, mais cela ajoute du code.
Donc, mon point était, et je vous suis vraiment, je pense que là, vous voyez, c’est l’essentiel dont vous parliez. Ils ont une équipe de science des données. C’est pour déplacer la correction, et je suis tout à fait d’accord avec vous, c’est de déplacer la correction du fait que je modifie un nombre à celui que je modifie un morceau de code. Et je pense que c’est exactement, je pense que là-dessus, nous sommes un peu alignés. Si nous déplaçons essentiellement l’intervention humaine du fait que je modifie un nombre et que je choisis une constante dans mon système et que je modifie cela à d’accord, je vais traiter avec un code et repenser un peu quelle est l’intention et faire cet ajustement, alors je peux approuver et cela fonctionne.
Mon point était de déplacer la correction du fait de modifier un nombre à celui de modifier un morceau de code. Si nous déplaçons l’intervention humaine du fait de modifier un nombre à celui de traiter avec du code et de repenser un peu quelle est l’intention et de faire cet ajustement, alors je peux approuver et cela fonctionne.
Et en effet, si nous revenons au gaspillage de temps, la chose intéressante est que lorsque vous modifiez le code, oui, cela prend beaucoup plus de temps pour changer une ligne de code. Cela peut prendre une heure, là où changer un nombre ne prend qu’une minute. Mais cette heure s’applique ensuite à l’ensemble de l’entreprise. Vous savez, lorsque cela est fait au bon niveau, vous avez cette heure de codage qui vous apporte un avantage à l’échelle de l’entreprise, par opposition à cette minute sur un SKU qui vous apporte éventuellement un avantage, mais seulement pour le SKU.
Conor Doherty: Donc, vous parlez de la différence entre ajuster manuellement une sortie, ce que prévoit la prévision, par rapport à ajuster la recette numérique qui produit la prévision ?
Joannes Vermorel: Exactement, il y a une information dans ce monde, le postulat de base, je pense, c’est qu’il y a une information dans les actualités ou peut-être une information privée à laquelle vous avez accès par le réseau de l’entreprise elle-même. Donc, vous avez une information supplémentaire qui n’est pas dans le modèle, qui n’est pas dans les données historiques.
Donc, je suis d’accord avec l’affirmation, et je suis d’accord avec l’idée que oui, nous n’avons pas encore une super intelligence, une intelligence générale. Nous ne pouvons pas simplement demander à ChatGPT de traiter tous les e-mails de l’entreprise et de le faire pour nous. Nous n’avons pas ce degré d’intelligence à notre disposition. Il doit donc s’agir d’esprits humains qui effectuent ce processus de tri. Et je suis d’accord qu’il y a de la valeur à avoir des personnes qui réfléchissent de manière critique à cette information et essaient de la refléter de manière précise dans la supply chain.
Et je suis vraiment d’accord avec Nikos quand il dit, et ensuite la science des données, car oui, c’est finalement le rôle de l’équipe de science des données de dire chaque jour, j’ai un modèle. Est-il vraiment fidèle à l’intention stratégique de mon entreprise ? Ce qui est une question très générale, est-ce que je reflète réellement la stratégie telle qu’exprimée par celui qui élabore la stratégie dans l’entreprise ? Ce qui est un problème qualitatif, pas quantitatif.
Nikos Kourentzes: Permettez-moi d’ajouter quelque chose ici car je pense que Joannes a dit quelque chose qui est très utile pour que les gens comprennent pourquoi nous sommes critiques à l’égard des ajustements traditionnels. Il a mentionné que ce n’est pas la prédiction ponctuelle, c’est l’expression probabiliste de celle-ci. Les gens ajustent les prédictions ponctuelles, cela n’a aucun sens en termes de stocks. Nous nous soucions des probabilités de l’ensemble de la distribution.
Donc, si quelqu’un pouvait le faire, peut-être que cela pourrait réellement faire quelque chose. Mais personne ne le fait, et vous savez, je travaille avec les statistiques depuis, comme je l’ai dit, la majeure partie des 20 dernières années. Je ne peux pas le faire facilement de manière simple. Et vous savez, mon incapacité ne signifie pas que d’autres personnes ne peuvent pas le faire, mais tout ce que je dis, c’est que lorsque vous pensez de manière probabiliste, l’information est tellement abstraite qu’il est très difficile pour quelqu’un d’y aller manuellement et de dire, ouais, ajustez-le juste de 10 unités. C’est un processus très difficile. Donc, en un sens, beaucoup de gens font toutes ces ajustements sur la mauvaise quantité de toute façon.
Joannes Vermorel: Je suis tout à fait d’accord. Quand j’ai dit chez Lokad, nous avons arrêté de faire des ajustements il y a une décennie, c’était exactement à l’époque où nous sommes passés à la probabilité. Les gens disaient qu’il fallait faire des ajustements, et puis nous leur montrions les histogrammes de la distribution de probabilité.
Nous disions, je vous en prie, et puis les gens reculaient et disaient, non, nous ne ferons pas ça. C’était en effet un mécanisme pour empêcher les gens d’intervenir au mauvais niveau. Lorsqu’ils voyaient les distributions de probabilité, ils réalisaient qu’il y avait beaucoup de profondeur. Je veux dire, les gens pensaient à ces distributions de parité pour une chaîne d’approvisionnement comme des courbes en cloche douces, vous savez, gaussiennes et autres. Ce n’est pas le cas.
Par exemple, disons que vous avez un magasin de bricolage. Les gens achèteraient certains produits uniquement par multiples de quatre ou huit ou douze parce qu’il y a une certaine logique là-dedans. Donc, votre histogramme n’est pas comme une courbe en cloche, il a des pics là où les gens achètent soit un parce qu’ils ont besoin d’une pièce de rechange, soit ils achètent quatre ou huit et rien entre les deux. Donc, lorsque vous commencez à réfléchir à la question de savoir si je dois déplacer la moyenne de 2,5 à 3,5 ? Mais vous regardez l’histogramme, et l’histogramme est comme trois pics : une unité, quatre unités, huit unités.
Soudain, les gens disent, ça n’a pas vraiment de sens pour moi d’essayer de déplacer ces choses. Je ne vais pas déplacer la probabilité qui est actuellement attribuée à quatre à cinq parce que cela ne se produit pas. Ce que je voudrais probablement si je veux augmenter la moyenne, c’est diminuer la probabilité de zéro et augmenter la probabilité de toutes les autres occurrences.
Les gens réalisent qu’il y a beaucoup de profondeur dans ces distributions de probabilité. Il y a beaucoup de manigances, il suffit de mentionner ces sortes de multiples magiques qui existent. C’était notre observation. Nous sommes tout à fait d’accord que lorsque les gens voient ces distributions de probabilité, ils réalisent qu’ils ne vont pas ajuster manuellement ce seau d’histogramme par seau d’histogramme. Donc, cette réaction d’impraticabilité est réelle.
Conor Doherty: Eh bien, encore une fois, je suis conscient que nous avons pris beaucoup de votre temps, Nikos. Mais j’ai une dernière question. Vous travaillez dans un laboratoire d’intelligence artificielle, il semblerait négligent de ne pas vous demander comment l’IA pourrait s’intégrer dans tout le contexte dont nous parlons pour l’avenir. Donc, que ce soit l’automatisation de la prévision en congruence avec l’IA qui fait les remplacements, je ne sais pas, esquissez ce que vous voyez comme l’avenir là-bas, s’il vous plaît.
Nikos Kourentzes: C’est une question à un million de dollars. Je peux répondre de la même manière qu’un des relecteurs qui examinait l’article avait quelques préoccupations. La question était du genre : “D’accord, et alors ? Vous savez, voici une autre métrique, et alors ?”
Et je disais : “Regardez, si vous avez un modèle statistique assez simple, vous pouvez travailler à travers les calculs, vous pouvez tout trouver analytiquement, très bien. Quand vous commencez à vous lancer dans l’apprentissage automatique et surtout avec les énormes modèles d’IA que nous utilisons maintenant, c’est une tâche très difficile. Donc, il est très utile si nous avons des repères, quelque chose comme ça, qui peuvent réellement rendre un peu plus simple de comprendre ce que font ces modèles.
Par exemple, si j’ai un énorme modèle d’IA et que nous pouvons dire, regardez, celui-ci pousse la prévision vers une congruence accrue, alors je peux avoir un moyen de considérer ce modèle d’une manière plus simple. Cette manière plus simple ne consiste pas à réduire la complexité du modèle de quelque manière que ce soit, mais plutôt à comprendre comment cela affecte mon inventaire, comment cela affecte mon processus de prise de décision, comment cela affecte mon hypothèse du fouet, mentionnée précédemment, processus en cours.
C’est essentiellement ainsi que nous terminons en fait le document de travail. Nous disons que l’avantage de cette métrique est de comprendre comment les modèles qui sont des boîtes noires peuvent se comporter. Je ne pense pas que nous verrons à l’avenir des modèles qui ne sont pas d’une certaine manière inspirés par l’IA. Je suis un peu sceptique quand les gens veulent tout remplacer par l’IA parce que certaines choses peuvent être simplement plus simples, plus efficaces. Mon inquiétude ne vient pas nécessairement ici des mathématiques du problème ou même de la richesse des données, etc. Je pense que ce sont des problèmes que nous pouvons résoudre. Mon inquiétude vient plutôt d’un aspect très simple du processus et de la durabilité de la question.
Si j’ai un énorme modèle d’IA qui finit par, une fois que je commence à tout mettre à l’échelle de ce modèle, brûler beaucoup de cloud computing et beaucoup d’électricité, est-ce que j’ai besoin de faire tout cela si je vais avoir seulement 1% de différence par rapport à un lissage exponentiel ? Parfois, j’aurai beaucoup plus qu’une différence de 1%, alors allons-y. Mais parfois, je n’ai pas besoin de toute cette complication. Je peux opter pour quelque chose de plus simple qui est également plus transparent pour les non-experts en IA.
L’IA est une voie à suivre pour bon nombre des problèmes que nous avons. Je pense que dans de nombreux cas, les défis de prévision auxquels nous sommes confrontés et surtout les décisions que nous soutenons avec ces prévisions sont un très bon terrain pour les applications d’IA. Mais ce n’est pas un laisser-passer pour tout oublier, allons-y avec l’IA. Cela se reflète un peu aussi dans l’article. Parce que comme je l’ai mentionné précédemment, ce n’est pas le premier article qui dit : “Oh, modifions un peu l’objectif pour ne pas se limiter à la précision.” D’autres collègues l’ont également fait. La différence, c’est que nous essayons de faire un peu d’algèbre pour montrer, “Eh bien, c’est vraiment ce qui se passe une fois que nous faisons cela.” J’aime quand nous sommes capables de faire ce genre d’interprétation ou d’avoir l’intuition de cette action.
L’IA est une voie à suivre pour de nombreuses questions, mais nous ne devons pas oublier qu’il est utile de comprendre ce que nous faisons sur Terre. Nous ne devrions pas simplement faire confiance aveuglément et dire que le modèle d’IA fera ce que j’espère qu’il fera. Je ne dis pas que les modèles d’IA ne peuvent pas faire de très bonnes choses. Je dis simplement : “Ne le laissons pas là en espérant que ça fonctionne. Ça devrait être mieux que ce que j’espère.”
Conor Doherty : Vos réflexions à ce sujet ?
Joannes Vermorel : Je pense que Nikos a tout à fait raison. Tout comme je disais que pour l’ajustement, il faut prendre en compte le nombre de lignes de code. Les modèles d’apprentissage profond ont une surcharge énorme et cela complique tout. Peu de gens réalisent que pour de nombreuses cartes GPU, il n’est même pas clair comment effectuer des calculs déterministes. Il y a de nombreuses situations où vous exécutez littéralement le calcul deux fois et vous obtenez deux nombres différents parce que le matériel lui-même n’est pas déterministe.
Cela signifie que vous vous retrouvez avec des Heisenbugs ? Vous savez, les Heisenbugs, c’est quand vous avez un bug, vous essayez de le reproduire et il disparaît. À un moment donné, vous arrêtez de le poursuivre parce que vous dites : “Eh bien, j’essaie de reproduire le cas, ça ne se produit pas, donc je suppose que ça fonctionne.” Et puis vous le remettez en production, et le bug se produit à nouveau, et vous ne pouvez pas le reproduire.
Donc je suis tout à fait d’accord. La simplicité rend tout un peu meilleur, quand cela se situe à peu près dans la même catégorie de performances. Si vous avez quelque chose de massivement plus simple, la chose la plus simple gagne tout le temps en pratique. Je n’ai jamais vu de situation où un modèle surpasserait de quelques pourcentages un autre modèle, selon n’importe quelle métrique, et serait plus performant dans le monde réel.
C’est une alternative si l’alternative est un ordre de grandeur plus simple pour à peu près le même résultat dans la même catégorie, même si la métrique est ces soi-disant dollars ou euros que Lokad a essayé d’optimiser. La raison est un peu étrange, mais la raison est que les chaînes d’approvisionnement changent, comme nous le mentionnions, l’intervention humaine.
Lorsque vous voulez intervenir pour changer quelque chose, le temps est essentiel. Si vous avez un programme, un modèle complexe, des milliers de lignes, cela signifie que rien que la logistique, par exemple, il y a quelques années chez Lokad, des dizaines de clients ont été impactés par le navire Evergreen qui avait bloqué le canal de Suez. Nous avions essentiellement 24 heures pour ajuster tous les délais de livraison pour à peu près tous nos clients européens qui importaient d’Asie.
C’est là que pouvoir répondre en quelques heures, au lieu d’avoir besoin d’une semaine simplement parce que mon modèle est très compliqué, est crucial. Si vous voulez que je vous fournisse la solution sans introduire autant de bugs dans le processus que cela va simplement compromettre ce que je fais, vous avez besoin d’un modèle plus simple. Je suis tout à fait d’accord qu’il y a de la valeur et qu’il y a un coût. Pour les entreprises qui ont commencé à jouer avec GPT4, le coût est très élevé.
Conor Doherty : Eh bien, Nikos, je n’ai plus de questions, mais il est d’usage de donner le dernier mot à l’invité. Alors, s’il vous plaît, un appel à l’action ou quelque chose que vous aimeriez partager avec les téléspectateurs ?
Nikos Kourentzes : L’appel à l’action pour moi est que nous devons passer des vues traditionnelles de la prévision en isolation de la prise de décision. Dans notre contexte de discussion, les stocks, etc., nous devons essayer de voir ces choses de manière plus conjointe.
Je suis universitaire, d’autres collègues auront d’autres opinions, Lokad a également sa perspective. Je pense qu’il y a de la valeur dans toutes ces perspectives car elles pointent toutes dans la même direction. Nous devons abandonner ce que nous faisions il y a quelques décennies, mettre à jour notre façon de penser, mettre à jour notre logiciel, mettre à jour nos manuels. Il y a de la valeur à le faire. Ce n’est pas seulement une question de changer notre logiciel ou autre, cela conduira réellement à des décisions différentes.
Je salue l’inclusion dans le domaine de la prévision de nombreuses personnes issues de l’informatique, de l’apprentissage profond, de la programmation, du côté des stocks, car c’est maintenant le moment où nous pouvons réellement aborder ces problèmes sérieusement. Je ne veux pas donner l’impression que cela enlève quoi que ce soit à la valeur du monde de la prévision en tant que domaine de recherche. J’appartiens à ce monde, donc je voudrais aussi dire que nous ne pouvons pas simplement prendre une série de bibliothèques, exécuter quelques codes et dire que c’est bien.
La plupart du temps, lorsque je travaille avec l’industrie ou des instituts, la valeur réside dans l’obtention du bon processus, en abordant la mauvaise méthodologie, ce que le domaine de la prévision peut offrir. J’aime l’idée de garder les étapes dans le processus, mais nous devons travailler ensemble pour trouver une solution commune. C’est un bon espace.
Revenons au tout début de la question où j’ai dit que j’aime travailler avec l’équipe à l’université. Il y a de la polyphonie, il y a beaucoup d’idées. Je vais poser ma question de prévision et d’autres personnes diront : “Et si on essayait cela ? Avez-vous pensé à cette perspective ?” Et je suis là, “Regardez ça, je n’y avais jamais pensé.”
Conor Doherty : Merci, Nikos. Je n’ai plus de questions. Joannes, merci pour votre temps. Et encore une fois, Nikos, merci beaucoup de nous avoir rejoints et merci à tous de nous avoir regardés. Nous vous verrons la prochaine fois.