00:00:08 Introduction à la prévision de la demande et à l’agrégation des données.
00:00:41 Différents types de granularités dans la prévision de la demande.
00:02:00 Défis des divers niveaux d’agrégation des données en prévision.
00:05:28 Niveau désagrégé : SKU par jour, et reconstitution d’autres niveaux d’agrégation.
00:08:31 Cas particuliers et défis avec les produits périssables dans la prévision de la demande.
00:09:42 Importance des informations granulaires dans l’agrégation des données.
00:11:01 Reconstitution du niveau d’agrégation souhaité à partir des données les plus granulaires.
00:13:01 Limitations des techniques de séries temporelles dans les données très désagrégées.
00:15:01 Techniques des séries temporelles et l’hypothèse que le futur sera plus ou moins le même.
00:17:00 La nature séduisante et trompeuse des modèles de séries temporelles.
00:19:03 Discussion sur les inconvénients de l’agrégation dans la prévision.
00:20:00 Exploration de l’importance de la granularité dans la prise de décision.
00:21:38 Examen des horizons pertinents et leur impact sur les décisions supply chain.
00:23:48 Argumentation contre une agrégation arbitraire et son impact potentiel sur l’efficacité de la supply chain.
00:26:35 Suggestion de se concentrer sur une granularité orientée décision et d’éviter l’optimisation prématurée.

Résumé

Joannes Vermorel, fondateur de Lokad, discute de l’importance de sélectionner le bon niveau d’agrégation des données pour la prévision de la demande dans une interview avec Nicole Zint. Deux dimensions sont considérées : la dimension temporelle et la dimension structurelle, incluant les intervalles de temps utilisés pour agréger les données, et l’organisation de la supply chain. Vermorel note que le niveau quotidien et le niveau SKU sont les plus adaptés à la plupart des réseaux supply chain, mais certains cas particuliers peuvent nécessiter des données plus granulaires. Vermorel met en garde contre les limites des modèles de séries temporelles en prévision supply chain, encourageant une perspective plus large qui prend en compte des facteurs tels que la périssabilité, la cannibalisation, la substitution, et des lead times variables. Il souligne l’importance d’une granularité orientée décision et d’étendre les horizons de prévision au-delà des lead times.

Résumé Étendu

Dans cette interview, l’animatrice Nicole Zint discute de la prévision de la demande et du bon niveau d’agrégation des données avec Joannes Vermorel, fondateur de Lokad, une entreprise de logiciels spécialisée dans l’optimization de la supply chain. Ils explorent les différents types de granularités dans la prévision de la demande et l’impact de ces granularités sur les méthodes de prévision.

Vermorel explique qu’il y a essentiellement deux dimensions à considérer lorsqu’on choisit la granularité pour la prévision de la demande : la dimension temporelle et la dimension structurelle. La dimension temporelle fait référence aux intervalles de temps utilisés pour agréger les données, comme horaire, quotidien, hebdomadaire, mensuel ou annuel. La dimension structurelle se rapporte à l’organisation de la supply chain, incluant les catégories de produits et les emplacements. Cela peut impliquer une agrégation des données par SKU (Stock Keeping Unit), par référence produit, par famille de produits, par super-famille de produits, ou par catégorie, puis une agrégation par site, région ou pays.

En abordant les types de prévisions associés à ces granularités, Vermorel mentionne que le concept de business intelligence, ou hypercubes, popularisé dans les années 90, est pertinent. Les données historiques peuvent être représentées sous forme de vecteurs, chaque niveau de granularité créant un vecteur unique. Lorsqu’une dimension temporelle est ajoutée, ces vecteurs peuvent être interprétés comme des données de séries temporelles, qui peuvent ensuite être utilisées pour la prévision.

Cette approche traite principalement des prévisions de séries temporelles, qui constituent la pratique dominante dans l’industrie. Vermorel note qu’il peut y avoir plusieurs prévisions générées à partir des mêmes données en raison de la variété des niveaux d’agrégation possibles.

L’interview aborde également le terme technique « equispaced » en relation avec les séries temporelles. Les séries temporelles equispaced ont des intervalles réguliers et uniformes entre les points de données. Vermorel reconnaît que la plupart des professionnels de l’industrie supply chain n’ont probablement pas envisagé de travailler avec des séries temporelles non equispaced, car les séries temporelles equispaced sont plus courantes. Cependant, il souligne que certains intervalles, comme les mois, ne sont pas exactement réguliers au sens physique, puisque les mois ont des durées variables.

Ce segment de l’interview met l’accent sur l’importance de sélectionner la granularité appropriée pour la prévision de la demande. Il existe deux dimensions principales à considérer : la dimension temporelle et la structure. Divers types de prévisions peuvent être générés à partir des mêmes données en fonction de la granularité choisie, les prévisions de séries temporelles étant les plus courantes dans l’industrie. De plus, le concept de séries temporelles equispaced est discuté, mettant en lumière les complexités potentielles liées aux intervalles de temps variables.

Vermorel parle des horizons de prévision, de la granularité orientée décision, et de l’importance de ne pas limiter sa réflexion en matière de gestion de la supply chain.

Ils abordent les défis des niveaux d’agrégation des données dans l’optimization de la supply chain. Vermorel explique que le choix du niveau d’agrégation dépend de la sensibilité de l’industrie, certaines industries pouvant nécessiter une désagrégation plus fine. Il souligne également que le niveau quotidien et le niveau SKU sont les niveaux de désagrégation les plus sensés pour la plupart des réseaux supply chain. Cependant, il note que des cas particuliers, tels que les produits périssables, peuvent nécessiter des points de données plus granulaires. Vermorel insiste sur le fait que chaque décision arbitraire concernant l’agrégation des données comporte des avantages et des inconvénients, et qu’il est crucial de comprendre l’origine de ces décisions. Lorsqu’on lui demande si un niveau de données plus granulaire pourrait être reconstitué à partir du niveau le plus granulaire, Vermorel explique que, chaque fois qu’on agrège des données, on perd de l’information. Ainsi, plus les données sont granulaires, plus précis est le forecast. Cependant, les données les plus granulaires ne sont pas des données agrégées mais les données transactionnelles brutes. Il explique que la raison pour laquelle on s’arrête à un SKU par jour est que c’est le dernier niveau auquel il est encore possible d’opérer avec des séries temporelles. Aller au-delà obligerait à renoncer à la perspective des séries temporelles puisque les données ne sont pas structurées comme telles.

Ils ont également discuté des limites des modèles de séries temporelles en prévision supply chain avec l’animatrice Nicole Zint. Vermorel note que, bien que l’industrie supply chain opère généralement avec un modèle mental de séries temporelles, les techniques de séries temporelles tendent à donner de mauvais résultats sur des données rares, erratiques et intermittentes. Il soutient qu’il existe une asymétrie fondamentale entre le passé et le futur, et que l’hypothèse selon laquelle l’avenir serait exactement le même que le passé est erronée. Vermorel remet également en question la pratique d’agréger les données, qui, selon lui, entraîne une perte d’information et des métriques mal alignées, et suggère que le seul horizon pertinent pour la prise de décision est celui qui est pertinent pour la décision spécifique.

Vermorel commence par expliquer que les horizons de prévision doivent s’étendre au-delà des lead times, car ceux-ci ne s’accordent pas toujours bien avec la perspective traditionnelle des séries temporelles. Il soutient que l’horizon de prise de décision devrait prendre en compte non seulement la période entre le moment présent et l’arrivée d’un produit, mais aussi le temps nécessaire pour écouler les marchandises reçues. L’horizon applicable dépend de facteurs tels que la rapidité attendue de liquidation des stocks et la variabilité de la demande. S’il n’existe pas de limite précise quant à l’horizon dans le futur à considérer, Vermorel reconnaît que les prévisions deviennent moins nettes à mesure que l’on regarde plus loin. En fin de compte, le trade-off réside dans l’équilibre entre le coût des ressources informatiques et les améliorations potentielles apportées à la supply chain.

Lorsqu’il est question de granularité, Vermorel insiste sur le fait qu’elle doit être guidée par les décisions que l’entreprise souhaite prendre. Il déconseille de confondre le besoin de visualisation avec d’autres exigences prédictives et d’optimisation, car la granularité peut être arbitraire et entraîner une perte de données. Au lieu de cela, il recommande de se concentrer sur les décisions ayant des impacts financiers tangibles sur la supply chain, telles que le reordering ou l’ajustement des prix.

Vermorel met en garde contre le fait de se fixer trop sur les niveaux d’agrégation, qu’il considère comme un aspect hautement technique du problème. Les systèmes informatiques modernes disposent de capacités suffisantes pour gérer divers niveaux de granularité, et il n’est pas nécessaire d’imposer des contraintes arbitraires à sa réflexion. Autrefois, agréger des données pour la visualisation constituait un défi, mais les systèmes modernes peuvent le faire aisément, même avec une granularité à l’échelle de la milliseconde.

L’interviewé met également en garde contre le recours exclusif aux approches traditionnelles des cubes de données pour l’optimization de la supply chain. Il affirme que cela peut imposer des restrictions inutiles et limiter le champ des solutions potentielles. Des facteurs tels que la périssabilité, la cannibalisation, la substitution, et la variabilité des lead times doivent être pris en compte pour une vision plus complète de la supply chain. Vermorel encourage une perspective plus large et évite les contraintes arbitraires susceptibles de freiner la résolution de problèmes en gestion de la supply chain.

En résumé, Joannes Vermorel plaide en faveur de la prise en considération d’une gamme plus étendue de facteurs lors de l’optimization des supply chains, de l’extension des horizons de prévision au-delà des lead times, et de l’adoption d’une granularité orientée décision. Il insiste sur l’importance de ne pas limiter sa réflexion et de tirer parti des systèmes informatiques modernes pour aborder efficacement des problèmes complexes de la supply chain.

Transcription Complète

Nicole Zint : Quand il s’agit de prévision de la demande, il existe une incroyable diversité de méthodes et de niveaux d’agrégation des données choisis à la fois entre les entreprises et en leur sein. Certaines prévoient sur une base quotidienne, d’autres sur une base hebdomadaire, mensuelle ou annuelle. Certaines prévoient au niveau du SKU, d’autres au niveau de la catégorie. Cela soulève la question : quel est le bon niveau d’agrégation des données ? C’est le sujet de l’épisode d’aujourd’hui. Avant d’entrer dans le vif du sujet, Joannes, quels sont les différents types de granularités à choisir dans la prévision de la demande ?

Joannes Vermorel : Dans la prévision de la demande, on a essentiellement deux dimensions principales à considérer. La première est temporelle, c’est-à-dire de savoir si l’on souhaite que les données transactionnelles soient agrégées à un niveau horaire, quotidien, hebdomadaire, mensuel ou annuel. L’autre dimension concerne généralement la topologie produit/supply chain, de sorte que l’on peut choisir d’agréger par SKU, par référence produit, par famille de produits, par super-famille ou par catégorie. On a également nos emplacements, où l’on peut vouloir agréger par site, par région ou par pays. Les deux dimensions principales sont le temps et la structure de votre catalogue/réseau supply chain, ce qui crée une matrice de possibilités quant au choix de la granularité.

Nicole Zint : Quand nous parlons de ces granularités, de quel type de prévisions s’agit-il ? Existe-t-il un type spécifique de prévision ?

Joannes Vermorel : Ce dont il s’agit conceptuellement, c’est d’un modèle qui a été popularisé dans les années 90, essentiellement sous le nom de business intelligence ou d’hypercubes. Ce que vous avez, c’est une manière de représenter vos données historiques sous forme de vecteurs. Vous choisissez un niveau de granularité, disons par SKU par semaine, et pour chaque SKU au niveau hebdomadaire, vous avez un vecteur de valeurs qui, du fait de l’existence d’une dimension temporelle, peut être interprété comme une série temporelle. Vous pouvez alors prévoir cette série temporelle dans le futur. En raison de la multitude de niveaux d’agrégation potentiels, il peut y avoir de nombreuses prévisions générées à partir des mêmes données. Nous parlons donc de prévisions de séries temporelles lorsque nous abordons ce problème, du moins c’est la pratique dominante dans l’industrie.

Nicole Zint : Qu’en est-il de la chronologie dans les séries temporelles, sont-elles toutes equispaced ou existe-t-il une approche différente ?

Joannes Vermorel : Equispaced est un terme très technique, que la plupart des professionnels de l’industrie supply chain n’ont probablement jamais envisagé d’utiliser. L’equispace est une technicalité où l’on dit que votre série temporelle est divisée en intervalles complètement réguliers. Cependant, gardez à l’esprit que cela reste une abstraction, car, par exemple, les mois ne sont pas exactement réguliers au sens physique. Les physiciens diraient que certains mois sont plus longs que d’autres, de sorte qu’ils ne sont réguliers que selon notre calendrier.

Nicole Zint : Autre question concernant un mois : nous avons des nombres différents de, par exemple, vendredis ou de week-ends dans un mois, et si nous observons des pics de ventes les vendredis, cela ne sera-t-il pas perturbé ?

Joannes Vermorel : Nous arrivons ici à la question du niveau d’agrégation à choisir. Vous avez de nombreuses préoccupations qui peuvent émerger. De toute évidence, il existe certains niveaux d’agrégation qui ont des effets particuliers. Si vous observez au niveau horaire, il se peut que, pour la plupart des industries, cela soit incroyablement désagrégé et qu’il ne soit même pas pertinent pendant la nuit, car, par exemple, dans le secteur du retail, il se passe rarement quoi que ce soit la nuit. Cela peut donc ne pas être pertinent.

Nicole Zint : Lorsque vous choisissez l’agrégation mensuelle, cela devient toujours délicat car certains mois comportent cinq occurrences d’un certain jour de la semaine, et vous pouvez avoir soit quatre, soit cinq. C’est donc un aspect complexe qui introduira en réalité certains biais dans la manière dont vous observez ces données et potentiellement dans la manière dont vous construisez votre prévision. Mais il en va de même pour d’autres dimensions, comme si vous regardiez par SKU, par produit ou par catégorie ? Toutes ces approches introduisent des problématiques propres.

Nicole Zint: Alors, quand il s’agit de ces différents niveaux d’agrégation de données, ne pouvons-nous pas techniquement choisir, par exemple, un SKU par jour, qui est le niveau le plus désagrégé, et ensuite reconstruire essentiellement n’importe quel autre niveau d’agrégation à partir de cela?

Joannes Vermorel: Tout d’abord, oui, il y a cette tentation d’opter pour des niveaux super désagrégés. En supply chain, le niveau de désagrégation le plus judicieux, temporellement parlant, est par jour. Cependant, c’est une décision assez arbitraire. Nous aurions pu décider que c’était à la minute, et par exemple, si vous gérez un centre d’appels et que vous souhaitez examiner votre taux d’appels entrants, vous bénéficierez d’un niveau d’observation bien plus granulaire pour ces appels. Il s’agit donc vraiment de déterminer ce qui a du sens dans la situation courante en supply chain.

Maintenant, si nous remontons un peu dans le temps, nous devons comprendre d’où nous venons. Regardons un magasin typique disposant de 10 000 SKU dans un réseau de vente au détail classique composé de 100 magasins. Ce n’est même pas un très grand réseau de distribution. Nous parlons de 10 000 multiplié par 100, ce qui équivaut à 1 million de SKU, puis des données quotidiennes. Si nous voulons conserver trois ans d’historique, nous parlons d’environ mille jours. Nous parlons donc d’un milliard de points de données. Pour représenter les données agrégées quotidiennement au niveau du SKU dans un réseau de vente au détail modeste, nous avons déjà affaire à un milliard de points de données.

Dans un ordinateur, cela représenterait déjà quatre gigaoctets de mémoire. Si l’on remonte un peu dans le temps, on constate que ce type de capacité mémoire n’était même pas accessible avant les années 90. D’ailleurs, le terme “business intelligence” en tant que catégorie d’outils de logiciel d’entreprise a émergé dans les années 90, précisément lorsque les ordinateurs de taille gigaoctet ont fait leur apparition sur le marché. Ainsi, ces deux éléments allaient de pair. Il fallait disposer d’ordinateurs capables de gérer d’aussi grandes quantités de données.

Nicole Zint: Donc, ces gros cubes étaient en réalité des logiciels conçus pour l’in-memory computing, ce qui était juste une manière élégante de dire “exploiter cette nouvelle mémoire à accès aléatoire”. Et sur cette base, cela devient la norme, bien qu’il ne faille pas oublier que c’était assez arbitraire. Quand vous dites que c’est le plus petit niveau qui a du sens pour la supply chain, est-ce que cette agrégation quotidienne au niveau du SKU est exacte?

Joannes Vermorel: Oui, mais il existe beaucoup de cas limites. Par exemple, si vous avez un produit périssable, la question est de savoir si l’agrégation par jour et par SKU est suffisante pour vous donner une image précise de vos niveaux de stock. Si vous examinez un produit périssable, la réponse est non. Vous pouvez avoir 10 unités en stock, mais si 9 d’entre elles expirent demain, ce que vous avez réellement en stock, c’est principalement une unité avec neuf qui sont sur le point de disparaître. Dans ce cas, le niveau de stock n’est pas assez granulaire et le niveau SKU non plus. Ce que vous souhaiteriez, c’est un niveau de stock offrant au moins une durée de vie d’une semaine, voire d’un mois, afin d’introduire une autre dimension pour mieux appréhender la situation.

Nicole Zint: Et qu’en est-il du temps ? Le niveau quotidien est-il suffisant ou devrions-nous envisager un niveau plus granulaire ?

Joannes Vermorel: Le niveau quotidien pourrait être suffisant, sauf qu’il se peut que certains magasins n’ouvrent, par exemple, que le week-end ou seulement le matin. Si vous ignorez qu’un magasin n’ouvre que pendant une demi-journée, vous manquez d’information. Ainsi, disposer d’un niveau plus granulaire, comme le matin et le soir, pourrait vous apporter quelque chose de plus précieux. Chaque décision arbitraire quant à votre niveau d’agrégation comporte des avantages et des inconvénients. Mon message ici est que cela reste assez arbitraire, et il n’existe pas de vérité absolue, mais il est très intéressant de comprendre l’origine de ces décisions.

Nicole Zint: Supposons que nous trouvions le niveau le plus granulaire qui reste dans la fourchette raisonnable en termes de coût. Si nous avons accès à ce niveau le plus granulaire mais voulons tout de même examiner une prévision sur une base hebdomadaire, par exemple, pouvons-nous simplement reconstruire le niveau souhaité à partir du niveau le plus granulaire ?

Joannes Vermorel: Absolument. Si nous revenons à l’historique transactionnel brut, chaque agrégation entraîne une perte d’information. Quelle que soit l’agrégation réalisée, vous pouvez toujours reconstruire un niveau supérieur à partir des données les plus granulaires.

Nicole Zint: En fait, c’est un processus avec perte, donc vous perdez de l’information. Vous aurez moins d’information, ce qui signifie que la précision devrait diminuer, n’est-ce pas ? Plus l’agrégation est élevée, moins c’est précis ?

Joannes Vermorel: Oui, mais ce que l’on observe, c’est que c’était précisément la raison pour laquelle nous voulions instaurer ce type d’agrégation. Je dirais que c’est piloté par cube, car nous disposons d’un type de logiciel qui opère relativement rapidement. L’idée est que lorsqu’on possède un hypercube, les opérations de slicing and dicing peuvent être effectuées très efficacement. C’est une raison d’ordre technique. Ainsi, si vous souhaitez passer du quotidien à l’hebdomadaire, c’est une opération très efficace que vous pouvez réaliser sur le cube.

En effet, en termes stricts de théorie de l’information, chaque fois que nous passons à un niveau plus agrégé, nous perdons de l’information. Donc, en théorie, si nous voulons obtenir une affirmation plus précise sur l’avenir, nous devrions travailler sur les données les plus désagrégées. Cependant, on pourrait penser que ces données les plus désagrégées correspondent à des données par SKU par jour, et je dirais : attendez, les données les plus désagrégées ne sont même pas des données agrégées. Il s’agit en fait des données transactionnelles brutes.

La raison pour laquelle les gens s’arrêtent au niveau du SKU par jour, c’est essentiellement parce que c’est le dernier niveau où l’on opère encore avec des séries temporelles. Si l’on souhaite aller plus loin et traiter l’historique transactionnel brut, il faut alors renoncer à la perspective des séries temporelles. Pourquoi ? Parce que les données ne sont plus structurées en séries temporelles. Ce sont littéralement des données relationnelles ; vous avez des tables dans votre base de données. Elles ne sont plus organisées en séries temporelles, certainement pas comme une série temporelle à intervalles réguliers.

Les séries temporelles n’émergent que lorsque vous construisez essentiellement des vecteurs où vous dites que, par période (la période pouvant être un jour, une semaine ou un mois), vous disposez d’une quantité, et ainsi de suite, formant un vecteur de quantités. Vous souhaitez étendre cela avec un modèle de prévision des séries temporelles. Si vous travaillez simplement avec une table comportant, disons, 100 colonnes, ce n’est pas une série temporelle, c’est juste une table relationnelle dans une base de données. C’est très courant, mais ce n’est pas une série temporelle. C’est la méthode de prévision choisie qui représente alors une autre limitation.

La question est : pourquoi cela semble-t-il si attrayant ? La réponse est que la plupart des industries de la supply chain fonctionnent avec un modèle mental de séries temporelles. Donc, évidemment, si vous avez décidé que tout doit s’intégrer dans le modèle des séries temporelles, l’hypercube devient un facteur particulièrement séduisant, car tout ce que vous examinez, pourvu qu’une des dimensions soit le temps, relève des séries temporelles, à divers niveaux d’agrégation.

Mais voici le cœur du problème. Bien qu’en théorie la théorie de l’information nous dirait que plus nous désagrégeons, plus nous avons d’information et, par conséquent, plus nous pourrions potentiellement connaître l’avenir, la réalité est que la plupart des techniques de séries temporelles tendent à fonctionner très mal sur des données très sporadiques, erratiques et intermittentes. Le problème, c’est que lorsque vous traitez des données très désagrégées, les techniques de séries temporelles deviennent moins efficaces.

Nicole Zint: De votre point de vue, celui de votre technique de séries temporelles — et non de la perspective réelle (où en réalité, vous avez plus de données) —, vous obtenez un vecteur de données qui devient de plus en plus clairsemé, donc avec davantage de zéros. Et les séries temporelles reposent sur l’idée de “plus de la même”, n’est-ce pas ? C’est donc là que cela se situe ?

Joannes Vermorel: Oui, mais cela est valable pour toutes les méthodes basées sur les données. Toutes ces méthodes reposent, d’une manière ou d’une autre, sur l’idée que le futur sera une continuité du passé. Vous voyez, cela n’importe peu d’appeler cela machine learning, IA ou séries temporelles, c’est toujours la même idée. Toutes nos méthodes statistiques se fondent sur l’hypothèse que l’avenir sera en grande partie similaire au passé.

Nicole Zint: Mais assurément, si vous allez plus en détail, vous risquez de perdre certaines saisonnalités et autres, n’est-ce pas ?

Joannes Vermorel: Non, la spécificité des séries temporelles est très technique. Le modèle de séries temporelles vous fournit un modèle hautement symétrique dans le sens où le futur, d’un point de vue structurel, ressemble exactement au passé. C’est quelque chose de très propre aux séries temporelles. Quand on dit “plus de la même”, oui, mais je formule une affirmation concernant le futur. Cette affirmation n’a pas à reprendre exactement la forme, le format et la structure de mes données historiques. Elle peut, mais ce n’est pas obligé.

Avec les séries temporelles, c’est incroyablement séduisant, mais je pense que cela induit également en erreur un grand nombre de personnes. C’est incroyablement séduisant parce qu’en substance, le futur et le passé sont symétriques. Et quand je dis “exactement symétriques”, imaginez simplement votre hypercube ou votre cube. Vous avez une dimension pour les SKU, une dimension pour le jour, une dimension pour autre chose, et essentiellement le futur consiste simplement à prendre la dimension du jour et à l’étendre de, disons, 100 cases supplémentaires.

Et puis, voilà, vous avez le futur, et l’on dirait alors que la prévision consiste simplement à le remplir, à combler les lacunes. Vous diriez littéralement que ce sont exactement les mêmes données : des données que j’ai observées, puis des données dans lesquelles je vais combler les vides avec mon modèle de prévision des séries temporelles. Cependant, il existe une asymétrie radicale et fondamentale entre le passé et le futur.

Si vous adoptez cette perspective classique de prévision moyenne basée sur les séries temporelles, vous faites quelque chose qui prétend que le futur est exactement le même que le passé, en nature, et pas seulement par le fait que cela ne s’est pas encore produit. C’est, en termes de format de données et de façon d’y penser, dire que c’est complètement identique. Et ma proposition — qui est plus une affirmation philosophique qu’une affirmation scientifique — est que non, ce n’est pas le cas, c’est très différent.

Nicole Zint: Je constate encore de nombreuses demandes de propositions (RFP) et elles demandent aux fournisseurs : “Pouvez-vous nous fournir tous ces niveaux en une fois ?” Différents niveaux d’agrégation, pourquoi ?

Joannes Vermorel: Encore une fois, c’est une question standard. Les gens insistent sur ce point parce que c’est ce à quoi ils sont habitués, mais il est important de reconnaître que différents niveaux d’agrégation peuvent conduire à des résultats et à des insights très différents.

Nicole Zint: L’erreur ici est de commencer avec ce modèle de séries temporelles, lequel trouve son équivalent dans l’industrie des logiciels de business intelligence, où tout se réduit essentiellement à un cube ou à une version découpée d’un cube. Puis, les gens se rendent compte qu’ils perdent de l’information en procédant ainsi, sans vraiment comprendre pourquoi. La métrique leur indique que leur prévision très désagrégée est complètement médiocre. La réalité pourrait être que, simplement parce qu’ils n’utilisent pas la bonne méthode, le résultat est effectivement très mauvais.

Joannes Vermorel: Ainsi, ils se disent : “D’accord, notre prévision est super médiocre.” Je dis alors : “Eh bien, il nous faut la possibilité de regrouper les données vers un niveau d’agrégation supérieur. Cela pourrait être, par exemple, par semaine ou par produit au lieu d’être par SKU.” Mais ils ne savent pas lequel ils veulent choisir. Ainsi, lorsqu’ils questionnent un fournisseur, ils veulent garder leurs options ouvertes, et ils finissent par élaborer des RFP semi-ridicules comprenant plus d’une centaine de questions, cherchant à obtenir tous les niveaux d’agrégation.

Simplement parce que, de leur point de vue, ils laissent ouverte l’option sur le niveau auquel ils souhaitent appliquer le modèle de prévision des séries temporelles. Mais là, je remets sérieusement en question la nécessité même d’agréger vos données dès le départ, et pourquoi votre technique de prévision commencerait-elle à écarter des données avant même d’opérer ? Vous perdez des données, et plus vous agrégerez, plus vous en perdrez.

Et puis, si vous dites : “Mais attendez, nous ne pouvons pas opérer à un niveau super désagrégé car notre métrique, le pourcentage d’erreur, nous indique que c’est très mauvais.” Nous répondons : “Oui, mais vous n’optimisez pas le pourcentage d’erreur, vous souhaitez optimiser les dollars d’erreur. Mais vous vous focalisez sur une métrique en pourcentage, ce qui est quelque peu décalé par rapport aux dollars.”

Nicole Zint: Oui, et exactement. Parce que si vous adoptez cette erreur, en passant du quotidien à l’hebdomadaire, vous obtenez une meilleure précision ; puis, de l’hebdomadaire au mensuel, encore mieux ; puis du mensuel à l’annuel. Et ensuite, les gens se demandent : “Oh, attendez, une prévision annuelle, qu’est-ce que je vais faire d’une prévision annuelle ? Si je prends des décisions sur une base hebdomadaire, comment une prévision mensuelle pourrait-elle m’aider ?”

Joannes Vermorel: Voilà le problème. La réalité est que le seul horizon pertinent est celui qui importe pour votre décision. Prenons l’exemple très simple du réapprovisionnement de stocks. Donnez-nous un exemple de ce qui constitue un horizon pertinent. La réponse est très complexe. Premièrement, il y a les délais de livraison, mais ces délais ne sont pas garantis. Supposons que vous ayez un fournisseur à l’étranger ; dans ce cas, vos délais de livraison peuvent varier – ils ne sont pas constants. Votre délai de livraison pourrait être d’environ 10 semaines, tout en présentant potentiellement d’importantes variations.

Certaines de ces variations, d’ailleurs, sont saisonnières, tout comme le Nouvel An chinois. Les usines en Chine ferment, et vous obtenez alors quatre semaines supplémentaires de délai de livraison. Ainsi, votre horizon, si l’on ne considère que les délais de livraison, est très variable et nécessiterait sa propre prévision. D’ailleurs, l’un des problèmes de ces modèles de séries temporelles, c’est que nous nous concentrons toujours sur les ventes. Toutes les autres variables à prévoir, comme vos délais de livraison, demeurent constantes. C’est même pire : elles n’existent même pas, vous savez.

Nicole Zint: Ainsi, le cube ne représente même pas vraiment le type de données considéré ; il est choisi de manière assez arbitraire. Votre horizon serait constitué par vos délais de livraison, mais ces derniers mériteraient une zone rouge de prévision qui ne correspond pas vraiment à cette perspective des séries temporelles et aux logiciels de cube. Mais, votre horizon pour évaluer la validité de votre décision ne devrait-il s’arrêter qu’aux délais de livraison ?

Joannes Vermorel: Non, parce qu’évidemment, si vous décidez de passer une nouvelle commande maintenant, c’est pour satisfaire la demande qui va se produire entre aujourd’hui et la date d’arrivée de votre produit. Mais ensuite, vous devrez vendre ce que vous venez de recevoir. Pour évaluer la pertinence du bon de commande, il faut regarder ce qui se passe après. Et jusqu’où dans le futur devez-vous regarder ? Eh bien, cela dépend. Si la commande que vous passez connaît un surcroît de demande, vous pourriez en réalité recevoir les marchandises et tout vendre en deux jours. Mais que faire si c’est le contraire, et que la demande chute ? Il se peut que vous gardiez le stock pendant toute une année, évidemment pas s’il est périssable, mais je simplifie.

La plage de temps applicable dépend énormément de la manière dont vous envisagez l’avenir, et c’est en soi une prévision, car c’est une prévision dans laquelle vous devez prédire les délais. Ensuite, l’horizon à considérer, même si l’on observe uniquement la demande, dépend de la rapidité avec laquelle vous prévoyez de liquider réellement votre stock. Ainsi, en fin de compte, il n’existe aucune limite claire en termes d’horizon applicable pour votre prévision. La seule inquiétude est que plus nous regardons loin dans le futur, plus la prévision devient floue.

Cependant, ceci est une subtilité, et à un certain moment, il faut faire un compromis entre le coût CPU et l’amélioration marginale potentielle pour votre supply chain. Mais, vous voyez, d’un point de vue conceptuel, il n’y a aucune limite quant à la distance dans le futur que vous souhaitez envisager.

Nicole Zint: Donc, pour conclure, le niveau de granularité devrait toujours être au niveau des décisions que vous souhaitez prendre ?

Joannes Vermorel: Oui, je dirais que votre granularité sera fortement guidée par les décisions. Mais soyez conscient que cette notion d’agrégation suppose une hypothèse sur le type de méthode que vous souhaitez utiliser. Ma suggestion serait de rester concentré sur la décision même que vous prenez. Les décisions sont ce qui a un impact tangible sur votre supply chain, telles que vos réapprovisionnements, l’augmentation ou la diminution de vos prix, et d’autres actions ayant un véritable impact financier sur la supply chain. Cependant, je dirais qu’il faut se méfier de la notion même de granularité. Celle-ci est très artificielle, très arbitraire, et ne confondez pas votre besoin de visualisation, ce qui est bien – vous voulez pouvoir visualiser – avec la granularité requise pour la prise de décision.

Nicole Zint: Les séries temporelles sont un outil incroyablement puissant pour visualiser les données. Cependant, ne confondez pas ce besoin de visualisation avec d’autres exigences de prévision et d’optimisation qui ne nécessitent pas de fonctionner avec une quelconque granularité artificielle. Quand je dis granularité artificielle, j’entends tout ce qui n’est pas le simple reflet des données telles qu’elles existent dans vos systèmes d’entreprise. Toute forme d’agrégation que vous ajoutez va entraîner une perte de données.

Joannes Vermorel: Peut-être s’agira-t-il d’un bon compromis dans le sens où, en agrégeant, vous économiserez peut-être du CPU ou de la mémoire, mais peut-être pas. C’est une discussion très technique, et ma suggestion serait de ne pas opter pour une optimisation prématurée. Essayez de ne pas penser immédiatement à ces niveaux d’agrégation comme s’il s’agissait de problèmes difficiles ; ce sont pour la plupart des problèmes faciles en matière de visualisation. Avec les systèmes informatiques modernes, il est très facile de disposer d’un excès de capacités par rapport à vos besoins réels.

Dans les années 90, il était difficile d’agréger les données par jour, mais de nos jours, ce n’est plus le cas. Si un fournisseur vous dit qu’il a une limite à cinq ans d’historique, cela est vraiment étrange. Il n’existe pas une telle limitation. Il existe de nombreuses manières de gérer n’importe quelle granularité, même jusqu’à la milliseconde. Toutefois, ce n’est pas nécessairement quelque chose de très pertinent, et vous ne voudriez pas le faire avec un véritable cube où vous utiliseriez un octet de mémoire pour chaque cellule de votre cube. C’est un aspect très technique.

Les systèmes modernes vous offriront toute forme d’agrégation dont vous avez besoin et plus encore. Ce n’est pas une contrainte. Ne raisonnez pas par implication, en essayant de penser à toutes les techniques que vous souhaitez utiliser en vous basant sur ce cube, comme si c’était la seule manière d’aborder le problème. Ce n’est pas le cas. De nombreux éléments sont perdus, tels que la périssabilité, la cannibalisation, la substitution et les délais variables. Le fait de tout cadrer dans un cube impose d’énormes restrictions quant à ce que vous pouvez envisager pour votre supply chain, et cela est problématique. Ma suggestion est de ne pas enfermer votre esprit. Essayez simplement d’adopter une vision large, car il existe de bien d’autres contraintes arbitraires qui ne contribuent pas à résoudre les problèmes de votre supply chain.

Nicole Zint: Merci beaucoup, Joannes, d’avoir partagé vos réflexions sur ce sujet. Merci de nous avoir regardés, et à la semaine prochaine.