00:00:08 Introduction et parcours de Rob Hyndman dans la prévision.
00:01:31 Durabilité des techniques de prévision du monde réel et des logiciels.
00:04:08 Application des techniques de prévision dans divers domaines avec des données abondantes.
00:05:43 Défis liés à la satisfaction des besoins de diverses industries dans la supply chain.
00:07:30 Navigation dans les complexités des logiciels d’entreprise et de la collecte de données.
00:08:00 Prévision des séries temporelles et approches alternatives.
00:09:05 Défis auxquels Lokad est confronté dans l’analyse prédictive.
00:11:29 Longévité et motivation dans le développement de logiciels académiques.
00:13:12 Passage de la prévision ponctuelle à la prévision probabiliste.
00:15:00 Défauts des méthodes académiques et leur mise en œuvre dans le monde réel.
00:16:01 Performance d’un modèle simple dans une compétition.
00:16:56 L’importance de méthodes élégantes et concises.
00:18:48 Équilibrer précision, complexité et coût dans les modèles.
00:19:25 Robustesse et rapidité dans les packages R pour la prévision.
00:20:31 Équilibrer robustesse, précision et coûts de mise en œuvre dans les entreprises.
00:21:35 Importance de méthodes spécifiques au problème dans la prévision.
00:23:00 Prédire la longévité des techniques et des bibliothèques de prévision.
00:25:29 L’engagement de Rob à maintenir ses bibliothèques de prévision.
00:26:12 Introduction de Fable et son application dans la prévision des séries temporelles.
00:27:03 Apprécier le monde open-source et son impact sur les outils de prévision.

Résumé

Lors d’une interview avec Kieran Chandler, Joannes Vermorel, fondateur de Lokad, et Rob Hyndman, professeur de statistiques à l’université Monash, discutent de la durabilité des techniques de prévision du monde réel. Le logiciel de prévision open-source de Hyndman, téléchargé par des millions d’utilisateurs, résiste à l’épreuve du temps et est capable de résoudre environ 90% des problèmes de prévision des entreprises. Les invités soulignent les défis liés à la satisfaction d’un large public aux besoins divers dans l’industrie de la gestion de la supply chain et l’importance de créer des logiciels conviviaux, efficaces et accessibles. Ils soulignent également l’importance des logiciels open-source et de la collaboration dans le développement de méthodes de prévision de haute qualité.

Résumé étendu

Dans cette interview, Kieran Chandler discute de la durabilité des techniques de prévision du monde réel avec Joannes Vermorel, fondateur de Lokad, et Rob Hyndman, professeur de statistiques à l’université Monash. Le logiciel de prévision open-source de Hyndman a été téléchargé par des millions d’utilisateurs et résiste à l’épreuve du temps, contrairement à de nombreux autres outils logiciels.

Vermorel apprécie le travail de Hyndman pour aller au-delà des logiciels académiques typiques en créant un ensemble complet de bibliothèques, en intégrant bon nombre de ses propres résultats et en fournissant un cadre cohérent basé sur le langage R populaire pour l’analyse statistique. Vermorel estime qu’il existe peu d’exemples de logiciels scientifiques ayant une telle durabilité et un tel public.

Les recherches académiques de Hyndman ne se limitent pas à la prévision de la chaîne d’approvisionnement ; il s’intéresse à l’application des techniques de prévision à tout domaine disposant de grandes quantités de données. Ses travaux incluent la prévision de la consommation d’électricité, des taux de mortalité, de la population, du nombre de touristes et récemment, des cas de COVID-19 pour le gouvernement australien. En plus de la prévision, il travaille également sur la détection d’anomalies et l’analyse exploratoire des données.

En discutant des défis liés à la satisfaction d’un large public aux besoins divers dans l’industrie de la chaîne d’approvisionnement, Vermorel explique que la façon dont les données sont perçues et enregistrées par les logiciels d’entreprise (ERP, MRP, WMS) est souvent semi-accidentelle.

Ils abordent les complications découlant de l’utilisation de données qui ne sont pas principalement collectées à des fins de prévision et de la transition d’un système de planification des ressources d’entreprise (ERP) à un autre. Ils discutent également de la nécessité de techniques de prévision capables de s’adapter à différents paysages informatiques et aux accidents historiques liés au déploiement de logiciels d’entreprise.

Vermorel souligne l’importance des prévisions dans des contextes qui ne se prêtent pas à l’analyse des séries chronologiques, tels que la mode, où l’ingénierie de la demande et l’introduction de nouveaux produits influencent le problème de prévision. Il insiste sur la nécessité pour les modèles prédictifs de tenir compte des boucles de rétroaction et des actions entreprises sur la base des prévisions, ainsi que de contrôler divers facteurs tels que l’assortiment de produits et les stratégies de promotion. Cette approche multifacette est essentielle pour Lokad afin de relever les défis complexes de l’analyse prédictive.

Hyndman explique que son logiciel de séries chronologiques est capable de résoudre environ 90% des problèmes de prévision des entreprises, mais les 10% restants nécessitent des approches différentes. Il aborde également la question des logiciels académiques de courte durée, attribuant cela à l’accent mis sur la publication d’articles et au manque de récompense pour le maintien à long terme des logiciels. Cela entraîne un manque de collaboration avec les praticiens et de garantie que les méthodes sont bien documentées et ont une longévité.

L’interview met en évidence les défis et les complexités de l’optimisation et de la prévision de la chaîne d’approvisionnement, notamment la nécessité de techniques adaptables, l’importance de prendre en compte des contextes autres que les séries chronologiques et l’influence des boucles de rétroaction et de la prise de décision sur les modèles prédictifs. De plus, elle souligne le décalage entre la recherche académique et l’application pratique dans le domaine de la prévision.

Les deux invités soulignent l’importance de créer des logiciels conviviaux, à la fois efficaces et accessibles, pour faire une différence dans le monde.

Hyndman mentionne le passage de la prévision ponctuelle à la prévision probabiliste dans la littérature académique au cours des 15 dernières années. Lokad a été l’une des premières entreprises de prévision de la chaîne d’approvisionnement à intégrer ce changement dans son logiciel. Comme le logiciel initial de Hyndman se concentrait sur les prévisions ponctuelles, ses nouveaux packages privilégient les prévisions probabilistes.

Vermorel souligne les défauts cachés de nombreuses publications académiques, tels que l’instabilité numérique, le temps de calcul excessif ou la complexité de mise en œuvre. Il met également en évidence l’importance d’équilibrer la précision avec la simplicité, car des modèles trop compliqués peuvent ne pas être pratiques ou nécessaires. Vermorel donne l’exemple de la compétition M5, où Lokad a obtenu une grande précision en utilisant un modèle relativement simple.

Hyndman convient qu’il est essentiel d’équilibrer les coûts de production de logiciels, de calcul et de précision. Les deux invités apprécient les méthodes de prévision concises et élégantes, ayant une large applicabilité, comme celles des bibliothèques de Hyndman.

La conversation soulève des questions sur les compromis entre précision et complexité dans les modèles de prévision. Vermorel remet en question la sagesse de rechercher une légère amélioration de la précision au détriment d’une complexité beaucoup plus élevée, comme on le voit dans les modèles d’apprentissage profond. Vermorel et Hyndman soulignent tous deux l’importance de se concentrer sur l’essence des bonnes prévisions sans se perdre dans de petites améliorations qui ne justifient peut-être pas la complexité ajoutée.

Hyndman souligne l’importance de prendre en compte à la fois la précision et le coût du calcul lors du développement de méthodes de prévision. Il attribue la robustesse de ses packages de prévision à leurs origines dans des projets de conseil, où ils devaient être rapides, fiables et applicables à différents contextes.

Vermorel met en évidence l’importance de considérer la valeur ajoutée qu’une méthode de prévision apporte à un problème. Il oppose les modèles paramétriques simples à des méthodes plus complexes comme les arbres de renforcement de gradient, notant que dans certains cas, des modèles plus simples peuvent suffire. Vermorel discute également des défis uniques de la prévision dans des industries telles que la mode et l’après-vente automobile, où les facteurs de substitution et de compatibilité jouent un rôle important.

Les interviewés soulignent l’importance de ne pas se laisser distraire par la sophistication, car cela ne se traduit pas nécessairement par de meilleurs résultats scientifiques ou précis. Vermorel prédit que les techniques fondamentales de prévision des séries chronologiques seront toujours pertinentes dans 20 ans, tandis que les méthodes complexes reposant sur le matériel actuel peuvent devenir obsolètes.

Rob Hyndman parle de son travail sur la prévision, en particulier de son développement du logiciel open-source “Fable”, qui simplifie le processus de prévision pour des milliers de séries chronologiques simultanément. Il souligne son engagement à maintenir le package pendant au moins 10 ans et met en évidence les avantages des logiciels open-source, notamment la collaboration et l’accessibilité.

Vermorel et Hyndman insistent tous deux sur l’importance des logiciels open-source dans leur travail et sur le potentiel de collaboration dans le développement de méthodes de prévision de haute qualité. Hyndman mentionne également son engagement à maintenir des bibliothèques publiques, qui existent depuis 2005, et le rôle qu’elles jouent dans la rendu de l’analyse de données accessible au public.

Dans l’ensemble, l’interview met en évidence les défis de la prévision dans un monde complexe et en constante évolution, ainsi que l’importance des logiciels et de la collaboration dans le développement de solutions efficaces. L’accent mis sur les logiciels open-source et l’accès public souligne la valeur de rendre l’analyse de données et la prévision disponibles à un public plus large.

Les deux interviewés apprécient la nature open-source de leur travail, qui permet un accès et une collaboration étendus dans le développement de méthodes de prévision de haute qualité.

Transcription complète

Kieran Chandler: La prévision est une pratique ancienne qui évolue constamment, et en tant que telle, de nombreux logiciels ne résistent pas à l’épreuve du temps. Une personne qui a fait exception à cette tendance est notre invité d’aujourd’hui, Rob Hyndman, qui a mis en place un logiciel open-source téléchargé par des millions d’utilisateurs. Ainsi, aujourd’hui, nous allons discuter avec lui de la durabilité des techniques de prévision du monde réel. Donc, Rob, merci beaucoup de nous rejoindre en direct depuis l’Australie. Je sais qu’il est un peu tard chez vous. Comme toujours, nous aimons commencer par en apprendre un peu sur nos invités, alors peut-être pourriez-vous simplement commencer par nous parler un peu de vous.

Rob Hyndman: Merci, Kieran, et ravi de vous rejoindre. Oui, il est 20 heures ici en Australie, donc pas si tard. Je suis professeur de statistique et chef du département d’économétrie et de statistique commerciale à l’université Monash. J’y suis depuis 26 ans. Pendant la majeure partie de cette période, j’ai également été rédacteur en chef de l’International Journal of Forecasting et directeur de l’International Institute of Forecasters, de 2005 à 2018. Je suis universitaire ; j’écris beaucoup d’articles et j’ai écrit quelques livres, dont trois sur la prévision. Si je ne fais pas ça, je joue généralement au tennis.

Kieran Chandler: Bien, j’aime bien jouer au tennis moi aussi pendant les mois d’été. Peut-être qu’un jour nous pourrons vous voir pour une partie. Joannes, notre sujet aujourd’hui est la durabilité des techniques de prévision du monde réel et l’idée qu’un logiciel soit durable et dure longtemps. Quelle est l’idée derrière cela ?

Joannes Vermorel: La plupart des logiciels ont tendance à se détériorer avec le temps pour diverses raisons. En ce qui concerne les logiciels scientifiques, il faut réfléchir à la manière dont ces logiciels sont produits. Habituellement, ils sont créés pour soutenir la publication d’un article, il s’agit donc essentiellement de logiciels jetables. Ce qui m’a semblé assez remarquable dans le travail du professeur Hyndman, c’est qu’il est allé au-delà de ce qui est généralement fait dans les milieux universitaires, qui consiste à produire des logiciels jetables, publier l’article, terminer et passer au prochain article. Il a en réalité construit un vaste ensemble de bibliothèques qui non seulement intègrent bon nombre de ses propres résultats et de ceux de ses pairs, mais qui fournissent également un cadre très cohérent basé sur un langage devenu très populaire, à savoir R, un environnement d’analyse statistique. Cela a prouvé sa valeur sur plusieurs décennies, et c’est une véritable réussite. La plupart des logiciels que nous voyons aujourd’hui sont anciens, avec très peu de fondations émergeant d’Unix et de choses plus sophistiquées. En termes de science des données, il n’y a pas beaucoup d’exemples de choses qui résistent à l’épreuve du temps, à part les blocs de construction de base pour l’algèbre linéaire et des domaines similaires.

Kieran Chandler: … analyse, mais quand on y réfléchit vraiment, je pourrais probablement trouver une douzaine d’exemples de logiciels qui ont réussi à avoir un tel public et une telle durabilité. Cependant, il n’y en a pas tant que ça, en réalité. Je pense qu’il y a quelque chose de tout à fait remarquable ici qui va au-delà de ce qui est généralement fait dans la recherche universitaire. Rob, parlons un peu plus de votre recherche universitaire alors. Vous ne vous concentrez évidemment pas uniquement sur le monde de la supply chain comme nous le faisons ici. Alors, dans quels autres domaines êtes-vous intéressé à appliquer des techniques de prévision ?

Rob Hyndman: Je m’intéresse à tout ce qui me permet d’obtenir beaucoup de données. Je fais des prévisions sur la consommation d’électricité, par exemple, où il y a beaucoup de données de très bonne qualité remontant à des décennies. Je prévois les taux de mortalité, la population et dernièrement, je travaille sur les chiffres du tourisme, ce qui est assez difficile à prévoir en pleine pandémie. J’ai aidé le gouvernement australien à réfléchir à la façon dont cela fonctionne. Un autre travail que je fais pour le gouvernement australien est de prévoir les cas de COVID-19. C’est ma première expérience dans le monde de l’épidémiologie, et j’ai dû apprendre pas mal de choses sur l’approche épidémiologique de la modélisation et l’intégrer dans des ensembles de prévisions. Cela a été intéressant. Fondamentalement, s’il y a beaucoup de données, je suis intéressé à essayer de les modéliser. Je fais également des choses comme la détection d’anomalies et l’analyse exploratoire des données lorsqu’il y a de grandes collections de données. J’ai travaillé avec de nombreuses entreprises et organisations gouvernementales, et si elles viennent me voir avec un problème qui implique beaucoup de données, je suis intéressé à réfléchir à la façon de faire une meilleure prévision que ce qui se fait actuellement.

Kieran Chandler: Super, je peux imaginer que l’industrie touristique est assez intéressante en ce moment. C’est une véritable anomalie d’un point de vue de la prévision. Johannes, notre objectif est évidemment l’industrie de la supply chain, mais l’idée est que nous ne nous concentrons pas sur une seule industrie en particulier. Nous nous adressons à un public très large, donc quels types de défis pouvez-vous rencontrer lorsque vous essayez de répondre aux besoins de tant de personnes différentes ?

Joannes Vermorel: Tout d’abord, c’est la façon dont nous percevons le monde. Nous n’avons pas quelque chose qui ressemblerait à une mesure scientifique, comme des statistiques établies pour les mortalités ou autres. Ce que vous avez, ce sont des logiciels d’entreprise, tels que les ERP, les MRP et les WMS, qui produisent ou enregistrent des données de manière presque accidentelle. La collecte de données n’était pas la raison pour laquelle tous ces logiciels ont été mis en place, vous vous retrouvez donc avec des enregistrements, mais ceux-ci n’ont pas été conçus comme des outils pour effectuer des mesures dans le temps que vous pourriez prévoir. C’est un sous-produit presque accidentel, et cela crée énormément de complications. L’un des défis auxquels vous êtes confronté est de savoir si vous pouvez faire, en termes de techniques de prévision et de recherche ciblée, quelque chose qui survit d’un ERP à l’autre. Si vous changez de système, ce qui est très désordonné et accidentel, vous devez prendre en compte comment cela affectera le processus de prévision.

Kieran Chandler: Donc, le prochain sujet que j’aimerais aborder est le paysage informatique différent et les accidents historiques en termes de déploiement de divers outils logiciels d’entreprise. Si vous devez complètement changer la méthode, cela ne permet évidemment pas de constituer un ensemble de connaissances ou de techniques. L’un des défis est de savoir si vous pouvez faire quelque chose dans ce domaine. Et de notre point de vue chez Lokad, les prévisions qui nous intéressent le plus sont généralement des choses qui ne se présentent pas naturellement sous la forme de séries temporelles. Que faire si vous avez un problème qui ne se prête pas facilement à une représentation sous forme de séries temporelles ? Vous avez toujours besoin de quelque chose qui ressemble à une prévision, mais cela se présente de manière très différente. Rob, qu’en pensez-vous de l’utilisation d’alternatives aux prévisions basées sur les séries temporelles ?

Rob Hyndman: Eh bien, cela dépend beaucoup des données, comme l’a dit Joannes, pour déterminer quel type de modèle sera nécessaire pour résoudre ce problème particulier. Mon logiciel de séries temporelles résout de nombreux problèmes, mais pas tous. Certaines entreprises auront un ensemble de données configuré de telle manière, ou enregistré de telle manière, qu’elles devront le modifier ou trouver une solution différente. Le logiciel que j’ai écrit et qui est le plus populaire résout 90% des problèmes de prévision des entreprises ; ce sont les 10% restants pour lesquels vous devez faire des choses différentes.

Kieran Chandler: À quelle fréquence diriez-vous qu’il y a ce genre de 10% dans votre expérience, Joannes ?

Joannes Vermorel: C’est un problème très subtil. Mon propre parcours dans le monde de la prévision chez Lokad m’a fait réaliser à quel point il y a de la profondeur. Tout d’abord, nous sommes passés des prévisions ponctuelles aux prévisions probabilistes, ce qui a changé notre façon de voir le problème. Mais c’est encore plus profond que cela. Par exemple, si nous regardons la mode, le problème est que vous voulez prévoir la demande afin de savoir ce qu’il faut produire. Cependant, lorsque vous décidez de ce que vous allez produire, vous avez la flexibilité d’introduire plus ou moins de produits. Ainsi, l’idée même d’avoir des séries temporelles que vous pourriez prévoir dépend de vos décisions. Dans la mode, par exemple, le fait d’introduire un produit de plus dans votre assortiment fait partie de votre problème prédictif. Vous voulez non seulement prévoir la demande, mais aussi influencer la demande. Au cours de notre parcours, nous avons réalisé que nous avions des incertitudes irréductibles qui nous donnent un angle entièrement orthogonal à la perspective classique de la prévision ponctuelle. Mais nous devons aussi gérer toutes les boucles de rétroaction.

Kieran Chandler: Alors, Joannes, pouvez-vous nous dire comment les modèles prédictifs impactent l’optimisation de la supply chain ?

Joannes Vermorel: Lorsque nous faisons une prévision, nous prenons une décision mieux informée. Cela a une influence profonde sur la façon dont nous voulons construire nos modèles prédictifs. Ensuite, nous pouvons ajouter plus de variables, telles que le contrôle du degré de produits, les points de prix, le message, voire la promotion des produits. Si je continue sur l’exemple de la mode, vous prévoyez les quantités que vous souhaitez avoir, puis décidez que dans vos magasins, certains produits seront mis de manière beaucoup plus permanente que d’autres. Cela a un impact profond sur ce que vous allez observer. Le défi auquel Lokad a été confronté en termes d’analyse prédictive était de pouvoir aborder les problèmes en examinant les nombreux angles qui se présentent et qui compliquent la perspective pure des séries temporelles.

Kieran Chandler: D’accord, Rob, parlons maintenant des choses d’un point de vue académique. Beaucoup de personnes créent des logiciels uniquement pour un article, puis c’est presque jeté. Pourquoi pensez-vous qu’il n’y a pas suffisamment de pérennité dans certains des logiciels que les gens créent ?

Rob Hyndman: Eh bien, il faut réfléchir à la motivation de la plupart des universitaires. Ils sont payés pour écrire des articles et donner des cours. Une fois l’article écrit, il peut y avoir une certaine incitation à mettre en place un logiciel pour le mettre en œuvre. Mais il n’y a pas vraiment de récompense pour la plupart des universitaires à le faire, et il n’y a certainement pas de récompense à maintenir ce logiciel sur une longue période. Ceux qui le font le font parce qu’ils s’en soucient ou que c’est une question d’amour. Ce n’est pas vraiment ce pour quoi ils sont payés. Ce n’est pas leur cœur de métier. Je pense que c’est un problème réel dans le monde universitaire. Il y a tellement de concentration sur la publication de nouvelles méthodes et leur diffusion, et pas assez de concentration sur la liaison avec la communauté des praticiens et sur le fait de s’assurer que vos méthodes sont bien documentées et disposent d’un logiciel convivial disponible à long terme. C’est un problème de motivation dans le monde universitaire. Ma motivation est que lorsque je développe une nouvelle méthodologie, je veux que les gens l’utilisent. Je ne veux pas seulement publier un article et le faire lire par une douzaine de personnes, ou peut-être 100 personnes, si j’ai de la chance. Je veux réellement que mes méthodes fassent une différence dans le monde. En dehors de ce pour quoi je suis payé, c’est ce que je fais parce que j’ai beaucoup de satisfaction à voir mes méthodes réellement utilisées dans la pratique.

Joannes Vermorel: Les modèles prédictifs sont devenus plus compliqués, et il n’est pas facile de les rendre robustes. Chez Lokad, nous devons maintenir beaucoup de vieux codes pour faire fonctionner nos modèles. Le défi est que vous ne pouvez pas simplement créer un modèle sophistiqué et vous en tenir là. Vous devez avoir un moyen d’expliquer ce que fait le modèle et pourquoi il le fait. Vous devez vous assurer que le modèle est bien documenté et que les gens peuvent l’utiliser dans la pratique. Ce n’est pas une chose facile à faire, mais c’est important si vous voulez que vos modèles soient adoptés.

Rob Hyndman: Je pense aussi qu’il est intéressant de constater que les choses ont changé au fil du temps, de nouvelles méthodes sont développées, et donc vous devez fournir de nouveaux logiciels ou de nouveaux outils qui tiennent compte des évolutions en matière de prévision. L’une des choses que Joannes a mentionnées est le passage de la prévision ponctuelle à la prévision probabiliste, qui s’est produite dans la littérature académique au cours des 15 dernières années peut-être, et Lokad a été très rapide à prendre cela en compte et à proposer des prévisions probabilistes. Je pense probablement que Lokad a été l’une des premières entreprises de prévision de la supply chain au monde à le faire. Mon logiciel initial, bien qu’il produisait des prévisions probabilistes, mettait toujours l’accent sur les prévisions ponctuelles,

Kieran Chandler: Au cours des dernières années, l’accent a été inversé. On obtient d’abord des prévisions probabilistes, puis des prévisions ponctuelles.

Joannes Vermorel: Une de mes critiques personnelles concernant de nombreuses publications académiques est qu’en général, on se retrouve avec de nombreux défauts cachés dans les méthodes. Vous avez une méthode que vous savez être performante sur le benchmark, mais lorsque vous voulez l’implémenter réellement, vous constatez, par exemple, qu’elle est numériquement très instable ou que les temps de calcul sont ridiculement longs, au point que si vous utilisez un jeu de données simplifié, cela prendrait déjà des jours de calcul. Et si vous voulez utiliser un jeu de données réel, cela prendrait des années de calcul.

Et vous pouvez rencontrer toutes sortes de problèmes, comme le fait que la méthode soit diaboliquement compliquée à implémenter et donc, même si en théorie vous pouvez y arriver, en pratique vous aurez toujours un bug stupide qui vous empêchera d’obtenir des résultats. Ou peut-être que la méthode peut avoir des dépendances incroyablement subtiles sur une longue série de méta-paramètres, c’est un peu comme une magie noire pour la faire fonctionner car vous avez environ 20 paramètres obscurs que vous devez ajuster de manière complètement non documentée et généralement seulement dans l’esprit des chercheurs qui ont produit la méthode.

Rob Hyndman: C’est très intéressant car lorsque je regarde les méthodes qui résistent à l’épreuve du temps, de nombreuses méthodes super classiques que vous avez produites pour Hyndman, par exemple, donnent des résultats étonnamment bons par rapport à des méthodes très sophistiquées. Lors de la compétition M5 l’année dernière, Lokad s’est classé sixième parmi 909 équipes en termes de précision des prévisions ponctuelles. Mais nous avons réalisé cela avec un modèle très simple, presque le modèle de prévision paramétrique classique, et nous avons utilisé un petit truc de modélisation ETS par-dessus pour obtenir essentiellement l’effet de dispersion et la distribution probabiliste.

Mais dans l’ensemble, c’était probablement un modèle que nous aurions pu résumer sur une page avec quelques coefficients pour les saisons, le jour de la semaine, la semaine du mois, la semaine de l’année, et c’est tout. Donc, littéralement, nous sommes arrivés à un pour cent près du modèle le plus précis qui utilisait des arbres boostés par gradient, et je soupçonne qu’en termes de complexité du code, de complexité du modèle et d’opacité globale, nous parlons de quelque chose qui est deux ordres de grandeur, voire trois, plus complexe.

Joannes Vermorel: C’est quelque chose en quoi je crois dans le succès de vos bibliothèques. Ce que j’aime vraiment dans les méthodes, c’est que la plupart d’entre elles ont une implémentation élégante et concise. Donc, en effet, en termes d’applicabilité, il y a quelque chose de profondément vrai et valide à ce sujet, où vous obtenez la précision avec le minimum d’effort et de tracas, contrairement, je dirais, à l’autre côté du camp, le camp du deep learning. Je n’ai rien contre le deep learning lorsque vous voulez aborder des problèmes incroyablement difficiles comme, disons, par exemple…

Kieran Chandler: Bienvenue dans cet épisode. Aujourd’hui, nous avons Joannes Vermorel, fondateur de Lokad, et Rob Hyndman, professeur de statistiques et chef du département d’économétrie et de statistique commerciale à l’université Monash. Parlons de la traduction automatique et de la précision des modèles.

Joannes Vermorel: Je remets en question la sagesse d’avoir un modèle qui est un pour cent plus précis, mais qui prend des millions de paramètres, qui est incroyablement complexe et opaque. Est-ce vraiment mieux d’un point de vue scientifique ? Peut-être ne devrions-nous pas être distraits par l’obtention d’un pour cent de précision supplémentaire au détriment de quelque chose qui est 1000 fois plus complexe. Il y a un danger de se perdre complètement. La bonne science, en particulier dans la prévision, devrait se concentrer sur l’essence de ce qui fait une bonne prévision, en mettant de côté les distractions qui apportent un tout petit peu de précision supplémentaire mais peut-être au prix d’une grande confusion supplémentaire.

Rob Hyndman: Il faut équilibrer les deux coûts : le coût de production du logiciel et de l’exécution réelle, et le coût de la précision. Dans le monde universitaire, l’accent est généralement mis sur la précision sans tenir compte du coût de l’exécution ou du développement du code. Je suis d’accord avec vous, Joannes, que nous devons prendre les deux en compte. Parfois, vous ne voulez pas nécessairement la méthode la plus précise si cela va prendre trop de temps pour maintenir le code et effectuer le calcul. Mes packages de prévision sont robustes car ils ont été développés dans le cadre de projets de conseil. Ces fonctions ont été appliquées dans différents contextes, elles devaient donc être relativement robustes. Je ne voulais pas que les entreprises reviennent vers moi en disant que c’était cassé ou que cela ne fonctionnait pas sur leur ensemble de données. Le fait que j’ai fait beaucoup de conseil signifie que ces fonctions ont vu beaucoup de données avant d’être publiées au grand public. Elles doivent également être relativement rapides car la plupart des entreprises ne veulent pas attendre des jours pour qu’un calcul MCMC se produise sur un modèle bayésien sophistiqué ; elles veulent la prévision dans un délai raisonnable.

Kieran Chandler: Comment équilibrez-vous la robustesse, la précision et le coût de mise en œuvre du modèle d’un point de vue commercial, Joannes ?

Joannes Vermorel: Cela se résume vraiment à ce que vous apportez à la table. Par exemple, si nous avons un modèle paramétrique super simpliste comme celui que nous avons utilisé pour la compétition M5 et que nous atteignons un pour cent de la précision d’une méthode de gradient booster tree très sophistiquée, qui était le gagnant, cela vaut-il la complexité ajoutée ? La méthode gagnante utilisait des gradient booster trees avec un schéma d’augmentation de données très sophistiqué, qui était essentiellement une façon d’augmenter considérablement votre ensemble de données.

Kieran Chandler: C’est assez important et maintenant vous vous retrouvez avec un ensemble de données qui est comme 20 fois plus grand. Et ensuite, vous appliquez un modèle super lourd et complexe par-dessus cela. Donc la question est, apportez-vous quelque chose de fondamentalement nouveau et profond à la table ? Et comment équilibrez-vous cela ?

Joannes Vermorel: La façon dont j’équilibre cela est en réfléchissant si je ne manque pas un élément essentiel auquel je dois vraiment tenir compte. Par exemple, si je parle de mode, évidemment la cannibalisation et la substitution sont très fortes. Les gens n’entrent pas dans un magasin de mode en pensant qu’ils veulent ce code-barres exact. Ce n’est même pas la bonne façon de penser au problème. La cannibalisation et la substitution sont partout, et vous avez besoin de quelque chose qui embrasse cette vision. Si je prends l’automobile, par exemple, et que je regarde les marchés de l’après-vente automobile, le problème est que les gens n’achètent pas des pièces de voiture parce qu’ils aiment les pièces de voiture. Ils achètent des pièces de voiture parce que leur véhicule a un problème et qu’ils veulent le réparer, point final. Il se trouve que vous avez une matrice de compatibilité super complexe entre les véhicules et les pièces de voiture. En Europe, il existe plus d’un million de pièces de voiture distinctes et plus de 100 000 véhicules distincts. Et généralement, pour n’importe quel problème que vous avez, il y a une douzaine de pièces de voiture compatibles différentes, donc il y a substitution, mais contrairement à la mode, elle se présente de manière totalement déterministe. Les substitutions sont presque parfaitement connues et parfaitement structurées, et vous voulez avoir une méthode qui tire vraiment parti du fait qu’il n’y a aucune incertitude à ce sujet.

Donc, problème par problème, la façon dont j’équilibre cela est de m’assurer que si nous voulons payer pour une sophistication supplémentaire, cela en vaut vraiment la peine. Par exemple, si je prends les bibliothèques du professeur Hyndman par rapport, disons, à TensorFlow, juste pour donner une idée, pour la plupart de vos modèles, nous parlons probablement de kilo-octets de code. Si nous regardons TensorFlow, juste une bibliothèque compilée fait 800 mégaoctets, et dès que vous incluez TensorFlow version un, vous incluez presque des milliards de lignes de code.

Parfois, les gens peuvent penser que nous discutons de quelque chose qui relève simplement des nuances de gris, et qu’il n’y a pas de bonne ou de mauvaise réponse. C’est juste une question de goût, que vous pouvez le rendre légèrement plus simple ou légèrement plus compliqué. Mais la réalité de ce que j’ai observé, c’est que ce ne sont généralement pas seulement des nuances de gris. Nous parlons de méthodes avec plusieurs ordres de grandeur de complexité. Et donc, si je veux faire une prévision de mon propre chef, par exemple, quelles sont les chances que les bibliothèques du professeur Hyndman soient encore là dans 20 ans, et quelles sont les chances que TensorFlow version un soit encore là dans 20 ans ? Je parierais beaucoup d’argent sur l’idée que les méthodes fondamentales de séries temporelles seront toujours pertinentes.

Kieran Chandler: Pensez-vous que la technique de prévision sera encore là dans 20 ans ?

Joannes Vermorel: Les choses qui intègrent littéralement des milliards de lignes de complexité accidentelle concernant les spécificités des cartes graphiques produites au cours des cinq dernières années disparaîtront. Je ne nie pas le fait qu’il y ait eu des percées absolument stupéfiantes dans le deep learning. Ce que je dis, c’est que nous devons vraiment comprendre la valeur ajoutée, qui varie beaucoup en fonction des problèmes que nous examinons. Nous ne devrions pas être distraits par la sophistication. Ce n’est pas parce que c’est sophistiqué que c’est intrinsèquement plus scientifique, précis ou valide. Cela peut être plus impressionnant et ressembler à une conférence TED, mais nous devons être très prudents à ce sujet.

Kieran Chandler: Rob, je vous laisse la question finale. En ce qui concerne ce dont Joannes a parlé, des choses qui seront encore là dans 10 à 20 ans, pouvez-vous voir vos bibliothèques encore là ? Sur quoi travaillez-vous aujourd’hui et que pensez-vous être utile dans les années à venir ?

Rob Hyndman: Ma première bibliothèque publique remonte à 2005, donc elles ont déjà duré 15 ans. Je suis certainement engagé à les maintenir toutes, même celles que je considère comme ayant été remplacées par d’autres. Ce n’est pas énormément d’efforts pour le faire. Les nouveaux packages sur lesquels je travaille sont ce package appelé Fable, qui met en œuvre la plupart des mêmes techniques mais d’une manière différente pour faciliter la prévision de milliers de séries temporelles simultanément pour les utilisateurs. Fable et certains packages associés sont disponibles depuis quelques années, et mon dernier manuel les utilise. Je m’attends à ce qu’ils soient largement utilisés pendant au moins 10 ans, et aussi longtemps que je suis capable, je les maintiendrai et m’assurerai qu’ils sont disponibles. J’ai la chance d’avoir un très bon assistant qui m’aide à maintenir les packages. Il est également engagé dans le monde de l’open source et dans la publication de logiciels de haute qualité dans le développement open source.

Kieran Chandler: C’est génial, et le monde de l’open source permet à tout le monde d’y avoir accès. Merci beaucoup à vous deux pour votre temps. Nous devons en rester là, et merci de nous avoir suivi. Nous vous retrouverons dans le prochain épisode.