Entropie croisée

learn menu
Par Joannes Vermorel, janvier 2018

L’entropie croisée est une mesure qui peut être utilisée pour refléter la précision des prévisions probabilistes. L’entropie croisée est étroitement liée à l’estimation de la vraisemblance maximale. L’entropie croisée revêt une importance primordiale pour les systèmes de prévision modernes, car elle permet de fournir des prévisions supérieures, même pour des mesures alternatives. Du point de vue de la gestion de la supply chain, l’entropie croisée est particulièrement importante car elle permet d’estimer des modèles qui sont également capables de capturer les probabilités d’événements rares, qui sont souvent les plus coûteux. Cette mesure diffère considérablement de l’intuition qui sous-tend des mesures de précision plus simples, telles que l’erreur quadratique moyenne ou l’erreur de pourcentage absolue moyenne.

Probabilité fréquentiste vs probabilité bayésienne

Une façon courante de comprendre les statistiques est la perspective de la probabilité fréquentiste. Lorsqu’on essaie de donner un sens quantitatif à un phénomène incertain, la perspective fréquentiste stipule que les mesures doivent être répétées de nombreuses fois, et qu’en comptant le nombre d’occurrences du phénomène d’intérêt, il est possible d’estimer la fréquence du phénomène, c’est-à-dire sa probabilité. À mesure que le taux de fréquence converge au fil de nombreuses expériences, la probabilité est estimée de manière plus précise.

L’entropie croisée s’éloigne de cette perspective en adoptant la perspective de la probabilité bayésienne. La perspective bayésienne inverse le problème. Lorsqu’on essaie de donner un sens quantitatif à un phénomène incertain, la perspective bayésienne part d’un modèle qui donne directement une estimation de probabilité pour le phénomène. Ensuite, à travers des observations répétées, nous évaluons la performance du modèle lorsqu’il est confronté aux occurrences réelles du phénomène. À mesure que le nombre d’occurrences augmente, la mesure de l’(in)adéquation du modèle s’améliore.

Les perspectives fréquentiste et bayésienne sont toutes deux valides et utiles. Du point de vue de la supply chain, étant donné que la collecte d’observations est coûteuse et quelque peu inflexible - les entreprises ont peu de contrôle sur la génération de commandes pour un produit - la perspective bayésienne est souvent plus praticable.

L’intuition de l’entropie croisée

Avant de plonger dans la formulation algébrique de l’entropie croisée, essayons d’éclairer son intuition sous-jacente. Supposons que nous disposions d’un modèle probabiliste - ou simplement d’un modèle par la suite - qui est destiné à expliquer le passé et à prédire l’avenir. Pour chaque observation passée, ce modèle fournit une estimation de la probabilité que cette observation se soit produite comme elle l’a fait. Bien qu’il soit possible de construire un modèle qui se contente de mémoriser toutes les observations passées en leur attribuant une probabilité exactement égale à 1, ce modèle ne nous dirait rien sur l’avenir. Ainsi, un modèle intéressant approxime d’une certaine manière le passé et fournit donc des probabilités inférieures à 1 pour les événements passés.

En adoptant la perspective bayésienne, nous pouvons évaluer la probabilité que le modèle aurait généré toutes les observations. Si nous supposons en outre que toutes les observations sont indépendantes (IID, Indépendantes et Identiquement Distribuées en réalité), alors la probabilité que ce modèle aurait généré la collection d’observations que nous avons est le produit de toutes les probabilités estimées par le modèle pour chaque observation passée.

Le produit mathématique de milliers de variables qui sont généralement inférieures à 0,5 - en supposant que nous traitons un phénomène assez incertain - peut être attendu pour être un nombre incroyablement petit. Par exemple, même en considérant un excellent modèle de prévision de la demande, quelle serait la probabilité que ce modèle puisse générer toutes les données de vente qu’une entreprise a observées au cours d’une année ? Bien qu’estimer ce nombre soit non trivial, il est clair que ce nombre serait étonnamment petit.

Ainsi, afin de pallier ce problème numérique connu sous le nom de débordement arithmétique, les logarithmes sont introduits. Intuitivement, les logarithmes peuvent être utilisés pour transformer les produits en sommes, ce qui résout de manière pratique le problème de débordement arithmétique.

Définition formelle de l’entropie croisée

Pour deux variables aléatoires discrètes $${p}$$ et $${q}$$, l’entropie croisée est définie comme suit :

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Cette définition n’est pas symétrique. $${P}$$ est considérée comme la distribution “vraie”, partiellement observée, tandis que $${Q}$$ est considérée comme la distribution “artificielle” obtenue à partir d’un modèle statistique construit.

En théorie de l’information, l’entropie croisée peut être interprétée comme la longueur attendue en bits pour l’encodage des messages, lorsque $${Q}$$ est utilisé à la place de $${P}$$. Cette perspective va au-delà de la présente discussion et n’est pas d’une importance primordiale d’un point de vue de la supply chain.

En pratique, comme $${P}$$ n’est pas connu, l’entropie croisée est estimée empiriquement à partir des observations, en supposant simplement que toutes les observations collectées sont également probables, c’est-à-dire $${p(x)=1/N}$$ où $${N}$$ est le nombre d’observations.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Il est intéressant de noter que cette formule est identique à l’estimation moyenne de la vraisemblance logarithmique. Optimiser l’entropie croisée ou la vraisemblance logarithmique revient essentiellement à la même chose, tant conceptuellement que numériquement.

La supériorité de l’entropie croisée

Des années 1990 au début des années 2010, la plupart de la communauté statistique était convaincue que la manière la plus efficace, d’un point de vue purement numérique, d’optimiser une métrique donnée, comme le MAPE (erreur de pourcentage absolue moyenne), était de construire un algorithme d’optimisation spécifiquement conçu pour cette métrique. Pourtant, un aperçu critique mais contre-intuitif réalisé par la communauté de l’apprentissage profond est que ce n’était pas le cas. L’optimisation numérique est un problème très difficile, et la plupart des métriques ne conviennent pas aux efforts d’optimisation numérique efficaces à grande échelle. Pendant la même période, la communauté de la science des données dans son ensemble avait réalisé que tous les problèmes de prévision / prédiction étaient en réalité des problèmes d’optimisation numérique.

D’un point de vue de la supply chain, la conclusion est que même si l’objectif de l’entreprise est d’optimiser une métrique de prévision telle que le MAPE ou le MSE (erreur quadratique moyenne), alors, en pratique, la route la plus efficace est d’optimiser l’entropie croisée. Chez Lokad, en 2017, nous avons recueilli une quantité significative de preuves empiriques étayant cette affirmation. Plus surprenant peut-être, l’entropie croisée surpasse également CRPS (score de probabilité classé continu), une autre métrique d’exactitude probabiliste, même si les modèles résultants sont finalement évalués par rapport à CRPS.

Il n’est pas tout à fait clair ce qui fait de l’entropie croisée une si bonne métrique pour l’optimisation numérique. L’un des arguments les plus convaincants, détaillé dans Ian Goodfellow et al, est que l’entropie croisée fournit des valeurs de gradient très élevées, qui sont particulièrement précieuses pour la descente de gradient, qui se trouve être précisément la méthode d’optimisation à grande échelle la plus réussie disponible actuellement.

CRPS vs entropie croisée

En ce qui concerne la supply chain, l’entropie croisée surpasse largement le CRPS en tant que métrique pour les prévisions probabilistes simplement parce qu’elle met beaucoup plus l’accent sur les événements rares. Prenons un modèle probabiliste de demande dont la moyenne est de 1000 unités, avec toute la masse de la distribution concentrée sur le segment 990 à 1010. Supposons en outre que la prochaine quantité observée pour la demande soit de 1011.

Du point de vue du CRPS, le modèle est relativement bon, car la demande observée est d’environ 10 unités de la prévision moyenne. En revanche, du point de vue de l’entropie croisée, le modèle a une erreur infinie : le modèle a prédit que l’observation de 1011 unités de demande avait une probabilité nulle - une proposition très forte - qui s’est avérée incorrecte, comme le démontre le fait que 1011 unités viennent d’être observées.

La propension du CRPS à favoriser les modèles qui peuvent faire des affirmations absurdes du type “l’événement XY ne se produira jamais” alors que l’événement se produit, contribue largement à expliquer, du point de vue de la supply chain, pourquoi l’entropie croisée donne de meilleurs résultats. L’entropie croisée favorise les modèles qui ne sont pas pris “au dépourvu”, pour ainsi dire, lorsque l’improbable se produit. En supply chain, l’improbable se produit, et lorsque cela se produit sans préparation préalable, la gestion de cet événement s’avère très coûteuse.