L'entropie croisée

learn menu
Par Joannes Vermorel, janvier 2018

L’entropie croisée est une métrique qui peut être utilisée pour refléter la précision des prévisions probabilistes. L’entropie croisée possède des liens étroits avec l’estimation par maximum de vraisemblance. L’entropie croisée revêt une importance primordiale pour les systèmes de prévision modernes, car elle joue un rôle essentiel dans la production de prévisions supérieures, même lorsque d’autres métriques sont utilisées. Du point de vue de la supply chain, l’entropie croisée est particulièrement importante car elle soutient l’estimation de modèles qui parviennent également à capturer les probabilités d’événements rares, lesquels se révèlent souvent être les plus coûteux. Cette métrique s’écarte considérablement de l’intuition qui sous-tend des métriques de précision, telles que l’erreur quadratique moyenne ou l’erreur en pourcentage absolu moyen.

Probabilité fréquentiste vs probabilité bayésienne

Une façon courante de comprendre les statistiques est la perspective de la probabilité fréquentiste. Lorsqu’on cherche à donner un sens quantitatif à un phénomène incertain, la perspective fréquentiste affirme que les mesures doivent être répétées de nombreuses fois, et qu’en comptant le nombre d’occurrences du phénomène d’intérêt, il est possible d’estimer la fréquence du phénomène, c’est-à-dire sa probabilité. À mesure que le taux de fréquence se stabilise au travers de nombreuses expériences, la probabilité est estimée de manière plus précise.

L’entropie croisée s’écarte de cette perspective en adoptant la perspective de la probabilité bayésienne. La perspective bayésienne inverse le problème. Lorsqu’on s’efforce de donner une signification quantitative à un phénomène incertain, la perspective bayésienne part d’un modèle qui fournit directement une estimation de la probabilité du phénomène. Ensuite, à travers des observations répétées, nous évaluons la performance du modèle face aux occurrences réelles du phénomène. À mesure que le nombre d’occurrences augmente, la mesure de l’(in)adéquation du modèle s’améliore.

Les perspectives fréquentiste et bayésienne sont toutes deux valides et utiles. Du point de vue de la supply chain, étant donné que la collecte d’observations est coûteuse et quelque peu rigide – les entreprises ont peu de contrôle pour générer des commandes pour un produit – la perspective bayésienne est souvent plus praticable.

L’intuition de l’entropie croisée

Avant de plonger dans la formulation algébrique de l’entropie croisée, essayons d’éclaircir un peu son intuition sous-jacente. Supposons que nous disposions d’un modèle probabiliste – ou simplement modèle ci-après – qui est destiné à à la fois expliquer le passé et prédire l’avenir. Pour chaque observation passée, ce modèle fournit une estimation de la probabilité que cette observation se soit produite exactement comme elle l’a fait. Bien qu’il soit possible de construire un modèle qui se contente de mémoriser toutes les observations passées en leur assignant une probabilité exactement égale à 1, un tel modèle ne nous en dirait rien sur l’avenir. Ainsi, un modèle intéressant approxime d’une certaine manière le passé, et par conséquent attribue des probabilités inférieures à 1 pour les événements passés.

En adoptant la perspective bayésienne, nous pouvons évaluer la probabilité que le modèle ait généré toutes les observations. Si nous supposons en outre que toutes les observations sont indépendantes (IID, Indépendantes et Identiquement Distribuées en réalité), alors la probabilité que ce modèle ait généré l’ensemble des observations que nous possédons est le produit de toutes les probabilités estimées par le modèle pour chaque observation passée.

Le produit mathématique de milliers de variables qui sont typiquement inférieures à 0,5 – en supposant que nous traitions d’un phénomène assez incertain – peut être attendu pour être un nombre incroyablement petit. Par exemple, même en considérant un excellent modèle de prévision de la demande, quelle serait la probabilité que ce modèle puisse générer l’ensemble des données de ventes qu’une entreprise a observées au cours d’une année ? Bien que l’estimation de ce nombre soit non triviale, il est clair que ce nombre serait incroyablement petit.

Ainsi, afin d’atténuer ce problème numérique connu sous le nom de sous-flux arithmétique, on introduit les logarithmes. Intuitivement, les logarithmes peuvent être utilisés pour transformer des produits en sommes, ce qui permet de résoudre commodément le problème du sous-flux arithmétique

Définition formelle de l’entropie croisée

Pour deux variables aléatoires discrètes $${p}$$ et $${q}$$, la cross-entropy est définie comme :

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Cette définition n’est pas symétrique. $${P}$$ est destinée à représenter la distribution « vraie », seulement partiellement observée, tandis que $${Q}$$ est destinée à représenter la distribution « non naturelle » obtenue à partir d’un modèle statistique construit.

En théorie de l’information, l’entropie croisée peut être interprétée comme la longueur attendue en bits pour encoder des messages, lorsque $${Q}$$ est utilisée à la place de $${P}$$. Cette perspective dépasse le cadre de la présente discussion et n’est pas d’une importance primordiale du point de vue de la supply chain.

En pratique, comme $${P}$$ n’est pas connue, l’entropie croisée est estimée empiriquement à partir des observations, en supposant simplement que toutes les observations collectées sont également probables, c’est-à-dire, $${p(x)=1/N}$$ où $${N}$$ représente le nombre d’observations.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Fait intéressant, cette formule est identique à l’estimation moyenne de la vraisemblance logarithmique. Optimiser l’entropie croisée ou la log-vraisemblance revient essentiellement à la même chose, tant sur le plan conceptuel que numérique.

La supériorité de l’entropie croisée

De 1990 au début des années 2010, une grande partie de la communauté statistique était convaincue que la manière la plus efficace, d’un point de vue purement numérique, d’optimiser une métrique donnée, comme le MAPE (erreur en pourcentage absolu moyen), consistait à construire un algorithme d’optimisation directement axé sur cette métrique. Pourtant, un aperçu critique mais contre-intuitif obtenu par la communauté du deep learning a démontré que ce n’était pas le cas. L’optimisation numérique est un problème très difficile, et la plupart des métriques ne sont pas adaptées à des efforts d’optimisation numérique efficaces et à grande échelle. Par ailleurs, durant la même période, la communauté de la data science avait pris conscience que tous les problèmes de prévision / de prediction étaient en réalité des problèmes d’optimisation numérique.

Du point de vue de la supply chain, l’essentiel est que même si l’objectif de l’entreprise est d’optimiser une métrique de prévision comme le MAPE ou le MSE (erreur quadratique moyenne), en pratique, la voie la plus efficace consiste à optimiser l’entropie croisée. Chez Lokad, en 2017, nous avons collecté une quantité significative de preuves empiriques soutenant cette affirmation. Plus surprenant encore, l’entropie croisée surpasse également le CRPS (score de probabilité à classement continu), une autre métrique de précision probabiliste, même si les modèles résultants sont finalement jugés en fonction du CRPS.

Il n’est pas tout à fait clair ce qui fait de l’entropie croisée une si bonne métrique pour l’optimisation numérique. L’un des arguments les plus convaincants, détaillé dans Ian Goodfellow et all, est que l’entropie croisée fournit des valeurs de gradient très élevées, particulièrement précieuses pour la descente de gradient, qui se trouve justement être la méthode d’optimisation à grande échelle la plus performante disponible à ce jour.

CRPS vs entropie croisée

Du point de vue de la supply chain, l’entropie croisée surpasse largement le CRPS en tant que métrique pour les prévisions probabilistes, simplement parce qu’elle accorde une bien plus grande importance aux événements rares. Considérons un modèle probabiliste pour la demande ayant une moyenne de 1000 unités, avec toute la masse de la distribution concentrée sur l’intervalle de 990 à 1010. Supposons en outre que la prochaine quantité observée pour la demande soit de 1011.

Du point de vue du CRPS, le modèle est relativement bon, car la demande observée se trouve à environ 10 unités de l’estimation moyenne. En revanche, du point de vue de l’entropie croisée, le modèle a une erreur infinie : le modèle avait prédit que l’observation de 1011 unités de demande avait une probabilité nulle – une affirmation très forte – qui s’est avérée factuellement incorrecte, comme le démontre le fait que 1011 unités viennent juste d’être observées.

La propension du CRPS à favoriser des modèles pouvant faire des affirmations absurdes telles que l’événement XY n’arrivera jamais, alors que l’événement se produit effectivement, contribue en grande partie à expliquer, du point de vue de la supply chain, pourquoi l’entropie croisée offre de meilleurs résultats. L’entropie croisée favorise les modèles qui ne sont pas pris « au dépourvu », pour ainsi dire, lorsque l’improbable survient. Dans la supply chain, l’improbable se produit, et lorsqu’il survient sans préparation préalable, y faire face s’avère très coûteux.