Cross-Entropy

learn menu
Por Joannes Vermorel, enero de 2018

La cross-entropy es una métrica que se puede utilizar para reflejar la precisión de los pronósticos probabilísticos. La cross-entropy tiene fuertes vínculos con la estimación de máxima verosimilitud. La cross-entropy es de suma importancia para los sistemas de pronóstico modernos, ya que es instrumental para lograr pronósticos superiores, incluso para métricas alternativas. Desde una perspectiva de la cadena de suministro, la cross-entropy es particularmente importante, ya que respalda la estimación de modelos que también son buenos para capturar las probabilidades de eventos raros, que suelen ser los más costosos. Esta métrica se aleja sustancialmente de la intuición que respalda métricas de precisión más simples, como el error cuadrático medio o el error porcentual absoluto medio.

Probabilidad frecuentista vs probabilidad bayesiana

Una forma común de entender la estadística es desde la perspectiva de la probabilidad frecuentista. Cuando se intenta dar sentido cuantitativo a un fenómeno incierto, la perspectiva frecuentista establece que las mediciones deben repetirse muchas veces y que, al contar el número de ocurrencias del fenómeno de interés, es posible estimar la frecuencia del fenómeno, es decir, su probabilidad. A medida que la tasa de frecuencia converge a través de muchos experimentos, la probabilidad se estima de manera más precisa.

La cross-entropy se aparta de esta perspectiva al adoptar la probabilidad bayesiana. La perspectiva bayesiana invierte el problema. Al intentar dar sentido cuantitativo a un fenómeno incierto, la perspectiva bayesiana parte de un modelo que proporciona directamente una estimación de probabilidad para el fenómeno. Luego, a través de observaciones repetidas, evaluamos cómo se comporta el modelo cuando se enfrenta a las ocurrencias reales del fenómeno. A medida que aumenta el número de ocurrencias, la medición de la (in)adecuación del modelo mejora.

Las perspectivas frecuentista y bayesiana son válidas y útiles. Desde una perspectiva de la cadena de suministro, dado que recopilar observaciones es costoso y algo inflexible, las perspectivas bayesianas suelen ser más manejables.

La intuición de la cross-entropy

Antes de adentrarnos en la formulación algebraica de la cross-entropy, intentemos arrojar algo de luz sobre su intuición subyacente. Supongamos que tenemos un modelo probabilístico, o simplemente un modelo en lo que sigue, que tiene la intención de explicar el pasado y predecir el futuro. Para cada observación pasada, este modelo proporciona una estimación de la probabilidad de que esta observación haya ocurrido tal como lo hizo. Si bien es posible construir un modelo que simplemente memorice todas las observaciones pasadas asignándoles una probabilidad de exactamente 1, este modelo no nos diría nada sobre el futuro. Por lo tanto, un modelo interesante aproxima de alguna manera el pasado y, por lo tanto, proporciona probabilidades inferiores a 1 para eventos pasados.

Al adoptar la perspectiva bayesiana, podemos evaluar la probabilidad de que el modelo haya generado todas las observaciones. Si además asumimos que todas las observaciones son independientes (IID, Independent and Identically Distributed en realidad), entonces la probabilidad de que este modelo haya generado la colección de observaciones que tenemos es el producto de todas las probabilidades estimadas por el modelo para cada observación pasada.

El producto matemático de miles de variables que típicamente son menores a 0.5 - asumiendo que estamos tratando con un fenómeno bastante incierto - se espera que sea un número increíblemente pequeño. Por ejemplo, incluso al considerar un excelente modelo para pronosticar la demanda, ¿cuál sería la probabilidad de que este modelo pudiera generar todos los datos de ventas que una empresa ha observado a lo largo de un año? Si bien estimar este número no es trivial, está claro que este número sería asombrosamente pequeño.

Por lo tanto, para mitigar este problema numérico conocido como subdesbordamiento aritmético, se introducen los logaritmos. Intuitivamente, los logaritmos se pueden utilizar para transformar productos en sumas, lo cual aborda convenientemente el problema del subdesbordamiento aritmético.

Definición formal de la entropía cruzada

Para dos variables aleatorias discretas $${p}$$ y $${q}$$, la entropía cruzada se define como:

$${H(p, q) = -\sum_x p(x)\log q(x)}$$

Esta definición no es simétrica. $${P}$$ se entiende como la distribución “verdadera”, solo parcialmente observada, mientras que $${Q}$$ se entiende como la distribución “no natural” obtenida a partir de un modelo estadístico construido.

En teoría de la información, la entropía cruzada se puede interpretar como la longitud esperada en bits para codificar mensajes cuando se utiliza $${Q}$$ en lugar de $${P}$$. Esta perspectiva va más allá de la presente discusión y no es de importancia primordial desde una perspectiva de la cadena de suministro.

En la práctica, como $${P}$$ no se conoce, la entropía cruzada se estima empíricamente a partir de las observaciones, simplemente asumiendo que todas las observaciones recopiladas son igualmente probables, es decir, $${p(x)=1/N}$$ donde $${N}$$ es el número de observaciones.

$${H(q) = - \frac{1}{N} \sum_x \log q(x)}$$

Curiosamente, esta fórmula es idéntica a la estimación promedio de verosimilitud logarítmica. Optimizar la entropía cruzada o la verosimilitud logarítmica es esencialmente lo mismo, tanto conceptual como numéricamente.

La superioridad de la entropía cruzada

Desde la década de 1990 hasta principios de 2010, la mayoría de la comunidad estadística estaba convencida de que la forma más eficiente, desde una perspectiva puramente numérica, de optimizar una métrica dada, como el MAPE (error porcentual absoluto medio), era construir un algoritmo de optimización directamente diseñado para esta métrica. Sin embargo, una idea crítica pero contraintuitiva lograda por la comunidad de deep learning es que esto no era cierto. La optimización numérica es un problema muy difícil y la mayoría de las métricas no son adecuadas para esfuerzos de optimización numérica eficientes a gran escala. También durante el mismo período, la comunidad de data science en general se había dado cuenta de que todos los problemas de pronóstico / predicción eran en realidad problemas de optimización numérica.

Desde una perspectiva de la cadena de suministro, la conclusión es que incluso si el objetivo de la empresa es optimizar una métrica de pronóstico como el MAPE o el MSE (error cuadrático medio), en la práctica, la ruta más eficiente es optimizar la entropía cruzada. En Lokad, en 2017, hemos recopilado una cantidad significativa de evidencia empírica que respalda esta afirmación. Quizás de manera más sorprendente, la entropía cruzada también supera al CRPS (puntuación de rango de probabilidad continua), otra métrica de precisión probabilística, incluso si los modelos resultantes se evalúan en última instancia en función del CRPS.

No está del todo claro qué hace que la entropía cruzada sea una buena métrica para la optimización numérica. Uno de los argumentos más convincentes, detallado en Ian Goodfellow et al, es que la entropía cruzada proporciona valores de gradiente muy grandes, que son especialmente valiosos para el descenso de gradiente, que precisamente resulta ser el método de optimización a escala más exitoso disponible en este momento.

CRPS vs entropía cruzada

En lo que respecta a la cadena de suministro, la entropía cruzada supera ampliamente al CRPS como métrica para pronósticos probabilísticos simplemente porque pone mucho más énfasis en eventos raros. Consideremos un modelo probabilístico para la demanda que tiene una media de 1000 unidades, con toda la masa de la distribución concentrada en el segmento de 990 a 1010. Supongamos además que la siguiente cantidad observada para la demanda es 1011.

Desde la perspectiva del CRPS, el modelo es relativamente bueno, ya que la demanda observada está a unos 10 unidades de distancia del pronóstico medio. En cambio, desde la perspectiva de la entropía cruzada, el modelo tiene un error infinito: el modelo predijo que observar 1011 unidades de demanda tenía una probabilidad cero, una proposición muy fuerte, que resultó ser incorrecta, como lo demuestra el hecho de que acaban de observarse 1011 unidades.

La propensión del CRPS a favorecer modelos que pueden hacer afirmaciones absurdas como el evento XY nunca sucederá mientras que el evento sí sucede, contribuye en gran medida a explicar, desde la perspectiva de la cadena de suministro, por qué la entropía cruzada ofrece mejores resultados. La entropía cruzada favorece a los modelos que no son sorprendidos “desprevenidos”, por así decirlo, cuando sucede lo improbable. En la cadena de suministro, lo improbable sucede, y cuando sucede sin preparación previa, lidiar con este evento resulta ser muy costoso.