Entropía Cruzada
La entropía cruzada es una métrica que puede utilizarse para reflejar la precisión de los probabilistic forecasts. La entropía cruzada tiene fuertes vínculos con la estimación de máxima verosimilitud. La entropía cruzada es de importancia primordial para los sistemas modernos de forecasting, porque resulta instrumental para posibilitar la entrega de forecast superiores, incluso para métricas alternativas. Desde una supply chain perspective, la entropía cruzada es especialmente importante ya que respalda la estimación de modelos que también son buenos para capturar las probabilidades de eventos raros, que frecuentemente resultan ser los más costosos. Esta métrica se aparta sustancialmente de la intuición que respalda métricas de accuracy metrics, como el error cuadrático medio o el error porcentual absoluto medio.
Probabilidad frecuentista vs probabilidad bayesiana
Una forma común de entender la estadística es la perspectiva de la probabilidad frecuentista. Al intentar comprender cuantitativamente un fenómeno incierto, esta perspectiva establece que las mediciones deben repetirse muchas veces y que, al contar el número de ocurrencias del fenómeno de interés, es posible estimar la frecuencia del fenómeno, es decir, su probabilidad. A medida que la tasa de frecuencia converge a través de muchos experimentos, la probabilidad se estima más precisamente.
La entropía cruzada se aparta de esta perspectiva al adoptar la perspectiva de la probabilidad bayesiana. La perspectiva bayesiana invierte el problema. Al intentar comprender cuantitativamente un fenómeno incierto, parte de un modelo que proporciona directamente una estimación de probabilidad para el fenómeno. Luego, a través de observaciones repetidas, se evalúa cómo se desempeña el modelo al enfrentarse a las ocurrencias reales del fenómeno. A medida que aumenta el número de ocurrencias, la medición de la (in)adecuación del modelo mejora.
Las perspectivas frecuentista y bayesiana son ambas válidas y útiles. Desde una perspective de supply chain, dado que recopilar observaciones es costoso y algo inflexible –las empresas tienen poco control sobre la generación de pedidos para un producto– la perspectiva bayesiana es frecuentemente más manejable.
La intuición de la entropía cruzada
Antes de profundizar en la formulación algebraica de la entropía cruzada, intentemos arrojar algo de luz sobre su intuición subyacente. Asumamos que tenemos un modelo probabilístico –o simplemente modelo en lo que sigue– que está destinado tanto a explicar el pasado como a predecir el futuro. Para cada observación pasada, este modelo proporciona una estimación de la probabilidad de que esa observación haya ocurrido tal como ocurrió. Si bien es posible construir un modelo que simplemente memorice todas las observaciones pasadas asignándoles una probabilidad exactamente de 1, este modelo no nos diría nada sobre el futuro. Por lo tanto, un modelo interesante de alguna manera aproxima el pasado y, por ende, entrega probabilidades inferiores a 1 para eventos pasados.
Al adoptar la perspectiva bayesiana, podemos evaluar la probabilidad de que el modelo haya generado todas las observaciones. Si además asumimos que todas las observaciones son independientes (IID, en realidad Independientes e Idénticamente Distribuidas), entonces la probabilidad de que este modelo haya generado la colección de observaciones que tenemos es el producto de todas las probabilidades estimadas por el modelo para cada observación pasada.
El producto matemático de miles de variables que normalmente son menores a 0.5 –asumiendo que estamos tratando con un fenómeno bastante incierto– puede esperarse que sea un número increíblemente pequeño. Por ejemplo, incluso al considerar un modelo excelente para forecast de la demanda, ¿cuál sería la probabilidad de que este modelo pudiera generar todos los datos de ventas que una empresa ha observado a lo largo de un año? Aunque estimar este número no es trivial, es evidente que sería asombrosamente pequeño.
Por lo tanto, para mitigar este problema numérico conocido como underflow aritmético, se introducen los logaritmos. Intuitivamente, los logaritmos pueden utilizarse para transformar productos en sumas, lo que aborda convenientemente el problema del underflow aritmético.
Definición formal de la entropía cruzada
Para dos variables aleatorias discretas $${p}$$ y $${q}$$, la entropía cruzada se define como:
Esta definición no es simétrica. $${P}$$ se entiende como la distribución “verdadera”, observada solo parcialmente, mientras que $${Q}$$ se entiende como la distribución “antinatural” obtenida a partir de un modelo estadístico construido.
En teoría de la información, la entropía cruzada puede interpretarse como la longitud esperada en bits para codificar mensajes, cuando se utiliza $${Q}$$ en lugar de $${P}$$. Esta perspectiva va más allá de la discusión actual y no es de importancia primordial desde una perspectiva de supply chain.
En la práctica, dado que $${P}$$ no se conoce, la entropía cruzada se estima empíricamente a partir de las observaciones, asumiendo simplemente que todas las observaciones recopiladas son igualmente probables, es decir, $${p(x)=1/N}$$ donde $${N}$$ es el número de observaciones.
Curiosamente, esta fórmula es idéntica a la estimación promedio de log-likehood estimation. Optimizar la entropía cruzada o el log-likelihood es esencialmente lo mismo, tanto conceptualmente como numéricamente.
La superioridad de la entropía cruzada
Desde la década de 1990 hasta principios de 2010, la mayor parte de la comunidad estadística estaba convencida de que la forma más eficiente, desde una perspectiva puramente numérica, de optimizar una métrica dada, por ejemplo, MAPE (error porcentual absoluto medio), era construir un algoritmo de optimización directamente orientado a esa métrica. Sin embargo, una idea crítica pero contraintuitiva lograda por la comunidad de deep learning es que ese no era el caso. La optimización numérica es un problema muy difícil, y la mayoría de las métricas no son adecuadas para esfuerzos de optimización numérica eficientes y a gran escala. Además, durante el mismo período, la comunidad de data science en general se dio cuenta de que todos los problemas de forecasting / predicción eran, en realidad, problemas de optimización numérica.
Desde una perspectiva de supply chain, la conclusión es que, incluso si el objetivo de la empresa es optimizar una métrica de forecasting como MAPE o MSE (error cuadrático medio), en la práctica, la ruta más eficiente es optimizar la entropía cruzada. En Lokad, en 2017, hemos recopilado una cantidad significativa de evidencia empírica que respalda esta afirmación. Más sorprendentemente, la entropía cruzada también supera a CRPS (puntuación de probabilidad clasificada de forma continua), otra métrica de precisión probabilística, incluso si los modelos resultantes se juzgan finalmente contra CRPS.
No está del todo claro qué hace que la entropía cruzada sea una métrica tan buena para la optimización numérica. Uno de los argumentos más convincentes, detallado en Ian Goodfellow et all, es que la entropía cruzada proporciona valores de gradiente muy grandes, que son especialmente valiosos para el gradient descent, que resulta ser precisamente el método de optimización a gran escala más exitoso disponible en la actualidad.
CRPS vs entropía cruzada
En lo que respecta a supply chain, la entropía cruzada supera en gran medida a CRPS como métrica para los probabilistic forecasts, simplemente porque pone un énfasis mucho mayor en los eventos raros. Consideremos un modelo probabilístico para la demanda que tiene una media de 1000 unidades, con toda la masa de la distribución concentrada en el segmento de 990 a 1010. Asumamos además que la próxima cantidad observada para la demanda es 1011.
Desde la perspectiva de CRPS, el modelo es relativamente bueno, ya que la demanda observada se encuentra aproximadamente a 10 unidades de distancia del forecast medio. En cambio, desde la perspectiva de la entropía cruzada, el modelo presenta un error infinito: el modelo predijo que la observación de 1011 unidades de demanda tenía una probabilidad cero –una proposición muy fuerte– lo cual resultó ser factualmente incorrecto, como lo demuestra el hecho de que se han observado 1011 unidades.
La tendencia de CRPS a favorecer modelos que pueden hacer afirmaciones absurdas como el evento XY nunca ocurrirá mientras el evento sí ocurre, contribuye en gran medida a explicar, desde una perspectiva de supply chain, por qué la entropía cruzada ofrece mejores resultados. La entropía cruzada favorece modelos que no se ven tomados “por sorpresa”, por así decirlo, cuando ocurre lo improbable. En supply chain, lo improbable sí ocurre, y cuando sucede sin preparación previa, lidiar con este evento resulta ser muy costoso.