Entropía cruzada

Notebook-as-a-book illustration







Por Joannes Vermorel, enero de 2018

La entropía cruzada es una métrica que puede utilizarse para reflejar la precisión de los pronósticos probabilísticos y está estrechamente vinculada con la estimación por máxima verosimilitud. La entropía cruzada es de gran importancia para los sistemas pronóstico modernos, porque es esencial para la entrega de pronósticos superiores, incluso para métricas alternativas. Desde una perspectiva de cadena de suministro, la entropía cruzada es particularmente importante, porque respalda el cálculo de modelos que también son buenos para la captura de posibilidades de eventos raros, que a a menudo resultan ser los más costosos. Esta métrica se aleja bastante de la idea que defiende métricas de precisión más simples, como el error cuadrático medio o el porcentaje de error absoluto medio.

Probabilidad frecuentista vs probabilidad bayesiana

Un modo habitual de entender las estadísticas es la perspectiva de la probabilidad frecuentista. Cuando se intenta dar un sentido cuantitativo a un fenómeno incierto, la perspectiva frecuentista establece que las mediciones deberían repetirse varias veces y que, al contar la cantidad de ocurrencias del fenómeno de interés, es posible calcular la frecuencia del fenómeno; es decir, su probabilidad. A medida que la tasa de frecuencia converge a lo largo de varios experimentos, la probabilidad se calcula con mayor precisión.

La entropía cruzada parte de esta perspectiva adoptando la perspectiva de la probabilidad bayesiana. La perspectiva bayesiana invierte el problema. Cuando se intenta dar un sentido cuantitativo a un fenómeno incierto, la perspectiva bayesiana comienza con un modelo que proporciona directamente un cálculo de probabilidad del fenómeno. Luego, a través de observaciones repetidas, se evalúa cómo se comporta el modelo cuando se lo compara con las ocurrencias reales del fenómeno. A medida que la cantidad de ocurrencias aumenta, la medida de la idoneidad (o falta de ella) del modelo mejora.

Tanto la perspectiva frecuentista como la bayesiana son válidas y útiles. Desde una perspectiva de cadena de suministro, debido a que recopilar observaciones es costoso y bastante poco flexible —las empresas tienen poco control sobre la generación de pedidos de un producto—, la perspectiva bayesiana es, a menudo, más factible.

La idea de la entropía cruzada

Antes de entrar en la formulación algebraica de la entropía cruzada, veamos algunos detalles sobre las ideas subyacentes a la misma. Supongamos que tenemos un modelo probabilístico —un ‘’modelo’’ de aquí en más— que está diseñado tanto para explicar el pasado como para proyectar el futuro. Por cada observación pasada, este modelo proporciona un cálculo de la probabilidad de que esta observación debiera haber sucedido del modo en que sucedió. Si bien es posible realizar un modelo que simplemente memorice todas las observaciones pasadas asignándoles una probabilidad de exactamente 1, este modelo no nos diría nada sobre el futuro. Por lo tanto, un modelo ‘’interesante’’ calcula aproximadamente el pasado y, de este modo, entrega probabilidades que equivalen a menos de 1 para eventos pasados.

Al adoptar una perspectiva bayesiana, podemos evaluar la probabilidad de que el modelo hubiera generado todas las observaciones. Si suponemos, además, que todas las observaciones son independientes (IID o variables aleatorias independientes e idénticamente distribuidas, en realidad), la probabilidad de que este modelo hubiera generado la colección de observaciones que tenemos es el producto de todas las probabilidades calculadas por el modelo para cada observación pasada.

Puede esperarse que el producto matemático de miles de variables que son generalmente menos que 0,5 —suponiendo que tratamos con un fenómeno bastante incierto— sea un número increíblemente pequeño. Por ejemplo, incluso en el caso de un modelo excelente para pronosticar la demanda, ¿cuál sería la probabilidad de que este modelo generara todos los datos de ventas que una empresa ha observado en el curso de un año? Si bien el cálculo de este número no es trivial, queda claro que ese número sería extraordinariamente pequeño.

Por lo tanto, para mitigar este problema numérico, conocido como subdesbordamiento aritmético, se introducen los logaritmos. Intuitivamente, los logaritmos pueden utilizarse para transformar productos en sumas, lo que aborda de modo conveniente el problema del subdesbordamiento aritmético.

Definición formal de la entropía cruzada

Para dos variables aleatorias discretas $p$ y $q$, la entropía cruzada se define del siguiente modo: $$H(p, q) = -\sum_x p(x)\, \log q(x). \!$$ Esta definición no es simétrica. $P$ está pensada como una distribución verdadera, solo parcialmente observada, mientras que $Q$ está pensada como una distribución innatural obtenida de un modelo estadístico construido.

En la teoría de la información, la entropía cruzada puede interpretarse como la longitud esperada en bits para la codificación de mensajes, cuando se utiliza $Q$ en lugar de $P$. Esta perspectiva excede el objetivo de la presente discusión y no es de importancia primaria desde el punto de vista de la cadena de suministro.

En la práctica, debido a que $P$ no se conoce, la entropía cruzada se calcula empíricamente a partir de las observaciones, suponiendo simplemente que todas las observaciones recopiladas son igualmente probables; es decir, que $p(x)=1/N$, donde $N$ es el número de observaciones. $$H(q) = - \frac{1}{N} \sum_x \log q(x). \!$$ Resulta interesante que esta fórmula sea idéntica al logaritmo de verosimilitud promedio. La optimización de la entropía cruzada o del logaritmo de verosimilitud son, en esencia, lo mismo, tanto conceptual como numéricamente.

La superioridad de la entropía cruzada

Desde los años noventa hasta comienzos del año 2010, la mayor parte de la comunidad estadística estuvo convencida de que el modo más eficiente, desde un punto de vista puramente numérico, para optimizar una métrica determinada (por ejemplo, el MAPE o error absoluto medio relativo) era construir un algoritmo de optimización orientado específicamente a esta métrica. Sin embargo, una revelación clave (aunque ilógica) alcanzada por la comunidad del Deep Learning fue que esto no era así. La optimización numérica es un problema muy difícil, y la mayoría de las métricas no son adecuadas para esfuerzos de optimización numéricos eficientes y a gran escala. Además, durante el mismo período, gran parte de la comunidad de la ciencia de datos se dio cuenta de que los problemas de pronóstico/proyección eran en realidad problemas de optimización numérica.

Desde una perspectiva de cadena de suministro, el punto clave es que, incluso si el objetivo de la empresa es optimizar una métrica de pronóstico como el MAPE o el MSE (error cuadrático medio), en la práctica, el camino más eficiente es el de optimizar la entropía cruzada. En Lokad, recopilamos en 2017 una cantidad significativa de evidencia empírica que respalda esta afirmación. Lo que quizás resulte más sorprendente es que la entropía cruzada también supera al CRPS (rango de probabilidad continuo), otra métrica de precisión probabilística, incluso si los modelos resultantes se evalúan en última instancia con respecto al CRPS.

No queda del todo claro qué es lo que hace que la entropía cruzada sea un métrica tan buena para la optimización numérica. Uno de los argumentos más convincentes, detallado en Ian Goodfellow et al, es que la entropía cruzada proporciona valores de gradiente muy grandes, que son especialmente valiosos para el método del descenso de gradiente, que resulta ser precisamente el método de optimización de escala más exitoso disponible en este momento.

CRPS vs. entropía cruzada

En lo que concierne a la cadena de suministro, la entropía cruzada supera ampliamente al CRPS como métrica para los pronósticos probabilísticos simplemente porque pone mucho más énfasis en los eventos raros. Consideremos un modelo probabilístico para la demanda que tenga una media de 1000 unidades, con toda la masa de la distribución concentrada en los segmentos del 990 al 1010. Supongamos, además, que la siguiente cantidad observada para la demanda es 1011.

Desde el punto de vista del CRPS, el modelo es relativamente bueno, ya que la demanda observada se encuentra a aproximadamente 10 unidades del pronóstico de media. Desde el punto de vista de la entropía cruzada, en cambio, el modelo tiene un error infinito: el modelo predijo que la observación de 1011 unidades de demanda tenía una probabilidad igual a cero —una proposición muy fuerte—, que resultó ser objetivamente incorrecta, como lo demuestra el hecho de que se acaban de observar 1011 unidades.

La propensión del CRPS a favorecer modelos que pueden hacer afirmaciones absurdas, como que el evento XY nunca sucederá cuando el evento sí sucede, contribuye en gran medida a explicar, desde el punto de vista de la cadena de suministro, por qué la entropía cruzada entrega mejores resultados. La entropía cruzada favorece modelos que, por decirlo de algún modo, se defienden mejor cuando sucede lo improbable. En la cadena de suministro, lo improbable sucede, y cuando eso pasa sin una preparación previa, la gestión de este evento resulta ser muy costosa.