Entropie croisée

Notebook-as-a-book illustration







Par Joannes Vermorel, janvier 2018

L’entropie croisée est un indicateur qui peut être utilisé pour évaluer la précision de prévisions probabilistes. Elle est fortement liée à l’estimation du maximum de vraisemblance. L’entropie croisée est essentielle aux systèmes de prévisions modernes, car elle rend possible l’obtention de prévisions de qualité supérieure, même pour les indicateurs alternatifs. Du point de vue logistique, l’entropie croisée est particulièrement importante, car elle contribue à l’estimation de modèles utiles à la détermination de la probabilité d’événements rares, qui sont souvent les plus coûteux. Cet indicateur se distingue sensiblement d’autres indicateurs de précision plus simples, comme l’erreur quadratique moyenne ou le pourcentage d’erreur absolue moyenne.

Probabilité fréquentiste vs. probabilité bayésienne

Les statistiques sont souvent expliquées par l’approche fréquentiste des probabilités. Pour trouver un sens quantitatif à un phénomène incertain, l’approche fréquentiste s'appuie sur de nombreuses répétitions des mesures et, en comptant le nombre d’occurrences du phénomène en question, estime sa fréquence, c’est-à-dire sa probabilité. Plus la fréquence observée converge au fur et à mesure des expériences, plus la probabilité est estimée avec précision.

L’entropie croisée se distingue de cette approche en adoptant le point de vue bayésien. Ce dernier prend le problème dans l’autre sens. Pour trouver un sens quantitatif à un phénomène incertain, l’approche bayésienne commence par un modèle qui donne directement une estimation de la probabilité du phénomène. Ensuite, en comparant les estimations aux observations répétées, la pertinence du modèle est évaluée. Plus le nombre d’observations augmente, plus l’évaluation de la pertinence du modèle est précise. Les approches fréquentiste et bayésienne sont toutes deux valides et utiles. Du point de vue de la logistique, puisqu'il est coûteux et relativement compliquer d’accumuler des mesures (les entreprises ne maîtrisent pas les commandes passées pour un produit), l’approche bayésienne est souvent plus appropriée.

L’entropie croisée intuitive

Avant de détailler la formulation algébrique de l’entropie croisée, voyons l’idée intuitive sur laquelle celle-ci repose. Prenons un modèle probabiliste — que nous appellerons par la suite simplement modèle — censé expliquer le passé et prévoir le futur. Pour chaque observation passée, ce modèle donne une estimation de la probabilité de cette observation. Même s’il est possible de construire un modèle qui ne fait que mémoriser les observations passées et leur affecter une probabilité de 1, celui-ci ne pourrait rien indiquer sur le futur. Par conséquent, un modèle « intéressant » fait des approximations du passé et affecte des probabilités inférieures à 1 aux événements passés.

En adoptant l’approche bayésienne, nous pouvons évaluer la probabilité que le modèle ait généré toutes les observations. Si nous faisons de plus l’hypothèse que toutes les observations sont indépendantes (variables indépendantes et identiquement distribuées), alors la probabilité que le modèle ait généré l’ensemble des observations est le produit de toutes les probabilités estimées par le modèle pour chaque observation passée. Le produit mathématique de milliers de variables dont la valeur est généralement inférieure à 0,5 (dans le cas où le phénomène est relativement incertain) sera un très petit nombre. Par exemple, même en prenant un excellent modèle de prévision de la demande, quelle serait la probabilité que celui-ci puisse générer toutes les données des ventes qu’une entreprise a effectuées sur un an ? Il n’est pas simple de déterminer cette probabilité, mais on peut estimer que celle-ci doit être incroyablement faible.

Par conséquent, pour limiter ce problème de soupassement arithmétique, l’utilisation de logarithmes est nécessaire. Les logarithmes servent à transformer des produits en sommes, ce qui résout commodément le problème de soupassement arithmétique.

Définition formelle du problème d’entropie croisée

Pour deux variables aléatoires discrètes $p$ et $q$, l’entropie croisée est définie par : $$H(p, q) = -\sum_x p(x)\, \log q(x). \!$$ Cette définition n’est pas symétrique. $P$ correspond à la « vraie » distribution, uniquement partiellement observée, alors que $Q$ correspond à la distribution « non naturelle » obtenue à partir d’un modèle statistique construit. Dans la théorie de l’information, l’entropie croisée peut être vue comme la longueur attendue en bits pour les messages d’encodage, lorsque $Q$ est utilisée au lieu de $P$. Cette approche dépasse l’objet de la présente discussion et n’est pas capitale du point de vue de la logistique.

En pratique, comme $P$ est inconnue, l’entropie croisée est estimée empiriquement à partir des observations, en faisant l’hypothèse que toutes ces dernières ont la même probabilité, c’est à dire $p(x)=1/N$, où $N$ est le nombre d’observations. $$H(q) = - \frac{1}{N} \sum_x \log q(x). \!$$ Curieusement, cette formule est identique à celle de l’estimation logarithmique moyenne de la vraisemblance. L’optimisation de l’entropie croisée et l’optimisation de l’estimation logarithmique de la vraisemblance sont similaires, au niveau conceptuel et numérique.

La supériorité de l’entropie croisée

Des années 90 au début des années 2010, les professionnels des statistiques étaient convaincus que la façon la plus efficace d’optimiser purement numériquement un indicateur donné — le pourcentage d’erreur absolue moyenne par exemple — était de construire un algorithme d’optimisation spécifique à cet indicateur. Le deep learning a permis de découvrir que cette croyance était fausse. L’optimisation numérique est un problème très difficile et la plupart des indicateurs ne conviennent pas aux efforts d’optimisation numérique à grande échelle. Pendant cette même période, la science des données a montré que tous les problèmes de prévision sont en réalité des problèmes d'optimisation numérique.

Du point de vue de la logistique, il ressort que même si l'objectif de l’entreprise est d’optimiser un indicateur de prévision (le pourcentage d’erreur absolue moyenne ou l’erreur quadratique moyenne par exemple), le moyen le plus efficient consiste à optimiser l’entropie croisée. Chez Lokad, en 2017, nous avons rassemblé un nombre significatif de preuves empiriques de cette affirmation. De façon peut-être plus surprenante, l’entropie croisée permet d’obtenir de meilleurs résultats que l’indice continu de probabilité (CRPS) — autre indicateur de précision probabiliste — même si les modèles résultants sont au final évalués en fonction du CRPS.

La raison qui fait de l’entropie croisée un si bon indicateur d’optimisation numérique n’est pas totalement claire. L’un des arguments les plus convaincants, détaillé http://www.deeplearningbook.org/ici (contenu en anglais), est que l’entropie croisée fournit de grandes valeurs de gradient, particulièrement intéressantes pour la descente de gradient, qui se trouve être la méthode d’optimisation d’échelle la plus performante à l’heure actuelle.

CRPS vs. entropie croisée

En ce qui concerne la logistique, l’entropie croisée permet d’obtenir de bien meilleurs résultats que le CRPS dans le cadre de l’évaluation de prévisions probabilistes, simplement parce que les événements rares sont mieux pris en compte. Prenons un modèle probabiliste de la demande dont la moyenne est de 1 000 unités et dont la masse de la distribution est concentrée sur le segment entre 990 et 1 010. Faisons également l’hypothèse que la prochaine quantité observée pour la demande est 1 011.

Du point de vue CRPS, le modèle est relativement bon, puisque la demande observée est à 10 unités de la prévision moyenne. À l’inverse, du point de vue de l’entropie croisée, le modèle comprend une erreur infinie : il a en effet associé une probabilité nulle à l’observation d’une demande de 1 011 unités, ce qui s’est avéré incorrect. La propension du CRPS à favoriser les modèles capables de résultats du type « l’événement XY n’arrivera jamais » alors que l’événement en question arrive contribue à expliquer, du point de vue logistique, les meilleurs résultats de l’entropie croisée. Cette dernière favorise les modèles qui ne sont pas pris au dépourvu lorsque l’improbable arrive. En logistique, l’improbable arrive et, sans préparation spécifique, s’avère très coûteux.