Indice continu de probabilité (CRPS)

Notebook-as-a-book illustration







Par Joannes Vermorel, juin 2016

Les prévisions probabilistes attribuent une probabilité à chaque futur possible. Cependant, toutes les prévisions probabilistes ne se valent pas et il est utile d’être en mesure d’évaluer leur exactitude respective. Des mesures simples de l’exactitude telles que l’erreur absolue moyenne (MAE) ou l’erreur absolue moyenne en pourcentage (MAPE) ne sont pas directement applicables aux prévisions probabilistes. L’indice continu de probabilité (CRPS) généralise la MAE au cas des prévisions probabilistes. Avec l'entropie croisée, le CRPS est une des mesures d’exactitude les plus largement utilisées dans ce domaine.

Synthèse

Le CRPS est fréquemment utilisé pour évaluer l’exactitude respective de deux modèles de prévisions probabilistes. Cette mesure peut notamment se combiner à un processus de backtesting pour stabiliser l’évaluation de l’exactitude en exploitant plusieurs mesures issues des mêmes données.

Elle diffère de mesures plus simples telles que la MAE de par son expression asymétrique : tandis que les prévisions sont probabilistes, les observations sont déterministes. À la différence de la fonction de perte pinball, le CRPS n’est pas axé sur un point spécifique de la distribution des probabilités mais sur cette dernière dans son ensemble.

Définition formelle

$X$ est une variable aléatoire.

$F$ est la fonction de distribution cumulative (FDC) de $X$, telle que $F(y)=\mathbf{P}\left[X \leq y\right]$.

$X$ est l’observation et $F$ la FDC associée à une prévision probabiliste empirique.

Le CRPS entre $x$ et $F$ est défini comme suit : $$CRPS(F, x) = \int_{-\infty}^{\infty}\Big(F(y)- 𝟙(y - x)\Big)^2dy$$ Où $𝟙$ est la fonction de Heaviside et correspond à une fonction échelon prenant :

  • la valeur 1 pour tous les réels positifs et nuls ;
  • la valeur 0 dans les autres cas.

Le CRPS est exprimé dans la même unité que la variable observée. Le CRPS généralise l’erreur absolue moyenne. En fait, il revient à la MAE si les prévisions sont déterministes.

Syntaxe Envision

Le langage de script de Lokad prend en charge le calcul du CRPS au moyen de la fonction crps() :
Accuracy = crps(Z, X)
Z doit être une distribution qui représente les prévisions probabilistes et X un nombre qui représente les valeurs observées.

Propriétés connues

Gneiting et Raftery (2004) ont montré que l’indice continu de probabilité est équivalent à : $$CRPS(F,x) = \mathbf{E}\Big[|X-x|\Big]-\frac{1}{2}\mathbf{E}\Big[|X-X^*|\Big]$$ Avec :
  • $X$ et $X^*$ copies indépendantes d’une variable linéaire aléatoire ;
  • $X$ variable aléatoire associée à la fonction cumulative de distribution $F$ ;
  • $\mathbf{E}[X]$ valeur attendue de $X$.

Évaluation numérique

D’un point de vue numérique, une façon simple de calculer le CPRS consiste à décomposer l'intégral original en deux intégraux sur des intervalles choisis pour simplifier la fonction de Heaviside. On obtient alors : $$CRPS(F, x) = \int_{-\infty}^x F(y)^2dy + \int_x^{\infty}\Big(F(y)- 1\Big)^2dy$$ En pratique, $F$ étant une distribution empirique obtenue grâce à un modèle de prévision, la variable aléatoire correspondante $X$ a un support compact, c’est à dire, seulement un nombre fini de points pour lesquels $\mathbf{P}[X = x] \gt 0$. Les intégraux peuvent ainsi être transformés en sommes discrètes finies.

Références

  • Gneiting, T. and Raftery, A. E. (2004). Strictly proper scoring rules, prediction, and estimation. Technical Report no. 463, Département de Statistique, Université de Washington, Seattle, Washington, États-Unis.