Funzione di perdita pinball

di Joannès Vermorel, Febbraio 2012

La funzione di perdita pinball, chiamata anche perdita di quantile, è un indicatore utilizzato per valutare l'accuratezza di una previsione quantilica.

Valutare l'accuratezza di una previsione quantilica è una sfida, perché, contrariamente alle previsioni tradizionali, dove l'obiettivo è che la previsione sia il più possibile vicina ai valori osservati, le previsioni quantiliche si basano su una situazione in cui viene introdotto di proposito un errore sistematico, o bias. Sarebbe quindi troppo semplicistico confrontare la situazione osservata con le previsioni. La funzione di perdita pinball restituisce dei valori che possono essere interpretati come un indice dell'accuratezza di un modello di previsione quantilica.

Formula

Sia $\tau$ il quantile desiderato, $y$ il valore reale e $z$ la previsione quantilica. Allora $L_\tau$, la funzione di perdita pinball, potrà essere scritta come segue:

$$ \begin{eqnarray} L_{\tau}(y,z) & = & (y - z) \tau & \textrm{ if } y \geq z \\\ & = & (z - y) (1 - \tau) & \textrm{ if } z > y \end{eqnarray} $$

Scarica: pinball-loss-function.xlsx

Il foglio di calcolo mostra come calcolare la funzione di perdita pinball con Microsoft Excel. La formula vera e propria non è molto più complicata di altri indicatori di accuratezza, come il MAPE.

Illustrazione

Grafico della funzione di perdita pinball

La funzione di perdita pinball (in rosso) è chiamata così per via della sua forma, che ricorda la traiettoria della pallina di un flipper (pinball in inglese). La funzione è sempre positiva. Più ci allontaniamo da $y$, maggiore sarà il valore di $L_\tau(y,z)$. L'inclinazione è usata per riflettere lo squilibrio desiderato nella previsione quantilica.

I migliori modelli quantilici hanno una bassa perdita pinball

Il risultato più importante associato alla funzione di perdita pinball è che più è bassa la perdita pinball, più accurata è la previsione.

Possiamo provare che il quantile ottimale può essere ottenuto anche con la funzione che minimizza la perdita pinball. Tuttavia, la dimostrazione richiederebbe un livello di formalismo ben al di là dello scopo di questo articolo.

Pertanto, per confrontare l'accuratezza di due diversi modelli di previsione (ad esempio, il modello di Lokad contro quello di un altro sistema), è sufficiente calcolare la perdita pinball media in ogni modello, su un insieme di serie temporali abbastanza grande da assicurarci che la differenza osservata sia statisticamente rilevante - qualche centinaio di serie temporali basteranno a stabilire quale dei modelli sia il più accurato.

Cosa propone Lokad

A nostro giudizio, la presunta semplicità del concetto di accuratezza per le previsioni tradizionali (medie, quindi) è piuttosto sopravvalutata. Le previsioni, che siano medie o quantiliche, sono soggette al fenomeno dell'overfitting, che complica significativamente il confronto tra diversi modelli di previsione. La funzione di perdita pinball costituisce, però, un modo molto semplice per valutare l'accuratezza relativa di due modelli di previsione quantilica.

Leggi anche

  • Sequential Quantile Prediction of Time Series, marzo 2011, di Gerard Biau e Benoit Patra, Information Theory, IEEE Transactions
  • Continuous Ranked Probability Score (CRPS), una generalizzazione della funzione di perdita pinball per le previsioni probabilistiche