ピンボール損失関数

learn menu
By Joannès Vermorel, February 2012

ピンボール損失関数、または分位点損失とも呼ばれるものは、分位点予測の正確性を評価するために使用される指標です。

分位点予測正確性を評価することは微妙な問題です。実際、クラシックな予測とは異なり、予測値を観測値にできるだけ近づけることが目標ではなく、分位点予測では意図的に_バイアス_がかけられています。したがって、単純な比較観測値 vs 予測値は満足のいくものではありません。ピンボール損失関数は、分位点予測モデルの_正確性_を示す値を返します。

公式

$$\tau$$を目標分位点、$$y$$を実際の値、$$z$$を分位点予測とすると、ピンボール損失関数$$L_\tau$$は次のように書くことができます:

$${ \begin{eqnarray} L_{\tau}(y,z) & = & (y - z) \tau & \textrm{ if } y \geq z \\\ & = & (z - y) (1 - \tau) & \textrm{ if } z > y \end{eqnarray} }$$

ダウンロード: pinball-loss-function.xlsx

このスプレッドシートは、Microsoft Excel内でピンボール損失関数を計算する方法を示しています。実際の式は、MAPEなどのほとんどの正確性指標と同じくらい複雑ではありません。

イラスト

/pinball-loss-function

ピンボール損失関数(赤色)は、ピンボールの軌跡に似た形状から名前が付けられています。この関数は常に正の値であり、目標値$$y$$から遠ざかるほど、$$L_\tau(y,z)$$の値は大きくなります。傾きは、分位点予測の望ましい不均衡を反映するために使用されます。

ピンボール損失が最も低い分位点モデルが最も正確

ピンボール損失関数に関連する最も重要な結果は、ピンボール損失が低いほど、分位点予測がより正確になるということです。

ピンボール損失を最小化する関数が最適な分位点を提供することも証明できます。ただし、証明に必要な形式主義は、この記事の範囲を超えています。

したがって、2つの分位点モデル(例:Lokad vs その他)の相対的な正確さを比較するためには、十分な数の時系列で各モデルの平均ピンボール損失を計算することが十分です。観測された差が統計的に有意であることを確認するために、実際には数百の時系列が十分です。実際には、どの分位点モデルが最も正確であるかを評価するのに十分です。

Lokadの落とし穴

古典的な予測(つまり、平均予測)の正確さの概念の単純さは、私たちの意見では大いに過大評価されています。予測、平均値と分位点の両方において、過学習の影響を受けるため、予測モデルの比較は非常に複雑になります。しかし、ピンボール損失関数は、2つの分位点予測モデルの相対的な正確さを評価する非常にシンプルな方法です。

追加の参考文献