ピンボール損失関数

learn menu
Joannès Vermorelによる、2012年2月

ピンボール損失関数、または分位点損失とも呼ばれるものは、分位点予測の正確性を評価するために使用される指標です。

分位点予測正確性を評価することは微妙な問題です。実際、古典的な予測では予測値を観測値にできるだけ近づけることが目標ですが、分位点予測では意図的に_バイアス_がかかっています。したがって、単純な比較観測値 vs 予測値は満足のいくものではありません。ピンボール損失関数は、分位点予測モデルの_正確性_を示す値を返します。

公式

$$\tau$$を目標分位点、$$y$$を実際の値、$$z$$を分位点予測とすると、ピンボール損失関数$$L_\tau$$は次のように書くことができます:

$${ \begin{eqnarray} L_{\tau}(y,z) & = & (y - z) \tau & \textrm{ if } y \geq z \\\ & = & (z - y) (1 - \tau) & \textrm{ if } z > y \end{eqnarray} }$$

ダウンロード: pinball-loss-function.xlsx

スプレッドシートでは、Microsoft Excel内でピンボール損失関数を計算する方法が示されています。実際の式は、MAPEなどのほとんどの正確性指標と同じくらい複雑ではありません。

イラスト

/pinball-loss-function

ピンボール損失関数(赤色)は、ピンボールの軌跡に似た形状から名前が付けられています。この関数は常に正の値であり、目標$$y$$から遠ざかるほど、$$L_\tau(y,z)$$の値は大きくなります。傾きは、分位点予測の望ましい不均衡を反映するために使用されます。

ピンボール損失が最も低い分位点モデルが最も正確

ピンボール損失関数に関連する最も重要な結果は、ピンボール損失が低いほど、分位点予測がより正確になるということです。

ピンボール損失を最小化する関数は、最適な分位点をも提供することが証明されています。ただし、この証明に必要な形式主義は、この記事の範囲を超えています。

したがって、2つの分位点モデル(例:Lokad vs その他)の相対的な正確さを比較するためには、各モデルの平均ピンボール損失を計算するだけで十分です。観察された差が統計的に有意であることを確認するために、十分に大きな数の時系列でモデルの平均ピンボール損失を計算します。実際には、数百の時系列が最も正確な分位点モデルを評価するのに十分です。

Lokadの落とし穴

古典的な予測(つまり、平均予測)の正確さの概念の単純さは、私たちの意見では大いに過大評価されています。予測、平均予測と分位点予測の両方が過学習の影響を受けるため、予測モデルの比較は非常に複雑になります。しかし、ピンボール損失関数は、2つの分位点予測モデルの相対的な正確さを評価する非常にシンプルな方法です。

さらなる読み物