分位回帰

learn menu
Joannès Vermorelによる、2012年2月

分位回帰は、結果にわざとバイアスを導入する回帰(つまり、予測)の一種です。予測する変数の平均値を求める代わりに、分位回帰は中央値とその他の分位数(時には「パーセンタイル」とも呼ばれる)を求めます。分位数は、在庫最適化においてリオーダーポイントを計算するための直接的な方法として特に有用です。

回帰はここでは予測の同義語です。“回帰"は数学的なアプローチを強調し、“予測"は結果の実用的な使用法を強調します。

分位回帰の概念は比較的高度な統計的トピックですが、この記事の目的は、小売業や製造業の実務家向けに、このトピックについて厳密な取り扱いには踏み込まず、(比較的)直感的な導入を行うことです。

分位数の視覚的なイラスト

下位と上位の分位数の時系列と平均予測の時系列が並んでいます。

上記のグラフは、3つの異なる予測を示しています:

  • 赤色は75%の分位数の予測です。
  • 黒色は平均予測です。
  • 緑色は25%の分位数の予測です。

視覚的には、分位数は信頼区間とほぼ同じように振る舞います。ただし、実際には分位数は単一の目標パーセンテージに対してのみ必要です。

将来の需要の分位数(またはパーセンタイル)

古典的で最も直感的な予測は平均予測です:過剰予測と不足予測の重みは等しくする必要があります。そうでない場合、予測はバイアスがかかっています(より正確には、平均に対してバイアスがかかっています)。

予測がバイアスがかかっていないことは望ましい特性ですが、予測の正確さについては何も示しません。特に、予測はバイアスがかかっていないのにもかかわらず広範に不正確である場合があります。バイアスは、将来の推定値が過大または過小になる傾向を予測モデルが持つことを指すだけです。

このビジョンの最初の改善は中央値予測です:過剰予測と不足予測の頻度は等しくする必要があります。そうでない場合、予測は中央値に対してバイアスがかかっています

この時点で、バイアスがかかっていない予測の概念を等しい重みから等しい確率へと移行させています。この移行は微妙ですが、一部の状況では数値的な影響が大きい場合があります。

イラスト:アメリカの平均と中央値の世帯収入

世帯収入は平均と中央値の間に深い違いを示しています。

米国国勢調査局によると、2004年における中央値世帯収入は44,389ドルであり、同じ年における平均収入は60,528ドルであり、中央値よりも約40%高いです。

この差異は、最も裕福な米国の世帯の高い収入(比較的に)と、その他の人口との比較によるものです。平均と中央値の間のこのような差異は、対称的でないすべての分布、通常は正規分布に従わないすべての分布で見られます。

中央値の一般化

中央値は分布が50/50の確率で分割される閾値を表します。しかし、他の頻度比率を考慮することも可能です。たとえば、80/20や90/10など、合計が100%になる他の比率を考慮することができます。

分位数は、任意のパーセンテージに対する中央値の一般化を表します。τ(0から1の値)に対して、分位数回帰Q(τ)は、閾値よりも低い値を観測する確率がちょうどτである閾値を表します。

分位数予測

古典的な予測と分位数予測は、時系列を入力としています。時系列は入力データを表します。データに加えて、古典的な平均時系列予測には2つの追加の構造設定が必要です:

  • 期間(日、週、月など)
  • 予測期間(予測する期間の数を表す整数)

暗黙的に、時系列は_期間_に従って集計され、予測期間は実用的な目的に十分に大きく選択されます。通常、リードタイムよりも大きいです。

平均予測は非常に便利な特性を持っています:予測を合計することは数学的に正しいです。たとえば、y1、y2、y3、およびy4が4週先の予測を表す場合、次の2週間の需要の期待値が必要な場合、y1+y2を合計することができます。

しかし、分位数予測を合計することは数学的に正しくありません。より正確には、分位数の合計は合計の分位数(セグメントの合計)を与えません。

分位数を合計できない理由を説明しましょう。週に1ドルのコインをスロットマシンに入れるギャンブラーがいるとします。当選確率は1%であり、賞金は50ドルであり、それ以外はゼロとします。期待報酬の99%分位数を見ると、毎週50ドルの報酬があります。しかし、2週間の99%分位数を見ると、期待報酬は依然として50ドルです。実際には、2回当選する確率は0.01%(1%に1%を乗じたもの)であり、したがって99%分位数は変わりません。2週間の99%週次分位数を合計すると100ドルになりますが、実際には99%の分位数の利益を100ドル蓄積するには16週間かかります(この数値結果の証明は、この記事の範囲を超えるため、提供されていません)。

分位数予測を合計することができないため、分位数時系列予測は期間集計の概念自体を再考する必要があります。実際、期間ごとの分位数予測を生成することは無意味です。なぜなら、これらの基本的な予測は、正しい分位数をセグメント全体で生成するために組み合わせることができないからです。

したがって、_分位数_時系列予測には異なる構造があります:

  • 目標の分位数であるτ(パーセンテージ)
  • 予測期間であるλ(通常は日数で表される期間)

たとえば、時系列が製品Aの販売を表しており、設定値がτ=0.90、λ=14日の場合、分位数予測(τ, λ)は、14日間の総需要よりも大きい確率が90%である需要値を返します(同じ14日間の需要よりも低い確率が10%である)。

通常の予測とは異なり、分位数予測は、期間に関係なく時系列ごとに1つの値のみを生成します。ある程度まで、分位数予測は、通常の予測よりも期間に依存しないです。

Lokadの注意点

一見すると、分位数予測は通常の予測よりもやや複雑に見えるかもしれません。しかし、多くの実生活の状況では、実務者はまず平均予測を生成し、それをすぐに分位数予測に外挿することがあります。通常、予測が正規分布に従うと仮定します。しかし、この外挿ステップは、プロセスの最も弱いリンクであり、最終的な結果を著しく悪化させる可能性があります。予測技術は、実践的な要件に適応する必要があります。つまり、ネイティブの分位数予測を提供することであり、逆ではありません。

追加の参考文献