クロスエントロピー
クロスエントロピーは、確率的予測の精度を反映するために使用できる指標です。クロスエントロピーは最尤推定と強い関連性を持っています。クロスエントロピーは現代の予測システムにとって極めて重要であり、たとえ他の指標であっても優れた予測を可能にします。サプライチェーンの観点から見ると、クロスエントロピーは希少な事象の確率を捉えるのに優れたモデルの推定を支援するため、特に重要です。この指標は、平均二乗誤差や平均絶対パーセンテージ誤差などの、より単純な精度指標に基づく直感とは大きく異なります。
頻度主義確率 vs ベイズ確率
統計を理解する一般的な方法は頻度主義確率の視点です。不確実な現象を定量的に把握しようとする場合、頻度主義では測定を何度も繰り返し、対象となる現象の発生回数を数えることでその頻度、すなわち確率を推定できます。実験を重ねるにつれて頻度が収束し、その確率はより正確に推定されるようになります。
クロスエントロピーはこの見方とは異なり、ベイズ確率の視点を採用します。ベイズの観点では、不確実な現象を定量的に把握するために、まずその現象に対する確率推定を直接出すモデルから始めます。そして、繰り返し観測を行うことで、モデルが実際の現象にどの程度適合しているかを評価します。観測回数が増えるにつれて、モデルの(不)適合性の測定が向上します。
頻度主義とベイズの両方の視点は有効で有用です。サプライチェーンの観点からすると、観測の収集はコストがかかり、またやや柔軟性に欠けるため、製品の注文生成を企業が自由にコントロールできないことから、ベイズの視点の方が実践的である場合が多いです。
クロスエントロピーの直感
クロスエントロピーの代数的定式化に踏み込む前に、その基本的な直感に光を当ててみましょう。ここで、過去の説明と未来の予測の両方を意図する確率モデル、以下単に_モデル_と呼びます、があると仮定します。過去の各観測に対して、このモデルはその観測が実際に起こったであろう確率の推定値を提供します。過去の観測すべてを暗記し、それらにちょうど1の確率を割り当てるモデルを構築することは可能ですが、そのようなモデルは未来について何も示してくれません。したがって、興味深い モデルは何らかの方法で過去を近似し、結果として過去の事象に対して1未満の確率を提示するのです。
ベイズの視点を採用することで、モデルが全ての観測を生成した確率を評価することができます。すべての観測が独立している(IID, 独立同分布である)とさらに仮定すれば、モデルが我々の手元にある観測の全体を生成した確率は、過去の各観測に対してモデルが推定した確率の積となります。
通常0.5未満である数千の変数の数学的積は、かなり不確実な現象を扱っていると仮定すると、非常に小さな数となることが予想されます。例えば、需要を予測する優れたモデルを考えた場合、このモデルが企業が1年間に観測した全ての販売データを生成する確率はどれほどになるでしょうか。この数を推定することは簡単ではありませんが、それが驚くほど小さい数であることは明らかです。
このような算術的アンダーフローと呼ばれる数値問題を軽減するために、対数が導入されます。直感的には、対数は積を和に変換するため、算術的アンダーフローの問題に対処するのに便利です。
クロスエントロピーの形式的定義
2つの離散確率変数 $${p}$$ と $${q}$$ に対して、クロスエントロピーは次のように定義されます:
この定義は対称ではありません。$${P}$$ は部分的にしか観測されない「真の」分布を意図し、$${Q}$$ は構築された統計モデルから得られる「人工的な」分布を意図します。
情報理論において、クロスエントロピーは、$${P}$$ の代わりに $${Q}$$ を用いた場合のメッセージの符号化に必要なビット数の期待値として解釈されることがあります。この観点は本議論の範囲を超えており、サプライチェーンの観点からは主要な重要性を持ちません。
実際には、$${P}$$ が未知であるため、クロスエントロピーは観測値から経験的に推定されます。これは、収集されたすべての観測が同じ確率である、すなわち $${p(x)=1/N}$$(ここで $${N}$$ は観測数)と仮定することで行われます。
興味深いことに、この式は平均対数尤度推定と同一です。クロスエントロピーと対数尤度の最適化は、本質的に、概念的にも数値的にも同じことです。
クロスエントロピーの優位性
1990年代から2010年代初頭にかけて、多くの統計学コミュニティは、MAPE(平均絶対パーセンテージ誤差)などの与えられた指標を最適化する最も効率的な方法は、その指標に直接対応した最適化アルゴリズムを構築することだと信じていました。しかし、ディープ-ラーニングコミュニティによって得られた、重要でありながら直感に反する洞察は、そうではなかったということを示しています。数値最適化は非常に困難な問題であり、ほとんどの指標は効率的で大規模な数値最適化の取り組みに適していません。また同じ時期に、サプライチェーン-サイエンティストコミュニティ全体が、全ての予測/予知問題は実際には数値最適化問題であるということに気づき始めました。
サプライチェーンの観点からの結論は、たとえ企業の目標がMAPEやMSE(平均二乗誤差)のような予測指標の最適化であったとしても、実際には最も効率的な方法はクロスエントロピーの最適化であるということです。Lokadでは、2017年にこの主張を裏付ける多くの実証的証拠を収集しました。さらに驚くべきことに、クロスエントロピーは、最終的な評価がCRPSで行われる場合でも、別の確率的精度指標であるCRPSを上回る結果を示しています。
なぜクロスエントロピーが数値最適化にとってこれほど優れた指標となるのかは完全には明らかではありません。Ian Goodfellow et allで詳述された最も説得力のある議論の一つは、クロスエントロピーが非常に大きな勾配値を提供するという点です。これは、現在最も成功しているスケール最適化手法である差分可能-プログラミングにとって特に価値があります。
CRPS vs クロスエントロピー
サプライチェーンの観点では、クロスエントロピーは確率的予測の指標としてCRPSを大きく上回ります。なぜなら、クロスエントロピーは希少な事象に対してより大きな重点を置くからです。例えば、平均が1000ユニットで、分布の全体が990から1010の区間に集中している需要の確率モデルを考えてみましょう。さらに、次に観測された需要の数量が1011であると仮定します。
CRPSの観点からは、観測された需要は平均予測から約10ユニット離れているため、モデルは比較的良好と評価されます。対照的に、クロスエントロピーの観点では、モデルには無限の誤差が生じます。つまり、モデルは1011ユニットの需要が観測される確率がゼロであると予測しており、これは非常に強い主張ですが、実際には1011ユニットが観測されたことで事実と反していることが示されました。
CRPSが「事象XYは決して起こらない」といった極端な主張を行うモデルを好む傾向にあることは、サプライチェーンの観点からクロスエントロピーがより良い結果をもたらす理由を大いに説明しています。クロスエントロピーは、いわば予期せぬ事態が発生した際に驚かされないモデルを評価するのです。サプライチェーンにおいては、予期せぬ事態は実際に発生し、事前準備なしに対処する場合、その対応は非常に高コストとなります。