既に述べたように、予測の核心は 手元にないデータに対しても正確なモデルを構築する ことです。しかしながら、一見すると、これはまたもや狂気の数学者の発想のように見えます。奇妙でありながら、全く実用的ではありません。

しかし、私たちの経験では、本当の 予測精度 を測定することは、実際の ビジネス問題です。これに失敗すると費用がかかります。実際、企業が大きいほど、そのコストは大きくなります。

それでも、本当の予測誤差について把握できていますか?

最新の9分間のスライドキャストをご覧ください(スクリプトは以下に貼り付けています)。

youtube video

スライドキャストのスクリプト:

過剰適合:予測が示す精度ほど良くないかもしれません

小売、製造、サービスなど、多くの業界において予測精度は極めて重要です。顧客需要を過大に予測すると、スタッフや在庫が過剰になり、コストが急増します。しかし、顧客需要を過小に予測すると、顧客はあなたの製品を購入できなかったり、サービスを受けるまでに長時間待たされたりして、怒りを覚えます。

このスライドキャストでは、過剰適合 と呼ばれる、あまり知られていない予測における問題を紹介します。

この問題があまり知られていない理由は2つあります。第一に、それは微妙な問題であり、多くの面で明らかでなく、直感に反する点があるからです。第二に、19世紀以来、数学者を悩ませ続けてきた問題であるためです。理論的にも実践的にも、この問題を本当に理解し始めたのは、90年代の終わり、つまり僅か10年以上前からです。

これ以上話を進める前に結論を述べましょう。過剰適合は予測に非常に大きな影響を及ぼします。過剰適合のために、実際は20%の予測誤差があるのに、10%の誤差しかないと錯覚してしまうことがあります。これは決して軽視できる状況ではありません。

過剰適合は実際のビジネス問題です。過剰適合は費用がかかります。

さらに、過剰適合に対する抜け穴はありません。現代の統計理論はこの概念の上に成り立っています。どのような統計学のアプローチを採用しても、過剰適合は中心的な役割を果たしており、今後も付きまとう問題です。

重要な問題は、予測精度が実際に何を意味するのかを定義することです。

直感的には、予測精度を測定する最も簡単な方法は、予測を行い、予測した事象が実際に起こるのを待つことです。そして、その予測と対応する結果を比較するというものです。

しかし、この方法には大きな欠点があります。それは、過去の予測の精度しか示さないという点です。ビジネスの視点からは、過去の予測が良かったか悪かったかはあまり重要ではありません。なぜなら、いずれにせよ変更できないからです。本当に重要なのは、これからの予測が真に正確であることを保証することです。

さらにもう一つ問題があります。予測を作成する際に用いる手法が、一つの予測から次の予測へと厳密に同一でなければ、過去の精度が将来の精度を示す信頼できる指標として使えるとは考えにくいのです。

18世紀以来、数学者たちは統計モデルの概念を導入してきました。一般に信じられているように、統計モデルの主要な側面は良い予測や悪い予測を提供することではなく、再現可能な予測を提供することにあります。

統計モデルを用いると、予測の自動生成プロセスが得られます。これにより予測が必ずしも良い結果になるわけではありませんが、もし予測が不十分であった場合には、モデルをさらに分析することが可能です。

以下のサンプル時系列を考えてみましょう。連続する統計モデルを検証することで、過剰適合の問題を説明します。

まず、単純な線形モデルから始めます。ご覧の通り、この直線は時系列のデータ点にうまく適合していません。その結果、50%以上という大きな誤差が生じています。このモデルはデータにうまく合っていないのです。

次に、モデルの複雑さを増すことができます。今回は、局所的な時系列の平均に近い形状を持つモデルとなりました。この新しいモデルは前のモデルよりも遥かに良好で、誤差も5分の1に減少し、現在は10%に達しています。

このモデルは良好ですが、更なる誤差の低減は可能でしょうか?答えは単純です。はい、1%未満の誤差を達成するモデルを作ることは可能です。

ご覧の通り、これはかなり容易です。時系列のほぼ全ての点を通過するモデルを設計すれば良いのです。

しかし、このモデルが将来の予測に対して1%の精度を発揮すると本当に信頼できるでしょうか?もちろん、信頼はできません!このモデルは、過去のごく小さなランダムな変動を微調整しているだけです。直感的にも、真のランダム性を予測することは不可能であり、予測できるのは傾向や季節性といったパターンに限られます。

さて、最後の二つのモデルを比較すると明らかな問題が浮かび上がります。誤差指標によれば、右側のモデル(1%の誤差のモデル)は、左側のモデルの10倍も良いと評価されます。

しかし、実際には最適なモデルは左側のものであることは明らかです。このモデルは時系列のランダムな変動を平滑化しています。

したがって、誤差を測る方法に何か問題があることになります。この誤差は、前述のグラフィックスで示されるように、実測誤差(経験的誤差)として知られています。これは、過去のデータに基づいて測定される誤差なのです。

しかし、本当に関心があるのは実際の誤差と呼ばれるものであり、これは手元にない、つまり将来のデータに対する予測モデルの誤差として定義されます。

しかし、この定義は完全なパラドックスのように見えます。なぜなら、そもそもデータが存在しないのに、どうやって何かを測定できるのでしょうか!

19世紀以来、統計学者たちはバイアス・分散トレードオフとして知られる手法を通じて、この問題に取り組んできました。

今回扱う3つのモデルを見ると、線形モデルは高いバイアスを持っていると言えます。どの線形モデルを選んでも、データ自体が線形分布していない限り、データに真正に適合することはあり得ません。しかし、ほとんどの場合、線形モデルは単にデータ分布の近似に留まります。

また、線形モデルは低い分散を示します。直感的に、時系列に1つのデータ点を追加または削除しても、結果のモデルに大きな影響は与えません。このモデルは非常に安定しています。

一方、右側のモデルは非常に低いバイアス、つまり逆に言えば、時系列のほとんどのデータ点に対しては過剰適合しています。しかし、分散は非常に高く、データ点を1つ追加または削除するだけで大きな変動が生じる可能性があり、全く安定性がありません。

中央のモデルはバイアスと分散の両方をバランスよく取っており、これこそが理想的な方向性に見えます。

しかし、バイアスと分散のアプローチの主な問題は、手元にないデータ、つまり未来のデータに対する実際の誤差が実際にどうなっているのか、我々が依然として全く見当がつかない点にあります。

このトレードオフは、多くの場合、真の統計学的基準というよりも、経験則に基づくものです。

90年代後半以降、統計的予測 を含む広範な理論である統計学習の分野は、理論的にも実践的にも大きな進展を遂げました。

この理論は複雑ですが、シンプルな方程式がその結果についての大きな洞察を与えてくれます。この理論によれば、実際の誤差は経験的誤差と構造的リスクと呼ばれる別の値の和によって上から抑えられることが示されています。

前述の通り、経験的誤差は過去のデータに基づいて測定される誤差に過ぎません。

構造的リスクは、特定のクラスのモデルに対しては明示的に計算でき、他の多くのクラスでは推定可能な理論的基準です。

最初の例に戻ると、モデルの複雑さに伴い構造的リスクが増大することがわかります。

これらの構造的リスクを定量化すると、次のような見通しが得られます。

実際の誤差、その値は直接測定することはできませんが、中央のモデルが実際の誤差の上限が最も低いことがわかります。

統計学習理論は実際の誤差の値そのものを示すのではなく、上限を提示します。そして、重要なのはその上限が最も低いモデルを選ぶことです。

この上限は実際の誤差の最大値として機能します。

バイアス・分散トレードオフと比較すると、統計学習理論は実際の誤差の定量的な見積もりを提供していることがわかります。

構造的リスクは実際のところ推定が難しいですが、現時点では過剰適合を回避するための最良の解決策とされています。

既に述べたように、過剰適合問題が起こる明らかな一因はモデルの複雑さを増すことです。

しかし、過剰適合問題に陥るもう一つの、より微妙な原因があります。それは、データの複雑さが増すことで起こり得るのです。

データに追加の点を加えることは通常過剰適合問題を軽減しますが、データに余分な次元を追加し始めると、モデル自体が変わらなくても過剰適合問題に陥る可能性が高いです。

Lokadでの私たちの経験上、年々増加するデータ入力により自社の予測モデルを洗練させる組織では、モデル内に潜む構造的リスクに明示的に対処することなく、この状況に頻繁に直面しています。

高次元では、線形モデルであっても過剰適合問題の影響を受けます。

これで、過剰適合に関するこの短いプレゼンテーションは終了です。覚えておくべき一つのことは、構造的リスクを考慮に入れなければ、予測誤差の測定が非常に誤解を招くものであり、企業が大きいほどそのコストは増大するということです。

ご関心をお寄せいただき、誠にありがとうございます。ご質問がございましたら、フォーラムで喜んでお答えいたします。


読者コメント (9)

興味深いスライドショー Mark (3 year ago)


わあ、素晴らしいビデオですね。過剰適合を理解する手助けをしてくれてありがとうございます。 Melford McRae (4 years ago)


ちなみに、いくつかのブラウザでスライドショーを閲覧しようと試みましたが、全く表示されません。読み込みが全く進まないようです。Lokadの方で問題を確認していただけませんか? Shaun Snapp (4 years ago)


動作する新しいビデオを投稿したところです。 Joannes Vermorel (4 years ago)


SlideShareは長年にわたりコンテンツの管理を行わなかったようです :-( こちらがオーディオファイル https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.mp3 とPowerPointファイル https://media.lokad.com/videos/2009-04-21-overfitting/overfitting.pptx です。これら二つを統合してYouTubeビデオに作り直します。 Joannes Vermorel (4 years ago)


これは非常に厄介な問題です。予測モデルを測定する方法は、その過去の実績を確認する以外にありませんが、”最良の精度”を得るために過剰適合してしまう傾向があります。もし多くの企業が購入した予測システムで最適化手法を用いるか、実際にモデルを調整していたならば、これはさらに大きな問題となるでしょう。最適化手法を用いる際に過剰適合を防ぐ方法について議論していただけるとありがたいです。 Shaun Snapp (4 years ago)


https://blog.lokad.com/journal/2014/5/20/how-to-mitigate-overfitting-when-forecasting-demand にて追記した回答を投稿しました。お役に立てれば幸いです! Joannes Vermorel (4 years ago)


スライドショーありがとうございます。数学的な詳細に立ち入らずとも、過剰適合を理解するのに役立ちました。 Shyam Prasad Murarka (8 years ago)


スライドショーをありがとうございます。 Abhishek (8 years ago)