私たちの過学習に関するビデオは、公開されてから5年前、すなわちLokadのようなスタートアップにとっては半世紀前の出来事でした。何年も経ち、多くの進展がありましたが、過学習は依然として困難な課題です。

要するに、過学習とは、あなたの予測モデルが過去を予測する際にだけ正確で、未来を予測する際には正確でないというリスクを意味するのです。良い予測モデルは、存在しないデータをも正確に予測できるべきです。

一般的な誤解として、モデルを評価する方法は、過去のデータに対するパフォーマンスをチェックする以外にないという考えがあります。確かに、過去のデータは活用されるべきですが、もしVapnik-Chervonenkis理論から覚えておくべき一つの洞察があるとすれば、それはすべてのモデルが平等に生まれるわけではなく、あるモデルは他のモデルに比べ、ずっと多くの_構造的リスク_ - 理論の一部の概念を抱えているということです。モデルの全クラスが純粋な理論的視点から安全または危険とみなされ、それが実際の精度向上に直結するのです.

過学習の問題は完全に回避することはできませんが、それでも軽減することは可能です.

過学習を軽減する方法はいくつかあります。まず、絶対に破ってはならないルールは、予測モデルはそもそもモデルの訓練に使用されたデータに対して評価されるべきではないということです。多くのツールキットは、全履歴に対して回帰分析を行い、その後全体の_フィット_を推定します。名前が示す通り、そのようなプロセスは_フィット_を得るに過ぎず、それ以上のことは示しません。特に、フィットは期待される精度の指標として解釈されるべきではなく、_そうではない_のです。フィットは通常、本当の精度よりも_はるかに低い_値となります.

次に、過学習を軽減するための簡単な方法の一つは、大規模なバックテストを実施することです。実際には、プロセスが入力データセットを何十回、あるいは場合によっては何百回にもわたる逐次的な日付の閾値に分割し、そのたびにすべての予測モデルを再訓練し再評価する必要があることを意味します。バックテストには大量の処理能力が必要です。大規模なバックテストを実施するために必要な莫大な処理能力を割り当てることができたのは、実際、Lokadがクラウドコンピューティングへ移行した主な理由の一つでした.

第三に、もしあなたの時系列が希薄、すなわち時系列が低売上のアイテムを表している場合、どんなに大規模なバックテストもほとんど意味がありません。実際、時系列のほとんどのデータポイントがゼロであるため、バックテストはゼロを繰り返すだけでほとんど何も学びません。残念ながら、商取引においては、販売またはサービスを受けるアイテムのおよそ90%が、統計的に_希薄な_需要履歴を持っています。この問題に対処するため、モデルのパフォーマンスは複数の時系列の視点で評価されるべきです。重要なのは単一の時系列でのモデルのパフォーマンスではなく、十分に定義された時系列のクラスターにおけるパフォーマンスです。そして、最良のモデルを選ぶ際には、_局所的_な精度と_全体的_な精度とのバランスが求められます.

ご質問はありますか? コメントとしてお気軽に投稿してください。


読者のコメント (2)

Shaun, バックテストは統計学において非常に基本的なツールです。金融、気象、輸送、エネルギーなど、ほぼすべての分野で何十年も使用されてきました。バックテストは「信頼」を必要とせず、予測プロセスの精度を評価するために知られている唯一の確固たる手法であり、この分野には膨大な文献が存在します。入門としては、ぜひ"Elements of statistical learning"を読み始めると良いでしょう Joannes Vermorel (4 years ago)


Joannes, これは非常に興味深いです。しかし、クライアントにどのように説明すればよいのか、正直困っています. 私の理解が正しければ、Lokadではバックテストを実施できるということですが、しかしながら、バックテスト――読んでみるとこれは機械学習の一形態――を用いる場合、実際に何が行われたのかを説明するのは大きな課題ではないでしょうか?もしそれが高度なアルゴリズムになったとすれば、基本的にはその動作を信頼するしかなくなるのではないでしょうか?もちろん、これはLokadの主要な焦点であり、皆さんも多くの考慮を重ねていることは承知しています。しかし、その仕組みの詳細を理解できる企業の層は限られていると思います。では、Lokadは過去に実施した各社での研究結果――すなわち、このバックテストの正味の利益を示すもの――に依存しているのでしょうか? では、Lokadは過去に実施した各社での研究結果――すなわち、このバックテストの正味の利益を示すもの――に依存しているのでしょうか? Shaun Snapp (4 years ago)