一般化(予測)

learn menu
By Joannes Vermorel, March 2023

一般化とは、アルゴリズムが以前に見たことのないデータでもうまく機能するモデルを生成する能力です。一般化は、ほとんどの意思決定が将来を予測することを反映しているサプライチェーンにとって非常に重要です。予測の文脈では、データは未知のものです。なぜなら、モデルは未来のイベントを予測し、それらは観測できないからです。1990年代以降、一般化の分野で理論的および実践的な進展が大きくなされてきましたが、真の一般化はまだ手に入りません。一般化の問題の完全な解決は、人工一般知能の問題とあまり変わらないかもしれません。さらに、サプライチェーンは、主流の一般化の課題に加えて、独自の多くの難問を抱えています。

一連の観測を「フィッティング」しようとする3つの異なる試みを描いた合成グラフ。

パラドックスの概要

手元のデータで完璧に機能するモデルを作成することは簡単です。データセットを完全に記憶し、データセット自体を使用してデータセットに関する任意のクエリに答えるだけです。コンピュータは大量のデータセットを記録するのが得意なので、そのようなモデルを作成することは簡単です。ただし、既に観測されたものを超えた予測力がモデルにあることが重要ですので、通常は無意味です1

一見避けられないパラドックスが現れます: 良いモデルとは、現在利用できないデータでうまく機能するモデルのことですが、定義上、データが利用できない場合、観測者は評価を行うことができません。したがって、「一般化」という用語は、モデルが構築された時点で利用可能な観測を超えてその関連性と品質を保持する能力を指します。

観測を記憶することは不適切なモデリング戦略として却下できますが、モデルを作成するための代替戦略は同じ問題に直面する可能性があります。現在利用可能なデータでモデルがうまく機能するように見えるかどうかに関わらず、それが偶然の一致である可能性が常にあります。さらに悪い場合は、モデリング戦略の欠陥です。最初は周辺的な統計的パラドックスに見えるかもしれませんが、実際には広範な問題です。

1979年、米国の資本市場を規制する機関であるSEC(証券取引委員会)は、有名な「ルール156」を導入しました。このルールは、ファンドマネージャーが投資家に対して「過去のパフォーマンスは将来の結果を示すものではない」と通知することを義務付けています。過去のパフォーマンスは、SECが「一般化」の力、つまり将来について何かを言う能力について信頼しないように警告している「モデル」です。

科学自体も、狭い範囲の観測の外で「真実」を推測することの意味に苦しんでいます。2000年代と2010年代に起きた「悪い科学」のスキャンダルは、研究の分野全体が壊れていて信頼できないことを示しています2。実験データが明らかに改ざんされている明白な詐欺の場合もありますが、問題の核心はモデルにあります。つまり、観測されたものを一般化するために使用される知的プロセスにあります。

最も広範な形で、一般化の問題は科学自体の問題と区別がつかないため、人間の創造性と潜在能力の幅を再現することと同じくらい困難です。しかし、一般化の問題のより狭い統計的な側面は、はるかにアプローチ可能です。これが、次のセクションで採用される視点です。

新しい科学の出現

一般化は、20世紀の転換期に統計的なパラダイムとして現れました。主に予測の精度3というレンズを通じて、これは時系列の予測に密接に関連する特殊なケースを表しています。1900年代初頭、アメリカの中産階級の株式保有が台頭し、人々が取引資産で金融収益を確保するのを助ける方法に対する大きな関心が生まれました。占い師や経済予測者は、熱心に支払う一般の人々のために将来の出来事を推測しようとしました。財産は築かれ、失われましたが、これらの努力は問題にアプローチするための「適切な」方法にほとんど光を当てませんでした。

一般化は、20世紀のほとんどの間、ほとんどの人にとって困惑する問題のままでした。それが自然科学の領域に属するのか、観察と実験によって支配されるのか、それとも哲学と数学の領域に属するのか、論理と自己整合性によって支配されるのかさえ明確ではありませんでした。

1982年、初の公開予測競争(通称Mコンペティション)が開催されたという画期的な瞬間が訪れました4。原則はシンプルでした:1000の切り詰められた時系列のデータセットを公開し、競技者が予測を提出し、最後にデータセットの残り(切り詰められたテール)と参加者が達成した精度が公開されます。この競争を通じて、予測の精度を通じて見た一般化は、自然科学の領域に入りました。これ以降、予測競争はますます頻繁に行われるようになりました。

数十年後、2010年に設立されたKaggleは、時系列に限らず一般的な予測問題に特化したプラットフォームを作成することで、このような競技会に新たな次元を加えました。2023年2月現在5、このプラットフォームは現金賞を授与した349の競技会を開催しています。原則は最初のMコンペティションと同じです:切り詰められたデータセットが利用可能になり、競技者は与えられた予測タスクに対する回答を提出し、最後にランキングとデータセットの非公開部分が公開されます。これらの競技会は、モデルの一般化エラーの適切な評価のためのゴールドスタンダードとして今でも考えられています。

過学習と未学習

過学習は、その反対の_未学習_と同様に、与えられたデータセットに基づいてモデルを作成する際に頻繁に発生する問題であり、モデルの一般化能力を損ないます。歴史的に6、過学習は一般化に対する最初に理解された障害として現れました。

_過学習_を視覚化するには、単純な時系列モデリング問題を使用することができます。この例では、歴史的な観測値の系列を反映するモデルを作成することが目的とされています。これらの観測値をモデル化する最も簡単なオプションの1つは、以下に示すような線形モデルです(図1を参照)。

一連の観測値を「フィット」するための3つの異なる試みを描いた合成グラフ。

図1:一連の観測値を「フィット」するための3つの異なる試みを描いた合成グラフ。

2つのパラメータを持つ「未学習」モデルは堅牢ですが、その名前が示すように、データを「未学習」しており、観測値の全体的な分布の形状を明確に捉えることに失敗しています。この線形アプローチはバイアスが高く、分散が低いです。この文脈では、バイアスは、観測値の細部を捉えるためのモデリング戦略の固有の制限として理解されるべきです。一方、分散は、観測値の小さな変動(おそらくノイズ)に対する感度として理解されるべきです。

比較的複雑なモデルは、「過学習」曲線(図1)のように採用されることがあります。このモデルは多くのパラメータを含み、観測値を完全にフィットさせます。このアプローチはバイアスが低く、明らかに高い分散を持っています。代わりに、中程度の複雑さのモデルを採用することもできます。これは「適切なフィット」曲線(図1)で見ることができます。このモデルは3つのパラメータを含み、中程度のバイアスと中程度の分散を持っています。これらの3つのオプションの中で、適切なフィットモデルは一貫して一般化において最も優れたパフォーマンスを発揮します。

これらのモデリングオプションは、バイアスと分散のトレードオフの本質を表しています。7 8 バイアスと分散のトレードオフは、バイアスを増やすことで分散を減らすことができるという一般的な原則です。バイアスと分散のバランスを適切に見つけることで、一般化エラーを最小限に抑えることができます。

歴史的には、20世紀初頭から2010年代初頭まで、過学習モデルはデータによって正当化できる以上のパラメータを含むものと定義されていました。実際、モデルに自由度を追加しすぎることは、過学習の問題の完璧なレシピに見えます。しかし、ディープラーニングの登場により、この直感と過学習の定義は誤解であることが証明されました。このポイントは、ディープダブルディセントのセクションで再訪されます。

クロスバリデーションとバックテスト

クロスバリデーションは、モデルがサポートデータセットを超えて一般化する能力を評価するために使用されるモデルの検証技術です。これは、データの異なる部分を使用してモデルをテストおよびトレーニングするためのサブサンプリング手法です。クロスバリデーションは、現代の予測手法の基本であり、予測コンテストのほとんどの優勝者はクロスバリデーションを広範に使用しています。

クロスバリデーションのさまざまなバリエーションが存在します。最も一般的なバリエーションは、元のサンプルをランダムにk個のサブサンプルに分割するk-foldバリデーションです。各サブサンプルは1回だけ検証データとして使用され、残りのすべてのサブサンプルはトレーニングデータとして使用されます。

k-fold-cross-validation

図2:サンプルのK-foldバリデーション。上記の観測値はすべて同じデータセットから取得されています。したがって、この技術は検証とトレーニングのためのデータサブサンプルを構築します。

サブサンプルの数である_k_の値の選択は、統計的な利益と計算リソースの要件とのトレードオフです。実際、k-foldでは、計算リソースは_k_の値とともに線形に増加し、エラー削減の利益は極端に減少します9。実際には、_k_の値として10または20を選択することが通常「十分に良い」とされています。なぜなら、より高い値に関連する統計的な利益は、より高い計算リソースの追加的な手間に値しないからです。

クロスバリデーションは、データセットを独立した観測値の系列に分解できると仮定しています。しかし、サプライチェーンでは、これは頻繁には当てはまりません。データセットは通常、時間依存性が存在する何らかの歴史化されたデータを反映しています。時間の存在下では、トレーニングサブサンプルは厳密に「先行」している必要があります。言い換えれば、リサンプリングのカットオフに対して「未来」がバリデーションサブサンプルに漏れてはなりません。

backtesting-example

図3:サンプルのバックテストプロセスは、検証とトレーニングのためのデータサブサンプルを構築します。

バックテストは、時間依存性に直接対処するクロスバリデーションの一種です。ランダムなサブサンプルを考慮する代わりに、トレーニングデータと検証データはそれぞれカットオフを通じて取得されます:カットオフより前の観測値はトレーニングデータに属し、カットオフより後の観測値は検証データに属します。このプロセスは、一連の異なるカットオフ値を選択することによって繰り返されます。

クロスバリデーションとバックテストの核となるリサンプリング手法は、モデリングの努力をより一般化の途に導くための強力なメカニズムです。実際、それは非常に効率的なため、このメカニズムをその中核に取り入れた(機械)学習アルゴリズムのクラスが存在します。最も注目すべきものは、ランダムフォレストと勾配ブースティング木です。

次元の壁を破る

自然に、データが多ければ多いほど、学ぶ情報も多くなります。したがって、すべての要素が同じである場合、より多くのデータはより良いモデルにつながるはずです。少なくとも、以前のモデルよりも悪くならないモデルにつながるはずです。なぜなら、もしもっと多くのデータがモデルを悪くするならば、データを無視することが常に最後の手段として可能だからです。しかし、過学習の問題により、データを捨てることは最後の手段としての「小さな悪」の解決策でした。これが「次元の壁」の問題の核心でした。この状況は混乱し、非常に不満でした。1990年代のブレークスルーは、理論的な洞察と実践的な洞察の両方で次元の壁を破りました。このプロセスによって、これらのブレークスルーは、その力のみで研究分野全体を10年間も遅らせ、主に次のセクションで議論されるディープラーニング手法の登場を遅らせることに成功しました。

「より多くのデータを持つこと」に問題があったのは、次のシナリオを考えるとよくわかります:架空のメーカーが、大型産業機器の年間予定外の修理回数を予測したいとします。問題を慎重に考慮した後、エンジニアリングチームは、故障率に寄与すると思われる3つの独立した要因を特定しました。しかし、各要因が全体の故障率にどのように寄与するかは明確ではありません。

したがって、3つの入力変数を持つ単純な線形回帰モデルが導入されました。モデルはY = a1 * X1 + a2 * X2 + a3 * X3と書くことができます。ここで、

  • Yは線形モデルの出力(エンジニアが予測したい故障率)です
  • X1、X2、X3は故障に寄与する可能性のある3つの要因(運転時間で表される特定の種類の作業負荷)です
  • a1、a2、a3は特定される3つのモデルパラメータです。

3つのパラメータの「十分に良い」推定値を得るために必要な観測回数は、観測に存在するノイズのレベルと「十分に良い」とされるものに大きく依存します。しかし、直感的には、最も好ましい状況でも最低でも2ダースの観測が必要になるでしょう。エンジニアは100の観測を収集できるため、3つのパラメータを回帰させることに成功し、その結果得られたモデルは実用的な興味を持つ「十分に良い」ものとなります。このモデルは100の観測の多くの側面を捉えることができず、非常に粗い近似となりますが、このモデルを他の状況に対して思考実験や直感、経験を通じて検証すると、エンジニアはモデルが合理的に振る舞うように見えると判断します。

最初の成功を受けて、エンジニアはさらに深く調査することを決定します。今度は、機械に埋め込まれた電子センサーの全範囲を活用し、それらのセンサーによって生成される電子記録を通じて、入力要素のセットを10,000に増やすことに成功しました。最初のデータセットは100の観測から成り立っており、各観測は3つの数値で特徴付けられていました。しかし、データセットは拡張されました。依然として同じ100の観測ですが、各観測ごとに10,000の数値があります。

しかし、エンジニアが大幅に拡張されたデータセットに同じアプローチを適用しようとすると、線形モデルはもはや機能しません。10,000の次元があるため、線形モデルには10,000のパラメータが付随します。そして、100の観測はその多くのパラメータを回帰させるためには遠く及びません。問題は、適合するパラメータ値を見つけることが不可能であるわけではなく、まさにその逆です。完璧に観測に適合するパラメータの組み合わせは無数に存在します。しかし、これらの「適合する」モデルは実用的な価値を持ちません。これらの「大きな」モデルは100の観測に完璧に適合しますが、それ以外の観測ではモデルは無意味になります。

エンジニアは「次元の壁」と直面しています。パラメータの数は観測に比べて小さくなければならず、そうでないとモデリングの努力は崩壊します。この問題は困難であり、3つの次元ではなく10,000の次元を持つ「より大きな」データセットは明らかにより情報量が多いです。したがって、適切な統計モデルは、この追加情報を捉えることができるようになるべきであり、それに直面したときに機能不全になるべきではありません。

1990年代中盤、理論的および実験的な2つの大きな進展10がコミュニティを驚かせました。理論的な進展はVapnik-Chervonenkis(VC)理論11でした。VC理論は、特定のタイプのモデルを考慮すると、_実際のエラー_を、緩く言えば経験的エラー構造的リスクの合計によって上限を設定できることを証明しました。この文脈では、「実際のエラー」とは、持っていないデータに対して経験するエラーであり、「経験的エラー」とは、持っているデータに対して経験するエラーです。経験的エラー構造的リスクの合計を最小化することで、_実際のエラー_を最小化することができ、それが「囲まれる」ことができました。これは驚くべき結果であり、過学習の問題自体の特定以来、一般化に向けた最大の進歩と言えるでしょう。

実験的な面では、後にサポートベクターマシン(SVM)として知られるモデルが、学習に関してVC理論が特定した内容をほぼ教科書的に導出したものとして導入されました。これらのSVMは、次元の数が観測の数を超えるデータセットを満足のいく形で利用できる最初の成功したモデルとなりました。

実際のエラーをボクシングすることで、VC理論は次元の壁を破りました。これは、ほぼ1世紀にわたって悩まされていた問題でした。また、高次元データを活用することができるモデルの道を開きました。しかし、すぐにSVMは代替モデルに取って代わられました。主にアンサンブル法(ランダムフォレスト12と勾配ブースティング)が、初期の2000年代において優れた代替手法13として広まり、一般化と計算要件の両面で優位に立ちました。これらの代替手法も、過学習を回避する能力に関して理論的な保証を享受しています。これらの手法はすべて非パラメトリック手法の特徴を共有しています。次元の壁は、各次元ごとに1つ以上のパラメータを導入する必要がないモデルの導入によって破られました。これにより、過学習の問題を回避することができました。

先ほど言及した予定外の修理の問題に戻りますが、次元の壁に対して崩れる線形回帰などの古典的な統計モデルとは異なり、アンサンブル法は、たった100の観測しかない大規模なデータセットとその10,000の次元を活用することに成功しました。さらに、アンサンブル法は、ほぼ「そのまま」優れた性能を発揮しました。操作的には、これは非常に注目すべき進展であり、正確な入力次元のセットを選ぶことなくモデルを細心に作り上げる必要がなくなりました。

学界内外を含む広範なコミュニティへの影響は非常に大きかったです。2000年代初頭の研究のほとんどは、これらの非パラメトリックな「理論に基づく」アプローチの探索に費やされました。しかし、成功は時間の経過とともに急速に消えていきました。実際、20年以上経った現在でも、いわゆる「統計的学習」の視点から見た最良のモデルはほぼ同じであり、よりパフォーマンスの高い実装によって恩恵を受けているだけです14

深い二重降下

2010年まで、過学習の問題を回避するためには、パラメータの数を観測の数よりもはるかに小さくする必要があるという常識が支配していました。実際、各パラメータは自由度を暗黙的に表しているため、パラメータの数が観測の数と同じであることは、過学習を保証するためのレシピでした15。アンサンブル法は、最初から非パラメトリックであることでこの問題を回避しました。しかし、この重要な洞察は間違っていることが判明しました。

後に「ディープラーニング」として知られるアプローチは、ほとんどのコミュニティを驚かせることとなりました。これらは、過学習を起こさずに観測よりもはるかに多くのパラメータを含むモデルです。

ディープラーニングの起源は複雑であり、脳のプロセスをモデル化しようとする最初の試み、すなわちニューラルネットワークにさかのぼることができます。この起源を解明することは、現在の議論の範囲を超えていますが、ディープラーニングの革命は、2010年代初頭に脳のモデル化のメタファーを捨てて機械的な共感を選んだ時に始まりました。ディープラーニングの実装は、以前のモデルをはるかにシンプルなバリエーションで置き換えました。これらの新しいモデルは、ディープラーニングモデルの特徴である線形代数演算に適していることが、何となく偶然にも明らかになりました16

ディープラーニングがブレークスルーとして広く認識されるまでには、さらに5年近くかかりました。このため、一部の抵抗は「統計的学習」の陣営から来ました。偶然にも、このコミュニティの一部は20年前に次元の壁を破ったセクションでした。この抵抗の理由はさまざまですが、従来の過学習の常識とディープラーニングの主張との明らかな矛盾は、この新しいモデルの初期の懐疑心に一定の影響を与えました。

この矛盾は、2019年に「深い二重降下」が特定されたことでほぼ解決されました17。これは、特定のクラスのモデルの振る舞いを特徴づける現象です。このようなモデルでは、パラメータの数を増やすとまずテストエラーが悪化します(過学習による)。しかし、パラメータの数が十分に大きくなると、再びテストエラーが改善する傾向があります。バイアスとトレードオフの視点では、「二度目の降下」(テストエラーの)は予測されていない振る舞いでした。

deep-double-descent-graph

図4. 深い二重降下。

図4は、上記で説明した2つの連続した領域を示しています。最初の領域は、一見「最適な」パラメータ数とともに現れるクラシックなバイアス-バリアンスのトレードオフです。しかし、この最小値は実際には局所最小値であることがわかります。パラメータの数を増やし続けると、パラメータの数が増えるにつれて、モデルの実際の最適なテストエラーに収束する漸近的な収束が観察される2番目の領域が存在します。

深い二重降下は、統計とディープラーニングの視点を調和させるだけでなく、一般化については比較的理解が進んでいないことも示しました。これにより、広く受け入れられていた理論(2010年代後半まで一般的でした)が一般化に対する歪んだ視点を示していたことが証明されました。ただし、深い二重降下は、モデルの構造に基づいてモデルの一般化能力(または欠如)を予測するためのフレームワークや同等のものをまだ提供していません。現在のところ、このアプローチは断固として経験的なままです。

サプライチェーンのトゲ

これまで詳しく説明してきたように、一般化は非常に困難であり、サプライチェーンは状況をさらに激化させるさまざまな問題を抱えています。まず、サプライチェーンの実践者が求めるデータは、永遠にアクセスできない可能性があります。部分的に見えないのではなく、完全に観測できないのです。第二に、予測そのものが将来を変え、予測の妥当性も変える可能性があります。なぜなら、意思決定は予測に基づいて行われるからです。したがって、サプライチェーンのコンテキストで一般化に取り組む際には、モデルの「統計的な妥当性」とモデルを支持する「高レベルの推論」の2つのアプローチを使用する必要があります。

さらに、利用可能なデータは常に必要なデータではありません。例えば、製造業者が需要を予測して生産数量を決定したいとします。歴史的な「需要」データというものは存在しません。代わりに、過去の販売データは、製造業者が過去の需要を反映するために利用できる最良のプロキシです。しかし、過去の販売は過去のストックアウトによって歪められています。ストックアウトによるゼロの販売は、ゼロの需要とは混同してはなりません。この販売履歴を需要履歴に修正するためのモデルを作成することはできますが、このモデルの一般化誤差は設計上不明瞭です。なぜなら、過去も将来もこのデータを保持していないからです。要するに、「需要」というのは必要ながらも触れることのできない概念です。

機械学習の専門用語では、需要のモデリングは教師なし学習の問題であり、モデルの出力は直接観測されません。この教師なしの側面は、ほとんどの学習アルゴリズムやモデルの検証技術、少なくとも「素朴な」バージョンでは打ち負かされます。さらに、これは単純な2段階のプロセスである予測競争のアイデア自体も打ち負かします。ここでは、元のデータセットが公開(トレーニング)サブセットと非公開(検証)サブセットに分割されるプロセスですが、検証自体もモデリングの演習になります。

製造業者が作成した予測は、製造業者が経験する将来をある程度形作るでしょう。予測された需要が高い場合、製造業者は生産を増やすでしょう。ビジネスがうまく運営されている場合、生産プロセスで規模の経済が実現され、生産コストが低下します。その結果、製造業者はこれらの新たな経済を利用して価格を下げることができ、競争相手に対して競争力を持つことができます。最も低価格のオプションを求める市場は、この製造業者を最も競争力のあるオプションとして迅速に採用する可能性があり、初期の予測をはるかに超える需要の急増を引き起こすでしょう。

この現象は「自己成就予言」として知られており、予測自体に参加者が持つ影響力によって真実になる傾向があります。非常に異例ではありますが、供給チェーンを巨大な自己成就のルーブ・ゴールドバーグ装置として特徴付けることもできます。方法論的なレベルでは、観察者と観察の絡み合いは状況をさらに複雑にします。一般化は、供給チェーンの発展の基盤となる「戦略的意図」の捉えに関連付けられるため、さらに困難になります。

この時点で、供給チェーンにおける一般化の課題は、克服不可能に見えるかもしれません。供給チェーンで依然として普及しているスプレッドシートは、多くの企業がデフォルトの(暗黙の)立場であることを示しています。しかし、スプレッドシートは、問題の解決を何らかの特別な人間の判断に委ねるためのツールであり、何らかの体系的な手法の適用ではありません。

人間の判断に頼ることは常に誤った回答ですが、問題に対する満足のいく答えではありません。在庫切れの存在は、需要に関して「何でもあり」ということを意味しません。製造業者が過去3年間の平均サービスレベルを90%以上維持している場合、(観察された)需要が売上の10倍以上であった可能性は非常に低いでしょう。したがって、このような歪みに対処するために体系的な手法が開発されることは合理的な期待です。同様に、自己成就予言もモデル化することができます。特に、制御理論における「ポリシー」の概念を通じてです。

したがって、実世界の供給チェーンを考慮する際には、一般化には二つのアプローチが必要です。まず、モデルは統計的に妥当でなければなりません。これは、古典的な統計と統計的学習という理論的な視点だけでなく、機械学習や予測コンテストなどの実証的な取り組みも含みます。19世紀の統計に戻ることは、21世紀の供給チェーンの実践にとって合理的な提案ではありません。

次に、モデルは高レベルの推論によって支持される必要があります。言い換えれば、モデルの各構成要素とモデリングプロセスの各ステップには、供給チェーンの観点から意味のある正当化が必要です。この要素がないと、通常は供給チェーン自体、その運用エコシステム、または基礎となるアプリケーションの環境の進化によって引き起こされる運用上の混乱がほぼ確実です。高レベルの推論の目的は、モデルを一度だけ動作させることではなく、現実と/またはビジネス目標との整合性が失われた場合にモデルを見直す時期を判断することです。

遠くから見ると、この提案はスプレッドシートに対する以前の批判に対して脆弱に見えるかもしれません - ある種の曖昧な「人間の判断」に困難な作業を委ねることに対する批判です。この提案は、モデルの評価を人間の判断に委ねる一方で、モデルの実行は完全に自動化されることを意図しています。したがって、日々の業務は完全に自動化されることを意図していますが、数値レシピのさらなる改善のための進行中のエンジニアリングの取り組みは自動化されていません。

ノート


  1. 「メモ化」という重要なアルゴリズム技術がありますが、これは再計算する必要がある結果をその事前計算結果で置き換えることにより、より少ない計算量でより多くのメモリを交換するものです。ただし、この技術は現在の議論には関係ありません。 ↩︎

  2. 「なぜほとんどの公表された研究結果は誤りであるのか」、ジョン・P・A・イオアニディス、2005年8月 ↩︎

  3. 時系列予測の観点から、一般化の概念は「精度」という概念を通じてアプローチされます。精度は、時系列を考慮する場合に「一般化」の特殊なケースと見なすことができます。 ↩︎

  4. Makridakis, S.; Andersen, A.; Carbone, R.; Fildes, R.; Hibon, M.; Lewandowski, R.; Newton, J.; Parzen, E.; Winkler, R. (1982年4月). “The accuracy of extrapolation (time series) methods: Results of a forecasting competition”. Journal of Forecasting. 1 (2): 111–153. doi:10.1002/for.3980010202. ↩︎

  5. Kaggle in Numbers, Carl McBride Ellis, 2023年2月8日に取得 ↩︎

  6. 1935年の抜粋「おそらく私たちは時代遅れかもしれませんが、13の観測に基づく6変量分析は、過学習のように思われます」という「The Quarterly Review of Biology」(1935年9月、第10巻、第3号pp. 341-377)は、統計的な過学習の概念が既に確立されていたことを示唆しています。 ↩︎

  7. Grenander, Ulf. On empirical spectral analysis of stochastic processes. Ark. Mat., 1(6):503– 531, 1952年8月. ↩︎

  8. Whittle, P. Tests of Fit in Time Series, Vol. 39, No. 3/4 (Dec., 1952), pp. 309-318] (10 pages), Oxford University Press ↩︎

  9. k-foldのk値を大きくすることによる漸近的な利点は、中心極限定理から推測することができます。この洞察から、kを増やすことで、最初にk foldによってもたらされる改善の可能性をほぼ1 / sqrt(k)近くまで網羅することができます。 ↩︎

  10. サポートベクターネットワーク、Corinna Cortes、Vladimir Vapnik、Machine Learning volume 20、pages 273–297(1995年) ↩︎

  11. ヴァプニク・チェルノヴェンキス(VC)理論は、「学習」というものを形式化するための唯一の候補ではありませんでした。Valiantの1984年のPAC(おそらくほぼ正しい)フレームワークは、形式的な学習アプローチの道を開きました。しかし、PACフレームワークは、VC理論が千年紀の間に享受した大きなトラクションと運用上の成功には及びませんでした。 ↩︎

  12. ランダムフォレスト、Leo Breiman、Machine Learning volume 45、pages 5–32(2001年) ↩︎

  13. サポートベクターマシン(SVM)が数学的な理論に強く影響を受けているため、これらのモデルは現代のコンピューティングハードウェアに対してほとんど「機械的な共感」を持っていません。SVMの相対的な不適切さは、数百万以上の観測値を含む大規模なデータセットを処理する能力において、代替手法と比較して明らかになり、これがこれらの手法の失敗を招きました。 ↩︎

  14. XGBoostとLightGBMは、機械学習の分野で広く人気のある2つのオープンソースのアンサンブル手法の実装です。 ↩︎

  15. 簡潔さのために、ここではやや過度に簡略化されています。統計モデルの「正則化」には、研究の分野全体が専念しています。正則化制約の存在下では、線形回帰のような古典的なモデルでも、パラメータの数は安全に観測の数を超えることができます。正則化の存在下では、パラメータの値はもはや完全な自由度を表すものではなく、その一部分を表すものとなります。したがって、パラメータの数ではなく、自由度の数を参照することがより適切です。これらの余談的な考慮事項は、ここで提示された見解を根本的に変えるものではないため、簡略化されたバージョンで十分です。 ↩︎

  16. 実際には、因果関係は逆です。ディープラーニングの先駆者たちは、元々のモデルであるニューラルネットワークを、ほぼ完全に線形代数に依存するよりシンプルなモデルに再設計しました。この再設計の目的は、柔軟性を犠牲にして生のパワーを持つコンピューティングハードウェア上で、これらの新しいモデルを実行できるようにすることでした。具体的には、GPUです。 ↩︎

  17. Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever, December 2019 ↩︎