機械学習の世代

12月 12, 2018

supply chain science and tech

00:00:06 機械学習の世代的進化のイントロダクション。
00:00:38 第1世代: 1950・60年代の統計的予測アルゴリズム。
00:03:26 第2世代への移行: 80年代後半/90年代のノンパラメトリックモデル。
00:06:20 統計学と機械学習の収束。
00:07:55 技術進歩が機械学習の進化に与える影響。
00:09:54 ディープラーニングの予測への影響、標準的な機械学習との対比。
00:11:31 パラメトリックモデル、ディープラーニングの過学習回避。
00:13:01 ディープラーニングとハードウェア、GPU、線形代数との関係。
00:14:50 ディープラーニングのデータ処理におけるクラウドコンピューティングの役割。
00:16:01 GPUの課題、サプライチェーン予測におけるクラウドコンピューティングの利点。
00:17:22 機械学習の未来: 微分可能プログラミングの台頭。
00:19:13 サプライチェーン業界の機械学習投資、ビッグデータ適応。
00:22:44 技術変革のスピード、サプライチェーン経営者の適応。
00:25:24 結論: SaaSおよびクラウドコンピューティングの技術進化における重要性。

要約

インタビューで、Lokadの創業者ジョアンネス・ヴェルモレルは、機械学習（ML）の歴史について語りました。彼は、1950年代の時系列予測アルゴリズムにその起源を持つことから、ディープラーニングの登場に至るまでの進化を辿りました。彼は、MLがサプライチェーン管理に応用されている点を強調し、これが彼の会社の得意分野であると述べました。ヴェルモレルは、シンプルでデータ駆動型のモデルから、十分なデータがあればあらゆるパターンを学習できるノンパラメトリックな統計モデルへの進化を概説しました。議論は、主要なMLのマイルストーン、技術の役割、そして過学習という課題に触れました。さらに、ヴェルモレルは、今後のMLの発展として、微分可能プログラミングの台頭や、音声および画像認識への継続的な注目を予測しました。彼は、技術変革の急速な進展に対応するために、ソフトウェア・アズ・ア・サービスがサプライチェーン幹部の支援に不可欠であると締めくくりました。

拡張要約

ホストのキアラン・チャンドラーとLokad創業者ジョアンネス・ヴェルモレルとのインタビューは、機械学習の進化と発展、特にサプライチェーン管理への応用に焦点を当てています。

ヴェルモレルは、機械学習の起源は1950年代・60年代に遡ることができ、最初の時系列予測アルゴリズムの出現に端を発すると述べています。これらのアルゴリズムは、当初は伝統的な意味で機械学習と認識されていなかったものの、データ駆動型で統計的であり、データからパターンを学習するという機械学習の重要な特徴を示していました。さらに、彼は、これらのアルゴリズムの初期の利用がサプライチェーンの最適化と密接に関連しており、これは今日の彼の会社Lokadが専門とする分野であると強調しました。

機械学習の初期段階で利用された具体的な手法として、ヴェルモレルはサプライチェーンの実務者に馴染みのあるいくつかの手法を挙げています。これには、移動平均、指数平滑法、そしてホルト＝ウィンタース法やボックス＝ジェンキンス法などのより複雑なモデルが含まれます。彼は、これらの初期アルゴリズムを、当時のコンピュータの計算能力に合わせて設計された比較的シンプルなものだと位置付けています。これらの初期モデルは、限られた処理能力とメモリの制約の中で、数百のデータポイントに対して数千回の演算を迅速かつ効率的に行う必要がありました。

機械学習の進展に話題を移し、ヴェルモレルは、次の大きな飛躍は80年代後半から90年代にかけて起こり、ノンパラメトリックな統計モデルの出現によって特徴付けられたと述べています。この進化は、固定された調整可能なパラメータ（通常は十数個以内）を持つ第1世代のパラメトリックモデルからの重要な変革を示していました。

固定されたパラメータに制約されたパラメトリックモデルは、特定のデータパターンの範囲にしか適応できませんでした。対照的に、ノンパラメトリックモデルは予め決められた形がないため、十分なデータがあればあらゆるパターンを学習する可能性がありました。この変化は、機械学習の能力と柔軟性における大きな突破口を示し、今日見られるより複雑で多用途な機械学習アプリケーションの基盤となったのです。

ヴェルモレルは、初期の予測モデルにおける過学習の課題を強調することから始めました。パラメータの数を増やすと、過去のデータに完璧に適合するものの、将来の予測能力を欠くモデルが生じる可能性がありました。これは90年代末まで何十年にもわたり業界の大きな謎となり、ノンパラメトリックモデルの登場により、満足のいく解決策が現れるまで続いた問題でした。

その後、彼はこの時期に浮上した2つの陣営、すなわち統計学習派と機械学習派について論じました。前者は、コンピュータを広範に利用して統計を行う数学者で構成され、後者はコンピュータ専門家がこうした問題に直面し、徐々に統計アルゴリズムに移行していったグループでした。彼は、これらの視点の違いが異なるモデリングスタイルの誕生につながったと述べています。たとえば、統計学習派は数学的に理解しやすいサポートベクターマシンを好み、一方で機械学習派は多くの数値操作を伴うニューラルネットワークに魅力を感じていました。

その後、チャンドラーはこれらの分野の進化における技術の役割に話題を向けました。ヴェルモレルは、90年代末における大きな突破口、すなわち「より多くのデータはより良い結果をもたらす」という考え方について言及しました。この概念は、より長い時系列だけでなく、より多様なデータセットにも適用されました。当初、このアプローチは、より多くの履歴が蓄積されるのを待つ必要があったため、ゆっくりとしたプロセスでした。しかし、機械学習と統計学習の進歩により、より多くの商品からのデータを活用することが可能となり、より正確な需要予測が実現されました。

ヴェルモレルは、90年代後半のサポートベクターマシンや2000年代初頭のランダムフォレストの導入を、より大規模かつ多様なデータセットから情報を抽出する上での重要な一歩として挙げています。

議論は次にディープラーニングの登場へと移ります。ヴェルモレルは、重要な洞察が徐々に蓄積されたことにより、ディープラーニングが標準的な機械学習とは大きく異なるものとなったと説明しています。ディープラーニングの主な利点の一つは、浅い学習アルゴリズムと比較して、より少ないデータでより複雑な関数を学習できる点にあります。

興味深いことに、ヴェルモレルはディープラーニングが小規模なデータセットでは必ずしも古典的なアルゴリズムを上回るわけではないと指摘します。しかし、非常に大規模なデータセットを扱う際には、浅い学習アルゴリズムが追加情報を十分に活用できない状況で、ディープラーニングは卓越するのです.

驚くべきことに、ディープラーニングは初期のパラメトリックモデルが持っていた固定されたパラメータ数とは対照的に、数百万ものパラメータを持つパラメトリックモデルの利用を再び促しました。ここでの課題は、大規模な過学習を避けることであり、いくつかの巧妙な手法によって克服されました。

ヴェルモレルはさらに、機械学習の進歩におけるグラフィックス・プロセッシング・ユニット（GPU）の役割について議論しました。GPUはディープラーニングのタスクに不可欠ですが、高価で消費電力も大きいです。クラウドコンピューティング・プラットフォームはオンデマンドのGPUファームを提供することで、この問題を解消し、コストとエネルギー消費の課題に効果的に対処しました。これは、統計的予測が通常1日1回実行され、短時間だけGPU割り当てが必要なサプライチェーン最適化に特に有益でした。

機械学習の未来に話題を移し、ヴェルモレルはディープラーニングの分野内においても、再びノンパラメトリックモデルへの回帰が進むと予測しました。彼は、学習段階でディープラーニングモデルの構造が調整される『微分可能プログラミング』という新たなアプローチに注目しました。この動的な手法は、機械学習および統計学習における次の重要な段階となり得ます。

大手テック企業の現在の注力分野について問われた際、ヴェルモレルは音声認識、音声合成、画像認識、自然言語翻訳が現在大規模な投資を受けていると述べました。これらは機械学習の未来を牽引する研究開発の中核分野ですが、Lokadを含むサプライチェーン企業は、機械学習技術に多額の投資を行うためのリソースが不足しており、やや後れを取っている状況です。

サプライチェーン最適化は、画像処理など他の分野に比べて扱うデータが小さいため、機械学習の応用において独自の課題を呈します。これには、CPUとGPUの両方をバランスよく活用する必要があります。

その後、チャンドラーは急速な技術変革がサプライチェーン幹部に与える影響、すなわち既存のソリューションがすぐに陳腐化してしまうという課題について提起しました。ヴェルモレルは、ソフトウェア・アズ・ア・サービス（SaaS）が有効な解決策となり得ると助言し、サービスを絶えず更新・最適化するSaaSプロバイダーとしてのLokadを例に挙げ、顧客の負担軽減を強調しました。

完全なトランスクリプト

Kieran Chandler: 本日のLokad TVでは、最初に立ち返り、機械学習の世代的発展を検証するとともに、この徐々の進化が将来の機械学習の可能性を示す手がかりとなるかどうかを探求します。では、ジョアンネス、第一世代の機械学習はどのようなもので、いつ登場したのでしょうか？

Joannes Vermorel: 興味深いことに、初期の機械学習アルゴリズムは、ある意味でサプライチェーンに関連しており、50年代と60年代に登場した最初の時系列予測アルゴリズムに起源を持ちます。それは、データ駆動型で統計的、そしてデータからパターンを学習しようとするという、必要な要素すべてを備えていました。当時はそれを機械学習と呼ぶことはなく、単なる予測アルゴリズムとされていました。しかし、必要な要素はすべて揃っていたのです.

Kieran Chandler: では、どのような手法が用いられていたのでしょうか？多くのサプライチェーンの実務者はそれらを知っていると思いますが。

Joannes Vermorel: 彼らは移動平均、指数平滑法、そしてホルト＝ウィンタースモデルやボックス＝ジェンキンスモデルなど、この時代に登場したより洗練された手法も知っています。つまり、コンピュータが登場した初期に、比較的シンプルなアルゴリズムが一連で現れたのです。興味深いことに、企業にコンピュータが導入されるや否や、比較的控えめな目的ではありましたが、実際にサプライチェーン最適化のために使用されたのです.

Kieran Chandler: 当時の計算解析の世界は全く異なっていました。あの時代の主な焦点は何だったのでしょうか？

Joannes Vermorel: 当時の主な焦点は、極めて限られた処理能力、メモリ、そして膨大な計算能力にありました。60年代と70年代の第一世代モデルは、超高速動作を重視していました。つまり、100個のデータポイントを処理する際、数千回の演算だけで済むように設計されていたのです。これらのアルゴリズムは、キロバイト単位のメモリと1 MHz未満のプロセッサ向けに設計されていました.

Kieran Chandler: 当時は、今日何十万人もの人々が関わるほどではなかったと想像します。次の世代が現れるまでにはどのくらいの時間がかかったのでしょうか？長い時間が必要だったのでしょうか？

Joannes Vermorel: それは徐々の進化でした。60年代と70年代に現れた第一波のモデルはすべてパラメトリックモデルで、固定されたパラメータ数を持つ統計モデル（通常は十数個以内）でした.

Kieran Chandler: パラメータとはどういう意味でしょうか？

Joannes Vermorel: パラメータとは数値のようなものです。つまり、統計モデルにはデータに適合させるために調整可能な数値がいくつかあり、その学習の本質はそれらのパラメータを見つけることにあります。通常、一般的なモデルでは半ダース程度、場合によっては十数個しかなく、それで十分でした。ところが、80年代後半、特に90年代においては、ノンパラメトリックな統計モデルが登場しました。これは、第一世代のモデルが持つパラメータ数の限界ゆえに、時系列パターンや需要パターンを十分に捉えられなかったのに対し、全く新しいアプローチでした.

Kieran Chandler: パラメトリックからノンパラメトリックへの第二世代への移行は重要でした。十分なデータがあれば、あらゆるパターンを学習できる可能性がありました。90年代末のこの突破口により、魅力的な数学的特性を持つモデルが開発されました。任意に多くのデータがあれば、最適なモデルに非常に近づける一方、過学習の問題を回避できました。過学習とは、パラメータを増やしすぎると、過去のデータには完璧にフィットするものの、将来の予測能力を失ってしまう現象です。実際、持っていないデータに正確な予測を行うモデルを作るという、不可解な問題であり、この問題は何十年も意思決定者を悩ませました。しかし、90年代末にノンパラメトリックモデルが導入され、これにより機械学習の時代が幕を開けたのです。これはどのようにして起こり、どのような影響をもたらしたのでしょうか？

Joannes Vermorel: 興味深いことに、用語の面では、いくつかの陣営が存在しました。統計学習派は、統計を行う数学者たちがコンピュータを広く活用していたのに対し、機械学習派は主にコンピュータ専門家が問題に直面し、徐々に統計アルゴリズムへと移行していったグループでした。これは単に視点の違いであったのです.

例えば、統計的学習キャンプでは、数学的な視点からよく理解されていたサポートベクターマシンが、コアな統計コミュニティに支持されていました。一方で、機械学習コミュニティに訴求する多くの数値的手法を伴うニューラルネットワークも存在していました。これらは分野に対する異なる視点であり、徐々に収束していきました。

キーレン・チャンドラー: どのキャンプに属していようと、あなたの周りで進化していたのは技術と、それによって達成できる可能性でした。では、これらすべてを本当に推進した重要な技術的改善やブレークスルーとは何だったのでしょうか？

ジョアネス・ヴェルモレル: 90年代後半のブレークスルーは、より多くのデータがあればより良い結果が得られるという考えでした。そして、これは単により長い時系列という意味だけでなく、より多くの時系列があるということでもありました。サプライチェーンにおいては、より多くの履歴があれば、より正確な需要予測ができるかということです。しかし、問題は、1年分以上の販売履歴が必要な場合、さらに1年待たなければならず、非常に遅いプロセスだということです。さらに、新製品が投入され、一部の製品が段階的に廃止されるため、決して豊富な履歴を得られるわけではありませんでした。

より多くの製品からより多くのデータを活用できるというブレークスルーがありました。これは90年代の終わりではなく、2000年代に入ってからのことでした。それを可能にしたのは、機械学習や統計学習における、すべて非パラメトリックモデルに関連するブレークスルーでした。

96年頃に発表され、98年頃に実装が動作したサポートベクターマシンや、2001年頃のランダムフォレストなど、ブレークスルーを象徴する一連の統計モデルが存在しました。これらのモデルは、特徴の多様性を持つ大規模なデータセットから情報を非常にうまく抽出し始めました。

キーレン・チャンドラー: ディープラーニングですが、その影響はどのようなもので、ディープラーニングと従来の機械学習との主な違いは何だったのでしょうか？

ジョアネス・ヴェルモレル: 興味深いことに、ディープラーニングはおそらく12個ほどの重要な洞察の結合であり、すべてが非常に段階的に実現されました。それらを組み合わせることで、かなり大きな変化をもたらしたのです。ディープラーニングの主な利点のひとつは、少ないデータでより複雑な関数を学習できる能力にあります。浅層学習のような第二世代の機械学習アルゴリズムは、十分なデータがあればどんな統計パターンでも学習できますが、実際にはそのために膨大なデータ量が必要で、実用的ではありません。ディープラーニングは、非常に大規模なデータセットをより効果的に活用できるという点で優れていました。

まず、ディープラーニングは小規模なデータセットでは必ずしも古典的なアルゴリズムを上回るわけではありませんが、データセットが非常に大きくなると、浅層学習アルゴリズムは実際に存在する余分な情報を十分に活用できません。一方、ディープラーニングはそれが可能です。では、ディープラーニングは何が違うのでしょうか？私たちは1950年代や1960年代に使用されていたパラメトリックモデルに戻っているのです。これらは固定されたパラメータ数を持ち、その後パラメータ数が動的な非パラメトリックモデルへと移行しました。しかし、ディープラーニングでは、パラメトリックモデルに戻るものの、大きな違いはこれらのモデルが数百万のパラメータを持っている点です。我々のモデルは、最大で2000万のパラメータを持つことができます。

大規模なオーバーフィッティングを避けるために、ディープラーニングムーブメントの一環として非常に巧妙なテクニックが次々と発見されました。もう一つの重要な要素は、グラフィックスプロセッシングユニット（GPU）のような、線形代数に非常に効率的な計算ハードウェアに最大限適合する統計モデルを考案することでした。ディープラーニングの計算上のトリックのひとつは、すべてを線形代数に帰着させることです。CPUからGPUへの計算の切り替えにより、二桁分の追加計算能力が得られ、多くの従来は不可能だったことが突然可能になりました。

キーレン・チャンドラー: ハードウェアの進化や処理能力の向上についてお話しされていますが、これを可能にした他の技術的改善には何がありましたか？また、クラウドの出現はどのように関与しているのでしょうか？

ジョアネス・ヴェルモレル: クラウドは、すべてのデータを集約する上で大きな役割を果たしました。ディープラーニングに真剣に取り組むには、莫大なデータが必要です。テラバイト単位のデータを扱うのも、実はクラウドがあれば非常に容易になります。

キーレン・チャンドラー: クラウドコンピューティングプラットフォームは、例えばディスククォータや複数の物理ドライブ間でのストレージ管理を手動で行う必要性をなくし、すべての作業を簡略化しているようですね。正しいですか？

ジョアネス・ヴェルモレル: その通りです。クラウドコンピューティングプラットフォームは、ストレージ管理に伴う手動プロセスの多くを排除し、またディープラーニングに必要なすべての層を統合するのを容易にしました。

キーレン・チャンドラー: ディープラーニングとGPUのコストについてはいかがでしょうか？非常に高価で、かなりの電力を消費しますよね？

ジョアネス・ヴェルモレル: 確かに、グラフィックカードは容易に400〜500ワットを消費します。複数台使用すると、電気系統に問題が生じる可能性もあります。しかし、クラウドコンピューティングはオンデマンドのGPUファームを提供することでこの問題を緩和しました。サプライチェーンの場合、通常は統計予測を1日1回行えば良いので、1時間だけGPUを割り当てて計算を行い、その後Microsoft Azure、Amazon Web Services、Google Cloudなどの好きなクラウドコンピューティングプラットフォームに返却するという使い方が非常に便利です。

キーレン・チャンドラー: 機械学習はここ数十年かけて徐々に発展してきました。これからの機械学習の未来を予測する上で、何か手がかりはありますか？次に何が起こると予測されるでしょうか？

ジョアネス・ヴェルモレル: 興味深いことに、すべてはサイクルとして進んでいます。私たちはパラメトリックモデルと時系列予測から始め、そこから最初の汎用機械学習アルゴリズムを用いた非パラメトリックモデルに移行し、その後ディープラーニングによるハイパーパラメトリックモデルへと転換しました。現在、台頭しているのはディープラーニングの分野内で再び現れる非パラメトリックモデルです。これらは学習フェーズ中にモデルの構造自体を調整する、より洗練されたディープラーニング手法です。明日のバズワードに賭けるなら、「微分可能プログラミング」になるでしょう。このアプローチはディープラーニングに似ていますが、学習フェーズ中のモデルの構築や進化の面で、はるかに動的です。

キーレン・チャンドラー: つまり、微分可能プログラミングが新たなバズワードになるわけですね。サプライチェーン業界は大手企業が注目する領域に比べると少し遅れがちですが、現在はどのような研究へ投資しており、今後1年程度でどんな大きな展開が期待できるのでしょうか？

ジョアネス・ヴェルモレル: 機械学習に関して言えば、テック大手が何十億ドルも投資している大きなテーマは、音声認識、音声合成、画像認識、自然言語翻訳です。これらは情報駆動型学習の根幹をなす問題であり、研究開発においてリードしています。しかし、サプライチェーン、特に機械学習ソフトウェアを開発している分野はやや遅れています。サプライチェーンの誰もが、より良い需要予測のために年間で数十億ドルを投資できるリソースを持っているわけではありません。

キーレン・チャンドラー: 予測への投資はかなり行われていますが、必要な規模のほんの一部にすぎないようです。どうやら大きな技術開発から数年遅れているように見受けられます。これについてどう考えますか？

ジョアネス・ヴェルモレル: おっしゃる通りです。現在の大きな展開は、画像や音声処理の分野で開発された技術をサプライチェーンの状況に適応することです。これには大幅な再開発が必要になります。たとえば、これらの大きな問題では通常、大量のデータが処理されます。例えば画像は数メガバイトに及ぶため、CPUからGPUへのデータ移動のために洗練されたパイプラインが必要とされることは少ないのです。画像は情報量の多い大きなオブジェクトで、計算が完了するまでGPUに長く保持されます。

一方、サプライチェーンには異なる要件があります。最適化対象である保管単位などのオブジェクトは、データ量こそ小さいものの数が非常に多いです。SKUの全履歴は数キロバイトに収まりますが、それが何千万も存在するのです。したがって、大規模機械学習問題向けに開発された技術をサプライチェーンに適用するには、一連の課題が伴います。CPUとGPUの両方を最大限に活用する必要があるのは、依然として多くの計算がCPU側で行われた方が効率的であるためです。

キーレン・チャンドラー: 業界は常に進化と変化を遂げているようですね。実装はすぐに時代遅れになってしまいます。サプライチェーンの幹部がどのようにしてこれに追いつくことができるのでしょうか？何かアドバイスはありますか？

ジョアネス・ヴェルモレル: 変化の速さは確かに大きな課題です。しかし、コンピューターの世界ではこれは常に問題であり続けてきました。私の提案は、LokadのようなSaaSソリューションを選ぶことです。例えば、私たちは予測エンジンの第五世代にありますが、クライアントが技術的な作業をする必要はありません。パッケージの一部として、私たちがクライアントのために各バージョンへのアップグレードを実施しているのです。

SaaSソフトウェアの登場により、この問題は非常に管理しやすくなりました。追随するためだけにリソースを割く必要はなく、ベンダーがそれを肩代わりしてくれるのです。オンプレミスのソフトウェアでは、バージョンアップは通常、大きなプロジェクトとなっていましたが、その必要がなくなりました。

ちなみに、クラウドコンピューティングプラットフォームは、私たちにとってこの問題を解決してくれました。したがって、サプライチェーンマネージャーが、サプライチェーン最適化のための高度な予測分析を提供するLokadのようなSaaSアプリを使用すれば、変化の速さに対応できるでしょう。Lokad自身も、私たちが利用するクラウドコンピューティングプラットフォームがPaaSであり、常に多くの部分でアップグレードされているため、変化に追随しています。

キーレン・チャンドラー: 結局のところ、誰もが技術の進化に対応しているようですね。非常に洞察に満ちたお話をありがとうございました、ジョアネス。また次回、この議論を続けましょう。ご視聴ありがとうございました。

Lokad TVに戻る ›

PREVIOUS EPISODES