00:00:06 機械学習の世代の開発についての紹介。
00:00:38 第1世代:1950年代/60年代の統計的予測アルゴリズム。
00:03:26 第2世代への移行:80年代後半/90年代の非パラメトリックモデル。
00:06:20 統計と機械学習の収束。
00:07:55 技術の進歩が機械学習の進化に与える影響。
00:09:54 ディープラーニングが予測に与える影響、標準的な機械学習との対比。
00:11:31 パラメトリックモデル、ディープラーニングの過学習回避。
00:13:01 ディープラーニングとハードウェア、GPU、線形代数の関係。
00:14:50 クラウドコンピューティングがディープラーニングのデータ処理に果たす役割。
00:16:01 GPUの課題、サプライチェーン予測におけるクラウドコンピューティングの利点。
00:17:22 機械学習の未来:差分可能プログラミングの台頭。
00:19:13 サプライチェーン業界の機械学習への投資、ビッグデータの適応。
00:22:44 技術の変化の速さ、サプライチェーンのエグゼクティブの適応。
00:25:24 結論:SaaS、クラウドコンピューティングの技術進化における重要性。

要約

ロカドの創設者であるジョアネス・ヴェルモレルは、インタビューで、1950年代の時系列予測アルゴリズムからディープラーニングの登場までの機械学習の歴史について語りました。彼は、機械学習の応用分野であるサプライチェーン管理に焦点を当てました。ヴェルモレルは、シンプルなデータ駆動型モデルから、十分なデータがあれば任意のパターンを学習できる非パラメトリック統計モデルへの進化を概説しました。この会話では、主要な機械学習のマイルストーン、技術の役割、過学習の課題について取り上げました。ヴェルモレルは、差分可能プログラミングを含む将来の機械学習の発展と、音声認識や画像認識への注力が続くことを予測しました。彼は、急速な技術の変化に遅れずについていくために、サプライチェーンのエグゼクティブに対してサービスとしてのソフトウェアの重要性を提唱しました。

詳細な要約

ホストのキーラン・チャンドラとロカドの創設者であるジョアネス・ヴェルモレルのインタビューでは、機械学習の進化と発展について詳しく取り上げ、特にサプライチェーン管理への応用に重点を置いています。

ヴェルモレルは、機械学習の起源は1950年代と60年代にさかのぼると指摘し、最初の時系列予測アルゴリズムの登場と関連付けました。これらのアルゴリズムは、当初は機械学習として認識されていなかったものの、データ駆動型、統計的であり、データからパターンを学習するという機械学習の特徴を備えていました。ヴェルモレルはさらに、これらの初期のアルゴリズムの使用は、彼の会社であるロカドが現在特化しているサプライチェーン最適化と密接に関連していたと強調しています。

この初期の機械学習の具体的な方法について、ヴェルモレルは、サプライチェーンの専門家には馴染みのあるいくつかの方法を挙げています。これには移動平均、指数平滑化、ホルト・ウィンタースやボックス・ジェンキンスなどのより複雑なモデルが含まれます。彼は、これらの初期のアルゴリズムを比較的シンプルで、主にこの時期に利用可能なコンピュータの計算能力に合わせて設計されたものと位置付けています。これらの初期のモデルは、限られた処理能力とメモリの制約の中で、数百のデータポイントを数千回の操作で処理できるようにするため、迅速かつ効率的である必要がありました。

機械学習の進化についての会話を進める中で、ヴェルモレルは、非パラメトリックな統計モデルの出現を特徴とする、80年代後半から90年代にかけての重要な飛躍が起こったことを共有しています。この第一世代のパラメトリックモデルからの進化は、調整可能なパラメータの固定数(通常は数十個以下)で特徴付けられるものであり、重要な発展を表していました。

固定パラメータによって制約されるパラメトリックモデルは、一定のデータパターンにしか適応できませんでした。一方、非パラメトリックモデルは予め決まった形を持たず、十分なデータがあればどんなパターンでも学習することができました。この変化は、機械学習の能力と柔軟性の飛躍的な向上を示し、現在見られるより複雑で多様な機械学習アプリケーションの基盤となりました。

ヴェルモレルは、初期の予測モデルにおける過学習の課題を強調しながら話を始めます。パラメータの数を増やすことで、モデルが過去のデータに完全にフィットすることができますが、将来の予測能力は提供しませんでした。これは、非パラメトリックモデルの登場まで、数十年にわたってこの分野での大きな謎でした。

彼はその後、この時期に登場した分野内の2つの派閥について議論します:統計学習と機械学習です。前者はコンピュータを広範に使用した統計学を行う数学者からなり、後者は徐々に統計的アルゴリズムに移行していくコンピュータの専門家からなりました。彼は、これらの視点が異なるモデリングスタイルの発展をもたらしたと指摘しています。たとえば、統計学習派は数学的によく理解されているサポートベクターマシンを好みました。一方、機械学習派は、数値計算が多く含まれるニューラルネットワークにより魅了されました。

チャンドラーはその後、これらの分野の進化における技術の役割についての話題に移ります。ヴェルモレルは、90年代末により多くのデータがより良い結果につながるという重要な進展に言及しています。このアプローチは、長い時系列だけでなく、より多様なデータセットにも適用されました。最初は、これはより多くの履歴を蓄積する必要があるため、時間がかかるプロセスでした。しかし、機械学習と統計学習の進歩により、より多くの製品からのデータを活用することが可能となり、より正確な需要予測が可能になりました。

ヴェルモレルは、90年代末にサポートベクターマシンや2000年代初頭にランダムフォレストなどのモデルの導入を重要な進展として挙げています。これらのモデルは、より大きな、より多様なデータセットからの情報を捉えるための大きな進歩です。

その後、ディープラーニングの登場に話は移ります。ヴェルモレルは、重要な洞察の徐々の蓄積により、ディープラーニングは従来の機械学習とは大きく異なるものになったと説明しています。ディープラーニングの主な利点の1つは、浅い学習アルゴリズムと比較して、より少ないデータでより複雑な関数を学習する能力です。

興味深いことに、ヴェルモレルは、ディープラーニングが小規模なデータセットでは必ずしも古典的なアルゴリズムを上回るわけではないと指摘しています。しかし、非常に大規模なデータセットを扱う場合には優れた性能を発揮し、浅い学習アルゴリズムが利用できる余分な情報を活用することができます。

驚くべきことに、ディープラーニングは、初期のパラメトリックモデルとは異なり、複数の百万のパラメータを持つパラメトリックモデルの使用を復活させました。ここでの課題は、大規模な過学習を回避することであり、それは巧妙な技術の連続によって克服されました。

ヴェルモレルは、機械学習の進歩におけるグラフィカルプロセッシングユニット(GPU)の役割についてさらに議論します。これらはディープラーニングのタスクには欠かせないものですが、高価でエネルギーを消費します。クラウドコンピューティングプラットフォームは、オンデマンドのGPUファームを提供することで、この問題を緩和し、コストとエネルギー消費の問題に対処しています。これは、サプライチェーンの最適化に特に有益であり、統計的な予測は通常1日に1回実行されるため、GPUの割り当ては短時間で済みます。

機械学習の将来について話を進める中で、ヴェルモレルは、ディープラーニングスペクトラム内での非パラメトリックモデルへの回帰が予測されると述べました。彼は、「微分可能プログラミング」という新しいアプローチを指し示しました。このダイナミックなアプローチでは、ディープラーニングモデルの構造が学習フェーズ中に調整されます。このアプローチは、機械学習と統計学習における次の重要なフェーズとなる可能性があります。

L5 ビッグテック企業の現在の焦点について尋ねられた際、ヴェルモレルは、音声認識、音声合成、画像認識、自然言語翻訳が現在大きな投資を受けていると述べました。これらは機械学習の未来を牽引する研究開発の中核領域です。しかし、Lokadを含むサプライチェーン企業は、機械学習技術への大規模な投資に十分なリソースを持っていないため、やや遅れています。

L6 サプライチェーンの最適化は、画像処理などの他の分野と比較して、より小さなデータチャンクを扱うため、機械学習の応用において独特の課題を提供します。これには、CPUとGPUの両方のバランスの取れた利用が必要です。

チャンドラーは、急速な技術の変化と、実装されたソリューションがすぐに時代遅れになるという課題について言及しました。ヴェルモレルは、Software as a Service(SaaS)が有望な解決策になる可能性があると助言しました。彼は、Lokadを常にサービスを更新し最適化するSaaSプロバイダの例として挙げ、それによってクライアントの負担を軽減しています。

フルトランスクリプト

キーラン・チャンドラー: 今日のLokad TVでは、機械学習の世代的な発展を振り返り、この漸進的な進歩が機械学習の将来について何か手がかりを提供できるかを調査します。では、ジョアネス、最初の機械学習の世代はどのようなものでしたか?いつ頃始まったのですか?

ジョアネス・ヴェルモレル: 興味深いことに、最初の機械学習アルゴリズムは、ある意味でサプライチェーンに関連していました。50年代と60年代に登場した最初の時系列予測アルゴリズムです。それはすべての核心要素を備えていました:データ駆動型、統計的であり、実際にはデータからパターンを学ぼうとしていました。当時、人々はそれを機械学習とは呼ばず、単なる予測アルゴリズムとしていました。しかし、すべての要素はそこにありました。

キーラン・チャンドラー: では、どのような方法が使用されましたか?サプライチェーンの実践者のほとんどはそれを知っているでしょうね?

ジョアネス・ヴェルモレル: 移動平均、指数平滑法などが知られていました。また、この時代のより洗練された方法として、ホルト・ウィンタースモデル、ボックス・ジェンキンスモデルなどがあります。つまり、比較的シンプルなアルゴリズムのシリーズが、コンピュータが登場した直後に現れました。興味深いことに、企業にコンピュータが導入されるとすぐに、それらはサプライチェーンの最適化に使用されましたが、その目的は比較的控えめでした。

キーラン・チャンドラー: 当時の計算解析の世界は非常に異なっていたと想像します。その当時の主な焦点は何でしたか?

ジョアネス・ヴェルモレル: 主な焦点は、非常に少ない処理能力、メモリ、および計算を行う能力を持っていたことです。60年代と70年代にさかのぼるこれらの第一世代のモデルは、超高速であることに焦点を当てていました。つまり、処理するデータポイントが100個ある場合、それらのデータポイントに対して数千回の操作しか行われませんでした。これらのアルゴリズムは、キロバイトのメモリと1 MHz以下のプロセッサ周波数しか持たないマシン向けに設計されていました。

キーラン・チャンドラー: 当時は、今日と比較して計算解析に適用されるリソースがはるかに少なかったと想像します。次の世代が登場するまでには、長い時間がかかりましたか?

ジョアネス・ヴェルモレル: それは徐々に進化していきました。60年代と70年代に登場した最初のモデルの波があり、それらはすべてパラメトリックモデルでした。これらは、固定された数のパラメータを持つ統計モデルであり、通常は数十個以下です。

キーラン・チャンドラー: パラメータとは何を意味するのですか?

ジョアネス・ヴェルモレル: パラメータは数値のようなものです。つまり、統計モデルには、データに合わせて調整できるいくつかの数値があります。学習フェーズの本質は、これらのパラメータを見つけることです。通常、半ダース程度、より洗練されたモデルでは最大でダース程度のパラメータがあります。それがすべてです。80年代後半から90年代にかけて、非パラメトリックな統計モデルが登場しました。これは興味深いことでした。最初の世代のモデルは、時系列パターンや需要パターンを適合させることができず、パラメータの数が非常に限られていたため、過去のデータを観察して学習できる範囲も非常に限られていました。

キーラン・チャンドラー: パラメトリックから非パラメトリックへの第2世代の移行は重要でした。十分なデータがあれば、任意のパターンを学習することができる可能性がありました。90年代末のこのブレークスルーにより、数学的な特性の魅力的なモデルの開発が可能になりました。任意の大量のデータが与えられれば、過学習の問題を抱えることなく最適なモデルに近づくことができます。もちろん、過学習は、パラメータの数を増やすことでモデルが過去のデータと完全に一致するが、将来の予測能力を失うという問題です。過学習は、持っていないデータに対して正確な予測モデルを持つことに関する問題です。この問題は数十年にわたり意思決定者を悩ませていましたが、90年代末の非パラメトリックモデルの導入により、いくつかの満足のいく解決策が現れました。これらのモデルにより、機械学習の台頭が見られるようになりました。それはどのようにして起こったのでしょうか?そして、それはどのような影響を与えましたか?

ジョアネス・ヴェルモレル: 興味深いですね。用語の面では、いくつかの派閥がありました。統計学を行っていた数学者たちがコンピュータを積極的に利用して仕事をサポートするためにやってきたのが統計学習の派閥です。一方、機械学習は逆でした。コンピュータ関係の人々がこのような問題に遭遇し、徐々に統計アルゴリズムに移行し始めました。それは視点の違いでした。

たとえば、統計学習の派閥では、数学的な観点から理解されていたサポートベクターマシンがあり、これは硬派な統計コミュニティに訴えました。一方、機械学習コミュニティに訴えたのは、ニューラルネットワークや数値計算などです。これらはドメインに対する異なる視点であり、徐々に収束していきました。

キーラン・チャンドラー: 所属する派閥に関係なく、周りで進化していたのは技術とそれによって達成できる能力でした。では、これに関連してどのような重要な技術的な改善とブレークスルーがあったのでしょうか?

ジョアネス・ヴェルモレル: 90年代末のブレークスルーは、より多くのデータを持つことでより良い結果が得られるという考え方でした。ここで言うデータとは、単により長い時系列だけでなく、より多くの時系列も含みます。サプライチェーンの場合、これはより正確な需要予測を得ることができるかどうかを意味します。ただし、1年以上の販売履歴が必要な場合、別の1年を待たなければならず、非常に遅いプロセスです。さらに、新製品の発売や一部の製品の段階的な廃止があるため、あまり多くの履歴を得ることはできません。

より多くの製品からより多くのデータを活用するためのブレークスルーがありました。これは90年代末ではなく、2000年代により可能になりました。これを可能にしたのは、機械学習と統計学習のブレークスルーであり、すべて非パラメトリックモデルに関連しています。

これらの非パラメトリックモデルに関連する、サポートベクターマシンなどのブレークスルーモデルがありました。これらのモデルは、より多様な特徴を持つ大規模なデータセットから情報をキャプチャするのに非常にうまく機能し始めました。

キーラン・チャンドラー: ディープラーニングについて、これの影響と通常の機械学習との主な違いは何でしょうか?

ジョアネス・ヴェルモレル: 面白いことに、ディープラーニングはおそらく数十の重要な洞察の結合ですが、それは非常に段階的でした。それらのすべてを組み合わせることで、かなり大きな違いを生み出しました。ディープラーニングの一つの主な利点は、より少ないデータでより複雑な関数を学習できる能力です。浅い学習などの第2世代の機械学習アルゴリズムの問題は、十分なデータが与えられれば任意の統計的パターンを学習できるが、実際にはそれに到達するには膨大な量のデータが必要であり、それは完全に非現実的です。ディープラーニングは、ある意味では非常に大規模なデータセットをより良く活用することができました。

ディープラーニングは、小規模なデータセットでは必ずしも古典的なアルゴリズムを上回るわけではありませんが、データセットが非常に大きくなると、浅い学習アルゴリズムは実際には可能な限り多くの余分な情報を活用していませんが、ディープラーニングは活用できます。では、ディープラーニングの違いは何でしょうか?私たちは、1950年代や1960年代に早くから使用されていたパラメトリックモデルに戻っています。これらは固定数のパラメータを持ち、パラメータの数が動的な非パラメトリックモデルに移行しました。そして、ディープラーニングでは、パラメトリックモデルに戻っていますが、大きな違いはこれらのモデルが数百万ものパラメータを持っていることです。私たちのモデルは最大で2000万のパラメータを持つことがあります。

過剰適合を避けるために、ディープラーニングの運動の一環として非常に巧妙なトリックの連続が明らかにされました。もう一つの重要な要素は、計算ハードウェア(例えばグラフィックプロセッシングユニット(GPU))と最大の親和性を持つ統計モデルを考えることでした。ディープラーニングの計算トリックの一つは、すべてを線形代数に戻すことです。CPUの計算からGPUの計算に切り替えることで、追加の計算量を2桁増やし、以前は不可能だったことが可能になりました。

キーラン・チャンドラー: ハードウェアの進歩や処理能力について話していますが、この可能性を実現するために他の技術的な改善はありましたか?クラウドの登場はどのように関連していますか?

ジョアネス・ヴェルモレル: クラウドはデータの収集を容易にしました。ディープラーニングが本当に興味深いものになるためには、多くのデータが必要です。テラバイト単位のデータをシャッフルすることは、実際にはクラウドではるかに簡単です。

キーラン・チャンドラー: クラウドコンピューティングプラットフォームは、みんなにとって事を簡単にしました。たとえば、ディスククォータや複数の物理ドライブでのストレージの手動管理は不要になりました。それは正しいですか?

ジョアネス・ヴェルモレル: 確かにそうです。クラウドコンピューティングプラットフォームは、ストレージ管理に関連する多くの手動プロセスを排除しました。また、ディープラーニングに必要なすべての必要なレイヤーの統合を容易にしました。

キーラン・チャンドラー: ディープラーニングとGPUのコストはどうですか?それらはかなり高価で多くの電力を消費しますよね?

ジョアネス・ヴェルモレル: 確かに、グラフィックカードは400〜500ワットの電力を消費することがあります。複数のカードを持つと、電力問題になることがあります。しかし、クラウドコンピューティングは、オンデマンドのGPUファームを提供することでこれを緩和しました。サプライチェーンの特定の場合では、通常、統計的な予測を1日に1回行うだけです。GPUを1時間割り当てて、すべての計算を行い、それから好きなクラウドコンピューティングプラットフォーム(Microsoft Azure、Amazon Web Services、Google Cloudなど)に返すことができます。

キーラン・チャンドラー: 機械学習は過去数十年にわたって徐々に発展してきました。これからの機械学習の未来を予測するために何か手がかりを得ることはできますか?次に何が見られると予想できますか?

ジョアネス・ヴェルモレル: 興味深いことに、すべては循環しています。パラメトリックモデルと時系列予測から始まり、最初の一般的な機械学習アルゴリズムで非パラメトリックモデルに移行しました。次に、ディープラーニングでハイパーパラメトリックモデルに移行しました。現在、ディープラーニングスペクトラムで再び非パラメトリックモデルが出現しています。これらは、学習フェーズ中にモデルの構造自体を調整するより洗練されたディープラーニング手法です。明日のブームワードに賭けるなら、「微分可能プログラミング」です。このアプローチはディープラーニングに似ていますが、モデルの構築と学習フェーズ中の進化がよりダイナミックです。

キーラン・チャンドラー: つまり、微分可能プログラミングが新しいブームワードですね。サプライチェーン業界は、彼らが注目していることに関しては、ビッグフォーに比べて少し遅れていることがよくあります。現在、彼らはどのような研究に投資しており、次の1年ほどでどのような大きな進展が予想されますか?

ジョアネス・ヴェルモレル: 機械学習に関しては、テックジャイアンツが数十億ドルを投資している大きな問題は、音声認識、音声合成、画像認識、自然言語翻訳です。これらは情報駆動型学習における核心の問題であり、研究開発の面では先行しています。サプライチェーン、機械学習ソフトウェアを開発している企業も少し遅れています。需要を改善するために1年に10億ドルを投資するリソースをサプライチェーンには持っている人はいません。

キーラン・チャンドラー: 予測には相当な投資が行われていますが、必要なものの一部に過ぎないようです。それは大きな進展から数年遅れているように思われます。この点についてどのような考えをお持ちですか?

ジョアネス・ヴェルモレル: 正しいです。現在の大きな進展は、画像や音声処理など他の領域で見つかった技術をサプライチェーンの状況に適応することです。これには大規模な再開発が必要です。たとえば、これらの大きな問題には通常、大量のデータを処理する必要があります。例えば、画像は数メガバイトになります。したがって、CPUからGPUへのデータの移動に洗練されたパイプラインは必要ありません。画像は情報量が多く、計算が完了するまでGPUに長い間留まる大きなオブジェクトです。

一方、サプライチェーンには異なる要件があります。ストレージキーピングユニットなどの最適化したいオブジェクトは、データ的には小さいですが、数多く存在します。SKUの全履歴は数キロバイトに収まりますが、数千万もあります。したがって、これらの大規模な機械学習の問題に対してサプライチェーンに適用するには、さまざまな課題があります。CPUとGPUの両方を最大限に活用する必要があります。なぜなら、まだCPU側で行った方が良い計算がたくさんあるからです。

キーラン・チャンドラー: この業界は常に進化と変化を続けているようですね。実装はすぐに時代遅れになります。サプライチェーンのエグゼクティブはどのようにして追いつくことができるのでしょうか?何かアドバイスはありますか?

ジョアネス・ヴェルモレル: 変化の速さは確かに課題です。しかし、コンピュータに関しては常に問題でした。私の提案は、LokadのようなSoftware as a Service(SaaS)ソリューションを選択することです。たとえば、私たちの予測エンジンは第5世代になりましたが、クライアントはアップグレードのために何も技術的なことをする必要はありません。私たちはパッケージの一環として、彼らの代わりに次のバージョンにアップグレードします。

SaaSソフトウェアの登場により、この問題ははるかに簡単に管理できるようになりました。追いつくためにリソースを割り当てる必要はありません - ベンダーが代わりにそれを行います。これはオンプレミスソフトウェアの場合には当てはまりませんでした。そこでは、次のバージョンにアップグレードすることは通常、大きなプロジェクトでした。

ところで、クラウドコンピューティングプラットフォームは私たちにとってまさにこの同じ問題を解決してくれました。したがって、LokadのようなSaaSアプリを使用するサプライチェーンマネージャーは、サプライチェーンを最適化するための高度な予測分析を提供しますが、変化のペースに遅れることはありません。逆に、Lokadは私たちが使用しているクラウドコンピューティングプラットフォームがPlatform as a Service(PaaS)であるため、常に多くのものをアップグレードしています。

キーラン・チャンドラー: みなさん、技術の進歩については基本的に追いついているようですね。ジョアネス、考えを共有してくれてありがとう。次回もこのディスカッションを続けます。ご視聴ありがとうございました。