00:00:01 生成型AIの紹介と議論。
00:01:11 生成問題とその解決策の検討。
00:02:07 生成型AIの進化と進展についての議論。
00:03:02 機械学習のマイルストーンとツールの利用しやすさ。
00:04:03 AIツールの独特な面と成果について議論。
00:05:00 生成型AIの普及と利用しやすさ。
00:06:33 Stable Diffusionによる画像生成が利用可能になっている。
00:07:37 生成ツールの利用しやすさについて議論。
00:08:43 高次元オブジェクトの生成について解説。
00:09:38 次元容量における課題と改善点。
00:10:07 テキスト生成とその限界の探求。
00:11:15 様々なスケールでの一貫性について議論。
00:12:24 生成器の特異性と多様性の話題へ移行。
00:13:46 AI生成と人間生成の成果の比較。
00:14:59 機械学習モデルと言語生成についての議論。
00:15:51 AIにおけるコピペ手法の検討。
00:16:30 AIの常識の欠如が指摘される。
00:17:26 ChatGPTのIQテストの成績に関する言及。
00:18:45 AIの理解とその例について議論。
00:19:47 AIの浅い理解と高次元の融合について。
00:20:41 人工知能の複雑性とその歴史。
00:21:58 未知の要素とAI知性の進展について。
00:22:25 知性に対する認識の変化について議論。
00:23:45 ディープラーニングと人工知能に関する洞察。
00:24:24 人間の言語における潜在的知識の概念。
00:25:59 古代と現代における宇宙の理解。
00:27:02 Nasim Talebの著書からの『反脆弱性』の概念の紹介
00:28:01 生態系と人間社会における反脆弱性
00:29:31 ChatGPTの『知的』な議論生成能力に対する批判
00:31:05 企業における生成型AIの応用を検討。
00:31:37 サプライチェーン管理における生成型AIの可能な役割。
00:33:34 データ不足の分野におけるChatGPTの限定的な能力。
00:35:00 重要システムでのAI生成コード利用に対する注意。
00:36:04 サプライチェーンおよび周辺活動におけるAIの利点。
00:37:37 コード補完のための広範なコーパスの動向について議論。
00:38:45 パラメータ要件の比較:ChatGPT 対より小規模な生成器。
00:40:45 企業およびサプライチェーンにおける生成型AIの影響。
00:41:19 ラブクラフトの宇宙の深い真実に対する見解について議論。
00:42:01 技術の誤用とサプライチェーンソフトウェアとの関連性。
00:42:56 偽のケーススタディの作成と検証に関する懸念。
00:44:04 Lokadの競合他社による曖昧なマーケティング主張への批判。
00:45:10 AI言語モデルの限界について議論。
00:46:08 技術におけるAIの具体例を説明。
00:47:00 AIにおける特定の用語の重要性。
00:48:01 窓の購入を例えにしたAI理解のアナロジー。
00:48:48 ソフトウェアアーキテクチャの統合問題について議論。
00:50:14 企業向けソフトウェアにおけるコア設計の重要性。
00:50:54 トランザクション型データベースにおけるコア設計の例。
00:51:48 適切なソフトウェア設計と統合の必要性。
00:52:52 ベンダーの技術評価に関するアドバイス。
00:53:36 技術分野における成果の公表の重要性。
00:54:20 バズワードとしてのAIとベンダーの精査。
00:55:25 締めくくりのコメントとインタビューの終了。
要約
このインタビューでは、Lokadの創設者であるジョアンヌ・ヴェルモレルが、生成型AIの現状と影響について語り、特にChatGPTやStable Diffusionなどの進歩に焦点を当てています。ヴェルモレルは生成型AIとその歴史を説明し、画像生成やテキスト生成における段階的な進展を強調します。彼は、Stable DiffusionやChatGPTのような最近のツールが、成功率と利用可能性を向上させたユーザーフレンドリーな性質を持っていると述べています。さらに、ヴェルモレルは現在のAIモデルが常識や本当の知性に欠けているという限界を強調し、供給チェーン管理におけるAIの課題と可能性についても議論し、いくつかの企業が自社のAI能力について行っている曖昧で誤解を招く主張を批判しています。彼は、基盤となる技術を理解し、AIソリューションの評価において注意を払うことの重要性を強調しています。
詳細な要約
ホストのConor DohertyとLokadの創設者ジョアンヌ・ヴェルモレルとのインタビューでは、生成型AIの現状と影響について議論され、特にテキスト生成におけるChatGPTや画像生成におけるStable Diffusionなどの進展に焦点が当てられています。
ヴェルモレルは、生成型AIを「生成問題に対する提案された解決策の集合」として定義することから始めます。この生成問題とは、対象の集合のデジタル表現をもう一つ作り出すアルゴリズムや方法を開発することを含みます。彼は、この種の問題が数十年にわたって存在しており、狭い用途に対しては成功した生成器が存在していたと述べています。例えば、生成器は、イングランドのリアルな響きの場所の名称や、スティーブン・キングの小説のタイトルを作成するために利用されてきました。
同様に、画像生成の分野では、『ロード・オブ・ザ・リング』の舞台のように、山々、森、海岸線、そしてファンタジーな名称を備えた地図を作成できる生成器が存在していました。ヴェルモレルによれば、この分野の進展は、あらかじめ広範なルールセットではなく、入力データセットに依存する形で生成器をより広範に、そして段階的に進化させることを目指したものでした。
より広範な機械学習コミュニティが昨年達成した2つの顕著なマイルストーンとして、ヴェルモレルはテキスト生成におけるChatGPTと画像生成におけるStable Diffusionに言及しています。これらはこれまでにない大きな前進であり、ツールの利用可能性を向上させたものの、それらは革新的というよりも段階的な進歩に過ぎず、統計学、数学、またはコンピューターサイエンスにおける新発見を示しているわけではないと力説しています。
しかし、これらのツールが一般の人々でも数分以内に使い始めることができるほどパッケージ化され洗練されていたという事実は、確かに注目に値します。これは、印象的な画像やテキストを生成する能力はあったものの、多くの癖があり、効果的に操作するためには一定の専門知識が必要だった以前の生成ツールとは対照的でした。
Stable DiffusionとChatGPTは、そのユーザーフレンドリーな性質で際立っていました。例えばStable Diffusionでは、『森の中にある美しい城』のようなシンプルなプロンプトを入力することで、20%の確率で納得のいく画像を得ることができました。これは完璧とは程遠いものの、成功率がわずか1%であった以前の生成技術に比べ、大きな改善を示しています。
これは桁違いの改善を示しており、その感触はヴェルモレルがChatGPTについて語る際にも表れています。Stable Diffusionと同様に、ChatGPTの導入は、生成型AIの分野において、よりユーザーフレンドリーで利用しやすいツールへのシフトを示すものでした。
このインタビューの一部で、Conor DohertyとLokadの創設者ジョアンヌ・ヴェルモレルは、Generative Pre-trained Transformer(GPT)モデルの最近の進化と影響について議論しています。ヴェルモレルは、人気のChatGPTモデルは本質的に新しいものではなく、既存の技術を再パッケージ化し、より利用しやすくしたバージョンに過ぎないと強調しています。彼は、ユーザビリティの向上により、生成型AIが一般に広く利用されるようになった節目の年として2022年を挙げています。
その後、会話は、GPTモデルが大きな公共の影響を与えた具体的な事例へと移ります。ヴェルモレルは、昨年のリリースであるStable DiffusionやChatGPTの第3版などに注目し、これらのモデルの魅力と成功は、研究チームがこれらの技術をユーザーフレンドリーな形にパッケージ化するために払った努力にあると説明しています。
ヴェルモレルは、この利用しやすさの具体例を示しています。彼は、画像生成ツールであるStable Diffusionがオープンソースソフトウェアとしてリリースされたことに触れ、これによりPythonの経験がほとんどないユーザーでも約2時間でPythonプログラミング環境を構築し、独自にツールを探索できるようになったと述べています。ヴェルモレルは、Stable Diffusionを使用するために熟練したPythonプログラマーである必要はなく、コマンドライン実行の基本的な理解があれば十分であると強調しています。
また、オンラインチュートリアルの利用可能性や、無料で最大100枚の画像を生成できるユーザーインターフェース「Dream Studio」の立ち上げについても言及しています。その後の画像生成に対しては料金が発生するというモデルは、GPTのウェブアプリケーションにも当てはまります。
ジョアンヌ・ヴェルモレルは、最初に高次元画像を作成する複雑さについて説明し、例として1000x1000ピクセルの画像を挙げました。これは本質的に、三原色を考慮すると300万の次元に相当します。さらに初期のバージョンは512x512の容量に制限されていたが、改善が進行中であるとも述べています。
同様に、テキスト生成の問題も議論されます。ヴェルモレルは、テキスト生成における次元性は二つの方向から生じると説明しています。第一は、入力サイズまたはプロンプトに関するもので、これが1行から複数の段落、さらには数ページに及ぶ場合もあります。第二は、モデルが一貫性を失い始めるまでどこまで生成を続けられるかに関するものです。
ヴェルモレルは、現行のモデルには制約があり、最初から最後まで一貫して一冊の本を生成することはできないと指摘しています。テキストのサイズが大きくなるにつれて、問題は複雑になり、単語一つには局所的な一貫性、文にはより大きなスケールでの一貫性、段落ではさらに大きなスケールでの一貫性が必要となり、本となれば何百万、あるいは何千万もの抽象的な次元が関与する可能性があります。
その後、会話はこれらのモデルにおける「寛容さ」の側面について話が移ります。ヴェルモレルは、これはモデルがさまざまな問題に取り組んだり、多様な出力を生成する能力と解釈しています。ヴェルモレルによれば、過去5年間での興味深い進展は、ディープラーニングコミュニティが大規模なデータセットを活用する能力にあると述べています。
Wikipedia、ウェブフォーラム、または法律文書など、さまざまなソースからのテキストデータにおいても、ディープラーニングモデルは多様な出力を生成するよう進化しています。適切なプロンプトが与えられれば、詩から法的文書、コード、さらには遺伝子配列さえも生成可能です。同様に、画像においても出力はピクセルアートからフォトリアリスティックな画像、または様々な絵画スタイルに及ぶことができます。
Conor Dohertyは、ChatGPTのようなAIモデルが人間と比較してどれほど洗練されているかについてジョアンヌ・ヴェルモレルに問いかけます。ヴェルモレルは、洗練性の概念について、その意味を定義し明確にする必要があるため非常に複雑であると詳述します。彼は、チューリングテストの応用の可能性に応じて、現行のAIモデルは膨大なテキストコーパスからデータを統合していることに大きく依存していると述べています。
ある程度、彼はChatGPTが生成するものは、インターネット上に存在するテキストの断片を組み合わせる、進化した「カットアンドペースト」プロセスのようなものであると主張します。モデルの強みは、これらの断片を文法的かつ統語的に正しい方法で繋ぎ合わせ、単語、フレーズ、文の間に存在する高次の統計的パターンを識別する能力にあると認めています。ヴェルモレルは、生成されたテキストが人間らしく聞こえるかもしれませんが、それは主に既存の人間によって書かれた内容の再現に過ぎないと強調しています。
しかし、ヴェルモレルは議論を和らげるため、これらのモデルには常識が欠けていることを強調します。彼は、FacebookのAI責任者の例を挙げ、最も先進的なAIモデルでさえ猫の常識すら持っていないと主張していることを紹介します。これは、AIが基本的に統計的関係に基づいて動作し、常識に伴う直感的な理解を欠いているためです。彼は、この点を説明するために、大西洋の真ん中で交通を回避するGPSルートを提案するという、状況の不条理さを見落とすユーモラスなシナリオを例示しています。
現在のAIの限界をさらに明確にするため、ヴェルモレルは、ChatGPTが一連のIQテストにさらされたAmazonの研究実験について議論します。その結果、AIモデルは標準偏差1つ分低い成績を示し、AIが本来持つ人間の直感的理解なしに情報を組み合わせるに過ぎないという彼の見解と一致しています。
しかし、彼は、認知能力が限られている人でさえ猫よりはるかに賢いと強調します。この比較は、印象的な能力を持っていても、AIは猫の知能レベルには程遠く、ましてや人間と同等の知性を持つにはまだ遠いということを強調するものです。ヴェルモレルは、猫の認知能力の限界に対する私たちの認識にもかかわらず、同等の知性を持つAIモデルを作り出すにはまだ長い道のりであることを思い起こさせます。
この会話は、AIの洗練性の複雑さ、AIテキスト生成の背後にあるプロセス、そしてAIが現時点で直面している常識や内在的理解の限界を浮き彫りにしています。これは、AIの現状とその能力についての貴重な視点を提供するとともに、近い将来における期待を抑えるものとなっています。
ヴェルモレルは、AIの世界理解が非常に浅いという考えを詳しく説明している。彼は、これらのモデルが用いるプロセスを「入力データの高次元ブレンディング」と表現している。また、より洗練されたモデルであれば、これだけで知性が実現できる可能性もあると示唆するが、実際の知性はもっと複雑なものかもしれないと考えている。
彼の見解では、AIの進化は「知性とは何か」を定義するというよりも、「知性でないものは何か」を特定することに重きが置かれてきた。この明確化のプロセスは約70年間続いている。彼は、2011年から2012年にかけてのディープラーニングの突破口を、数多くの応用を可能にし、実質的な洞察をもたらした重要な転換点と位置付ける。しかし、彼はこの分野における不確実性を強調し、新たなAI手法が開発されるたびに、知性の理解を再定義する必要があるかもしれないと主張している。
その後、ホストはヴェルモレルに、特にChatGPTに焦点を当て、異なるバージョン間でのAIパフォーマンスの向上について質問する。ヴェルモレルは、ChatGPTを含む生成型AIが時間とともに大幅に改善されたことに同意するが、概念の理解における現状のギャップを埋めるために必要な改善を定量化するのは難しいと指摘する。
ドハーティが「ChatGPTの第4世代はどれほど優れている必要があるのか」と尋ねたところ、ヴェルモレルは率直に確信が持てないと認める。彼は、この問題が単なる線形の進歩に留まらないことを強調し、知性の理解において何が欠けているかが根本的な問題であると述べている。
歴史的な視点から、ヴェルモレルは1世紀前には、個人の知性が行列の逆転といった複雑な数学的課題をこなせるかどうかで判断されていたと指摘する。しかし、当時から知性の理解やその測定方法は大きく変化し進化している。彼は、AIの発展も、我々が知性について探求し挑戦する中で、同様の変革を遂げる可能性があるとほのめかす。かつては行列の逆転や円周率の20桁計算が卓越した知性の象徴とされていたが、今日では、これらの作業は単純な電卓でも可能な機械的作業とみなされ、その知性との関連性が疑問視される。彼は、これらのタスクにおいて人間より桁違いに優れるコンピュータが知性的とされない理由を指摘している。
ヴェルモレルの議論は、AIの能力とその影響、特にディープラーニングを用いた生成に焦点を当てる方向へと移る。彼は、表面的には非常に困難に見える多くの課題が、必ずしも知性を反映しているわけではないと示唆する。例として、ChatGPTのテキスト生成能力を挙げ、知性そのものを示すのではなく、むしろ知性でないものを浮き彫りにしていると提案している。彼はChatGPTを、真の知性の表れというよりも、人間の言語に潜む膨大な潜在知識の反映とみなしている。
潜在知識の概念を展開すると、ヴェルモレルはそれを、人間の理解と知識の総体として、言語に暗黙の形で表現されるものだと説明する。この潜在知識は、化学的性質、材料の抵抗性、融点などの詳細を含むデータベースや地図のような構造化された形で記録されることが多い。しかし、彼は、言語自体にもこの知識の重要な部分が体現されていると主張する。たとえば、「惑星が星を公転する」と述べることは、天体物理学の概念に対する理解を前提としていることを示している。
彼は、この潜在知識が辞書の定義のような最も単純な言語表現の中にも埋め込まれており、現代科学の多くを内包していると示唆する。さらに、ある単語や概念が存在しないことで、特定の知識すら認識されなくなる場合があると主張する。これを説明するために、彼はナシーム・タレブの著書『アンチフラジイル』に言及する。そこで彼は、「アンチフラジリティ」という、混沌や無秩序に抗するだけでなく、むしろその中で繁栄し改善する状態を表す概念を詳述している。これは、無秩序下で劣化する「フラジール」や、単に混沌に耐える「耐久性」とは大きく対照的である。ヴェルモレルは、この概念が生態系から人間社会に至るまで、さまざまなシステムを理解するための新たな視点をもたらした点で重要だと考えている。
彼らの議論は、言語と知識の根本的な関係にも及ぶ。ヴェルモレルは、「アンチフラジイル」のような新たな用語や概念の導入が、言語の限界ゆえに理解しづらい場合もあるが、知識の深い理解を大いに豊かにすることを示している。彼は、知識を表現し伝達する上での言語の役割を強調する。
人工知能の話題に移ると、ヴェルモレルは言語に内在する潜在知識の現象について論じる。彼は、この潜在知識が、人間らしいテキストを生成することのできるOpenAIのChatGPTのようなアプリケーションで重要な役割を果たしていると指摘する。彼はChatGPTを「決まり文句生成器」と批判し、その一見した知性は、膨大で多様なデータセットから広く受け入れられている考えや慣用句を組み合わせる傾向に起因すると説明する。
批判にもかかわらず、ヴェルモレルは、ユーザーが馴染みのない分野においても一貫性があり文脈に適したコンテンツを生成するChatGPTの能力の凄さを認める。この機能は、ChatGPTが極めて多様な分野から何百万ページものテキストを含む超大規模なデータセットで訓練されていることに起因すると示唆している。
会話が進む中で、彼らは企業およびサプライチェーン管理の文脈におけるChatGPTのような生成型AIの実用的応用について検討する。ヴェルモレルの見解では、生成型AIがサプライチェーン管理に及ぼす影響は、少なくとも直接的な意味では大きくないだろう。しかし、未来予測の難しさを強調し、生成型AIの範囲と可能性は今後進化し、さらに驚きをもたらすかもしれないとほのめかしている。
ヴェルモレルは、AI技術の注目度と能力が向上しているにもかかわらず、サプライチェーンの最適化に大きな影響を与えるとは限らないと主張する。彼は、これらのモデルがウェブのような大規模で自由にアクセス可能な情報源に依存し、画像やテキストのタグを解析することで成り立っていると説明する。しかし、取引履歴のようにサプライチェーン管理にとって重要なデータは、各企業固有のものであり、オープンに共有されたり容易にアクセスできるものではない。そのため、現行のAIツールは、サプライチェーンを効果的に 最適化する に必要な情報を欠いている可能性がある。
ドアフレームの販売例に焦点を当て、ヴェルモレルは、一般的なドアフレームに関するデータよりも、企業固有のドアフレームの販売履歴の方がサプライチェーン計画において有用であると説明する。彼は、このデータが企業内のサイロに隠されており、何を注文し、生産し、在庫すべきかについてより正確な予測を可能にする点を強調する。これは、広く利用可能なデータでより良い性能を発揮するChatGPTのようなAI技術が、関連するデータが乏しい場合には効果が薄れる可能性を示している。
しかし、ヴェルモレルは、AI言語モデルが特定のタスクにおいて有用である可能性を認める。たとえば、ChatGPTは、主にGitHubのようなプラットフォームでオンライン上に大量に存在する無料のコードによって、コードスニペットの生成を支援できる。このようなコードの豊富な入手可能性により、AIはまともなコードスニペットやプログラムを生成し、プログラマーの生産性向上ツールとして役立っている。しかし、彼はAIが生成するコードにも誤りが含まれる可能性があるため、慎重な監督が必要であると警告する。
将来を見据えて、ヴェルモレルは、AI言語モデルがノート作成、校正、会議の要約などの分野で支援する可能性があると推測する。例えば、2時間の会議ディスカッションを、重要な点を保持しつつ2ページの要約に圧縮できるかもしれない。しかし、現状ではChatGPTのようなAIツールは、その固有の限界からこれらのタスクに苦戦する可能性があると示唆している。それにもかかわらず、彼は今後10年以内に、これらのタスクをより効果的にこなすAI技術へと進化すると信じている。
ヴェルモレルは、データこそが根本的な課題であり、生成型AIモデルはサプライチェーンデータの本来持つ複雑さに十分に対応できないことを示している。その後、ドハーティはコーディング支援を目的とし、自律的にまともなコードを生成できるツールであるGitHub Co-pilotのアイデアに言及し、これが現状の課題により適しているのではないかと疑問を呈する。
ヴェルモレルはこれに反論し、GitHub Co-pilotとChatGPT-3はほぼ同じ技術的基盤―両者ともTransformerアーキテクチャを使用している―を共有していると述べる。違いはユーザー体験にあり、GitHub Co-pilotはキー入力ごとに自動補完を提供するのに対し、ChatGPT-3は対話型である。ヴェルモレルは、コード補完のための最良のツールは、コードだけでなくより広範なコーパスを利用するだろうと予測する。
さらに、ヴェルモレルはAmazonのチームによる最近の論文に言及する。その論文では、画像とテキストデータを融合する有望な生成モデルが議論され、パラメーター数を大幅に削減(ChatGPT-3の百億に対し約十億)しながらも、ChatGPT-3と同等、あるいは時にはそれ以上の性能を発揮していると主張している。ヴェルモレルは、より多様なデータタイプの融合により、シンプルでありながらも強力なモデルが構築できる可能性を示している点に興味を抱いている。
ヴェルモレルは、AIモデル開発において逆説的な観察を強調する。つまり、ChatGPT-3のような大規模モデルが必ずしも優れているとは限らないということである。彼は、パラメーター数が約十億に留まるにもかかわらず、前身である生成的敵対ネットワークよりも大幅に軽量で高速なStable Diffusionを例に挙げる。ヴェルモレルは、兆単位のパラメーターを有するChatGPT-3のような大規模モデルが本当に必要なのかは不明であると述べる。
この点を補強するため、彼は再びAmazonチームの研究に言及し、約十億パラメーターのモデルでChatGPT-3の性能をほぼ再現したと主張している。この小型サイズにより、現代のラップトップやワークステーションに搭載される一般的なグラフィックカード上で動作できるため、より広いアクセス性が実現されることになる。
初期の話題に戻り、ドハーティは、生成型AIが企業、特にサプライチェーンに対して正味のプラスの影響をもたらすのか、それともマイナスの影響をもたらすのかを問いただす。
ヴェルモレルは、科学技術の進歩は一般的に良いものであり、宇宙にはあまりにも過酷で人間の心に敵対する深遠な真実が存在するとして発見された場合、人々を正気の範疇から追いやるというラヴクラフトの悲観的な見解に反すると説明する。
ヴェルモレルは、旧石器時代からどのような道具も正しくも誤っても使われうると認める。サプライチェーンのエンタープライズソフトウェアの文脈において、彼は特に人工知能の誤用によって混乱が増すことを懸念している。彼によれば、ベンダーはすでにAIを過大に宣伝しており、マーケティング部門が無限の偽の事例研究を作成することで状況はさらに悪化する可能性がある。これにより、さらに誤解を招く主張や検証不可能な事例研究が生み出されるだろう。
ヴェルモレルは、以前は偽の事例研究を作成するのに手間がかかったが、現在ではAIの登場によりそれが容易になったと説明する。また、事例研究に参加する者は、企業が主張する利益が虚偽であると指摘するインセンティブを持たないことも指摘する。彼らは通常、その利益を確認し、ある種の成功を自分自身の功績として帰する。ヴェルモレルは、これらの技術が状況をさらに複雑化させると予測している。
競合他社のマーケティング戦略について議論する中で、ヴェルモレルは「サプライチェーン向けAI」という、脆弱で情報量に乏しい表現の使用に対して失望を示す。彼は、透明性の欠如と、意味のない決まり文句で埋め尽くされた長いページが作成され、製品に関する実質的な情報が提供されていない点を批判する。これにより、彼はその技術や機能、設計、さらにはそれを支える洞察を理解するのが難しくなると感じている。
ヴェルモレルは、サプライチェーン最適化における本物のAIアプリケーションは、高度に専門的かつ技術的なアプローチを必要とすることを指摘する。これらのアプリケーションは、Transformerアーキテクチャ、生成型ネットワーク、または階層的アプローチといった特定のアルゴリズムや構造に基づいている。彼は、企業が利用するAI技術について、正確かつ詳細な説明を提供する必要があると主張する。つまり、具体性のない「ただAIを使っている」という主張は、しばしば誤解を招くか、全く根拠がないものであるということである。
この点を説明するために、ヴェルモレルはAI技術を家の窓を購入する行為に例える。窓を購入する際、買い手は製品の詳細―例えば、木製なのか、アルミなのか、プラスチック製なのか、またシングルガラスかダブルガラスか―を期待する。同様に、AIに関しては、企業がどのようなAI技術を使用し、それがどのようにサプライチェーンに利益をもたらすのか、詳細に説明すべきだと考えている。彼は、漠然とした説明は、具体性のない「一般的な窓」を販売するのと同等であると主張する。
ヴェルモレルはこのアナロジーを拡張し、「サステナブルウィンドウ」という用語を批判する。彼は、そのような漠然とした説明が、明確さを提供するどころかさらなる混乱を招くだけであると論じる。同様に、窓について「優れた光」を提供すると謳う企業を批判し、これは具体的な証拠や詳細に乏しいAIの主張と同じであると指摘する。
さらに、ヴェルモレルは、GPT(Generative Pretrained Transformer)のようなAI技術の使用が業界内での混乱を増大させると予想する。これらのツールはマーケティング資料の生成や既存の技術スタックへの統合が比較的容易である一方で、ソフトウェアアーキテクチャがそもそもこれらの能力を考慮して設計されていなければ、サプライチェーン全体の機能や最適化に大きく寄与することはないかもしれない。
彼の見解では、このアプローチは既存の構造にダクトテープで追加部品を貼り付けるようなものであり、構造の改善やその適用に意味をもたらすものではない。ヴェルモレルは、企業が価値あるアルゴリズムを無意味な方法で業務に統合することで、「本物の」AI技術がさらに誤用され、業界の混乱を助長するリスクがあると警告する。
ヴェルモレルは、AIをサプライチェーン最適化に組み込む試みが非効率的で、実際には意味不明であるという傾向を批判している。彼は、これらのプロセスが改善されるべきソリューションに対して何の付加価値も与えていないことを指摘する。彼の主張を裏付けるため、ヴェルモレルはオペレーションズ・リサーチ、データマイニング、およびデータサイエンスに見られる歴史的な反復のパターンを持ち出し、認知的AIのような現在の傾向も、同様の現象の延長に過ぎない可能性があるとほのめかしている。
ヴェルモレルによれば、企業がエンタープライズソフトウェアの一部としてAIを最大限に活用したいのであれば、その統合は設計段階で行われるべきだといいます。彼は既存のソフトウェアに単に「ダクトテープ貼り」をしてAIを組み込むことに強く反対し、製品のコア設計は開発の最初にしか確立できないと強調します。製品が完成した後に無理にAIを組み込もうとする試みは、非常に困難であり、しばしば逆効果に終わるのです。
核心となる設計レベルの例を求められると、ヴェルモレルはトランザクションデータベースについて語ります。これらのデータベースはトランザクションの整合性を確保するために構築されており、画像やテキスト生成のような技術を活用するためには設計されていません。彼の見解では、これらの異なるパラダイムはほとんど互換性がなく、それらを調和させるのは当然のことではなく、ソフトウェアアーキテクチャ内での互換性を保証するためには、慎重な設計上の配慮と明確な指導原則が必要となるのです。
ヴェルモレルは、既存製品の横に付随するアドオンとしてAIを持たせる可能性は認めるものの、この方式では適切な統合や相乗効果が得られることは稀であると主張します。むしろ、製品を複雑化させ、より多くの可動部品や潜在的なバグを引き起こす結果となるのです。
サプライチェーン最適化へのAI統合を検討する人々への彼の助言は、まずベンダーに対して自社の提供する内容について徹底的に問いただすことです。彼は、ベンダーが自社の技術を明確かつ合理的に説明できることを確認するよう顧客に促しています。もしベンダーがそれを説明できないのであれば、それは製品自体、もしくはベンダーが自社技術を正しく理解していない兆候である可能性を示唆しているのです。
ヴェルモレルは、複雑なモデルの構築など真のAI技術の成果は、研究論文やその他の出版物を通じて公にされることが多いと強調しながら、自らの議論を締めくくります。これは、開発者が困難なことを成し遂げたという誇りからくるものであり、これらの成果が秘蔵された秘密ではなく、世界に向けて共有されることで、基盤的な技術の理解の重要性がさらに浮き彫りにされるという点を強調しています。
ヴェルモレルは、テック業界の一部の企業が達成した顕著な進歩を認めています。彼は、一定の技術的マイルストーンに到達した企業は、その成功の方法について詳細なレポートを発表することが多いと指摘し、これを実際の技術進歩の兆候と見なしています。
次に、ヴェルモレルは現代企業におけるAIの役割とその認識に対して批判的な立場を示します。彼は、AIを市場で大きな注目を集める流行語として位置づけ、その意味が非常に広範かつ曖昧なため、ほぼ何にでも当てはまってしまうと述べています。そして、特にベンダーのAI能力に関する主張を、具体的な説明なしに盲目的に受け入れることに対して警戒を促しています。
ヴェルモレルは、AIソリューションを提供すると主張するベンダーと取引する際には、提供内容の正確な性質を理解するための徹底した注意が必要だと断固として助言します。もし、ベンダーの営業担当者が自社が販売する技術についての知識不足を認め、それを別のテックチームの領域と片付けようとするならば、それはその企業が主張する技術力を持っていない明確な指標であると彼は警告するのです。
彼は「ノーベル賞受賞者を雇っている、我々にはアインシュタインがいる」といった言説に惑わされるべきではないと注意を促すことで、この点をさらに詳しく説明します。そのような主張は、実質的な証拠を伴わずに潜在的なクライアントに技術力をアピールするための煙幕に過ぎないと彼は主張します。多くの場合、そうした状況は、実際には革新性や技術的先進性が存在していない、従来のものの単なる延長線上であることを示唆しているのです。
この対話セグメントの締めくくりにあたり、ドハティはヴェルモレルが自身の洞察を共有してくれたことに感謝の意を示し、とても啓発的な議論だったと強調します。セグメントは、ドハティが聴衆に時間と注意をありがとうと述べ、今後もさらに有意義な対話を持って戻ることを約束する形で終了します。
完全な書き起こし
コナー・ドハティ: 近年、生成AIはサプライチェーンだけでなく、あらゆる分野に存在しています。これは全体としてプラスなのでしょうか、それともマイナスなのでしょうか? その説明をしてくれるのは、ヨアネス・ヴェルモレルです。ようこそ。
ヨアネス・ヴェルモレル: こんにちは、コナー。お呼びできて光栄です。
コナー・ドハティ: では、まず背景を整理しましょう。生成AIとは一体何なのでしょうか? なぜこれほどまでに普及しているのか、その目的は何なのでしょうか?
ヨアネス・ヴェルモレル: はい、生成AIとは本質的に、非常に古典的な生成問題に対する提案解の集合体です。生成問題とは、デジタルで表現された複数のオブジェクトがあり、そこから新たなインスタンスを生成するためのアルゴリズム、方法、またはレシピを探し出すことを指します。こうした問題は何十年にもわたって存在しており、特定の狭い状況下では多くの生成器が用意されてきました。例えば、現実的な響きを持つイギリスの地名や、スティーブン・キングの小説らしいタイトルを生成する生成器は、何十年も前から存在しています。また、画像生成の分野でも、例えば『ロード・オブ・ザ・リング』のような中世ファンタジー風の地図、すなわち小さな山々や森、海岸線、そして各所に散らばるファンタジー的な名称を持つマップを生成するツールがありました。生成器の概念は何十年も前からあり、その進歩は非常に漸進的で、生成器をより広範なものにする、つまりあらかじめプログラムされたルール群ではなく、豊富な入力データセットを活用する方向へと向かってきたのです。これが現時点での状況であり、このプロセスは何十年にもわたって進行してきました。昨年、機械学習コミュニティは、テキストにおいてはChatGPT-3、画像においてはStable Diffusionという、非常に注目すべき2つのマイルストーンを達成しました。しかし、これらはツールの利用しやすさにおけるマイルストーンであり、統計学、数学、またはコンピューターサイエンスにおける根本的な突破口ではありませんでした。これらは、素人でも数分で取り組んで遊べるほどパッケージ化され、洗練された初の製品だったのです。画像の分野では、十数年にわたり非常に優れた画像を生成する敵対的生成ネットワークが存在していましたが、これらのツールには多くの難点がありました。一方、Stable Diffusionは、ユーザーが「森の真ん中にある美しい城」といったプロンプトを入力するだけで、まともな画像を簡単に生成できるようにしました。完璧ではないにしても、十分に納得のいく画像が得られるのです。
コナー・ドハティ: つまり、これらのツールのアクセシビリティと使いやすさが桁違いに向上したということですか?
ヨアネス・ヴェルモレル: その通りです。ChatGPTも同様です。ちなみに、人気を博したGPTというモデルは、実は数年前から存在していたもので、よりアクセスしやすい形に再パッケージされたに過ぎません。結局、これは操作性の問題です。昨年のマイルストーンは、生成AIが秘められた存在から広く利用可能なものに変わったという点にあります。根本的な革新が起こったわけではなく、純粋にユーザビリティの向上だったのです。
コナー・ドハティ: 私が子供の頃には、「ラムーンズの名前を教えて」といった生成型ウェブサイトの例がありました。有名な例として、ミュージシャンのチャイルディッシュ・ガンビーノが同様のウェブサイトで名前を生成したとも聞いています。しかし、私自身はChatGPTの以前のバージョンには馴染みがなく、現在のバージョンは第三世代です。では、昨年のStable Diffusionや第三世代ChatGPTといったリリースは、どうしてこれほど注目を集めたのでしょうか?今やどこにでも存在しています。
ヨアネス・ヴェルモレル: 世間の注目を浴びたのは、研究チームが技術のパッケージングに注力した成果です。Stable Diffusionはオープンソースとして公開され、Python環境に精通していれば、多少Pythonに不慣れでも約2時間でプログラミング環境を構築し、各種機能を自分で試すことが可能でした。Pythonの専門家である必要はなく、一連のコマンドラインを実行できる程度で十分でした。多数のチュートリアルが提供され、コマンドライン操作ができれば、Stable Diffusionによって画像生成が可能になったのです。多少オタクっぽい面はありますが、過剰というほどではありません。さらに、Dream Studioという無料のユーザーインターフェースもあり、最初の100画像は無料で試すことができ、その後は次の100画像生成におよそ10ドルが必要となりました。Open GPTもまたウェブアプリとして提供され、簡単な登録を経て、現在では月額約20ユーロの料金で利用可能です。興味深いのは、どちらの場合も、たった1時間程度で広範な意味で生成器にアクセスできたという点です。ツールの感触を掴むには少々の経験が必要ですが、以前と比べれば桁違いに手軽になったのです。本当の進歩の面では、これらの生成器は何十年にもわたって二つの面で進化してきました。一つは次元性です。つまり、幅広い意味で高次元のオブジェクトを生成できるようにするということです。例えば、ローマ風の名前やイギリスの地名を生成するのは、文字数や音節数で考えると概ね10~20次元程度の低次元の問題ですが、1ページに及ぶテキストを生成する場合、数千の次元が関与します。また、1000×1000ピクセルの画像を生成する場合、主要な3色のために約300万次元の課題に直面します。これは大きな飛躍です。Stable Diffusionの初期は、512×512ピクセルという容量に制限されていました。現在改善が進んでいますが、この高次元性が大きな課題の一つでした。同様の問題はテキスト生成にも存在し、入力プロンプトとして使うテキスト量は、一行から複数段落、さらにはページ全体に及ぶ場合もあります。そして、生成されたテキストが全体として一貫性を保てるかという問題もあるのです。これらのモデルには限界があり、本全体を通じて、最初から最後まで一貫した内容を生成することはできません。テキスト生成では、一語であれば局所的な一貫性が求められ、一文であればより大きなスケールでの一貫性が必要となり、書籍レベルであれば、数百万から数千万にも及ぶ抽象的な次元、または自由度を扱うことになるのです。同様の問題は画像生成でも見られ、進歩の一環としては、高次元でありつつも一貫性を維持する方向へ進むことが挙げられます。対象を分割すれば、一枚の大きな画像よりも、二つの小さな画像の生成が容易になるのです。
コナー・ドハティ: つまり、これらの大きな次元について語る際、生成器は一貫性を保つべきだと言うのですか?
ヨアネス・ヴェルモレル: はい、その通りです。生成されたオブジェクトが、その大きさや複雑さに関わらず、絡み合いと一貫性を維持することが目標です。もう一つの進歩の側面は普遍性です。すなわち、狭い問題に特化した生成器なのか、それともあらゆる問題に対応可能な生成器なのかという点です。過去5年間で、ディープラーニングコミュニティは膨大なデータセットの活用において飛躍的な進歩を遂げました。テキストであれば、ウィキペディア、ウェブフォーラム、その他あらゆるテキストソースを網羅しており、適切なプロンプトさえ与えれば、詩、法律文、コード、さらにはゲノムに関するアドバイスさえも生成できるのです。画像においても、ピクセルアートからフォトリアリスティックな風景、さらには油絵風の作品まで、さまざまなスタイルの生成が可能となっています。
コナー・ドハティ: これらのアプリケーションの次元性について語る際、たとえばChatGPTで生成されたエッセイは、平均的な大学教育を受けた人が作成するものと比べて、どの程度洗練されているのでしょうか? 両者は同等のレベルにあるのでしょうか? すでにその段階に達しているのでしょうか?
ヨアネス・ヴェルモレル: 洗練性という点では、それをどう定義するかによって大きく異なるため、一概には答えにくい問題です。
コナー・ドハティ: 実は、私も割り込んでみたいと思います。例えば、チューリングテストを用いた場合、ChatGPTが生成したのか教室の学生が生成したのか判別できないほどかもしれませんね。
ヨアネス・ヴェルモレル: それは場合によります。これらのモデル、特にテキスト生成器は、膨大なコーパスを組み合わせることで動作しているからです。一部のテストでは、ChatGPTが書く内容の多くが、実際にはウェブのどこかから切り取って貼り合わせたものだと指摘されています。モデルの力は、これらの断片を文法的かつ統語的に正しく結合する能力にあります。つまり、単語、単語群、文の間に存在する高次の統計的パターンを見出し、それらを統計的にあり得る、または信頼できる方法で組み合わせるのです。人間が書いたように聞こえるか? 多くの場合そうですが、生成される内容の大部分は、ウェブ上のさまざまなサイトに存在するものを切り貼りしたものです。しかし、この突破口は、それを実現できた点にあり、これは非常に困難なことでした。単なるフレーズの切り貼りではなく、高次の統計的依存関係を理解し、それらを信頼性のある形で融合させる能力が求められているのです。しかし、常識という点では、FacebookのAI責任者が述べたように、これらの生成器は猫のような常識すら持っていません。これが、我々が直面している理解のレベルです。完全に統計的な関係性に依存しているのです。例えば、「大西洋の真ん中で渋滞を避けるにはどうすればよいか?」といった基本的な質問をした場合、新しいGPSを使ったより良いルートを提案するだけで、質問に込められたユーモアを全く理解できないかもしれません。要するに、テキストの断片を高次の統計的関係に基づいて組み合わせているにすぎないのです。
Conor Doherty: 私は、Amazonの研究者たちがChatGPTに一連のIQテストを実施し、その結果、平均より約1標準偏差低い約83であると判明したと信じています。これは、ここであなたが述べていることと一致しており、ただ適合するように情報の断片をつなぎ合わせているに過ぎないようです。
Joannes Vermorel: しかし、あなたは本質を見失っていると思います。非常に知能が低い人間、つまり完全に脳死ではない人間であっても、猫よりはるかに賢いのです。それにもかかわらず、仮説として提示され、私も同意するのは、我々は猫ほどの知能には到底及んでいないということです。まだまだその域には及んでいません。「でも、私の猫は例えば相対性理論について何も説明できない」と言うかもしれません。しかし、ChatGPTは数段落にわたる導入文をかなりうまく提供することができます。これは、ChatGPTがウェブ上で見つかる何千もの例からこの理論の良い要約部分を切り取り、貼り付け、混ぜ合わせて再生するからです。しかし、それが何かを「理解」していることを意味するわけではありません。たとえば、猫でさえ、もし何かがあるなら…と理解するでしょう。GPTを用いた具体例を挙げましょう。もしあなたがGPTに「パリ市からトゥール市まで車3台で2時間かかる。では、6台の車で行くとどれくらい時間がかかるか?」と尋ねれば、GPTは「6台は3台の2倍なので、約4時間かかる」と答えるでしょう。同様に、猫について考えてみると、猫は「もし友達がいれば、あっちに行きたい」と思うでしょうが、自分がいるか友達がいるかに関係なく、同じ時間がかかるのです。猫はこれほど精巧な表現はしませんが、私たちの三次元宇宙、時間の流れなどの非常に基本的な事柄については何らかの理解を示しています。改めて、GPTはその能力において非常に印象的であり、Stable Diffusionも同様です。しかし、これらのモデルが行っているのは、入力データの高次元的なブレンドに過ぎず、そのため理解は非常に浅いのが見て取れるのです。もしかするとこれで十分かもしれません。もしかすると、さらに精緻なモデルが登場すれば、知能とは結局のところ、この種のレシピをより大規模に積み重ねることに他ならないのかもしれません。しかし、私は状況はそれ以上に複雑だと考えています。意識のある研究者たちは、人工知能の全体像が結局「知能とは何でないか」を明確にするためのものであると示す多くの研究を行ってきたと私は思います。そして、それは過去70年ほど私たちが歩んできた旅のようなものなのです。
Conor Doherty: さて、先ほどあなたは、現行のChatGPTやStable Diffusion、つまり生成型AIは前の世代よりもおよそ1桁優れているとおっしゃいました。では、先ほど説明されたギャップを埋めるために、ChatGPTの第4世代はどれほど優れていなければならないのでしょうか?
Joannes Vermorel: 実際のところ、私たちはまだ分かっていません。なぜなら、突破口というのはいつもそうであるように、今回の本当のブレークスルーはディープラーニングそのものであって、ディープラーニングの応用ではなかったからです。ディープラーニングは2011~2012年ごろの画期的な技術であり、それが真の数学的・概念的突破口でした。これらは過去10年で得られた応用例や非常に精緻な洞察にすぎません。しかし、私たちは依然として何が欠けているのかを正確に理解していません。それは非常にオープンな問いであり、線形的な進歩として考えるべきではないのです。これが知能の難しさであり、私たちは何を欠いているのかが分からないのです。新たな手法が確立されると、そもそも知能とは何かを改めて考え直すことが可能になります。1世紀前に「どうやってある人が優れた知能を持っていると認めるか」と問われたら、学界の教授たちは「その人が行列の逆行列を求めたり、円周率の最初の20桁を計算できれば優れている」と答えたかもしれません。しかし、今日では電卓でもそれができるので、それは全く機械的な作業に過ぎません。円周率の最初の20桁を計算できることに知能は一切含まれていないのです。ここで用いられるのは、単純なレシピ、つまりアルゴリズムと呼ばれるものです。それをコンピュータで実行すれば何千桁でも計算できますが、だからといって知的であるとは言えません。1世紀前、真の人間の知能の表れとされたのは、実は機械化の容易な部分であったのです。現代では、コンピュータはこれらの計算において、実際に人間よりも10桁、いや15桁も優れているものの、それ自体は知能とは呼べません。少なくとも、これが現在の一般的な見解です。このAI世代、すなわちディープラーニングによって明らかになったのは、一見非常に難しそうまたは挑戦的なタスクが、実際にはそれほど知能を反映していない場合が多いということです。たとえば、ChatGPTは実際の知能よりも、知能でないことを多く語っているように見えます。つまり、英語および全ての人間の言語に含まれる潜在知識の量は莫大であるということです。「潜在知識」とは、例えば、人類の全知識の総体といえる抽象的な存在を意味します。化学者が過去1世紀にわたって収集した、化合物のすべての特性を詳述したデータベースがあるように、地球上で知られる全ての物質の抵抗率や融点を一覧化したデータベースが存在します。さらには、知識を別の形で収集した地図状の資料も存在します。そして、言語自体にも何らかの潜在知識が宿っています。私たちが使用する言葉は、宇宙についての深い理解を反映しているのです。星や惑星が存在し、惑星が星の周りを回っていると述べる場合、これは既に宇宙に関する多くの知識を包含していることを意味します。たとえば、古代ギリシャ人は星や惑星を全く異なる概念として理解していました。太陽もまた他の星と同様に星であると仮定することは、今や受け入れられ、語彙の一部となっています。これもまた潜在知識の一部です。辞書に記された定義を見ただけでも、現代科学から学ぶべき多くの事柄が読み取れるでしょう。逆に、ある単語が欠落していると、何らかの知識が存在すらしなくなる場合もあります。この状況の奇妙な例として、ナシーム・タレブの著書「アンチフラジャイル」が挙げられます。この本の基本的な前提は、もろさ(fragile)の正真正銘の反対を定義することでした。彼の定義では、fragileとは混沌と無秩序にさらされると悪化するものであり、耐久性がある、硬い、頑丈であるというだけでは、fragileの反対とは言えないのです。これらの特性は、混沌と無秩序の下では、ただ腐敗や劣化の速度が遅いに過ぎません。タレブは、混沌と無秩序に晒されたときに実際に改善するもの、つまり真の反対が何であるかを模索しました。この抽象的な視点から、彼は「アンチフラジャイル」という用語を生み出し、生態系や人間社会、その他多くの物事の見方に全く新たな展望をもたらしたのです。一語を導入することで、私たちの知識は豊かになりましたが、知識を伝達する方法が言語自体によるものであるため、これを理解するのは容易ではありません。
Conor Doherty: これで、最初に私が述べた点に戻ります。ChatGPTの卓越した性能は、言語自体に莫大な潜在知識が存在することを示しています。たとえば、政治家があなたの擁護したい原因に対応する今話題のバズワードを十個提示できるのもそのためです。彼らはそれをもとに全体の議論を展開し、実際には全く内容がないにもかかわらず、知的なことを言っているように見せかけるのです。
Joannes Vermorel: 興味深いことに、これこそがChatGPTの機能そのものです。ツールにプロンプトを与えると、常識や支配的な確立された視点に沿った、さまざまな広く受け入れられているアイデアを断片的に組み合わせてしまいます。もし、あなたの質問に格言だけで答える人物がいたと想像してください。ChatGPTはそれを行いますが、さらにすべての領域からの陳腐な表現を繋ぎ合わせるという点で、はるかに優秀です。あなたが全く知らない領域における陳腐な表現さえも通常は把握していないことを考えると、これは非常に印象的です。これが、非常に多様な分野から何百万ページものテキストを含む巨大なデータセットでジェネレーターを訓練するということの美点なのです。
Conor Doherty: これらを実際に応用するとなると、あなたの見解では、たとえば企業やサプライチェーンといった分野で、生成型AIには有用な応用例があるのでしょうか?
Joannes Vermorel: 企業分野は非常に広範囲なので、ここではサプライチェーンに絞って話します。サプライチェーンに関しては、直接的な適用はほとんどない、と私は考えます。しかし、未来を予測するのは極めて困難です。これらの生成モデルの強みは、無料でアクセスできるウェブ上の画像やタグを含む膨大な環境知識のプールに依存している点にあります。しかし、サプライチェーンの最適化において最も重要なデータは、あなたの取引履歴です。たとえば、ドアフレームを販売している場合、ドアフレームに関する一般的な知識が豊富であっても、サプライチェーンの計画にはほとんど役立ちません。昨年のドアフレームの販売履歴が、何を注文し、何を生産し、どう在庫を配分すべきかをはるかに明確に示しているのです。つまり、最も関連性の高いデータは、世に公に共有されるものではなく、企業内部のサイロに存在しているのです。企業は、ChatGPTとは異なり、オンライン上で多数の資料が公開されている事柄においてはこれらのツールが優れているという点で偏りが生じます。オンラインで広く公開されていない内容について議論すると、ChatGPTはすぐにその情報から乖離してしまいます。具体的に言えば、あらゆる最適化手法を考えたとしても、必要な入力データが存在しないため、確信をもって言えないのです。しかしながら、これらのツールは、あなたの開発を支援する上で重要な役割を果たす可能性があります。たとえば、ChatGPTは実際、コードスニペットの生成支援が非常に得意です。コーディングは、一般的な言語、つまり文字の並びであり、ChatGPTはタグだけでなくコードも生成することができます。GitHubをはじめとする多くの場所でオンライン上に膨大なコードが存在するため、ChatGPTが学習するための大規模なコードベースが既に利用可能となっています。したがって、ChatGPTはまずまずのコードスニペットやプログラムを作成する能力を持っています。プログラマー向けの生産性ツールとしては大きな可能性を秘めています。しかし注意すべきは、ChatGPTが生成するコードは、人間が書いたコードと同様に誤りが混じっている可能性があるということです。もし、航空機や車の次世代自動操縦システムを開発するような場合には、慎重な監督なしに使用すべきではありません。また、今後登場する技術として、会議の議事録のようなものが挙げられると考えています。現状では、ChatGPTが2時間の議論を、発言内容の詳細を最大限に保持しながら約2ページに要約できるかは定かではありません。しかし、同様のツールは今後10年以内にそれが可能になると確信しています。したがって、サプライチェーンにおいては多くの利点が存在するでしょう。しかし、それらの多くは会議の円滑化、ノートテイキング、文書の校正システムなどの周辺的なものであり、核心にある問題や課題はデータ自体にあり、これらの生成モデルはサプライチェーンにそのまま存在するデータを扱うのは不得手なのです。
Conor Doherty: コーディング専用に設計された他のプログラムはないのですか?つまり、ChatGPTはテキストベースの生成型AIですが、コーディング支援を目的としたGitHub Copilotがあり、それだけでもかなりまともなコードを生成できるのではないですか?
Joannes Vermorel: いいえ、それらのモデルはほとんど同一で、ほぼ交換可能です。それらの背後にある技術は非常に似通っており、同じTransformerアーキテクチャを使用しています。唯一の違いは、コーパスやユーザー体験でのわずかな違いだけです。GitHub Copilotは各キー入力ごとの自動補完を目指しているのに対し、ChatGPTは対話を重視しています。しかし、その違いは実際には薄いベニヤ板のようなもので、その下身は全く同じなのです。個人的には、コード補完のための最良のツールは、コードだけに留まらない、より幅広いコーパスを基に構築されるべきだと考えています。これを示す例として、Amazonのチームが発表した最近の論文が挙げられます。彼らは画像とテキストデータの両方を統合した有望な生成モデルを提示しました。彼らは、いくつかのベンチマークではChatGPTを上回り、他のほとんどの指標では同等の結果を出していると主張しています。しかし、良い生成モデルを見極めるのは、その生成モデル自体を作成するのと同様に複雑な問題であるため、慎重に受け止める必要があります。興味深いのは、彼らのモデルはChatGPTと同等の効果を発揮しながら、パラメータ数が10億程度であるのに対し、ChatGPTはそれの約100倍のパラメータを持っている点です。これは、より多様な種類のデータを組み合わせることで、より強力でシンプルなモデルが構築できる可能性を示唆しており、これは逆説的です。例えば、ChatGPTのモデルは膨大で、パラメータ数は数兆にも達します。しかし、そのような巨大なモデルが本当に必要かは定かではありません。実際、Stable Diffusionのブレークスルーの一つは、従来の生成対抗ネットワークと比較して2桁速く、かつ軽量なモデルであった点です。Stable Diffusionは約10億のパラメータしか持たず、ChatGPTに比べると非常に小さいのです。しかし、あるチームは、約10億パラメータ程度のサイズでChatGPTの性能を再現したと主張しています。これは、今日のノートパソコンやワークステーションで一般的に使用されるグラフィックカードで運用可能なサイズとほぼ同じであるため、非常に興味深いのです。
Conor Doherty: さて、これで最初、またはイントロ全体で私が述べたことに完全に戻るのですが、これは純粋にプラスなのでしょうか、それともマイナスなのでしょうか?では、企業またはより細分化されたサプライチェーンの具体的な文脈において、生成型AIは気を散らすもの、恩恵、あるいは呪いと見なされるのでしょうか?
Joannes Vermorel: 一般的に考えると、科学と技術の進歩はどんなものであれ良いことだと思います。私自身は、ラヴクラフト的な視点、つまり宇宙の深遠な真実があまりにも残酷で人間の心に敵対的で、それを知ってしまうと正気を失う、という考え方は持っていません。私の見解はラヴクラフト的なものではなく、基本的には進歩は良いことだと信じています。無知であるよりは確かにましです。さて、旧石器時代以降のどんな道具でも、最初のハンマーは動物を狩るためや同胞を殺すために設計される可能性がありました。ですから、技術は長い間、悪用される可能性という問題を抱えてきたのです。これらの技術は、サプライチェーン向けエンタープライズソフトウェアの分野でも、ノイズによる混乱の増大という形で悪用される恐れがあります。既に多くのベンダーが AI を狂ったように宣伝しており、今後はマーケティング部門が無限に偽のケーススタディを次々と作成することで、その効果を「11」まで引き上げることすら可能になるでしょう。かつては偽のケーススタディを作り上げるのに手間が必要でしたが、誰もあなたの主張を検証しないので、全てを偽装できたのです。あなたの主張のほとんどは検証不可能であり、私が講義で述べたように、ケーススタディの参加者には、あなたが「節約した」「獲得した」「生み出した」と言う何百万もの数字が偽であると主張する動機は全くありません。ケーススタディに関わるすべての人々は、「そうだ、全ての利益は本当で、もしそれが実現すれば少なくとも部分的には自分のおかげだ」と言う強い動機を持っているのです。だからこそ、これから状況はさらに混沌としていくと私は考えています。なぜなら、これらのチームは暴走し、さらに多くの偽のケーススタディや主張、そして技術を説明する中身のないページを生み出すからです。私自身、Lokad の多くの競合他社のウェブサイトを見てみましたが、興味深いのは、ページ全体が文章で綴られていて、最後まで読んでも何も学べないという点です。彼らは結局、陳腐な美辞麗句や中身を伴わない表現を巧みに回しているのです。
Conor Doherty: フリムフラメリー、それが私たちの言っていることですか?
Joannes Vermorel: はい、まさにその通りです。私はサプライチェーン向けの AI に関する10ページにも及ぶ文書を読むたびに、最終的にはその技術が何であるか、何をするのか、なぜそのように設計されたのか、あるいはその背後にある洞察が何であるか、一向に理解できないことに、いつも少々困惑させられます。これは本当に不可解です。以前はマーケティングチームが何日もかけて、こうしたふわふわした説明文を考え出していたのだと思います。しかし今や、ChatGPTのような生成 AI を使えば、たった瞬間で10ページ分の説明が作成できるのです。だから、もしサプライチェーンの最適化に AI が使われていると主張する内容の妥当性に疑問を抱くなら、それはほぼ疑わしいとしか言いようがありません。AIそのものが偽物だからではなく、この文脈で誤解を招くように表現されているからです。生成 AI というとき、Stable Diffusion、Transformerアーキテクチャ、生成ネットワークなどの特定の用語が使われます。これらの技術には名前があり、この分野の専門家は単に「AIをやっている」とは言いません。彼らは自分の仕事を説明するために、より正確な用語を使う必要があるのです。この精密さは、コミュニティ内で新たに形成されつつあるプロセスの一部として発展していきます。技術の詳細な説明を面倒だと感じる人々は、しばしばあいまいな用語に頼ります。たとえば、家の窓を買うとき、販売者はフレームの素材、ガラスの層数などを具体的に記載します。しかし、もし販売者が「窓を売ってる、信じて、良いよ」と具体性なく言ったら、それは疑わしいのです。技術的仕様を示す代わりに「持続可能な」といった流行語だけを使うのは、何も明確にせず、ただ謎を深めるだけです。これは、AIやChatGPTで起こる現象に似ています。これらのツールは、混乱を招くマーケティング資料を生成し、ベンダーが実質的な価値を生み出さずに、自社の技術基盤にそれらを組み込むことを可能にしてしまうのです。既存のソフトウェアアーキテクチャにこれらのツールを組み込むのは非常に容易ですが、もしそのアーキテクチャが技術の能力を最適化するように設計されていなければ、それは単なるガジェットに過ぎません。ソフトウェアにあと一つ何かを無理やり付け加えるのは常に簡単ですが、それが実際に違いを生むとか有用であるとは限らないのです。従って、私はこの状況がさらなる混乱を招くと考えています。これにより、ベンダーは何らかの実際の価値を持つアルゴリズムを組み込む機会をもう一段増やすかもしれませんが、それもまた意味不明な方法で行われるでしょう。結局のところ、そうしたことは解決策に何の価値も加えず、また別の問題となるのです。私たちは、50年前のオペレーショナルリサーチ、次いでデータマイニング、そしてデータサイエンスと、このような反復をすでにいくつか経験しています。今度は認知型 AI の反復がやってくるわけですが、企業向けソフトウェアとしてこの技術を最大限に活用したいなら、それは単なる追加機能では済みません。製品の設計段階から組み込む必要があり、それは後から変更できないコアな設計となるのです。製品のコアな設計というのは、最初にしかできないものだから、後から急ごしらえで取り付けることはできないのです。
Conor Doherty: あなたが話しているコア設計レベルの例を挙げてもらえますか?
Joannes Vermorel: 例えば、システムの中核にトランザクショナルな整合性を保証するために設計されたトランザクショナルデータベースがあるとしましょう。それは素晴らしいことです。しかし、その設計は画像やテキスト生成ツールを活用するための何の効果も発揮しません。それはトランザクション的な視点とは全く相容れないのです。あなたは取引を扱っているのに、テキストや画像を生成できるツールを持つというのは、全く別の領域の話です。つまり、適合するものを持つことが当然というわけではありません。通常、それを実現するためには、アーキテクチャの設計や指針に対して綿密な配慮が必要であり、そうしなければ全く合致しないのです。さもなければ、各要素はただ別々の軌道をたどるだけです。ソフトウェアにおいて誤解を招くのは、製品を作って、その横に追加機能を付け加えることが常に可能であるという点です。しかし、それは適切に統合されず、連携もせず、両者の間にシナジーが生まれるわけでもありません。結果として、可動部品が増え、バグも多い、より複雑な混乱状態を生むだけなのです。力のバランスを考えれば、私はこれをサプライチェーン最適化に統合しようとするのは控えるべきだと思います。しかし、もしベンダーがそのような提案をしてきた場合は、彼らが実際に何をしているのかを徹底的に調査する必要があります。観客への最後の助言としては、そのベンダーの技術ページを読むとき、それが自分にとって意味のあるものかどうかを必ず確認することです。あなたが専門家である必要はありません。もしベンダーが自社の技術が何で、何をし、どのような技術を用いているのかを分かりやすく伝えられないのであれば、それはほぼ確実に問題の兆候です。私の長いキャリアの中で、困難なことを成し遂げうる企業がその成果を隠すのを見たことは一度もありません。むしろ、この段階に達した企業は、自分たちの実績を誇示することにほくそ笑んでいるのです。ちなみに、Stable Diffusion や ChatGPT など、あらゆるモデルについても同じことが言えます。これらの成果は公開され、論文として発表されています。これは決して秘匿されたものではなく、むしろ技術的な達成のこの段階に到達した企業は、どのようにしてそれを成し遂げたのかを非常に詳細に公表するのが一般的です。これは極めて典型的な行動です。私の見解としては、AI には多くの価値がある一方で、それは単なる流行語に過ぎないという基本的なアドバイスです。ほとんど何でもこの傘の下に分類できてしまうのです。だからこそ、ベンダーからのアプローチがあった場合は、彼らが実際に何をしているのかを正確に理解することが不可欠なのです。もし、売り手がその理解を持っていなかったり、ベンダーが「私はただの営業担当で、技術はチームが知っている」と無知を装うのであれば、彼らを信用してはいけません。そのような発言は、彼らの主張の背後に実体のある技術が存在しないことを示しているに過ぎません。同じことの繰り返しに過ぎないのです。
Conor Doherty: では、ジョアンネス、本当にありがとうございました。多くのことを学びました。お時間をいただき、またご覧いただいた皆さん、ありがとうございました。では、また次回お会いしましょう。