00:00:01 生成AIに関する紹介とディスカッション。
00:01:11 生成問題とその解決策の探求。
00:02:07 生成AIの進化と進歩についての議論。
00:03:02 機械学習のマイルストーンとツールの利用可能性についての議論。
00:04:03 AIツールのクセと結果についての議論。
00:05:00 生成AIの人気と利用可能性についての議論。
00:06:33 Stable Diffusionによる画像生成のアクセシビリティ向上についての議論。
00:07:37 生成ツールのアクセシビリティについての議論。
00:08:43 高次元オブジェクト生成の説明。
00:09:38 次元容量の課題と改善についての議論。
00:10:07 テキスト生成とその制約の探求。
00:11:15 異なるスケールでの一貫性についての議論。
00:12:24 生成器の特異性と多様性に移行する。
00:13:46 AI生成の出力と人間の出力の比較。
00:14:59 機械学習モデルと言語生成に関する議論。
00:15:51 AIにおける切り貼りメソッドの探求。
00:16:30 AIの共通感覚の欠如についての言及。
00:17:26 ChatGPTのIQテストのパフォーマンスについての言及。
00:18:45 AIの理解と例についての議論。
00:19:47 AIの浅い理解と高次元のブレンディング。
00:20:41 人工知能の複雑さとその歴史についての議論。
00:21:58 AIの知識の未知の要素と進化。
00:22:25 知性の認識の変化についての議論。
00:23:45 深層学習と人工知能に関する洞察。
00:24:24 人間の言語における潜在的な知識の概念。
00:25:59 古代と現代における宇宙の理解。
00:27:02 ナシーム・タレブの著書からの「抗フラジリティ」の概念の紹介
00:28:01 生態系と人間社会における抗フラジリティ
00:29:31 ChatGPTの「知的な」議論生成能力の批判
00:31:05 企業における生成AIの応用の考察。
00:31:37 サプライチェーン管理における生成AIの潜在的な役割。
00:33:34 データが不足している領域でのChatGPTの能力の限定性。
00:35:00 クリティカルなシステムでのAI生成コードの使用に対する注意。
00:36:04 サプライチェーンと周辺活動へのAIの利益についての議論。
00:37:37 コード補完のためのより広範なコーパスへの傾向についての議論。
00:38:45 ChatGPTとより小さな生成器のパラメータ要件の比較
00:40:45 企業とサプライチェーンへの生成AIの影響についての示唆
00:41:19 ラヴクラフトの宇宙の深い真実に関する考察
00:42:01 サプライチェーンソフトウェアへの技術の誤用との関係
00:42:56 偽の事例研究の作成と検証に関する懸念
00:44:04 Lokadの競合他社の曖昧なマーケティング主張の批判
00:45:10 AI言語モデルの制約についての議論
00:46:08 技術におけるAIの具体的な説明
00:47:00 AIにおける具体的な用語の重要性
00:48:01 AI理解への窓の購入の類似性の比喩
00:48:48 ソフトウェアアーキテクチャの統合の問題に関する議論
00:50:14 企業ソフトウェアにおけるコアデザインの重要性
00:50:54 トランザクションデータベースにおけるコアデザインの例
00:51:48 適切なソフトウェアデザインと統合の必要性
00:52:52 ベンダーの技術評価に関するアドバイス
00:53:36 技術の成果を公表する重要性
00:54:20 AIをバズワードとしての利用とベンダーの審査
00:55:25 締めの言葉とインタビューの終了

要約

このインタビューでは、Lokadの創設者であるジョアネス・ヴェルモレルが、ChatGPTや安定拡散などの進歩を中心に、生成AIの状態と影響について説明しています。ヴェルモレルは、生成AIとその歴史を説明し、画像やテキストの生成における段階的な進歩を強調しています。彼は、安定拡散やChatGPTなどの最近のツールのユーザーフレンドリーさと成功率の向上について言及しています。ヴェルモレルは、現在のAIモデルの共通感覚や真の知性における制約を強調しています。また、彼はサプライチェーン管理におけるAIの課題と可能性について議論し、一部の企業がAIの能力に関して曖昧で誤解を招く主張を批判しています。ヴェルモレルは、基礎となる技術の理解とAIソリューションの評価時の慎重さの重要性を強調しています。

詳細な要約

ホストのコナー・ドハーティとLokadの創設者であるジョアネス・ヴェルモレルのインタビューでは、特にChatGPT(テキスト)やStable Diffusion(画像)などの進歩を中心に、生成AIの現在の状態と影響について議論しています。

ヴェルモレルは、生成AIを、生成問題への提案された解決策の集合として定義し、アルゴリズムや方法を開発してデジタル表現のコレクションの1つ以上のインスタンスを作成する問題を含むと述べています。彼は、この種の問題が数十年前から存在し、狭いアプリケーションでは成功した生成器が存在していることを述べています。例えば、生成器はイギリスのリアルな場所の名前やスティーブン・キングの小説のタイトルを作成するために使用されてきました。

同様に、画像生成の領域でも、『ロード・オブ・ザ・リング』の設定に似た地図を作成することができる生成器が存在しています。山や森、海岸線、幻想的な名前が揃った地図です。ヴェルモレルによれば、この分野の進歩は段階的であり、生成器をより広範にし、入力データセットに依存するようにすることを目指しています。あらかじめコーディングされたルールの集合ではなく、ということです。

昨年、機械学習コミュニティ全体で達成された2つの注目すべきマイルストーン、テキストのChatGPTと画像のStable Diffusionに焦点を当てながら、ヴェルモレルはこれらのツールが前進した重要なステップであると述べています。ただし、これらは画期的なものではなく、統計学、数学、コンピュータサイエンスの新しい発見を表しているわけではないと強調しています。

ただし、これらのツールがパッケージ化され、磨かれており、一般の人々が数分で使用を開始できるようになったという事実は、確かに注目に値します。これは、以前の生成ツールとは対照的であり、印象的な画像やテキストを生成することができたとしても、多くの特異点があり、効果的に操作するためには専門知識が必要でした。

Stable DiffusionとChatGPTは、その使いやすさで注目されました。例えば、stable diffusionでは、「森の中にある美しい城」といったシンプルなプロンプトを入力すると、20%の確率で信憑性のある画像が得られます。これは完璧とは言えませんが、成功率が1%だった以前の生成技術と比べて、大幅な改善を表しています。

これは桁違いの改善を示しており、ヴェルモレルがChatGPTについて語る際にも同様の感想が述べられています。stable diffusionと同様に、ChatGPTの導入は、生成AIの領域でより使いやすくアクセスしやすいツールへの移行を示しています。

このインタビューのセグメントでは、Conor DohertyとLokadの創設者であるJoannes Vermorelが、Generative Pre-trained Transformer(GPT)モデルの最近の進化と影響について議論しています。ヴェルモレルは、人気のあるChatGPTモデルが基本的に新しいものではなく、既存の技術を再梱包し、よりアクセスしやすくしたものであると強調しています。彼は、2022年を一般に生成AIが広く利用可能になった節目の年と位置付けており、これは主に使いやすさの向上によるものです。

その後、GPTモデルが大きな公的な影響を与えた具体的な事例に話が移ります。ヴェルモレルは、昨年のリリースであるStable DiffusionやChatGPTの第3世代などに注目し、これらのモデルの魅力と成功は、研究チームがこれらの技術を使いやすい形で提供するために行った努力にあると説明しています。

ヴェルモレルは、この使いやすさの例を挙げています。画像生成のツールであるstable diffusionは、オープンソースソフトウェアとしてリリースされました。これにより、Pythonの経験がほとんどないユーザーでも、約2時間でPythonプログラミング環境をセットアップし、ツールを独自に探索することができます。ヴェルモレルは、stable diffusionを使用するためには、優れたPythonプログラマーである必要はなく、コマンドラインの実行の基本的な理解が十分であると強調しています。

彼はまた、オンラインチュートリアルの利用可能性や、無料のユーザーインターフェースであるDream Studioのローンチにも言及しています。Dream Studioでは、無料で最大100枚の画像を生成することができます。追加の画像バッチについては、料金が発生します。これはGPTのWebアプリケーションにも適用されるモデルです。

ジョアネス・ヴェルモレルは、まず、高次元の画像を作成する複雑さについて説明し、1000x1000ピクセルの画像の例を挙げています。これは、3つの主要な色を考慮すると、実質的には300万次元に相当します。彼はさらに、初期のイテレーションは512x512の容量に制限されていたが、改善が進行中であると述べています。

同様に、テキスト生成の問題についても議論されています。ヴェルモレルは、テキスト生成における次元の複雑さは2つの方向から生じると説明しています。1つ目は、行から複数の段落やページまでさまざまな入力サイズやプロンプトの問題です。2つ目は、モデルが一貫性を失い始めるまでに生成がどれだけ進むかという問題です。

ヴェルモレルは、現在のモデルの制約について指摘しています。これらのモデルは、終始一貫した本を生成することができません。テキストのサイズが大きくなるにつれて、課題も増えます。単語は局所的な一貫性を必要とし、文はより大きなスケールでの一貫性を必要とし、段落はさらに大きなスケールでの一貫性を必要とし、本は数百万または数千万の抽象的な次元を含む可能性があります。

その後、会話はこれらのモデルの「寛容性」の側面について議論されます。ヴェルモレルは、これをモデルがさまざまな問題に対処したり、多様な出力を生成したりする能力と解釈しています。ヴェルモレルによれば、過去5年間の興味深い進展は、ディープラーニングコミュニティが大規模なデータセットを活用する能力です。

Wikipediaやウェブフォーラム、法的なテキストなど、さまざまなソースからのテキストデータであれば、ディープラーニングモデルは多様な出力を生成するように進化しています。正しいプロンプトが与えられれば、詩から法律用語、コード、さらにはゲノム配列まで何でも生成できます。同様のことは画像にも当てはまり、出力はピクセルアートから写実的な画像、さまざまな絵画のスタイルまで幅広いです。

コナー・ドハティは、ChatGPTなどのAIモデルの洗練度についてジョアネス・ヴェルモレルに尋ねます。ヴェルモレルは、洗練度という概念について詳しく説明し、その意味を定義し明確にする必要性のために複雑であると説明します。チューリングテストの可能な応用に対しては、現在のAIモデルの状態は膨大な量のデータを組み合わせることに大きく依存していると述べ、膨大なテキストコーパスから引用しています。

彼は一部では、ChatGPTがインターネット上で見つかったテキストの断片を組み合わせる一種の高度な「切り貼り」プロセスを生み出していると主張しています。彼は、モデルの力が、これらの断片を文法的に正確な方法で繋ぎ合わせ、単語、フレーズ、文の間に存在する高レベルの統計的パターンを識別する能力にあると認めています。ヴェルモレルは、生成されたテキストが人間らしく聞こえるかもしれないが、主に既存の人間によって書かれたコンテンツの再現であると強調しています。

ただし、ヴェルモレルは、これらのモデルには常識がないと述べ、議論を抑えます。彼は、FacebookのAI責任者の例を引用し、最も高度なAIモデルでも猫の常識を持っていないと主張しています。これは、AIが基本的に統計的な関係に基づいて動作し、常識に伴う直感的な理解を欠いているためです。彼は、この点をユーモラスなシナリオで説明し、AIモデルが大西洋の真ん中で交通渋滞を避けるためのGPSルートを提案するが、その状況の馬鹿げたさに気づかないと述べています。

現在のAIの制約をさらに明確にするために、ヴェルモレルはAmazonの研究実験について議論します。この実験では、ChatGPTが一連のIQテストにさらされました。その結果、AIモデルは標準偏差の1つ下に位置し、ヒトの持つ固有の理解を欠いて情報を組み合わせることが主な特徴であるという彼の見解と一致しています。

ただし、彼は認知能力に制限のある人でも猫よりもはるかに賢いと強調します。この比較は、印象的な能力を持つAIでさえも、猫、ましてや人間の知能レベルには遠く及ばないことを強調するものです。ヴェルモレルは、猫の認知能力に対する私たちの認識にもかかわらず、私たちはまだ同等の知能を持つAIモデルを作成するにはほど遠いということを思い出させてくれます。

この会話は、AIの洗練度、AIテキスト生成のプロセス、およびAIが現在直面している常識と固有の理解の制約を強調しています。それはAIの現状と現在の能力について貴重な視点を提供し、その即時の将来に対する期待を抑えるものです。

ヴェルモレルは、AIの世界への理解が非常に浅いという考えを詳しく説明しています。彼は、これらのモデルが使用するプロセスを「入力データの高次元ブレンディング」と表現しています。また、より洗練されたモデルでは、これだけで知能を達成することができるかもしれないという可能性も考えていますが、実際の知能はより複雑かもしれないと疑っています。

彼の見解では、AIの旅は、知能が何であるかを定義するよりも、何でないかを特定することによって進んできたと述べています。この明確化のプロセスは約70年間続いています。彼は、2011年から2012年にかけてのディープラーニングの突破を重要な転換点として挙げ、これによって多くの応用が可能になり、重要な洞察が得られたと述べています。しかし、彼はこの分野の不確実性を強調しています。彼は、新しいAIの技術が開発されるたびに、知能に対する私たちの理解を再定義する必要があるかもしれないと述べています。

ホストは、AIのパフォーマンスの改善について、特にChatGPTに焦点を当ててヴェルモレルに質問します。ヴェルモレルは、ChatGPTを含む生成型AIは時間の経過とともに大幅に改善されたと認めますが、AIの概念理解のギャップを埋めるために必要な改善の量を定量化することの難しさにも言及しています。

ドハティの質問に対して、ChatGPTの第4のイテレーションがどれだけ優れている必要があるのかについて、ヴェルモレルは率直に確信がないと認めます。彼は、問題が単なる線形の進歩ではないと強調し、根本的な問題は、知能の理解において私たちが何を見落としているのかを知らないことにあると主張しています。

歴史的な視点として、ヴェルモレルは、100年前には、個人の知能は行列の逆行列を求めるなどの複雑な数学的なタスクを実行する能力によって判断されるかもしれないと指摘しています。しかし、その後、知能の理解と測定は大きく変化し進化してきました。彼は、AIの発展も同様の変革を経験するかもしれないと示唆しています。100年前には、行列の逆行列を求めたり、円周率の20桁を計算するなどの能力は、優れた知能の兆候と考えられていました。しかし、今日では、これらのタスクは機械的であり、簡単なポケット計算機でも実現可能であり、その知能との関連性に疑問が投げかけられています。彼は、これらのタスクにおいて人間よりもはるかに優れているにもかかわらず、コンピュータは知能とは見なされていないと指摘しています。

ヴェルモレルの議論は、AIの能力と影響について、特にディープラーニングを用いた生成に焦点を当てています。彼は、表面上は非常に困難に思える多くのタスクが、知能としての本質的な理解を反映しているとは言えないかもしれないと提案しています。例えば、ChatGPTのテキスト生成能力を考えると、ヴェルモレルは、それが知能が何であるかを示すのではなく、人間の言語に潜在する膨大な知識を反映していると考えています。彼は、ChatGPTを真の知能のデモンストレーションではなく、人間の言語に潜在する膨大な知識の反映と見ています。

潜在的な知識の概念についてさらに展開すると、ヴェルモレルは、それが言語に暗黙的に表現された人間の理解と知識の累積総量であると説明しています。この潜在的な知識は、化学的な性質や材料の抵抗性、融点などの詳細を含む、データベースや地図などの構造化された形式で記録されることがしばしばあります。しかし、ヴェルモレルは、言語もこの知識の重要な部分を具体化していると主張しています。彼は、私たちが使用する言葉やフレーズが、宇宙の集合的な理解を前提としていると主張しています。例えば、「惑星は恒星の周りを公転する」と言うことは、天体物理学の概念を理解していることを前提としています。

彼は、この潜在的な知識が、辞書の定義などの最も単純な言語表現の中にも埋め込まれていると提案しています。これにより、現代科学の多くを網羅することができます。彼はさらに、特定の単語や概念の欠如が、ある種の知識が認識されることさえ妨げることを主張しています。これを説明するために、彼はナシム・タレブの著書「アンチフラジル」を引用しています。彼は、「アンチフラジル」という概念を説明し、これはカオスや無秩序に抵抗するだけでなく、そのような状況で繁栄し改善する状態を表す言葉であると述べています。これは、カオスによって劣化する「壊れやすい」ものや、カオスに対して単に耐える「耐久性のある」ものとは対照的です。ヴェルモレルは、この概念が生態系から人間社会までさまざまなシステムを理解するための新しい視点をもたらしたと見なしています。

彼らの議論は、言語と知識の固有の関係にまで広がります。ヴェルモレルは、「アンチフラジル」などの新しい用語や概念の導入が、理解を大幅に豊かにすることができるが、言語の制約のために理解することが難しい方法であると示しています。彼は、言語が知識を表現し伝える上での役割を強調しています。

人工知能の話題に移るにつれて、ヴェルモレルは言語に存在する潜在的な知識の現象について議論します。彼は、この潜在的な知識がOpenAIのChatGPTなどのアプリケーションにおいて重要な役割を果たしていることを指摘しています。ChatGPTは人間のようなテキストを生成することができるモデルです。ヴェルモレルはChatGPTを「平凡な生成器」と批判し、その知性のように見えるものは、広範で多様なデータセットから広く受け入れられているアイデアや慣用句を組み合わせる傾向にあると述べています。

彼の批判にもかかわらず、ヴェルモレルは、ChatGPTがユーザーが馴染みのない領域でも一貫した文脈に適したコンテンツを生成する能力の印象的さを認めています。彼は、これはChatGPTが非常に多様な分野から数百万ページのテキストで構成される超巨大なデータセットで訓練されているためだと示唆しています。

会話が進むにつれて、彼らはChatGPTのような生成型AIの実用的な応用について企業やサプライチェーン管理の文脈で考えます。ヴェルモレルの見解では、生成型AIがサプライチェーン管理に与える影響は、少なくとも直接的な意味では大きくないと考えられます。しかし、彼はまた、未来を予測することの難しさも強調し、生成型AIの範囲と可能性が今後進化し、驚くべきものになるかもしれないと示唆しています。

ヴェルモレルは、AI技術の重要性と能力が増しているにもかかわらず、それらがサプライチェーンの最適化に重要な影響を与える可能性は低いと主張しています。彼は、これらのモデルがウェブなどの大規模で自由にアクセス可能な情報源であることを理由に挙げています。そこでは、画像やテキストのタグを分析します。しかし、サプライチェーン管理に重要なデータ(例えば、取引履歴)は各企業に固有であり、公開されたり簡単にアクセスできるものではありません。したがって、現在の形態のAIツールは、サプライチェーンプロセスを効果的に最適化するために必要な情報を欠いている可能性があります。

ドアフレームの販売の例に焦点を当てて、ヴェルモレルは、ドアフレームに関する一般的なデータはサプライチェーン計画において、企業の特定の販売履歴よりも有用性が低いと説明しています。彼は、このデータが企業の「サイロ」に隠れていることが重要であり、何を注文し、生産し、在庫にするかをより正確に予測することができると強調しています。広く利用可能なデータで優れたパフォーマンスを発揮するChatGPTのようなAI技術が、関連するデータが少ない場合には効果が低い可能性があることを強調しています。

ただし、ヴェルモレルは、AI言語モデルがいくつかのタスクにおいて価値があると認めています。例えば、ChatGPTは、GitHubなどのプラットフォームを中心に、オンラインで自由に利用できる大量のコードを生成するのに役立つことがあります。この利用可能性により、AIはまともなコードスニペットやプログラムを生成することができ、プログラマーの生産性ツールとして機能します。ただし、AIが生成したコードには誤りがある可能性があるため、注意深い監視が必要です。

ヴェルモレルは、AI言語モデルがノート作成、校正、会議の要約などの領域で役立つ可能性があると推測しています。例えば、彼らは2時間の会議の議論を重要な詳細を保持しながら2ページの要約に圧縮することができるかもしれません。ただし、彼は現在のAIツール(ChatGPTなど)がこのようなタスクには苦労する可能性があると指摘しています。それにもかかわらず、彼はAI技術が次の10年でこのようなタスクをより効果的に処理するように進化すると信じています。

ヴェルモレルは、データを課題の核心と位置付け、生成型AIモデルがサプライチェーンデータの固有の複雑さにうまく対処できないことを示しています。ドハティはGitHub Co-pilotという、コーディングを支援するツールについて言及し、それが現在の仕事にはより適しているのではないかと疑問を呈します。

ヴェルモレルはこれに反論し、GitHub Co-pilotとChatGPT-3はほぼ同じ技術的基盤を共有していると述べます。違いは、ユーザーエクスペリエンスにあり、GitHub Co-pilotはキーストロークごとに自動補完を提供する一方、ChatGPT-3はより対話志向です。ヴェルモレルは、コード補完のための最良のツールは、コードだけでなくより広範なコーパスを利用する可能性が高いと予測しています。

ヴェルモレルは続けて、Amazonチームの最近の論文に言及します。この論文では、画像とテキストデータを統合する有望なジェネレーターについて言及し、ChatGPT-3と比較して同等または優れた性能を持ちながら、パラメーターが少ない(ChatGPT-3の1000億に対して10億)と主張しています。ヴェルモレルは、これはより多様なデータタイプを組み合わせることで、よりシンプルでありながらより強力なモデルを作成できる可能性を示唆していると述べています。

ヴェルモレルは、AIモデルの開発における逆説的な観察を強調します。ChatGPT-3のような大規模なモデルが必ずしも優れているわけではないと述べています。彼は、Stable Diffusionというモデルを例に挙げます。これは、生成的対抗ネットワーク(GAN)の前身であるモデルよりもはるかに軽量で高速ですが、パラメーターは約10億です。ヴェルモレルは、ChatGPT-3のような大規模なモデル(兆パラメーターの範囲にある)が必要かどうかは明確ではないと述べています。

このポイントを強調するために、彼は再びAmazonチームの研究を挙げ、10億パラメーターモデルでChatGPT-3の性能をほぼ再現したと主張しています。彼は、このより小さなサイズにより、現在のノートパソコンやワークステーションで見つかる一般的なグラフィックカードでの動作が可能になると説明しています。これにより、より広範なアクセスが可能になります。

初期のトピックに戻りながら、ドハティは、生成型AIが企業、特にサプライチェーンにとって正の影響または負の影響をもたらすのかという疑問を投げかけます。

ヴェルモレルは、科学と技術の進歩は一般的に良いものであり、ラブクラフトの悲観的な視点とは対照的であると説明します。ラブクラフトは、宇宙には人間の心に対して残酷で敵対的な真実が存在し、それが発見されれば人々を狂気に陥れると信じていましたが、ヴェルモレルはこれに反対します。

ヴェルモレルは、石器時代からどんなツールでも使用または誤用される可能性があると認めます。サプライチェーン(エンタープライズソフトウェア)の文脈では、特に人工知能の誤用による混乱の増加を懸念しています。彼によれば、ベンダーは既にAIを過大評価しており、そのマーケティング部門が無数の偽の事例研究を作り出すことでさらに悪化する可能性があります。これにより、さらに誤解を招く主張や検証できない事例研究が増える可能性があります。

ヴェルモレルは、過去には偽の事例研究を作成するのに一定の努力が必要でしたが、AIのおかげでそれが容易になったと指摘しています。彼はまた、事例研究の参加者は、企業が主張する利益が虚偽であると言う動機を持っていないことも指摘しています。彼らは通常、これらの利益を確認し、成功の一部を自分自身に帰属させます。ヴェルモレルは、これらの技術が状況をより複雑にすると予測しています。

競合他社のマーケティング戦略について議論する中で、ヴェルモレルは「サプライチェーンのためのAI」という用語の軽薄で情報量の少ない使用に失望しています。彼は彼らの透明性の欠如と、彼らが自社の製品について具体的な情報を提供せずに陳腐な表現で長いページを埋めていることを批判しています。これにより、彼は彼らの技術、その機能、そのデザイン、またはそれに関する洞察を理解するのが困難になっています。

ヴェルモレルは、サプライチェーン最適化における本物のAIアプリケーションは、高度に専門化された技術的アプローチに基づいていると指摘します。これらのアプリケーションは、Transformerアーキテクチャ、生成ネットワーク、階層的アプローチなど、特定のアルゴリズムや構造に基づいています。彼は企業が利用するAI技術について正確かつ詳細に説明する必要性を表明しています。彼の主張は、具体的な内容のない単に「AIを行っている」という主張はしばしば誤解を招くか、完全に根拠のないものであるということです。

彼のポイントを示すために、ヴェルモレルはAI技術を家の窓の購入に例えます。窓を購入する際、購入者は製品の詳細な説明を期待します - それは木製、アルミ製、またはプラスチック製ですか?シングルガラスまたはダブルガラスですか?同様に、AIに関しても、ヴェルモレルは企業が使用するAI技術とそれがサプライチェーンにどのように役立つのかについて詳細な説明を提供するべきだと考えています。彼は、一般的または曖昧な説明は具体的な内容のない「一般的な窓」を販売するのと同じだと主張しています。

ヴェルモレルは、このアナロジーを使って「持続可能な窓」という用語を批判します。彼は、このような曖昧な説明はむしろ明確さを提供するのではなく、混乱を増すと主張しています。同様に、彼は窓に関して「優れた光」を提供する企業も批判し、それは具体的な証拠や詳細を欠いたAIの主張と同等だと示唆しています。

さらに、ヴェルモレルは、GPT(Generative Pretrained Transformer)などのAI技術の使用が業界で混乱を増すと予想しています。これらのツールはマーケティング資料を生成し、既存のテックスタックに比較的簡単に統合することができますが、ソフトウェアアーキテクチャがこれらの機能を考慮して設計されていない場合、サプライチェーンの全体的な機能や最適化にはほとんど貢献しないかもしれません。

彼の見解では、このアプローチは既存の構造に追加の部品をダクトテープで取り付けるのと同じであり、構造を改善することはなく、適用にも意味がないかもしれません。ヴェルモレルは、「本物の」AI技術のさらなる誤用にリスクを見ており、企業が貴重なアルゴリズムを意味のない方法でオペレーションに統合することで、業界の混乱を招き、価値ある進歩を提供するのではなく、貢献する可能性があると指摘しています。

ヴェルモレルは、効果的でなく、実際には意味のない方法でサプライチェーンの最適化にAIを組み込む傾向を批判しています。彼は、これらのプロセスがしばしば改善することを目指す解決策に価値を追加しないことを指摘しています。彼のポイントを支持するために、ヴェルモレルはオペレーションリサーチ、データマイニング、およびデータサイエンスの歴史的なパターンを取り上げ、認知AIなどの現在のトレンドが同じものかもしれないと示唆しています。

ヴェルモレルによれば、企業がエンタープライズソフトウェアの一部としてAIを最大限に活用したい場合、統合は設計レベルで行うべきです。彼は既存のソフトウェアにAIを「ダクトテープで貼り付ける」ことに強く反対し、製品のコアデザインは開発の初めに確立されるべきだと強調しています。製品が作成された後にAIを製品に押し込むことは非常に困難であり、しばしば逆効果です。

ヴェルモレルは、コアデザインレベルの例として、トランザクションデータベースに言及します。トランザクションの整合性を確保するために構築されたこれらのデータベースは、画像やテキストジェネレータのような技術を活用するために設計されていません。彼の意見では、これらの異なるパラダイムはほぼ互換性がなく、それらの間の適合性を確保するには注意深い設計の考慮とソフトウェアアーキテクチャ内での互換性を保証する指針が必要です。

ヴェルモレルは、AIを既存の製品の横に追加するアドオンとして持つ可能性を認めていますが、このアレンジメントはしばしば適切な統合やシナジーにはつながらないと主張しています。むしろ、ソフトウェアを複雑にし、動く部品や潜在的なバグを増やすだけです。

サプライチェーンの最適化にAIを統合することを検討している人々に対して、ヴェルモレルはベンダーに対してその提供内容について徹底的に質問するよう忠告しています。彼は顧客に対して、ベンダーが自分たちの技術を明確かつ理にかなって説明できることを確認するよう促しています。ベンダーがそれを行えない場合、製品またはベンダーの技術理解に問題がある可能性があるとヴェルモレルは示唆しています。

ヴェルモレルは、AI技術の真の成果(複雑なモデルの作成など)は、研究論文や他の出版物を通じて一般に公開されることを強調しています。このオープンさは、開発者が困難なことを達成したことに対する誇りの一部によるものです。彼は、これらの成果はよく守られた秘密ではなく、世界に公開されていることを指摘し、基礎となる技術を理解することの重要性をさらに強調しています。

ヴェルモレルは、テック業界の一部の企業が達成した顕著な進歩を認めています。彼は、特定の技術的なマイルストーンに到達した企業が詳細なレポートを公開して、どのように成功を収めたかを共有することがよくある傾向であると指摘しています。これは実際の技術の進歩の兆候であると彼は強調しています。

次に、ヴェルモレルは現代の企業世界におけるAIの役割と認識について批判的な立場を取ります。彼はAIを市場で大きな注目を浴びているバズワードとして特徴付け、その意味が非常に広範でしばしば曖昧であるため、ほとんど何にでも適用できると強調しています。彼は、AIというラベルの下で提供されるものについて正確な説明を提供できない場合、ベンダーのAIの能力に対する盲目的な受け入れに注意を促しています。

ヴェルモレルは、AIソリューションを提供すると主張するベンダーと取引する際には、その提供内容の正確な性質を理解するために注意を払うことを強く勧めます。彼は、自社の技術について知識がないと営業担当者が認め、それを別のテクノロジーチームの領域として扱うベンダーには信頼しないよう警告しています。ヴェルモレルは、これが会社が主張する技術力を持っていない可能性の明確な指標であると考えています。

彼は、この点について詳しく説明し、“ノーベル賞受賞者を雇っている、アインシュタインを持っている"という言辞に惑わされないよう警告しています。彼は、そのような主張は通常、実証可能な証拠なしに技術的な能力を持っていると潜在的なクライアントを納得させるための隠れ蓑であると断言しています。彼は、これらの状況のほとんどが、主張の背後に真に革新的または技術的に高度なものがないことを意味していると主張しています - それは単なる同じものの繰り返しに過ぎないのです。

この会話のセグメントを締めくくるにあたり、ドハティはヴェルモレルに対して感謝の意を表し、議論がどれだけ啓発的であったかを強調しています。セグメントは、ドハティが視聴者に対して時間と注意を払ってくれたことに感謝し、将来的にさらに洞察に富んだ会話をもたらすことを約束することで終わります。

フルトランスクリプト

Conor Doherty: 最近、生成AIはどこにでもあります。サプライチェーンだけでなく、それは良いことなのでしょうか、それとも悪いことなのでしょうか?ここでジョアネス・ヴェルモレルが説明してくれます。ようこそ。

Joannes Vermorel: こんにちは、コナーさん、お会いできて嬉しいです。

Conor Doherty: では、少し詳しく説明しましょう。具体的には、生成AIとは何でしょうか?なぜ最近どこにでも存在するのでしょうか?

Joannes Vermorel: はい、生成AIは基本的には非常に古い生成問題に対する提案された解決策のセットです。生成問題とは、デジタル表現でオブジェクトのコレクションがあり、さらに1つのインスタンスを生成するためのアルゴリズム、方法、レシピを見つけたい場合のことです。この種の問題は数十年にわたって存在しています。特定の狭い状況では、多くのジェネレータが存在してきました。たとえば、数十年間、実在の場所の名前やスティーブン・キングの小説のタイトルのようにリアルな音のする名前を作成できるジェネレータがありました。画像を作成したい場合、指輪物語のような地図を作成するジェネレータがありました。その地図には、小さな山や森、海岸、そしてファンタジーの名前がいっぱいで、中世ファンタジーの雰囲気を持っています。ジェネレータのアイデアは数十年前から浮上していました。進歩はかなり段階的であり、ジェネレータをより広範にし、事前にコーディングされたルールの広範なセットではなく、より多くの入力データセットを活用することが進む方向でした。それが私たちが立っている場所です、プロセスが数十年にわたって進行しています。昨年、機械学習コミュニティは、テキストのChatGPT-3と画像のstable diffusionの2つの非常に注目すべきマイルストーンを達成しました。ただし、これらはこれらのツールのアクセシビリティの向上に関するマイルストーンであり、必ずしも統計学、数学、またはコンピュータサイエンスの基本的なブレークスルーではありませんでした。これらは、初めて一般の人が数分で始めて遊ぶことができるほどパッケージ化され、磨かれた最初の製品でした。画像の場合、10年以上にわたって非常に素晴らしい画像を作成できる生成対抗ネットワークがありました。しかし、これらのツールには多くの特異性がありました。一方、stable diffusionは、ユーザーがプロンプトを入力し、「森の中にある美しい城」と言うと、まあまあの画像を簡単に取得できるようにしました。完璧ではありませんが、十分にまともなものです。

Conor Doherty: つまり、これらのツールのアクセシビリティと使いやすさが桁違いに向上したということですか?

Joannes Vermorel: まさにそうです。ChatGPTも同じです。ところで、人気を博したGPTは実際には数年前から存在していたモデルでした。それは単によりアクセスしやすくするために再パッケージ化されたものでした。使いやすさの問題でした。2022年に、生成型AIが一般的にアクセス可能になり、マイナーな存在ではなくなったことがマイルストーンでした。真に基本的なことは何も起こっていませんでした。純粋に使いやすさの問題でした。

Conor Doherty: 私は育っている中で、“give me a Ramones name"のような生成型のウェブサイトの例がありました。有名な例ですね。私はミュージシャンのChildish Gambinoが似たようなウェブサイトを通じて名前を生成したことを知りませんでした。しかし、私はChatGPTの以前のバージョンには馴染みがありませんでした。現在のバージョンは3番目です。では、昨年のStable DiffusionやChatGPTの3番目のバージョンなどが一般の人々の注目を集めたのは具体的に何ですか?今ではどこでも見かけますよね。

Joannes Vermorel: 一般の人々の注目を集めたのは、研究チームが技術のパッケージングにおいて行った努力です。Stable Diffusionはオープンソースとしてリリースされました。Pythonの環境に詳しくなくても、Pythonについてはあまり知らなくても、約2時間でプログラミング環境をセットアップすることができました。自分自身ですべての動作を試すことができました。Pythonプログラマーである必要はありませんでした。一連のコマンドラインを実行できる程度の流暢さがあれば十分でした。さまざまなチュートリアルもありました。Stable Diffusionによって、コマンドラインで遊ぶことができれば、画像生成がアクセス可能になりました。少しギークな感じはありますが、過度ではありません。無料のユーザーインターフェースであるDream Studioもありました。最初の100枚は無料で遊ぶことができました。その後、次の100枚を生成するために10ドル程度支払う必要がありました。Open GPTもウェブアプリでした。登録するだけで、現在では1か月に約20ユーロ支払う必要があります。興味深いことは、どちらの場合でも、約1時間でジェネレータにアクセスできたことです。ツールの感触を掴むためには少しの経験が必要ですが、以前と比べて桁違いに少なくなりました。真の進歩の観点からは、これらのジェネレータは数十年にわたって2つのフロントで進歩してきました。1つは次元の数です。広義において高次元のオブジェクトを生成できるようにしたいのです。たとえば、ローマの名前やイングランドの場所の名前を生成したい場合、それはかなり低次元の問題です。文字数や音節の数を数えるかどうかによって、10から20次元程度です。しかし、1ページ分のテキストを生成したい場合、数千次元程度のものになります。1000×1000ピクセルの画像を生成したい場合、3つの主要な色による300万次元の課題が発生します。これは大きな増加です。Stable Divisionの最初のイテレーションは容量が512×512に制限されていました。それは改善されていますが、この高次元性は大きな課題でした。テキストでも同様の問題が発生しました。次元数は2つの方向で影響を与えます。入力プロンプトとして使用できるテキストの量は、1行から複数の段落、またはページにわたることがあります。そして、ジェネレータが自己との一貫性を失う前に、どれだけテキストを進めることができるかという問題があります。これらのモデルには制限があります。本の終わりから始まりまで一貫性のある本を生成することはできません。テキスト生成において、この高次元性をナビゲートすることが1つの課題です。1つの単語を生成する場合、ローカルレベルで一貫性を保つ必要があります。1つの文を生成する場合、より大きなスケールで一貫性を保つ必要があります。本の場合は、数百万または数千万の抽象的な次元に対処しています。これは自由度の度合いや対象物の複雑さとも見なすことができます。画像でも同じ問題が存在しました。進歩の道筋の1つは、一貫性を保ちながらより高次元に進むことです。ものを分割すれば、1つの大きな一貫性のある画像よりも2つの小さな画像を生成する方が簡単です。

Conor Doherty: ですから、これらの大きな次元について話すとき、ジェネレータは一貫性を保つ必要があるということですか?

Joannes Vermorel: はい、まさにその通りです。目標は、生成されたオブジェクトのサイズや複雑さに関係なく、絡み合いと一貫性を維持することです。もう一つの進歩の道は普遍性です。狭い問題に特化したジェネレータについて話しているのですか、それともどんな問題にも対処できるジェネレータですか?過去5年間、ディープラーニングコミュニティは巨大なデータセットを活用することで大きな進歩を遂げてきました。テキストの場合、Wikipedia、ウェブフォーラム、または他のテキストソースなど、すべてをカバーしています。したがって、正しくプロンプトされた場合、ジェネレータは詩から法律用語、コード、さらにはゲノムのアドバイスまで何でも生成することができます。画像についても同様です。ピクセルアートから写実的な景色、さらには油絵まで、あらゆるものを生成できるジェネレータがあります。それは洗練度とスタイルの範囲をカバーすることに関係しています。

Conor Doherty: これらのアプリケーションの次元について話すとき、出力はどれくらい比較可能ですか?例えば、ChatGPTで生成されたエッセイは、平均的な大学教育を受けた人によって生成されたエッセイと比較してどれくらい洗練されたレベルですか?もうそこまで来ていますか?

Joannes Vermorel: 洗練度に関しては、それは難しい質問です。洗練度とは何を意味するのかを定義し、明確にする必要があります。

Conor Doherty: 実際には、そこに飛び込むことができます。ChatGPTによって生成されたものか、教室の学生によって生成されたものかを実際に判断することができない場合、チューリングテストを使用するとしましょう。

Joannes Vermorel: それは状況によります。特にテキストジェネレータは、膨大な量のコーパスを組み合わせて機能します。一部の人々はテストを行っており、ChatGPTが書くものは、大部分がウェブのどこかにあるものをそのまま切り貼りしたものです。モデルの力は、これらの断片を文法的に正しく結合する能力にあります。しかし、基本的には、単語、単語のグループ、文の間に存在する高レベルの統計的パターンを特定して、統計的に可能性が高いまたは信頼性のある組み合わせを見つけることです。それは人間のように聞こえますか?ほとんど、はい。しかし、現実は、生成されるものの大部分はウェブ上で見つかることができ、さまざまなサイトから取られています。ただし、この難しいことを行うことができるという点において、ブレイクスルーがあります。フレーズを切り貼りするだけではありません。高レベルの統計的依存関係を理解することで、信頼性のある方法でそれらを組み合わせることができるのです。しかし、常識に関しては、FacebookのAI責任者がコメントしたように、これらのジェネレータは猫の常識を持っていません。それが私たちが扱っている理解のレベルです。純粋に統計的な関係です。たとえば、「大西洋の真ん中の渋滞をどうやって避けられますか?」という基本的な質問をすると、新しいGPSでより良いルートを提案するかもしれませんが、その質問のユーモアを完全に見逃してしまいます。高レベルの統計的関係に基づいてテキストの断片を結合することに関係しています。

Conor Doherty: Amazonの研究者はChatGPTをIQテストの一連のテストにさらし、その結果、通常よりも1標準偏差低い、約83であることがわかりました。これはここで言っていることと一致しているように思われます。それは一緒に見える情報の断片をただ結合しているだけですね。

Joannes Vermorel: しかし、あなたはポイントを見逃していると思います。非常に知能が低い人間であっても、脳死ではない人間は猫よりもはるかに賢いです。しかし、仮説として提唱されているのは、私たちは猫ほど賢いものにはまったく近づいていないということであり、私も同意しています。あなたは言うかもしれません、「でも、私の猫は相対性理論について何も教えてくれないことは完全にできません。」しかし、ChatGPTはこの理論のいくつかの段落を私に提供することができます。これは、ChatGPTがウェブ上で見つかる数千のインスタンスからこの理論の素晴らしい要約を切り貼りして再現するからです。しかし、それは何も理解しているわけではありません。例えば、猫でさえも、もし何かがあるならば… GPTを使った例を使ってみましょう。もしGPTに「パリからツールまでの距離を3台の車が2時間かかるとしたら、6台の車だとどれくらい時間がかかるか?」と尋ねると、GPTは「6台の車は3台の2倍なので、4時間くらいかかるでしょう」と答えます。再び、猫について考えてみると、猫は「もし私に仲間がいるなら、そこに行きたい」と考えるでしょうが、私か仲間の猫かに関わらず同じ時間がかかります。猫はそれをより詳しく説明する方法で表現することはありませんが、3次元の宇宙、時間の流れなどについて非常に基本的な理解があります。再び、GPTはその能力において非常に印象的ですし、Stable Diffusionも同様です。しかし、これらのモデルが行っていることは、入力データの高次元のブレンディングに過ぎないため、非常に浅い理解しかありません。これで十分なのかもしれません。もしかしたら、さらに詳細なモデルでこの道を進めば、知性にはこれ以上のものはないのかもしれません。しかし、私はその状況がそれよりも複雑であると疑っています。私は、意識的な研究者たちが、人工知能の全体的な物語が何であるかを明確にするために、さらに多くの研究を行っていることを疑っています。そして、それは旅であり、私たちは過去70年ほどその旅に乗ってきたのです。

Conor Doherty: さて、あなたは以前にChatGPTとStable Diffusion、または生成型AIの現在のイテレーションが、以前のイテレーションよりも桁違いに優れていると言いました。はい。あなたが説明したギャップを埋めるために、ChatGPTの第4のイテレーションはどれくらい優れている必要があると思いますか?

Joannes Vermorel: それは本当にわかりません。なぜなら、それが問題なのです。いつものように、ある種の突破口があるとき、そして私はここで本当の突破口は深層学習であり、深層学習の応用ではないと信じています。深層学習は2011年から2012年ごろに突破口となりました。それが本当の数学的、概念的な突破口でした。これらは、過去10年間に得られた非常に緻密な洞察です。しかし、私たちはまだ本当に何が足りないのかを知りません。それはまだ非常にオープンな問題であり、それを線形の進歩と考えるべきではありません。知能の問題は、私たちが何を見落としているのかわからないということです。新しい種類の技術を確立すると、最初に知能が何を意味するのかを再考することができます。過去100年前にさかのぼり、「一人の人間が優れた知能を持っていることをどのように確立できるか」と尋ねると、学界の教授に尋ねると、「この人が行列を反転させることができるか、またはπの最初の20桁を計算できるか」と言うかもしれません。しかし、現代では、ポケット電卓でもそれができます。それは完全に機械的なタスクです。πの最初の20桁を計算できることには何の知能もありません。アルゴリズムと呼ばれる単純なレシピがあります。それらをコンピュータで実行して何千桁も取得できます。それによってあなたは何の知能も持っているわけではありません。これは、100年前の状況であり、人間の知能の真の反映と考えられていたものが、機械化の容易な部分であることがわかりました。現代では、コンピュータは文字通り人間の何桁も、10桁、15桁も優れていますが、全く知能を持っていません。少なくとも、それが現在の一般的な合意です。私たちが深層学習というこの世代のAIで発見したことは、表面上は非常に困難または挑戦的に見えるタスクが、それほど知能を反映していないかもしれないということです。例えば、ChatGPTは、知能が実際に何であるかよりも、知能が何でないかについての情報をより多く提供しています。言語には、英語や他のすべての人間の言語における潜在的な知識の量が膨大にあるということを意味します。ここで「潜在的な知識」とは、人間の知識の総和であるとする抽象的なものを持っているとしましょう。例えば、化学者が過去の1世紀に集めたデータベースがあります。これらのデータベースには、地球上で知られているすべての化学物質の特性が詳細に記載されています。したがって、地球上で知られているすべての材料の抵抗率や融点がリストされたデータベース全体があります。別の形で知識を集めるための地図もあります。言語自体にもある種の潜在的な知識があります。私たちが使用する言葉は、私たちが宇宙について理解していることを反映しています。例えば、星や惑星があると言い、惑星が星の周りを公転していると言うことは、私たちが既に宇宙について多くを理解していることを意味します。例えば、古代ギリシャ人は星や惑星が何であるかについて異なる理解を持っていました。太陽が他の星と同じように星であると仮定することは、現在受け入れられており、語彙の一部です。これが潜在的な知識の一部です。辞書で与えられた定義だけを見ると、現代科学から学ぶべきことがたくさんあります。言葉自体が知識の状態について教えてくれます。逆に、時には単語が欠けていることで、ある種の知識自体が存在しないことがあります。ナシーム・タレブの著書「アンチフラジャイル」は、この状況の興味深い例です。この本の基本的な前提は、壊れやすさの実際の反対を定義することでした。彼の定義では、壊れやすいものは、混沌と無秩序にさらされると悪化するものです。彼は、耐久性がある、硬い、または頑丈であることが壊れやすさの正反対ではないと主張しました。これらの特性は、混沌と無秩序にさらされると、より遅いペースで劣化することを意味します。タレブは、真の反対が何であるか、混沌と無秩序にさらされると改善するものを考えました。この抽象的な視点から、彼は「アンチフラジャイル」という言葉を作り出し、生態系や人間社会などを見る新しい視点を生み出しました。この1つの単語を導入することで、彼は私たちの知識を豊かにしましたが、これは言語自体を通じて知識を伝える方法が難しいかもしれません。

Conor Doherty: それが私たちを私の出発点に戻します。ChatGPTの素晴らしさは、言語自体に膨大な潜在的な知識があることを示しています。これは、例えば政治家があなたが守りたい原因に対応する一日のバズワードを10個提供できる理由を説明しています。彼らはそれに基づいて完全な論述を展開し、何も実質的なものを提供しながらも知的なことを言っているように見えるのです。

Joannes Vermorel: 興味深いことに、それがChatGPTが行うことです。ツールにプロンプトを与えると、それは一般的な常識や主流の確立された視点に合致するさまざまな広く受け入れられたアイデアを組み合わせる傾向があります。たとえば、ことわざだけで質問に答える人がいたらどうでしょう。ChatGPTはそれを行いますが、さらに優れており、文字通りあらゆる分野の決まり文句をつなぎ合わせます。これは、自分が何について何も知らない分野での決まり文句であるかさえわからないことが通常ですから、印象的です。これは、非常に多様な分野の数百万ページのテキストを含む超巨大なデータセットに対してジェネレータをトレーニングする美しさです。

Conor Doherty: これを実際に適用する際に、あなたの意見や見積もりによれば、企業やサプライチェーンにおいて生成型AIの有用な応用はありますか?

Joannes Vermorel: 企業は非常に広範な分野ですので、サプライチェーンについて話します。サプライチェーンに関しては、おそらく直接的にはほとんどないと言えるでしょう。しかし、未来を予測することは非常に困難です。私がこのジェネレータの波がサプライチェーンには大きな影響を与えないと考える理由は、これらのジェネレータの強みは、基本的にはウェブである巨大な周囲の知識、つまり無料でアクセスできるすべての画像やタグにアクセスすることができることです。しかし、サプライチェーンの最適化に関しては、最も関連性のあるデータはあなたの取引履歴です。たとえば、ドアフレームを販売している場合、ドアフレームに関する一般的なことをたくさん知っていても、サプライチェーン計画にはあまり役に立ちません。昨年のドアフレームの販売履歴は、注文すべき具体的な商品や生産すべき商品、在庫をどのように割り当てるべきかについて、より多くの情報を提供します。したがって、最も関連性のあるデータは世界とは公開されていません。それはあなたの会社の中の隔離された場所に存在します。ChatGPTとは異なり、企業は、これらのツールがオンラインで広く公開されている材料に関する議論をする際にはより優れています。オンラインで広く公開されていないものについて話すと、ChatGPTはすぐにそれを無知になります。具体的には、どのような最適化を行うための方法を考えると、入力の種類がないため、あまり確信がありません。ただし、これらのツールは開発をサポートするのに非常に役立つ可能性があります。たとえば、ChatGPTはコードスニペットの生成を助けるのに非常に優れています。コーディングでは、それは一般的な言語であるため、文字のシーケンスを意味します。ChatGPTはタグだけでなく、コードも生成できます。GitHubをはじめとするオンラインで利用可能な巨大な量のコードがあるため、ChatGPTはトレーニングに使用できる大規模なコードベースを持っています。したがって、ChatGPTはまあまあまともなコードスニペットやプログラムを作成することができます。プログラマーの生産性ツールとして、非常に大きなポテンシャルがあります。ただし、ChatGPTが生成するコードは、人間が書いたコードと同じくらい虚偽である可能性がありますので、注意が必要です。航空機や自動車の次世代のオートパイロットを設計する場合、慎重な監視なしに使用しないでください。また、私は、会議の議事録などの技術が出てくるのは、Meeting minute recordsのようなものだと思います。現時点では、ChatGPTが2時間の議論を2ページ程度に要約し、話された内容の最大限の詳細を保持することができるかどうかはわかりません。しかし、同様のツールは、おそらく次の10年以内にそれができるようになるでしょう。したがって、サプライチェーンには多くの利点があります。ただし、それらのほとんどは周辺部にあると思われます。例えば、会議のサポート、メモの取り方、文書の校正システムの改善などです。しかし、コアの問題と課題はデータにあり、それらのジェネレータはサプライチェーンでのデータを処理することができません。

Conor Doherty: コーディングに特化した他のプログラムはありませんか?ChatGPTはテキストベースの生成型AIですが、コーディングを支援するために設計されたGitHub co-pilotというものがあり、それ自体でかなり優れたコーディングを生成することができますよね?

Joannes Vermorel: いいえ、これらのモデルはほぼ同じであり、ほぼ交換可能です。それらの背後にある技術は非常に似ています。彼らは同じTransformerアーキテクチャを使用しています。唯一の違いは、コーパスとユーザーエクスペリエンスのわずかな変化です。GitHub copilotは、各キーストロークで自動補完を提供することを目指していますが、ChatGPTは対話により重点を置いています。しかし、その違いは本当に表面的なものです。下には、最近Amazonのチームが発表した論文が示しています。彼らは画像とテキストデータの両方を組み合わせた有望なジェネレータを提案しており、それらを本質的に統合しています。彼らはいくつかのベンチマークでChatGPTを上回ると主張しており、他のほとんどの指標では比較可能な結果を示しています。ただし、ジェネレータの性能を決定することは、ジェネレータ自体を作成するのと同じくらい複雑な問題ですので、注意が必要です。興味深いことに、彼らのモデルはChatGPTと同じくらい効果的ですが、パラメータは10億個であり、ChatGPTのほぼ100倍少ないです。これは、より多様な種類のデータを組み合わせることで、より強力でシンプルなモデルを持つことができることを示していますが、これは逆説的です。たとえば、ChatGPTモデルは非常に巨大であり、パラメータの範囲は兆を超えます。しかし、そのような巨大なモデルが必要かどうかは明確ではありません。実際、Stable Diffusionは他のモデルと比較して2桁速く、より軽量なモデルであることが、最近のブレークスルーの1つでした。Stable Diffusionは約10億個のパラメータしか持っておらず、ChatGPTと比較して非常に小さいです。しかし、最近のチームは、ChatGPTのパフォーマンスを、10億個のパラメータとほぼ同じサイズのモデルで再現したと主張しています。これは興味深いことです。なぜなら、これは現在のノートブックやワークステーションで一般的に見つかるグラフィックカードで操作できるサイズとほぼ同じです。

Conor Doherty: まあ、これは私たちを最初に言ったこと、または全体的な紹介に戻すようなものですが、これはネットプラスなのかネットマイナスなのか、ということです。具体的なエンタープライズやさらに細かいサプライチェーンの文脈では、この生成型AIは、あなたにとっては、邪魔、恩恵、または呪いとなるでしょうか?

Joannes Vermorel: 科学と技術の進歩は、一般的には良いものだと考えています。私はこのラブクラフト的な視点を持っていません。宇宙の深い真実があり、それが人間の心に対して非常に残酷で敵対的なものであるため、それを発見すると狂気に陥るという考え方です。私の考えはラブクラフト的なものではありません。一般的には、それは無知よりも良いものです。しかし、石器時代以来のどんなツールでも、最初のハンマーは動物を狩るために設計されるか、仲間を殺すために設計されるかのどちらかです。したがって、これは技術の問題であり、誤用される可能性があります。これは何千年もの間問題となってきました。このような技術も誤用される可能性があります。サプライチェーンエンタープライズソフトウェアの領域では、ノイズによる混乱の増加が予想されます。ベンダーは既にAIを熱狂的に宣伝しており、今度はマーケティング部門が無限の偽の事例研究を作り出すことで、それをさらに11まで調整することができるようになります。過去には、偽の事例研究を作成するにはある程度の努力が必要でした。しかし、あなたの主張を誰も確認しないので、完全に偽造することもできました。ほとんどの主張は検証不可能です。そして、私の講義で説明したように、事例研究の中の誰もが、あなたが主張するすべての利益が偽であると言う動機はありません。事例研究の一部であるすべての人は、「はい、すべての利益は真実であり、それは私にも少なくとも一部は感謝すべきものです」と言う巨大な動機を持っています。したがって、私の考えは、状況がさらに混迷するだろうということです。これらのチームは狂乱し、さらに多くの偽の事例研究や主張、技術を説明するための空虚なページを生成するでしょう。私は多くのLokadの競合他社のウェブサイトで時間を費やしました。興味深いことは、あなたがそれを読んでも何も学べないようなテキストのページを持っていることです。彼らは陳腐な言葉を回し、実際には彼らが実際に何をしているのかを明らかにしません。

Conor Doherty: フリムフラマリー、それが私たちが言っていることですか?

Joannes Vermorel: はい、まさにそうです。私は常に、サプライチェーンのためのAIに関する10ページに及ぶドキュメンテーションを読んでも、最後にはそれが何であるか、何をするものであるか、なぜそのように設計されたのか、またはこのものを統括する洞察の種類について何も言えないことに少し困惑しています。それは少し困惑するものです。過去には、マーケティングチームがこれらの曖昧な説明を考え出すのに数日を費やしていたと思われます。今では、ChatGPTなどの生成AIを使用することで、10ページの説明が瞬時に作成されることがあります。ですので、サプライチェーン最適化にAIを持つと主張するコンテンツの妥当性に疑問を持つ場合、それはほとんど疑わしいと言えます。AI自体が詐欺であるわけではなく、この文脈でのAIの誤った表現が原因です。生成AIについて話すとき、安定した拡散、トランスフォーマーアーキテクチャ、生成ネットワークなどの具体的な用語が使用されます。これらの技術には名前があります。この分野の専門家は単に「AIをやっている」とは言いません。彼らはより正確です。彼らは自分たちの仕事を説明するためにこれらの用語が必要です。この正確さは、コミュニティ内で進行中のプロセスの一環として発展しています。技術の詳細を説明することに興味を持たない人々は、しばしば曖昧な用語に頼る傾向があります。簡単な例を挙げましょう。自宅の窓を購入したい場合、売り手はフレームの材料、ガラスの層の数などを指定します。売り手が「窓を売っています、信じてください、良いものです」と具体的な内容を示さない場合、それは疑わしいです。技術仕様を提供できない人が代わりに「持続可能」といった言葉を使うと、何も明確になりません。むしろ謎を増やすだけです。これはAIとChatGPTで起こることに類似しています。これらのツールは混乱を招くマーケティング資料を生成し、ベンダーにそれらをテックスタックに含める能力を与えますが、実質的なものを作成することはありません。既存のソフトウェアアーキテクチャにこれらのツールを簡単に統合することはできますが、既存のソフトウェアアーキテクチャがその技術の能力を最適化するために設計されていない場合、それはただのおもちゃになります。ソフトウェアにさらに1つの部品を簡単に追加することは常にある程度簡単ですが、それが何かの違いを生むか、有用であるかは別の問題です。したがって、私はこの状況がさらなる混乱を引き起こすと信じています。これにより、ベンダーには何らかの実際の価値アルゴリズムを組み込む機会がさらに与えられますが、それは無意味な方法で行われるでしょう。結果として、これはソリューションに何の価値も追加しません。これは別の問題です。私たちはすでに、50年前のオペレーショナルリサーチ、その後のデータマイニング、そしてデータサイエンスといった数回のイテレーションを経験してきました。今度は認知AIのイテレーションがあります。ただし、問題は、エンタープライズソフトウェアとしてこの技術を最大限に活用したい場合、それは単なるアドオンではなく、製品の設計レベルで行われなければならないということです。それは後から変更できないコアデザインです。製品のコアデザインには、最初の段階でしか行えないものです。後からそれをソフトウェアに追加することはできません。

Conor Doherty: あなたが議論しているコアデザインレベルの例を教えていただけますか?

Joannes Vermorel: システムのコアにトランザクションデータベースがあり、トランザクションの整合性を確保するように設計されている場合、それは素晴らしいです。しかし、この設計は、画像やテキストの生成を活用するためのものではありません。トランザクションの観点とはまったく異なります。トランザクションを扱っているのに、テキストや画像を生成できるツールを持っているというのは、まったく別の領域です。ですから、私が言いたいのは、適合するものを持っているということは当然ではないということです。通常、設計やアーキテクチャのガイドラインについて十分に注意を払う必要があります。そうしないと、別々のトラックになってしまいます。ソフトウェアでは、常に製品とそれに付随するアドオンを持つことができる可能性があるということが誤解されがちです。しかし、それは適切に統合されておらず、接続されておらず、両者の間にはシナジーがありません。むしろ、より複雑な問題と、より多くの動く部品とバグを抱えたものになります。ですから、パワーバランスの観点から言えば、サプライチェーンの最適化にこれを統合しようとすることはお勧めしません。しかし、ベンダーがそれを提案してきた場合は、彼らが何をしているのかを確認する必要があります。聴衆への私の別れの言葉としては、このベンダーのテクノロジーページを読む際に、それがあなたにとって意味のあるものであるかどうかを確認してください。あなたが専門家である必要はありません。ベンダーが彼らのテクノロジーが何であり、何をするのか、どのような技術を使用しているのかを理解できるように伝えることができない場合、それはおそらく警戒すべき兆候です。私のキャリア全体で、難しいことを達成できる会社がそれを隠していることはありませんでした。それどころか、このようなポイントに到達した企業は、自分たちの成果を世界に見せることを喜んでいます。ところで、それはすべてのモデルに当てはまります - Stable Diffusion、ChatGPTなどです。これらの成果は公開されています。それについての論文が発表されています。これらは秘密にされているものではありません。それどころか、このような技術的な成果のポイントに到達した企業は、非常に詳細な論文を発表することがよくあります。これは非常に典型的な行動です。私の視点からは、AIには非常に多くの価値があるという基本的なアドバイスですが、それは単なる言葉の響きです。この傘の下にほとんど何でも分類できます。したがって、ベンダーがあなたに接近してきた場合、彼らが具体的に何をするのかを理解することが重要です。あなたに売り込もうとしている人がそれを理解していない場合、そしてベンダーが「私はただの営業担当者で、技術チームが知っている」と無知を主張する場合、彼らを信頼しないでください。彼らがそう言うなら、それは彼らの主張に根拠がないことをほぼ保証しています。これは数十年にわたって使用されてきた実証済みの技術です。ノーベル賞受賞者を雇ったと主張し、裏部屋に「アインシュタイン」を持っていることを自慢し、チームが非常にスマートであるために信頼してほしいと言うことです。しかし、彼らが技術について無知を公言し、残りのチームが知っていると保証する場合、それは彼らの主張に実質がないことをほぼ保証しています。それは同じようなものです。

Conor Doherty: それでは、Joannes、ありがとうございました。私はかなり学びました。お時間をいただき、ありがとうございました。そして、ご視聴いただき、ありがとうございました。次回をお楽しみに。