生成的AIは終わりました。Agentic AI万歳…かもしれません。

60年代風のスーツを着たベクトルロボットがコンピュータタブレットの前に立っています。

多くのソフトウェアベンダーは、完全に合理的ではない市場評価に刺激されて、人工知能のハイプに固執しています。私は通常、予測をすることはありませんが、2025年には「エージェンティック人工知能」が主要なバズワードになると予言します。テックのバズワードには、実際の革新の断片が過大な期待の海に溶け込んでいることが予想されます。

まず、何が問題なのかを少し明確にしましょう。少し単純化して1、LLM(大規模言語モデル)は、その核として、テキスト補完モデルです。彼らは生のテキストを入力とし、生のテキストを出力します。これらのモデルは、巧妙に事前トレーニングされた「テラノーマス」な量のウェブ素材を使用しているため、翻訳、要約、アイデア生成など、さまざまなタスクにすぐに使用することができます。実際には、LLMは従来の自然言語処理(NLP)の全てを時代遅れにしました。

現在のLLMの性能と価格を考慮すると、この技術は白衣を着た従業員を雇用するすべてのビジネスに多くの付加価値を提供する可能性があることは明らかです。ただし、細かい点は明らかではありません。ここで、エージェンティックAI(または、より正確には、そのベンダー)は、LLMの生の能力とそのIT環境のギャップを埋めることを提案しています。

具体的には、エリック・パウンズ2(Nvidia)は2024年10月にエージェンティックAIの次の定義を提案しました。これは、この新しいバズワードのラリーフラッグの下で一般的に理解されているものを適切に捉えていると私は信じています。

エージェンティックAIは、問題解決のために4つのステップのプロセスを使用します:知覚:AIエージェントはさまざまなソースからデータを収集し処理します[…];推論:大規模言語モデルがオーケストレーターとして機能します。このステップでは、検索増強生成(RAG)などの技術が使用されます[…];行動:アプリケーションプログラミングインターフェースを介して外部ツールやソフトウェアと統合することで、エージェンティックAIは迅速にタスクを実行できます[…];学習:エージェンティックAIはフィードバックループまたは「データフライホイール」を通じて継続的に改善します[…]

エージェンティックAIの大きなビジョンは、「完全にデジタルな従業員」(私の言葉ではなく、パウンズの言葉)を実現することです。約10億人の白衣を着た労働者が世界中にいることを考えると、市場がこの展望に頭を失っているのはあまり難しくありません。

よく見ると、エージェンティックAIが解決しようとしている2つの鮮明な基本的な障壁があることがわかります:計測と学習。

計測: 最初で最も明らかな障壁は、LLMを真空中で活用することはできないということです。LLMはソフトウェアであり、したがって、ある種のIT配管が必要です。この配管は、LLMが環境から関連情報を取得し、LLMが期待されるものを完了するためのコマンドを出力できるようにします。IT部門は通常、数年にわたるバックログに苦しんでおり、この配管を考案すること自体が課題です。ただし、LLM自体がこの課題を軽減する可能性もあります。

学習: 奇妙なことに、LLMはほとんどの場合、創設後に何も学びません。これが2番目の障壁です。LLMが知っていることは、公共の情報(したがって、事前トレーニングの一部)またはプロンプトの一部です。その間にはほとんど3何もありません。各補完後、LLMは元の状態にリセットされます。ただし、プロンプトをサポートする知識ベースをLLM自体が更新できれば、この障壁も概念的に軽減される可能性があります。

もし、エージェントAIがこれらの2つの障壁を解決することができるなら(現在のLLMを超えることなく)、それは確かに一般的なデジタルホワイトカラー労働者の道を開くでしょう。しかし、これは非常に大胆な提案であり、市場の熱狂にも関わらず、前述の障壁に対処するにはかなりの努力が必要かもしれません。

インストゥルメンテーションの面では、_デジタルエージェント_が画面やキーボードと直接対話するという提案は魅力的です。これにより、以前に述べたITの配管の課題を完全に回避できるように見えます。しかし、これは課題を解決するために非常に過剰な方法です。グラフィカルユーザーインターフェースを認識するために、最も単純な対話でも数十(数百?)のスクリーンキャプチャをLLMに送る必要があります。また、アクションを起こすためには、マウスのコマンドなど数十(数百?)のコマンドも発行する必要があります。

現在のLLMでは、そのようなことがすでに可能であることを疑問視していますが、このアプローチの実用性と保守性には疑問があります。画像自体の処理は、計算リソースの大幅なオーバーヘッドを表しているとしても、これは真の難関ではありません(コンピュータハードウェアの進歩により、時間の経過とともにこのオーバーヘッドはフルタイムの従業員のコストよりもはるかに低くなるでしょう)。

問題の核心は次のとおりです:タスクを実行するために必要なビジネスアプリとの相互作用の細部を明確に指定する(プロンプトを介して)ことは、かなりの努力を必要とします。これは、少なくともまともなITスキル(少なくとも数ヶ月以内にエントリーレベルのプログラマになることができない場合もあります)を必要とする努力です。さらに、大規模な企業のIT環境は常に変化しているため、プロンプトの適切さを監視する必要があります。さらに、プロンプト自体も定期的に更新する必要があります。したがって、この取り組みは継続的なものになります。

エージェントAIは、人間のデジタル人材の必要性(つまり、ITのバックログ問題)を本当に軽減することができるのでしょうか?それは、人間のデジタル人材には自身の要件があるという点を考えると、私はそうは思いません。これは、人間のデジタル人材を導入する必要がある場合は、ITの配管自体に直接取り組むためにこの人材を使用しましょうという出発点に戻ってきます。

LLMに関連する生データ(通常は関係データ)を直接公開することにより、プロンプト自体が桁違いに簡素化されることが期待されます。5行のSQLクエリは5ページのプロンプトに置き換えられるべきです。さらに、人間のオペレータは、それらのSQLクエリを書く際にLLMの支援を受けることさえできるでしょう。

当然、複数の異種データベースに対して実行される可能性のあるSQLクエリの取り扱いには、インストゥルメンテーションが必要です。しかし、この種のインストゥルメンテーションは、エージェントAIが想定しているものよりもはるかに簡単です。実際、多くのIT部門は、この目的のために独自のツールを定期的に導入するでしょう。

時間の経過とともに、ソフトウェアベンダー自体も、この種のLLM駆動の配管を容易にするために自社製品を調整する可能性がありますが、どのような形を取るかはまだ完全には明確ではありません(APIに重点を置くことも、テキストベースのインターフェースにすることもあります)。

学習の面では、私は懐疑的です。エージェントAIは、LLMの最も基本的な制限の1つである本物の学習能力の欠如に対処するための一歩として提示されています。しかし、Pounds氏の提案された解決策である「データフライホイール」は、それ自体で印象的な技術(LLM自体)の上に重ねられた簡単なハックに過ぎません。

LLMが自身の「データフライホイール」を増強し、更新するためのコマンドを発行することは考えられます。また、LLMはN回の試行を1回の試行にまとめ、その後、ファインチューニングフェーズをトリガーするコマンドを発行することさえ考えられます。

ただし、現在のLLMがこのような偉業に向かうための実行可能な道を示しているかは明確ではありません。私は強く、時間の経過とともに健全なフライホイールを維持することが困難であり、それが機能すると仮定しても、非常に人間的な技術志向の知識が必要になると疑っています。

ここでは、現在のLLMパラダイムの基本的な制限に触れています。LLMに単に「上乗せ」することでこの制限を解消できるかどうかは明確ではありません。私の直感的な感覚は、この制限に対処するには、LLM自体を再考する必要があるというものです。それは、チェーンオブソートのような比較的小さな変更であるかもしれませんが、全体の見直しを必要とするかもしれません4

全体的に、LLMについては熱心ですが、その派生であるエージェントAIについては納得していません。私の会社であるLokadも過去2年間、さまざまなタスクを機械化するための「エージェント」を導入してきました。しかし、むしろこのプロセスは、私たちを優れた技術に精通した労働力にさらに依存させました。さらに、これらの取り組みを見てみると、「エージェント」の部分は常に最も平凡なものでした。LLMを活用した部分を本番環境に導入することに苦労し、時には失敗したこともありましたが、「エージェント」の側面はせいぜい非常に遠い関心事でした。


  1. 現在のLLMはUnicode文字ではなく、_トークン_上で動作しますが、将来的にはこの制約が解除される可能性があります。また、LLMは入力画像を処理することもできますが、その画像がコンテキストウィンドウの潜在空間に線形化(埋め込み)されている場合です。 ↩︎

  2. 興味のある読者は、ソース資料を以下のURLで確認することができます:https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎

  3. ファインチューニングとは、事前にトレーニングされたモデルを特化したデータセットや特定のタスクに対して継続的にトレーニングするプロセスであり、非公開情報に基づいてモデルを適応させるものです。ただし、ファインチューニングには高品質なコーパス、つまり専門家の手動による貢献が必要です。 ↩︎

  4. OpenAIが2024年12月にリリースしたo1モデルは、チェーンオブソート技術を第一級の市民として位置付け、プロンプトの内的独白から始めて最終的な完成物を生成するLLMを可能にしています。この既存のLLMに対する比較的控えめな変化ですが、数学やプログラミングなどの特定のタスクのために大幅な改善をもたらしています。 ↩︎