エージェンティックAIの解明
生成AIは終わった。エージェンティックAI万歳…かもしれない。

多くのソフトウェアベンダーは、完全に合理的とは言えない市場評価に後押しされ、人工知能の誇大宣伝に一層賭けています。私は普段予測をする立場にはありませんが、2025年には エージェンティック人工知能 が主要な流行語になると予言します。技術系の流行語に共通するように、実際の斬新さのかけらが、誇大な期待の海に薄められていると考えられます。
まず、何が問題になっているのかを少し明確にしましょう。単純化しすぎると1、LLM(大規模言語モデル)は本質的にはテキスト補完モデルです。これらは生のテキストを入力として受け取り、生のテキストを出力します。これらのモデルは「途方もなく」大量のウェブ素材で巧妙に事前学習されているため、翻訳、要約、アイデア生成など、非常に多様なタスクに容易に利用できます。実際、LLMは従来のNLP(自然言語処理)の全領域を陳腐化させました。
LLMの現在の性能と価格を考えると、この技術がホワイトカラーを雇用するあらゆる企業にとって多くの 付加価値 をもたらす可能性があることは明らかです。しかし、細かい点はあまり明らかではありません。ここで、エージェンティックAI(あるいは、より正確にはそのベンダー)が、LLMの持つ生の能力とそれらのIT環境との間のギャップを埋めることを提案しているのです。
具体的な点に関しては、Erik Pounds2(Nvidia)が2024年10月に、エージェンティックAIに関して、一般的にこの新たな流行語が示すものを的確に捉えた次の定義を提案しました:
エージェンティックAIは問題解決のために4段階のプロセスを用います: 知覚: AIエージェントが様々なソースからデータを収集・処理する […]; 推論: 大規模言語モデルがオーケストレーターとして機能する。この段階では、retrieval-augmented generation (RAG) などの技法が用いられる […]; 行動: アプリケーションプログラミングインターフェースを通じて外部ツールやソフトウェアと統合することで、エージェンティックAIは迅速にタスクを実行できる […]; 学習: エージェンティックAIはフィードバックループ、または「データフライホイール」を通じて継続的に改善される […]
エージェンティックAIの壮大なビジョンは、ホワイトカラー労働者と機能的に同等な「完全デジタル従業員」(私の造語です、Pounds氏のものではありません)への道を切り開くことにあります。世界中で概ね10億人前後のホワイトカラー労働者がいることから、市場がこの展望に夢中になる理由も容易に理解できます。
よく見ると、エージェンティックAIが解決しようとしている根本的な障壁は、明確に二つに分類されることがわかります。それは、インストゥルメンテーションと学習です。
インストゥルメンテーション: 最初で最も明白な障壁は、LLMが真空状態で活用できないという点です。LLMはソフトウェアであり、したがって何らかのITパイプラインが必要です。このパイプラインにより、LLMは環境から関連情報を取得し、期待される処理を完了するためのコマンドを出力できるようになります。通常、長年の未処理案件に埋もれているIT部門にとって、このパイプラインの構築はそれ自体が大きな挑戦です。しかし、LLM自体がこの挑戦を緩和する可能性もあります。
学習: 奇妙に思えるかもしれませんが、LLMは大部分の場合、その生成後に_決して_何も学習しません。これが二つ目の障壁です。LLMが知り得る全ては、公開情報(事前学習の一部として)か、プロンプトの一部に過ぎません。ほとんど3中間はありません。各完了後、LLMは元の状態にリセットされます。しかし、もしプロンプトを支える知識ベースがLLM自身によって更新され得るならば、この障壁も概念的には緩和されるかもしれません。
もしエージェンティックAIが、現在のLLMを超えるものに頼ることなく、この二つの障壁を解決できれば、それは確かに一般的なデジタルホワイトカラー労働者への道を切り開くことになるでしょう。しかし、これは非常に大胆な提案であり、市場の熱狂にもかかわらず、前述の障壁に対処するにはかなりの労力が必要になるかもしれません。
インストゥルメンテーションの観点から、デジタルエージェント が人間のように直接画面やキーボードとやり取りするという提案は魅力的です。何より、先に述べたITパイプラインの課題を完全に回避しているように見えるためです。しかし、これは同時に、最も過剰に設計された問題解決方法でもあります。グラフィカルユーザーインターフェースを認識するためには、最も単純な相互作用であっても、数十回(あるいは数百回?)のスクリーンキャプチャをLLMに流し込む必要があります。また、行動を実行するためには、数十回(あるいは数百回?)のコマンド、例えばマウスコマンドが発行されなければなりません。
現代のLLMを用いればそのような偉業がすでに可能であることには疑いはありませんが、このアプローチの実用性と保守性には疑問を感じます。画像そのものの処理は計算資源に莫大な負荷をかけますが、これは本質的な問題ではありません(コンピュータハードウェアの進歩により、やがてこの負荷はフルタイム従業員のコストよりもはるかに低くなるでしょう)。
問題の核心は、タスクを実行するために必要なビジネスアプリとのあらゆる細かな相互作用を、プロンプトを通じて明確に指示することが非常に大きな労力を要するという点にあります。この作業には、最低でも十分なITスキル―あるいは高度に発達したITマインド―が必要です。プログラミングができない人や、数ヶ月以内に初級プログラマーになれる見込みがない人がこの作業をこなせるとは非常に疑わしいです。さらに、大規模な企業のIT環境は常に変化しているため、プロンプトの適切性を監視する必要があり、プロンプト自体も定期的に更新されなければなりません。したがって、この作業は継続的なものとなるでしょう。
エージェンティックAIは、それ自体が相当な人間のデジタルタレントを要求することを考えると、本当に人間のデジタルタレント、すなわちITの滞留案件問題を解消できるのでしょうか?私はそうは思いません。結局のところ、人間のデジタルタレントが必要であれば、そのタレントを使って直接ITパイプラインの問題に対処すべきなのです。
グラフィカルユーザーインターフェースを通さずに、関連する生データ(通常はリレーショナルな性質のもの)をLLMに直接提供することで、プロンプト自体が桁違いに簡素化されることが期待されます。5ページ分のプロンプトに代わって、5行程度のSQLクエリが用いられるべきです。さらに、人間のオペレーターは、そのSQLクエリの作成においてもLLMの支援を受けることができるでしょう。
当然ながら、複数の異種データベースに対してSQLクエリを扱うことはインストゥルメンテーションを必要とします。しかし、この種のインストゥルメンテーションは、エージェンティックAIが想定しているものよりもはるかに単純です。実際、それほど単純なため、多くのIT部門が、この目的のために自社開発のツールを展開する可能性が高いでしょう―ちょっとしたユーティリティと同様に。
やがて、ソフトウェアベンダー自身も、この種のLLM駆動パイプラインを容易にするために自社製品を調整する可能性がありますが、その具体的な形態がどのようになるかは完全には明らかではありません(APIの強化という選択肢もあれば、テキストベースのインターフェースという選択肢もあります)。
学習の面では、私は懐疑的です。エージェンティックAIは、一般的な人工知能に向けた一歩として提示され、LLMの最も根本的な制約である真の学習能力の欠如に対処しようとしています。しかし、Pounds氏が提案した解決策―retrieval augmented generation (RAG) によって動く「データフライホイール」―は、印象的な技術(LLMそのもの)の上に重ねられた単なる簡単なハックに過ぎません。
LLMが自らの「データフライホイール」を段階的に充実・更新するためのコマンドを発することは考えられます。また、LLMがNショットの試みを1ショットの試みに集約し、その後ファインチューニングフェーズを開始するコマンドを発することで、独自のファインチューニングデータセットを生成することも考えられます。
しかし、現状のLLMがそのような偉業へ向かう実行可能な道を示しているかは明らかではありません。健全なフライホイールを長期間維持することは困難であると強く疑っており、仮にそれが機能したとしても、その維持には相当な量の高度な技術を持つ人間の知性が必要となるでしょう。
ここで取り上げているのは、現状のLLMパラダイムの根本的な限界です。この限界が単にLLMの上に何かを追加するだけで克服できるかは不明です。私の直感では、この限界に対処するためには、LLMそのものの再考が必要になるでしょう。それが、チェーン・オブ・ソートが比較的小さな変更であったのと同様か、あるいは全体の完全な刷新を要求するかもしれません4。
全体として、私はLLMに対して熱意を保ちながらも、その派生であるエージェンティックAIに関する誇大宣伝が正当化されるとは考えていません。企業が様々なタスクを機械化するための「エージェント」を展開することはほぼ確実であり、私自身の会社、Lokadも過去2年間そうしてきました。しかし、いずれにせよ、このプロセスにより、我々はむしろ有能なテックに精通した労働力への依存度が増しています。さらに、これらの取り組みを見ると、「エージェンティック」な部分は常に最も平凡な部分であったと言えます。LLMを用いたシステムの実用化に苦労し、時には失敗もしましたが、「エージェンティック」な側面は、せいぜい非常に遠い将来の問題でしかありませんでした。
-
現在のLLMはUnicode文字ではなく、トークン 単位で動作しますが、この制約は将来的に解除される可能性があります。また、LLMは、入力画像が文脈ウィンドウの潜在空間内に直線化(埋め込まれる)されている場合、画像の処理も可能です。 ↩︎
-
興味のある読者は、https://blogs.nvidia.com/blog/what-is-agentic-ai でソース資料を確認することをお勧めします。 ↩︎
-
ファインチューニングとは、事前学習済みモデルを専門のデータセットまたは特定のタスク向けに継続的に訓練するプロセスであり、それによってモデルがプライベートな情報に適応していくことを意味します。ただし、ファインチューニングは、高品質なコーパス、すなわち専門家による手動の貢献が利用可能であることに依存します。 ↩︎
-
2024年12月にOpenAIからリリースされたo1モデルは、チェーン・オブ・ソート技法を一級市民として位置付け、最終出力の生成前にプロンプトについて内省的な独り言を始めさせる仕組みを採用しています。この比較的控えめな改変は、それにもかかわらず、数学やプログラミングなど特定のタスクにおいて大幅な改善をもたらしています。 ↩︎