品質は主観的であり、コストはそうではありません。

最近のエピソードで、私はハーバード・ビジネス・スクール(HBS)とボストン・コンサルティング・グループ(BCG)との共同で行われたHBSの論文が深刻な欠陥を持ち、潜在的に危険であると指摘しました。論文の完全なタイトルは「ジャギッドな技術フロンティアの航海:AIの知識、労働者の生産性、品質に及ぼす影響の実験的証拠」1です。要約すると、論文はAIの能力が要求されるタスクにおいて不均一に分布しており、一部のタスクでは優れており、他のタスクでは低いパフォーマンスを示していることを述べています(それぞれ「フロンティア内」と「フロンティア外」のタスク)。

AI自動化を含むさまざまなワークフローに関連する出力の相対的なコストと品質を示す図

文脈

この「ジャギッドな技術フロンティア」の向こう側(論文のp.27にイラストあり)では、人間の専門知識がAI(この場合はChatGPT-4)を上回りますが、特に数量的および質的分析を統合するタスク(つまり「フロンティア外」のタスク)においてです。

これは、ChatGPTのような大規模言語モデル(LLM)が設計されていることに詳しい人には誰も驚くことではありません(ネタバレ:数学ではありません)。また、LLMが「すべてのデータベース」として扱われると、合理的ながら時に不正確な応答を生成することもあります2。ただし、この論文は偶然にもいくつかの興味深いポイントを提起しています。

論文は非常に読みやすく、これは学術界ではしばしば欠けているものです。ただし、潜在的な利益相反3やその結果4に関してはいくつかの懸念が挙げられるかもしれませんが、ここでは論文の方法論と暗黙の経済学が特に興味深いです。

方法論の批判

方法論に関しては、このポイントはすでにビデオで批判されているため、ここでは簡潔に述べます。研究チームは自動化によって生み出される生産性の向上を探求していませんでした。代わりに、研究者はAI、コンピュータサイエンス、および/またはエンジニアリングの専門家ではないコンサルタントのグループをChatGPT-4の使用に選びました。唯一の例外は、専門知識のみを使用して作業するコントロールグループでした。これらのグループがどのように判断されたかの倫理的な側面は、まもなく触れられます。

実験には外部のソフトウェアエンジニアやAI専門家はいませんでした。LLMの最大の強みであるノイズに強く、ユニバーサルなテンプレートロボットを利用するリトリーバル増強生成(RAG)、ドメイン固有の微調整などの技術に習熟した開発者チームもありませんでした。

この印象的なロボットは、BCGの広範な内部データベースに格納されたドメイン固有の知識を活用するようにプログラムされていませんでした。それどころか、実験ではChatGPT-4のサブスクリプションを持つコンサルタントも登場しました。

このオーケストレーションにより、特に数量的および質的分析の両方を必要とするタスクに関して、品質の度合いは異なりました。言い換えれば、非専門家が高度な技術をどれだけうまく活用できないかを実験的に調査するための実験が設計され、非現実的に制約された条件下で行われました。

ビデオで結論付けたように、自動化によって生み出される可能性のある生産性の向上(および節約)を無視することは、スキャンダルに近いものです。特に、名門ビジネススクールでの研究の名のもとに発表する場合にはそうです。私の意見では、この論文の結果は、人生を変える借金をしてトップビジネススクールで学ぶために入学する直前の学生に(仕事の)安全な感覚を与えるものです。これは、すでに自動化の途上にある可能性のある分野の学位のためにかなりの借金を負った人々にも当てはまります。

経済的視点の批判

上記の批判の規模にもかかわらず、私の見解では、この論文の暗黙の経済学の方がはるかに魅力的です。要するに、ハーバード・ビジネス・スクールは、アウトプットの$${品質}$$だけを測定しており、アウトプットの$${コスト}$$は測定していません5

研究者たちは、コンサルタントの仕事に関連するコストを一度も測定していません(事実を確認してください)。これは**重要なポイントではありません**。この論文では、「品質」という言葉が58ページ(タイトルを含む)で65回も言及されています。一方、「コスト」という言葉は…2回…そして論文の最後の文でのみ言及されています。ここではその文を文脈とともに再現します:

“インターネットとウェブブラウザが情報共有の限界費用を劇的に削減したように、AIも人間の思考と推論に関連する費用を下げる可能性があり、広範で変革的な効果をもたらすかもしれません。"(p. 19)

ハーバードビジネススクールがついに財務コストの概念を認識したとしても、高品質の仕事を生成するために高額なビジネススクールの卒業生を必要としないことについては言及していません。これは、論文のタイトルが研究の焦点として「生産性」と「品質」を明示していること、さらに高額なビジネススクールが自身の将来の無用性を宣伝することはないという事実を考慮すれば、明らかなことかもしれません。

それにもかかわらず、私は丁寧に提案します。財務的な視点なしでアウトプットの$${生産性}$$と$${品質}$$を測定することは、学術論文としては実質的に意味のないことです。特にAIの全体的な鍵は、財政的な力において「大きな均等化者」であるという点です。

AIは、特に自動化を通じて、非常に低コストで非常に高品質な結果を提供します。この$${品質/コスト}$$の比率は、人間の労働者のそれを桁違いに上回ります6。さらに、ChatGPTのサブスクリプションとプログラミングの知識を持つ「誰でも」がこの扉を開けることができます。これにより、大企業と小企業の競争において、競争の格差が大幅に縮まります。

それにもかかわらず、ハーバードビジネススクールは58ページにわたってBCGコンサルタントの仕事の「品質」を単独で評価しています。この品質はどのように決定されたのでしょうか?「人間の採点者」によって…BCGの従業員です7。 既に詳細に説明されている利益相反の問題は置いておいて、この論文が提示する偽の二分法と、それが暗黙の経済学にどのように影響を与えるかについて言及する価値があります。この偽の二分法は次のようなものです:

“AIは、人間の専門知識よりも優れているか劣っているかのどちらかです。”

または、もっと寛大な解釈としては:

“AIは、人間の仕事をより良くするか悪くするかのどちらかです。”

いずれにしても、論文の偽の二分法の基礎となる指標は「品質」であり、これは主観的に測定され、時間、効率、コストなどの他の制約条件から独立した学術的な空間に存在します。 より洗練された経済学の視点は次のようなものです:

人間のアウトプットの$${品質/コスト}$$の比率とAI自動化の$${品質/コスト}$$の比率を比較すると、どちらが優れているか?

知識のある読者は、これを投資対効果(ROI)の議論として認識するでしょう。個人の$${品質/コスト}$$の比率は、次の質問に答えることで見つけることができます:

  1. 特定のタスクに対するアウトプットはどれくらい良かったですか?
  2. それはいくらかかりましたか?
  3. 品質はそのコストに値するものでしたか?
  4. 品質を改善するためにはどれくらいの費用がかかり、その改善は財務的に有益でしたか?

ハーバードビジネススクールは、最初の質問について58ページにわたって議論し、それ以上の議論には進んでいません。これはビジネススクールにとっては奇妙な視点です。実際、サプライチェーンに興味深い類似点が見られます。HBSの品質への盲目的な追求は、予測精度の孤立した追求(つまり、その改善に関連するROIを考慮せずに予測精度を向上させようとすること)と非常によく似ています8

潜在的な影響

経済的に言えば、「ジャギーな技術のフロンティア」とは、単にLLMが人間よりも優れたタスクをどのように実行するかを特定することではありません。むしろ、LLMを活用する際の理想的な$${品質/コスト}$$の比率を特定し、知的で財務的に根拠のある意思決定をすることです。洞察力のあるビジネスパーソンにとって、これには自動化が含まれます。手動介入ではなく、少なくとも非常に少ない手動介入が必要です。

これらのビジネスパーソンにとって、おそらく「同等の品質レベル」が受け入れられるでしょう。ただし、それが費用対効果があることが重要です。たとえば、人間の専門家が生成する品質と同じか、わずかに良い/悪い品質であっても、コンサルタントの価格の0.07%を支払うことは、非常に良いトレードオフを示すかもしれません9

これらの数値は各クライアントごとに異なるかもしれませんが、明らかになっているのは、「品質」が単独で懸念事項である限り、それを財務的なコストと関連付けて評価する必要があるということです。これは、ビジネスを継続する意図のある企業にとって少なくとも真実です。

おそらく、ハーバードビジネススクールの卒業生のチームやBCGのコンサルタントを雇うことが、AI自動化などのより安価なオプションに比べて理想的な$${品質/コスト}$$の比率だと考えているかもしれません。もしそうなら、長生きして繁栄することを願っています10

または、私のように考えるかもしれません。「品質は主観的であり、コストは主観的ではない」ということです。ビジネスに関しては、私の主観的な品質の評価はそのコストに相対的です。サプライチェーンのサービスレベル(または予測精度)と同様に、品質(または精度)を1%向上させることは、コストが1000%上昇する価値があるとは限りません。したがって、ビジネスにおいては品質とコストの間に経済的なトレードオフが存在することを見失わないようにすることが重要です。ハーバードビジネススクールが見失ってしまったように9

最後に、AIが人間の品質を超えるのを待ってから採用するつもりであれば、それでいいですが、私たち他の人はあなたと一緒に待つつもりはありません。


  1. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality, Dell’Acqua, Fabrizio and McFowland, Edward and Mollick, Ethan R. and Lifshitz-Assaf, Hila and Kellogg, Katherine and Rajendran, Saran and Krayer, Lisa and Candelon, François and Lakhani, Karim R., September 2023 ↩︎

  2. AI Pilots for Supply Chainでは、Joannes Vermorelはこの「スイスアーミーナイフ」のアプローチを、非常に賢い教授に一度勉強した論文の詳細を思い出させるようなものと比較しています。教授は頭の中で大まかな内容を思い出すでしょうが、適切な追加の質問をするまで、すべてのニュアンスを必ずしも思い出すわけではありません。 ↩︎

  3. BCGはアメリカの多くのトップビジネススクールとの関係を有益に広告しています。BCGが主要な米国のキャンパスに持つ存在感を調査してみてください。または、この便利なダウンロード可能なExcelを参照して、データを簡略化してください。この表には、現在ハーバードビジネススクールでMBAを学んでいるBCGコンサルタントの数(74)が含まれています。読者は自分自身で結論を出すことができます。 ↩︎

  4. 主要なビジネススクールと主要なコンサルティング会社の共同研究によれば、高価な(そして高価に訓練された)コンサルタントは貴重な資産です… 私があまり驚かないことを許してください。もし驚いているのであれば、前の脚注のダウンロード可能なExcelにおいて確認してください。 ↩︎

  5. そして、それは確かに品質を出力のコストで割ったものを測定していません。後ほど説明します。 ↩︎

  6. この点について正確な数字を提供することは難しいですが、あるトップファームのコンサルタントの年間給与が20万ドル(米国)を超えると仮定しましょう。この数字は、一部の簡単なインターネット調査に基づいて合理的です。ChatGPTの「ナプキンの裏」の計算によれば、1年分のコンサルティング業務にかかる費用は約145ドル(ChatGPTの処理コストとして)です。明らかに、これはあまり科学的ではありませんが、たとえその数字が3桁間違っていたとしても、それはまだ単一のコンサルタントの年間給与よりもほぼ30%安くなります。ChatGPTの推論については、こちらをご覧ください:https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431(会話ログを提供してくれたAlexey Tikhonovにクレジットがあります)。認めるところもありますが、テンプレート化されたロボット自体の構築コストも考慮する必要がありますが、ChatGPTの145ドルと組み合わせても、単一のコンサルタントの年間給与よりも安く、スケール展開時に指数関数的に生産性が向上します。 ↩︎

  7. この文章を読んだことを疑問視する場合は、論文の9ページと15ページを参照してください。もしこれが利益相反を示唆していると思われる場合は、脚注3のダウンロード可能なExcelに再度注意を向けてください。 ↩︎

  8. Lokadは以前に予測の正確さの価値について詳しく取り上げていますので、ここでは非常に簡単に復習します:予測の正確さなどのKPIを、それらの財務的な影響(つまりROI)から独立して測定するのではなく、サプライチェーンの意思決定の財務的な影響に焦点を当ててください。言い換えれば、需要予測が10%正確になったとしても、その結果として20%収益が減少した場合、増加した正確さは増加したコストに見合うものではなかったと言えます。 ↩︎

  9. 約1年前、LokadはLLMを使用してウェブサイトを6つの言語に翻訳し始めました。それ以前は、プロの翻訳者のサービスを利用していました。翻訳を維持するための継続的なコストは、1言語あたり年間約15,000〜30,000ドル(米国)でした。プロの翻訳者の提供する品質は(比較的に)高いと認めることはできますが、LLMを使用することの品質/コスト比ははるかに優れています。言い換えれば、LLMを使用して生成できる品質は十分に受け入れられるものであり、以前の体制よりもはるかに安価です。節約額を正確に評価することは難しいですが、過去および将来にわたるすべてのリソースを6つの言語に翻訳することは、以前のシステムよりもはるかに安価で時間効率が良いです。もしフランス語、ドイツ語、スペイン語、ロシア語、イタリア語、または日本語が母国語である場合は、このエッセイをページの右上隅にある翻訳ツールを使用して翻訳し、品質をテストしてみてください。 ↩︎ ↩︎

  10. 少なくともOpenAIがChatGPT-5をリリースするまで。 ↩︎