Качество субъективно; стоимость - нет.

В недавнем эпизоде LokadTV, я предположил, что статья Гарвардской бизнес-школы (HBS), выполненная в сотрудничестве с Boston Consulting Group (BCG), была глубоко ошибочной и потенциально опасной. Полное название статьи - Навигация по зазубренному технологическому фронту: полевые экспериментальные данные об эффектах AI на знания, производительность работников и качество1. Кратко говоря, статья утверждает, что способности AI к сложным задачам неравномерно распределены, поскольку он преуспевает в некоторых задачах и плохо справляется с другими («внутри» и «за пределами фронта» задачи, соответственно).

Фигура, показывающая относительную стоимость и качество выходных данных, связанных с различными рабочими процессами, включая AI-автоматизацию.

Контекст

На дальней стороне этого «зазубренного технологического фронта» (см. иллюстрацию на стр. 27 статьи), человеческая экспертиза все еще превосходит AI (в данном случае, ChatGPT-4), особенно в задачах, которые объединяют количественный и качественный анализ (т.е. «за пределами фронта» задачи).

Это не должно удивлять тех, кто знаком с тем, для чего предназначены большие языковые модели (LLM), такие как ChatGPT (спойлер: не для математики). Кроме того, когда LLM рассматриваются как «база данных всего», они производят правдоподобные, но иногда неточные ответы2. Тем не менее, статья все же поднимает несколько интересных вопросов - хотя и случайно.

В пользу статьи можно сказать, что она очень читабельна, чего часто не хватает в академической среде. Сказав это, можно было бы выразить несколько опасений относительно потенциальных конфликтов интересов3 и ее выводов4, однако наибольший интерес здесь представляют методология и неявная экономика статьи.

Критика методологии

Что касается методологии, этот вопрос уже был критикован в видео, поэтому я буду кратким здесь. Исследовательская группа не изучала прирост производительности, генерируемый автоматизацией. Вместо этого исследователи выбрали группы консультантов (т.е. неспециалистов в области AI, компьютерных наук и/или инженерии), чтобы использовать ChatGPT-4. Единственным исключением была контрольная группа, которая работала только со своей экспертизой. Этика как эти группы были оценены, будет упомянута в ближайшее время.

В эксперименте не было внешних программистов или экспертов по AI. Не было команд разработчиков, владеющих генерацией с использованием RAG, доменной специфической точной настройкой или другими техниками, которые используют наибольшие преимущества LLM: устойчивость к шуму, универсальные шаблоны роботов.

Этот впечатляющий робот не был запрограммирован для использования доменно-специфических знаний, хранящихся в обширных внутренних базах данных BCG о прошлых консультационных инициативах. Напротив, в эксперименте участвовали некоторые консультанты с подпиской на ChatGPT-4.

Эта оркестровка естественно вызывала различные степени выходных данных (с точки зрения качества), особенно в отношении задач, которые требовали как количественного, так и качественного анализа. Другими словами: эксперимент был разработан, чтобы увидеть, насколько плохо неспециалисты не используют сложный технологический продукт, и при нереалистично ограничивающих условиях.

Как я заключил в видео, игнорирование возможных приростов производительности (и экономии) через автоматизацию граничит со скандалом. Это особенно верно, когда кто-то публикует под именем престижного учебного заведения. Выводы статьи также дают, на мой взгляд, очень ложное чувство (работоспособности) безопасности студентам, которые собираются влезть в жизненный долг, чтобы учиться в ведущей бизнес-школе. Это также верно для людей, которые уже сделали шаг и понесли значительные долги за дипломы в областях, которые могут быть на грани полной автоматизации.

Критика экономической перспективы

Несмотря на значительную критику выше, по моему мнению, неявная экономика статьи гораздо более увлекательна. Просто говоря, Гарвардская бизнес-школа измеряла только $${качество}$$ выходных данных, а не $${стоимость}$$ выходных данных5.

Ни в одном месте (и, пожалуйста, проверьте меня) исследователи не измеряют стоимость, связанную с результатами работы консультантов. Это не пустяковый момент. В статье упоминается слово “качество” 65 раз на 58 страницах (включая название статьи). Слово “стоимость” упоминается…2 раза…и только в самом последнем предложении статьи. Я воспроизвожу это предложение здесь для контекста:

“Так же, как интернет и веб-браузеры резко снизили предельные затраты на обмен информацией, AI также может снижать затраты, связанные с человеческим мышлением и рассуждением, с потенциально широкими и трансформационными эффектами.” (стр. 19)

Даже когда Гарвардская бизнес-школа наконец признала концепцию финансовых затрат, это было не в терминах снижения стоимости создания высококачественной работы без необходимости дорогих выпускников бизнес-школы. Это может показаться очевидным, учитывая, что название статьи определяет “производительность” и “качество” в качестве основных точек исследования, не говоря уже о том, что дорогая бизнес-школа вряд ли будет рекламировать свою потенциальную грозящую бесполезность.

Тем не менее, я вежливо предлагаю, что измерение $${производительности}$$ и $${качества}$$ выходных данных без прочной финансовой перспективы практически бессмысленно, особенно в академической статье из бизнес-школы. Это особенно возмутительно, учитывая, что вся суть AI заключается в том, что это великий уравнитель, когда речь идет о финансовой мощи.

AI обеспечивает очень высокое качество результатов при очень низкой стоимости, особенно через автоматизацию. Этот коэффициент $${качество/стоимость}$$ на порядки выше, чем у человеческих работников6. Более того, это открывает эту дверь любому, у кого есть подписка на ChatGPT и некоторые знания программирования. Это существенно уравнивает игровое поле, когда речь идет о конкуренции между большими игроками и мелкими.

Вместо этого, на протяжении 58 страниц, Гарвардская бизнес-школа оценивает “качество” работы консультантов BCG в изоляции. Как было определено это качество? “Человеческими оценщиками”…которые работают на BCG7. Откладывая в сторону уже подробно описанные конфликты интересов, стоит отметить ложную дихотомию, представленную в статье, и то, как это влияет на ее неявную экономику. Эта ложная дихотомия звучит примерно так:

“AI либо лучше, либо хуже человеческой экспертизы.”

Или, возможно, более благожелательная интерпретация:

“AI делает людей лучше или хуже в своей работе.”

В любом случае, метрика, лежащая в основе ложной дихотомии в статье, - это “качество”, которое измеряется субъективно и существует в академическом вакууме, независимо от других ограничений, таких как время, эффективность и стоимость. Более сложная экономическая перспектива была бы такой:

Каково соотношение $${качество/стоимость}$$ человеческого выхода по сравнению с соотношением $${качество/стоимость}$$ AI-автоматизации?

Сообразительные читатели узнают в этом аргумент ROI (возврат на инвестиции). Ваше личное соотношение $${качество/стоимость}$$ можно узнать, ответив на следующие вопросы:

  1. Насколько хорош был результат для данной задачи?
  2. Сколько это стоило?
  3. Было ли качество стоимостью?
  4. Сколько бы стоило улучшить качество, и было бы это улучшение финансово оправдано?

Гарвардская бизнес-школа тратит 58 страниц на обсуждение первого вопроса и никогда не выходит за его пределы. Это странная перспектива для бизнес-школы, надо сказать. На самом деле, можно провести интересную параллель с цепочкой поставок. Слепое стремление HBS к качеству удивительно похоже на изолированное стремление к точности прогноза (то есть попытка улучшить точность прогноза без учета ROI, связанного с этим улучшением)8.

Возможные последствия

С экономической точки зрения, “зигзагообразный технологический фронт” - это не просто определение тех задач, которые LLM выполняют лучше, чем люди. Скорее, это определение вашего идеального соотношения $${качество/стоимость}$$ при использовании LLM и принятие разумных, финансово обоснованных решений. Для смышленых бизнесменов это будет включать в себя автоматизацию, а не ручное вмешательство (или по крайней мере очень мало его).

Для этих бизнесменов, возможно, сопоставимый уровень качества приемлем, если он экономически эффективен. “Приемлемым” может означать то же самое или немного лучше/хуже качество, чем то, что может создать человеческий эксперт. Другими словами, платить 0,07% от цены консультанта за >90% качества может быть очень хорошей сделкой, несмотря на то, что она не такая хорошая, как дорогостоящий эксперт9.

Цифры будут различаться для каждого клиента, но что доказательно ясно, так это то, что есть точка, после которой “качество” перестает быть проблемой в изоляции и должно оцениваться с учетом его финансовой стоимости. Это по крайней мере верно для бизнеса, стремящегося оставаться в бизнесе.

Возможно, вы считаете, что найм команды выпускников Гарвардской бизнес-школы или консультантов из BCG представляет собой идеальное соотношение $${качество/стоимость}$$, независимо от более дешевых вариантов, таких как AI-автоматизация. Если это так, я надеюсь, вы проживете долгую и счастливую жизнь10.

Или, возможно, вы думаете как я: качество субъективно; стоимость - нет. Мое субъективное восприятие качества - особенно когда речь идет о бизнесе - относительно его стоимости. Подобно уровням обслуживания (или точности прогноза) в цепочке поставок, дополнительное увеличение качества (или точности) на 1% вероятно не стоит увеличения стоимости на 1000%. Таким образом, когда речь идет о AI в бизнесе, существует экономический компромисс между качеством и стоимостью. Важно не потерять это из виду, как это, по-видимому, сделала Гарвардская бизнес-школа.

В заключение, если вы ждете, когда AI превзойдет человеческое качество, прежде чем принять его, так тому и быть, но остальные из нас не собираются ждать с вами.


  1. Навигация по зигзагообразному технологическому фронту: Экспериментальные данные о влиянии AI на продуктивность и качество работы знаний, Dell’Acqua, Fabrizio и McFowland, Edward и Mollick, Ethan R. и Lifshitz-Assaf, Hila и Kellogg, Katherine и Rajendran, Saran и Krayer, Lisa и Candelon, François и Lakhani, Karim R., сентябрь 2023 ↩︎

  2. В AI Pilots for Supply Chain, Joannes Vermorel сравнил этот подход “Швейцарский армейский нож” с просьбой к очень умному профессору вспомнить детали статьи, которую он когда-то изучал. Со своей стороны, профессор вспомнит общую суть, но он может не вспомнить все нюансы, если вы не зададите правильные дополнительные вопросы, чтобы помочь ему освежить память. ↩︎

  3. BCG полезно рекламирует свои связи со многими ведущими бизнес-школами Америки. Не стесняйтесь изучить присутствие BCG на крупных американских кампусах. В качестве альтернативы, вы можете ознакомиться с этим полезным скачиваемым Excel, который упрощает данные. В таблице указано, сколько консультантов BCG в настоящее время учатся в Harvard Business School (74). Читатели могут сделать свои выводы. ↩︎

  4. Сотрудничество между крупной бизнес-школой и крупной консалтинговой фирмой показало, что дорогие (и дорого обученные) консультанты являются ценными активами… Простите меня за то, что я не удивлен. Если вы удивлены, я вежливо перенаправляю вас к скачиваемому Excel в предыдущей сноске. ↩︎

  5. И оно определенно не измеряло качество, деленное на стоимость выхода, как я расскажу позже. ↩︎

  6. Трудно дать точные цифры по этому вопросу, но допустим, годовая зарплата консультанта из любой ведущей фирмы составляет более 200 000 долларов (США). Эта цифра вполне разумна на основе некоторых поверхностных интернет-исследований. Расчеты ChatGPT на обороте конверта предполагают, что год работы консультанта обойдется примерно в 145 долларов (в терминах затрат на обработку ChatGPT). Очевидно, это не очень научно, но даже если цифра ошибается на три порядка, это все равно почти на 30% дешевле, чем годовая зарплата одного консультанта. Обсудите логику ChatGPT здесь: https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431. (Благодарность Алексею Тихонову за предоставление журнала беседы.) Разумеется, также следует учесть затраты на создание самого шаблонизирующего робота, которые могут быть не дешевыми, но даже в сочетании с 145 долларами за ChatGPT это все равно будет дешевле, чем годовая зарплата одного консультанта и будет экспоненциально более продуктивным при масштабном внедрении. ↩︎

  7. Смотрите страницы 9 и 15 статьи, если вы сомневаетесь в том, что только что прочитали. Если это, возможно, предполагает конфликт интересов, я вежливо перенаправляю ваше внимание на скачиваемый Excel в сноске 3. ↩︎

  8. Lokad уже рассматривал ценность точности прогнозирования подробно ранее, поэтому вот очень краткое повторение: сосредоточьтесь на финансовом воздействии ваших решений в цепочке поставок, а не на измерении KPI (таких как точность) независимо от их финансовых последствий (то есть ROI). Иными словами, если прогноз спроса на 10% точнее, но вы зарабатываете на 20% меньше денег, можно сказать, что увеличенная точность не стоила увеличенных затрат. ↩︎

  9. Примерно год назад Lokad начал переводить свой сайт на шесть языков с использованием LLM. До этого мы использовали услуги профессиональных переводчиков. Постоянные затраты только на поддержание переводов составляли около 15 000-30 000 долларов США в год на каждый язык. Несмотря на то, что мы вполне готовы признать, что профессиональные переводчики предоставляли (относительно) более высокое качество, соотношение $${качество/стоимость}$$ при использовании LLM гораздо больше. Другими словами, качество, которое мы можем получить с помощью LLM, более чем приемлемо и значительно дешевле нашего предыдущего соглашения. Трудно точно оценить экономию, но компетентный перевод каждого ресурса, который мы когда-либо создавали (и когда-либо будем) на шесть языков за несколько минут, на порядки дешевле и более эффективен по времени, чем предыдущая система. Если вы носитель французского, немецкого, испанского, русского, итальянского или японского языка, не стесняйтесь перевести этот эссе в верхнем правом углу страницы и проверить качество самостоятельно. ↩︎

  10. По крайней мере, до тех пор, пока OpenAI не выпустит ChatGPT-5. ↩︎