Распаковка Agentic AI
Генеративный ИИ мертв. Да здравствует Agentic AI…может быть.

Многие поставщики программного обеспечения, воодушевленные не совсем разумными рыночными оценками, удваивают ставки на гипе вокруг искусственного интеллекта. Я обычно не занимаюсь предсказаниями, но я пророчу, что в 2025 году агентический искусственный интеллект станет главным модным словом. Как и полагается модным технологическим словам, можно ожидать крупицы фактической новизны, разбавленной океаном завышенных ожиданий.
Давайте начнем с того, чтобы немного прояснить, что находится под угрозой. Немного упрощая1, LLM (большие языковые модели) в своей сути являются моделями завершения текста. Они берут входной текст и генерируют выходной текст. Поскольку эти модели умно предварительно обучены на «теранормальных» объемах веб-материалов, их можно легко использовать для широкого спектра задач (например, перевода, суммирования, генерации идей и т. д.). Фактически, LLM сделали устаревшей всю предыдущую область обработки естественного языка (NLP).
Учитывая текущую производительность и ценовую политику LLM, очевидно, что эта технология имеет потенциал для предоставления значительной добавленной стоимости для любого бизнеса, занятого белыми воротничками. Однако мелкий шрифт менее очевиден. Здесь агентический ИИ (или, точнее говоря, его поставщики) предлагают сократить разрыв между сырыми возможностями LLM и их ИТ-средами.
Что касается конкретики, Эрик Паундс2 (Nvidia) предложил в октябре 2024 года следующее определение для агентического ИИ, которое, по моему мнению, точно отражает то, что обычно понимается под этим новым модным словом:
Агентический ИИ использует четырехэтапный процесс решения проблем: Воспринимать: ИИ-агенты собирают и обрабатывают данные из различных источников […]; Рассуждать: Большая языковая модель действует как оркестратор. В этом этапе используются такие техники, как retrieval-augmented generation (RAG) […]; Действовать: Интегрируясь с внешними инструментами и программным обеспечением через интерфейсы прикладного программирования, агентический ИИ может быстро выполнять задачи […]; Учиться: Агентический ИИ непрерывно совершенствуется через обратную связь или «data flywheel» […]
Большая задача агентического ИИ заключается в том, чтобы проложить путь к «полностью цифровому сотруднику» (мой термин, а не Паундса), функционально эквивалентному беловоротничковому работнику. Учитывая, что в мире примерно миллиард беловоротничковых работников, несложно понять, почему рынки кажутся терять голову от этой перспективы.
При ближайшем рассмотрении мы видим, что существуют два резко отличающихся фундаментальных препятствия, которые пытается преодолеть агентический ИИ: инструментирование и обучение.
Инструментирование: Первое, наиболее очевидное препятствие заключается в том, что LLM нельзя использовать в вакууме. LLM - это программное обеспечение, и, следовательно, требуется некоторый вид ИТ-программного обеспечения. Это программное обеспечение обеспечивает возможность LLM извлекать соответствующую информацию из своего окружения и выдавать команды, предназначенные для завершения того, что ожидается от LLM. Для отделов информационных технологий, обычно уже утопающих в годами отставания, разработка такого программного обеспечения представляет собой собственную проблему. Однако сами LLM могут облегчить эту задачу.
Обучение: Как странно это ни звучит, LLM, в большинстве своем, ничего не учится никогда после своего создания. Это наша вторая преграда. Все, что LLM когда-либо знает, - это либо общедоступная информация (следовательно, часть предварительного обучения), либо часть подсказки. Практически[^настройка] нет промежуточного состояния. После каждого завершения LLM сбрасывается в исходное состояние. Однако, если база знаний, поддерживающая подсказку, могла бы обновляться самим LLM, то эта преграда также могла бы быть концептуально смягчена.
Если агентическому искусственному интеллекту удастся преодолеть эти две преграды - не прибегая к LLM, превосходящим те, которые у нас есть сейчас, - то это действительно проложит путь для создания общих цифровых работников белого воротничкового сектора. Однако это очень смелое предложение, и несмотря на энтузиазм рынка, решение вышеупомянутых преград может потребовать значительных усилий.
В плане инструментации предложение о наличии цифрового агента, непосредственно взаимодействующего с экраном и клавиатурой - как человек - привлекательно, в первую очередь потому, что оно кажется полностью обходит трудности связанные с IT-прокладкой, упомянутые ранее. Однако это также самый грандиозно переусложненный способ решения проблемы. Чтобы воспринимать графический пользовательский интерфейс, десятки (сотни?) снимков экрана придется подавать в LLM даже для самого простого взаимодействия. Чтобы действовать, также придется выполнять десятки (сотни?) команд - например, команды мыши.
Хотя я не сомневаюсь, что такое достижение уже возможно с современными LLM, я сомневаюсь в практичности и поддерживаемости такого подхода. Хотя обработка самих изображений представляет собой огромные накладные расходы на вычислительные ресурсы, это не является настоящей преградой (учитывая, что прогресс компьютерного оборудования, вероятно, со временем снизит эти накладные расходы ниже стоимости полноценного сотрудника).
Суть проблемы в следующем: ясно описать (с помощью подсказок) каждый мелкий аспект взаимодействия с бизнес-приложениями, необходимыми для выполнения задачи, требует значительных усилий. Это усилие требует, как минимум, хороших навыков в области информационных технологий - если не развитого мышления в области информационных технологий. Я очень сомневаюсь, что эту задачу может выполнить кто-то, неспособный программировать или неспособный стать начинающим программистом в течение нескольких месяцев. Более того, поскольку информационная среда любой крупной компании постоянно меняется, необходимо будет контролировать адекватность подсказок. Кроме того, сами подсказки также должны быть регулярно обновляемыми. Таким образом, это усилие будет продолжаться.
Сможет ли агентический искусственный интеллект действительно смягчить необходимость в человеческих цифровых специалистах - то есть проблему с отставанием в области информационных технологий - учитывая, что он сам требует значительных навыков в области информационных технологий? Я не думаю. Это возвращает нас к исходной точке, которая заключается в том, что если нужно привлечь цифровых специалистов, то давайте использовать этот талант для фронтального решения проблемы IT-прокладки.
Предоставление сырых соответствующих данных (обычно реляционной природы) LLM (вместо направления всего через графический пользовательский интерфейс) позволяет ожидать упрощения самих подсказок на порядки. Ожидается, что 5-строчные SQL-запросы заменят 5-страничные подсказки. Более того, человек-оператор может быть даже помощником LLM при написании этих SQL-запросов.
Естественно, работа с SQL-запросами, возможно, выполняемыми против нескольких неоднородных баз данных, требует инструментации. Однако, такая инструментация гораздо проще, чем та, о которой говорится в агентическом искусственном интеллекте. Она настолько проста, что, фактически, многие IT-отделы, вероятно, разработают свои собственные инструменты для этой цели, как они регулярно делают это для незначительных утилит.
Со временем, сами поставщики программного обеспечения, вероятно, адаптируют свои собственные продукты для облегчения такой LLM-ориентированной прокладки, хотя не совсем ясно, в какой форме это произойдет (одним из вариантов является усиление API, другим - текстовые интерфейсы).
В плане обучения я скептически настроен. Агентический искусственный интеллект представлен как шаг к общему искусственному интеллекту, решающему одно из самых фундаментальных ограничений LLM: отсутствие настоящих возможностей обучения. Однако предложенное решение Паундса - “data flywheel”, основанное на retrieval augmented generation (RAG) - это всего лишь простой хак, наложенный на впечатляющую технологию (сам LLM).
Вполне возможно, что LLM может давать команды для постепенного обогащения и обновления своего “data flywheel”. Также возможно, что LLM может создавать свой собственный набор данных для настройки, сводя попытки N-шотов к попыткам 1-шота, а затем давать команду для запуска фазы настройки.
Однако не ясно, что LLM, такими, как они есть сейчас, представляют собой жизнеспособный путь к такому достижению. Я сильно подозреваю, что поддержание здорового “data flywheel” со временем может оказаться сложной задачей, и для этого потребуется значительное количество технически подкованных людей.
Здесь мы касаемся фундаментального ограничения парадигмы LLM, так как она существует в настоящее время. Неясно, что это ограничение может быть преодолено просто добавлением чего-то сверху LLM. У меня есть ощущение, что для решения этой проблемы потребуется переосмысление самих LLM. Это может быть относительно незначительное изменение, как оказалось с цепочкой мыслей, или потребовать полной переделки всего этого3.
В целом, хотя я и остаюсь энтузиастом LLM, я не убежден, что шум вокруг их производной, агентического ИИ, оправдан. У меня нет сомнений в том, что компании будут запускать “агентов” для механизации различных задач - так же, как моя собственная компания, Lokad, делает это уже два года. Однако, если что-то, этот процесс сделал нас еще более зависимыми от талантливого, технически подкованного персонала1. Кроме того, глядя на эти инициативы, “агентические” части всегда были самыми обычными. Мы боролись и иногда терпели неудачи при внедрении LLM-силовых элементов в производство, но “агентический” аспект был, в лучшем случае, очень отдаленной проблемой.
-
Современные LLM работают с токенами, а не с символами Unicode, хотя это ограничение может быть снято в будущем. LLM также могут обрабатывать входные изображения, если эти изображения линеаризованы (встроены) в скрытом пространстве окна контекста. ↩︎ ↩︎
-
Любопытные читатели могут ознакомиться с исходным материалом по адресу https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎
-
Модель o1, выпущенная OpenAI в декабре 2024 года, повышает технику цепочки мыслей до полноценного гражданина, позволяя LLM начать с внутреннего монолога, обсуждающего подсказку, прежде чем перейти к производству окончательного результата. Это относительно незначительное изменение существующих LLM, но оно все же приводит к существенным улучшениям для определенных классов задач, таких как математика и программирование. ↩︎