Генеративный ИИ мертв. Да здравствует агентный ИИ… может быть.

Векторный робот в костюме в стиле 60-х стоит перед компьютерным планшетом.

Многие поставщики программного обеспечения, подстегиваемые не совсем обоснованной оценкой рынка, делают ставку на шумиху вокруг искусственного интеллекта. Обычно я не предсказываю будущее, но предрекаю, что в 2025 году агентный искусственный интеллект станет одним из главных модных терминов. Как и положено техническим модным словам, можно ожидать, что в океане раздутых ожиданий найдутся отдельные крупицы настоящей новизны.

Давайте начнем с разъяснения того, что поставлено на кон. Упрощая немного1, большие языковые модели (LLM) по своей сути являются моделями дополнения текста. Они получают на вход необработанный текст и генерируют необработанный текст на выходе. Поскольку эти модели умело предварительно обучались на «огромном» объеме веб-материалов, их можно использовать для разнообразных задач (например, перевод, суммаризация, генерация идей и т.д.). Фактически, LLM сделали устаревшей всю прежнюю область обработки естественного языка (NLP).

Учитывая текущие показатели эффективности и стоимость LLM, очевидно, что эта технология может принести значительную добавленную стоимость для любого бизнеса, использующего офисных работников. Однако мелкий шрифт менее очевиден. Здесь агентный ИИ (или, точнее, его поставщики) предлагает преодолеть разрыв между базовыми возможностями LLM и их ИТ-средой.

Что касается деталей, Эрик Паунс2 (Nvidia) предложил в октябре 2024 года следующее определение агентного ИИ, которое, на мой взгляд, в полной мере отражает то, что обычно подразумевается под этим новым модным термином:

Агентный ИИ использует четырехступенчатый процесс для решения проблем: Восприятие: агенты ИИ собирают и обрабатывают данные из различных источников […]; Мышление: большая языковая модель выступает в роли координатора. Этот этап использует такие методы, как генерация с поддержкой поиска (RAG) […]; Действие: интегрируясь с внешними инструментами и программным обеспечением через интерфейсы прикладного программирования, агентный ИИ может быстро выполнять задачи […]; Обучение: агентный ИИ постоянно совершенствуется посредством обратной связи, или «маховик данных» […]

Великая идея агентного ИИ заключается в том, что он прокладывает путь к «полностью цифровому сотруднику» (мой термин, не Паунса), функционально эквивалентному офисному работнику. При наличии, примерно, одного миллиарда офисных работников по всему миру, несложно понять, почему рынки, кажется, сходят с ума от этой перспективы.

При более тщательном рассмотрении видно, что агентный ИИ пытается решить две четко различающиеся, фундаментальные проблемы: инструментирование и обучение.

Инструментирование: Первая, самая очевидная проблема заключается в том, что LLM нельзя использовать в вакууме. LLM — это программное обеспечение, и поэтому требуется какая-либо ИТ-инфраструктура. Эта инфраструктура обеспечивает возможность LLM извлекать релевантную информацию из окружающей среды и выдавать команды — предназначенные для выполнения того, что от LLM ожидается. Для ИТ-отделов, которые уже утопают в накопившемся багаже задач, разработка такой инфраструктуры является своей отдельной проблемой. Однако сами LLM могут облегчить эту задачу.

Обучение: Как бы странно это ни казалось, LLM, в основном, вообще ничего не учатся после своего создания. Это наша вторая проблема. Всё, что LLM знает, — это либо публичная информация (а значит, часть предобучения), либо часть подсказки. Практически нет промежуточного этапа3. После каждого завершения работы LLM возвращается в исходное состояние. Однако, если база знаний, поддерживающая подсказку, могла бы обновляться самой LLM, то эту проблему можно было бы концептуально смягчить.

Если агентный ИИ сможет решить эти две проблемы — не прибегая к LLM, отличным от тех, что у нас сейчас — тогда он действительно прокладывал бы путь к созданию универсальных цифровых офисных работников. Однако это очень смелое предложение, и, несмотря на энтузиазм рынка, решение вышеупомянутых проблем может потребовать значительных усилий.

С точки зрения инструментирования, предложение о наличии цифрового агента, который напрямую взаимодействует с экраном и клавиатурой — как это делает человек — выглядит привлекательно, прежде всего потому, что оно, по-видимому, полностью обходится без проблем ИТ-инфраструктуры, упомянутых ранее. Однако это также самый чрезмерно усложнённый способ решения проблемы. Для восприятия графического интерфейса даже для самого простого взаимодействия необходимо передать в LLM десятки (сотни?) скриншотов. Для совершения действий также придется выдавать десятки (сотни?) команд — например, команд мыши.

Хотя я не сомневаюсь, что такой подвиг уже возможен с современными LLM, я сомневаюсь в практичности и удобстве поддержки такого подхода. Обработка изображений сама по себе требует огромных вычислительных ресурсов, но это не является истинным препятствием (учитывая, что прогресс компьютерного оборудования со временем, вероятно, снизит эти затраты до уровня, значительно меньшего чем стоимость штатного сотрудника).

Суть проблемы заключается в том, что однозначное прописывание (с помощью подсказок) каждой мелочи взаимодействия с бизнес-приложениями, необходимыми для выполнения задачи, требует значительных усилий. Эти усилия требуют, как минимум, приличных ИТ-навыков — если не развитого ИТ-образа мышления. Я весьма сомневаюсь, что эту задачу сможет выполнить тот, кто не способен программировать — или не сможет стать начинающим программистом в течение нескольких месяцев. Более того, так как ИТ-инфраструктура любой крупной компании постоянно меняется, адекватность подсказок придется постоянно контролировать. Кроме того, сами подсказки придется регулярно обновлять. Таким образом, эти усилия будут постоянно актуальными.

Сможет ли агентный ИИ действительно решить проблему нехватки цифровых специалистов — то есть проблему отставания ИТ — учитывая, что он сам требует значительных затрат человеческого цифрового таланта? Я так не думаю. Это возвращает нас к исходной точке: если требуется привлечение человеческого цифрового таланта, то давайте используем его для непосредственного решения проблем ИТ-инфраструктуры.

Предоставляя LLM необработанные релевантные данные (обычно реляционного характера), а не пропуская всё через графический интерфейс, можно ожидать, что подсказки сами по себе будут упрощены в разы. Вместо подсказок на 5 страницах должны появиться SQL-запросы в 5 строках. Более того, человеческому оператору даже может помогать LLM при написании этих SQL-запросов.

Конечно, управление SQL-запросами — возможно, выполняемыми против нескольких разнородных баз данных — требует инструментирования. Тем не менее, такого рода инструментирование значительно проще, чем то, которое предлагает агентный ИИ. Оно настолько просто, что многие ИТ-отделы вероятно разработают собственные инструменты именно для этой цели — как они и делают в случае с незначительными утилитами.

Со временем поставщики программного обеспечения, вероятно, адаптируют свои продукты для облегчения такого рода ИТ-инфраструктуры, управляемой LLM, хотя не совсем ясно, какую форму это примет (сделать упор на API — один из вариантов, текстовые интерфейсы — другой).

С точки зрения обучения, я остаюсь скептичным. Агентный ИИ преподносится как шаг к общему искусственному интеллекту, решающий одну из фундаментальных ограничений LLM: отсутствие настоящих возможностей обучения. Однако предложенное Паунсом решение — «маховик данных», работающий на основе генерации с поддержкой поиска (RAG) — ничто иное, как простая уловка, наложенная на в остальном впечатляющую технологию (саму LLM).

Можно предположить, что LLM может выдавать команды для постепенного обогащения и обновления своего собственного «маховика данных». Также возможно, что LLM сможет сгенерировать собственный набор данных для дообучения, сводя попытки с N примерами к 1-примеру, а затем выдавая команду для запуска фазы дообучения.

Однако неясно, представляют ли текущие LLM жизнеспособный путь к достижению такого результата. Я твёрдо подозреваю, что поддержание работоспособного маховика данных с течением времени может оказаться сложной задачей, и что его обслуживание — если оно вообще возможно — потребует значительных усилий со стороны квалифицированных технически подкованных специалистов.

Здесь мы затрагиваем фундаментальное ограничение парадигмы LLM в её нынешнем виде. Неясно, можно ли преодолеть это ограничение, просто добавляя что-то над LLM. Моё интуитивное чувство подсказывает, что для решения этой проблемы потребуется переосмысление самих LLM. Это может быть относительно незначительное изменение, как оказалось с эффектом «цепочки размышлений», — или потребовать полного пересмотра всей системы4.

В целом, хотя я и остаюсь в восторге от LLM, меня не убеждает, что шумиха вокруг их побочного продукта — агентного ИИ — оправдана. Я нисколько не сомневаюсь, что компании начнут внедрять «агентов» для механизации различных задач — подобно тому, как моя собственная компания Lokad делает это последние два года. Однако, если и случится что-то подобное, то этот процесс сделает нас еще более зависимыми от талантливых, технически подкованных специалистов. Более того, если посмотреть на эти инициативы, то «агентные» части всегда были самыми заурядными элементами. Нам пришлось бороться и иногда терпеть неудачу при внедрении решений на базе LLM в производство, но аспект «агентности» оставался, в лучшем случае, довольно отдаленной проблемой.


  1. Современные LLM работают с токенами, а не с символами Юникода, хотя это ограничение, возможно, будет снято в будущем. LLM также могут обрабатывать входные изображения, если указанные изображения линейно преобразованы (встроены) в латентное пространство окна контекста. ↩︎

  2. Любознательных читателей приглашают ознакомиться с исходным материалом по адресу https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎

  3. Дообучение — это процесс взятия предварительно обученной модели и продолжения её обучения на специализированном наборе данных или для конкретной задачи, что позволяет адаптировать модель на основе частной информации. Однако дообучение зависит от наличия качественного корпуса, то есть ручных вкладов экспертов. ↩︎

  4. Модель o1, выпущенная OpenAI в декабре 2024 года, выводит технику цепочки размышлений на новый уровень, позволяя LLM начинать с внутреннего монолога, обсуждая подсказку перед тем, как приступить к созданию окончательного ответа. Это относительно скромное отклонение от существующих LLM, тем не менее, обеспечивает существенные улучшения для некоторых классов задач, таких как математика и программирование. ↩︎