Desempaquetando Agentic AI

enero 13, 2025

technology

Joannes Vermorel

La IA generativa está muerta. Larga vida al Agentic AI…quizás.

Un robot vectorial con un traje al estilo de los años 60 se encuentra frente a una tableta.

Muchos proveedores de software, alentados por valoraciones de mercado no del todo razonables, están reforzando el bombo en torno a la inteligencia artificial. Usualmente no me dedico a hacer predicciones, pero profetizo que en 2025, la agentic artificial intelligence será una palabra de moda importante. Como es habitual con las palabras de moda tecnológicas, se pueden esperar retazos de novedad real diluidos en un océano de expectativas exageradas.

Empecemos aclarando un poco lo que está en juego. Simplificando un poco¹, los LLMs (modelos de lenguaje grandes) son, en esencia, modelos de completado de texto. Toman texto en bruto como entrada y generan texto en bruto como salida. Dado que estos modelos están inteligentemente preentrenados con cantidades “teranormosas” de materiales web, pueden ser utilizados de inmediato para una gran variedad de tareas (por ejemplo, traducción, resumen, generación de ideas, etc.). De hecho, los LLMs han dejado obsoleta toda la disciplina previa del PLN (procesamiento del lenguaje natural).

Considerando el rendimiento actual y el precio de los LLMs, es evidente que esta tecnología tiene el potencial de aportar mucho value add para cualquier empresa que emplee trabajadores de cuello blanco. Sin embargo, la letra pequeña es menos evidente. Aquí, la agentic AI (o, more accurately, sus proveedores) propone cerrar la brecha entre las capacidades puras de los LLMs y sus entornos de TI.

En cuanto a lo específico, Erik Pounds² (Nvidia) propuso en octubre de 2024 la siguiente definición para la agentic AI que, creo, captura adecuadamente lo que generalmente se entiende por esta nueva palabra de moda:

Agentic AI utiliza un proceso de cuatro pasos para resolver problemas: Perceive: Los agentes de AI recopilan y procesan datos de diversas fuentes […]; Reason: Un modelo de lenguaje grande actúa como el orquestador. Este paso utiliza técnicas como retrieval-augmented generation (RAG) […]; Act: Al integrarse con herramientas y software externos a través de interfaces de programación de aplicaciones, agentic AI puede ejecutar tareas rápidamente […]; Learn: Agentic AI mejora continuamente a través de un bucle de retroalimentación, o “data flywheel” […]

La gran visión de la agentic AI es que allana el camino para un “empleado totalmente digital” (mi término, no el de Pounds) funcionalmente equivalente a un trabajador de cuello blanco. Con, más o menos, alrededor de mil millones de trabajadores de cuello blanco en todo el mundo, no es difícil entender por qué los mercados parecen estar perdiendo la cabeza ante esta perspectiva.

Al observarlo más de cerca, vemos que hay dos obstáculos fundamentales, claramente distintos, que la agentic AI intenta abordar: instrumentación y aprendizaje.

Instrumentation: El primer obstáculo, y el más obvio, es que el LLM no puede ser aprovechado en un vacío. Los LLMs son software y, por tanto, se necesita alguna especie de fontanería de TI. Esta fontanería asegura que el LLM pueda recuperar información relevante de su entorno y emitir comandos—destinados a completar lo que se espera del LLM. Para los departamentos de TI—usualmente ya saturados con años de acumulado—diseñar esta fontanería es un desafío en sí mismo. Sin embargo, los mismos LLMs pueden aliviar el desafío.

Learning: Por extraño que parezca, los LLMs, en su mayoría, no aprenden nada nunca después de su creación. Este es nuestro segundo obstáculo. Todo lo que el LLM conoce es información pública (por ello forma parte del preentrenamiento) o es parte del prompt. Casi no existe³ un término medio. Después de cada completado, el LLM se reinicia a su estado original. Sin embargo, si la base de conocimientos que respalda el prompt pudiera ser actualizada por el propio LLM, entonces este obstáculo también podría aliviarse conceptualmente.

Si la agentic AI lograra resolver estos dos obstáculos—sin recurrir a LLMs distintos a los que tenemos ahora—entonces en efecto allana el camino para los trabajadores de cuello blanco digitales genéricos. Esto es, sin embargo, una proposición muy arriesgada, y a pesar del entusiasmo del mercado, abordar los obstáculos mencionados podría implicar esfuerzos considerables.

En el frente de la instrumentación, la propuesta de tener un digital agent interactuando directamente con la pantalla y el teclado—como lo haría un humano—resulta atractiva, principalmente porque parece eludir por completo los desafíos de fontanería de TI mencionados anteriormente. Sin embargo, también es la forma más sobredimensionada y excesivamente compleja de resolver el desafío. Para percibir la interfaz gráfica de usuario, docenas (¿cientos?) de capturas de pantalla tendrán que ser canalizadas hacia el LLM, incluso para la interacción más simple. Para poder actuar, también se deberán emitir docenas (¿cientos?) de comandos—por ejemplo, comandos de ratón.

Aunque no dudo que tal hazaña ya es posible con los LLMs actuales, cuestiono la practicidad y la mantenibilidad de este enfoque. Si bien el procesamiento de las propias imágenes representa una sobrecarga masiva en recursos informáticos, esto no es el verdadero obstáculo (dado que el progreso del hardware de computadoras probablemente, con el tiempo, hará que esta sobrecarga sea mucho menor que el costo de un empleado a tiempo completo).

El meollo del problema es este: detallar de forma inequívoca (mediante prompts) cada aspecto minucioso de la interacción con las aplicaciones de negocios requeridas para realizar una tarea es un esfuerzo considerable. Se trata de un esfuerzo que requiere, como mínimo, unas habilidades informáticas decentes—si no una mentalidad de TI bien desarrollada. Dudo mucho que esta tarea pueda ser realizada por alguien que, de otro modo, sea incapaz de programar—o incapaz de convertirse en un programador de nivel inicial en unos pocos meses. Además, dado que el panorama de TI de cualquier empresa de tamaño considerable está en constante cambio, se deberá monitorear la adecuación de los prompts. Además, los propios prompts tendrán que ser actualizados de manera rutinaria. Por lo tanto, este esfuerzo será continuo.

¿Acaso la agentic AI va a aliviar verdaderamente la necesidad de talento digital humano—es decir, el problema de la acumulación de trabajo en TI—considerando que viene con sus propios y considerables requerimientos de talento digital humano? No lo creo. Esto nos lleva de vuelta al punto de partida, que es que si hay que incorporar talento digital humano, entonces utilizaremos ese talento para abordar de frente la propia fontanería de TI.

Al exponer los datos relevantes en crudo (típicamente de naturaleza relacional) al LLM (en lugar de canalizar todo a través de la interfaz gráfica de usuario), se puede esperar que los propios prompts se simplifiquen por órdenes de magnitud. Se podría esperar que consultas SQL de 5 líneas reemplacen a prompts de 5 páginas. Además, el operador humano incluso podría recibir asistencia del LLM a la hora de escribir esas consultas SQL.

Naturalmente, gestionar consultas SQL—posiblemente realizadas contra múltiples bases de datos heterogéneas—requiere instrumentación. Sin embargo, este tipo de instrumentación es muchísimo más simple que la que imagina la agentic AI. Es tan simple que, de hecho, muchos IT departments probablemente lanzarán herramientas propias para este mismo fin—tal como suelen hacerlo para utilidades menores.

Con el tiempo, los proveedores de software probablemente ajustarán sus propios productos para facilitar este tipo de fontanería impulsada por LLM, aunque no está del todo claro qué forma tomará (duplicar el uso de APIs es una opción, las interfaces basadas en texto son otra).

En cuanto al aprendizaje, soy escéptico. La agentic AI se presenta como un paso hacia la inteligencia artificial general, abordando una de las limitaciones más fundamentales de los LLMs: la falta de capacidades de aprendizaje genuino. Sin embargo, la solución propuesta por Pounds—un “data flywheel” impulsado por retrieval augmented generation (RAG)—no es más que un truco fácil sobrepuesto a una pieza de tecnología por lo demás impresionante (el propio LLM).

Es concebible que el LLM emita comandos para enriquecer y actualizar de manera incremental su propio “data flywheel.” También es concebible que el LLM pueda generar su propio conjunto de datos para fine-tuning colapsando intentos N-shot en intentos 1-shot, y luego emitiendo un comando para iniciar una fase de fine-tuning.

Sin embargo, no está claro que los LLMs—tal como existen actualmente—representen un camino viable hacia tal hazaña. Sospecho firmemente que mantener un flywheel saludable a lo largo del tiempo puede resultar un desafío, y que este mantenimiento—suponiendo que funcione en absoluto—requerirá una cantidad sustancial de inteligencia técnica muy humana.

Aquí, estamos tocando una limitación fundamental del paradigma LLM tal como existe actualmente. No está claro que esta limitación pueda superarse simplemente agregando elementos sobre los LLMs. Mi intuición es que abordar esta limitación requerirá repensar los propios LLMs. Podría ser un cambio relativamente menor, como resultó ser el chain-of-thought, o requerir una revisión completa de todo el sistema⁴.

En general, aunque sigo entusiasmado con los LLMs, no estoy convencido de que el bombo en torno a su derivado, la agentic AI, esté justificado. No tengo ninguna duda de que las empresas implementarán “agents” para mecanizar diversas tareas—tal como mi propia empresa, Lokad, lo ha estado haciendo durante los últimos dos años. Sin embargo, si acaso, este proceso nos ha hecho aún más dependientes de una fuerza laboral experta en tecnología. Además, al observar esas iniciativas, las partes “agentic” fueron siempre las más pedestres. Luchamos, y ocasionalmente fallamos, en poner en producción piezas impulsadas por LLM, pero el aspecto “agentic” era, en el mejor de los casos, una preocupación muy lejana.

Los LLMs actuales operan sobre tokens, no sobre caracteres Unicode, aunque este límite podría levantarse en el futuro. Los LLMs también pueden procesar imágenes de entrada, si dichas imágenes se linealizan (se incrustan) dentro del espacio latente de la ventana de contexto. ↩︎
Se invita a los lectores curiosos a consultar el material fuente en https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎
Fine-tuning es el proceso de tomar un modelo preentrenado y continuar su entrenamiento en un conjunto de datos especializado o para una tarea específica, adaptando así el modelo basado en información privada. Sin embargo, el fine-tuning depende de la disponibilidad de un corpus de alta calidad, es decir, contribuciones manuales de expertos. ↩︎
El modelo o1 lanzado por OpenAI en diciembre de 2024 eleva la técnica de chain-of-thought a ciudadana de primera clase, permitiendo que el LLM comience con un monólogo interno discutiendo el prompt antes de lanzarse a producir la respuesta final. Esta variación relativamente modesta sobre los LLMs existentes, sin embargo, está ofreciendo mejoras sustanciales para ciertas clases de tareas, como las matemáticas y la programación. ↩︎

Regresar al Blog ›

Desempaquetando Agentic AI

Más publicaciones