Desempaquetando Agentic AI
La IA generativa está muerta. ¡Viva la IA agentic… tal vez!

Muchos proveedores de software, alentados por valoraciones de mercado no del todo razonables, están apostando por la exageración en torno a la inteligencia artificial. Normalmente no me dedico a hacer predicciones, pero profetizo que en 2025, la inteligencia artificial agentic será una palabra de moda importante. Como es habitual con las palabras de moda tecnológicas, se pueden esperar pequeñas novedades reales diluidas en un océano de expectativas infladas.
Comencemos aclarando un poco qué está en juego. Simplificando un poco1, los LLM (modelos de lenguaje grandes) son, en su esencia, modelos de completado de texto. Toman texto sin procesar como entrada y generan texto sin procesar como salida. Como estos modelos están preentrenados de manera inteligente sobre cantidades “teranormes” de materiales web, se pueden utilizar fácilmente para una gran variedad de tareas (por ejemplo, traducción, resumen, generación de ideas, etc.). De hecho, los LLM han vuelto obsoleta toda el área previa de PLN (procesamiento del lenguaje natural).
Teniendo en cuenta el rendimiento y el precio actual de los LLM, es evidente que esta tecnología tiene el potencial de aportar mucho valor añadido para cualquier empresa que emplee trabajadores de cuello blanco. Sin embargo, la letra pequeña no es tan evidente. Aquí, la IA agentic (o, más precisamente, sus proveedores) propone cerrar la brecha entre las capacidades reales de los LLM y sus entornos de TI.
En cuanto a los detalles, Erik Pounds2 (Nvidia) propuso en octubre de 2024 la siguiente definición para la IA agentic, que creo que captura adecuadamente lo que generalmente se entiende bajo esta nueva palabra de moda:
La IA agentic utiliza un proceso de cuatro pasos para resolver problemas: Percepción: los agentes de IA recopilan y procesan datos de diversas fuentes […]; Razonamiento: un modelo de lenguaje grande actúa como orquestador. En esta etapa se utilizan técnicas como la generación aumentada por recuperación (RAG) […]; Acción: mediante la integración con herramientas y software externos a través de interfaces de programación de aplicaciones, la IA agentic puede ejecutar rápidamente tareas […]; Aprendizaje: la IA agentic mejora continuamente a través de un ciclo de retroalimentación, o “volante de datos” […]
La gran visión de la IA agentic es que allana el camino para un “empleado completamente digital” (mi término, no el de Pounds) funcionalmente equivalente a un trabajador de cuello blanco. Con aproximadamente mil millones de trabajadores de cuello blanco en todo el mundo, no es difícil entender por qué los mercados parecen estar perdiendo la cabeza por esta perspectiva.
Al examinar más de cerca, vemos que hay dos obstáculos fundamentales, claramente distintos, que la IA agentic intenta abordar: la instrumentación y el aprendizaje.
Instrumentación: El primer obstáculo más obvio es que los LLM no se pueden aprovechar en el vacío. Los LLM son software y, por lo tanto, se necesita algún tipo de infraestructura de TI. Esta infraestructura garantiza que los LLM puedan recuperar información relevante de su entorno y emitir comandos con el objetivo de completar lo que se espera del LLM. Para los departamentos de TI, que normalmente ya están abrumados por años de trabajo acumulado, diseñar esta infraestructura es un desafío en sí mismo. Sin embargo, los propios LLM pueden aliviar el desafío.
Aprendizaje: Por extraño que parezca, los LLM, en su mayor parte, no aprenden nada nunca después de su creación. Este es nuestro segundo obstáculo. Todo lo que el LLM sabe es información pública (por lo tanto, parte del preentrenamiento) o parte de la indicación. Casi no hay un punto intermedio.3 Después de cada finalización, el LLM vuelve a su estado original. Sin embargo, si la base de conocimientos que respalda la indicación pudiera ser actualizada por el propio LLM, entonces este obstáculo también podría ser conceptualmente aliviado.
Si la IA agentic lograra resolver estos dos obstáculos, sin recurrir a LLM más allá de los que tenemos ahora, entonces realmente allanaría el camino para trabajadores digitales de cuello blanco genéricos. Sin embargo, esta es una propuesta muy audaz y, a pesar del entusiasmo del mercado, abordar los obstáculos mencionados anteriormente puede requerir esfuerzos considerables.
En el frente de la instrumentación, la propuesta de tener un agente digital interactuando directamente con la pantalla y el teclado, como lo haría un humano, es atractiva, principalmente porque aparentemente evita por completo los desafíos de la infraestructura de TI mencionados anteriormente. Sin embargo, también es la forma más monumentalmente sobreingenierizada de resolver el desafío. Para percibir la interfaz gráfica de usuario, se tendrán que enviar docenas (¿cientos?) de capturas de pantalla al LLM, incluso para la interacción más simple. Para actuar, también se tendrán que emitir docenas (¿cientos?) de comandos, como comandos de mouse.
Si bien no dudo de que tal hazaña ya sea posible con los LLM de hoy en día, cuestiono la practicidad y mantenibilidad de este enfoque. Si bien el procesamiento de las imágenes en sí representa una sobrecarga masiva en recursos informáticos, esto no es el verdadero obstáculo (dado que es probable que el progreso del hardware informático, con el tiempo, reduzca esta sobrecarga mucho más que el costo de un empleado a tiempo completo).
El meollo del problema es el siguiente: describir de manera inequívoca (a través de indicaciones) cada aspecto minucioso de la interacción con las aplicaciones de negocios necesarias para llevar a cabo una tarea es un esfuerzo considerable. Este es un esfuerzo que requiere, como mínimo, habilidades informáticas decentes, si no una mentalidad informática bien desarrollada. Dudo mucho que esta tarea pueda ser realizada por alguien que no sea capaz de programar o que no pueda convertirse en un programador principiante en unos pocos meses. Además, dado que el panorama de TI de cualquier empresa de cierto tamaño está en constante cambio, la adecuación de las indicaciones deberá ser monitoreada. Además, las indicaciones mismas deberán actualizarse periódicamente. Por lo tanto, este esfuerzo será continuo.
¿La IA agentic va a aliviar realmente la necesidad de talento digital humano, es decir, el problema de la acumulación de trabajo de TI, considerando que viene con sus propios requisitos considerables de talento digital humano? No lo creo. Esto nos lleva de vuelta al punto de partida, que es que si se tiene que recurrir a talento digital humano, entonces usemos este talento para abordar frontalmente la infraestructura de TI en sí.
Al exponer los datos relevantes en bruto (típicamente de naturaleza relacional) al LLM (en lugar de canalizar todo a través de la interfaz gráfica de usuario), se espera que las indicaciones mismas se simplifiquen en órdenes de magnitud. Se espera que las consultas SQL de 5 líneas reemplacen las indicaciones de 5 páginas. Además, el operador humano incluso podría recibir asistencia del LLM cuando se trata de escribir esas consultas SQL.
Naturalmente, manejar consultas SQL, posiblemente realizadas en múltiples bases de datos heterogéneas, requiere instrumentación. Sin embargo, este tipo de instrumentación es mucho más simple que la que se imagina con la IA agentic. Es tan simple que, de hecho, muchos departamentos de TI probablemente implementarán herramientas propias con este propósito, como suelen hacerlo para utilidades menores.
Con el tiempo, es probable que los propios proveedores de software ajusten sus productos para facilitar este tipo de infraestructura impulsada por LLM, aunque no está del todo claro qué forma tomará (una opción es enfocarse en las API, otra es utilizar interfaces basadas en texto).
En cuanto al aprendizaje, soy escéptico. La IA agentic se presenta como un paso hacia la inteligencia artificial general, abordando una de las limitaciones más fundamentales de los LLM: la falta de capacidades de aprendizaje genuinas. Sin embargo, la solución propuesta por Pounds, una “rueda de datos” alimentada por generación aumentada de recuperación (RAG), no es más que un truco fácil superpuesto a una impresionante pieza de tecnología (el propio LLM).
Es concebible que el LLM emita comandos para enriquecer y actualizar incrementalmente su propia “rueda de datos”. También es concebible que el LLM pueda generar su propio conjunto de datos de ajuste fino al colapsar intentos de N disparos en intentos de 1 disparo, y luego emitir un comando para iniciar una fase de ajuste fino.
Sin embargo, no está claro que los LLM, tal como existen actualmente, representen un camino viable hacia tal hazaña. Sospecho firmemente que mantener una rueda de datos saludable a lo largo del tiempo puede resultar desafiante, y que este mantenimiento, en caso de funcionar, requerirá una cantidad sustancial de inteligencia técnica muy humana.
Aquí estamos tocando una limitación fundamental del paradigma LLM tal como existe actualmente. No está claro que esta limitación pueda ser superada simplemente agregando cosas encima de los LLM. Mi intuición es que abordar esta limitación requerirá repensar los propios LLM. Podría ser un cambio relativamente menor, como resultó ser la cadena de pensamiento, o podría requerir una revisión completa de todo el sistema4.
En general, aunque sigo entusiasmado con los LLM, no estoy convencido de que el bombo alrededor de su derivado, la IA agentic, esté justificado. No tengo ninguna duda de que las empresas implementarán “agentes” para mecanizar diversas tareas, tal como ha estado haciendo mi propia empresa, Lokad, en los últimos dos años. Sin embargo, si algo, este proceso nos ha vuelto aún más dependientes de un talentoso equipo de trabajo experto en tecnología. Además, al observar esas iniciativas, las partes “agentic” siempre fueron las más pedestres. Luchamos, y ocasionalmente fallamos, al poner en producción piezas impulsadas por LLM, pero el aspecto “agentic” fue, en el mejor de los casos, una preocupación muy lejana.
-
Los LLM actuales operan sobre tokens, no caracteres Unicode, aunque esta restricción podría eliminarse en el futuro. Los LLM también pueden procesar imágenes de entrada, si dichas imágenes se linealizan (se incrustan) dentro del espacio latente de la ventana de contexto. ↩︎
-
Se invita a los lectores curiosos a consultar el material fuente en https://blogs.nvidia.com/blog/what-is-agentic-ai ↩︎
-
El ajuste fino es el proceso de tomar un modelo pre-entrenado y continuar su entrenamiento en un conjunto de datos especializado o para una tarea específica, adaptando así el modelo en función de información privada. Sin embargo, el ajuste fino depende de la disponibilidad de un corpus de alta calidad, es decir, de contribuciones manuales de expertos. ↩︎
-
El modelo o1 lanzado por OpenAI en diciembre de 2024 eleva la técnica de cadena de pensamiento como un ciudadano de primera clase, permitiendo que el LLM comience con un monólogo interno discutiendo la indicación antes de pasar a producir la finalización final. Esta variación relativamente modesta de los LLM existentes está proporcionando mejoras sustanciales para ciertas clases de tareas, como matemáticas y programación. ↩︎