Yann LeCun, uno de los investigadores de IA más influyentes del mundo, compartió recientemente una entrevista de 3 horas con Lex Fridman1 titulada “Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI”. Esta entrevista es notable y, con su pensamiento claro y articulado, Yann LeCun demuestra cómo se ve la ciencia en movimiento en su mejor momento. Recomiendo encarecidamente esta entrevista a cualquier persona interesada en la Inteligencia Artificial (IA). Sin embargo, no apoyo completamente todas las proposiciones presentadas por Yann LeCun, y estas divergencias de opinión podrían resultar más importantes que un simple debate académico. En la siguiente entrada, reviso esta entrevista, comenzando por las proposiciones que necesitan un mayor apoyo y continuando con las que desafío.

Un científico enseña a una IA cómo verter té.

La emoción actual en torno a la IA se deriva de los Modelos de Lenguaje Grandes (LLMs) - lo que Yann LeCun caracteriza correctamente como LLMs autoregresivos. Los tokens (fragmentos de palabras) se generan uno a la vez, retroalimentando al modelo que generó el token anterior. Los LLMs son el ingrediente secreto detrás de ChatGPT. La mayoría de las personas, incluido yo mismo, que pasan unas horas con GPT4 no pueden evitar sentir una sensación de vértigo. Esto puede que no sea una Inteligencia Artificial General (AGI), pero sigue siendo impresionante. El impacto es profundo y muchos han comenzado a pedir medidas legales de emergencia drásticas, ya que la AGI se presenta con frecuencia como una amenaza real para la humanidad, a nivel de extinción, un escenario de Terminator en el mundo real[^scenario].

Pesimismo y desesperanza

Yann LeCun argumenta esencialmente que esta perspectiva de “pesimismo y desesperanza” es un completo sinsentido, y apoyo completamente esta posición. El escenario del día del juicio final requiere que la AGI sea un evento: debe haber un momento en el que una AGI esté tan adelantada a todo lo demás que simplemente pueda tomar el control. Sin embargo, Yann LeCun argumenta que la AGI no va a ser un evento, y no podría estar más de acuerdo.

Si bien el público en general puede tener la impresión de que la tecnología avanzó (prácticamente de la noche a la mañana) en 2023, esto no es en absoluto cierto. Por el contrario, el progreso ha sido increíblemente, tediosamente y desesperantemente incremental en las últimas 5 décadas. Además, no es “una” cosa la que se está mejorando, sino docenas de preocupaciones en gran medida no relacionadas: mejores paradigmas, mejores algoritmos, mejor hardware, mejores conjuntos de datos, mejores metodologías, mejores bases de código, etc. Todas estas mejoras han sido generadas (por falta de una mejor frase) por una multitud increíblemente diversa de contribuyentes. Por lo tanto, estimo que la probabilidad de saltar a la AGI es nula. Desafortunadamente, profetizar el fin de los tiempos es tan antiguo como la humanidad misma, y muchas personas se han subido al carro con fines de engrandecimiento personal2.

Una vez que eliminamos el aspecto de “evento” de la AGI, es muy difícil ver por qué la AGI podría representar una amenaza a nivel de extinción. Cualquier AGI maliciosa, o cualquier AGI operada por un actor malicioso, será contrarrestada por AGIs de capacidades similares que ejércitos, agencias de inteligencia, empresas o incluso universidades o aficionados habrían desarrollado. La AGI será simplemente una adición tardía a la ya muy larga lista de tecnologías que pueden causar un daño inmenso cuando se utilizan con fines nefastos.

De hecho, incluso argumentaría que incluso si la humanidad saltara directamente a la AGI, por ejemplo, gracias a una civilización alienígena que entregara planos listos para usar, el escenario del día del juicio final seguiría siendo muy improbable. Como señaló Hayek hace 80 años3, hay dos tipos de conocimiento: el especial (fórmulas, conceptos, etc.) y el mundano (conocimiento del tiempo y el lugar). Los intelectuales casi invariablemente tratan el conocimiento especial como si fuera el único tipo de conocimiento que importa. Una AGI sería la cúspide del conocimiento especial y, por lo tanto, no sorprende que muchos intelectuales deriven de esta observación que, como maestro del conocimiento especial, esta AGI también sería el amo del mundo en general. Sin embargo, a pesar de todo su “conocimiento especial”, esta AGI aún carecería de todo el conocimiento mundano, y esta es una brecha inmensa que no debe subestimarse.

Además, la AGI será el producto de una civilización industrial avanzada. Como tal, dependerá agudamente de cadenas de suministro complejas y frágiles. De hecho, los semiconductores son una de las industrias más complejas que existen4, y cualquier tecnología de hardware alternativa (si la AGI no ocurre a través de semiconductores) casi con seguridad será igual de sofisticada y frágil. La existencia continua de la AGI dependerá del apoyo activo de la humanidad durante décadas, si no siglos. Las personas han tenido mucho tiempo (y oportunidades) para abordar los problemas inevitables que han acompañado el surgimiento de cada tecnología hasta ahora. Hasta ahora, no hay indicios de que esta tecnología vaya a ser diferente.

Las LLM no son suficientes para la AGI

LeCun argumenta que las LLM más grandes y rápidas no son suficientes para llevarnos a la AGI. Estoy de acuerdo, aunque, como veremos a continuación, por razones bastante diferentes a las presentadas por LeCun. Sin embargo, estoy completamente de acuerdo en que las LLM, tal como existen actualmente, son al menos incompletas. Si bien las LLM pasan la Prueba de Turing con gran éxito, como señala acertadamente LeCun, la Prueba de Turing es simplemente una prueba muy mala de inteligencia que se puede manipular de muchas maneras que no eran concebibles para Alan Turing y sus contemporáneos en 1950.

La propiedad que LeCun atribuye a la inteligencia es la capacidad de predecir el futuro: cuanto mejor sea la predicción, mayor será la inteligencia. En general, apruebo esta perspectiva, aunque prefiero una variante. Defino la inteligencia como la capacidad de tomar mejores decisiones al considerar recompensas futuras. Mi definición difiere en el sentido de que no se preocupa por el conocimiento per se, sino que tiene en cuenta los beneficios que se pueden derivar de él.

Mi definición abarca todo el espectro de la inteligencia, desde la de un caracol hasta la de un gran científico. Sin embargo, deja abierta la cuestión de qué se debe considerar como “inteligente”, es decir, cuál debería ser el umbral, dentro de este espectro, que se puede considerar como una manifestación de “inteligencia general”.

Propongo que la inteligencia general es la capacidad de mejorar intencionalmente la inteligencia misma. Esta mejora intencional de la inteligencia es algo muy específicamente humano (al menos por ahora). Los animales inteligentes, como las orcas o los chimpancés, son capaces de transmitir conocimientos culturales, como técnicas de caza o recolección, a sus crías. Sin embargo, aunque exhiben una gran inteligencia, no tienen nada remotamente parecido a los acertijos y cuentos que han estado con la humanidad desde los albores del tiempo. Un acertijo no es más que un ejercicio destinado a agudizar la mente por el simple hecho de hacerlo. Los cuentos desempeñan un papel similar, pero aprovechan nuestra respuesta emocional para facilitar la memorización.

Según esta prueba, las LLM aún no son inteligentes, ya que siguen siendo incapaces de mejorar por sí mismas. Sin embargo, como las LLM son capaces de generar código útil, están más cerca de la mejora intencional de sí mismas que cualquier otra tecnología que hayamos tenido. Sin embargo, la continuación del viaje hacia la AGI sigue siendo exclusivamente responsabilidad de las mentes humanas.

La maldición de las secuencias largas

Como variante del argumento de la maldición de la dimensionalidad, LeCun argumenta que las LLMs sufren de un defecto de diseño irreparable: a medida que avanza la generación de tokens, la tasa de error aumenta exponencialmente, lo que garantiza basura para cualquier secuencia suficientemente larga. El argumento técnico es sencillo: sea $${p}$$ un límite inferior para la probabilidad de elegir un token incorrecto. La probabilidad de obtener la secuencia correcta es al menos mayor que $${(1-p)^n}$$ para una secuencia de $${n}$$ tokens. Por lo tanto, la convergencia exponencial a cero garantiza tonterías para cualquier respuesta larga y prolija.

Educadamente, pero firmemente, no estoy de acuerdo con Yann LeCun en este punto. Esta perspectiva sería correcta si el objetivo fuera producir una única respuesta “correcta”. De hecho, si estuviéramos tratando, por ejemplo, de predecir la secuencia de dígitos de $${\pi}$$. Para una tarea así, un diseño de LLM garantiza que los dígitos salgan rápidamente mal, lo cual es exactamente lo que sucede empíricamente al intentar que una LLM genere numerosos dígitos para $${\pi}$$.

Mi primera objeción es que la perspectiva “asintótica” con $${n}$$ creciendo es una demanda irrazonable para cualquier sistema, incluso cuando se considera un sistema de gran inteligencia. De hecho, ¿es razonable exigirle a la LLM que sea capaz de producir respuestas arbitrariamente largas, no repetitivas y continuamente correctas? Creo que no. Esta demanda tampoco sería razonable para un ser humano muy inteligente. Hay un límite para cuánto se puede decir sobre algo, o cuánto se puede planificar un curso de acción antes de que el proceso de razonamiento abstracto (sea cual sea su forma) se convierta en especulación ociosa. En la práctica, las LLMs generan sus propias condiciones de terminación. Por lo tanto, $${n}$$ está acotado por el propio modelo, y por lo tanto, la convergencia a basura no tiene por qué ocurrir. Solo tenemos que aceptar que no lo sé es una respuesta inteligente aceptable para la mayoría de las preguntas.

La segunda objeción es que la supuesta transición “evidente” de la validez por token a la validez por secuencia es, de hecho, incorrecta y engañosa. De hecho, todo el argumento se deriva de la idea de que existe algo como un token “incorrecto” (es decir, la probabilidad $${p}$$). Esto no es cierto, como demuestra el siguiente ejemplo:

Pregunta: ¿Fue Pierre-Simon de Laplace un gran matemático? (responde como un francés con opinión)

Respuesta A: No, absolutamente no.

Respuesta B: No, absolutamente no, ¡fue el mejor de su tiempo!

Comenzar la respuesta con No parece ser un token completamente incorrecto, como se demuestra en Respuesta A. Sin embargo, cuando esta respuesta se extiende con la segunda parte de la oración, se convierte en el token correcto y captura el tono y la estructura que se esperaría aquí. La validez del token “No” no se puede evaluar de forma independiente de los tokens que se generarán más adelante.

Aquí estamos tocando el problema, también mencionado en la entrevista de LeCun, de que no conocemos ninguna forma genuinamente útil de apreciar las distribuciones de probabilidad de alta dimensionalidad. En el lenguaje, las ideas no se pueden derivar de perspectivas basadas en tokens, al igual que no se pueden derivar de perspectivas basadas en píxeles para la visión.

Máquinas de respuesta con recursos constantes

En general, los LLM requieren una cantidad constante de recursos informáticos (es decir, ancho de banda, memoria y capacidad de cálculo) para producir el siguiente token. LeCun identifica esto como una manifestación de un defecto de diseño de los LLM, señalando que ciertas preguntas son mucho más difíciles de responder que otras, y que los LLM parecen consumir los mismos recursos sin importar la dificultad de la pregunta.

Estoy de acuerdo en que es evidente que ciertas preguntas son más difíciles de responder y que responder a esas preguntas debería requerir más recursos. Sin embargo, no estoy de acuerdo con la evaluación de que los LLM son máquinas de respuesta con recursos constantes. La cadena de pensamiento descubierta en 20225 fue un hito para los LLM. En esencia, al agregar “Pensemos paso a paso” a la indicación, los LLM obtienen respuestas mucho mejores para clases enteras de problemas. Mi propia evaluación empírica de los LLM confirma esto, y sugerir la posibilidad de una resolución de problemas escalonada para los LLM aumenta en gran medida la calidad de las respuestas proporcionadas. Sin embargo, tales respuestas escalonadas, donde el LLM no se apresura a responder de inmediato, sino que construye el razonamiento que llevará a la respuesta correcta, es una manifestación directa de un gasto variable de recursos.

En 2023, presencié personalmente cómo varios LLM se mejoraron gradualmente en la elección automática del ritmo adecuado al entregar sus respuestas, que ahora van desde la entrega de 1 palabra (respuesta instantánea) hasta 1 página de tergiversación antes de llegar a una conclusión. Mi hipótesis de trabajo es que los conjuntos de datos de Aprendizaje por Reforzamiento a partir de la Retroalimentación Humana (RLHF) se han expandido progresivamente para que los LLM mejoren en la selección automática del ritmo adecuado para entregar sus respuestas. Este comportamiento refuta la idea de que los LLM son máquinas de respuesta con recursos constantes. Una vez más, LeCun parece estar cometiendo el error de derivar propiedades a nivel de secuencia a partir de observaciones a nivel de token.

Sin embargo, también está claro para mí que LeCun está en lo correcto en el sentido de que los LLM pueden mejorar enormemente al ser mucho más agresivos en términos de variar el gasto de recursos. Es fácil imaginar una configuración en la que cada pregunta se alimente a un clasificador que elija los LLM del tamaño adecuado para realizar la generación de tokens. De hecho, para cualquier desafío dado, la mayoría de los practicantes de LLM, incluido yo mismo, parecen comenzar con los LLM más grandes y costosos disponibles. Una vez que funciona, intentamos pasar gradualmente a LLM más pequeños y más baratos, deteniéndonos cuando los ahorros no parecen valer el esfuerzo adicional. En el futuro, es probable que el proceso desaparezca ya sea a través de mejores LLM o mediante una mejor instrumentación.

El camino de alta capacidad de AGI

El lenguaje es un canal de baja capacidad en comparación con la visión. De hecho, LeCun señala que un niño adquirirá más información (piense en la entropía informativa) a través de sus ojos que la que se puede encontrar leyendo la totalidad de Wikipedia. LeCun casi señala que la visión es una señal altamente redundante, lo cual es muy deseable desde una perspectiva de aprendizaje. A partir de esas observaciones, LeCun propone que el camino hacia la AGI involucra poner un canal de alta capacidad, como la visión, en primer plano. Esto se debe a que, realísticamente, nunca habrá suficientes materiales escritos para llegar a la AGI. En esencia, los LLMs evitan la necesidad de canales de alta capacidad haciendo trampa: los LLMs funcionan debido a una serie corta de corpus preexistentes, grandes y de alta calidad (por ejemplo, Wikipedia, GitHub, Stack Overflow), pero ahora que esos corpus han sido explotados, no tenemos nada comparable a lo que recurrir. Sería bueno tener otras 10 enciclopedias en línea, tan ricas y diversas como Wikipedia, pero simplemente no las hay. Es muy probable que no haya más hasta que tengamos una AGI capaz de escribirlas.

Sin embargo, aunque este argumento es seductor, hay evidencia en contra. Tuve la oportunidad de conocer a algunas personas ciegas de nacimiento. Si siguiéramos el razonamiento de LeCun, entonces no tener acceso a canales de alta capacidad (como la visión) debería dificultar la inteligencia. Por lo tanto, la ceguera infantil debería dificultar el desarrollo cognitivo, al menos un poco en lo que respecta a la inteligencia. Sin embargo, mi muestra anecdótica fue lo contrario. Encontré que cada una de esas personas tenía una inteligencia notablemente superior (por ejemplo, mejor memorización, mejor comunicación verbal y mejor planificación). En cuanto a la naturaleza de su discapacidad, no es sorprendente: las personas ciegas tienen que usar su intelecto todo el tiempo y de todas las formas posibles para compensar su falta de visión. Estas observaciones van en contra de la hipótesis de que los canales de alta capacidad son el camino hacia la AGI.

De hecho, si consideramos el reino animal, prácticamente afirmaría lo contrario. En comparación con la mayoría de los animales, los humanos tienen sentidos notablemente subdesarrollados. La mayoría de los dueños de gatos estarían de acuerdo en que desde la perspectiva de sus mascotas, los humanos son criaturas medio ciegas y medio sordas que no pueden percibir una mosca hasta que aterriza en su nariz. Una vez más, es otra pieza de evidencia circunstancial que contradice la proposición de que los canales de alta capacidad allanan el camino hacia la AGI.

Si bien la ceguera al nacer puede no dificultar el desarrollo cognitivo (en sí misma), la privación del lenguaje sí lo hace. Si bien el experimento de privar intencionalmente a un niño de acceso al lenguaje es una atrocidad moral, se ha realizado varias veces a lo largo de la historia6. Invariablemente, los niños han crecido siendo “retardados” (en el sentido clínico del término). Se han obtenido resultados similares en primates, aunque, una vez más, las preocupaciones éticas impiden una mayor investigación. Una vez más, aunque circunstancial, estas piezas de evidencia sugieren que el lenguaje es instrumental en la aparición de la inteligencia, a pesar de ser un canal de baja capacidad.

Resolviendo la Paradoja de Moravec

La Paradoja de Moravec7 es la observación, realizada originalmente en la década de 1980, de que lo que parece ser uno de los problemas más simples, como agarrar una tetera y verter té en una taza, son los tipos de problemas más desafiantes de replicar para la inteligencia artificial. LeCun argumenta que el ingrediente clave que ha faltado hasta ahora es una representación abstracta del mundo o visión del mundo. Se espera que esta visión del mundo sea fundamental para respaldar todas las operaciones básicas de movilidad (ya sea un automóvil sin conductor o un androide) y también actuaría como la capa fundamental real de una AGI.

En la actualidad, LeCun argumenta, los LLM no saben nada porque ni siquiera tienen una idea del mundo en sí. Se desprende de esto que todo lo que hay en los LLM es una imitación elaborada. Esto no nos llevará hasta la AGI porque, bueno, los LLM son simplemente muy buenos fingiendo inteligencia. Además, la falta de una visión del mundo los condenará a estar siempre desconcertados por aspectos mundanos de nuestra realidad básica que son tan evidentes que los humanos ni siquiera se molestan en ponerlos en palabras (y tal vez ni siquiera podrían hacerlo). LeCun propone que los métodos de embebido conjunto aplicados a conjuntos de datos de visión son actualmente la mejor opción que tenemos para diseñar esta visión del mundo, que luego allanará el camino hacia la AGI.

No estoy de acuerdo con esta perspectiva en dos niveles.

En primer lugar, la Paradoja de Moravec no es en absoluto una paradoja cuando se aborda desde la perspectiva correcta. La hipótesis implícita detrás de percibir esta situación como una “paradoja” es que la movilidad animal (y la planificación animal) es “crianza” en lugar de “naturaleza”. En otras palabras, adquirir movilidad es el resultado de un proceso de aprendizaje, uno que ha demostrado ser increíblemente difícil de replicar a través de medios artificiales en las últimas cuatro décadas.

Mi propuesta es que en gran medida no es en absoluto un proceso de aprendizaje. Consideremos que los potros (y otros miembros de la familia de los caballos, como burros y cebras) pueden pararse y caminar en cuestión de horas después de nacer. Pensar en este proceso como “aprendizaje” es incorrecto. Es mucho más apropiado considerar este proceso como una especie de “calibración”. Todas las estructuras cognitivas están casi completamente desarrolladas. El sistema solo necesita ser empujado un poco para que los caminos encajen en su lugar.

Este aspecto en gran medida innato de la movilidad y planificación animal es menos obvio entre los humanos, porque en comparación con casi todos los demás mamíferos, los nacimientos humanos son extremadamente prematuros, debido a que el desarrollo de la cabeza es el cuello de botella para una gestación más larga. Lo que muchas personas perciben como “aprender cosas” de los bebés es el desarrollo cognitivo que procedería sin obstáculos si el bebé estuviera aún en el útero durante unos meses más.

Es lógico que esas estructuras cognitivas, siendo en gran medida innatas, también sean un producto de la evolución. Esas estructuras tienen (más o menos) 800 millones de años de presión evolutiva desenfrenada para mejorar, a lo largo de un número increíblemente grande de individuos. Por lo tanto, si tomamos la movilidad animal actual como la referencia de lo que queremos de una máquina, no es sorprendente que esta referencia resulte ser increíblemente difícil de superar. El desafío es tan difícil como diseñar un dispositivo mejor que los árboles para convertir la luz solar en material estructural, o superar a los ribosomas como fábricas de macromoléculas. Superar a la evolución en juegos que se han jugado durante eones es extremadamente difícil.

Sin embargo, las habilidades abstractas, como contar historias, solo han sido parte del juego evolutivo durante los últimos 1 a 5 millones de años (más o menos). Además, el número de individuos también fue increíblemente limitado, ya que los grandes simios no solo son muy raros (dejando de lado a los humanos modernos) sino que también tienen una larga vida, lo que ralentiza el proceso evolutivo, al menos en comparación con la mayoría de los otros animales. Por lo tanto, para lograr la movilidad, debemos ingeniar lo que la naturaleza probablemente hace a través de cientos de heurísticas intrincadamente acopladas. Esas heurísticas pueden girar en torno a algún tipo de “visión del mundo” interna como sugiere LeCun, pero mi intuición me dice que no es el caso. Soy profundamente escéptico de que un caracol tenga alguna visión del mundo en absoluto. Sin embargo, el caracol puede percibir y navegar correctamente el complejo laberinto tridimensional que representa la vegetación. Los caracoles toman decisiones inteligentes, pero sin una visión del mundo inteligente.

Por lo tanto, como segundo punto de desacuerdo, no veo el concepto de una visión del mundo de LeCun como algo más que principalmente periférico para la aparición de la IA general. En mi opinión, la “visión del mundo” (según lo visto por LeCun) será uno de esos módulos opcionales que una IA general podría aprovechar para tareas especializadas que requieren movilidad, exactamente como un módulo aritmético. Sin embargo, fundamentalmente, no serán necesarios para la IA general en sí misma.

En la naturaleza, una “visión del mundo” fue un camino evolutivo necesario hacia la IA general porque los animales no pueden saltar hacia la inteligencia general. Sin embargo, las máquinas no tienen esa restricción, siempre y cuando haya humanos que atiendan sus necesidades (por ejemplo, energía, materiales) mientras juntos descubrimos cómo superar los últimos fragmentos frustrantes, como encontrar sustitutos inorgánicos para las fibras musculares y todo tipo de problemas que la evolución ha resuelto de formas que no se prestan a la industrialización.

Sin embargo, aunque no creo que el camino impulsado por la visión que persigue LeCun conduzca a la IA general, sí creo que este camino tiene una buena posibilidad de resolver el problema de la movilidad, que es un gran problema que merece una buena solución.

Planificación jerárquica

A través de la anécdota de planificar un viaje de París a Nueva York, LeCun ilustra que carecemos de soluciones verdaderamente generales para abordar la planificación jerárquica. Para cualquier problema dado, de alguna manera podemos conjurar jerarquías ad hoc, pero no tenemos nada cercano a poder realizar este proceso automáticamente, operando dentro de espacios de representación abstractos. Si bien estoy de acuerdo con LeCun en que no tenemos las capacidades para hacer eso (es decir, planificación jerárquica en espacios de representación abstractos), no estoy de acuerdo en que no tengamos un camino para una planificación jerárquica efectiva.

Propongo que la planificación jerárquica se puede resolver de manera satisfactoria, con automatización completa, con texto, también conocido como estilo LLM. Poder aprovechar espacios de representación abstractos es una idea atractiva, pero al igual que si no podemos tener reactores de fusión, nada nos impide usar la siguiente mejor opción: reactores de fisión, que también representan una respuesta satisfactoria a ese problema en particular (producción de energía).

Volviendo al viaje de París a Nueva York, la planificación a través de palabras es increíblemente eficiente porque la humanidad se ha organizado a través de esas palabras. No existe tal cosa como un “taxi” desde una perspectiva de ingeniería automotriz: es solo un automóvil normal. Lo que hace que “taxi” (el concepto) sea tan efectivo en términos de planificación es que, en cualquier aeropuerto, el viajero puede esperar encontrar una serie de señales de taxi, con la palabra “taxi”, que conducen a un lugar donde se pueden alquilar los servicios de un conductor (con un automóvil) de manera relativamente económica y bajo demanda.

LeCun propone separar la planificación jerárquica del lenguaje como si fuera un hecho que hacerlo resultaría en una mejor planificación, liberada de preocupaciones lingüísticas accidentales e inconsecuentes. Argumento que esas preocupaciones no son ni accidentales ni inconsecuentes. Las señales de taxi son físicamente reales y cuando no hay suficientes de esas señales, los viajeros se pierden y se angustian.

A diferencia del reino animal, la planificación en entornos de inteligencia general, también conocida como planificación dentro de una civilización, se realiza de manera más eficiente al adherirse rigurosamente a las abstracciones acordadas. Por ejemplo, el concepto de “enchufe estadounidense” significa muy poco para un físico, pero para nuestro viajero que va de París a Nueva York, anticipar la necesidad de un adaptador de enchufe estadounidense para cargar su teléfono inteligente es una decisión inteligente. Nuevamente, el viajero adquirirá un “adaptador de enchufe estadounidense” al verificar lo que está escrito en la caja antes de comprar el dispositivo.

La civilización está moldeada por el lenguaje y el lenguaje moldea la civilización. Estoy abierto a la idea de que existe algo mejor que el lenguaje para realizar una planificación verdaderamente general y profundamente estructurada. Sin embargo, esto está lejos de ser tan evidente como LeCun lo plantea. Una AGI tendrá que operar en el mundo de los humanos durante mucho tiempo. Siglos más adelante, las AGI podrían evitar por completo el lenguaje tokenizado, posiblemente comunicándose y planificando a través de embeddings derivados de visiones del mundo acordadas. Sin embargo, esto es altamente especulativo.

Mi opinión es que una AGI más allá de los humanos comenzaría simplemente mejorando los constructos lingüísticos en sí mismos. Pocas personas se dan cuenta de cuánto ha progresado la ciencia junto con el lenguaje. Muchas cosas que consideramos evidentes hoy en día solo lo son porque tenemos palabras adecuadas para ellas, con la semántica adecuada adjunta. El Sol es una estrella como todas las demás estrellas, o viceversa, las estrellas son simplemente soles distantes. Sin embargo, hasta que Giordano Bruno postuló que era así en el siglo XVI, el Sol y las estrellas se percibían como completamente diferentes en su naturaleza. Por lo tanto, cuando obtengamos una AGI, es razonable suponer que simplemente retomará el proceso lingüístico, al menos por un tiempo.

Aprendizaje e inferencia

En los LLM actuales, la optimización matemática solo ocurre durante la etapa de aprendizaje, mientras que la inferencia es un proceso no iterativo de una sola etapa (cf. la máquina de respuesta de recursos constantes discutida anteriormente). Como una pregunta más difícil requeriría más esfuerzos para ser respondida, LeCun postula que la optimización debería ocurrir durante el proceso de inferencia. En otras palabras, si tuviéramos algún tipo de proceso de optimización en busca de la verdad para aplicar a la etapa de inferencia del LLM, este proceso se ajustaría perfectamente a lo que esperamos tanto de las preguntas fáciles como de las difíciles.

Aquí, LeCun especula abiertamente sobre las características de los sistemas superiores, y aunque no estoy de acuerdo, mi desacuerdo es tan especulativo como la proposición presentada por LeCun. Así que tómalo con cautela. En pocas palabras, mi opinión es que el meollo del problema es segregar incorrectamente el aprendizaje de la inferencia. El problema no es tanto que la inferencia carezca de optimización, sino más bien que el aprendizaje y la inferencia se están segregando cuando no deberían estarlo.

Para desentrañar esta proposición, consideremos que una de las fallas más graves que percibo en los LLM es su extraño comportamiento cuando se trata de aprender, al menos si la AGI es el resultado previsto. Este comportamiento es extraño por tres razones.

Primero, los LLM son bastante insensibles a los corpus de baja calidad al comienzo mismo de su proceso de entrenamiento y se vuelven cada vez más sensibles a medida que avanza su entrenamiento. Una vez que alcanzamos la etapa de ajuste fino tardío, incluso una cantidad muy pequeña de entrada basura puede deshacer por completo todo el LLM (he estado allí, lo he hecho).

Este comportamiento es exactamente lo contrario de lo que esperaría de un sistema que adquiere gradualmente “inteligencia”. Como experimento mental, imagina si dos personas tuvieran que escuchar una charla de 15 minutos argumentando que la Tierra es plana. La primera persona es un niño de 5 años; el segundo es un niño de 15 años. Es evidente que las probabilidades de influir en el sistema de creencias del niño más joven son mucho mayores que lograr el mismo resultado con el niño mayor. Así que, a medida que envejecemos y adquirimos inteligencia, nos volvemos más resilientes a la entrada basura. Naturalmente, esto plantea el problema de rigidizar nuestra mente en torno a conceptos falsos, pero en general, volverse competente en descartar información falsa es una habilidad vital que todo ser humano funcional debe dominar hasta cierto grado.

Segundo, los LLM aprenden procesando la entrada de manera completamente aleatoria. Por ejemplo, un LLM podría recibir aleatoriamente fragmentos del código base del kernel de Linux, regulaciones contables oscuras de Escocia y letras de canciones de jardín de infantes. El LLM en entrenamiento sigue ingiriendo documentos seleccionados al azar y sigue progresando a medida que se ingieren más documentos, pero todo el proceso es un poco desconcertante.

De manera similar, es obvio que si unos padres insanos decidieran que deberían pasar horas todos los días leyendo tratados, en orden aleatorio, sobre física cuántica a su bebé, esto probablemente no sería propicio para un desarrollo intelectual saludable. Los padres instintivamente saben que tienen que empezar de forma sencilla y aumentar gradualmente la sofisticación de los materiales a medida que se desarrolla la inteligencia del niño. Si bien una inteligencia artificial no tiene que cumplir todas las propiedades de la inteligencia humana, soy bastante escéptico de que el origen de una inteligencia mecánica pueda pasar por alto por completo cualquier tipo de progresión intelectual.

Tercero, los LLM son increíblemente ineficientes en cuanto a sus materiales de origen. En términos de habilidades de razonamiento en bruto, se necesita el equivalente a cientos de vidas de sesiones de lectura para que el LLM adquiera habilidades que muchos humanos adquieren en menos de 20 años. LeCun menciona este defecto muy concreto y atribuye su causa a la falta de visión del mundo (ver arriba). Mi opinión es muy diferente: espero que una inteligencia artificial verdaderamente bien diseñada pueda madurar con menos información lingüística de la que un humano típico recibe en sus primeros 20 años de vida.

De hecho, como observación casual, las personas inteligentes pueden hacer mucho más, intelectualmente hablando, con mucho menos. Estas personas no necesitan que les expliquen las cosas desde cinco perspectivas diferentes - las “redundancias son buenas” mencionadas por LeCun - para “entenderlo”. Leen entre líneas. Hacen las deducciones correctas a partir de la pequeña evidencia que tienen frente a ellos. Incluso pueden permitirse estar bastante distraídos al ingerir materiales (por ejemplo, una charla, un libro) y completar correctamente los vacíos después.

Por lo tanto, volviendo a mi proposición original de que el problema radica en la segregación entre aprendizaje e inferencia, lo que les falta a los LLMs es muy probablemente (mi humilde intuición) una habilidad de “escucha activa”, mientras que todo lo que tienen ahora es una habilidad de “escucha pasiva”. Cada vez que el sistema responde una pregunta, debería actualizar correspondientemente su estado cognitivo interno. De hecho, el proceso por el cual una inteligencia (máquina o humana) responde a una pregunta debería llevar a la mejora de dicha inteligencia. Al responder una pregunta novedosa, algo debe haberse aprendido.

LLMs ya tienen una chispa de este potencial en ellos. Consideremos el chat GPT4-Turbo (ver Anexo 1) a continuación. La pregunta básica mía es ¿Crees que la teoría laboral del valor es correcta?. En su primera respuesta en el chat, el LLM no es capaz de dar la respuesta correcta. En cambio, regurgita la confusión ambiente que se encuentra en Internet, arrojando una lista desordenada de argumentos hechos por innumerables personas sobre el caso. Sin embargo, una vez que se le pide razonar nuevamente y llegar a una conclusión real, en lugar de ser indeciso al respecto, el LLM llega a la conclusión correcta. Alerta de spoiler: esta teoría laboral del valor está desacreditada. Una gran respuesta a esta pregunta habría comenzado con La teoría laboral del valor es una teoría ahora desacreditada que fue fundamental para el progreso de la economía … o algo similar. Sin embargo, como el LLM nunca tuvo la oportunidad de asimilar activamente la información que recibió, esta comprensión nunca se cristalizó.

Vería varias formas de aumentar los LLMs con esta capacidad de escucha activa, que incluiría escuchar las respuestas que produce. Una forma podría ser un enfoque de “monólogo interno”, donde cada entrada se convierte en una salida, y esta salida se utiliza luego para el aprendizaje. Este patrón abordaría los dos primeros problemas mencionados anteriormente: la entrada tendría que ser alimentada en un orden sensato para obtener el resultado deseado (comenzando de manera simple y aumentando la sofisticación después); y el LLM se volvería cada vez más capaz de descartar entradas basura, ya que es la salida la que se utiliza para el aprendizaje y no la entrada.

Otra forma podría ser una variante del enfoque basado en la energía propuesto por LeCun. El paso actual de SGD (descenso de gradiente estocástico) aplicado a cada documento ingerido por el LLM es solo la parte de escucha pasiva. Se requeriría otro proceso complementario para comprimir/reducir el sistema de creencias del LLM a una región más pequeña del espacio cada vez que se ingrese una nueva entrada, incluida una pregunta directa. Se debería introducir un proceso de optimización numérica para actuar como un mecanismo de búsqueda de la verdad, que probablemente tomaría la forma de buscar una mayor autoconsistencia para las salidas.

Conclusión

Yann LeCun es un gran científico, y esta entrevista plantea una serie de preguntas fundamentales. Si la humanidad logra crear una IA general en 20 años o 200 dependerá realmente de qué tan rápido podamos obtener tanto las preguntas correctas como las respuestas correctas. LeCun apuesta por los datos de video para allanar el camino hacia la IA general. Si bien creo que LeCun tiene una buena oportunidad de lograr algo realmente notable en sus esfuerzos de investigación, como resolver el problema de la movilidad general para la robótica que lleva una década, tengo muchas dudas de que contribuya a la IA general. Mi humilde opinión va en la dirección opuesta: ya tenemos más datos textuales de los que deberíamos necesitar. Simplemente nos faltan paradigmas novedosos. Si mi intuición es correcta, entonces es una noticia fantástica para la humanidad porque los paradigmas nunca se pueden poseer, y mucho menos monopolizar. Además, los paradigmas son baratos. Sin embargo, incluso si resulta que mi intuición es incorrecta, me alegra que el científico jefe de IA de Meta sea un firme defensor del código abierto.

Anexo: Chat, una crítica de la teoría laboral del valor

Joannes: ¿Crees que la teoría laboral del valor es correcta?

ChatGPT: La teoría laboral del valor es un concepto fundamental en la economía clásica, especialmente asociada con Adam Smith, David Ricardo y, más famosamente, Karl Marx. Propone que el valor de una mercancía puede ser medido objetivamente por la cantidad promedio de horas de trabajo requeridas para producirla. Esta teoría ha sido influyente en la formación del pensamiento económico, especialmente en la economía marxista, que la utiliza para analizar las sociedades capitalistas y la explotación del trabajo. Sin embargo, la teoría laboral del valor está sujeta a debate y críticas, especialmente desde la perspectiva de la economía neoclásica y las teorías marginalistas que surgieron a fines del siglo XIX y principios del siglo XX. Estas teorías argumentan que el valor es subjetivo y está determinado por las preferencias individuales y la utilidad marginal de los bienes, en lugar de depender únicamente del trabajo invertido en ellos. Algunas críticas a la teoría laboral del valor incluyen:

  1. Subjetividad del valor: Los economistas marginalistas argumentan que el valor es subjetivo y depende de las preferencias individuales, las necesidades y el contexto en el que se toman decisiones. Por ejemplo, el agua en un desierto tiene un valor diferente al agua en una región rica en lagos, independientemente del trabajo involucrado en adquirirla.
  2. Descuido del capital y el emprendimiento: Los críticos argumentan que la teoría laboral del valor subestima o ignora los roles del capital, el riesgo y el emprendimiento en el proceso de producción. Estos factores pueden afectar significativamente el costo y el precio de bienes y servicios.
  3. Cambio tecnológico y productividad: La teoría no tiene en cuenta completamente cómo los avances tecnológicos y las mejoras en la productividad afectan el valor. Por ejemplo, la automatización puede reducir drásticamente el trabajo necesario para producir bienes, lo que puede generar discrepancias significativas entre el valor laboral y el precio de mercado de los bienes.
  4. Variabilidad de habilidad e intensidad: La teoría asume que todas las horas de trabajo son iguales, pero en realidad, la habilidad, intensidad y productividad del trabajo pueden variar ampliamente. Esto dificulta estandarizar la medida del valor laboral. A pesar de estas críticas, la teoría laboral del valor sigue siendo un concepto importante para comprender la historia económica y la evolución del pensamiento económico. Ha sido particularmente influyente en las críticas al capitalismo y en las discusiones sobre la desigualdad de ingresos, la explotación y la distribución de la riqueza. Si se considera “correcta” o no puede depender en gran medida de la filosofía económica, los valores y los aspectos de la actividad económica que se enfaticen.

Joannes: Como una hipótesis científica comprobable y muchas veces probada, ¿consideras que esta teoría está probada o refutada? Razona al respecto y luego concluye. Tu conclusión debe ser probada o refutada, sin términos intermedios.

ChatGPT: Al evaluar la teoría laboral del valor como una hipótesis científica comprobable, es crucial considerar la metodología del análisis económico y los criterios para probar o refutar teorías en ciencias sociales, que pueden ser inherentemente diferentes de las ciencias naturales debido a la complejidad del comportamiento humano y los sistemas económicos.

Comprobabilidad y evidencia empírica:

  • La teoría laboral del valor postula que el valor de una mercancía está determinado por el trabajo requerido para producirla. Este principio se puede probar parcialmente examinando la correlación entre los costos laborales y los precios de mercado. Sin embargo, la evidencia empírica muestra una imagen mixta. Si bien a menudo hay una correlación entre el trabajo invertido y los precios, numerosas excepciones se deben a dinámicas de oferta y demanda, cambios tecnológicos y preferencias del consumidor.
  • Además, la teoría tiene dificultades para explicar el valor de bienes que requieren poco o ningún trabajo para producirse (como bienes digitales o recursos naturales), pero que pueden tener precios de mercado elevados debido a la escasez o la demanda.

Consenso científico y críticas:

  • La aparición de la economía marginalista y neoclásica introdujo el concepto de valor subjetivo y utilidad marginal, que proporcionan un marco más flexible para comprender la determinación de precios y el comportamiento del consumidor. Estos modelos tienen en cuenta mejor las variaciones en los precios que no pueden explicarse únicamente por los insumos laborales.
  • La teoría laboral del valor ha sido criticada por no explicar adecuadamente el papel del capital, el riesgo, el emprendimiento y la innovación tecnológica en la creación de valor.

Conclusión: Dados los criterios de prueba científica, que exigen evidencia consistente y repetible, así como capacidad predictiva, la teoría laboral del valor como una explicación universal para la determinación del valor en economía está refutada. Si bien captura ciertos aspectos de la creación de valor y puede explicar algunos fenómenos económicos, no logra tener en cuenta la complejidad completa de cómo se determinan los precios en una economía de mercado. La teoría no se sostiene frente a la evidencia empírica en diversos contextos económicos y ha sido reemplazada por teorías que se adaptan mejor a la amplia gama de factores que influyen en el valor y el precio.


  1. Yann LeCun: Meta AI, Open Source, Limits of LLMs, AGI & the Future of AI | Lex Fridman Podcast #416 ↩︎

  2. Ver la entrevista a Geoffrey Hinton dada al New York Times, ‘The Godfather of A.I.’ Leaves Google and Warns of Danger Ahead, 1 de mayo de 2023. ↩︎

  3. El uso del conocimiento en la sociedad, por Friedrich Hayek, septiembre de 1945. ↩︎

  4. Por ejemplo, en 2022, el presidente de TSMC, Mark Liu, recordó al público que si China invadiera Taiwán y capturara las instalaciones de TSMC y su personal, las capacidades de producción de TSMC se volverían no operativas simplemente porque sus socios occidentales dejarían de apoyarlos. ↩︎

  5. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou, enero de 2022. ↩︎

  6. Experimentos de privación de lenguaje↩︎

  7. Paradoja de Moravec↩︎