Una perspectiva matizada sobre la frontera tecnológica irregular de Harvard Business School
La calidad es subjetiva; el costo no lo es.
En un reciente episodio de LokadTV, sugerí que un artículo de Harvard Business School (HBS), realizado en colaboración con Boston Consulting Group (BCG), era profundamente defectuoso y potencialmente peligroso. El título completo del artículo es Navegando la Frontera Tecnológica Irregular: Evidencia Experimental de Campo sobre los Efectos de la IA en el Conocimiento, la Productividad del Trabajador y la Calidad1. En resumen, el artículo afirmaba que las habilidades de la IA en tareas exigentes están distribuidas de manera desigual, ya que se destaca en algunas tareas y tiene un rendimiento deficiente en otras (tareas “dentro” y “fuera” de la frontera, respectivamente).
Contexto
En el lado lejano de esta “frontera tecnológica irregular” (ver ilustración en la pág. 27 del artículo), la experiencia humana sigue superando a la IA (en este caso, ChatGPT-4), especialmente en tareas que combinan análisis cuantitativo y cualitativo (es decir, tareas “fuera de la frontera”).
Esto no debería sorprender a nadie familiarizado con lo que los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como ChatGPT están diseñados para hacer (spoiler: no matemáticas). Además, cuando los LLM se tratan como una “base de datos de todo”, producen respuestas plausibles pero a veces inexactas2. Sin embargo, el artículo plantea algunos puntos interesantes, aunque solo sea de manera accidental.
Hay que reconocer que el artículo es muy legible, algo que a menudo escasea en el ámbito académico. Dicho esto, se podrían plantear algunas preocupaciones con respecto a posibles conflictos de interés3 y sus hallazgos4, sin embargo, es la metodología y la economía implícita del artículo lo que más interesa aquí.
Crítica de la Metodología
En cuanto a la metodología, este punto ya fue criticado en el video, así que seré breve aquí. El equipo de investigación no exploró las ganancias de productividad generadas mediante la automatización. En su lugar, los investigadores seleccionaron grupos de consultores (es decir, no especialistas en IA, ciencias de la computación y/o ingeniería) para utilizar ChatGPT-4. La única excepción a esto fue el grupo de control, que trabajó utilizando solo su experiencia. La ética de cómo se juzgaron estos grupos se mencionará en breve.
No hubo ingenieros de software externos ni expertos en IA en el experimento. No hubo equipos de desarrolladores expertos en generación aumentada de recuperación (RAG, por sus siglas en inglés), ajuste fino específico del dominio u otras técnicas que utilizan las mayores fortalezas de los LLM: ser robots resistentes al ruido y de plantillas universales.
Este impresionante robot no fue programado para aprovechar el conocimiento específico del dominio almacenado en las extensas bases de datos internas de BCG sobre iniciativas de consultoría pasadas. Por el contrario, el experimento contó con algunos consultores con una suscripción a ChatGPT-4.
Esta orquestación naturalmente generó diferentes grados de producción (en términos de calidad), especialmente en lo que respecta a las tareas que requerían análisis cuantitativo y cualitativo. En otras palabras: se diseñó un experimento para ver qué tan mal los no expertos fallan en aprovechar una sofisticada tecnología, y bajo condiciones irrealmente restrictivas.
Como concluí en el video, ignorar los posibles aumentos de productividad (y ahorros) generados a través de la automatización roza el escándalo. Esto es especialmente cierto cuando uno publica bajo el nombre de un prestigioso instituto de aprendizaje. Los hallazgos del artículo también dan, en mi opinión, una sensación muy falsa de seguridad laboral a los estudiantes que están a punto de endeudarse de por vida para estudiar en una escuela de negocios de primer nivel. Esto también es cierto para las personas que ya han dado el salto y han incurrido en deudas considerablemente grandes por diplomas en campos que pueden estar al borde de la automatización completa.
Crítica de la Perspectiva Económica
A pesar de las críticas considerablemente grandes anteriores, a mi parecer, la economía implícita del artículo es mucho más fascinante. En pocas palabras, la Escuela de Negocios de Harvard solo midió la $${calidad}$$ de la producción, no el $${costo}$$ de la producción5.
En ningún momento (y por favor, verifíquenlo) los investigadores miden el costo asociado con la producción del trabajo de los consultores. Este no es un punto trivial. El artículo menciona la palabra “calidad” 65 veces en 58 páginas (incluido el título del artículo). La palabra “costo” se menciona…2 veces…y solo en la última oración del artículo. Reproduzco esa oración aquí para contextualizar:
“De manera similar a cómo Internet y los navegadores web redujeron drásticamente el costo marginal de compartir información, la IA también puede estar reduciendo los costos asociados con el pensamiento y el razonamiento humano, con efectos potencialmente amplios y transformadores.” (p. 19)
Incluso cuando la Escuela de Negocios de Harvard finalmente reconoció el concepto de costo financiero, no fue en términos del costo reducido de generar trabajo de alta calidad sin la necesidad de graduados costosos de escuelas de negocios. Esto puede parecer obvio considerando que el título del artículo identifica “productividad” y “calidad” como puntos focales de investigación, sin mencionar el hecho de que una escuela de negocios costosa difícilmente va a publicitar su propia inutilidad potencial.
No obstante, sugiero educadamente que medir la $${productividad}$$ y la $${calidad}$$ de la producción sin una perspectiva financiera sólida es prácticamente insignificante, especialmente en un artículo académico de una escuela de negocios. Esto es particularmente grave dado que el eje central de la IA es que es un gran igualador cuando se trata de poder adquisitivo fiscal.
La IA proporciona resultados de muy alta calidad a costos muy bajos, especialmente a través de la automatización. Esta relación de $${calidad/costo}$$ está a órdenes de magnitud más allá de la de los trabajadores humanos6. Además, abre esta puerta a cualquiera con una suscripción a ChatGPT y algún conocimiento de programación. Esto nivela drásticamente el campo de juego cuando se trata de la competencia entre los grandes y los pequeños.
En cambio, durante 58 páginas, la Escuela de Negocios de Harvard evalúa la “calidad” del trabajo de los consultores de BCG de forma aislada. ¿Cómo se determinó esta calidad? Por “evaluadores humanos”… que trabajan para BCG7. Dejando de lado los conflictos de interés manifiestos ya detallados, vale la pena señalar la falsa dicotomía presentada por el artículo y cómo esto influye en su economía implícita. Esta falsa dicotomía se presenta de la siguiente manera:
“La IA es mejor o peor que la experiencia humana.”
O tal vez una interpretación más caritativa sea:
“La IA hace que los humanos sean mejores o peores en sus trabajos.”
De cualquier manera, la métrica subyacente de la falsa dicotomía en el artículo es “calidad”, que se mide de manera subjetiva y existe en un vacío académico independiente de otras restricciones, como el tiempo, la eficiencia y el costo. Una perspectiva económica más sofisticada sería algo como:
¿Cuál es la relación $${calidad/costo}$$ de la producción humana en comparación con la relación $${calidad/costo}$$ de la automatización de IA?
Los lectores sofisticados reconocerán esto como un argumento de retorno de la inversión (ROI). Su relación personal $${calidad/costo}$$ se puede descubrir respondiendo las siguientes preguntas:
- ¿Qué tan bueno fue el resultado para una tarea determinada?
- ¿Cuánto costó?
- ¿Valió la pena la calidad en relación con el costo?
- ¿Cuánto costaría mejorar la calidad y sería financieramente rentable esa mejora?
La Escuela de Negocios de Harvard dedica 58 páginas a discutir la primera pregunta y nunca va más allá. Esto es una perspectiva peculiar para una escuela de negocios, hay que decirlo. De hecho, se puede establecer un interesante paralelo con la cadena de suministro. La búsqueda ciega de calidad de HBS es notablemente similar a la búsqueda aislada de precisión de pronóstico (es decir, tratar de mejorar la precisión de pronóstico sin considerar el ROI asociado con esa mejora)8.
Posibles implicaciones
Hablando económicamente, la “frontera tecnológica irregular” no simplemente identifica qué tareas realizan mejor los LLM en comparación con los humanos. Más bien, identifica su relación ideal $${calidad/costo}$$ al aprovechar los LLM y tomar decisiones inteligentes y financieramente informadas. Para empresarios astutos, esto implicará automatización, no intervención manual (o al menos muy poca).
Para estos empresarios, quizás un nivel comparable de calidad sea aceptable, siempre y cuando sea rentable. “Aceptable” puede significar lo mismo o una calidad ligeramente mejor/peor que la que un experto humano puede generar. En otras palabras, pagar el 0,07% del precio de un consultor por más del 90% de la calidad podría representar un muy buen compromiso, a pesar de no ser exactamente tan bueno como el resultado del experto costoso9.
Los números variarán para cada cliente, pero lo que está demostradamente claro es que existe un punto de inflexión más allá del cual la “calidad” deja de ser una preocupación aislada y debe evaluarse en relación con su costo financiero. Esto es al menos cierto para las empresas que tienen la intención de seguir en el negocio.
Tal vez usted opine que contratar a un equipo de graduados de la Escuela de Negocios de Harvard o consultores de BCG representa una relación ideal $${calidad/costo}$$, independientemente de opciones más baratas como la automatización de IA. Si es así, espero que viva largo y próspero10.
Alternativamente, tal vez piense como yo: la calidad es subjetiva; el costo no lo es. Mi apreciación subjetiva de la calidad, especialmente en el ámbito empresarial, está relacionada con su costo. Al igual que los niveles de servicio (o la precisión de pronóstico) en la cadena de suministro, un aumento del 1% en la calidad (o precisión) probablemente no valga un aumento del 1,000% en el costo. Por lo tanto, cuando se trata de IA en los negocios, existe un compromiso económico entre calidad y costo. Es crucial no perder de vista esto, como parece haberlo hecho la Escuela de Negocios de Harvard.
En conclusión, si está esperando a que la IA supere la calidad humana antes de adoptarla, adelante, pero el resto de nosotros no vamos a esperar con usted.
-
Navegando la frontera tecnológica irregular: Evidencia experimental de campo sobre los efectos de la IA en la productividad y calidad de los trabajadores del conocimiento, Dell’Acqua, Fabrizio y McFowland, Edward y Mollick, Ethan R. y Lifshitz-Assaf, Hila y Kellogg, Katherine y Rajendran, Saran y Krayer, Lisa y Candelon, François y Lakhani, Karim R., septiembre de 2023 ↩︎
-
En AI Pilots for Supply Chain, Joannes Vermorel comparó este enfoque de “navaja suiza” con pedirle a un profesor muy inteligente que recuerde los detalles de un artículo que estudió una vez. De memoria, el profesor recordará la idea principal, pero es posible que no recuerde todos los matices a menos que le hagas las preguntas adecuadas para ayudarle a recordar. ↩︎
-
BCG anuncia útilmente sus vínculos con muchas de las principales escuelas de negocios de Estados Unidos. Siéntase libre de investigar la presencia de BCG en los principales campus universitarios de Estados Unidos. Alternativamente, puede consultar esta útil hoja de cálculo descargable que simplifica los datos. La tabla incluye cuántos consultores de BCG actualmente estudian MBAs en la Escuela de Negocios de Harvard (74). Los lectores pueden sacar sus propias conclusiones. ↩︎
-
Una colaboración entre una importante escuela de negocios y una importante firma de consultoría demostró que los consultores costosos (y costosamente capacitados) son activos valiosos… Perdóneme si no me sorprende. Si a usted sí le sorprende, le redirijo amablemente a la hoja de cálculo descargable en la nota al pie anterior. ↩︎
-
Y ciertamente no midió calidad dividida por costo de producción, como explicaré más adelante. ↩︎
-
Es difícil proporcionar cifras precisas sobre este punto, pero supongamos un salario anual de más de $200,000 (EE. UU.) para un consultor de cualquier firma importante. Esta cifra es razonable según algunas investigaciones rápidas en Internet. Los cálculos aproximados de ChatGPT sugieren que el trabajo de consultoría de un año costaría alrededor de $145 (en términos de costos de procesamiento de ChatGPT). Obviamente, esto no es muy científico, pero incluso si la cifra está equivocada por tres órdenes de magnitud, aún sería casi un 30% más barato que el salario anual de un solo consultor. Consulte el razonamiento de ChatGPT aquí: https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431. (Crédito a Alexey Tikhonov por proporcionar el registro de la conversación). Es cierto que también se deben considerar los costos de construcción del propio robot de plantillas, que pueden no ser baratos, pero incluso en combinación con los $145 de ChatGPT, seguiría siendo más barato que el salario anual de un solo consultor y sería exponencialmente más productivo cuando se implemente a gran escala. ↩︎
-
Consulte las páginas 9 y 15 del artículo, en caso de que duden de lo que acaban de leer. Si esto sugiere un conflicto de intereses, les redirijo amablemente su atención a la hoja de cálculo descargable en la nota al pie 3. ↩︎
-
Lokad ha abordado el valor de la precisión del pronóstico en detalle antes, así que aquí hay un recordatorio muy breve: concéntrese en el impacto financiero de sus decisiones de cadena de suministro, en lugar de medir los KPI (como la precisión) independientemente de sus implicaciones financieras (es decir, ROI). Dicho de otra manera, si un pronóstico de demanda es un 10% más preciso pero se gana un 20% menos de dinero como resultado, se puede decir que la mayor precisión no valió el costo adicional. ↩︎
-
Hace aproximadamente un año, Lokad comenzó a traducir su sitio web a seis idiomas utilizando LLM. Antes de eso, habíamos contratado los servicios de traductores profesionales. El costo continuo para simplemente mantener las traducciones era de aproximadamente $15,000-30,000 (EE. UU.) por año por idioma. Si bien estamos dispuestos a admitir que los traductores profesionales proporcionaban una calidad (relativamente) más alta, la relación $${calidad/costo}$$ de usar un LLM es mucho mayor. En otras palabras, la calidad que podemos generar utilizando un LLM es más que aceptable y significativamente más barata que nuestro acuerdo anterior. Es difícil cuantificar adecuadamente los ahorros, pero traducir competentemente todos los recursos que hemos producido (y que produciremos) en seis idiomas en unos minutos es exponencialmente más barato y eficiente en tiempo que el sistema anterior. Si eres hablante nativo de francés, alemán, español, ruso, italiano o japonés, siéntete libre de traducir este ensayo en la esquina superior derecha de la página y probar la calidad por ti mismo. ↩︎
-
Al menos hasta que OpenAI lance ChatGPT-5. ↩︎