Una Perspectiva Matizada sobre la Frontera Tecnológica Irregular de Harvard Business School

abril 8, 2024

technology

Conor E. Doherty

La calidad es subjetiva; el costo no lo es.

En un reciente episodio de LokadTV, sugerí que un artículo de Harvard Business School (HBS), realizado en colaboración con Boston Consulting Group (BCG), estaba profundamente defectuoso y potencialmente peligroso. El título completo del documento es Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge, Worker Productivity, and Quality¹. En resumen, el documento afirmaba que las habilidades de la IA en tareas exigentes se distribuyen de manera desigual, ya que destaca en algunas tareas y rinde mal en otras (tareas “dentro” y “fuera de la frontera”, respectivamente).

Una figura que muestra el costo relativo y la calidad del output asociado con varios flujos de trabajo, incluyendo AI-automation.

Contexto

Al otro lado de esta “frontera tecnológica irregular” (véase la ilustración en la p. 27 del documento), la experiencia humana aún supera a la IA (en este caso, ChatGPT-4), particularmente en tareas que combinan análisis cuantitativo y cualitativo (es decir, tareas “fuera de la frontera”).

Esto no debería sorprender a quienes están familiarizados con lo que los modelos de lenguaje grandes (LLMs) como ChatGPT están diseñados para hacer (advertencia: no son matemáticas). Además, cuando los LLMs se tratan como una “base de datos de todo”, producen respuestas plausibles pero a veces inexactas². Sin embargo, el documento aún plantea algunos puntos interesantes, aunque sea solo de manera accidental.

Para su gracia, el documento es muy legible, algo que a menudo falta en la academia. Dicho esto, se podrían plantear algunas preocupaciones respecto a posibles conflictos de interés³ y sus hallazgos⁴, sin embargo, es la metodología y la economía implícita del artículo lo que resulta de mayor interés aquí.

Crítica a la Metodología

Con respecto a la metodología, este punto ya fue criticado en el video, así que seré breve aquí. El equipo de investigación no exploró las mejoras en productividad generadas a través de la automatización. En cambio, los investigadores seleccionaron grupos de consultores (es decir, no especialistas en IA, informática y/o ingeniería) para usar ChatGPT-4. La única excepción fue el grupo de control, que trabajó utilizando únicamente su experiencia. La ética de cómo se evaluó a estos grupos se mencionará en breve.

No hubo ingenieros de software externos ni expertos en IA en el experimento. No se contó con equipos de desarrolladores expertos en retrieval augmented generation (RAG), fine-tuning específico de dominio o en otras técnicas que aprovechan las mayores fortalezas de los LLMs: ser robots resilientes al ruido y de plantillas universales.

Este impresionante robot no fue programado para aprovechar el conocimiento específico de dominio almacenado en las extensas bases de datos internas de consultorías pasadas de BCG. Al contrario, el experimento contó con algunos consultores con una suscripción a ChatGPT-4.

Esta orquestación naturalmente produjo diversos grados de output (en términos de calidad), particularmente en lo que respecta a las tareas que requerían tanto análisis cuantitativo como cualitativo. En otras palabras: se diseñó un experimento para ver cuán mal logran los no expertos aprovechar una pieza sofisticada de tecnología, y bajo condiciones restrictivas de manera poco realista.

Como concluí en el video, ignorar las posibles mejoras en productividad (y ahorros) generados a través de la automatización roza el escándalo. Esto es especialmente cierto cuando se publica bajo el nombre de un prestigioso instituto educativo. En mi opinión, los hallazgos del documento también brindan una sensación muy falsa de seguridad (laboral) a los estudiantes a punto de adquirir deudas que cambiarán sus vidas para estudiar en una escuela de negocios de primer nivel. Esto también es cierto para las personas que ya se han lanzado y han contraído deudas considerables por diplomas en campos que podrían estar al borde de la automatización total.

Crítica a la Perspectiva Económica

A pesar de la considerable crítica anterior, a mi entender, la economía implícita del documento es mucho más fascinante. Dicho de forma simple, Harvard Business School midió únicamente el $${quality}$$ del output, no el $${cost}$$ del output⁵.

En ningún momento (y por favor, verifiquen los hechos) los investigadores miden el costo asociado al output del trabajo de los consultores. Este no es un punto trivial. El documento menciona la palabra “quality” 65 veces en 58 páginas (incluyendo el título del documento). La palabra “cost” se menciona…2 veces…y solo en la última frase del documento. Reproduzco esa frase aquí para mayor contexto:

“De la misma manera en que internet y los navegadores web redujeron drásticamente el costo marginal del intercambio de información, la IA también podría estar reduciendo los costos asociados al pensamiento y razonamiento humanos, con efectos potencialmente amplios y transformadores.” (p. 19)

Incluso cuando Harvard Business School finalmente reconoció el concepto de costo financiero, no lo hizo en términos de la reducción del costo de generar trabajo de alta calidad sin la necesidad de graduados costosos de business school. Esto puede parecer obvio considerando que el título del documento identifica “productivity” y “quality” como puntos focales de investigación, sin mencionar el hecho de que una escuela de negocios costosa difícilmente va a publicitar su propia potencial inutilidad inminente.

A pesar de ello, sugiero amablemente que medir el $${productivity}$$ y el $${quality}$$ del output sin una perspectiva financiera robusta es prácticamente inútil, particularmente en un artículo académico de una escuela de negocios. Esto es especialmente flagrante dado que toda la esencia de la IA es que es un gran ecualizador cuando se trata del poder fiscal.

La IA proporciona resultados de muy alta calidad a muy bajo costo, especialmente a través de la automatización. Esta relación $${quality/cost}$$ está órdenes de magnitud por encima de la de los trabajadores humanos⁶. Además, abre esta puerta a cualquiera con una suscripción a ChatGPT y algunos conocimientos de programación. Esto nivela drásticamente el campo de juego cuando se trata de la competencia entre los grandes y los pequeños.

En cambio, durante 58 páginas, Harvard Business School evalúa la “quality” del trabajo de los consultores de BCG de forma aislada. ¿Cómo se determinó esta quality? Por “human graders”… que trabajan para BCG⁷.

Dejando a un lado los manifiestos conflictos de interés ya detallados, vale la pena comentar la falsa dicotomía presentada por el documento, y cómo esta influye en su economía implícita. Esta falsa dicotomía es algo así:

O quizás una interpretación más benévola sea:

“La IA hace que los humanos sean mejores o peores en sus trabajos.”

De cualquier manera, la métrica subyacente a la falsa dicotomía en el documento es “quality”, la cual se mide de forma subjetiva y existe en un vacío académico independiente de otras limitaciones, como el tiempo, la eficiencia y el costo. Una perspectiva económica más sofisticada sería algo así:

¿Cuál es la relación $${quality/cost}$$ del output humano comparada con la relación $${quality/cost}$$ de la AI-automation?

Los lectores sofisticados reconocerán esto como un argumento de ROI (retorno de la inversión). Tu relación $${quality/cost}$$ personal se puede descubrir respondiendo a las siguientes preguntas:

¿Qué tan bueno fue el output para una tarea dada?
¿Cuánto costó?
¿Valió la quality el costo?
¿Cuánto costaría mejorar la quality, y valdría la pena esa mejora financieramente?

Harvard Business School dedica 58 páginas a discutir la primera pregunta y nunca va más allá de ella. Es una perspectiva peculiar para una escuela de negocios, se debe decir. De hecho, se puede trazar un paralelismo interesante con supply chain. La ciega búsqueda de “quality” de HBS es notablemente similar a la búsqueda aislada de forecast accuracy (es decir, tratar de mejorar forecast accuracy sin considerar el ROI asociado a esa mejora)⁸.

Implicaciones Potenciales

Económicamente hablando, la “frontera tecnológica irregular” no se trata simplemente de identificar en qué tareas los LLMs superan a los humanos. Más bien, se trata de identificar tu relación ideal $${quality/cost}$$ al aprovechar los LLMs y de tomar decisiones inteligentes e informadas financieramente. Para los empresarios astutos, esto implicará automatización, no intervención manual (o al menos muy poca de ella).

Para estos empresarios, quizás un nivel comparable de quality sea aceptable, siempre y cuando sea rentable. “Aceptable” puede significar lo mismo, o una quality ligeramente mejor/peor que la que puede generar un experto humano. En otras palabras, pagar el 0.07% del precio de un consultor por >90% de la quality podría representar un muy buen compromiso, a pesar de no ser exactamente tan bueno como el output del experto costoso[^9].

Los números variarán para cada cliente, pero lo que es demostrablemente claro es que existe un punto de inflexión a partir del cual “quality” deja de ser una preocupación aislada y debe evaluarse con respecto a su costo financiero. Al menos, eso es cierto para las empresas que tienen la intención de mantenerse en el negocio.

Quizás tengas la opinión de que contratar a un equipo de graduados de Harvard Business School, o consultores de BCG, representa una relación ideal $${quality/cost}$$, independientemente de opciones más económicas como AI-automation. Si es así, espero que vivas mucho y prosperes[^10].

Alternativamente, quizás pienses como yo: la quality es subjetiva; el cost no lo es. Mi apreciación subjetiva de la quality –ciertamente en lo que respecta a los negocios– es relativa a su costo. Al igual que service levels (o forecast accuracy) en supply chain, un aumento extra del 1% en quality (o accuracy) probablemente no valga un incremento del 1,000% en costo. Por lo tanto, cuando se trata de IA en los negocios, hay un compromiso económico que debe hacerse entre “quality” y “cost”. Es crucial no perder de vista esto, como parece haber hecho Harvard Business School.

Para concluir, si esperas que la IA supere la quality humana antes de adoptarla, que así sea, pero el resto de nosotros no vamos a esperar contigo.

Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality, Dell’Acqua, Fabrizio y McFowland, Edward y Mollick, Ethan R. y Lifshitz-Assaf, Hila y Kellogg, Katherine y Rajendran, Saran y Krayer, Lisa y Candelon, François y Lakhani, Karim R., septiembre 2023 ↩︎
En AI Pilots for Supply Chain, Joannes Vermorel comparó este enfoque de “navaja suiza” con pedirle a un profesor muy inteligente que recordara los detalles de un documento que alguna vez estudiaron. De inmediato, el profesor recordará la idea general, pero es posible que no recuerde todos los matices a menos que le hagas las preguntas de seguimiento correctas para ayudarle a refrescar la memoria. ↩︎
BCG publicita de manera útil sus vínculos con muchas de las escuelas de negocios de primer nivel de Estados Unidos. Siéntete libre de investigar la presencia que tiene BCG en los principales campus de EE.UU.. Alternativamente, puedes revisar este útil Excel descargable que simplifica los datos. La tabla incluye cuántos consultores de BCG están actualmente cursando MBAs en Harvard Business School (74). Los lectores pueden sacar sus propias conclusiones. ↩︎
Una colaboración entre una importante escuela de negocios y una importante firma de consultoría demostró que los consultores costosos (y formados de manera costosa) son activos valiosos… Perdónenme por no haberme sorprendido lo suficiente. Si lo están, les redirijo amablemente al Excel descargable en la nota al pie anterior. ↩︎
Y ciertamente no midió quality dividido por cost del output, como cubriré más adelante. ↩︎
Es difícil proporcionar cifras precisas sobre este punto, pero supongamos un salario anual de más de $200,000 (US) para un consultor de cualquier firma de primer nivel. Esta cifra es razonable basándose en una investigación internet superficial. Los cálculos de atrás de servilleta de ChatGPT sugieren que un año de trabajo de consultoría costaría alrededor de $145 (en términos de costos de procesamiento de ChatGPT). Obviamente, esto no es terriblemente científico, pero aun si la cifra estuviese desviada por tres órdenes de magnitud, sigue siendo casi un 30% más barato que el salario anual de un solo consultor. Consulta el razonamiento de ChatGPT aquí: https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431. (Crédito a Alexey Tikhonov por proporcionar el registro de la conversación.) ↩︎
Ver las páginas 9 y 15 del documento, en caso de que dudes de lo que acabas de leer. Si esto sugiere quizás un conflicto de interés, te redirijo amablemente la atención al Excel descargable en la nota al pie 3. ↩︎
Lokad ha abordado el valor de forecast accuracy en detalle antes, así que aquí hay un breve recordatorio: enfócate en el impacto financiero de tus decisiones de supply chain, en lugar de medir KPIs (como accuracy) independiente de sus implicancias financieras (es decir, ROI). Dicho de otro modo, si un forecast de demanda es 10% más preciso pero ganas un 20% menos de dinero como resultado, es justo decir que el aumento en accuracy no valió el aumento en costo. Hace aproximadamente un año, Lokad comenzó a traducir su sitio web a seis idiomas utilizando LLMs. Antes de eso, habíamos contratado los servicios de traductores profesionales. El costo continuo para simplemente mantener las traducciones fue de aproximadamente $15,000-30,000 (US) por año por idioma. Aunque estamos perfectamente dispuestos a conceder que los traductores profesionales ofrecían (relativamente) una mayor calidad, la relación $${quality/cost}$$ de usar un LLM es mucho mayor. En otras palabras, la calidad que podemos generar utilizando un LLM es más que aceptable, y significativamente más barata que nuestro arreglo previo. Es difícil cuantificar adecuadamente los ahorros, pero traducir competentemente cada recurso que hemos producido (y que produciremos) a seis idiomas en unos pocos minutos es exponencialmente más barato y más eficiente en tiempo que el sistema anterior. Si eres hablante nativo de francés, alemán, español, ruso, italiano o japonés, siéntete libre de traducir este ensayo en la esquina superior derecha de la página y comprobar la calidad por ti mismo. Al menos hasta que OpenAI lance ChatGPT-5. ↩︎

Regresar al Blog ›

Una Perspectiva Matizada sobre la Frontera Tecnológica Irregular de Harvard Business School

Contexto

Crítica a la Metodología

Crítica a la Perspectiva Económica

Implicaciones Potenciales

Más publicaciones