La qualité est subjective ; le coût ne l’est pas.

Dans un récent épisode de LokadTV, j’ai suggéré qu’un article de Harvard Business School (HBS), réalisé en collaboration avec Boston Consulting Group (BCG), était profondément défectueux et potentiellement dangereux. Le titre complet de l’article est Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge, Worker Productivity, and Quality1. En résumé, l’article affirme que les capacités de l’IA dans les tâches exigeantes sont réparties de manière inégale, car elle excelle dans certaines tâches et se comporte mal dans d’autres tâches (“tâches à l’intérieur” et “tâches à l’extérieur de la frontière”, respectivement).

Une figure représentant le coût relatif et la qualité de la production associés à différents flux de travail, y compris l'automatisation de l'IA.

Contexte

De l’autre côté de cette “frontière technologique accidentée” (voir illustration à la page 27 de l’article), l’expertise humaine surpasse encore l’IA (dans ce cas, ChatGPT-4), notamment dans les tâches qui combinent l’analyse quantitative et qualitative (c’est-à-dire les “tâches à l’extérieur de la frontière”).

Cela ne devrait pas surprendre ceux qui connaissent bien ce que les grands modèles de langage (LLM) comme ChatGPT sont conçus pour faire (spoiler : pas les mathématiques). De plus, lorsque les LLM sont traités comme une “base de données de tout”, ils produisent des réponses plausibles mais parfois inexactes2. Cependant, l’article soulève néanmoins quelques points intéressants - bien que ce soit accidentellement.

À son crédit, l’article est très lisible, ce qui manque souvent cruellement dans le milieu universitaire. Cela dit, on pourrait soulever quelques préoccupations concernant les conflits d’intérêts potentiels3 et ses conclusions4, mais c’est la méthodologie et l’économie implicite de l’article qui sont ici d’un intérêt particulier.

Critique de la méthodologie

En ce qui concerne la méthodologie, ce point a déjà été critiqué dans la vidéo, donc je serai bref ici. L’équipe de recherche n’a pas exploré les gains de productivité générés par l’automatisation. Au lieu de cela, les chercheurs ont sélectionné des groupes de consultants (c’est-à-dire des non-spécialistes de l’IA, de l’informatique et/ou de l’ingénierie) pour utiliser ChatGPT-4. La seule exception à cela était le groupe témoin, qui travaillait uniquement avec leur expertise. L’éthique de comment ces groupes ont été jugés sera mentionnée sous peu.

Il n’y avait pas d’ingénieurs logiciels externes ou d’experts en IA dans l’expérience. Aucune équipe de développeurs compétents en génération augmentée par récupération (RAG), de réglage spécifique au domaine ou d’autres techniques utilisant les plus grandes forces des LLM : être des robots résilients au bruit et universels dans leur modèle.

Ce robot impressionnant n’a pas été programmé pour exploiter les connaissances spécifiques au domaine stockées dans les vastes bases de données internes de BCG sur les initiatives de conseil passées. Au contraire, l’expérience a mis en scène certains consultants abonnés à ChatGPT-4.

Cette orchestration a naturellement suscité des degrés variables de résultats (en termes de qualité), en particulier pour les tâches nécessitant à la fois une analyse quantitative et qualitative. En d’autres termes, une expérience a été conçue pour voir à quel point les non-experts échouent à exploiter une technologie sophistiquée, et ce, dans des conditions irréalistes restrictives.

Comme je l’ai conclu dans la vidéo, ignorer les gains de productivité possibles (et les économies) générés par l’automatisation frôle le scandale. Cela est particulièrement vrai lorsque l’on publie au nom d’un institut prestigieux d’apprentissage. Les conclusions de l’article donnent également, à mon avis, une fausse impression de sécurité (professionnelle) aux étudiants sur le point de s’endetter de manière considérable pour étudier dans une grande école de commerce. Cela est également vrai pour les personnes qui ont déjà franchi le pas et contracté des dettes importantes pour des diplômes dans des domaines qui pourraient être sur le point d’être entièrement automatisés.

Critique de la perspective économique

Malgré les critiques considérables ci-dessus, à mes yeux, l’économie implicite de l’article est beaucoup plus fascinante. En termes simples, la Harvard Business School n’a mesuré que la $${qualité}$$ de la production, pas le $${coût}$$ de la production5.

À aucun moment (et veuillez vérifier mes dires), les chercheurs ne mesurent le coût associé à la production du travail des consultants. Ce n’est pas un point trivial. L’article mentionne le mot “qualité” 65 fois en 58 pages (y compris le titre de l’article). Le mot “coût” est mentionné… 2 fois… et seulement dans la toute dernière phrase de l’article. Je reproduis cette phrase ici pour le contexte :

“De la même manière que l’internet et les navigateurs web ont considérablement réduit le coût marginal du partage d’informations, l’IA peut également réduire les coûts associés à la réflexion et au raisonnement humains, avec des effets potentiellement larges et transformateurs.” (p. 19)

Même lorsque la Harvard Business School a enfin reconnu le concept de coût financier, ce n’était pas en termes de réduction du coût de production d’un travail de haute qualité sans avoir besoin de diplômés coûteux d’écoles de commerce. Cela peut sembler évident étant donné que le titre de l’article identifie “productivité” et “qualité” comme points de recherche, sans oublier le fait qu’une école de commerce coûteuse ne va guère faire la publicité de sa propre inutilité imminente.

Cela étant dit, je suggère poliment que mesurer la $${productivité}$$ et la $${qualité}$$ de la production sans une perspective financière solide est pratiquement dénué de sens, en particulier dans un article académique d’une école de commerce. Cela est particulièrement grave étant donné que le cœur même de l’IA est qu’elle est un grand égaliseur en termes de puissance financière.

L’IA fournit des résultats de très haute qualité à des coûts très bas, notamment grâce à l’automatisation. Ce rapport $${qualité/coût}$$ est de plusieurs ordres de grandeur supérieur à celui des travailleurs humains6. De plus, cela ouvre la porte à n’importe qui ayant un abonnement à ChatGPT et une certaine connaissance de la programmation. Cela égalise considérablement les chances de compétition entre les gros acteurs et les petits.

Au lieu de cela, pendant 58 pages, la Harvard Business School évalue la “qualité” du travail des consultants de BCG de manière isolée. Comment cette qualité a-t-elle été déterminée ? Par des “évaluateurs humains”… qui travaillent pour BCG7. Mis à part les conflits d’intérêts manifestes déjà détaillés, il convient de souligner la fausse dichotomie présentée par l’article et comment cela influence son économie implicite. Cette fausse dichotomie se présente comme suit :

“L’IA est soit meilleure, soit pire que l’expertise humaine.”

Ou peut-être une interprétation plus charitable est :

“L’IA rend les humains meilleurs ou pires dans leur travail.”

Dans les deux cas, la métrique sous-jacente de la fausse dichotomie dans l’article est la “qualité”, qui est mesurée de manière subjective et existe dans un vide académique indépendamment d’autres contraintes, telles que le temps, l’efficacité et le coût. Une perspective économique plus sophistiquée serait quelque chose comme :

Quel est le rapport $${qualité/coût}$$ de la production humaine par rapport au rapport $${qualité/coût}$$ de l’automatisation par IA ?

Les lecteurs avertis reconnaîtront cela comme un argument de retour sur investissement (ROI). Votre propre rapport $${qualité/coût}$$ peut être découvert en répondant aux questions suivantes :

  1. Quelle était la qualité de la production pour une tâche donnée ?
  2. Combien cela a-t-il coûté ?
  3. La qualité en valait-elle le coût ?
  4. Combien cela coûterait-il pour améliorer la qualité, et cette amélioration serait-elle financièrement rentable ?

La Harvard Business School consacre 58 pages à discuter de la première question et ne va jamais au-delà. C’est une perspective particulière pour une école de commerce, il faut le dire. En fait, on peut établir un parallèle intéressant avec la supply chain. La poursuite aveugle de la qualité par HBS est remarquablement similaire à la poursuite isolée de la précision des prévisions (c’est-à-dire essayer d’améliorer la précision des prévisions sans tenir compte du ROI associé à cette amélioration)8.

Implications potentielles

Économiquement parlant, la “frontière technologique irrégulière” ne consiste pas simplement à identifier les tâches que les LLM réalisent mieux que les humains. Il s’agit plutôt d’identifier votre rapport $${qualité/coût}$$ idéal lors de l’utilisation des LLM et de prendre des décisions intelligentes et financièrement éclairées. Pour les chefs d’entreprise avisés, cela impliquera l’automatisation, et non l’intervention manuelle (ou du moins très peu).

Pour ces chefs d’entreprise, peut-être qu’un niveau de qualité comparable est acceptable, tant qu’il est rentable. “Acceptable” peut signifier la même qualité que celle qu’un expert humain peut générer, ou légèrement meilleure/inférieure. En d’autres termes, payer 0,07 % du prix d’un consultant pour plus de 90 % de la qualité peut représenter un très bon compromis, même si ce n’est pas aussi bon que la production coûteuse de l’expert9.

Les chiffres varieront pour chaque client, mais ce qui est clairement démontré, c’est qu’il existe un point de basculement au-delà duquel la “qualité” cesse d’être une préoccupation isolée et doit être évaluée par rapport à son coût financier. C’est du moins vrai pour les entreprises qui veulent rester en activité.

Peut-être êtes-vous d’avis que l’embauche d’une équipe de diplômés de la Harvard Business School ou de consultants de BCG représente un rapport $${qualité/coût}$$ idéal, indépendamment d’options moins chères comme l’automatisation par IA. Si tel est le cas, je vous souhaite une longue vie et prospérité10.

Alternativement, peut-être pensez-vous comme moi : la qualité est subjective ; le coût ne l’est pas. Mon appréciation subjective de la qualité - notamment en ce qui concerne les affaires - est relative à son coût. Tout comme les taux de service (ou la précision des prévisions) dans la supply chain, une augmentation de 1% de la qualité (ou de la précision) ne vaut probablement pas une augmentation de coût de 1 000%. Ainsi, lorsqu’il s’agit de l’IA dans les affaires, il y a un compromis économique à faire entre la qualité et le coût. Il est crucial de ne pas perdre de vue cela, comme l’a apparemment fait la Harvard Business School.

En conclusion, si vous attendez que l’IA dépasse la qualité humaine avant de l’adopter, soit, mais le reste d’entre nous n’attendra pas avec vous.


  1. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality, Dell’Acqua, Fabrizio and McFowland, Edward and Mollick, Ethan R. and Lifshitz-Assaf, Hila and Kellogg, Katherine and Rajendran, Saran and Krayer, Lisa and Candelon, François and Lakhani, Karim R., septembre 2023 ↩︎

  2. Dans AI Pilots for Supply Chain, Joannes Vermorel a comparé cette approche “couteau suisse” à demander à un professeur très intelligent de se rappeler les détails d’un article qu’il a étudié. Le professeur se souviendra de l’essentiel, mais il ne se souviendra peut-être pas de tous les détails à moins que vous ne posiez les bonnes questions de suivi pour l’aider à se rappeler. ↩︎

  3. BCG fait de la publicité pour ses liens avec de nombreuses grandes écoles de commerce américaines. N’hésitez pas à consulter la présence de BCG sur les principaux campus américains. Vous pouvez également consulter cette feuille Excel téléchargeable qui simplifie les données. Le tableau indique combien de consultants de BCG étudient actuellement pour un MBA à la Harvard Business School (74). Les lecteurs peuvent en tirer leurs propres conclusions. ↩︎

  4. Une collaboration entre une grande école de commerce et un grand cabinet de conseil a démontré que les consultants coûteux (et coûteusement formés) sont des atouts précieux… Excusez-moi de ne pas être plus choqué. Si vous l’êtes, cependant, je vous renvoie poliment à la feuille Excel téléchargeable dans la note de bas de page précédente. ↩︎

  5. Et cela n’a certainement pas mesuré la qualité divisée par le coût de la production, comme je le couvrirai plus tard. ↩︎

  6. Il est difficile de fournir des chiffres précis à ce sujet, mais supposons un salaire annuel de plus de 200 000 $ (US) pour un consultant de n’importe quel grand cabinet. Ce chiffre est raisonnable en se basant sur quelques recherches rapides sur Internet. Les calculs approximatifs de ChatGPT suggèrent qu’une année de travail de conseil coûterait environ 145 $ (en termes de coûts de traitement de ChatGPT). Évidemment, ce n’est pas très scientifique, mais même si le chiffre est erroné de trois ordres de grandeur, cela reste presque 30% moins cher que le salaire annuel d’un seul consultant. Consultez le raisonnement de ChatGPT ici : https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431. (Crédit à Alexey Tikhonov pour avoir fourni le journal de la conversation.) Il faut également prendre en compte les coûts de construction du robot de modélisation lui-même, qui peuvent ne pas être bon marché, mais même en combinaison avec les 145 $ pour ChatGPT, cela reste moins cher que le salaire annuel d’un seul consultant et beaucoup plus productif lorsqu’il est déployé à grande échelle. ↩︎

  7. Voir les pages 9 et 15 de l’article, au cas où vous douteriez de ce que vous venez de lire. Si cela suggère peut-être un conflit d’intérêts, je vous renvoie poliment à la feuille Excel téléchargeable dans la note de bas de page 3. ↩︎

  8. Lokad a déjà abordé en détail la valeur de l’exactitude des prévisions, voici donc un rappel très bref : concentrez-vous sur l’impact financier de vos décisions en matière de supply chain, plutôt que de mesurer des indicateurs de performance (comme l’exactitude) indépendamment de leurs implications financières (c’est-à-dire le retour sur investissement). En d’autres termes, si une prévision de la demande est plus précise de 10 % mais que vous gagnez 20 % de moins en conséquence, on peut dire que l’augmentation de la précision n’en valait pas le coût supplémentaire. ↩︎

  9. Il y a environ un an, Lokad a commencé à traduire son site web en six langues en utilisant des LLM. Avant cela, nous avions fait appel à des traducteurs professionnels. Le coût continu pour simplement maintenir les traductions était d’environ 15 000 à 30 000 $ (US) par an et par langue. Bien que nous soyons parfaitement disposés à admettre que les traducteurs professionnels fournissaient une qualité (relativement) supérieure, le rapport $${qualité/coût}$$ d’utilisation d’un LLM est bien supérieur. En d’autres termes, la qualité que nous pouvons générer en utilisant un LLM est plus que satisfaisante et beaucoup moins chère que notre arrangement précédent. Il est difficile de quantifier précisément les économies réalisées, mais traduire de manière compétente chaque ressource que nous avons jamais produite (et que nous produirons jamais) dans six langues en quelques minutes est exponentiellement moins cher et plus efficace en termes de temps que le système précédent. Si vous êtes un locuteur natif français, allemand, espagnol, russe, italien ou japonais, n’hésitez pas à traduire cet essai dans le coin supérieur droit de la page et à tester la qualité par vous-même. ↩︎

  10. Du moins jusqu’à ce qu’OpenAI publie ChatGPT-5. ↩︎