La qualità è soggettiva; il costo no.

In un recente episodio di LokadTV, ho suggerito che un articolo di Harvard Business School (HBS), condotto in collaborazione con Boston Consulting Group (BCG), fosse profondamente difettoso e potenzialmente pericoloso. Il titolo completo dell’articolo è Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge, Worker Productivity, and Quality1. In sintesi, l’articolo afferma che le capacità dell’IA in compiti complessi sono distribuite in modo disomogeneo, in quanto eccelle in alcuni compiti e si comporta male in altri (“compiti all’interno” e “compiti all’esterno” della frontiera, rispettivamente).

Una figura che mostra il costo relativo e la qualità dell'output associati a vari flussi di lavoro, inclusa l'automazione dell'IA.

Contesto

Dall’altra parte di questa “frontiera tecnologica frastagliata” (vedi illustrazione a pagina 27 dell’articolo), l’esperienza umana supera ancora l’IA (in questo caso, ChatGPT-4), soprattutto in compiti che combinano analisi quantitative e qualitative (cioè “compiti all’esterno” della frontiera).

Questo non dovrebbe sorprendere chiunque sia familiare con ciò per cui sono progettati i grandi modelli di linguaggio (LLM) come ChatGPT (spoiler: non matematica). Inoltre, quando i LLM vengono trattati come un “database di tutto”, producono risposte plausibili ma a volte inaccurate2. Tuttavia, l’articolo solleva ancora alcuni punti interessanti, anche se solo accidentalmente.

A suo merito, l’articolo è molto leggibile, cosa spesso mancante nell’ambito accademico. Detto questo, si potrebbero sollevare alcune preoccupazioni riguardo a potenziali conflitti di interesse3 e ai suoi risultati4, tuttavia è la metodologia e l’economia implicita dell’articolo che sono di principale interesse qui.

Critica della metodologia

Riguardo alla metodologia, questo punto è stato già criticato nel video, quindi sarò breve qui. Il team di ricerca non ha esplorato i guadagni di produttività generati attraverso l’automazione. Invece, i ricercatori hanno selezionato gruppi di consulenti (cioè non specialisti in IA, informatica e/o ingegneria) per utilizzare ChatGPT-4. L’unica eccezione a ciò era il gruppo di controllo, che lavorava utilizzando solo la propria esperienza. L’etica di come questi gruppi sono stati valutati sarà menzionata a breve.

Non c’erano ingegneri software esterni o esperti di IA nell’esperimento. Nessun team di sviluppatori esperti in retrieval augmented generation (RAG), domain specific fine-tuning o altre tecniche che utilizzano i punti di forza dei LLM: essere robot universali e resistenti al rumore.

Questo impressionante robot non è stato programmato per sfruttare le conoscenze specifiche del dominio conservate nelle estese banche dati interne di BCG relative a iniziative di consulenza passate. Al contrario, l’esperimento ha coinvolto alcuni consulenti con una sottoscrizione a ChatGPT-4.

Questa orchestrazione ha naturalmente prodotto gradi di output variabili (in termini di qualità), soprattutto per quanto riguarda i compiti che richiedevano sia analisi quantitative che qualitative. In altre parole: è stato progettato un esperimento per vedere quanto male i non esperti riescono a sfruttare una sofisticata tecnologia, e in condizioni irrealisticamente restrittive.

Come ho concluso nel video, ignorare i possibili guadagni di produttività (e risparmi) generati attraverso l’automazione confina con lo scandalo. Questo è particolarmente vero quando si pubblica sotto il nome di un prestigioso istituto di apprendimento. I risultati dell’articolo danno anche, a mio parere, una falsa sensazione di (sicurezza lavorativa) agli studenti che stanno per affrontare un debito che cambierà la vita al fine di studiare presso una prestigiosa scuola di economia. Questo vale anche per le persone che hanno già preso l’iniziativa e si sono indebitate per ottenere diplomi in settori che potrebbero essere sull’orlo dell’automazione completa.

Critica della prospettiva economica

Nonostante le critiche significative sopra riportate, secondo me, l’economia implicita dell’articolo è molto più affascinante. In poche parole, la Harvard Business School ha misurato solo la $${qualità}$$ dell’output, non il $${costo}$$ dell’output5.

In nessun momento (e per favore verificate i fatti) i ricercatori misurano il costo associato all’output del lavoro dei consulenti. Questo non è un punto banale. La parola “qualità” viene menzionata 65 volte in 58 pagine (incluso il titolo dell’articolo). La parola “costo” viene menzionata…2 volte…e solo nell’ultima frase dell’articolo. Riproduco qui quella frase per contestualizzarla:

“Analogamente a come Internet e i browser Web hanno ridotto drasticamente il costo marginale della condivisione delle informazioni, l’IA potrebbe anche ridurre i costi associati al pensiero e al ragionamento umano, con effetti potenzialmente ampi e trasformativi.” (p. 19)

Anche quando la Harvard Business School ha finalmente riconosciuto il concetto di costo finanziario, non lo ha fatto in termini di riduzione dei costi per generare un lavoro di alta qualità senza la necessità di costosi laureati in scienze economiche. Questo potrebbe sembrare ovvio considerando che il titolo dell’articolo identifica “produttività” e “qualità” come punti focali della ricerca, senza dimenticare il fatto che una costosa scuola di economia difficilmente pubblicizzerebbe la propria potenziale inutilità imminente.

Ciò nonostante, suggerisco cortesemente che misurare la $${produttività}$$ e la $${qualità}$$ dell’output senza una solida prospettiva finanziaria è praticamente privo di significato, soprattutto in un articolo accademico di una scuola di economia. Questo è particolarmente grave considerando che l’intero fulcro dell’IA è che essa è un grande livellatore quando si tratta di potere finanziario.

L’IA fornisce risultati di altissima qualità a costi molto bassi, soprattutto attraverso l’automazione. Questo rapporto $${qualità/costo}$$ è di ordini di grandezza superiore a quello dei lavoratori umani6. Inoltre, apre questa porta a chiunque abbia una sottoscrizione a ChatGPT e una certa conoscenza della programmazione. Questo livella drasticamente il campo di gioco quando si tratta di competizione tra i grandi e i piccoli.

Invece, per 58 pagine, la Harvard Business School valuta la “qualità” del lavoro dei consulenti di BCG in isolamento. Come è stata determinata questa qualità? Da “valutatori umani”…che lavorano per BCG7. Mettendo da parte i manifesti conflitti di interesse già descritti, vale la pena notare la falsa dicotomia presentata dall’articolo e come questa influenzi la sua economia implicita. Questa falsa dicotomia si può riassumere così:

“L’IA è migliore o peggiore dell’esperienza umana.”

O forse un’interpretazione più benevola è:

“L’IA rende gli esseri umani migliori o peggiori nel loro lavoro.”

In entrambi i casi, la metrica alla base della falsa dicotomia nell’articolo è “qualità”, che viene misurata soggettivamente ed esiste in un vuoto accademico indipendente da altre limitazioni, come il tempo, l’efficienza e il costo. Una prospettiva economica più sofisticata sarebbe qualcosa del genere:

Qual è il rapporto $${qualità/costo}$$ dell’output umano rispetto al rapporto $${qualità/costo}$$ dell’automazione basata sull’IA?

I lettori sofisticati riconosceranno questo come un argomento di ROI (ritorno sull’investimento). Il proprio rapporto $${qualità/costo}$$ personale può essere scoperto rispondendo alle seguenti domande:

  1. Quanto era buono l’output per un determinato compito?
  2. Quanto è costato?
  3. Valeva la pena la qualità del costo?
  4. Quanto costerebbe migliorare la qualità e sarebbe finanziariamente conveniente?

La Harvard Business School dedica 58 pagine a discutere della prima domanda e non va oltre. È una prospettiva peculiare per una business school, bisogna ammetterlo. In effetti, si può tracciare un interessante parallelismo con la supply chain. La cieca ricerca della qualità da parte della HBS è sorprendentemente simile alla ricerca isolata dell’accuratezza delle previsioni (cioè cercare di migliorare l’accuratezza delle previsioni senza considerare il ROI associato a tale miglioramento)8.

Possibili Implicazioni

Dal punto di vista economico, la “frontiera tecnologica frastagliata” non consiste semplicemente nell’identificare quali compiti gli LLM svolgono meglio degli esseri umani. Piuttosto, consiste nell’identificare il tuo rapporto $${qualità/costo}$$ ideale quando si sfruttano gli LLM e prendere decisioni intelligenti e informate dal punto di vista finanziario. Per gli imprenditori esperti, ciò comporterà l’automazione, non l’intervento manuale (o almeno molto poco di esso).

Per questi imprenditori, forse un livello di qualità comparabile è accettabile, purché sia efficiente dal punto di vista dei costi. “Accettabile” può significare lo stesso livello di qualità o leggermente migliore/peggiore rispetto a quello che un esperto umano può generare. In altre parole, pagare lo 0,07% del prezzo di un consulente per ottenere oltre il 90% della qualità potrebbe rappresentare un ottimo compromesso, nonostante non sia esattamente come l’output dell’esperto costoso9.

I numeri varieranno per ogni cliente, ma ciò che è dimostrabilmente chiaro è che c’è un punto di svolta oltre il quale la “qualità” cessa di essere una preoccupazione isolata e deve essere valutata rispetto al suo costo finanziario. Questo è almeno vero per le aziende intenzionate a rimanere in attività.

Forse sei dell’opinione che assumere un team di laureati della Harvard Business School o consulenti di BCG rappresenti un rapporto $${qualità/costo}$$ ideale, indipendentemente dalle opzioni più economiche come l’automazione basata sull’IA. In tal caso, spero che tu viva a lungo e prosperi10.

In alternativa, forse la pensi come me: la qualità è soggettiva; il costo non lo è. La mia valutazione soggettiva della qualità - soprattutto quando si tratta di affari - è relativa al suo costo. Similmente ai livelli di servizio (o all’accuratezza delle previsioni) nella supply chain, un aumento del 1% nella qualità (o nell’accuratezza) probabilmente non vale un aumento del 1.000% dei costi. Pertanto, quando si tratta di IA in ambito aziendale, c’è un compromesso economico da fare tra qualità e costo. È fondamentale non perdere di vista questo aspetto, come sembra che abbia fatto la Harvard Business School.

In conclusione, se stai aspettando che l’IA superi la qualità umana prima di adottarla, fallo pure, ma il resto di noi non aspetterà con te.


  1. Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality, Dell’Acqua, Fabrizio and McFowland, Edward and Mollick, Ethan R. and Lifshitz-Assaf, Hila and Kellogg, Katherine and Rajendran, Saran and Krayer, Lisa and Candelon, François and Lakhani, Karim R., settembre 2023 ↩︎

  2. In AI Pilots for Supply Chain, Joannes Vermorel ha confrontato questo approccio “Swiss Army Knife” con chiedere a un professore molto intelligente di ricordare i dettagli di un articolo che ha studiato una volta. A memoria, il professore ricorderà l’essenza, ma potrebbe non ricordare tutti i dettagli a meno che non gli vengano poste le giuste domande di approfondimento per aiutarlo a ricordare. ↩︎

  3. BCG pubblicizza utilmente i suoi legami con molte delle migliori scuole di business americane. Sentiti libero di indagare la presenza di BCG nei principali campus universitari degli Stati Uniti. In alternativa, puoi consultare questo utile file Excel scaricabile che semplifica i dati. La tabella include quanti consulenti BCG attualmente studiano MBA presso la Harvard Business School (74). I lettori possono trarre le proprie conclusioni. ↩︎

  4. Una collaborazione tra una grande scuola di business e una grande società di consulenza ha dimostrato che i consulenti costosi (e costosamente addestrati) sono risorse preziose… Perdonami se non sono sorpreso. Se lo sei, però, ti indirizzo cortesemente al file Excel scaricabile nella nota a piè di pagina precedente. ↩︎

  5. E sicuramente non ha misurato la qualità divisa per il costo dell’output, come spiegherò più avanti. ↩︎

  6. È difficile fornire cifre precise su questo punto, ma supponiamo uno stipendio annuo superiore a $200.000 (US) per un consulente di qualsiasi grande azienda. Questa cifra è ragionevole sulla base di una rapida ricerca su internet. I calcoli back-of-the-napkin di ChatGPT suggeriscono che un anno di lavoro di consulenza costerebbe circa $145 (in termini di costi di elaborazione di ChatGPT). Ovviamente, questo non è molto scientifico, ma anche se la cifra è sbagliata di tre ordini di grandezza, sarebbe comunque quasi il 30% più economico dello stipendio annuo di un singolo consulente. Consulta il ragionamento di ChatGPT qui: https://chat.openai.com/share/d9beb4b9-2dd3-4ac2-9e95-2cd415c76431. (Merito di Alexey Tikhonov per aver fornito il log della conversazione.) Va detto che bisogna anche considerare i costi di costruzione del robot di templating stesso, che potrebbero non essere economici, ma anche in combinazione con i $145 per ChatGPT sarebbe comunque più economico dello stipendio annuo di un singolo consulente e sarebbe esponenzialmente più produttivo quando utilizzato su larga scala. ↩︎

  7. Vedi le pagine 9 e 15 del documento, nel caso tu dubitassi di ciò che hai appena letto. Se ciò suggerisce forse un conflitto di interessi, ti indirizzo cortesemente al file Excel scaricabile nella nota a piè di pagina 3. ↩︎

  8. Lokad ha affrontato in dettaglio il valore dell’accuratezza delle previsioni, quindi ecco un breve ripasso: concentra l’attenzione sull’impatto finanziario delle tue decisioni sulla supply chain, anziché misurare gli indicatori chiave di prestazione (come l’accuratezza) indipendentemente dalle loro implicazioni finanziarie (cioè il ROI). Per metterla in altri termini, se una previsione della domanda è più accurata del 10% ma guadagni il 20% in meno come risultato, è lecito dire che l’aumento dell’accuratezza non valeva l’aumento dei costi. ↩︎

  9. Circa un anno fa, Lokad ha iniziato a tradurre il suo sito web in sei lingue utilizzando LLM. Prima di ciò, avevamo utilizzato i servizi di traduttori professionisti. Il costo continuativo per mantenere semplicemente le traduzioni era di circa $15.000-30.000 (US) all’anno per ogni lingua. Sebbene siamo perfettamente disposti ad ammettere che i traduttori professionisti fornivano una qualità (relativamente) più elevata, il rapporto $${qualità/costo}$$ dell’utilizzo di un LLM è molto maggiore. In altre parole, la qualità che possiamo generare utilizzando un LLM è più che accettabile e significativamente più economica rispetto al nostro accordo precedente. È difficile quantificare correttamente i risparmi, ma tradurre competenti ogni singola risorsa che abbiamo mai prodotto (e che produrremo mai) in sei lingue in pochi minuti è esponenzialmente più economico e più efficiente in termini di tempo rispetto al sistema precedente. Se sei un madrelingua francese, tedesco, spagnolo, russo, italiano o giapponese, sentiti libero di tradurre questo saggio nell’angolo in alto a destra della pagina e testare la qualità tu stesso. ↩︎

  10. Almeno fino al rilascio di ChatGPT-5 da parte di OpenAI. ↩︎