Chiedetelo al CEO di una qualsiasi startup di intelligenza artificiale e probabilmente vi parlerà del potenziale di questa tecnologia nel "trasformare il lavoro" o nel "rivoluzionare il modo in cui accediamo alla conoscenza". In realtà, non mancano le promesse che l'intelligenza artificiale stia diventando sempre più intelligente, il che, ci dicono, accelererà il tasso di scoperte scientifiche, semplificherà i test medici e genererà un nuovo tipo di borsa di studio
Ma secondo un nuovo studio pubblicato dalla Royal Society, ben il 73 percento delle risposte apparentemente affidabili fornite dai chatbot dotati di intelligenza artificiale potrebbero in realtà essere imprecise.
Lo studio collaborativo ha esaminato quasi 5.000 riassunti di modelli linguistici di grandi dimensioni (LLM) di studi scientifici realizzati da dieci chatbot ampiamente utilizzati, tra cui ChatGPT-4o, ChatGPT-4.5, DeepSeek e LLaMA 3.3 70B. Ne è emerso che, anche quando esplicitamente sollecitate a fornire i fatti corretti, le risposte dell'IA mancavano di dettagli chiave a una velocità cinque volte superiore a quella dei riassunti scientifici scritti da esseri umani.
"Quando riassumono testi scientifici, gli LLM possono omettere dettagli che limitano la portata delle conclusioni della ricerca, portando a generalizzazioni dei risultati più ampie di quelle garantite dallo studio originale",hanno scritto i ricercatori.
È allarmante notare che il tasso di errore degli LLM aumentava con la maggiore novità del chatbot,l'esatto opposto di quanto ci avevano promesso i leader del settore dell'intelligenza artificiale. Questo si aggiunge alla correlazione tra la tendenza degli LLM a generalizzare eccessivamente e la loro diffusione, "rappresentando un rischio significativo di interpretazioni errate su larga scala dei risultati della ricerca",secondo gli autori dello studio.
Ad esempio, l'utilizzo dei due modelli ChatGPT elencati nello studio è raddoppiato dal 13 al 26% tra gli adolescenti statunitensi tra il 2023 e il 2025. Sebbene la vecchia versione di ChatGPT-4 Turbo avesse circa 2,6 volte più probabilità di omettere dettagli chiave rispetto ai testi originali, i nuovi modelli ChatGPT-4o avevano una probabilità nove volte maggiore. Questa tendenza è stata riscontrata anche in LLaMA 3.3 70B di Meta, che aveva una probabilità 36,4 volte maggiore di generalizzare eccessivamente rispetto alle versioni precedenti.
Sintetizzare enormi quantità di dati in poche frasi è un compito arduo. Sebbene risulti piuttosto semplice per gli esseri umani adulti, programmarlo in un chatbot è un processo davvero complicato.
Mentre il cervello umano può apprendere istintivamente lezioni generali da esperienze specifiche – come toccare una stufa calda – sfumature complesse rendono difficile per i chatbot sapere su quali fatti concentrarsi. Un essere umano capisce rapidamente che le stufe possono bruciare mentre i frigoriferi no, ma un LLM potrebbe dedurre che tutti gli elettrodomestici da cucina si surriscaldano, a meno che non venga detto diversamente. Se estendiamo un po' questa metafora al mondo scientifico, il discorso si complica rapidamente.
Ma riassumere è anche un'attività che richiede molto tempo per gli esseri umani; i ricercatori indicano gli ambiti medico-clinici come un'area in cui i riassunti LLM potrebbero avere un impatto enorme sul lavoro. Tuttavia, vale anche il contrario: nel lavoro clinico, i dettagli sono estremamente importanti e anche la più piccola omissione può trasformarsi in un disastro che cambia la vita.
Ciò rende ancora più preoccupante il fatto che gli LLM vengano inseriti a forza in ogni possibile ambito lavorativo, dai compiti delle scuole superiori alle farmacie, fino all'ingegneria meccanica, nonostante un crescente numero di lavori dimostri diffusi problemi di accuratezza insiti nell'intelligenza artificiale.
Tuttavia, gli scienziati hanno sottolineato alcuni importanti svantaggi nei loro risultati. Innanzitutto, i prompt forniti agli LLM possono avere un impatto significativo sulla risposta che forniscono. Non è noto se questo influisca sui riassunti degli articoli scientifici degli LLM, il che suggerisce un futuro percorso di ricerca.
In ogni caso, le linee di tendenza sono chiare. A meno che gli sviluppatori di intelligenza artificiale non riescano a impostare i loro nuovi LLM sulla strada giusta, dovrete continuare ad affidarvi a umili blogger umani che riassumano i report scientifici per voi.
fonte