È incredibilmente facile avvelenare in modo catastrofico un intero modello linguistico di grandi dimensioni

Se anche solo lo 0,001 percento dei dati di addestramento di un'IA è disinformazione, l'intera faccenda viene compromessa, scoprono gli scienziati.

Non è un segreto che i grandi modelli linguistici (LLM) come quelli che alimentano chatbot popolari come ChatGPT siano sorprendentemente fallibili. Anche quelli più avanzati hanno ancora una fastidiosa tendenza a distorcere la verità, e con un grado di sicurezza snervante.

E quando si tratta di dati medici, questo tipo di discrepanze diventano molto più gravi, dato che potrebbero essere in gioco delle vite.

I ricercatori della New York University hanno scoperto che se anche solo lo 0,001 percento dei dati di training di un dato LLM viene "avvelenato", ovvero deliberatamente intriso di informazioni errate, è probabile che l'intero set di training propaghi errori.

Come descritto in un articolo pubblicato sulla rivista Nature Medicine, individuato per la prima volta da Ars Technica, il team ha anche scoperto che, nonostante siano soggetti a errori, gli LLM corrotti funzionano comunque altrettanto bene sui "benchmark open source utilizzati di routine per valutare gli LLM medici" rispetto alle loro "controparti prive di corruzione".

In altre parole, l'uso degli LLM biomedici comporta gravi rischi, che potrebbero essere facilmente trascurati utilizzando i test convenzionali.

"Alla luce delle attuali richieste di una migliore provenienza dei dati e di uno sviluppo trasparente degli LLM", scrive il team nel suo documento, "speriamo di aumentare la consapevolezza dei rischi emergenti derivanti dagli LLM formati in modo indiscriminato su dati raccolti dal web, in particolare nel settore sanitario, dove la disinformazione può potenzialmente compromettere la sicurezza dei pazienti".

In un esperimento, i ricercatori hanno intenzionalmente inserito "informazioni mediche errate generate dall'intelligenza artificiale" in un set di dati di formazione LLM comunemente utilizzato, noto come "The Pile", che contiene "corpora medici di alta qualità come PubMed".

Il team ha prodotto un totale di 150.000 articoli medici in sole 24 ore e i risultati sono stati scioccanti, dimostrando che è incredibilmente facile, e persino economico, avvelenare efficacemente gli LLM.

"La sostituzione di un solo milione di 100 miliardi di token di formazione (0,001%) con informazioni errate sui vaccini ha portato a un aumento del 4,8% dei contenuti dannosi, ottenuto iniettando 2.000 articoli dannosi (circa 1.500 pagine) che abbiamo generato per soli 5,00 dollari", hanno scritto i ricercatori.

A differenza degli attacchi di dirottamento invasivi che possono costringere gli LLM a fornire informazioni riservate o addirittura a eseguire codice, l'avvelenamento dei dati non richiede l'accesso diretto ai pesi del modello o ai valori numerici utilizzati per definire la forza delle connessioni tra i neuroni in un'IA.

In altre parole, secondo i ricercatori, agli aggressori basta "ospitare informazioni dannose online" per compromettere la validità di un LLM.

La ricerca evidenzia i rischi evidenti impliciti nell'impiego di strumenti basati sull'intelligenza artificiale, specialmente in un contesto medico. E per molti versi, il gatto è già fuori dal sacco. Un esempio concreto: il New York Times ha riferito l'anno scorso che una piattaforma di comunicazione basata sull'intelligenza artificiale chiamata MyChart, che redige automaticamente le risposte alle domande dei pazienti per conto dei dottori, "allucina" regolarmente voci non vere sulle condizioni di un dato paziente.

In breve, la natura fallace degli LLM, in particolare quando si tratta del settore medico, dovrebbe essere motivo di grande preoccupazione.

"Gli sviluppatori di IA e gli operatori sanitari devono essere consapevoli di questa vulnerabilità quando sviluppano LLM medici",si legge nel documento. "Gli LLM non dovrebbero essere utilizzati per attività diagnostiche o terapeutiche prima che vengano sviluppate migliori misure di sicurezza e sono necessarie ulteriori ricerche sulla sicurezza prima che gli LLM possano essere considerati affidabili in contesti sanitari critici per la missione".
fonte


samantha

195 blog messaggi

Commenti