Consenso in #crisi: il rapido declino dei dati comuni dell'intelligenza artificiale
Le aziende di #intelligenza #artificiale solitamente costruiscono i loro modelli di intelligenza artificiale su molti #contenuti disponibili al pubblico, dai #video di YouTube agli articoli di #giornale. Ma molti di questi #host di contenuti hanno ora iniziato a imporre #restrizioni sui loro contenuti.
Secondo un nuovo #studio della Data Provenance Initiative del Massachusetts Institute of Technology, queste nuove restrizioni potrebbero provocare una "crisi" che renderebbe questi modelli di intelligenza artificiale meno efficaci.
I ricercatori hanno eseguito un audit di 14.000 siti Web che vengono analizzati da importanti set di #dati di #addestramento AI. Il risultato intrigante: circa il 28 percento "delle fonti critiche e più attivamente mantenute" su Internet sono ora "completamente vietate all'uso".
Gli amministratori di questi siti web hanno introdotto queste restrizioni aggiungendo limiti sempre più rigidi al modo in cui i bot dei web crawler possono estrarre i loro contenuti. "Se rispettate o applicate, queste restrizioni stanno rapidamente alterando le #leggi sulla diversità, la freschezza e la scalabilità dei sistemi di intelligenza artificiale di uso generale", scrivono i ricercatori.
È comprensibile che gli host di contenuti impongano delle restrizioni alla loro cache di dati, ormai preziosi. Le aziende di intelligenza artificiale hanno preso questo #materiale disponibile al #pubblico, in gran parte protetto da #copyright, e lo stanno usando per fare soldi senza permesso. Ciò ha comprensibilmente sconvolto molti, dal New York Times a celebrità come Sarah Silverman.
Ciò che è particolarmente irritante è che persone come Mira Murati, CTO di OpenAI, affermano che alcuni lavori creativi dovrebbero scomparire — anche se sono i contenuti realizzati da queste persone creative a dare vita a modelli come #chatgpt di #openai.
L'arroganza mostrata e la conseguente reazione hanno creato un "consenso in crisi", come lo chiamano i ricercatori dello studio, il che significa che #internet, un tempo libera e senza barriere, sta diventando un ricordo del passato e i modelli di intelligenza artificiale saranno più parziali, meno diversificati e meno innovativi.
Alcune aziende sperano ora di aggirare queste limitazioni utilizzando dati sintetici, che sono essenzialmente dati generati dall'intelligenza artificiale, ma finora si sono rivelati un sostituto scadente dei contenuti originali prodotti da veri esseri umani.
Altri, come OpenAI, hanno stretto accordi con aziende del settore dei media, ma molti hanno espresso preoccupazione per questi accordi, per una buona ragione, perché gli obiettivi delle aziende tecnologiche e dei media sono in contrasto.
Solo il tempo ci dirà come andrà a finire. Una cosa è certa, però: le riserve di dati di training stanno diventando più preziose (e scarse) che mai.
https://futurism.com/the-byte/....ai-companies-losing-