stella    è la sensazione Confuso
1 y

ChatGPT sta diventando più stupido?

Indipendentemente da ciò che affermano i suoi dirigenti, i ricercatori stanno ora dicendo che sì, il modello di #linguaggio di grandi dimensioni #gpt (LLM) di OpenAI sembrava diventare più #stupido.

In un nuovo #studio ancora da sottoporre a revisione paritaria, i ricercatori di Stanford e Berkeley hanno scoperto che in un periodo di pochi mesi, sia GPT-3.5 che GPT-4 hanno cambiato significativamente il loro "comportamento", con l'accuratezza delle loro risposte che sembrano diminuire, convalidando gli aneddoti degli utenti sull'apparente degrado delle ultime versioni del software nei mesi successivi al loro rilascio.

"GPT-4 (marzo 2023) è stato molto bravo nell'identificare i numeri primi (precisione del 97,6 percento)", hanno scritto i ricercatori nell'abstract del loro articolo, "ma GPT-4 (giugno 2023) è stato molto scarso su queste stesse domande (precisione del 2,4 percento). Sia GPT-4 che GPT-3.5 hanno avuto più #errori di formattazione nella generazione del #codice a giugno che a marzo".

#openai respinge tali affermazioni. La scorsa settimana, il vicepresidente del prodotto di OpenAI, Peter Welinder, ha dichiarato in un tweet: "Non abbiamo reso GPT-4 più stupido. Al contrario: rendiamo ogni nuova versione più intelligente della precedente". Ha suggerito un motivo alternativo. "Quando lo usi più pesantemente, inizi a notare problemi che non vedevi prima."

Tuttavia, la ricerca di Stanford e Berkeley è un punto dati convincente contro questa ipotesi. Sebbene i ricercatori non pongano ragioni sul #motivo per cui si stanno verificando queste "derive" verso il basso nell'accuratezza e nell'abilità, notano che questo peggioramento dimostrabile nel tempo sfida l'insistenza di OpenAI sul fatto che i suoi modelli stiano invece migliorando.

"I nostri risultati dimostrano che il comportamento di GPT-3.5 e GPT-4 è variato significativamente nel corso di a lasso di tempo relativamente breve. Ciò evidenzia la necessità di valutare e valutare continuamente il
comportamento degli #llm nelle #applicazioni di produzione.....Per gli utenti o le aziende che si affidano ai servizi LLM come componente del loro flusso di lavoro in corso, noi raccomandano loro di implementare un'analisi di #monitoraggio simile a quella che facciamo qui per le loro applicazioni", si legge in comunicato dei ricercatori.

https://futurism.com/the-byte/....stanford-chatgpt-get

image