ChatGPT ha una nuova modalità video

Oggi, OpenAI ha mostrato il suo ultimo modello di linguaggio di grandi dimensioni (LLM) chiamato GPT-4o – che è una “o” minuscola per “omni” – che l’azienda promette di poter “ragionare su audio, visione e testo in tempo reale."

Durante il suo breve annuncio, l'azienda ha dimostrato la straordinaria capacità dell'intelligenza artificiale di valutare ciò che "vede" attraverso la fotocamera dello smartphone dell'utente, consentendole di aiutare a risolvere problemi di matematica e persino di assistere nella codifica.

"GPT-4o è un passo avanti verso un'interazione uomo-computer molto più naturale: accetta come input qualsiasi combinazione di testo, audio e immagine e genera qualsiasi combinazione di output di testo, audio e immagine. Può rispondere agli input audio in soli 232 millisecondi, con una media di 320 millisecondi, che è simile al tempo di risposta umano(Si apre in una nuova finestra)in una conversazione", afferma il comunicato.

OpenAI sta rendendo il nuovo modello "disponibile a tutti gli utenti ChatGPT, incluso il piano gratuito" secondo il CEO di OpenAI Sam Altman. "Finora i modelli della classe GPT-4 erano disponibili solo per le persone che pagavano un abbonamento mensile." Il nuovo modello suona anche molto più naturale ed "emotivo", con una voce femminile realistica che sembra captare il tono e le emozioni dell'utente in tempo reale.

"Naturalmente, dovremmo prendere ciò che OpenAI ha mostrato oggi con le pinze", afferma Futurism. "Le demo tecnologiche sono demo tecnologiche e non sarebbe la prima volta che vediamo grandi aziende tecnologiche confondere la presentazione con dimostrazioni attentamente provate e opportunamente curate."

Alla fine del mese scorso, ad esempio, è arrivata la notizia che i creatori di un video di due minuti intitolato "Air Head" - presumibilmente generato con la nuova AI Sora di testo in video di OpenAI - avevano aumentato il filmato con tecniche cinematografiche più tradizionali.

In breve, resta da vedere quanto bene il nuovo ChatGPT sarà in grado di rispondere alle domande che coinvolgono un feed live della fotocamera dello smartphone nel mondo reale, che tende ad essere molto più complicato di un semplice problema di matematica scritto in un ambiente di studio perfettamente illuminato.

Inoltre, OpenAI probabilmente non è stata in grado di risolvere problemi molto più complicati, come il fatto che le sue IA " allucinano " fatti o perpetuano pregiudizi dannosi.

Tuttavia, sulla base di ciò che abbiamo visto oggi, si tratta comunque di un notevole passo avanti per la tecnologia che potrebbe renderla ancora più utile di quanto lo sia oggi.

ChatGPT ha una nuova modalità video

stella

Ospedali: Disobbedire ai tamponi PCR!

Robot dirige orchestra

Disaccoppiamento è il piano di Washington per inginocchiare l'economia cinese