Google ammette che un video di Gemini è stato editato

Google stecca alla prima. Sotto accusa è il video che mostrava le capacità del modello di intelligenza artificiale Gemini mostrato durante la presentazione del nuovo modello di Big G.

A detta di molti esperti, infatti, sembrava troppo bello per essere vero, tanto che Bloomberg ha sollevato molti dubbi sulla sua veridicità, affermando che avrebbe potuto essere stato editato per essere più convincente.

La demo di Gemini, che ha totalzzato 1,6 milioni di visualizzazioni su YouTube, mostra un lungo batti e ribatti in cui l’intelligenza artificiale risponde in tempo reale a messaggi vocali e video. Un po’ troppo veloce, un po’ troppo pronte le risposte. Da qui i dubbi di Bloomberg e, ora, l’ammissione di Google.
Nel descrivere il video, Google ha affermato di aver accelerato le risposte per rendere la demo più realistica. Ma ha anche ammesso che l’intelligenza artificiale non rispondeva né alla voce né ai video.
In un post sul suo blog pubblicato contemporaneamente alla demo, Google ha rivelato come è stato effettivamente realizzato il video.

Big G ha confermato che l’operazione è stata effettuata stimolando l’intelligenza artificiale “utilizzando fotogrammi di immagini fisse prese dal filmato e inviando suggerimenti tramite testo”.

“Il nostro video dimostrativo di Gemini mostra suggerimenti e risultati reali di Gemini”, ha affermato un portavoce di Google. “L’abbiamo realizzato per mostrare la gamma delle capacità di Gemini e per ispirare gli sviluppatori.”

Nel video, una persona pone una serie di domande all’intelligenza artificiale di Google mentre mostra oggetti sullo schermo. Ad esempio, a un certo punto il dimostratore solleva una papera di gomma e chiede a Gemini se galleggerà.
Inizialmente, il sistema non sembra sicuro di quale materiale sia fatto, ma dopo che la persona lo schiaccia – provocando il classico fischio stridulo – l’intelligenza artificiale identifica correttamente l’oggetto.
Tuttavia, ciò che sembra accadere a prima vista nel video è molto diverso da ciò che è realmente accaduto per generare le istruzioni.

All’IA è stata effettivamente mostrata un’immagine fissa della paperella ed è stato chiesto di che materiale fosse fatta. Però, poi le è stato passato un messaggio di testo che spiegava che l’anatra emette un suono quando viene schiacciata, determinandone la corretta identificazione.

In un altro passaggio, la persona esegue il classico gioco delle tre carte con tazze e palline dicendo che l’IA sarà in grado di determinare dove si è spostata. Ma ancora una volta l’intelligenza artificiale non stava rispondendo a un video, ma a una serie di immagini fisse che rappresentvano le tazze che venivano mosse e scambiate.
Google ha chiarito che la demo è stata creata catturando riprese dal video, al fine di “testare le capacità di Gemini su una vasta gamma di sfide”.

Mentre le sequenze sono state accorciate e sono state utilizzate immagini fisse, la voce fuori campo del video è stata presa direttamente dalle istruzioni scritte inserite in Gemini.

Il gioco di Gemini

Ma c’è un altro elemento del video che distorce ulteriormente la verità.

A un certo punto, l’utente posiziona una mappa del mondo e chiede all’intelligenza artificiale: “In base a ciò che vedi, trova un’idea di gioco… e usa gli emoji”.
L’intelligenza artificiale risponde apparentemente inventando un gioco chiamato “indovina il Paese”, in cui fornisce indizi sulla tipicità della nazione (come un canguro e un koala) e verifica la correttezza della risposta del giocatore che indica il Paese (in questo caso, l’Australia). Ma in realtà, secondo il blog di Google, l’intelligenza artificiale non ha affatto inventato questo gioco.

Invece, all’IA sono state date le seguenti istruzioni: “Facciamo un gioco. Pensa a un Paese e dammi un indizio. L’indizio deve essere sufficientemente specifico da indicare un solo Paese corretto. Proverò a indicare il Paese su una mappa “, si legge nel messaggio.
L’utente ha quindi fornito all’IA esempi di risposte corretta e errata.

Dopo questo, Gemini è stato in grado di generare indizi e identificare se l’utente stesse indicando il Paese corretto o meno dalle immagini fisse di una mappa.

Resta un passaggio sorprendente, ma non equivale a sostenere che l’intelligenza artificiale abbia inventato il gioco.

Il modello AI di Google è senza dubbio interessante indipendentemente dall’uso di immagini fisse e istruzioni basate su testo, ma le modalità di lavoro sembrano dimostrare che le sue capacità sono molto simili a quelle del GPT-4 di OpenAI.

Al momento non è chiaro né forse possibile decretare quale dei due sistemi sia il più avanzato, ma Google starebbe già cercando di recuperare terreno, lavorando alla prossima versione della sua intelligenza artificiale.

0 Condivisioni