Output multimodale nativo
Un solo prompt produce testo coerente, keyframe e video con personaggi, stile e illuminazione costanti tra i formati.
Annunciato sul palco principale di Google I/O 2026, Gemini Omni unisce la comprensione del mondo di Gemini con la generazione multimodale nativa — testo, immagine, video e audio sincronizzato in un’unica architettura. Sostituisce Veo 3.1 nell’app Gemini e arriva con image-to-video, editing video-to-video e un avatar AI personale.
Ogni clip qui sotto è incorporata direttamente dalla pagina prodotto ufficiale di Gemini Omni: text-to-video, image-to-video, style transfer, editing in chat, video-to-video e AI avatar — l’intera superficie funzionale.
Tutti i video demo sono © Google, usati qui per aggregazione informativa; trasmessi direttamente da storage.googleapis.com/gweb-gemini-cdn.
Il main hero reel di Gemini Omni: crea, remixa e modifica video parlando.
Un solo prompt testuale produce un clip multi-shot con ambiente e linguaggio di camera coerenti.
Carica immagini di riferimento e Omni guida il movimento, riempiendo automaticamente la timeline.
Cambia sfondo, abito o trasferisci lo stile — il soggetto conserva i suoi dettagli.
Reinterpreta un materiale già esistente in un nuovo stile — luce, lente o anche materiale riscritti dal prompt.
Riassegna personaggi, aggiusta l’illuminazione, stabilizza le inquadrature — solo chattando, senza rigenerare.
Imposta una volta l’AI avatar e poi apparire in ogni video futuro senza ricaricare foto.
A differenza di modelli video specializzati come Veo, Sora 2, Seedance 2.0 o Kling, Gemini Omni mantiene ragionamento linguistico, generazione di immagini, generazione video e sintesi audio nella stessa architettura.
Un solo prompt produce testo coerente, keyframe e video con personaggi, stile e illuminazione costanti tra i formati.
Niente più catene di modelli specializzati. Testo, immagine, video e audio condividono gli stessi pesi e lo stesso contesto lungo.
Audio ambientale, colonna sonora e dialoghi vengono allineati all’immagine nello stesso forward pass — i passi cadono sul beat e le labbra combaciano con il parlato al primo export.
Sostituisci un oggetto, cambia l’illuminazione, regola un movimento di camera in linguaggio naturale — senza rigenerare tutto, sulla scia di Nano Banana.
Carica una clip esistente e reindirizzala con un prompt. Immagini, video e audio di riferimento possono essere combinati in un’unica istruzione.
Template integrati per spot di prodotto, Reels, music video e short cinematografici abbassano la barriera d’ingresso mantenendo coerente il linguaggio della camera.
I numeri qui sotto sono aggregati da leak Reddit/X e da articoli di TestingCatalog, Programming Insider e OfficeChai.
| Dimensione | Segnale noto |
|---|---|
| Famiglia del modello | Google Gemini — brand successore della linea Veo |
| ID modello | bard_eac_video_generation_omni / v3smm-lora-prod |
| Durata clip | 5 / 8 / 10 secondi per generazione, concatenabili in app |
| Risoluzione | 480p / 720p / 1080p |
| Proporzioni | 16:9, 9:16, 1:1 |
| Audio | Sintetizzato nativamente, sincronizzato in un’unica pass |
| Input | Riferimenti testuali / immagine / video / audio |
| Accesso | Disponibile nell’app Gemini per abbonati 18+ Google AI Plus / Pro / Ultra |
| Segnale di quota | Si segnala che due generazioni Omni bruciano ~86% della quota giornaliera AI Pro |
Lo stack generativo di Google era diviso tra Veo per il video, Nano Banana / Imagen per l’immagine e Gemini per il testo. Omni riunisce tutto in un’unica architettura.
Prima
Veo 3.1
Video + audio nativo
Nano Banana / Imagen
Generazione e editing immagini
Gemini 2.5 / 3.x
Ragionamento · contesto lungo
Ora · Omni
Gemini Omni
Testo · immagine · video · audio, un modello, un prompt
Un modello unificato con contesto lungo e audio sincronizzato consente ai team di scrivere un brief coerente e ottenere un montaggio finito.
Hero shot, reveal packaging e lifestyle cut consegnati con audio ambientale già pronto.
Clip verticali 9:16 con dialogo on-mic e movimento sincronizzato al beat, pensate per lo scroll social.
Carica una traccia e Omni taglia i visual sul beat mantenendo il personaggio costante.
Concatena più omni-clip da 10 secondi in sequenze multi-shot con illuminazione e bed audio continui.
Clip atmosferiche 16:9 loopabili per SaaS, fashion e DTC — brandizzate e silent-friendly.
Trasforma uno script in una sequenza con voiceover lip-sync e audio ambientale coerente.
Aggregato da Artificial Analysis, Looksy AI, Oimi AI e dai keynote ufficiali — orientativo, non punteggi di benchmark.
| Modello | Produttore | Architettura | Audio nativo | Durata clip |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni unificato (video + immagine + audio) | Sincronizzato in un solo pass | 5 / 8 / 10s | |
| Veo 3.1 | Modello video specializzato | Sì | ~8s | |
| Seedance 2.0 | ByteDance | Video multimodale specializzato | Sì | fino a 15s / shot |
| Sora 2 | OpenAI | Modello video specializzato | Sì | ~20s |
| Kling V3.0 | Kuaishou | Modello video specializzato | Limitato | ~10s |
In ordine di data di pubblicazione, ancora in evoluzione.
L’utente X @Thomas16937378 individua "Start with an idea or try a template. Powered by Omni." nella scheda video di Gemini.
TestingCatalog e Chetaslua mostrano la card "Meet our new video model", l’ID modello completo e il limite di 10 secondi per clip.
Un clip con un "professore che risolve trigonometria alla lavagna" evidenzia coerenza testuale e fedeltà fisica, accendendo il confronto con Veo 3.1.
Google presenta Gemini Omni sul palco principale di I/O 2026, pubblica una pagina prodotto ufficiale con video demo e inizia a sostituire Veo 3.1 nell’app Gemini.
Il lancio include avatar AI personale, editing video-to-video ed editing conversazionale multi-turn — limitati per geografia e tier di abbonamento.
Google ha confermato che l'accesso API per developer e clienti enterprise arriverà "nelle prossime settimane" senza data precisa. Gli analisti stimano un prezzo tra 0,10 e 0,30 $ al secondo di video generato.
Subito dopo è atteso un Omni Pro più potente, insieme a input audio più ricchi oltre alle voice reference e modalità di output per immagine e audio, completando la promessa "qualsiasi input → qualsiasi output".
È il prossimo modello multimodale unificato di Google che genera nativamente testo, immagine, video e audio sincronizzato in un’unica architettura — di fatto fonde Veo, Imagen e Gemini.
È già arrivato. Google ha annunciato Gemini Omni sul palco principale di Google I/O 2026 il 19 maggio 2026, pubblicando contemporaneamente pagina prodotto ufficiale e video demo.
Gemini Omni è il successore di Veo nell’app Gemini — Google afferma esplicitamente che "Omni sostituirà Veo nell’app Gemini". Lo stack video è ora inglobato nella stessa architettura di Gemini testo e immagine.
Sì. Audio ambientale, colonna sonora e dialoghi sono prodotti nello stesso pass del video — è il motivo per cui si chiama "omni".
La pagina prodotto ufficiale parla di clip fino a 10 secondi, con audio nativo, fino a 5 immagini di riferimento ed editing multi-turn.
Gemini Omni richiede un piano Google AI Plus, Pro o Ultra e l’età 18+. Alcune funzioni (avatar, editing video-to-video) potrebbero essere limitate in certi paesi.
Una versione digitale opzionale di te stesso che permette a Gemini di generare video con il tuo aspetto e la tua voce senza ricaricare le foto ogni volta — e solo tu puoi usare il tuo avatar.
Tutto ciò che si trova in questa pagina è aggregato dalle fonti pubbliche qui sotto. Consigliata la lettura incrociata.
Annuncio ufficiale con lancio di Omni Flash, capacità, superfici e piano di rollout.
Recap completo del I/O 2026 su Gemini Omni, il nuovo piano AI Ultra da 100$ e i lanci correlati.
Pagina di lancio ufficiale con video demo, tour delle funzioni, piani supportati e dettagli di rollout.
Panoramica di analisti indipendenti su come Omni unifica gli stack Veo + Imagen in un unico modello e su cosa è disponibile ora vs. dopo.
Dettagli dei leak, stringhe UI e prime analisi delle demo.
ID modello completo, prompt in-app e reazioni della community.
Riepilogo ordinato di specifiche, casi d’uso e confronti.
Multimodalità a livello di famiglia, contesto lungo e direzione agentica.