Gemini Omni
Disponibile · Sostituisce Veo nell’app Gemini

Gemini Omni
Dillo. Guardalo. Condividilo.

Annunciato sul palco principale di Google I/O 2026, Gemini Omni unisce la comprensione del mondo di Gemini con la generazione multimodale nativa — testo, immagine, video e audio sincronizzato in un’unica architettura. Sostituisce Veo 3.1 nell’app Gemini e arriva con image-to-video, editing video-to-video e un avatar AI personale.

Modello unificato Audio sincronizzato Editing in chat
Omni
Text
Image
Video
Audio

Statistiche rapide

5–10 s Durata clip
1080p Output max
16:9 · 9:16 · 1:1 Proporzioni
I/O 2026 Lancio
Demo ufficiali

Vedi cosa produce davvero Gemini Omni

Ogni clip qui sotto è incorporata direttamente dalla pagina prodotto ufficiale di Gemini Omni: text-to-video, image-to-video, style transfer, editing in chat, video-to-video e AI avatar — l’intera superficie funzionale.

Tutti i video demo sono © Google, usati qui per aggregazione informativa; trasmessi direttamente da storage.googleapis.com/gweb-gemini-cdn.

Speak it. See it. Share it.

Il main hero reel di Gemini Omni: crea, remixa e modifica video parlando.

Vai alla pagina ufficiale
Testo → video

Entra nella storia

Un solo prompt testuale produce un clip multi-shot con ambiente e linguaggio di camera coerenti.

Immagine → video

Fai vivere le foto

Carica immagini di riferimento e Omni guida il movimento, riempiendo automaticamente la timeline.

Stile · template

Mantieni l’anima dell’inquadratura

Cambia sfondo, abito o trasferisci lo stile — il soggetto conserva i suoi dettagli.

Video → video

Remixa una clip esistente

Reinterpreta un materiale già esistente in un nuovo stile — luce, lente o anche materiale riscritti dal prompt.

Editing in chat

Editing semplice

Riassegna personaggi, aggiusta l’illuminazione, stabilizza le inquadrature — solo chattando, senza rigenerare.

AI avatar

Sii la star del tuo show

Imposta una volta l’AI avatar e poi apparire in ogni video futuro senza ricaricare foto.

Capacità

L’intera pipeline collassa in un solo modello

A differenza di modelli video specializzati come Veo, Sora 2, Seedance 2.0 o Kling, Gemini Omni mantiene ragionamento linguistico, generazione di immagini, generazione video e sintesi audio nella stessa architettura.

Output multimodale nativo

Un solo prompt produce testo coerente, keyframe e video con personaggi, stile e illuminazione costanti tra i formati.

Stack Gemini unificato

Niente più catene di modelli specializzati. Testo, immagine, video e audio condividono gli stessi pesi e lo stesso contesto lungo.

Audio nativo sincronizzato

Audio ambientale, colonna sonora e dialoghi vengono allineati all’immagine nello stesso forward pass — i passi cadono sul beat e le labbra combaciano con il parlato al primo export.

Editing diretto in chat

Sostituisci un oggetto, cambia l’illuminazione, regola un movimento di camera in linguaggio naturale — senza rigenerare tutto, sulla scia di Nano Banana.

Remix e direzione

Carica una clip esistente e reindirizzala con un prompt. Immagini, video e audio di riferimento possono essere combinati in un’unica istruzione.

Template e stili

Template integrati per spot di prodotto, Reels, music video e short cinematografici abbassano la barriera d’ingresso mantenendo coerente il linguaggio della camera.

Specifiche

Cosa si può ricostruire prima del keynote

I numeri qui sotto sono aggregati da leak Reddit/X e da articoli di TestingCatalog, Programming Insider e OfficeChai.

Dimensione Segnale noto
Famiglia del modello Google Gemini — brand successore della linea Veo
ID modello bard_eac_video_generation_omni / v3smm-lora-prod
Durata clip 5 / 8 / 10 secondi per generazione, concatenabili in app
Risoluzione 480p / 720p / 1080p
Proporzioni 16:9, 9:16, 1:1
Audio Sintetizzato nativamente, sincronizzato in un’unica pass
Input Riferimenti testuali / immagine / video / audio
Accesso Disponibile nell’app Gemini per abbonati 18+ Google AI Plus / Pro / Ultra
Segnale di quota Si segnala che due generazioni Omni bruciano ~86% della quota giornaliera AI Pro
Architettura

Tre linee di prodotto collassano in un unico Omni

Lo stack generativo di Google era diviso tra Veo per il video, Nano Banana / Imagen per l’immagine e Gemini per il testo. Omni riunisce tutto in un’unica architettura.

Prima

Veo 3.1

Video + audio nativo

Nano Banana / Imagen

Generazione e editing immagini

Gemini 2.5 / 3.x

Ragionamento · contesto lungo

Ora · Omni

Gemini Omni

Testo · immagine · video · audio, un modello, un prompt

Text Image Video Audio
Casi d’uso

Da un singolo brief a contenuti pronti per la pubblicazione

Un modello unificato con contesto lungo e audio sincronizzato consente ai team di scrivere un brief coerente e ottenere un montaggio finito.

01

Spot di prodotto

Hero shot, reveal packaging e lifestyle cut consegnati con audio ambientale già pronto.

02

Reels & Shorts

Clip verticali 9:16 con dialogo on-mic e movimento sincronizzato al beat, pensate per lo scroll social.

03

Music video

Carica una traccia e Omni taglia i visual sul beat mantenendo il personaggio costante.

04

Corti cinematografici

Concatena più omni-clip da 10 secondi in sequenze multi-shot con illuminazione e bed audio continui.

05

Hero loop per landing page

Clip atmosferiche 16:9 loopabili per SaaS, fashion e DTC — brandizzate e silent-friendly.

06

Explainer e tutorial

Trasforma uno script in una sequenza con voiceover lip-sync e audio ambientale coerente.

Confronto

Dove si colloca Omni nello stack video 2026

Aggregato da Artificial Analysis, Looksy AI, Oimi AI e dai keynote ufficiali — orientativo, non punteggi di benchmark.

Modello Produttore Architettura Audio nativo Durata clip
Gemini Omni Omni
Google Omni unificato (video + immagine + audio) Sincronizzato in un solo pass 5 / 8 / 10s
Veo 3.1
Google Modello video specializzato ~8s
Seedance 2.0
ByteDance Video multimodale specializzato fino a 15s / shot
Sora 2
OpenAI Modello video specializzato ~20s
Kling V3.0
Kuaishou Modello video specializzato Limitato ~10s
Timeline

Dal primo leak al palco di I/O 2026

In ordine di data di pubblicazione, ancora in evoluzione.

  1. 2026 · 05 · 02

    Prima stringa "Powered by Omni"

    L’utente X @Thomas16937378 individua "Start with an idea or try a template. Powered by Omni." nella scheda video di Gemini.

  2. 2026 · 05 · 11

    Card di anteprima completa nell’app Gemini mobile

    TestingCatalog e Chetaslua mostrano la card "Meet our new video model", l’ID modello completo e il limite di 10 secondi per clip.

  3. 2026 · 05 · 12 – 18

    Demo che girano in rete

    Un clip con un "professore che risolve trigonometria alla lavagna" evidenzia coerenza testuale e fedeltà fisica, accendendo il confronto con Veo 3.1.

  4. 2026 · 05 · 19

    Lancio ufficiale a Google I/O 2026

    Google presenta Gemini Omni sul palco principale di I/O 2026, pubblica una pagina prodotto ufficiale con video demo e inizia a sostituire Veo 3.1 nell’app Gemini.

  5. 2026 · 05 · 19 in poi

    Rollout di AI Avatar, video-to-video ed editing multi-turn

    Il lancio include avatar AI personale, editing video-to-video ed editing conversazionale multi-turn — limitati per geografia e tier di abbonamento.

  6. Prossime settimane · 2026 · 06+

    API per developer e aziende via Gemini API e Vertex AI

    Google ha confermato che l'accesso API per developer e clienti enterprise arriverà "nelle prossime settimane" senza data precisa. Gli analisti stimano un prezzo tra 0,10 e 0,30 $ al secondo di video generato.

  7. In roadmap

    Gemini Omni Pro + output di immagini e audio

    Subito dopo è atteso un Omni Pro più potente, insieme a input audio più ricchi oltre alle voice reference e modalità di output per immagine e audio, completando la promessa "qualsiasi input → qualsiasi output".

Domande frequenti

Le domande più frequenti su Gemini Omni

Cos’è esattamente Gemini Omni?

È il prossimo modello multimodale unificato di Google che genera nativamente testo, immagine, video e audio sincronizzato in un’unica architettura — di fatto fonde Veo, Imagen e Gemini.

Quando arriva?

È già arrivato. Google ha annunciato Gemini Omni sul palco principale di Google I/O 2026 il 19 maggio 2026, pubblicando contemporaneamente pagina prodotto ufficiale e video demo.

Come si relaziona con Veo 3.1?

Gemini Omni è il successore di Veo nell’app Gemini — Google afferma esplicitamente che "Omni sostituirà Veo nell’app Gemini". Lo stack video è ora inglobato nella stessa architettura di Gemini testo e immagine.

Genera davvero anche il suono?

Sì. Audio ambientale, colonna sonora e dialoghi sono prodotti nello stesso pass del video — è il motivo per cui si chiama "omni".

Qual è l’attuale limite di durata della clip?

La pagina prodotto ufficiale parla di clip fino a 10 secondi, con audio nativo, fino a 5 immagini di riferimento ed editing multi-turn.

Come funziona il pricing?

Gemini Omni richiede un piano Google AI Plus, Pro o Ultra e l’età 18+. Alcune funzioni (avatar, editing video-to-video) potrebbero essere limitate in certi paesi.

Cos’è l’AI avatar di Gemini Omni?

Una versione digitale opzionale di te stesso che permette a Gemini di generare video con il tuo aspetto e la tua voce senza ricaricare le foto ogni volta — e solo tu puoi usare il tuo avatar.