Gemini Omni
Vazando · Google I/O 2026

Gemini Omni
Um modelo para texto, imagem, vídeo e áudio

Aparecido em vários vazamentos no início de maio de 2026, o Gemini Omni é o próximo modelo multimodal unificado do Google: geração nativa de texto, imagem, vídeo e áudio sincronizado em um único sistema treinado em Gemini.

Modelo unificado Áudio sincronizado Edição no chat
Omni
Text
Image
Video
Audio

Números-chave

5–10s Duração do clipe
1080p Resolução máxima
16:9 · 9:16 · 1:1 Formatos
I/O 2026 Lançamento previsto
Recursos

Toda a pipeline criativa em um único modelo

Diferente de modelos especializados como Veo, Sora 2, Seedance 2.0 ou Kling, o Gemini Omni mantém raciocínio de linguagem, geração de imagem, geração de vídeo e síntese de áudio em uma só arquitetura.

Saída multimodal nativa

Um prompt único produz texto, keyframes e vídeo combinados, com personagens, estilo e iluminação consistentes entre formatos.

Uma pilha Gemini unificada

Sem precisar encadear modelos especializados. Texto, imagem, vídeo e áudio compartilham os mesmos pesos e contexto longo.

Áudio nativo sincronizado

Som ambiente, trilha e diálogo são alinhados à imagem na mesma passada — passos no beat, lábios sincronizados na primeira exportação.

Edição direto no chat

Troque um objeto, mude a iluminação, ajuste a câmera em linguagem natural — sem regerar, no estilo Nano Banana.

Remix e direção

Suba um clipe e redirecione com prompts. Imagens, vídeos e áudios de referência combinam em uma única instrução.

Templates e estilos

Templates para anúncios, Reels, clipes musicais e curtas cinemáticos reduzem a barreira de entrada e mantêm linguagem de câmera consistente.

Especificações

O que dá para reconstruir antes do keynote

Os números abaixo agregam vazamentos no Reddit/X e reportagens da TestingCatalog, Programming Insider e OfficeChai.

Dimensão Sinais conhecidos
Família Google Gemini — sucessor da marca Veo
ID do modelo bard_eac_video_generation_omni / v3smm-lora-prod
Duração do clipe 5 / 8 / 10 segundos por geração, encadeáveis no app
Resolução 480p / 720p / 1080p
Formatos 16:9, 9:16, 1:1
Áudio Sintetizado nativamente, sincronizado em uma passada
Entradas Texto / imagem / vídeo / áudio de referência
Acesso Staging no app Gemini, API esperada após o I/O
Cota Reportes indicam que duas gerações Omni consomem ~86 % da cota diária do AI Pro
Arquitetura

Três linhas de produto viram um Omni

A pilha generativa do Google se dividia em Veo (vídeo), Nano Banana / Imagen (imagem) e Gemini (texto). O Omni junta tudo em uma única arquitetura.

Antes

Veo 3.1

Vídeo + áudio nativo

Nano Banana / Imagen

Geração e edição de imagem

Gemini 2.5 / 3.x

Raciocínio · contexto longo

Agora · Omni

Gemini Omni

Texto · imagem · vídeo · áudio, um modelo, um prompt

Text Image Video Audio
Casos de uso

De um brief a conteúdo publicável

Modelo unificado + contexto longo + áudio sincronizado: dá para escrever um brief coerente e sair com um corte pronto.

01

Anúncios de produto

Hero shots, revelações de embalagem e cortes lifestyle com áudio ambiente já travado.

02

Reels & Shorts

Clipes 9:16 com diálogo on-mic e movimento sincronizado ao beat — ideal para social.

03

Clipes musicais

Referencie uma faixa e o Omni corta no beat mantendo personagem consistente entre cenas.

04

Curtas cinemáticos

Encadeie vários omni-clips de 10 s em sequências multi-shot com iluminação e leito sonoro contínuos.

05

Hero loops de landing

Loops 16:9 atmosféricos para SaaS, moda e DTC — com branding e leitura em mudo.

06

Explicativos e tutoriais

Transforme um script em sequência narrada com diálogo lip-sync e som ambiente combinando.

Comparar

Onde o Omni se encaixa na stack de vídeo de 2026

Agregado de Artificial Analysis, Looksy AI, Oimi AI e keynotes oficiais — para orientação, não como benchmark.

Modelo Fabricante Arquitetura Áudio nativo Duração
Gemini Omni Omni
Google Omni unificado (vídeo + imagem + áudio) Sincronizado em uma passada 5 / 8 / 10s
Veo 3.1
Google Modelo de vídeo especializado Sim ~8s
Seedance 2.0
ByteDance Vídeo multimodal especializado Sim até 15s / shot
Sora 2
OpenAI Modelo de vídeo especializado Sim ~20s
Kling V3.0
Kuaishou Modelo de vídeo especializado Limitado ~10s
Linha do tempo

Do primeiro vazamento ao palco do I/O 2026

Ordenado por data pública de reporte, em evolução.

  1. 2026 · 05 · 02

    Primeira string "Powered by Omni"

    O usuário do X @Thomas16937378 detectou "Start with an idea or try a template. Powered by Omni." na aba de vídeo do Gemini.

  2. 2026 · 05 · 11

    Card de preview completo no Gemini mobile

    TestingCatalog e Chetaslua revelaram o card "Meet our new video model", o ID completo do modelo e o limite de 10 s.

  3. 2026 · 05 · 12 – 18

    As demos viralizam

    Um clipe de "professor resolvendo trigonometria no quadro" mostrou coerência textual e fidelidade física, disparando comparações com o Veo 3.1.

  4. 2026 · 05 · 19 – 20

    Anúncio esperado no Google I/O 2026

    Espera-se palco principal para o Omni, possivelmente com tier Flash / Pro, API e novos planos de assinatura.

FAQ

As dúvidas mais comuns sobre o Gemini Omni

O que é exatamente o Gemini Omni?

É o próximo modelo multimodal unificado do Google, que gera nativamente texto, imagem, vídeo e áudio sincronizado em uma só arquitetura — efetivamente unindo Veo, Imagen e Gemini.

Quando deve ser lançado?

Em meados de maio de 2026 ainda está em fase de vazamento. O reveal esperado é o keynote do Google I/O 2026 (19–20 de maio).

Como ele se relaciona ao Veo 3.1?

Os metadados indicam que o Omni herda engenharia do stack Veo, mas abandona a marca Veo e funde vídeo às camadas de texto e imagem do Gemini.

Ele realmente gera som?

Sim. Som ambiente, trilha e diálogo são produzidos na mesma passada do vídeo — é exatamente o porquê do nome "omni".

Qual o limite atual de duração do clipe?

O ID vazado aponta para 5, 8 ou 10 segundos por geração, com encadeamento no cliente.

Como será o preço?

Não confirmado. Um screenshot do Reddit mostra duas gerações Omni queimando ~86 % da cota diária do AI Pro, então um tier "Ultra / Pro Plus" é plausível.