Saída multimodal nativa
Um prompt único produz texto, keyframes e vídeo combinados, com personagens, estilo e iluminação consistentes entre formatos.
Aparecido em vários vazamentos no início de maio de 2026, o Gemini Omni é o próximo modelo multimodal unificado do Google: geração nativa de texto, imagem, vídeo e áudio sincronizado em um único sistema treinado em Gemini.
Diferente de modelos especializados como Veo, Sora 2, Seedance 2.0 ou Kling, o Gemini Omni mantém raciocínio de linguagem, geração de imagem, geração de vídeo e síntese de áudio em uma só arquitetura.
Um prompt único produz texto, keyframes e vídeo combinados, com personagens, estilo e iluminação consistentes entre formatos.
Sem precisar encadear modelos especializados. Texto, imagem, vídeo e áudio compartilham os mesmos pesos e contexto longo.
Som ambiente, trilha e diálogo são alinhados à imagem na mesma passada — passos no beat, lábios sincronizados na primeira exportação.
Troque um objeto, mude a iluminação, ajuste a câmera em linguagem natural — sem regerar, no estilo Nano Banana.
Suba um clipe e redirecione com prompts. Imagens, vídeos e áudios de referência combinam em uma única instrução.
Templates para anúncios, Reels, clipes musicais e curtas cinemáticos reduzem a barreira de entrada e mantêm linguagem de câmera consistente.
Os números abaixo agregam vazamentos no Reddit/X e reportagens da TestingCatalog, Programming Insider e OfficeChai.
| Dimensão | Sinais conhecidos |
|---|---|
| Família | Google Gemini — sucessor da marca Veo |
| ID do modelo | bard_eac_video_generation_omni / v3smm-lora-prod |
| Duração do clipe | 5 / 8 / 10 segundos por geração, encadeáveis no app |
| Resolução | 480p / 720p / 1080p |
| Formatos | 16:9, 9:16, 1:1 |
| Áudio | Sintetizado nativamente, sincronizado em uma passada |
| Entradas | Texto / imagem / vídeo / áudio de referência |
| Acesso | Staging no app Gemini, API esperada após o I/O |
| Cota | Reportes indicam que duas gerações Omni consomem ~86 % da cota diária do AI Pro |
A pilha generativa do Google se dividia em Veo (vídeo), Nano Banana / Imagen (imagem) e Gemini (texto). O Omni junta tudo em uma única arquitetura.
Antes
Veo 3.1
Vídeo + áudio nativo
Nano Banana / Imagen
Geração e edição de imagem
Gemini 2.5 / 3.x
Raciocínio · contexto longo
Agora · Omni
Gemini Omni
Texto · imagem · vídeo · áudio, um modelo, um prompt
Modelo unificado + contexto longo + áudio sincronizado: dá para escrever um brief coerente e sair com um corte pronto.
Hero shots, revelações de embalagem e cortes lifestyle com áudio ambiente já travado.
Clipes 9:16 com diálogo on-mic e movimento sincronizado ao beat — ideal para social.
Referencie uma faixa e o Omni corta no beat mantendo personagem consistente entre cenas.
Encadeie vários omni-clips de 10 s em sequências multi-shot com iluminação e leito sonoro contínuos.
Loops 16:9 atmosféricos para SaaS, moda e DTC — com branding e leitura em mudo.
Transforme um script em sequência narrada com diálogo lip-sync e som ambiente combinando.
Agregado de Artificial Analysis, Looksy AI, Oimi AI e keynotes oficiais — para orientação, não como benchmark.
| Modelo | Fabricante | Arquitetura | Áudio nativo | Duração |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni unificado (vídeo + imagem + áudio) | Sincronizado em uma passada | 5 / 8 / 10s | |
| Veo 3.1 | Modelo de vídeo especializado | Sim | ~8s | |
| Seedance 2.0 | ByteDance | Vídeo multimodal especializado | Sim | até 15s / shot |
| Sora 2 | OpenAI | Modelo de vídeo especializado | Sim | ~20s |
| Kling V3.0 | Kuaishou | Modelo de vídeo especializado | Limitado | ~10s |
Ordenado por data pública de reporte, em evolução.
O usuário do X @Thomas16937378 detectou "Start with an idea or try a template. Powered by Omni." na aba de vídeo do Gemini.
TestingCatalog e Chetaslua revelaram o card "Meet our new video model", o ID completo do modelo e o limite de 10 s.
Um clipe de "professor resolvendo trigonometria no quadro" mostrou coerência textual e fidelidade física, disparando comparações com o Veo 3.1.
Espera-se palco principal para o Omni, possivelmente com tier Flash / Pro, API e novos planos de assinatura.
É o próximo modelo multimodal unificado do Google, que gera nativamente texto, imagem, vídeo e áudio sincronizado em uma só arquitetura — efetivamente unindo Veo, Imagen e Gemini.
Em meados de maio de 2026 ainda está em fase de vazamento. O reveal esperado é o keynote do Google I/O 2026 (19–20 de maio).
Os metadados indicam que o Omni herda engenharia do stack Veo, mas abandona a marca Veo e funde vídeo às camadas de texto e imagem do Gemini.
Sim. Som ambiente, trilha e diálogo são produzidos na mesma passada do vídeo — é exatamente o porquê do nome "omni".
O ID vazado aponta para 5, 8 ou 10 segundos por geração, com encadeamento no cliente.
Não confirmado. Um screenshot do Reddit mostra duas gerações Omni queimando ~86 % da cota diária do AI Pro, então um tier "Ultra / Pro Plus" é plausível.
Todo o conteúdo é agregado das fontes públicas abaixo. Recomenda-se leitura cruzada.
Detalhes do vazamento, strings de UI e análise das primeiras demos.
Especulações sobre arquitetura e comparação com Seedance / Veo.
ID completo do modelo, prompts in-app e reações da comunidade.
Resumo organizado de specs, casos de uso e comparações.
Multimodalidade da família, contexto longo e direção agêntica.