Gemini Omni
En fugas · Google I/O 2026

Gemini Omni
Un solo modelo para texto, imagen, vídeo y audio

Aparecido en múltiples filtraciones a principios de mayo de 2026, Gemini Omni es el próximo modelo multimodal unificado de Google: generación nativa de texto, imagen, vídeo y audio sincronizado dentro de un único sistema entrenado en Gemini.

Modelo unificado Audio sincronizado Edición en chat
Omni
Text
Image
Video
Audio

Cifras clave

5–10s Duración del clip
1080p Resolución máx.
16:9 · 9:16 · 1:1 Formatos
I/O 2026 Presentación prevista
Capacidades

Toda la cadena creativa en un solo modelo

A diferencia de modelos especializados como Veo, Sora 2, Seedance 2.0 o Kling, Gemini Omni mantiene razonamiento de lenguaje, generación de imagen, generación de vídeo y síntesis de audio bajo una sola arquitectura.

Salida multimodal nativa

Un único prompt produce texto, fotogramas clave y vídeo que coinciden, con personajes, estilo e iluminación coherentes entre formatos.

Una pila Gemini unificada

Se acabó encadenar modelos especializados. Texto, imagen, vídeo y audio comparten los mismos pesos y el mismo contexto extenso.

Audio nativo sincronizado

Sonido ambiente, banda sonora y diálogo se alinean con la imagen en la misma pasada — pasos en el beat, labios sincronizados desde la primera exportación.

Edición directa en el chat

Cambia un objeto, modifica la iluminación o ajusta un movimiento de cámara en lenguaje natural — sin regenerar, siguiendo el guion de Nano Banana.

Remezcla y dirige

Sube un clip existente y redirígelo con prompts. Imágenes, vídeos y audios de referencia se combinan en una sola instrucción.

Plantillas y estilos

Plantillas integradas para anuncios, Reels, videoclips y cortos cinematográficos reducen la barrera y mantienen un lenguaje de cámara coherente.

Especificaciones

Lo que se sabe antes del keynote

Las cifras se agregan de filtraciones en Reddit/X y reportes de TestingCatalog, Programming Insider y OfficeChai.

Dimensión Información conocida
Familia Google Gemini — sucesor de la línea Veo
ID del modelo bard_eac_video_generation_omni / v3smm-lora-prod
Duración del clip 5 / 8 / 10 segundos por generación, encadenable en la app
Resolución 480p / 720p / 1080p
Formatos 16:9, 9:16, 1:1
Audio Sintetizado de forma nativa, sincronizado en una sola pasada
Entradas Texto / imagen / vídeo / audio de referencia
Acceso Despliegue en la app Gemini, API esperada tras el I/O
Cuota Informes indican que dos generaciones consumen ~86 % de la cuota diaria de AI Pro
Arquitectura

Tres líneas de producto fusionadas en un Omni

La pila generativa de Google solía estar dividida en Veo (vídeo), Nano Banana / Imagen (imagen) y Gemini (texto). Omni las unifica en una sola arquitectura.

Antes

Veo 3.1

Vídeo + audio nativo

Nano Banana / Imagen

Generación y edición de imagen

Gemini 2.5 / 3.x

Razonamiento · contexto largo

Ahora · Omni

Gemini Omni

Texto · imagen · vídeo · audio, un modelo, un prompt

Text Image Video Audio
Casos de uso

De un brief a contenido publicable

Un modelo unificado con contexto largo y audio sincronizado permite escribir un brief coherente y obtener un corte final.

01

Anuncios de producto

Planos hero, revelaciones de packaging y cortes lifestyle con sonido ambiente ya bloqueado.

02

Reels y Shorts

Clips 9:16 con diálogo on-mic y movimiento sincronizado al ritmo, ideales para social.

03

Videoclips

Referencia una pista y Omni corta visuales al ritmo, con personajes consistentes entre planos.

04

Cortos cinematográficos

Encadena varios omni-clips de 10 s en secuencias multi-plano con iluminación y audio continuos.

05

Hero loops de landing

Clips 16:9 atmosféricos en bucle para SaaS, moda y DTC — branded y legibles en mute.

06

Explicativos y tutoriales

Convierte un guion en una secuencia narrada con diálogo sincronizado y sonido ambiente acorde.

Comparar

Dónde encaja Omni en el ecosistema de vídeo 2026

Agregado de Artificial Analysis, Looksy AI, Oimi AI y keynotes oficiales — orientativo, no benchmarks.

Modelo Fabricante Arquitectura Audio nativo Duración
Gemini Omni Omni
Google Omni unificado (vídeo + imagen + audio) Sincronizado en una pasada 5 / 8 / 10s
Veo 3.1
Google Modelo de vídeo especializado ~8s
Seedance 2.0
ByteDance Vídeo multimodal especializado hasta 15s / plano
Sora 2
OpenAI Modelo de vídeo especializado ~20s
Kling V3.0
Kuaishou Modelo de vídeo especializado Limitado ~10s
Cronología

De la primera filtración al escenario de I/O 2026

Ordenado por fecha de reporte público, en evolución.

  1. 2026 · 05 · 02

    Primer string "Powered by Omni"

    El usuario de X @Thomas16937378 detectó "Start with an idea or try a template. Powered by Omni." en la pestaña de vídeo de Gemini.

  2. 2026 · 05 · 11

    Tarjeta de preview en Gemini móvil

    TestingCatalog y Chetaslua revelaron la tarjeta "Meet our new video model", el ID completo y el límite de 10 segundos.

  3. 2026 · 05 · 12 – 18

    Las demos se viralizan

    Un clip de "profesor resolviendo trigonometría en una pizarra" mostró coherencia textual y fidelidad física, disparando comparativas con Veo 3.1.

  4. 2026 · 05 · 19 – 20

    Anuncio previsto en Google I/O 2026

    Se espera espacio en el keynote para Omni, posiblemente junto a niveles Flash / Pro, una API y nuevas suscripciones.

Preguntas frecuentes

Lo que más se pregunta sobre Gemini Omni

¿Qué es exactamente Gemini Omni?

Es el próximo modelo multimodal unificado de Google que genera de forma nativa texto, imagen, vídeo y audio sincronizado dentro de una sola arquitectura — efectivamente fusionando Veo, Imagen y Gemini.

¿Cuándo se lanzará?

A mediados de mayo de 2026 sigue en fase de filtración. El reveal esperado es el keynote de Google I/O 2026 (19–20 de mayo).

¿Cómo se relaciona con Veo 3.1?

Los metadatos indican que Omni hereda ingeniería del stack Veo, pero abandona la marca y funde el vídeo en las capas de texto e imagen de Gemini.

¿Genera sonido directamente?

Sí. Sonido ambiente, banda sonora y diálogo se producen en la misma pasada que el vídeo — esa es la razón del nombre "omni".

¿Cuál es el límite de duración?

El ID filtrado indica 5, 8 o 10 segundos por generación, encadenables a nivel cliente.

¿Cómo será el precio?

Sin confirmar. Una captura de Reddit muestra que dos generaciones gastan ~86 % de la cuota diaria de AI Pro, por lo que un nivel "Ultra / Pro Plus" es plausible.