Salida multimodal nativa
Un único prompt produce texto, fotogramas clave y vídeo que coinciden, con personajes, estilo e iluminación coherentes entre formatos.
Aparecido en múltiples filtraciones a principios de mayo de 2026, Gemini Omni es el próximo modelo multimodal unificado de Google: generación nativa de texto, imagen, vídeo y audio sincronizado dentro de un único sistema entrenado en Gemini.
A diferencia de modelos especializados como Veo, Sora 2, Seedance 2.0 o Kling, Gemini Omni mantiene razonamiento de lenguaje, generación de imagen, generación de vídeo y síntesis de audio bajo una sola arquitectura.
Un único prompt produce texto, fotogramas clave y vídeo que coinciden, con personajes, estilo e iluminación coherentes entre formatos.
Se acabó encadenar modelos especializados. Texto, imagen, vídeo y audio comparten los mismos pesos y el mismo contexto extenso.
Sonido ambiente, banda sonora y diálogo se alinean con la imagen en la misma pasada — pasos en el beat, labios sincronizados desde la primera exportación.
Cambia un objeto, modifica la iluminación o ajusta un movimiento de cámara en lenguaje natural — sin regenerar, siguiendo el guion de Nano Banana.
Sube un clip existente y redirígelo con prompts. Imágenes, vídeos y audios de referencia se combinan en una sola instrucción.
Plantillas integradas para anuncios, Reels, videoclips y cortos cinematográficos reducen la barrera y mantienen un lenguaje de cámara coherente.
Las cifras se agregan de filtraciones en Reddit/X y reportes de TestingCatalog, Programming Insider y OfficeChai.
| Dimensión | Información conocida |
|---|---|
| Familia | Google Gemini — sucesor de la línea Veo |
| ID del modelo | bard_eac_video_generation_omni / v3smm-lora-prod |
| Duración del clip | 5 / 8 / 10 segundos por generación, encadenable en la app |
| Resolución | 480p / 720p / 1080p |
| Formatos | 16:9, 9:16, 1:1 |
| Audio | Sintetizado de forma nativa, sincronizado en una sola pasada |
| Entradas | Texto / imagen / vídeo / audio de referencia |
| Acceso | Despliegue en la app Gemini, API esperada tras el I/O |
| Cuota | Informes indican que dos generaciones consumen ~86 % de la cuota diaria de AI Pro |
La pila generativa de Google solía estar dividida en Veo (vídeo), Nano Banana / Imagen (imagen) y Gemini (texto). Omni las unifica en una sola arquitectura.
Antes
Veo 3.1
Vídeo + audio nativo
Nano Banana / Imagen
Generación y edición de imagen
Gemini 2.5 / 3.x
Razonamiento · contexto largo
Ahora · Omni
Gemini Omni
Texto · imagen · vídeo · audio, un modelo, un prompt
Un modelo unificado con contexto largo y audio sincronizado permite escribir un brief coherente y obtener un corte final.
Planos hero, revelaciones de packaging y cortes lifestyle con sonido ambiente ya bloqueado.
Clips 9:16 con diálogo on-mic y movimiento sincronizado al ritmo, ideales para social.
Referencia una pista y Omni corta visuales al ritmo, con personajes consistentes entre planos.
Encadena varios omni-clips de 10 s en secuencias multi-plano con iluminación y audio continuos.
Clips 16:9 atmosféricos en bucle para SaaS, moda y DTC — branded y legibles en mute.
Convierte un guion en una secuencia narrada con diálogo sincronizado y sonido ambiente acorde.
Agregado de Artificial Analysis, Looksy AI, Oimi AI y keynotes oficiales — orientativo, no benchmarks.
| Modelo | Fabricante | Arquitectura | Audio nativo | Duración |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni unificado (vídeo + imagen + audio) | Sincronizado en una pasada | 5 / 8 / 10s | |
| Veo 3.1 | Modelo de vídeo especializado | Sí | ~8s | |
| Seedance 2.0 | ByteDance | Vídeo multimodal especializado | Sí | hasta 15s / plano |
| Sora 2 | OpenAI | Modelo de vídeo especializado | Sí | ~20s |
| Kling V3.0 | Kuaishou | Modelo de vídeo especializado | Limitado | ~10s |
Ordenado por fecha de reporte público, en evolución.
El usuario de X @Thomas16937378 detectó "Start with an idea or try a template. Powered by Omni." en la pestaña de vídeo de Gemini.
TestingCatalog y Chetaslua revelaron la tarjeta "Meet our new video model", el ID completo y el límite de 10 segundos.
Un clip de "profesor resolviendo trigonometría en una pizarra" mostró coherencia textual y fidelidad física, disparando comparativas con Veo 3.1.
Se espera espacio en el keynote para Omni, posiblemente junto a niveles Flash / Pro, una API y nuevas suscripciones.
Es el próximo modelo multimodal unificado de Google que genera de forma nativa texto, imagen, vídeo y audio sincronizado dentro de una sola arquitectura — efectivamente fusionando Veo, Imagen y Gemini.
A mediados de mayo de 2026 sigue en fase de filtración. El reveal esperado es el keynote de Google I/O 2026 (19–20 de mayo).
Los metadatos indican que Omni hereda ingeniería del stack Veo, pero abandona la marca y funde el vídeo en las capas de texto e imagen de Gemini.
Sí. Sonido ambiente, banda sonora y diálogo se producen en la misma pasada que el vídeo — esa es la razón del nombre "omni".
El ID filtrado indica 5, 8 o 10 segundos por generación, encadenables a nivel cliente.
Sin confirmar. Una captura de Reddit muestra que dos generaciones gastan ~86 % de la cuota diaria de AI Pro, por lo que un nivel "Ultra / Pro Plus" es plausible.
Todo el contenido se agrega desde las fuentes públicas siguientes. Se recomienda cruzar lecturas.
Detalles de la filtración, strings de UI y análisis de demos.
Especulación sobre arquitectura y comparativa con Seedance / Veo.
ID completo del modelo, prompts in-app y reacciones de la comunidad.
Resumen ordenado de specs, casos de uso y comparativas.
Multimodalidad familiar, contexto largo y dirección agéntica.