Нативный мультимодальный вывод
Один промпт даёт согласованные текст, ключевые кадры и видео — персонажи, стиль и свет сохраняются во всех форматах.
Появившаяся в нескольких утечках в начале мая 2026 года, Gemini Omni — это будущая объединённая мультимодальная модель Google: нативная генерация текста, изображения, видео и синхронного звука в одной системе на базе Gemini.
В отличие от специализированных видеомоделей вроде Veo, Sora 2, Seedance 2.0 или Kling, Gemini Omni удерживает рассуждение, генерацию изображений, генерацию видео и синтез звука в одной архитектуре.
Один промпт даёт согласованные текст, ключевые кадры и видео — персонажи, стиль и свет сохраняются во всех форматах.
Больше не нужно соединять специализированные модели. Текст, изображение, видео и аудио делят те же веса и тот же длинный контекст.
Эмбиент, музыка и диалог выравниваются с картинкой в том же проходе — шаги попадают в бит, губы синхронизируются с речью с первого экспорта.
Замените объект, измените освещение, поправьте движение камеры на естественном языке — без повторной генерации, в духе Nano Banana.
Загрузите существующий клип и перенаправьте его промптами. Опорные изображения, видео и звуки сочетаются в одной инструкции.
Встроенные шаблоны для рекламы продукта, Reels, музыкальных клипов и кинематографичных короткометражек снижают порог входа и удерживают единый язык кадра.
Цифры ниже — это сводка утечек из Reddit/X и репортажей TestingCatalog, Programming Insider и OfficeChai.
| Параметр | Известная информация |
|---|---|
| Семейство | Google Gemini — бренд-наследник линейки Veo |
| ID модели | bard_eac_video_generation_omni / v3smm-lora-prod |
| Длина клипа | 5 / 8 / 10 секунд за генерацию, склеиваемых в приложении |
| Разрешение | 480p / 720p / 1080p |
| Соотношения сторон | 16:9, 9:16, 1:1 |
| Аудио | Нативно синтезируется, синхронизируется за один проход |
| Входы | Текст / изображение / видео / аудио-референсы |
| Доступ | Стейджинг в приложении Gemini, API ожидается после I/O |
| Квота | По сообщениям, две генерации Omni съедают ~86 % дневной квоты AI Pro |
Генеративный стек Google ранее делился на Veo (видео), Nano Banana / Imagen (изображения) и Gemini (текст). Omni объединяет их в единую архитектуру.
Раньше
Veo 3.1
Видео + нативное аудио
Nano Banana / Imagen
Генерация и редактирование изображений
Gemini 2.5 / 3.x
Рассуждение · длинный контекст
Сейчас · Omni
Gemini Omni
Текст · изображение · видео · аудио, одна модель, один промпт
Единая модель + длинный контекст + синхронный звук означают: можно написать связный бриф и сразу получить готовый монтаж.
Hero-кадры, раскрытие упаковки и lifestyle-сцены с уже встроенным эмбиентом.
Вертикальные клипы 9:16 с диалогом on-mic и движением в бит — для удержания внимания в ленте.
Дайте трек как референс — Omni режет видео в бит и сохраняет персонажа в нескольких кадрах.
Сцепите несколько 10-секундных omni-clip в мультикадровые сцены с непрерывным светом и звуковой подложкой.
Зацикливаемые 16:9 атмосферные ролики для SaaS, fashion и DTC — с брендингом и читаемостью без звука.
Превратите скрипт в нарратив с lip-sync диалогом и соответствующим эмбиентом.
Сводка по Artificial Analysis, Looksy AI, Oimi AI и официальным презентациям — для ориентира, а не бенчмарка.
| Модель | Разработчик | Архитектура | Нативное аудио | Длина клипа |
|---|---|---|---|---|
| Gemini Omni
Omni
| Единый Omni (видео + изображение + аудио) | Синхронизация за один проход | 5 / 8 / 10s | |
| Veo 3.1 | Специализированная видео-модель | Да | ~8s | |
| Seedance 2.0 | ByteDance | Специализированное мультимодальное видео | Да | до 15s / план |
| Sora 2 | OpenAI | Специализированная видео-модель | Да | ~20s |
| Kling V3.0 | Kuaishou | Специализированная видео-модель | Ограничено | ~10s |
Отсортировано по дате публичного репорта, обновляется.
Пользователь X @Thomas16937378 заметил строку "Start with an idea or try a template. Powered by Omni." во вкладке видео Gemini.
TestingCatalog и Chetaslua показали карточку "Meet our new video model", полный ID модели и ограничение в 10 секунд.
Клип "профессор решает тригонометрию на доске" продемонстрировал согласованность текста и физическую достоверность, разогнав сравнения с Veo 3.1.
На основной сцене широко ожидается Omni, возможно вместе с разделением Flash / Pro, API и новой структурой подписок.
Это будущая объединённая мультимодальная модель Google, которая нативно генерирует текст, изображения, видео и синхронный звук в одной архитектуре — фактически слияние Veo, Imagen и Gemini.
К середине мая 2026 Omni всё ещё в фазе утечек. Ожидаемая презентация — основной keynote Google I/O 2026 (19–20 мая).
Метаданные говорят, что Omni инженерно наследует стек Veo, но отказывается от бренда Veo и сворачивает видео в текстовые и графические слои Gemini.
Да. Эмбиент, музыка и диалог производятся в том же проходе, что и видео — именно ради этого название "omni".
Утёкший ID модели показывает 5, 8 или 10 секунд на генерацию, со склейкой на стороне клиента.
Не подтверждено. Скриншот с Reddit показывает, что две генерации Omni выжигают ~86 % дневной квоты AI Pro — вероятен новый тариф "Ultra / Pro Plus".
Весь контент собран из публичных источников ниже. Рекомендуется проверять перекрёстно.
Детали утечки, UI-строки и разбор ранних демо.
Гипотезы об архитектуре и сравнение с Seedance / Veo.
Полный ID модели, in-app промпты и реакции сообщества.
Краткая сводка спецификаций, кейсов и сравнений.
Мультимодальные возможности семейства, длинный контекст и агентное направление.