Gemini Omni
En fuite · Google I/O 2026

Gemini Omni
Un seul modèle pour texte, image, vidéo et audio

Apparu début mai 2026 via plusieurs fuites, Gemini Omni est le prochain modèle multimodal unifié de Google : génération native de texte, image, vidéo et audio synchronisé dans un système Gemini unique.

Modèle unifié Audio sync. Édition in-chat
Omni
Text
Image
Video
Audio

Chiffres clés

5–10s Durée du clip
1080p Résolution max
16:9 · 9:16 · 1:1 Formats
I/O 2026 Annonce prévue
Capacités

Toute la chaîne créative dans un même modèle

Contrairement aux modèles vidéo spécialisés tels que Veo, Sora 2, Seedance 2.0 ou Kling, Gemini Omni place raisonnement langage, génération d’image, génération vidéo et synthèse audio dans une seule architecture.

Sortie multimodale native

Un seul prompt produit texte, keyframes et vidéo cohérents — mêmes personnages, même style, même lumière entre formats.

Une pile Gemini unifiée

Plus besoin de chaîner des modèles spécialisés. Texte, image, vidéo et audio partagent les mêmes poids et le même contexte long.

Audio natif synchronisé

Ambiance, musique et dialogue s’alignent à l’image dans la même passe — les pas tombent sur le beat, les lèvres collent à la parole dès l’export.

Édition directe en chat

Échangez un objet, modifiez la lumière, ajustez un mouvement caméra en langage naturel — pas de régénération, fidèle au playbook Nano Banana.

Remix et pilotage

Importez un clip existant et redirigez-le par prompt. Images, vidéos et audios de référence se combinent dans une seule instruction.

Templates et styles

Templates intégrés pour pubs produit, Reels, clips musicaux et courts cinématographiques — barrière d’entrée basse, langage caméra cohérent.

Spécifications

Ce qu’on peut reconstituer avant la keynote

Chiffres agrégés depuis les fuites Reddit/X et les reportages de TestingCatalog, Programming Insider et OfficeChai.

Dimension Information connue
Famille Google Gemini — succession de la marque Veo
ID du modèle bard_eac_video_generation_omni / v3smm-lora-prod
Durée du clip 5 / 8 / 10 s par génération, chaînables en app
Résolution 480p / 720p / 1080p
Formats 16:9, 9:16, 1:1
Audio Synthétisé nativement, sync en une passe
Entrées Texte / image / vidéo / audio de référence
Accès Déploiement dans l’app Gemini, API attendue post I/O
Quota Selon les rapports, 2 générations consomment ~86 % du quota quotidien AI Pro
Architecture

Trois lignes produit fusionnées en un Omni

La pile générative de Google était scindée entre Veo (vidéo), Nano Banana / Imagen (image) et Gemini (texte). Omni regroupe tout en une seule architecture.

Avant

Veo 3.1

Vidéo + audio natif

Nano Banana / Imagen

Génération et édition d’image

Gemini 2.5 / 3.x

Raisonnement · long contexte

Maintenant · Omni

Gemini Omni

Texte · image · vidéo · audio, un modèle, un prompt

Text Image Video Audio
Cas d’usage

D’un brief à un contenu publiable

Modèle unifié + contexte long + audio synchronisé : un brief cohérent suffit pour livrer un montage final.

01

Pubs produit

Hero shots, dévoilements packaging et coupes lifestyle avec ambiance déjà calée.

02

Reels & Shorts

Verticaux 9:16 avec dialogue on-mic et mouvement calé sur le beat — fait pour stopper le scroll.

03

Clips musicaux

Référencez une piste, Omni coupe les images sur le beat et garde un personnage cohérent sur plusieurs plans.

04

Courts cinématographiques

Enchaînez plusieurs omni-clips de 10 s en séquences multi-plans avec lumière et lit audio continus.

05

Hero loops de landing

Boucles 16:9 atmosphériques pour SaaS, mode et DTC — brandées et lisibles en muet.

06

Explications et tutos

Transformez un script en séquence narrée avec dialogue lip-sync et ambiance sonore assortie.

Comparer

Où Omni se situe dans la stack vidéo 2026

Agrégé depuis Artificial Analysis, Looksy AI, Oimi AI et keynotes officielles — pour orientation, pas un benchmark.

Modèle Éditeur Architecture Audio natif Durée
Gemini Omni Omni
Google Omni unifié (vidéo + image + audio) Sync en une passe 5 / 8 / 10s
Veo 3.1
Google Modèle vidéo spécialisé Oui ~8s
Seedance 2.0
ByteDance Vidéo multimodale spécialisée Oui jusqu’à 15s / plan
Sora 2
OpenAI Modèle vidéo spécialisé Oui ~20s
Kling V3.0
Kuaishou Modèle vidéo spécialisé Limité ~10s
Chronologie

De la première fuite à la scène I/O 2026

Trié par date de publication, en évolution.

  1. 2026 · 05 · 02

    Première chaîne "Powered by Omni"

    L’utilisateur X @Thomas16937378 repère « Start with an idea or try a template. Powered by Omni. » dans l’onglet vidéo Gemini.

  2. 2026 · 05 · 11

    Carte preview complète dans Gemini mobile

    TestingCatalog et Chetaslua dévoilent la carte « Meet our new video model », l’ID complet et la limite de 10 secondes.

  3. 2026 · 05 · 12 – 18

    Les démos circulent

    Un clip « professeur résolvant une équation au tableau » montre cohérence textuelle et fidélité physique, lançant les comparaisons avec Veo 3.1.

  4. 2026 · 05 · 19 – 20

    Annonce attendue à Google I/O 2026

    Un créneau de keynote est largement attendu pour Omni, possiblement avec un découpage Flash / Pro, une API et de nouveaux abonnements.

FAQ

Les questions les plus fréquentes sur Gemini Omni

Qu’est-ce exactement que Gemini Omni ?

C’est le prochain modèle multimodal unifié de Google qui génère nativement texte, image, vidéo et audio synchronisé dans une seule architecture — fusion effective de Veo, Imagen et Gemini.

Quand sera-t-il lancé ?

À la mi-mai 2026, Omni est encore en phase de fuite. Le reveal attendu est la keynote Google I/O 2026 (19–20 mai).

Quel rapport avec Veo 3.1 ?

Les métadonnées suggèrent qu’Omni hérite techniquement de la stack Veo, mais abandonne la marque Veo pour fondre la vidéo dans les couches texte/image de Gemini.

Génère-t-il vraiment du son ?

Oui. Ambiance, musique et dialogue sont produits dans la même passe que la vidéo — c’est tout l’intérêt du nom « omni ».

Quelle est la durée maximale d’un clip ?

L’ID modèle fuité indique 5, 8 ou 10 secondes par génération, avec enchaînement côté client.

Comment se positionnera le tarif ?

Non confirmé. Une capture Reddit montre que 2 générations Omni consomment ~86 % du quota AI Pro quotidien, un palier « Ultra / Pro Plus » est plausible.