Sortie multimodale native
Un seul prompt produit texte, keyframes et vidéo cohérents — mêmes personnages, même style, même lumière entre formats.
Apparu début mai 2026 via plusieurs fuites, Gemini Omni est le prochain modèle multimodal unifié de Google : génération native de texte, image, vidéo et audio synchronisé dans un système Gemini unique.
Contrairement aux modèles vidéo spécialisés tels que Veo, Sora 2, Seedance 2.0 ou Kling, Gemini Omni place raisonnement langage, génération d’image, génération vidéo et synthèse audio dans une seule architecture.
Un seul prompt produit texte, keyframes et vidéo cohérents — mêmes personnages, même style, même lumière entre formats.
Plus besoin de chaîner des modèles spécialisés. Texte, image, vidéo et audio partagent les mêmes poids et le même contexte long.
Ambiance, musique et dialogue s’alignent à l’image dans la même passe — les pas tombent sur le beat, les lèvres collent à la parole dès l’export.
Échangez un objet, modifiez la lumière, ajustez un mouvement caméra en langage naturel — pas de régénération, fidèle au playbook Nano Banana.
Importez un clip existant et redirigez-le par prompt. Images, vidéos et audios de référence se combinent dans une seule instruction.
Templates intégrés pour pubs produit, Reels, clips musicaux et courts cinématographiques — barrière d’entrée basse, langage caméra cohérent.
Chiffres agrégés depuis les fuites Reddit/X et les reportages de TestingCatalog, Programming Insider et OfficeChai.
| Dimension | Information connue |
|---|---|
| Famille | Google Gemini — succession de la marque Veo |
| ID du modèle | bard_eac_video_generation_omni / v3smm-lora-prod |
| Durée du clip | 5 / 8 / 10 s par génération, chaînables en app |
| Résolution | 480p / 720p / 1080p |
| Formats | 16:9, 9:16, 1:1 |
| Audio | Synthétisé nativement, sync en une passe |
| Entrées | Texte / image / vidéo / audio de référence |
| Accès | Déploiement dans l’app Gemini, API attendue post I/O |
| Quota | Selon les rapports, 2 générations consomment ~86 % du quota quotidien AI Pro |
La pile générative de Google était scindée entre Veo (vidéo), Nano Banana / Imagen (image) et Gemini (texte). Omni regroupe tout en une seule architecture.
Avant
Veo 3.1
Vidéo + audio natif
Nano Banana / Imagen
Génération et édition d’image
Gemini 2.5 / 3.x
Raisonnement · long contexte
Maintenant · Omni
Gemini Omni
Texte · image · vidéo · audio, un modèle, un prompt
Modèle unifié + contexte long + audio synchronisé : un brief cohérent suffit pour livrer un montage final.
Hero shots, dévoilements packaging et coupes lifestyle avec ambiance déjà calée.
Verticaux 9:16 avec dialogue on-mic et mouvement calé sur le beat — fait pour stopper le scroll.
Référencez une piste, Omni coupe les images sur le beat et garde un personnage cohérent sur plusieurs plans.
Enchaînez plusieurs omni-clips de 10 s en séquences multi-plans avec lumière et lit audio continus.
Boucles 16:9 atmosphériques pour SaaS, mode et DTC — brandées et lisibles en muet.
Transformez un script en séquence narrée avec dialogue lip-sync et ambiance sonore assortie.
Agrégé depuis Artificial Analysis, Looksy AI, Oimi AI et keynotes officielles — pour orientation, pas un benchmark.
| Modèle | Éditeur | Architecture | Audio natif | Durée |
|---|---|---|---|---|
| Gemini Omni
Omni
| Omni unifié (vidéo + image + audio) | Sync en une passe | 5 / 8 / 10s | |
| Veo 3.1 | Modèle vidéo spécialisé | Oui | ~8s | |
| Seedance 2.0 | ByteDance | Vidéo multimodale spécialisée | Oui | jusqu’à 15s / plan |
| Sora 2 | OpenAI | Modèle vidéo spécialisé | Oui | ~20s |
| Kling V3.0 | Kuaishou | Modèle vidéo spécialisé | Limité | ~10s |
Trié par date de publication, en évolution.
L’utilisateur X @Thomas16937378 repère « Start with an idea or try a template. Powered by Omni. » dans l’onglet vidéo Gemini.
TestingCatalog et Chetaslua dévoilent la carte « Meet our new video model », l’ID complet et la limite de 10 secondes.
Un clip « professeur résolvant une équation au tableau » montre cohérence textuelle et fidélité physique, lançant les comparaisons avec Veo 3.1.
Un créneau de keynote est largement attendu pour Omni, possiblement avec un découpage Flash / Pro, une API et de nouveaux abonnements.
C’est le prochain modèle multimodal unifié de Google qui génère nativement texte, image, vidéo et audio synchronisé dans une seule architecture — fusion effective de Veo, Imagen et Gemini.
À la mi-mai 2026, Omni est encore en phase de fuite. Le reveal attendu est la keynote Google I/O 2026 (19–20 mai).
Les métadonnées suggèrent qu’Omni hérite techniquement de la stack Veo, mais abandonne la marque Veo pour fondre la vidéo dans les couches texte/image de Gemini.
Oui. Ambiance, musique et dialogue sont produits dans la même passe que la vidéo — c’est tout l’intérêt du nom « omni ».
L’ID modèle fuité indique 5, 8 ou 10 secondes par génération, avec enchaînement côté client.
Non confirmé. Une capture Reddit montre que 2 générations Omni consomment ~86 % du quota AI Pro quotidien, un palier « Ultra / Pro Plus » est plausible.
Tout le contenu provient des sources publiques ci-dessous. Lectures croisées recommandées.
Détails de la fuite, chaînes UI et analyses de démos.
Spéculations sur l’architecture et comparatifs Seedance / Veo.
ID complet, prompts in-app et réactions communautaires.
Specs, cas d’usage et comparatifs synthétisés.
Multimodalité famille, long contexte et orientation agentique.