Gemini Omni
هم‌اکنون فعال · جایگزین Veo در اپ Gemini

Gemini Omni
بگو. ببین. به اشتراک بگذار.

در صحنه اصلی Google I/O 2026 معرفی شد و Gemini Omni درک Gemini از جهان را با تولید چندوجهی بومی یکپارچه می‌کند — متن، تصویر، ویدیو و صدای همگام در یک معماری. اکنون درون اپ Gemini جایگزین Veo 3.1 شده و با image-to-video، ویرایش video-to-video و آواتار AI شخصی ارائه می‌شود.

مدل یکپارچه صدای همگام ویرایش در چت
Omni
Text
Image
Video
Audio

آمار سریع

۵–۱۰ ثانیه طول کلیپ
1080p بیشینه خروجی
16:9 · 9:16 · 1:1 نسبت‌های تصویر
I/O 2026 رونمایی موردانتظار
دموهای رسمی

ببینید Gemini Omni واقعاً چه چیزی بیرون می‌دهد

هر کلیپ زیر مستقیماً از صفحه محصول رسمی Gemini Omni در Google جاسازی شده است: text-to-video، image-to-video، انتقال سبک، ویرایش چت، video-to-video و آواتار AI — تمام سطح قابلیت‌ها.

تمام ویدیوهای دمو © Google هستند و در اینجا برای گردآوری اطلاعات استفاده می‌شوند؛ مستقیماً از storage.googleapis.com/gweb-gemini-cdn پخش می‌شوند.

بگو. ببین. به اشتراک بگذار.

ریل هیرو اصلی Gemini Omni: ساخت، ریمیکس و ویرایش ویدیو از طریق گفت‌وگو.

مشاهده صفحه رسمی
متن → ویدیو

وارد داستان شوید

یک پرامپت متنی، یک کلیپ چندشاتی با محیط و زبان دوربین منسجم تولید می‌کند.

تصویر → ویدیو

به عکس‌ها جان دهید

تصاویر مرجع را آپلود کنید و Omni حرکت را هدایت می‌کند و خط زمان را خودکار پر می‌کند.

سبک · الگو

جان شات را حفظ کنید

پس‌زمینه‌ها را عوض کنید، لباس را تغییر دهید یا سبک را منتقل کنید — سوژه شما جزئیات خود را حفظ می‌کند.

ویدیو → ویدیو

ریمیکس یک کلیپ موجود

فوتیج موجود را در سبک تازه‌ای بازقالب کنید — نور، لنز یا حتی متریال با پرامپت بازنویسی می‌شود.

ویرایش چت

ویرایش آسان

شخصیت‌ها را بازیابی کنید، نور را تنظیم کنید، شات‌ها را پایدار کنید — همه از طریق چت، بدون تولید مجدد.

آواتار AI

ستاره برنامه خودتان باشید

یک بار AI avatar را تنظیم کنید، سپس در هر ویدیوی آینده بدون آپلود مجدد عکس‌ها ظاهر شوید.

قابلیت‌ها

کل خط‌لوله در یک مدل خلاصه می‌شود

برخلاف مدل‌های ویدیویی تخصصی مانند Veo، Sora 2، Seedance 2.0 یا Kling، Gemini Omni استدلال زبانی، تولید تصویر، تولید ویدیو و سنتز صدا را زیر یک معماری حفظ می‌کند.

خروجی چندوجهی بومی

یک پرامپت واحد متن، keyframes و ویدیوی هماهنگ تولید می‌کند، با شخصیت‌ها، سبک و نورپردازی پیوسته در سراسر فرمت‌ها.

یک استک Gemini یکپارچه

دیگر زنجیر کردن مدل‌های تخصصی لازم نیست. متن، تصویر، ویدیو و صدا وزن‌ها و کانتکست بلند یکسانی را به اشتراک می‌گذارند.

صدای بومی همگام

صداهای محیطی، موسیقی و دیالوگ در همان forward pass با تصویر همراستا می‌شوند — قدم‌ها روی ضرب می‌نشینند و لب‌ها از همان اولین خروجی با گفتار همخوان‌اند.

ویرایش مستقیم در چت

یک شیء را عوض کنید، نورپردازی را تغییر دهید یا حرکت دوربین را با زبان طبیعی تنظیم کنید — بدون تولید مجدد کامل، در ادامه‌ی روش Nano Banana.

ریمیکس و هدایت

یک کلیپ موجود را آپلود کنید و آن را با پرامپت‌ها هدایت کنید. تصاویر، ویدیوها و صداهای مرجع را می‌توانید در یک دستور ادغام کنید.

الگوها و سبک‌ها

الگوهای داخلی برای تبلیغات محصول، Reels، موزیک ویدیو و فیلم‌های کوتاه سینمایی، سد ورود را برای مبتدیان پایین می‌آورد و زبان دوربین را پیوسته نگه می‌دارد.

مشخصات

آنچه می‌توان پیش از کی‌نوت کنار هم گذاشت

اعداد زیر از نشت‌های Reddit/X و گزارش‌های TestingCatalog، Programming Insider و OfficeChai گردآوری شده‌اند.

بعد سیگنال شناخته‌شده
خانواده مدل Google Gemini — جانشین برند خط Veo
Model ID bard_eac_video_generation_omni / v3smm-lora-prod
طول کلیپ ۵ / ۸ / ۱۰ ثانیه برای هر تولید، قابل زنجیره در اپ
رزولوشن 480p / 720p / 1080p
نسبت‌های تصویر 16:9, 9:16, 1:1
صدا سنتزشده بومی، همگام در یک pass
ورودی‌ها مراجع متن / تصویر / ویدیو / صدا
دسترسی فعال درون اپ Gemini برای مشترکین Google AI Plus / Pro / Ultra با سن ۱۸+
سیگنال سهمیه گزارش‌ها می‌گویند دو تولید Omni حدود ۸۶٪ سهمیه روزانه AI Pro را می‌سوزاند
معماری

سه خط محصول در یک Omni جمع می‌شوند

استک تولیدی Google پیش از این تقسیم بود: Veo برای ویدیو، Nano Banana / Imagen برای تصویر و Gemini برای متن. Omni همه را در یک معماری می‌پیچد.

پیش از این

Veo 3.1

ویدیو + صدای بومی

Nano Banana / Imagen

تولید و ویرایش تصویر

Gemini 2.5 / 3.x

استدلال · کانتکست بلند

اکنون · Omni

Gemini Omni

متن · تصویر · ویدیو · صدا، یک مدل، یک پرامپت

Text Image Video Audio
موارد کاربرد

از یک بریف به محتوای قابل انتشار

یک مدل یکپارچه با کانتکست بلند و صدای همگام یعنی تیم می‌تواند یک بریف منسجم بنویسد و با یک کات نهایی بیرون بیاید.

01

تبلیغات محصول

هیروشات‌ها، رونمایی بسته‌بندی و کات‌های سبک زندگی با صدای محیطی قفل‌شده آماده عرضه‌اند.

02

Reels و Shorts

کلیپ‌های عمودی 9:16 با دیالوگ روی میکروفون و حرکت همگام با ضرب، طراحی‌شده برای متوقف‌کردن اسکرول.

03

موزیک ویدیو

یک ترک را به‌عنوان مرجع بدهید تا Omni تصاویر را روی ضرب ببُرد و شخصیت ثابتی در طول شات‌ها حفظ کند.

04

فیلم‌های کوتاه سینمایی

چند omni-clip ۱۰ ثانیه‌ای را به یک توالی چندشاتی با نورپردازی و بستر صوتی پیوسته زنجیر کنید.

05

هیرو لوپ صفحات لندینگ

کلیپ‌های اتمسفریک 16:9 لوپ‌شدنی برای سایت‌های SaaS، مد و DTC — برندبندی‌شده و سازگار با حالت بی‌صدا.

06

توضیح‌دهنده‌ها و آموزش‌ها

یک اسکریپت را به توالی روایت‌شده با دیالوگ همگام لب و صدای محیطی متناسب تبدیل کنید.

مقایسه

جایگاه Omni در استک ویدیوی ۲۰۲۶

گردآوری‌شده از Artificial Analysis، Looksy AI، Oimi AI و کی‌نوت‌های رسمی — برای جهت‌گیری، نه نمرات benchmark.

مدل سازنده معماری صدای بومی طول کلیپ
Gemini Omni Omni
Google Omni یکپارچه (ویدیو + تصویر + صدا) همگام در یک pass ۵ / ۸ / ۱۰ ثانیه
Veo 3.1
Google مدل ویدیویی تخصصی بله ~۸ ثانیه
Seedance 2.0
ByteDance ویدیوی چندوجهی تخصصی بله تا ۱۵ ثانیه / شات
Sora 2
OpenAI مدل ویدیویی تخصصی بله ~۲۰ ثانیه
Kling V3.0
Kuaishou مدل ویدیویی تخصصی محدود ~۱۰ ثانیه
خط زمانی

از نخستین نشت تا صحنه I/O 2026

بر اساس تاریخ گزارش عمومی مرتب شده، همچنان در حال تکامل.

  1. 2026 · 05 · 02

    نخستین رشتهٔ "Powered by Omni"

    کاربر X با شناسهٔ @Thomas16937378 عبارت "Start with an idea or try a template. Powered by Omni." را در تب ویدیوی Gemini یافت.

  2. 2026 · 05 · 11

    کارت پیش‌نمایش کامل در Gemini موبایل

    TestingCatalog و Chetaslua کارت "Meet our new video model"، Model ID کامل و سقف کلیپ ۱۰ ثانیه‌ای را آشکار کردند.

  3. 2026 · 05 · 12 – 18

    پخش دموها در فضای عمومی

    کلیپ «استاد در حال حل مثلثات روی تخته‌سیاه» انسجام متن و وفاداری فیزیکی را به نمایش گذاشت و موجی از مقایسه با Veo 3.1 برانگیخت.

  4. 2026 · 05 · 19

    راه‌اندازی رسمی در Google I/O 2026

    Google در صحنه اصلی I/O 2026 از Gemini Omni رونمایی کرد، صفحه محصول رسمی همراه با ویدیوهای دمو منتشر کرد و جایگزینی Veo 3.1 در اپ Gemini را آغاز نمود.

  5. 2026 · 05 · 19 به بعد

    انتشار تدریجی AI Avatar، video-to-video و ویرایش چندنوبتی

    نسخه راه‌اندازی با آواتار AI شخصی، ویرایش video-to-video و ویرایش چت‌محور چندنوبتی همراه است — محدودشده بر اساس جغرافیا و سطح اشتراک.

  6. هفته‌های آینده · ۲۰۲۶ · ۰۶+

    API برای توسعه‌دهنده و سازمان از طریق Gemini API و Vertex AI

    Google تأیید کرد که دسترسی API برای توسعه‌دهندگان و مشتریان سازمانی «طی هفته‌های آینده» در دسترس قرار می‌گیرد، بدون تاریخ قطعی. تحلیلگران قیمت را حدود ۰٫۱۰ تا ۰٫۳۰ دلار به ازای هر ثانیه ویدئو برآورد می‌کنند.

  7. در نقشه راه

    Gemini Omni Pro و خروجی‌های تصویر و صوت

    در ادامه انتظار می‌رود Omni Pro قدرتمندتری معرفی شود، همراه با ورودی‌های صوتی غنی‌تر فراتر از مراجع صوتی و حالت‌های خروجی برای تصویر و صدا — تا وعدهٔ «هر ورودی → هر خروجی» کامل شود.

پرسش‌های متداول

پرسش‌هایی که مردم بیشتر دربارهٔ Gemini Omni می‌پرسند

دقیقاً Gemini Omni چیست؟

مدل چندوجهی یکپارچه آینده Google که به‌صورت بومی متن، تصویر، ویدیو و صدای همگام را در یک معماری تولید می‌کند — عملاً Veo، Imagen و Gemini را با هم ادغام می‌کند.

چه زمانی عرضه می‌شود؟

عرضه شده است. Google در ۱۹ مه ۲۰۲۶ روی صحنه اصلی Google I/O 2026 از Gemini Omni رونمایی کرد و هم‌زمان صفحه محصول رسمی و ویدیوهای دمو را منتشر نمود.

ارتباطش با Veo 3.1 چیست؟

Gemini Omni جانشین Veo درون اپ Gemini است — Google صراحتاً می‌گوید Omni «جایگزین Veo در اپ Gemini خواهد شد». استک ویدیو اکنون در همان معماری متن و تصویر Gemini تا می‌خورد.

آیا واقعاً صدا تولید می‌کند؟

بله. صداهای محیطی، موسیقی و دیالوگ در همان pass با ویدیو تولید می‌شوند — همین کل دلیل نام "omni" است.

محدودیت کنونی طول کلیپ چیست؟

صفحه محصول رسمی کلیپ تا ۱۰ ثانیه، با صدای بومی، تا ۵ تصویر مرجع و ویرایش چندنوبتی را اعلام می‌کند.

قیمت‌گذاری چگونه است؟

Gemini Omni نیازمند پلن Google AI Plus، Pro یا Ultra است و باید ۱۸+ باشید. برخی ویژگی‌ها (آواتارها، ویرایش video-to-video) ممکن است در کشورهای خاصی محدود شوند.

AI avatar در Gemini Omni چیست؟

نسخه دیجیتالی اختیاری از شما که به Gemini اجازه می‌دهد ویدیوهایی بسازد که شبیه شما به نظر می‌رسند و صدای شما را دارند، بدون نیاز به آپلود تصاویر در هر نوبت — و فقط شما می‌توانید از آواتار خود استفاده کنید.

منابع

گزارش‌های اصلی و پیوندهای عمومی

همه چیز در این صفحه از منابع عمومی زیر گردآوری شده است. مطالعه متقاطع توصیه می‌شود.

blog.google منبع را بخوانید

Google Blog · معرفی Gemini Omni

پست رسمی اعلان با جزئیات راه‌اندازی Omni Flash، قابلیت‌ها، سطوح و برنامهٔ عرضه.

blog.google منبع را بخوانید

Google Blog · ۱۰۰ نکته از Google I/O 2026

جمع‌بندی کامل I/O 2026 شامل Gemini Omni، پلن جدید AI Ultra ۱۰۰ دلاری و سایر معرفی‌های پیرامون.

gemini.google منبع را بخوانید

Google · صفحه رسمی Gemini Omni

صفحه راه‌اندازی رسمی با ویدیوهای دمو، تور قابلیت‌ها، پلن‌های پشتیبانی‌شده و جزئیات استقرار.

datacamp.com منبع را بخوانید

DataCamp · تحلیل عمیق Google I/O 2026

خلاصه تحلیل‌گر مستقل دربارهٔ اینکه Omni چگونه استک Veo + Imagen را در یک مدل ادغام می‌کند و چه چیزی اکنون در دسترس است نسبت به آینده.

programminginsider.com منبع را بخوانید

گزارش TestingCatalog · Programming Insider

جزئیات نشت، رشته‌های UI و تحلیل دموهای اولیه.

officechai.com منبع را بخوانید

OfficeChai · Gemini Omni Spotted

Model ID کامل، پرامپت‌های درون‌اپ و واکنش‌های جامعه.

looksyai.in منبع را بخوانید

Looksy AI · صفحه محصول Gemini Omni

خلاصه‌ای تمیز از مشخصات، موارد کاربرد و مقایسه‌ها.

storage.googleapis.com منبع را بخوانید

گزارش فنی Gemini 2.5

چندوجهی در سطح خانواده، کانتکست بلند و مسیر agentic.