네이티브 멀티모달 출력
하나의 프롬프트로 텍스트·키프레임·영상이 동시에 생성되며 캐릭터, 스타일, 조명이 모든 포맷에서 일관되게 유지됩니다.
Veo / Sora 2 / Seedance 2.0 / Kling 같은 전용 영상 모델과 달리 Gemini Omni 는 언어 추론·이미지 생성·영상 생성·오디오 합성을 동일 아키텍처에 통합합니다.
하나의 프롬프트로 텍스트·키프레임·영상이 동시에 생성되며 캐릭터, 스타일, 조명이 모든 포맷에서 일관되게 유지됩니다.
여러 전용 모델을 체인으로 묶을 필요가 없습니다. 텍스트·이미지·영상·오디오가 같은 가중치와 긴 컨텍스트를 공유합니다.
환경음, 스코어, 대사가 영상과 같은 전진 패스에서 정렬됩니다. 발걸음은 박자에 맞고, 입 모양은 첫 출력부터 음성과 동기화됩니다.
자연어로 객체 교체, 조명 변경, 카메라 무빙 조정이 가능합니다. Nano Banana 의 편집 방식을 영상으로 확장한 형태입니다.
기존 클립을 업로드해 프롬프트로 재조정합니다. 참조 이미지·영상·오디오를 하나의 명령에 결합할 수 있습니다.
제품 광고, Reels, 뮤직비디오, 시네마틱 단편 등 내장 템플릿으로 진입 장벽을 낮추고 카메라 언어 일관성을 보장합니다.
아래 수치는 Reddit/X 유출과 TestingCatalog, Programming Insider, OfficeChai 등의 보도를 종합한 것입니다.
| 항목 | 알려진 정보 |
|---|---|
| 모델 패밀리 | Google Gemini — Veo 시리즈의 후속 브랜드 |
| 모델 ID | bard_eac_video_generation_omni / v3smm-lora-prod |
| 클립 길이 | 생성당 5 / 8 / 10 초, 앱에서 체이닝 가능 |
| 해상도 | 480p / 720p / 1080p |
| 화면비 | 16:9, 9:16, 1:1 |
| 오디오 | 네이티브 합성, 단일 패스에서 동기화 |
| 입력 | 텍스트 / 이미지 / 영상 / 오디오 참조 |
| 접근 | Gemini 앱 내 스테이징, API 는 I/O 이후 예정 |
| 쿼터 신호 | 보고에 따르면 Omni 2 회 생성 시 AI Pro 일일 쿼터의 약 86% 소모 |
과거 Google 의 생성 스택은 Veo(영상), Nano Banana / Imagen(이미지), Gemini(텍스트) 로 분리되어 있었습니다. Omni 는 이를 하나의 아키텍처로 통합합니다.
이전
Veo 3.1
영상 + 네이티브 오디오
Nano Banana / Imagen
이미지 생성과 편집
Gemini 2.5 / 3.x
추론 · 긴 컨텍스트
현재 · Omni
Gemini Omni
텍스트 · 이미지 · 영상 · 오디오, 하나의 모델 하나의 프롬프트
통합 모델 + 긴 컨텍스트 + 동기 오디오 덕분에 한 줄 브리프로 스토리보드부터 완성본까지 전 과정을 수행할 수 있습니다.
히어로 샷, 패키지 공개, 라이프스타일 컷을 환경음과 함께 즉시 납품.
9:16 세로 클립에 마이크온 대사와 비트 동기 모션, 스크롤을 멈추는 소셜 콘텐츠.
참조 트랙을 주면 Omni 가 비트에 맞춰 컷을 잘라주며 여러 샷에서 캐릭터 일관성을 유지.
10 초짜리 omni-clip 여러 개를 멀티숏 시퀀스로 연결, 조명·인물·음향 베드를 연속 유지.
SaaS / 패션 / DTC 사이트용 반복 가능한 16:9 분위기 클립, 브랜드 색과 무음 가독성 포함.
스크립트를 립싱크 내레이션 시퀀스로 변환하고 환경 사운드 디자인도 함께 맞춤.
Artificial Analysis, Looksy AI, Oimi AI, 공식 키노트 정보를 종합 — 벤치마크가 아닌 방향성 파악용.
| 모델 | 제공사 | 아키텍처 | 네이티브 오디오 | 클립 길이 |
|---|---|---|---|---|
| Gemini Omni
Omni
| 통합 Omni (영상 + 이미지 + 오디오) | 단일 패스 동기 | 5 / 8 / 10s | |
| Veo 3.1 | 전용 영상 모델 | 지원 | 약 8s | |
| Seedance 2.0 | ByteDance | 전용 멀티모달 영상 | 지원 | 최대 15s / 샷 |
| Sora 2 | OpenAI | 전용 영상 모델 | 지원 | 약 20s |
| Kling V3.0 | Kuaishou | 전용 영상 모델 | 제한적 | 약 10s |
공개 보도일 순, 계속 업데이트 중.
X 사용자 @Thomas16937378 가 Gemini 영상 탭에서 "Start with an idea or try a template. Powered by Omni." 문자열을 발견.
TestingCatalog 와 Chetaslua 가 "Meet our new video model" 카드, 전체 모델 ID, 10 초 클립 상한을 확인.
"칠판에서 삼각함수를 푸는 교수" 클립이 텍스트 일관성과 물리적 정확도를 보여주며 Veo 3.1 과의 비교가 활발해짐.
메인 스테이지에서 Omni 발표가 널리 예상되며 Flash / Pro 티어, API, 구독제 재편이 동반될 수 있음.
Google 이 곧 발표할 통합 멀티모달 모델로, 하나의 아키텍처 안에서 텍스트·이미지·영상·동기 오디오를 네이티브로 생성합니다. 사실상 Veo, Imagen, Gemini 의 통합입니다.
2026 년 5 월 중순 현재 여전히 유출 단계입니다. Google I/O 2026 (5 월 19–20 일) 메인 스테이지 공개가 널리 예상됩니다.
메타데이터상 Omni 는 엔지니어링 측면에서 Veo 스택을 계승하지만 Veo 브랜드를 버리고 영상 기능을 Gemini 의 텍스트 및 이미지 계층과 통합합니다.
네. 환경음, 스코어, 대사가 영상과 같은 패스에서 생성됩니다. 이것이 "omni" 라는 이름의 핵심 이유입니다.
유출된 모델 ID 는 1 회 생성당 5, 8, 10 초이며, 클라이언트 계층에서 다중 클립 체이닝이 가능합니다.
미확정. Reddit 스크린샷에 따르면 Omni 2 회 생성으로 AI Pro 일일 쿼터의 약 86% 가 소진되므로 더 높은 "Ultra / Pro Plus" 티어가 유력합니다.
이 페이지의 내용은 아래 공개 출처를 종합한 것입니다. 교차 확인을 권장합니다.
유출 세부 사항, UI 문자열, 초기 데모 분석.
아키텍처 가설과 Seedance / Veo 와의 비교.
전체 모델 ID, 앱 내 프롬프트, 커뮤니티 반응.
사양, 활용 사례, 비교 요약.
Gemini 패밀리의 멀티모달 능력, 긴 컨텍스트, 에이전트 방향.