Gemini Omni
সব নিবন্ধে ফিরে
8 মিনিট পঠনযোগ্য

২০২৬ সালে Gemini Omni-কে কীভাবে প্রম্পট করবেন: মাল্টিমোডাল এআই ভিডিও প্রম্পটের জন্য একটি ব্যবহারিক গাইড

গুগলের লিক হওয়া Gemini Omni মডেলের জন্য ২০২৬ প্রম্পট ফ্রেমওয়ার্ক। ব্যক্তিত্ব, কাজ, বিন্যাস, প্রেক্ষাপট — সাথে ক্যামেরা, অডিও এবং রেফারেন্স সম্পদ — সবই একটি একক ব্রিফে।

Gemini Omniপ্রম্পট ইঞ্জিনিয়ারিংএআই ভিডিওসেরা অনুশীলন2026

ওমনি-কে প্রম্পট করা কেন আলাদা

২০২৪-২০২৫ সালে লেখা বেশিরভাগ এআই ভিডিও প্রম্পট বিশেষায়িত, স্বল্প-প্রেক্ষাপট ভিডিও মডেলগুলির জন্য ডিজাইন করা হয়েছিল। আপনি একটি বাক্য লিখেছিলেন, একটি শৈলী প্রিসেট বেছে নিয়েছিলেন এবং জেনারেটে ক্লিক করেছিলেন। জেমিনি ওমনি — গুগলের সমন্বিত মাল্টিমোডাল মডেল — এর সাথে প্রম্পট অনেক বেশি কাজ করছে। একই একক প্রম্পট একটি দীর্ঘ প্রেক্ষাপট উইন্ডোর ভিতরে টেক্সট, ইমেজ, ভিডিও এবং সিঙ্ক করা অডিওকে নির্দেশ করছে।

এটি প্রম্পটটিকে “দৃশ্যটি বর্ণনা করুন” থেকে “সম্পূর্ণ প্রদানযোগ্য পণ্যটি বর্ণনা করুন”-এ স্থানান্তরিত করে। এই গাইডটি ওমনি আসার পর এর থেকে সর্বাধিক সুবিধা পাওয়ার জন্য একটি ব্যবহারিক রূপরেখা, যা গুগলের অফিসিয়াল প্রম্পটিং গাইডলাইন এবং লিক হওয়া ওমনি প্রিভিউ কার্ড থেকে নেওয়া হয়েছে।

চার-ভাগের রূপরেখা: ব্যক্তিত্ব (Persona) · কাজ · বিন্যাস · প্রেক্ষাপট

জেমিনি পরিবারের জন্য গুগলের ব্যাপক প্রম্পটিং গাইডবুক চারটি বিল্ডিং ব্লকের সুপারিশ করে:

  1. ব্যক্তিত্ব (Persona) — আপনি মডেল থেকে যে দক্ষতা অর্জন করতে চান (“একজন সিনেমাটোগ্রাফার হিসাবে কাজ করুন”, “একজন ব্র্যান্ড ডিজাইনার হিসাবে”, “একজন তথ্যচিত্র সম্পাদক হিসাবে”)।
  2. কাজ (Task) — আপনি কী তৈরি করতে চান (“নতুন হেডফোনের ১০-সেকেন্ডের হিরো শট”, “৯:১৬ পণ্য উন্মোচন”)।
  3. বিন্যাস (Format) — কাঠামোগত সীমাবদ্ধতা (“১৬:৯, ১০৮0পি, ধীর ট্র্যাকিং শট, গোল্ডেন-আওয়ার লাইটিং”)।
  4. প্রেক্ষাপট (Context) — ব্র্যান্ড, দর্শক এবং রেফারেন্স উপাদান যা থেকে মডেলের তথ্য নেওয়া উচিত।

ওমনির জন্য, এটি সরাসরি একটি পরিষ্কার ব্রিফ কাঠামোতে ম্যাপ করে:

You are [PERSONA].
Generate [TASK].
Format: [aspect ratio, duration, resolution, camera language, lighting].
Context: [brand voice, audience, references, audio cues].

একটি বাস্তব উদাহরণ:

You are a luxury cinematographer in the vein of Wong Kar-wai. Generate a 10-second hero shot of a matte-black wireless headphone resting on a textured concrete plinth. Format: 16:9, 1080p, slow 35mm tracking shot from camera-left to camera-right, soft golden-hour back-lighting, shallow depth of field. Context: brand is minimalist Scandinavian premium audio. Audio: low atmospheric drone with a single subtle bell strike at 0:07 when the camera passes the brand mark. Reference image: see attached product photo for exact colour and stitching.

তিন সি নীতি: সংক্ষিপ্ত (Concise), স্পষ্ট (Clear), সুসংগত (Consistent)

গুগলের নিজস্ব প্রম্পট রেফারেন্স গাইড তিনটি নীতির ওপর জোর দেয় যা ওমনিতে স্পষ্টভাবে অনূদিত হয়:

  • সংক্ষিপ্ত (Concise)। দীর্ঘ হওয়া মানেই ভালো হওয়া নয়। অতিরিক্ত শব্দ বাদ দিন। প্রতি প্রম্পটে একটি প্রধান বিষয় এবং একটি প্রধান কাজ রাখুন।
  • স্পষ্ট (Clear)। “এটিকে আরও ভালো করুন” বা “আরও সিনেমাটিক”-এর মতো অস্পষ্ট বিবরণ এড়িয়ে চলুন। এগুলিকে সুনির্দিষ্ট নির্দেশাবলী দিয়ে প্রতিস্থাপন করুন: “ডেপথ অফ ফিল্ড বৃদ্ধি করুন”, “আরও উষ্ণ রঙের তাপমাত্রা”, “০.৫ গুণ গতিতে ধীর ক্যামেরা মুভমেন্ট।”
  • সুসংগত (Consistent)। পুনরাবৃত্তিতে একই ধারণার জন্য একই শব্দভাণ্ডার ব্যবহার করুন। আপনি যদি এটিকে একবার “ট্র্যাকিং শট” বলেন, তবে পরে “ডলি মুভ”-এ পরিবর্তন করবেন না — মডেল এগুলিকে আলাদা সংকেত হিসেবে বিবেচনা করে।

দীর্ঘ-প্রেক্ষাপট, স্তরযুক্ত (Layered) প্রম্পটে মনোযোগ দিন

স্বল্প-প্রেক্ষাপট ভিডিও মডেলগুলির বিপরীতে, ওমনি জেমিনির দীর্ঘ প্রেক্ষাপট উইন্ডো উত্তরাধিকার সূত্রে পেয়েছে। এর অর্থ হল আপনি স্তরযুক্ত, বর্ণনামূলক প্রম্পট লিখতে পারেন — এবং আপনার লেখা উচিতও। একটি ফলপ্রসূ ব্রিফে নিম্নলিখিত বিষয়গুলি থাকা উচিত:

  • বিষয়: ফ্রেমে কে বা কী আছে, যার মধ্যে চরিত্র-লকিং রেফারেন্স অন্তর্ভুক্ত।
  • মুড: আবেগীয় টোন এবং গতি।
  • ক্যামেরা: ক্লিপের মধ্যে লেন্স, মুভমেন্ট এবং ফ্রেম পরিবর্তন।
  • আলো: উৎস, দিক, রঙের তাপমাত্রা, বৈপরীত্য (contrast)।
  • সংলাপ: যেকোনো কথ্য লাইন, প্রাসঙ্গিক হলে নির্ভুল লিপ-সিঙ্ক টাইমিং সহ।
  • শব্দ ডিজাইন: পারিপার্শ্বিক শব্দ, সঙ্গীত শৈলী, সময় কোড সহ প্রধান শব্দ সংকেত।
  • ব্র্যান্ড বা শৈলীগত প্রেক্ষাপট: বিদ্যমান কাজ বা ভিজ্যুয়াল ভাষার রেফারেন্স।

আপনি মূলত একটি বাক্য নয়, বরং একটি পৃষ্ঠার রূপরেখা লিখছেন। ওমনির দীর্ঘ প্রেক্ষাপট উইন্ডো এই কাজের জন্যই তৈরি।

রেফারেন্স সম্পদ (Reference Assets) ব্যাপকভাবে ব্যবহার করুন

লিক হওয়া ওমনি বৈশিষ্ট্য তালিকা রেফারেন্স ইনপুটগুলিকে স্পষ্টভাবে হাইলাইট করে: ইমেজ, ভিডিও ক্লিপ এবং অডিও ট্র্যাক সব একটি নির্দেশনায় যুক্ত করা যেতে পারে। বাস্তব ব্যবহার:

  • চরিত্র লক (Character lock): নায়কের একটি রেফারেন্স ছবি সংযুক্ত করুন যাতে তারা একাধিক ওমনি-ক্লিপে সামঞ্জস্যপূর্ণ থাকে।
  • শৈলী লক (Style lock): রঙের শ্রেণী এবং কাঠামোকে স্থিতিশীল করতে কাজের একটি বিদ্যমান অংশ থেকে একটি ফ্রেম সংযুক্ত করুন।
  • গতি লক (Motion lock): ক্যামেরার গতি বা চরিত্রের কাজের অনুকরণ করতে একটি ছোট রেফারেন্স ভিডিও সংযুক্ত করুন।
  • বীট লক (Beat lock): একটি সঙ্গীত ট্র্যাক সংযুক্ত করুন এবং ওমনি-কে বীট অনুযায়ী ভিজ্যুয়ালগুলি কাটতে বলুন (বিশেষ করে রিল এবং মিউজিক ভিডিওর জন্য দরকারী)।

রেফারেন্স সম্পদ একা টেক্সটের তুলনায় প্রতি বাইটে অনেক বেশি সংকেত বহন করে। তিনটি রেফারেন্স ছবি সহ একটি ৩০ শব্দের প্রম্পট প্রায় সবসময়ই রেফারেন্স ছাড়া ৩০০ শব্দের প্রম্পটের চেয়ে ভালো পারফর্ম করবে।

পুনরায় তৈরি করার পরিবর্তে চ্যাটে সম্পাদনা করুন

ওমনি দ্বারা প্রবর্তিত সবচেয়ে বড় ওয়ার্কফ্লো পরিবর্তনের আলোচনা হল সরাসরি চ্যাটে সম্পাদনা। যখন একটি উপাদান ভুল হয় তখন পুরো ক্লিপটি আবার তৈরি করার পরিবর্তে, আপনি জিজ্ঞাসা করতে পারেন:

“Swap the watch on the model’s wrist for a brushed silver chronograph. Keep all other framing, lighting and audio exactly the same.”

“Slow the camera move by 30 % and warm the colour temperature by 200 K.”

“Remove the bell strike at 0:07 and add a soft ambient swell from 0:08 to 0:10 instead.”

এটি দেখায় কীভাবে ন্যানো বানানা ২০২৫ সালে ছবি সম্পাদনার অভিজ্ঞতাকে নতুন করে সংজ্ঞায়িত করেছিল। প্রম্পট ক্রাফটের জন্য এর প্রভাব তাৎপর্যপূর্ণ: আপনার প্রথম প্রম্পটটি নিখুঁত হওয়ার আর প্রয়োজন নেই। একটি শক্তিশালী ভিত্তি তৈরি করুন, তারপর সেটিকে পরিচালনা করুন। এই প্যাটার্নটি ক্রমাগত পুনরায় তৈরি করার তুলনায় কম্পিউটিংয়ের ক্ষেত্রেও সস্তা।

অনুলিপি করার জন্য পাঁচটি ওমনি-নির্দিষ্ট প্রম্পট প্যাটার্ন

শুরু করার জন্য প্যাটার্নের একটি প্যাক যা মডেলের শক্তির সাথে ভালোভাবে মেলে:

1. পণ্য হিরো

Generate a [duration] [aspect-ratio] hero shot of [product], [lighting], [camera move]. Audio: [ambient bed] with [signature sound] at [timecode]. Reference: [attach product photo].

2. অন-মাইক সংলাপ সহ রিল / শর্ট

9:16, [duration]. Subject delivers the line “[short copy]” directly to camera in a [setting]. Lip-sync precise. Background ambient: [environment sound]. Match the rhythm of [reference audio].

3. মিউজিক ভিডিও কাট

Generate [duration] of [subject] performing [action] to the attached music track. Cut visuals on the beat. Maintain character consistency across the clip. Lighting follows the track’s energy curve.

4. সিনেমাটিক সংক্ষিপ্ত বিল্ডিং ব্লক

10-second omni-clip: [subject] [action] in [environment]. Continuous [lighting setup]. Hold the audio bed across the cut so this clip can be chained with the previous one (attached).

5. সংলাপ ভিত্তিক সম্পাদনা

Take the previous generation and [specific change]. Keep [list of preserved elements] unchanged. Confirm the change took effect on [specific frame or timecode].

প্রথম দিন কী পরীক্ষা করবেন

যখন আপনি অবশেষে ওমনি ব্যবহার করা শুরু করবেন, তখন চারটি পরীক্ষা আপনাকে যা জানা প্রয়োজন তা বলবে:

  1. স্ক্রিনে টেক্সট রেন্ডারিং — ব্ল্যাকবোর্ড বা সাইনবোর্ডে লেখা কি পুরো ক্লিপে পড়ার যোগ্য থাকে?
  2. কথ্য সংলাপে লিপ সিঙ্ক — মডেলটি কি একটি একক জেনারেশনে মুখের আকারগুলি সঠিকভাবে ধরতে পারে?
  3. মাল্টি-ক্লিপ ধারাবাহিকতা — দুটি ১০-সেকেন্ডের ওমনি-ক্লিপ যুক্ত করুন এবং পরীক্ষা করুন যে চরিত্র, আলো এবং অডিও পরিবেশ আসলেই বজায় থাকে কি না।
  4. রেফারেন্স বিশ্বস্ততা (Reference fidelity) — একটি রেফারেন্স ছবি কি চরিত্রের পরিচয় লক করে, নাকি কেবল এটি সাজেস্ট করে?

ওমনি যদি সেই চারটির মধ্যে তিনটি সম্পন্ন করতে পারে, তবে আপনার প্রম্পট লাইব্রেরি হঠাৎ করে আপনার টুল স্ট্যাকের চেয়ে বেশি মূল্যবান হয়ে উঠবে। সেই অনুযায়ী পরিকল্পনা করুন।