Gemini Omni Flashの使い方：プロンプトガイド、事例と制限事項

Gemini Omni Flashは、Googleが開発した高速・高品質な動画生成・編集モデルです。従来の動画ツールのようにテキスト、画像、音声のプログラムを個別に行き来する必要がなく、Omni Flash動画モデルはこれらすべての入力を同時に理解できるよう設計されています。そのため、言葉、画像、音声を組み合わせ、キャラクターやオブジェクト、照明が自然に連動するリアルな動画を制作できます。

1. Gemini Omni Flashへのアクセス方法と使い方

動画の生成・編集を始めるには、Gemini Omni FlashのAI動画生成ツールをご利用ください。以下のシンプルなステップバイステップのワークフローに従ってください。

ワークスペースを開く： Omni Flashで生成パネルに直接アクセスします。
作成方法を選択する： シーンをどのように構築するか選択します。「画像」「テキスト」「動画」ファイルを入力として動画を生成できます。
動画生成モードを選択する： システムのデフォルトは「画像」モードです。ここから、以下の2つの具体的な生成動作を選択できます。
- マルチ画像合成動画（デフォルト）： 1枚以上の参照画像を組み合わせて、カスタムスタイル、テクスチャ、アーティスティックな視覚効果を生成します。
- 動画の最初のカットを設定： 最初にアップロードした画像を正確な開始フレームとして使用することで、クリップの視覚構造を固定します。
視覚的な参照をアップロードする： 選択したモードに応じて、1枚の開始画像をアップロードするか、複数の参照画像を追加してスタイルをガイドします。
シーンを説明する： テキストプロンプトを説明ボックスに入力し、最終出力の対象となる動き、アクション、詳細を指定します。
出力パラメータを設定する： 動画の長さを3～10秒から選択し、希望のアスペクト比（16:9ワイド画面または9:16縦画面）を選択します。

Gemini Omni Flash動画生成ツールのワークスペースインターフェース。参照画像のアップロード、縦画面・ワイド画面のアスペクト比の設定、カスタムテキストプロンプトの入力オプションが表示されています

✨ 今すぐOmni Flashを無料で試す！

クレジットカード不要・即時プレビュー

2. Gemini Omni Flashのプロンプティングガイド

Gemini Omni Flashで一貫した結果を得るには、モデルが空間、動き、時間を処理する方法に合わせた指示を書く必要があります。モデルが記述をどのように読み取るかを研究した経験に基づき、効果的なプロンプトを作成するためのシンプルな数式をまとめました。

シーンをワンショットに保つ

デフォルトでは、Gemini Omni Flashはナラティブなシーケンスを構築するためにマルチショットの映画的なカットを導入する傾向があります。カットなしで単一の被写体に留まるスムーズな動画が必要な場合は、説明の冒頭でこれを明確に指定する必要があります。

構成方法： [カメラの動きのスタイル] + [被写体] + [背景の詳細] + [除外用語]
プロンプト例：

「ひと続きの途切れない手持ちカメラショット。錆びたストーブの上のヴィンテージ銅製ケトルが沸騰し、日差しの差し込むカントリーキッチンに蒸気がゆっくりと立ち上る。カウンターの近くに木のスプーンが置かれている。サウンドデザイン：優しい泡立ち、蒸気の柔らかな口笛。台詞なし」

否定的な指示の書き方

この動画モデルは専用のネガティブプロンプトパラメータをサポートしていないため、除外事項はすべてメインの説明に直接含める必要があります。私たちのテストでは、単に直接的な指示を追加する方法が、不要な要素をフレームから除外するのに最も効果的でした。

構成方法： [シーンの説明] + [「[要素]なし」や「[要素]を含めない」などのフレーズ]
プロンプト例：

「夕暮れの霧の森の中で柔らかく輝く静かなキャンプファイヤー。ナレーションを含めない。画面上にテキストオーバーレイなし」

正確な編集を行う

逐次的な編集には、簡潔で外科的な指示が最も効果的です。長い説明はモデルを混乱させる可能性があるため、最も信頼できるアプローチは、何を変更するかを正確に指定し、残りの要素を保持することです。

構成方法： [変更または追加したい内容] + 「それ以外はすべて同じままにする」
プロンプト例（アイテム追加の場合）：

「車の下に光る紫色のネオンアンダーグローライトを追加。それ以外はすべて同じままにする」
プロンプト例（アイテム削除の場合）：

「赤いコーヒーマグを見えなくする。それ以外はすべて同じままにする」

イベントのタイミングを制御する

この動画モデルは、特定のアクションが発生するタイミングを柔軟に制御できます。厳格な構文は不要で、日常会話のような言い回しか、構造化されたタイムコード形式のいずれかを使用してタイミングを指示できます。この柔軟性は、シーン遷移の確立、ペース制御、またはテンポの速いシーケンスの構築に特に役立ちます。

オプションA: 自然言語による表現

モデルは時系列の説明を容易に解釈します。「3秒後」や「2秒ごと」などの直感的なフレーズを使って、いつ何が起こるかを指定するだけです。

プロンプト例：

暗いレンガ壁に寄りかかったアコースティックギターの連続ショット。3秒後、温かいスポットライトがゆっくりと楽器を照らし出す。6秒目に、小さな埃の粒が光の筋の中で踊り始める。

オプションB: 角括弧タイムコード構文

正確な区切りが必要なシーンでは、角括弧で囲んだ間隔を使用して動画を時系列で分割できます。

構成方法： [開始秒 - 終了秒] [このセグメントのアクション]
プロンプト例：

[0-4秒] マッチで点火される青いワックスキャンドルのクローズアップ。[4-7秒] 静かな部屋でキャンドルの炎が優しく揺れる。[7-10秒] キャンドルが吹き消され、暗闇の中に白い煙の細い筋が立ち上る。

アップロードした画像にタグを付ける

複数の写真を使用する場合、プロンプトに簡単な角括弧タグを追加することで、モデルに各画像の正確な処理方法を指示できます。これにより、異なるビジュアルスタイルが混ざるのを防げます。

<FIRST_FRAME>: この画像を正確な開始シーンとして使用します。
- 例: <FIRST_FRAME> ヴィンテージ蒸気船が荒れた海の波と戦う
<IMAGE_REF_N>: この画像（インデックス0から開始）をスタイルまたは被写体の参照として使用します。
- 例: <IMAGE_REF_0> のレトロアートスタイルでデザインされた未来的なスポーツカー <IMAGE_REF_1>

複雑なプロジェクトでは、複数の画像を異なる時間セグメントにマッピングできます。

[0-3秒] 探検家 <IMAGE_REF_0> が <IMAGE_REF_1> を持って古代の洞窟を探検するシーン。[3-6秒] ロボットの仲間 <IMAGE_REF_2> が <IMAGE_REF_3> を使って壁をスキャンするカット。

明示的な宣言

複数ファイルを最大限に制御するには、プロンプトの先頭でソースと参照を宣言し、最後に簡単な指示を追加します。

[# Sources <FIRST_FRAME>@Image1] [# References <IMAGE_REF_0>@Image2] エルフの戦士 <IMAGE_REF_0> が警備に立つ。Image1を開始フレームとして使用。Image2を鎧のデザイン参照として使用。

プロンプト例：

「森の中の夕暮れのキャンプファイヤーを囲む、ひと続きの途切れないシーン：<IMAGE_REF_0> は <IMAGE_REF_5> を着ており、<IMAGE_REF_2> は <IMAGE_REF_3> を着ており、<IMAGE_REF_4> は <IMAGE_REF_1> を着ている。炭火が夜空に舞い上がる中、彼らは幸せそうに微笑み合う。」

3. 実践例

ここでは、上記の数式を異なるプロジェクトに組み合わせるための2つの現実的な方法を紹介します。

例1：教育用解説動画

このプロンプトは、Gemini Omni Flashが内蔵する科学知識を活用して物理的プロセスを正確に表現しつつ、アニメーションスタイルを非常に詳細に保ちます。

アップロード画像： 生物細胞の簡単な手書きスケッチ（最初の画像として指定）。
プロンプト：

「[# Sources <FIRST_FRAME>@Image1] ミトコンドリアの内部機構を示す3Dクレイアニメーション解説。カメラは外膜に沿ってゆっくりと動き、周囲にエネルギー分子が浮遊する。リアルな学術シーンを作成するため、マイクロディテール、科学的正確さ、タイミングを考慮。Image1を開始レイアウトガイドとして使用。」

例2：映画的なタイミングとアクションシーケンス

このプロンプトは、正確な角括弧タイムコードを使用して、ひと続きのシーン内でアクションのビートを時系列で調整し、色のコントラストとタイミングを通じて強力な映画的雰囲気を確立します。

プロンプト：

「[0-3秒] 雪の街の歩道に立ち、前方を見つめる赤いコートの女性の連続手持ちショット。[3-6秒] 彼女はゆっくりと明るい黄色の傘を開き、柔らかな雪片が彼女の周りに舞い落ちる。」

✨ 今すぐ映画的なシーンを作成！

カスタムタイムラインで作成を始めましょう

当社のテスト観察： 100以上の動画レンダリングを用いた実地テストでは、キャラクターの顔の一貫性は最大3回連続の編集ターンまで安定していることがわかりました。4回目のターンでは、背景要素にわずかな視覚的なずれが発生する可能性があります。また、8文字未満の簡易なオンスクリーンテキストは、平坦な表面上で約90％の確率で鮮明にレンダリングされます。

4. 現在の制限事項とガードレール

Gemini Omni Flashは非常に高性能な動画モデルですが、プロジェクトを効果的に計画するために留意すべき物理的および地域的な制限がいくつかあります。

地域による違い

ヨーロッパ、英国、スイス： 現地のプライバシー規則により、これらの地域のユーザーは未成年者や認識可能な人物が写った写真をアップロードまたは編集できません。また、現実の動画をアップロードして編集することもこれらの国ではサポートされていませんが、世界中でAI生成動画の編集は可能です。

参照ファイルの制限

音声参照： 独自の音楽や音声ファイルをテンプレートとしてアップロードすることはまだできません。希望するサウンドはテキストで説明する必要があります。
動画参照： 動画クリップを参照としてアップロードする場合、3秒未満に抑えてください。それより長いクリップはモデルによって正しく処理されません。
一度に1つの動画： モデルは複数の入力動画を同時に読み取ったり比較したりできません。複数の参照動画を使用しようとすると、生成エラーが発生します。

サポートされていないタスク

動画の長さの延長： モデルは完成した動画を引き伸ばして長くすることはできず、別々の開始写真と終了写真をブレンドした動画を自動生成することもできません。
音声の編集： 動画内の話し言葉の台詞を編集または変更することはできません。
YouTubeリンク不可： 参照ファイルは直接アップロードする必要があります。モデルはYouTubeリンクから動画を読み込むことができません。

出力の詳細

動画の長さ： 高い詳細度と信頼性のある物理法則を維持するため、モデルは最大10秒のクリップ生成に最適化されています。
透かし： デジタル出所と検証のため、生成されたすべての動画にはSynthIDと呼ばれる不可視のデジタル透かしが含まれています。この透かしは動画の視覚品質には影響しませんが、プログラムがクリップをAI生成と識別できるようにします。

✨ 最初の動画を生成する

参照画像とテキストを現実に変えましょう