如何使用 Gemini Omni Flash：提示词指南、示例与限制

Gemini Omni Flash 是谷歌开发的一款快速、高质量的视频生成与编辑模型。不同于传统视频工具需要你在独立的文本、图片和音频程序之间来回切换，这款 Omni Flash 视频模型能够同时理解所有这些输入信息。这使得你可以结合文字、图片和声音，创作出角色、物体和光线都自然协调运动的逼真视频。

1. 如何访问并使用 Gemini Omni Flash

要开始生成和编辑视频，你可以使用位于 Gemini Omni Flash 的 AI视频生成器。请遵循以下简单直接的分步工作流程：

打开工作区： 直接访问 Omni Flash 进入生成面板。
选择创作方式： 选择如何构建场景。你可以使用“图片”、“文本”或“视频”文件作为输入来生成视频。
选择视频生成模式： 系统默认处于“图片”模式。在此模式下，你可以选择两种具体的生成行为：
- 多图融合视频（默认）： 结合一张或多张参考图片，生成自定义风格、纹理和艺术视觉效果。
- 设定视频首帧： 锁定视频的视觉结构，确保你上传的第一张图片作为精确的起始画面。
上传视觉参考： 根据所选模式，上传单张起始图片或添加多张参考图片来指导风格。
描述场景： 在描述框中输入文本提示，指定目标运动、动作和最终输出的细节。
设置输出参数： 选择 3 到 10 秒的自定义视频时长，以及偏好的输出宽高比（16:9 宽屏或 9:16 竖屏）。

Gemini Omni Flash 视频生成器工作区界面，显示上传参考图片、配置竖屏或宽屏宽高比以及输入自定义文本提示的选项

✨ 立即免费试用 Omni Flash！

无需信用卡 · 即时预览

2. Gemini Omni Flash 提示词指南

要想从 Gemini Omni Flash 获得一致的结果，你的书面指令需要与模型处理空间、运动和时序的方式相匹配。基于我们研究模型如何解读描述的经验，我们整理了几条简单的公式来编写高效的提示词。

保持场景为单一镜头

默认情况下，Gemini Omni Flash 倾向于引入多镜头电影式剪辑来构建叙事序列。如果你想要一个没有剪辑、聚焦于单一主体的流畅视频，必须在描述开头明确说明这一点。

结构方式： [镜头运动风格] + [你的主体] + [背景细节] + [排除项术语]
提示示例：

“连续无间断的手持镜头，拍摄一个老式铜壶在乡村炉灶上烧水，蒸汽缓缓升入阳光洒满的小木屋厨房。附近台面上放着一把木勺。音效设计：轻微的咕嘟声，蒸汽的柔和哨音。无对白”。

编写否定指令

由于该视频模型不支持专门的负向提示参数，任何排除项必须直接写入主描述中。在我们的测试中，直接添加指令是保持画面中不出现不需要元素的最佳方式。

结构方式： [场景描述] + [如“无[元素]”或“不要包含[元素]”等短语]
提示示例：

“黄昏时分，雾蒙蒙的森林中一团篝火柔和地发着光。不要包含画外音。屏幕上无文字叠加”。

进行精确编辑

对于顺序编辑，简洁精确的指令效果最佳。由于长描述可能混淆模型，最可靠的方法是明确指出要更改的内容，并保留其余元素不变。

结构方式： [你想要更改或添加的内容] + “保持其他所有内容不变”。
提示示例（添加物品）：

“在汽车下方添加发光的紫色霓虹底灯。保持其他所有内容不变”。
提示示例（移除物品）：

“让红色咖啡杯隐形。保持其他所有内容不变”。

控制事件发生时间

该视频模型提供灵活的控制，可指定特定动作发生的时间。由于无需严格的语法，既可以用日常对话式短语来指示时间，也可以用结构化时间码格式。这种灵活性对于建立场景切换、控制节奏或构建快节奏序列特别有用。

选项A：自然语言短语

模型很容易理解按时间顺序的描述。只需使用“3秒后”或“每2秒”等直观短语说明何时发生什么即可。

提示示例：

一个连续镜头，一把原声吉他斜靠在一面深色砖墙上。3秒后，一束温暖的聚光灯缓缓照亮乐器。6秒时，微小的尘埃颗粒开始在光柱中舞动。

选项B：括号时间码语法

对于需要精确分段的场景，可以使用括号间隔按时间划分视频。

结构方式： [起始秒 - 结束秒] [该段落的动作]
提示示例：

[0-4秒] 特写镜头：一根蓝色蜡烛被火柴点燃。[4-7秒] 烛火在安静的房间里轻轻摇曳。[7-10秒] 蜡烛被吹灭，一缕白烟在黑暗中袅袅升起。

标记上传的图片

使用多张图片时，你可以通过在提示中添加简单的括号标签来告诉模型如何处理每张图片。这可以防止不同视觉风格相互融合。

<FIRST_FRAME>：使用此图片作为确切的开幕场景。
- 示例： <FIRST_FRAME> 一艘老式蒸汽轮船与汹涌的海浪搏斗。
<IMAGE_REF_N>：使用此图片（从索引0开始）作为风格或主体参考。
- 示例： 一辆未来主义跑车 <IMAGE_REF_1> 采用 <IMAGE_REF_0> 的复古艺术风格设计。

对于复杂项目，你可以将多张图片映射到不同的时间段：

[0-3秒] 古老洞穴探险，探险者 <IMAGE_REF_0> 手持 <IMAGE_REF_1> 开始探索。[3-6秒] 切换到机器人伙伴 <IMAGE_REF_2> 用 <IMAGE_REF_3> 扫描墙壁。

显式声明

为了对多个文件实现最大控制，请在提示开头声明你的源文件和参考文件，并在末尾添加简短指令：

[# 源文件 <FIRST_FRAME>@图片1] [# 参考 <IMAGE_REF_0>@图片2] 精灵战士 <IMAGE_REF_0> 站岗守卫。使用图片1作为起始帧。使用图片2作为铠甲设计参考。

提示示例：

“在森林中黄昏篝火旁的单一连续场景中：<IMAGE_REF_0> 穿着 <IMAGE_REF_5>，<IMAGE_REF_2> 穿着 <IMAGE_REF_3>，<IMAGE_REF_4> 穿着 <IMAGE_REF_1>。他们开心地笑着，灰烬飘向夜空。”

3. 实用示例

以下是两种将上述公式应用于不同项目的实际方法。

示例1：教育科普视频

此提示利用 Gemini Omni Flash 内置的科学知识来准确展示物理过程，同时保持动画风格高度精细。

上传图片： 一张简单的生物细胞手绘草图（作为你的第一张图片）。
你的提示：

“[# 源文件 <FIRST_FRAME>@图片1] 一个3D黏土动画科普视频，展示线粒体的内部运作。镜头沿着外膜缓慢移动，能量分子漂浮在附近。考虑微观细节、科学准确性和时间节奏，以创建一个逼真的学术场景。使用图片1作为起始布局指导”。