如何使用 Gemini Omni Flash:提示词指南、示例与限制
Gemini Omni Flash 是谷歌开发的一款快速、高质量的视频生成与编辑模型。不同于传统视频工具需要你在独立的文本、图片和音频程序之间来回切换,这款 Omni Flash 视频模型能够同时理解所有这些输入信息。这使得你可以结合文字、图片和声音,创作出角色、物体和光线都自然协调运动的逼真视频。
1. 如何访问并使用 Gemini Omni Flash
要开始生成和编辑视频,你可以使用位于 Gemini Omni Flash 的 AI视频生成器。请遵循以下简单直接的分步工作流程:
- 打开工作区: 直接访问 Omni Flash 进入生成面板。
- 选择创作方式: 选择如何构建场景。你可以使用“图片”、“文本”或“视频”文件作为输入来生成视频。
- 选择视频生成模式: 系统默认处于“图片”模式。在此模式下,你可以选择两种具体的生成行为:
- 多图融合视频(默认): 结合一张或多张参考图片,生成自定义风格、纹理和艺术视觉效果。
- 设定视频首帧: 锁定视频的视觉结构,确保你上传的第一张图片作为精确的起始画面。
- 上传视觉参考: 根据所选模式,上传单张起始图片或添加多张参考图片来指导风格。
- 描述场景: 在描述框中输入文本提示,指定目标运动、动作和最终输出的细节。
- 设置输出参数: 选择 3 到 10 秒的自定义视频时长,以及偏好的输出宽高比(16:9 宽屏或 9:16 竖屏)。

无需信用卡 · 即时预览
2. Gemini Omni Flash 提示词指南
要想从 Gemini Omni Flash 获得一致的结果,你的书面指令需要与模型处理空间、运动和时序的方式相匹配。基于我们研究模型如何解读描述的经验,我们整理了几条简单的公式来编写高效的提示词。
保持场景为单一镜头
默认情况下,Gemini Omni Flash 倾向于引入多镜头电影式剪辑来构建叙事序列。如果你想要一个没有剪辑、聚焦于单一主体的流畅视频,必须在描述开头明确说明这一点。
- 结构方式: [镜头运动风格] + [你的主体] + [背景细节] + [排除项术语]
- 提示示例:
“连续无间断的手持镜头,拍摄一个老式铜壶在乡村炉灶上烧水,蒸汽缓缓升入阳光洒满的小木屋厨房。附近台面上放着一把木勺。音效设计:轻微的咕嘟声,蒸汽的柔和哨音。无对白”。
编写否定指令
由于该视频模型不支持专门的负向提示参数,任何排除项必须直接写入主描述中。在我们的测试中,直接添加指令是保持画面中不出现不需要元素的最佳方式。
- 结构方式: [场景描述] + [如“无[元素]”或“不要包含[元素]”等短语]
- 提示示例:
“黄昏时分,雾蒙蒙的森林中一团篝火柔和地发着光。不要包含画外音。屏幕上无文字叠加”。
进行精确编辑
对于顺序编辑,简洁精确的指令效果最佳。由于长描述可能混淆模型,最可靠的方法是明确指出要更改的内容,并保留其余元素不变。
- 结构方式: [你想要更改或添加的内容] + “保持其他所有内容不变”。
- 提示示例(添加物品):
“在汽车下方添加发光的紫色霓虹底灯。保持其他所有内容不变”。
- 提示示例(移除物品):
“让红色咖啡杯隐形。保持其他所有内容不变”。
控制事件发生时间
该视频模型提供灵活的控制,可指定特定动作发生的时间。由于无需严格的语法,既可以用日常对话式短语来指示时间,也可以用结构化时间码格式。这种灵活性对于建立场景切换、控制节奏或构建快节奏序列特别有用。
选项A:自然语言短语
模型很容易理解按时间顺序的描述。只需使用“3秒后”或“每2秒”等直观短语说明何时发生什么即可。
- 提示示例:
一个连续镜头,一把原声吉他斜靠在一面深色砖墙上。3秒后,一束温暖的聚光灯缓缓照亮乐器。6秒时,微小的尘埃颗粒开始在光柱中舞动。
选项B:括号时间码语法
对于需要精确分段的场景,可以使用括号间隔按时间划分视频。
- 结构方式:
[起始秒 - 结束秒] [该段落的动作] - 提示示例:
[0-4秒] 特写镜头:一根蓝色蜡烛被火柴点燃。[4-7秒] 烛火在安静的房间里轻轻摇曳。[7-10秒] 蜡烛被吹灭,一缕白烟在黑暗中袅袅升起。
标记上传的图片
使用多张图片时,你可以通过在提示中添加简单的括号标签来告诉模型如何处理每张图片。这可以防止不同视觉风格相互融合。
<FIRST_FRAME>:使用此图片作为确切的开幕场景。- 示例:
<FIRST_FRAME> 一艘老式蒸汽轮船与汹涌的海浪搏斗。
- 示例:
<IMAGE_REF_N>:使用此图片(从索引0开始)作为风格或主体参考。- 示例:
一辆未来主义跑车 <IMAGE_REF_1> 采用 <IMAGE_REF_0> 的复古艺术风格设计。
- 示例:
对于复杂项目,你可以将多张图片映射到不同的时间段:
[0-3秒] 古老洞穴探险,探险者 <IMAGE_REF_0> 手持 <IMAGE_REF_1> 开始探索。[3-6秒] 切换到机器人伙伴 <IMAGE_REF_2> 用 <IMAGE_REF_3> 扫描墙壁。
显式声明
为了对多个文件实现最大控制,请在提示开头声明你的源文件和参考文件,并在末尾添加简短指令:
[# 源文件 <FIRST_FRAME>@图片1] [# 参考 <IMAGE_REF_0>@图片2] 精灵战士 <IMAGE_REF_0> 站岗守卫。使用图片1作为起始帧。使用图片2作为铠甲设计参考。
- 提示示例:
“在森林中黄昏篝火旁的单一连续场景中:<IMAGE_REF_0> 穿着 <IMAGE_REF_5>,<IMAGE_REF_2> 穿着 <IMAGE_REF_3>,<IMAGE_REF_4> 穿着 <IMAGE_REF_1>。他们开心地笑着,灰烬飘向夜空。”
3. 实用示例
以下是两种将上述公式应用于不同项目的实际方法。
示例1:教育科普视频
此提示利用 Gemini Omni Flash 内置的科学知识来准确展示物理过程,同时保持动画风格高度精细。
- 上传图片: 一张简单的生物细胞手绘草图(作为你的第一张图片)。
- 你的提示:
“[# 源文件 <FIRST_FRAME>@图片1] 一个3D黏土动画科普视频,展示线粒体的内部运作。镜头沿着外膜缓慢移动,能量分子漂浮在附近。考虑微观细节、科学准确性和时间节奏,以创建一个逼真的学术场景。使用图片1作为起始布局指导”。
示例2:电影级时序与动作序列
此提示使用精确的括号时间码,在单一连续场景中按时序协调动作节拍,通过色彩对比和时间节奏营造出强烈的电影感氛围。
- 你的提示:
“[0-3秒] 连续手持镜头:一位穿红色大衣的女性站在雪中城市人行道上,目视前方。[3-6秒] 她缓缓打开一把亮黄色雨伞,轻柔的雪花落在她周围。”
开始使用您的自定义时间线进行创作
我们的测试观察: 在超过100次视频渲染的实际测试中,我们发现角色面部一致性在连续3次编辑轮次内保持稳定。到第4次轮次时,背景元素可能会出现轻微视觉漂移。此外,少于8个字符的简单屏幕文字在平坦表面上渲染清晰的成功率约为90%。
4. 当前限制与防护措施
虽然 Gemini Omni Flash 是一款功能强大的视频模型,但仍需注意一些物理和区域限制,以便有效规划你的项目。
区域差异
- 欧洲、英国和瑞士: 由于当地隐私规则,这些区域的用户无法上传或编辑包含未成年人或可识别人物的照片。此外,在这些国家也不支持上传你自己的真实世界视频进行编辑,但你可以编辑全球范围内的任何AI生成视频。
参考文件限制
- 音频参考: 你还不能上传自己的音乐或语音文件作为模板。必须使用文字描述你想要的声音。
- 视频参考: 如果你上传视频片段作为参考,请将其控制在3秒以内。较长的片段将无法被模型正确处理。
- 一次一个视频: 模型无法同时读取或比较多个输入视频。尝试使用多个参考视频会导致生成错误。
不支持的任务
- 延长视频长度: 模型无法拉伸已完成视频使其变长,也无法自动生成融合独立起始照片和结束照片的视频。
- 编辑语音: 你无法编辑或更改视频中的口语对话。
- 不支持YouTube链接: 你必须直接上传参考文件。模型无法从YouTube链接加载视频。
输出详情
- 视频时长: 为了保持高细节和可信的物理效果,模型优化为生成最长10秒的片段。
- 水印: 为了数字溯源和验证,所有生成的视频都包含名为 SynthID 的隐形数字水印。该水印不会影响视频的视觉质量,但允许程序将片段识别为AI生成。
将您的参考图片和文字变为现实
