Kling 3.0：模型界面与 API 上的文本生成多镜头视频 | Models and API

kling/kling-3.0/standard/text-to-video

Kling 3.0 可从文本或图像生成原生 4K 视频，支持同步对白、多镜头电影叙事与角色一致性，并提供便于集成的 RunComfy API。

提示词 *

场景、动作、镜头风格和氛围的文字描述。

否定提示

要从视频中排除的元素。

时长

视频长度以秒为单位。

纵横比

生成视频的输出比例。

CFG规模

及时引导力量。

声音

与视频一起生成同步声音。

镜头类型

编辑模式：智能（默认，自动确定范围）或自定义。

多重提示

用于指导场景转换和进展的附加提示片段。 multi_prompt 中的持续时间总和必须等于视频总持续时间

Idle

The rate is $0.084 per second without audio, and $0.126 per second with audio.

Kling 3.0视频制作简介

快手科技的 Kling 3.0 可将文本提示、参考图像与视频编辑转化为多镜头电影级视频：无音频约 $0.084/秒，含音频约 $0.126/秒，原生支持最高 4K、60fps 与同步对白。Kling 3.0 以统一多镜头生成替代手动分镜、逐帧修补与单独配音流程，并通过角色与语音绑定减少复杂蒙版与重拍，面向专业创作者、影视团队、品牌方、营销机构与代理商。开发者可在 RunComfy 浏览器端或 HTTP API 调用 Kling 3.0，无需自托管与扩容。
适用场景：高转化 4K 广告 | 角色一致的多镜头叙事 | 多语言口型同步讲解片

快手科技 / Kling 3.0#

Kling 3.0 是多模态 AI 视频生成模型：在 RunComfy 上把文本提示转为电影感镜头，支持多镜头编排、同步音轨与专业级运镜控制，适合短片叙事与品牌内容。

输出格式：高达 4K/高达 60 fps（因模式而异）/3–15 秒/16:9、9:16、1:1/可选同步音频

亮点#

多镜头电影化编排：Kling 3.0 可以计划或跟踪最多六个相连的镜头，从而改善叙事流程和时间连贯性。
一次性原生音频：在视频旁边生成声音，以实现更紧密的口型同步和场景感知氛围，无需单独的管道。
更高的视觉保真度：与早期版本相比，Kling 3.0 通常可以达到更高的分辨率（高达 4K）和更稳定的跨剪辑运动。
强大的角色一致性：参考元素有助于在较长的剪辑中保持不同场景的主题、服装和品牌。
灵活的创意控制：选择智能自动编辑或自定义镜头结构；使用负面提示和 CFG 量表进行细化。
广泛的宽高比支持：针对广告、社交帖子和多平台交付的水平、垂直或方形输出。

参数#

参数	必填	类型	默认	范围/选项	描述
prompt*	是（*）	string	—	—	场景、动作、镜头风格和氛围的文字描述。
negative_prompt	否	string	—	—	要从视频中排除的元素。
duration	否	number（秒）	5	3–15	成片时长（秒）。
aspect_ratio	否	enum	16:9	16:9、9:16、1:1	输出画幅比例。
cfg_scale	否	number	0.5	—	CFG：提示词约束强度，平衡「更听话」与「更发散」。
sound	否	boolean	disabled	enabled/disabled	是否生成与画面同步的声音。
shot_type	否	enum	intelligent	intelligent/customize	剪辑模式：智能自动分镜，或 customize 手动控制镜头。
multi_prompt	否	array/string	—	—	多段提示，用于镜头衔接与节奏推进。

定价#

计费单位	音频	价格
每生成一秒	已禁用	每秒 0.084 美元
每生成一秒	已启用	每秒 0.126 美元

如何使用#

描述您的场景：为该模型编写清晰的提示，涵盖主题、动作、灯光、取景和整体情绪。
选择持续时间和比例：将持续时间设置为 3-15 秒，并根据目标平台选择 16:9、9:16 或 1:1。
选择镜头模式：使用智能模式进行自动故事板或选择自定义以通过 multi_prompt 定义特定镜头。
细化指导：使用 negative_prompt 删除不需要的元素并调整 cfg_scale 以平衡依从性与变化。
如果需要，启用音频：打开声音以生成与该模型同步的氛围、效果或口型同步对话。
审查和迭代：生成、检查运动和连续性，然后调整提示或镜头类型以提高节奏和一致性。

7、导出交付：从RunComfy下载结果；宽高比和持续时间已针对您的频道进行调整。

提示技巧#

从具体开始，然后迭代：在添加风格华丽之前给出清晰的相机动词（跟踪、推入）、一天中的时间和动作节拍。
使用 multi_prompt 进行节拍：将复杂的场景分解为每个镜头的行，以便 Kling 3.0 可以连贯地安排进入、动作和退出。
通过上下文引导音频：如果启用了声音，请提及氛围（繁忙的市场、小雨）、节奏提示或屏幕上的对话意图。
控制遗漏：在否定提示中，列出分散注意力的主题（徽标、额外人物、文本工件），而不是广泛的风格禁令。
构图匹配比例：宽阔风景青睐16:9；肖像和产品特写受益于 9:16 或 1:1 的平台适配。
避免冲突信号：保持持续时间、宽高比和镜头类型与故事板一致；不匹配会降低凝聚力。

该模型与其他模型的比较#

与 Kling 2.6 相比，该模型基于公开信息提供多镜头生成（最多六次剪辑）、更高的典型分辨率、更强的身份一致性以及更紧密的音频同步。
与 Wan 2.5 相比，该模型提供更精细的镜头控制和通常更高分辨率/fps 的电影节奏选项，而性能仍然取决于提示和模式。
与 Seedance 1.0 Pro 相比，该模型提供了改进的运动真实感和多镜头叙事流程，并牢固地遵循真人风格。
主要改进：更好的时间一致性、本地音频生成、扩展的语言/方言覆盖范围以及改进的相机/照明控制。
理想的用例：当您需要具有品牌/角色连续性的短视频、多镜头视频以及广告、预告片或叙事节拍的同步音频时，请选择该模型。

常见问题

Kling 3.0 在 text-to-video 方面相比旧版有哪些主要能力？

Kling 3.0 支持多镜头电影序列（每段最多六个镜头）、同步多语言音频与更强角色一致性，统一多模态架构在同一模型中处理文本、图像与视频。

Kling 3.0 与 Seedance、Wan 等相比如何？

Kling 3.0 在时长（最长约 15 秒）与多镜头时间连贯性上通常优于 Seedance 1.0 Pro 与 Wan 2.5，运动更真实、口型与面孔更一致。

使用 Kling 3.0 有哪些技术限制？

单次生成约 15 秒、最多六个连续镜头，宽高比多为 16:9、9:16、1:1，提示词约 1200 token，参考输入通常 3–5 个。

Kling 3.0 能否一次生成多场景故事板？

可以。Kling 3.0 可将最多六个镜头链成连贯 clip，在 RunComfy 模型界面或提示词中定义镜头类型与转场。

如何从 RunComfy 测试过渡到生产 API？

在 RunComfy 模型界面验证后，使用 RunComfy API：REST 端点、API 密钥、usd 积分与异步任务队列。

Kling 3.0 对多语言配音与口型同步有何优势？

集成音频合成与动态口型，支持英、中、日、韩、西，无需单独配音流程。

Kling 3.0 的镜头与运动控制？

支持专业镜头语义（摇移、dolly、俯仰、POV）与 motion brush。

Pro 与 Standard 差异？

Pro 运动连贯性与稳定性更高；Standard 更快、usd 积分更少。

Kling 3.0 输出可否商用？

取决于快手许可与 RunComfy 服务协议，部署前请查阅官方条款。

算力要求？

RunComfy 模型界面为云端渲染；API 多镜头因音画同步处理延迟更高。

RunComfy

RunComfy 是首选的 ComfyUI 平台，提供 ComfyUI 在线环境和服务，以及 ComfyUI 工作流具有惊艳的视觉效果。 RunComfy还提供 AI Models, 帮助艺术家利用最新的AI工具创作出令人惊叹的艺术作品。

Kling 3.0：模型界面与 API 上的文本生成多镜头视频 | Models and API | RunComfy

Kling 3.0 可从文本或图像生成原生 4K 视频，支持同步对白、多镜头电影叙事与角色一致性，并提供便于集成的 RunComfy API。

Kling 3.0视频制作简介

快手科技 / Kling 3.0#

亮点#

参数#

定价#

如何使用#

提示技巧#

该模型 与其他模型的比较#

更多模型可供尝试#

相关模型