现在的视频模型,在“画面质感”和“几秒钟内的连贯性”上已经很强了。但如果你把它当一个全职导演来用——给它一段长剧本,配几句模糊提示词,就指望它自己搞定分镜、角色统一、镜头运动设计,多半会是这样的体验:开头两秒惊艳,往后越看越出戏,“AI 味”越来越重。
我现在会把视频模型当成“高质量画面渲染器”,而不是“编剧 + 导演 + 分镜 + 动效”一把抓。故事怎么讲、镜头怎么拆、角色怎么定、技术上有哪些限制,这些工作最好都在人这边先想清楚,模型只负责执行。
为此,我把整个流程拆成了三块:
先让 AI 把角色吃透,并生成人物的“三视图 Prompt”
把剧本拆成一条条符合模型能力范围的分镜
在分镜 + 人物信息的基础上,为每个镜头写成可以直接丢给视频模型的详细 Prompt
