本次对话发生在由非凡产研主办的「2025年度AI创造者高峰论坛暨CHINA AI 100 & AI Creators 100年度评选」的第一场圆桌论坛,【星程314】栏目的主持人,非凡资本合伙人Abner担任本场圆桌论坛的主持人,圆桌论坛的嘉宾分别是:智谱高级副总裁Richard 吴玮杰,爱诗科技B端负责人 孙伟哲,生数科技/Vidu 副总裁 王川,以及 Sand.ai Chris 苏果立。
如果说过去一百年,影像的门票一直握在少数人手里,那 2025 年开始,这张门票正在被重新打印,而且是按每个人一份的规模印。
在北京2025非凡大赏的这场 Panel上,讨论的主题很直白:AI 时代的创造者会是谁?视频大模型会把内容产业推向哪里?
坐在台上的四位嘉宾,刚好代表了这股浪潮最硬的四条支流:
智谱高级副总裁Richard 吴玮杰,爱诗科技B端负责人 孙伟哲,生数科技/Vidu 副总裁 王川,以及 Sand.ai Chris 苏果立;主持人是非凡资本合伙人 赵亮。
他们不是在聊趋势,而是在掰开给你看:当 Sora 2 把视频模型的能力抬到新高度之后,创作这件事,究竟会从专业工厂,滑向每个人的日常?
------------
一、四个Aha Moment,其实指向同一件事
主持人Abner的问题很直接:你们什么时候被 AI 戳中,从此就下了场?
Chris说的不是某个炫技 demo,而是 GPT-4o 的一个更深层的启发:
模型正在从工具箱变成内建能力。
过去做产品像搭积木:语言模型、图像模型、工作流、插件,一块块拼起来。GPT-4o 的生图给他的震撼是:那些原本要靠工作流串起来的复杂操作,被折叠进了模型本体里。
于是模型即产品不再是一句口号,而是一道研发的反问句:
这个功能,到底应该写在产品里,还是训练在模型里?
王川的心动时刻来自 Sora 1。理由也很朴素:
视频终于不再像概念片,而像现实。
他看到的不止是以假乱真,更是产业面的震动:互动娱乐、电商、教育、游戏……几乎每个行业都能被视频模型重新开一遍门。
对他来说,加入浪潮的初心是把前沿技术长到真实生产里——不是让技术上墙,而是让客户的工厂、课堂、直播间都能用得上。
老孙有两个瞬间,一个是 ChatGPT 把他拽进 AI;另一个更关键,是变身特效的模板上线后让 PixVerse 一个月长出千万级用户。
他从这个裂变里看到的是:
真正的拐点,不是技术多强,而是门槛有多低。
ChatGPT 不是最强模型,但它让普通人也能用;模板化封装提示词,把视频 AIGC 从高手的玩具变成了全民的语言。
那一刻,在爱诗科技把它叫做视频 AIGC 的 GPT 时刻。
Richard(智谱)没有浪漫的闪光灯,只有一个现实的判断:
这是个已经能自己跑起来的赛道。
在2023年,Sora 还没发布时,智谱就已经在技术和商业化上做出了不俗的成绩。
他用一句玩笑总结自己的决策方法:既然重回科技赛道,要搞就搞最前沿的大模型。
听起来轻松,但背后是把趋势、团队与落地能力算了一遍后的理性下注。
二、当模型开始脑补,创作关系被改写
Chris 提了一个很有画面感的判断:Sora 2 给视频模型换了一种解法。
以前的路线是追指标:清晰度、运动质量、镜头稳定、时长一致性……像在考试。
Sora 2 更像在学懂你:你只需要描述意图,模型去补完细节,甚至主动替你建构呈现方式。
这背后的变化是:人从执行者变成导演。
导演不必自己扛机器、打光、剪辑、配乐;他只需要不断给反馈:
好还是不好?
这里再快一点。
别那么煽情。
AI 负责把导演的意图变成镜头语言。
换句话说,模型越会脑补,人就越像在做高层决策。
创作从体力活变成审美与选择。
而审美这种东西,恰恰每个人都有一点,只是以前缺一台能听懂你的摄像机。
三. AI 创造者到底是谁?答案比你想的更大
这一段讨论特别有意思,因为它把创造者从一个小圈子,拆成了一个社会级的新身份。
Richard 把智谱的创造者分成三种生态:
大型组织里的业务创造者:比如城市公交、能源、应急的普通员工。他们每天通过模型做服务优化,本质上也是在生产新价值。以前我们叫他们岗位人员,现在更像用 AI 重新定义岗位的人。
互联网高科技公司里的工程创造者:国内头部互联网公司在模型生态里形成了集体创作——一群人用模型把业务重新写一遍,从而优化用户体验,提要整体效率。
个人开发者:GLM Coding 套餐在发布后的几个月内付费订阅数量激增,说明一件事:代码正在成为新的创作语言,而且门槛在下降。
更有冲击力的是,他提了一人公司创业计划。
目标不是让每个人都成创业明星,而是让更多人能试一次靠 AI 打开新生计。
哪怕100万个一人企业中最后只有 1000 家跑出来,有投资价值的只有10 家,也足够让这 100 万人学会与 AI 相处,能更好地推动他们的就业技能,减少焦虑情绪。
老孙的分类更像创作生活史:
超级创作者是弄潮儿。他们像多模态时代的 DJ:LLM、TTS、视频模型混起来,拼出新的工作流。PixVerse 给他们能力,也给他们舞台(电影节、赛事)。他讲的超级个体艺术家的故事很重:一个人遇到挫折,靠着对艺术的理解和热爱,还有 PixVerse 再次回到职业舞台。技术不是让人躺平,而是让人重新站起来。
普通创作者是每个人。你上传一张图、写几句话,就能得到含声音、字幕、封面的一站式故事。以前每个人都是生活的导演是口号,现在真的开始变成产品能力。
王川把 AI 创作者写成了三个关键词:效率、混合、全球化。
一周剪一个月的工作量;
多模态工具混用;
从第一天就考虑出海。
这三件事合在一起,就是一个新的创作生产函数——时间、工具、市场边界同时被折叠。
所以你会发现,AI 创造者的边界越来越像氧气:
不是一个行业,而是一种生存方式。
四. 漫剧为什么火?因为它站在更高Beta 的地方
漫剧(AI 动画短剧)这段讨论也很河流视角。
Chris 说漫剧是短剧里更高 Beta 的子类。
原因不复杂:短剧预算有限,拍不出超现实大场面;
而漫剧用 AI 生图/动漫形态,天然适配想象力超车。
于是一个新的可能出现,一个人一部片的超创时代。
当视频模型每 3-6 个月发生一次范式级变化,爱诗两年迭代了八个版本的模型,未来的超级创作者可能会用一个模型栈做出不输传统工业的现实题材作品。
那时短剧产业的爆发,不是量的增长,而是质感阈值被打穿。
王川则更务实:Vidu 在漫剧行业已经覆盖了 70% 头部工作室。
他给出的关键能力是:
- 时长/节奏控制(1 到 10 秒可控)
- 人物表情强(哭、笑更自然)
- 一致性稳(角色不变脸)
更重要的是,他讲了两派工作流:
图生视频链路:剧本→分镜→生图→动效
参考生视频(Reference-to-Video):先建角色库/道具库/场景库,再一句话生成视频
第二种更像数字实拍,它正在把漫剧从拼图升级成拍片。
他最后留下一个悬念:
漫剧真正的变量,可能不是画面更好,而是新的娱乐态势,实时交互。
从单向剧变成你能参与、你能改、你能跟角色对话的活内容。
五. 实时交互什么时候来?答案藏在架构里
这一问一答是全场最有未来感的部分。
Chris 解释了 Sand.ai 为什么走自回归路线:Diffusion 生成视频要等所有帧出来才能看;自回归可以像水一样边生成边播放。
当粒度从 1 秒压到 1 帧,实时互动就从概念落到工程。
他甚至给了个非常具体的时间锚点:
2025 年下半年就会看到苗头。
注意这不是一句未来会有,而是一个研发路线对市场形态的提前下注:
架构决定交互形态,交互形态决定新内容产业。
换句话说,你今天选择的模型路线,可能就是明天娱乐世界的物理规则。
结尾:创作这件事,正在从努力变成自然
这场 panel 听完,有一种很强的共识在底层流动:
视频模型不是在做更会生成的视频,而是在做更懂人类表达的介质。
当模型原生具备更多能力,人就把精力从怎么做转向做什么、为什么做;
当门槛继续被压低,创作就从少数人的职业变成多数人的日常;
当实时交互到来,内容不再是成品,而是可以一起生长的生命体。
也许几年后,我们回头看今天的漫剧、特效、短视频,会像回头看早期的短视频平台:
它们都只是一个信号,
创造权正在下放。
不是AI 取代创作者。
而是AI 把创作还给更多人。

