E141|我们用了10款AI工具,最后又回到了版权库

E141|我们用了10款AI工具,最后又回到了版权库

74分钟 ·
播放数25155
·
评论数70

在我们录制的当天,恰逢OpenAI发布其视频生成产品Sora。本期节目,我们将结合硅谷101播客与视频的日常工作流,来聊一聊那些在我们工作中会用到的各类AI工具,为何Sora会让人觉得惊艳?

我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品,但最后的核心结论是,相比于现阶段的生成式AI产品,我们更愿意用版权库素材。具体发生了什么,来听一听我们的讨论吧。

当然,本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法,欢迎在评论区跟我们留言。

《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营,欢迎感兴趣的小伙伴来给我们投放简历,详细情况请在硅谷101公众号上查看

【主播】
泓君,硅谷101创始人,播客主理人
【嘉宾】
陈茜,硅谷101联合创始人,视频主理人
Jacob,硅谷101视频后期
Junwu Zhang,硅谷101研究员

【你将听到】
视频生成
03:06 比较Sora、Pika Labs、Runway的视频生成效果:时间越长一致性越差
08:14 Sora解析:东京街头背景保持高度一致有多难?
09:51 硅谷101视频的三类素材:历史素材、图表、动画,AI都很难生成
12:40 仅用语言描述生成视频很难,输入也需要多模态
16:44 AI是创作者还是剪辑师的工具?很难被打败的顶级作品
23:09 算法瓶颈:天马行空式生成反而落入俗套?

平面设计
24:39 为什么说Midjourney还没有颠覆素材库?
26:17 附产品:让人惊艳的AI扩图

声音克隆
30:32 比真人替换效果更好的11Labs:音频替换与复原罗斯福总统的声音
35:06 OpenVoice精准还原普通话音调
37:39 真实录音被当作配音:AI克隆声音界限越来越难区分

AI作曲
39:02 谷歌Music FX作曲 PK 素材库音乐,三曲Demo你更喜欢谁?
45:05 创作者的最大痛点:当音乐长度可以自动调整适配片头
50:17 当小工具遇到大公司:软件学习门槛高,更倾向于做大公司的小插件

内容生成
55:05 ChatGPT如何帮助我们快速查资料:在一本400页的小说中找到代糖的初代焦虑
57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联
59:50 我们的内容制作步骤拆解:ChatGPT并不是一个好的提纲撰写者
68:54 写Shownotes的三个要点,GPT只进化到了第一层

【后期】
Amei
【BGM】
Sushi Master - Sight of Wonders
On a Boat to China - Sight of Wonders

【在这里找到我们】
公众号:硅谷101
收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客
海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music
联系我们:podcast@sv101.net

展开Show Notes
这期节目在我家录制,家里有只很调皮的萨摩耶一直在叫,偶尔背景声会听到,已经扣了狗罐头,还请大家多多谅解🐶🐶
小宋喜欢爬山:狗叫,狗好 人扣罐头,人坏
Diiiiiiiii
Diiiiiiiii
2024.2.27
比较喜欢听这种一线从业者的亲身使用体验,比较真实接地气。整个听下来的感觉,对于 creator 来说,AI 类工具的渗透率还比较低,可用性还不够强:

- 视频素材生成:目前不太可用。画面内容过于 general,不可控,时长太短,对 Sora 有一定期待,主要是物理模拟显得更真实了。但从需求的角度来看,视频制作的素材需求包括:真实历史画面(不需要生成)、动画讲解(包括数据图标、科普原理等,目前无法生成)、通用的表意素材(这部分目前或许可以用到,但效果上不如图库)。一个根本问题是,用文字(text to video)很难把需求描述清楚,最好是能够通过画一些示意图的方式来表达;

- 图片素材生成:可以用,但目前生成的成本高于使用图库的成本,并且各大图库也都在整合 AI,期待未来能做更多的 custimazation;

- 声音克隆:可用性较强,可以达到嘴替水平,但对中文的支持不够好(据说 openvoice 的中文克隆效果不错);

- 背景音乐生成:勉强可用,好处是可以免去版权成本,并且支持时长上的定制,但需要使用者能够有一定的音乐素养,可以用文字描述需求,效果上不如素材库;

- 访谈前调研及文字大纲生成:调研部分,对常识类调研来说,使用 AI 可以节约一些时间,但对于准确性要求较高、专业性较强的内容,由于幻觉,还是不太敢用。大纲生成只能达到 average 水平,无法满足高水平内容创作的需求。

无论技术多牛,最终用户体验才是试金石,用户会用脚投票。产品价值 = 新体验-旧体验 -迁移成本,目前这期听下来,现有工具的产品价值似乎还是负的,不足以造成用户迁移。“有点用,但似乎又没那么有用,尝鲜之后难以持续”,这似乎是当前 2B、2C 的大部分场景的真实现状。

当然,AIGC 还在早期,会先在一些特定场景下把价值打正。Just wait and hope.
33:39 国内有大模型可以克隆语音了
霓虹组:求名字
Z_linn:蹲名字😂
8条回复
泰格杨
泰格杨
2024.2.27
是用哪些版权库呢?以前没有接触过
硅谷101陈茜:Envato, musicbed, Epidemic Sound, etc.
Jacob老师考虑开Ai培训班吗,图像和视频方面的ai实际应用,自媒体人十分需要!
有道_ENFn
有道_ENFn
2024.3.04
谢谢分享,跟之前硅谷101的内容形式挺不一样的,没有了外部嘉宾,反而有些意外的收获,能从一线创作者的用户视角看ai应用。希望类似讲内容生产流程的节目隔一段时间能做一期,几期下来做对比应该会很有趣,应该能看到ai工具的进化和内容制作方式的演化。
momomoss01
momomoss01
2024.2.26
框架和要点还是要自己想,解释扩展和分析可以用ChatGPT
Kevin_cWol
Kevin_cWol
2024.3.07
11:41 夹英文就好好夹…夹完再翻译一下真听得太难受了
嬴嬴嬴
嬴嬴嬴
2024.3.02
为什么删我评论?哪句话让博主破防了?
可以用不同的模型互相cross check结果
吞不须
吞不须
2024.2.26
42:23 拉斯维加斯球音乐这一部分燃起来了
用chatgpt 做作业正确率百分之五十几,我自己做还有百分之六十几呢😤
cjl69
cjl69
2024.2.26
36:20 试下 剪影的 音色克隆 很厉害
泓君Jane
:
wow,我去试试
霓虹组:剪映?
Elvis928
Elvis928
2024.2.29
你们还有视频,在哪可以看到?
硅谷101陈茜:B站、视频号、腾讯、36Kr、虎嗅搜硅谷101,西瓜、抖音、微博搜硅谷101陈茜 😊
xcccc
xcccc
2024.2.26
43:03 更喜欢最后使用的这首诶
硅谷101陈茜:对吧😜
用样片音乐生产音乐,样片音乐应该也要买版权吧。这个和在app里听音乐只付会员费性质还是不一样吧。
桃奈小安
桃奈小安
2024.2.24
沙发
Joya丹
Joya丹
2024.4.13
50:46 这个缝合过度音乐的功能比较适合loop 类的背景音乐,嗯需要对画面情绪就不够用了
Joya丹
Joya丹
2024.4.13
49:03 听到这里,感觉会一点编曲,能利用音乐库器乐分轨文件来改编音乐符合画面的自己工作又多一份保障了😆
一马西行
一马西行
2024.4.08
27:22 AI扩图的例子启示我们,在创新上现阶段AI还力有不逮,但在工具类操作上,AI确实可以提高效率,所以现阶段做多还是辅助人工完成,使人从繁琐重复耗时的日常工作中解脱出来,做更有创造性的工作。