59: AI 3D 生成会有“抖音时刻”吗？与 VAST 聊人人玩 3D 的未来 | AI 大爆炸

48分钟 ·3个月前

5313

本期是《晚点聊》「AI 大爆炸」系列第二期节目。我们关注 AIGC 领域里的 3D 图形生成。
这期的嘉宾是 2023 年初成立的 AI 3D 生成公司 VAST 的创始人、CEO 宋亚宸和 VAST CTO 梁鼎。
去年 10 月上线的热门 Github 开源项目 Wonder3D 背后就有 VAST 团队的贡献。
VAST 也刚刚在 2023 年 12 月上线了第一个产品 Tripo，这是一个可以用文字描述和图像生成 3D 模型的 Web 端产品，（网址：www.tripo3d.ai）测试阶段可免费试用。目前用户在 Tripo 上已生成了 30 多万个 3D 模型。
宋亚宸同时是一位非常年轻的创始人，他出生于 1997 年，毕业于约翰斯·霍普金斯大学。在创立 VAST 之前，曾在商汤和 MiniMax 工作；梁鼎之前则在商汤担任通用模型负责人，毕业于清华大学。
VAST 团队对未来的一个设想是：3D 内容会重复文字、图像、视频之路，从 3A 内容，即需要 a lot of people, time and money 的高门槛内容变成人人都能方便地创作和消费的内容。
第一步是有大众级的 3D 生成工具，第二步是 3D 内容平台。前者的成熟是 3D 生成的 ChatGPT 或 Midjourney 时刻。后者我们可以称他为“抖音时刻”。
这是一个可以数年后回看以验证的想法。希望这期节目只是一个微小的开端。

本期节目我们聊了：

创业故事 & 第一款产品 Tripo

01:51-为何在 3D 领域创业？——看到 3D 内容平台机会，第一步是做大众级 3D 生成工具。
07:16-Tripo 背后使用了多种模型结构，有 Diffusion 也有 Transformer。大语言模型是用端到端的一个模型完成任务，而 3D 生成目前是多种模块组合。
12:25-当前 3D 生成与文字和 2D 图像的一大区别是，后者有业界通用的表示方式，如 2D 图形是矩阵，而 3D 图形的最佳表示方式还在探索中。
13:13 -Mesh、NeRF 等 3D 表示（3D representation）指什么？

Midjourney 时刻和抖音时刻如何到来？

14:32-3D 生成效果到了相当于文生图应用 Midjourney V4、V5 的水平，是工具成熟的里程碑。这可能发生在 2024 年底到 2025 年初。
16:37-用户也需要存储、托管、分享和展示 3D 内容的平台。VAST 正在内测一个 3D 内容托管平台。
19:37-现在已有很多业余 3D 内容制作者，但没有分享、展示渠道。
22:49-用户的玩法举例：造一个 3D 鬼屋，请朋友来被吓。
23:55-这个平台目前是一个 PC 客户端，未来会考虑做 XR App。
27:11-总结：3D 生成效果达到 Midjourney V5 水平，是工具成熟的时刻；内容平台爆发的关键则是出现一种新的 3D 内容范式——一种可被跟风、模仿的 UGC 内容。
28:52-这件事可能发生在头显成熟前，头显成熟是充分不必要条件。

当前的竞争

31:31-大小公司都在做 3D 生成工具。VAST 的差异之处：做大众级工具，而不是替代现在的主流 3D 软件。
32:50-3D 生成是一个新领域，而且是华人团队不落后于美国团队的领域。
34:11-希望更多人用 Tripo，也用竞品，更多人体验 3D 内容生成。
36:26-VAST 掌握了大量 3D 原生数据集。
37:43-3D 内容生成的远期壁垒在产品和社区、开发者运营。
38:04-开发者自己玩出的例子：Tripo Go，可以让不同人生成的不同 3D 模型对战。

AI 潮里的年轻创始人

41:18-移动互联网领域，一批创始人起步于 25-30 岁。
42:30-VAST 是一个创始人很年轻，核心团队成员也有不少老炮的公司。
43:06-一个公司为什么能聚集多个以前自己创过业的人？
45:05-连续创业者能提前避坑，年轻人敢冲。

相关阅读：
Tripo 3D 生成 Web 版：www.tripo3d.ai
Tripo Discord: discord.gg
Tripo Twitter/Youtube: @tripoai
节目中提到的 3D 互动内容 Tripo Go：tripogo.holymolly.ai（可在手机上玩）

本期节目中出现的技术、公司等名词：
·一些 3D 表示（3D representation）：Mesh、NeRF、Gaussian Splatting、SDF
3D 表示是以某种形式表达 3D 对象或场景的几何形状、纹理、材质和光照等信息，可以是数学模型、数据结构或其他形式的描述，常见的有多边形表格（Mesh）、点云、体素（voxels）、参数化表面等。

·Diffusion：文生图领域的主流模型，被 Midjourney、Stability AI 等公司使用。
·一些大公司发布的 3D 生成模型或成果：DreamFusion（Google），Point-E、Shape-E（OpenAI），Magic 3D、Get 3D、（英伟达），3DGen（meta）。
·该领域创业公司：Luma AI、Meshy
·一些3D行业常用的DCC（Digital Content Creation）软件：ZBrush、Blender、3DsMax、Houdini、Maya。

登场人物：
宋亚宸：VAST 创始人、CEO
梁鼎：VAST CTO
更多信息或合作可联系：微信/即刻/Twitter: whyvirtualsiena
程曼祺：晚点科技报道负责人。即刻：程曼祺_火柴Q

剪辑：甜食

封面：Tripo 生成的 avocado chair “鳄梨椅”

展开Show Notes

emma_y

2024.2.02

这期主题很有意思，因为过去一直在研究内容平台、社区社交型产品，借评论区梳理下自己的想法，抛砖引玉～

分享嘉宾提到新的创作工具和内容平台的关系，我比较认同两个点：
1.新的创作者工具会催生新的内容范式，进而有可能形成新的内容平台。
2.定位于UGC创作和PGC创作的工具设计是完全不同的，低门槛的UGC创作者工具更有可能释放大量社会创造力，形成全新的内容品类。

对于文字这个载体来说，第一次社会创造力的释放是造纸术和印刷术的出现使得人类文明的出版物大幅增长，第二次社会生产力的释放是互联网的出现使得文字内容生产成本进一步降低，产生了大量的网文、玄幻小说、长博客等过去不能达到出版物标准的内容，诞生了起点中文网、博客、QQ空间等新内容平台。

对于图片这个载体来说，拿人像举例，硬件层经历了贵族画像、胶片相机、数码相机到手机摄像头的迭代，创作成本不断降低；软件层从photoshop这样的专业修图软件到美图秀秀、美拍等UGC修图软件，诞生了Instagram、朋友圈等新内容平台。

对视频这个载体来说，PGC工具专业摄像机催生了电影、电视行业，UGC工具手机摄像头催生了短视频平台。而短视频平台在musical.ly、抖音把15秒音乐卡点视频这种内容范式打出来给了用户命题作文之前，大量UGC用户是没有创作灵感的，后来抖音运营团队以内容模板、视频滤镜、配乐为切入点不断提供UGC低成本短视频模板，让UGC的创造力被刺激突破爆发的阈值，现在短视频内容丰富度已经大大超过了长视频电影电视时代的想象。

所以现在我们想到3D内容只能想到3D游戏、3D动画、电影CG等PGC内容品类，但我不怀疑3D内容这个载体，如果能从创作工具层突破原有的PGC专业创作工具的范式，就会像其他内容载体曾发生过的历史一样激发出大量UGC社会创造力，生产出现在我们还想象不出来的丰富内容品类，也可能形成新的内容平台。

emma_y

2024.2.02

34:00 听到有意思的一点是在3D AIGC领域，中国人和华人是核心论文的主要作者，在这一波AI大模型浪潮中，其他模态领域都是海外公司与国内公司有领先者和追赶者的代际差异，无论是文字-Open AI，还是图片- Midjourney、SD，还是视频生成-runway，在融资金额和技术领先性上都超前一大截，但貌似3D领域海外能打的也听说一家luma，之前主要做的是三维扫描重建，在text-to-3D领域刚刚开始，2D-to-3D的功能还没上线。之前体验过海外公司做的Luma、国内公司做的Tripo、Meshy几个3D生成产品，客观来说几家技术效果大致同一个代际上，只是tripo在模型细节丰富度上目前做得好。未来会持续follow这个领域的进展，希望中国公司在3D AIGC领域成为领先者而不是追赶者，加油！

小田仙人

2024.2.01

1.3D抽卡建模完全不能算是内容创作者，只能算社区污染者 2.达到v2.5水平那绝对是吹nb了 3.如果我真需要这么一个社区，我为啥不用sketchfab呢？你们训练也没少从这上面偷模型吧。4.mdj也好 SD也罢，现在的使用者基本还是从业者，没有哪个图片社交社区里AI图是主流，哪怕发出来也都是有商业目的，根本没有自发性。

梨飒

2024.2.01

持续看好3D内容的发展，这个发展会被大众级的创作工具加速，从而催生一系列变化（变化带来机会，我爱变化！），很难让人不激动！

尊介

2024.2.01

还是没有想清楚3D的应用场景和商业模式，有了工具不代表会产生平台，抖音之前短视频这个赛道机会被各个公司放弃了，直到抖音打造出好的商业模式，才让这个赛道火热，不是因为手机有摄像头，可以拍照录像。工具只是工具。

emma_y:新内容平台的出现具有必然性和偶然性，移动互联网的手机摄像头、碎片化消费场景和5G普及解决了视频内容消费流量成本问题，所以会出现短视频内容平台巨头机会是必然的，但具体是哪一种内容形态能长成社区和平台又是偶然的，比如当年曾经爆火的小咖秀、美拍、秒拍没有长成大平台，一些纯工具产品如VUE、脸萌也没有完成工具到社区内容平台的进化。当年的晨兴资本（现在五源资本）就是投短视频赛道，投了一大批短视频早期项目，其中最成功的是快手，快手最早是GIF工具，后来成功转型短视频社区。抖音和快手都是先完成了内容生态搭建后才做的商业化，有好的商业化模式并不是内容平台的充分条件，否则字节跳动商业化能力很成熟，他们做的短视频平台应该都能跑通，但事实上内部孵化了一大批只有抖音做成了。

Stewart-1006:悲观者永远正确，乐观者永远前行

共3条回复

emma_y

2024.2.02

另一个想分享讨论的点是从抖音的成功史推测未来的内容平台创业机会。

很多人知道抖音最早是抄musical.ly，但很少人知道其实musical.ly也不完全是原创，也借鉴了短视频鼻祖Vine（第一个全球爆火的短视频应用，法国团队做的），但最终全球短视频内容平台的霸主是Tik Tok（全球日活10亿+，前身就是被字节收购的musical.ly）和抖音（国内日活8亿+）。

为什么短视频领域欧美团队起了个大早赶了个晚集？我觉得本质原因是内容平台要做成的核心要素是运营能力而非产品和技术。而众所周知中国互联网团队在运营能力上已经彻底与欧美互联网公司拉开段位差距，拼技术创新力中国互联网总是落后一截，拼产品创新力中国互联网总是习惯Copy to China，但拼运营能力是中国互联网最大的优势就在于我们极其灵活、极其勤奋，当欧美运营团队5点钟下班不回邮件的时候中国运营团队在7*24h与用户打成一片，挖掘用户需求，持续在做运营微创新，量变产生质变，最终让UGC内容生态突破了大爆发的临界点。

所以移动互联网最近几年全球创新中心已经从欧美转移到中国，中国出海了短视频平台、娱乐直播、直播带货、电商等等运营驱动的模式，海外巨头也开始了copy from China之路。只是这一波AI大模型又重新将互联网科技行业的视线焦点都集中在了底层技术创新领域，欧美互联网又重新在自己擅长的领域作战。

回到短视频平台的历史来说，我认为在运营能力这个维度来说，抖音（字节）> musical.ly >> vine为代表的欧美互联网团队。

所以当AI大模型竞争从技术力卷到产品力再卷到运营力的时候，3D互联网领域如果未来会出现大内容平台，我认为大概率还会是擅长运营的中国团队做出来的。拭目以待～

曼祺_MatchQ

:很有启发，感谢留言分享。 1月和另一家同时做模型和产品AI公司聊时，他们分析中美团队之间的各自优势有一个类似的维度列表：算力、算法工程等技术、工程师团队的整体输出水平、产品（尤其提到了强运营驱动的产品中国团队可能更有经验和优势）。不过他认为，现阶段给产品带来最大增益的还是技术本身。这一点上，OpenAI 确实领先。