
- 15个问题,搞懂具身大模型的现状及未来
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术与商业变革的节目,汇聚AI创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们! 2023年下半年具身智能开始获得关注,创业团队开始涌动,2024年国内涌现了超50个具身智能公司,获得了百亿元的资金投入。毫无疑问,具身智能是除了语言大模型以外最吸金的创业赛道。然而,由于具身智能的发展仍处早期,这也是充斥着泡沫的一个赛道。去伪存真,关注本质,本轮机器人及具身智能赛道的火爆,技术侧到底有何进步?2025年了,具身智能的大模型走到哪一步了?玄而又玄的世界模型究竟是什么?本期我们将用15个问题,厘清具身大模型以及世界模型的发展现状。 【主持人】 Harry,7年一级市场投资经验,AGI信徒。 【本期嘉宾】 Patrick,丰富的具身大模型、多模态大模型研究经验。曾获得AI顶会杰出论文奖。 徐超逸,具身领域研究员,曾就职于智源研究院、银河通用机器人,研究方向为移动抓取、三维视觉、遥控操作等。目前加入智在无界,师从卢宗青做相关研究。 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 【本期内容】 🟢 Part 1 具身智能大模型 00:02:16 第1问:什么是具身大模型? 00:04:55 第2问:具身大模型发展处于什么阶段? 00:09:54 第3问:过去两年,具身智能研究最重要的3篇成果是什么? 00:14:39 第4问:端到端的具身大模型是确定性趋势? 🟢 Part 2 VLA模型(Vision-Language-Action Model) 00:18:35 第5问:什么是VLA模型? 00:22:11 第6问:VLA模型是如何训练的?有什么技术差异 00:28:39 第7问:VLA模型解决泛化问题了吗?目前的泛化性如何? 00:33:00 第8问:具身智能的数据成本有多高?怎么解决数据难题? 00:39:18 第9问:具身智能如何解决硬件百花齐放的问题? 🟢 Part 3 世界模型 00:42:19 第10问:什么是世界模型? 00:44:13 第11问:为什么视频生成模型SORA不是世界模型? 00:46:25 第12问:世界模型如何应用于具身智能领域? 00:49:20 第13问:VLA模型与世界模型,未来是什么关系? 00:51:13 第14问:世界模型目前最大的瓶颈是什么? 00:54:24 第15问:具身智能下一个最值得期待的突破是什么? 【本期播客提到的公司或名词】 VLA模型,指的是 Vision Language-Action Model(视觉-语言-动作模型)。简单来说,它是一种将视觉感知、语言理解与动作生成紧密集成在一起的多模态人工智能模型。VLA模型的核心目标是让机器人或智能体能够直接根据视觉输入(如摄像头看到的场景)和语言指令(如“请把桌上的蓝色杯子递给我”)来理解任务、规划并输出具体的动作控制信号(如关节运动、抓取、移动等),从而在真实物理环境中完成任务。 RT-2模型,是全球首个将视觉语言模型(VLM)与机器人控制直接结合的VLA模型,通过将动作编码为语言Token,实现跨模态语义推理。2023年由谷歌Deepmind推出。 π0模型,是由Physical Intelligence公司开发的通用机器人控制模型,基于视觉-语言-动作(VLA)架构,它采用流匹配(Flow Matching)技术建模连续动作分布,生成高频率(50Hz)运动指令,适应叠衣物、装箱等灵巧操作需求。 Diffusion模型,扩散模型是一种通过逐步添加和去除噪声来生成数据的深度学习模型,其核心原理分为正向扩散(添加噪声)和逆向去噪(生成数据)两个过程。该模型在图像、文本生成领域表现突出。在具身智能领域,π0通过流匹配技术将diffusion模型引入到具身智能模型当中。 GraspNet模型,由卢策吾团队构建的通用物体抓取框架,实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取。 GraspNet首次将PPH(picks per hour)指标超越人类水平。 UMI,Universal Manipulation Interface,由斯坦福大学提出的用于机器人操作的通用数据采集接口。它是一种数据收集和策略学习框架,允许将技能从人类演示直接转移到可部署的机器人上的策略。 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】
- 2025年了,To B的AI商业化走到了哪一步
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术与商业变革的节目,汇聚AI创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们! 距离ChatGPT发布已经过去两年半,乐观派认为AGI已经箭在弦上,而悲观派认为AI即将迎来一轮泡沫破裂。因此站在当下,我们认为有必要审视一下AI的落地应用,来厘清到底AI的商业化走到了哪一步。过去,海外的企业服务尤其SaaS领域诞生了大量明星公司,给投资人创造了可观回报,而中国的to B软件领域则始终没有发展起来,无数投资人折戟在了企服赛道,那么这次AI浪潮是否会成为国内to B领域的转折点?2025年了,To B的AI应用到底发展如何?AI是否会颠覆SaaS领域,是否还能照抄SaaS行业的估值与发展逻辑? 【主持人】 Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。 【本期嘉宾】 王丹,公众号后浪new主理人,AI应用投资人,专注to B领域研究。 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 【本期内容】 🟢 Part 1 大数据起家的Palantir成为AI to B领域的股王 00:02:30 海外哪些to B领域AI公司取得成功? 00:03:33 Palantir股价增长了7倍 00:06:10 大数据起家的Palantir为何能吃到AI红利? 00:10:53 Palantir的独特优势是数据处理和业务场景理解 00:12:16 微软的Copilot为何没有取得成功? 🟢 Part 2 企业AI搜索玩家Glean估值快速增长 00:18:20 Glean的业务及商业模式 00:19:48 国内企业知识库的落地现状 00:20:20 Glean取得成功的原因 00:26:39 AI是传统企服玩家还是新兴企业的机遇? 🟢 Part 3 中国的企服行业是否迎来转机 00:29:58 AI会成为中国SaaS行业的转机吗? 00:31:08 过去中国SaaS不成功的原因 00:35:08 AI 1.0时代发展艰难的智能客服公司,当下如何了? 🟢 Part 4 被AI改变的SaaS行业 00:49:20 AI Agent是否会取代SaaS行业 00:51:00 AI沿用SaaS的订阅模式是否合理? 00:57:55 AI公司的ARR指标是虚假繁荣吗? 🟢 Part 5 中国的AI to B应用将在哪里爆发 01:05:16 哪些垂类应用会取得爆发? 01:05:50 Martech领域快速增长的原因 01:08:30 低代码的开发平台是好的AI落地场景吗? 01:18:21 AI法律助手是好的落地场景吗? 01:21:43 直接面向终端客户提供服务是好的AI商业模式吗? 01:29:47 大模型初创公司该怎么做to B,会陷入AI四小龙的困境吗? 【本期播客提到的公司或名词】 Glean,成立于2019年,总部位于美国加利福尼亚州,是一家提供企业AI搜索服务的公司。其愿景是让每个人都能在工作中轻松使用AI。2024年9月,成功完成超过2.6亿美元的E轮融资,其估值已达到46亿美元。 Moveworks,成立于2016年,专注于企业级AI助手开发。2025年3月,SaaS巨头ServiceNow宣布以28.5亿美元全资收购Moveworks。 Harvey,成立于2022年,是一家专注于为法律和专业服务领域开发特定领域 AI 的公司。2025年2月,Harvey 宣布完成D 轮 3 亿美元融资,估值超 30 亿美元。 Mercor,成立于2021年,是一家面向AI招聘的初创公司。2025年年2月,Mercor宣布完成1亿美元B轮融资,估值攀升至20亿美元。 Palantir,成立于2003年,主要基于大数据分析和人工智能技术服务美国的军事、政府和金融机构等客户,在国防和安全领域的应用尤为突出。受益于近年AI业务的爆发,目前市值超过2700亿美金。 AppLovin,成立于2012年,该公司的平台服务于手机游戏的获客、变现、以及发行业务。目前市值超过1000亿美金。 Martech,即营销技术,是指企业用于自动化、简化和优化营销工作的各种工具和技术。 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】
- ChatGPT变身Agent:解读o3的进化与OpenAI的Agent野心
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术与商业变革的节目,汇聚AI创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们! OpenAI发布了其推理系列最新模型o3及o4-mini,毫无疑问,它在各类榜单里再次刷新高度。然而,我们认为最新的模型发布里隐藏了OpenAI的重要发展线索和对Agent方向的巨大野心。o3系列模型开始引入一系列的工具调用能力,朝向一个通用的Agent Model迈出重要一步。其视觉推理能力,则解锁了更多的多模态的应用场景。OpenAI的能力进化将怎样影响AI应用生态?本期我们将围绕OpenAI的最新模型进化一起聊聊。 【主持人】 Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。 【本期嘉宾】 小晨,北大博士,互联网大厂工作多年,关注RAG/Agent等大模型应用落地、大模型数据处理以及模型评测。 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 【本期内容】 🟢 Part 1 openAI喵向通用Agent Model 00:01:46 o3及o4-mini发布,最大的亮点是什么? 00:05:40 怎么看待o系列推理模型在各种测试集上的进步? 00:08:49 普通人很难感知o系列推理模型的进步 00:11:04 模型评估的范式需要变革,可能需要瞄准解决新问题的能力 00:13:56 openAI要将o系列模型发展成通用Agent模型? 00:16:45 内嵌工具调用能力的o3可能是更好的Agent范式 00:22:31 Agent的未来可能是自己发现并调用工具 00:26:35 o系列模型还将怎么进化? 00:31:28 o3相比于o1的进步是如何实现的? 00:37:23 Agent的生态将会怎么变化,openAI的边界在哪里? 00:40:22 通用Agent可能很快出现,垂直Agent更容易做了 00:45:24 openAI为何要进军AI编程赛道? 🟢 Part 2 视觉推理:解锁多样应用 00:49:59 本次发布的视觉推理能力有什么厉害之处? 00:53:43 视觉推理将解锁哪些应用? 00:55:43 图像识别是不是被颠覆了? 00:57:18 具备视觉推理能力的机器,可能就更懂人了 🟢 Part 3 推理模型的未来进化 01:02:14 o系列模型什么时间会遇到瓶颈? 01:05:00 Agent可利用的数据范围比LLM更广 01:07:28 AI发展的下半场,从解决问题转到定义问题 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】
- 走向强化学习:Agent还是应用公司的机会吗?对话Pokee.ai创始人朱哲清
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术与商业变革的节目,汇聚AI创业者、投资人以及大厂一线的实践与观察。我们期待与您共同见证超级智能的到来,迎接硅基觉醒的年代。欢迎在小宇宙平台和微信公众号搜索「硅基觉醒」订阅我们! 随着对Agent的讨论进入深水区,强化学习(RL)成为绕不过去的一个话题。尤其以OpenAI的Deep Research开启的基于强化学习的Agent,正成为新的Agent范式。但是Agent的强化学习怎么做,技术门槛有多高,普通创业公司能否参与,围绕Agent的强化学习有太多待解的问题。尤其随着近期基座模型能力的提升,“模型即产品”的论调卷土重来,大模型公司将如何参与Agent的竞争,又将带来哪些行业变革机会? 本期我们邀请了Pokee.ai创始人朱哲清共同讨论,他正在做基于强化学习的通用Agent产品,具备丰富的强化学习经验和一手的Agent的实践经验。 【主持人】 Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。 【本期嘉宾】 朱哲清Bill,Pokee.ai创始人,斯坦福博士,前Meta应用强化学习负责人。 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 【本期内容】 🟢 Part 1 Pokee.ai:瞄准下一代的AI Agent 00:02:05 Pokee.ai的愿景:下一代的Foundation AI Agent 00:04:36 Agent需要能对真实世界产生影响 00:06:36 Manus属于下一代Agent吗? 00:08:54 Pokee.ai从0开始训练RL模型,可调用上千个工具 00:09:27 与OpenAI Deep Research的差异化 00:11:06 Deep Research的实现方法 00:12:37 通用Agent vs 垂直Agent 00:18:27 垂直Agent可能长在通用Agent上面 00:24:44 通用Agent什么时候能落地? 🟢 Part 2 技术深入:Agent强化学习的实现细节 00:27:38 Agent的强化学习是如何实现的? 00:32:01 实现强化学习的成本有多高? 00:37:10 技术层面,Agent的强化学习与LLM训练过程中的RL有啥区别? 00:44:57 实现Agent的强化学习最难的技术部分是什么? 00:48:06 为什么过去强化学习不具备泛化性,而现在能解决通用问题? 🟢 Part 3 商业变革:模型即产品论调卷土重来? 00:52:37 重提模型即产品 00:54:28 OpenAI不可能做出一个供应链领域的Agent 00:56:30 Agent领域大模型公司和应用公司的边界划分 01:04:03 未来SaaS行业会被Agent取代吗? 01:06:23 如何招募Agent的强化学习人才 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】
- 生图领域大变天?SD还有价值吗?原生多模态与下一代交互
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术和商业变革的节目,汇聚了AI创业者、投资人、以及大厂一线的实践和观察。我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。欢迎大家在小宇宙平台和微信公众号关注我们! GPT-4o正式发布图片生成功能,经过硅基觉醒团队测试,相比原有的Stable Diffusion等方案在文字可控性、一致性、交互性方面实现了质的突破。有自媒体惊呼,AI大模型的一次迭代又干翻了很多创业公司的努力。AI图像生成领域是否迎来大变天?SD,Midjourney,以及过去围绕AI生图创业的团队该何去何从?GPT-4o所代表的原生多模态大模型路线将产生什么样的变革?追赶这一技术路线又需要怎样的投入? 本期我们将围绕GPT-4o和它所代表的原生多模态大模型深入聊聊。 【本期嘉宾】 Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏同学,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 提示词:请创建一幅图像:在森林中用树木排列成"你好!"三个字符。 提示词:请帮我给我的AI播客设计一个头像LOGO,希望具备科技范,未来感,符合AI的主题,同时图片里需要包含醒目的四个中文字,硅基觉醒 (GPT-4o连续故事情节生成展示) 提示词:现在咱们开始生成一组真实风格的照片。场景1: 一个蓝色短发的男孩A刚睡醒,收到了手机上的地震预警;场景2: 男孩A走出房门,刚好看到隔壁红色头发的女生B,询问了地震的情况;场景3: 女生B跑到楼下的老师办公室 【本期内容】 🟢 Part 1 多模态技术突破&下一代GUI 00:00:33 GPT-4图像生成能力开放——创业者直面技术代差冲击 00:02:06 GPT-4图像实测——哪些能力突破引发惊呼? 00:06:20 文字可控性、复杂场景可控性、一致性 00:10:56 风格化输出能力,吉卜力风格出圈 00:17:00 指令跟随能力提升,生图门槛进一步下降,告别咒语 00:22:00 生图领域将解锁哪些新应用场景 00:25:48 下一代用户交互界面GUI 🟢 Part 2 原生多模态模型 00:38:48 SD工作流还有价值吗?是不是彻底被颠覆了 00:44:00 SD工作流为范式的生成 vs GPT-4o原生多模态大模型 00:48:25 原生多模态大模型的训练方式有什么不同 00:56:18 复现GPT-4o成本是多少? 01:02:40 原生多模态是否会提升模型的智力水平? 🟢 Part 3 多模态行业震荡与演进 01:05:38 谁能率先复现GPT-4o的工作? 01:13:15 GPT-4o生成的速度与成本 01:18:30 视频生成是否也会被颠覆?国内视频生成企业如何面对? 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】
- Manus爆火背后的Agent革命:深度解析技术、成本与护城河
hi,这里是硅基觉醒。 这是一档围绕AI前沿技术和商业变革的节目,汇聚了AI创业者、投资人、以及大厂一线的实践和观察。我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。欢迎大家在小宇宙平台和微信公众号关注我们! 2025年被广泛视为「AI Agent元年」,随着复杂推理能力的突破,大模型从实验室走向规模化应用,AI Agent成为最受关注的应用方向。近期,OpenAI升级Agent API、Manus爆火等现象引发热议,但如何理解其本质与发展路径?本期节目邀请多位资深从业者共同讨论。 【主持人】 Harry,7年一级市场投资经验,2年互联网战略经验,AGI信徒。 【本期嘉宾】 史业民,北大博士,前智源研究院研究员,研究方向为实时多模态模型、Multi-agent框架。 小苏,互联网大厂工作多年,丰富的投融资、出海以及产品运营经验,目前在做AI Agent产品的内部孵化。 陈光耀,北大博士,目前在康奈尔大学做博士后,主要研究方向为开放世界学习和多智能的合作学习。 【本期内容】 🟢 Part 1 Agent核心概念 00:01:59 什么是AI Agent?为什么2025年会是AI Agent元年? 00:03:30 工业界的Agent和学术界的理解是两码事? 00:09:19 目前已经实践成功的Agent产品有哪些? 00:15:27 什么是Agent框架?为什么它如此重要 00:18:22 未来的Agent框架可能会越来越简洁 00:22:36 中心化Agent vs 分布式Agent 🟢 Part 2 技术实现与工程挑战 00:23:24 Agent所需的模型与通用的底座模型差异是什么? 00:26:06 Finetune一个Agent模型的数据从哪里来? 00:27:41 小白应用开发者如何选择Agent框架? 00:33:16 为什么MCP开始火了?对于Agent落地MCP起到啥作用? 00:36:20 Agent的环境感知能力是如何实现的? 00:39:13 Manus总是因为上下文过长任务失败,如何应对这一挑战? 00:43:08 做Agent如何挑选基座模型? 00:45:06 强化学习才是Agent创业公司最核心的技术壁垒? 🟢 Part 3 商业化与未来演进 00:50:52 作为一家Agent公司最核心的壁垒是什么? 00:54:23 什么是垂直场景的专业能力? 01:00:11 Manus爆火的秘诀是什么? 01:02:52 为什么Manus执行任务需要这么久? 01:08:14 Manus打破了那堵墙 01:12:25 执行一个Agent任务成本是2美金 01:16:27 Agent产品应该对标SaaS,而不是2C应用 01:20:28 拥有了世界知识,为什么Agent还要去做search? 01:27:02 为什么Agent任务成功率很低? 01:33:20 通用的Agent,就是AGI 01:39:09 做Agent方向创业,应该如何组建团队? 01:44:04 对2025年Agent的期待与展望 欢迎订阅「硅基觉醒」播客 🚦我们希望一起见证超级智能的到来,迎接硅基觉醒的年代。汇聚AI创业者、投资人、以及大厂一线的实践和观察,在最前沿直击AI的技术与商业演变。 欢迎加入「硅基觉醒」部落,成为首批村民 🔮 与资深AI学者、创业者、投资人深入交流 🤖 寻觅你的技术与商业化伙伴,共商AI创业大计 📩 添加小助理微信【silicon_era】获取入群通道,或者扫描下方二维码,备注【硅基觉醒入群】