

下一个十年,决定机器人能不能进你家的,不是算力,是手感本期播客划重点: 机器人行业在视觉革命之后,正迎来触觉革命。长期以来,机器人缺乏对物理世界的精细感知能力,而触觉传感器作为关键补充,正成为资本追逐的新热点。以他山科技和华威科为代表的企业,通过解决技术、量产和需求等瓶颈,已实现万颗级出货,预示着触觉传感器产业化闭环的成功跑通及其千亿级市场的巨大潜力。 触觉传感器的崛起与市场爆发 * 机器人感知短板显现: 机器视觉使机器人“看清世界”,但缺乏触觉导致难以执行复杂任务,如判断夹持力度。 * 资本市场热潮: 帕西尼感知科技进入具身智能百亿估值俱乐部;2025年国内触觉传感器相关公司融资20起,总额近18亿元。 * 出货量里程碑: 2025年他山科技与华威科实现超万颗触觉传感器出货量,成为细分赛道“双子星”。 触觉传感器产业化的核心驱动 * 下游需求爆发: 人形机器人、工业机器人、灵巧手和工业夹爪的快速发展,形成规模化传感器需求。 * 产业生态成熟: 国内企业技术与量产能力升级,产品接近国际水平,供应链日趋完善。 * 工程化突破: 头部客户集中式战略绑定带来可预见订单,成本降至商用临界点(如华威科电子皮肤目标百元级)。 他山科技与华威科的差异化路径 * 他山科技:芯片定义感知核心技术: 自研全球首款数模混合AI触感芯片(电容式),实现0.01N高灵敏度多维感知。 产品矩阵: TS-F指尖触觉传感器、TS-E机械手触觉传感器、视触融合训练平台等。 市场地位: 在细分市场占有率超80%,产品覆盖机器人、汽车、家电、医疗等领域。 * 华威科:多模态融合与量产突围核心技术: 多模态融合(压阻+磁传感),结合状态机实现感知模态智能切换。 产品系列: 龙鳞系列(全手覆盖大面积电子皮肤)、灵犀系列(指尖精密感知模块)。 量产优势: 自研生产装备实现成本控制(千元级),2026年计划建成千万片级电子皮肤量产基地。 行业发展的三大共识与未来展望 * 技术为场景服务: 优先考虑实际应用需求而非极致参数(他山电容式避障,华威科多模态应对复杂场景)。 * 量产能力是核心壁垒: 核心工艺自握(他山自研芯片、华威科自研生产装备),跨越样品到产品鸿沟。 * 供应链头部效应显现: 头部供应商与头部整机厂战略绑定,形成订单与联合研发的正向循环。 * 千亿级市场潜力: 一台人形机器人需数百个感知点,未来全球100万台出货量可催生数十亿乃至上百亿级的触觉传感器市场,正从配套零件成长为独立赛道。
触觉,具身智能的最后一张门票本期播客划重点: 具身智能的进步不仅依赖于认知能力,更关键在于机器人对物理世界的精细感知和操作能力,其中触觉扮演着不可或缺的角色。触觉感知的缺失已成为具身智能落地的瓶颈,但也催生了百亿美元级、高速增长的触觉传感器市场。当前该市场技术路线多元、竞争激烈,正从单纯的硬件比拼转向数据生态与模型能力的卡位。 触觉传感器在具身智能中的核心价值与市场机遇 * 关键性作用: 触觉是机器人实现亚秒级反馈、力控、滑移补偿和微调动作的最后一环,使机器人能够进行拟人化操作、安全交互和环境自适应。 * 市场规模与增长: 2024年全球触觉传感器市场达153.3亿美元,预计2031年将增至355.9亿美元,年复合增长率达12.8%。 * 投资热潮: 2025年国内触觉传感器赛道累计融资近18亿人民币,同比增长约445%,其中单笔过亿元融资7起。 * 应用领域: 主要围绕夹爪、灵巧手、机器人本体等硬件载体,并延伸至具身智能数据基础设施建设。 主流触觉传感器技术路线与代表玩家 * 磁传感方案: 基于霍尔原理,具有抗干扰强、响应速度快的优势,适用于高端工业、医疗场景。代表玩家是帕西尼感知科技(PX-6AX-GEN3)。 * 视触觉方案: 在传感器内部安装微型摄像头,通过计算机视觉分析形变,提供最高空间分辨率的触觉信息。代表玩家是戴盟机器人(DM-Tac系列)。 * 电容式方案: 应用最广泛、规模化程度最高,结构简单、成本较低,适合中低端工业和消费级机器人。代表玩家包括他山科技(TS-F、TS-E)和福莱新材。 * 空间编码的多维压阻方案: 通过优化材料和工艺,结合半导体技术实现超高密度压阻敏感层以重构多维力场。代表玩家是猿声先达(MultiDT、HexSkin、Tacta)。 * 多模态融合方案: 在单一单元或模块中融合两种及以上传感原理,实现优势互补,提升感知信息的丰富度和准确性。代表玩家是华威科(磁+电阻双模态)。 触觉传感器产业化与商业落地进展 * 夹爪与灵巧手应用: 他山科技的TS-F指尖传感器通过集成接近觉、三维力检测与材质识别,实现抓取鸡蛋无破损、捏纸巾等精细操作,市场占有率超80%。 * 机器人本体集成: 大面积柔性电子皮肤使机器人感知触摸位置和力度,保障人机共处时的交互安全。 * 数据基础设施建设: 帕西尼感知科技建立了全球规模最大的具身智能数据采集基地,具备年产近2亿条全模态数据集的能力,并计划开放给生态伙伴。 * 头部企业出货量: 他山科技和华威科出货量已突破万颗,帕西尼2025年订单超5亿元,戴盟视触觉产品出货量在全球同类产品中排名第一。 市场竞争格局与未来发展趋势 * 技术未收敛与场景分散: 各技术路线均有其优缺点,且下游应用场景需求差异大,导致目前尚未出现统一的技术标准,多种路线并存。 * 价格战与成本下降: 规模化量产导致成本大幅下降,如帕西尼产品单价已降至199元起,推动市场普及。 * 数据与模型挑战: 触觉数据离散、难以关联,给模型训练带来巨大挑战,促使企业开发面向脉冲神经网络的AI触感芯片(他山科技)。 * 生态与大模型布局: 头部企业正从单纯硬件供应商向构建触觉大模型生态转变,如戴盟、帕西尼已推出VTLA模型成果,竞争焦点转向数据生态与模型能力。
英伟达两篇论文,直接宣判VLA死刑?2026年机器人行业最大的技术地震来了本期播客划重点: 2025年,具身智能领域被VLA(视觉-语言-动作模型)主导,但其在物理动作执行和泛化能力上遭遇瓶颈,核心问题在于缺乏对物理世界的“世界模型”。英伟达通过《DreamZero》和《DreamDojo》两篇论文,构建了一种基于视频生成的世界动作模型(WAMs)新范式,成功实现了零样本泛化和高效的跨机体学习,预示着具身智能数据采集和机器认知方式的根本性转变。 VLA模型的系统性缺陷与局限性 * 物理动作执行弱与泛化能力差: VLA能理解复杂文字指令,但在实际机械臂操作中(如调整手腕姿态避开杯柄、解鞋带)表现不佳,且无法泛化超出训练环境的动作。 * 缺乏世界模型: VLA的底层架构与LLM亲缘性强,本质是一个“翻译器”,通过交叉注意力机制将图像映射到文本语义空间,但未系统学习物理世界的连续性、质量、摩擦力等状态转移方程。 * 学习方式的限制: VLA仅学习静态视觉观测与语言指令直接映射到可执行动作的函数关系,不预测动作后果,导致环境稍变就性能断崖式下降。 * 泛化本质与数据困境: 其泛化仅是高维语义空间中的插值,物理形态超出训练集时失效;行业曾归结于数据不足,投入巨资采集数据。 DreamZero:基于世界模型的具身智能新范式 * 颠覆性架构与训练: 采用视频和动作预测同步的端到端训练,解决分步模式不对齐问题;使用14B参数自回归Diffusion Transformer (DiT),实现动作与画面在时间轴上绝对对齐。 * 误差累积解决方案: 引入真实观测注入(real observation injection),在机器人执行动作后获取真实世界画面并塞入KV Cache,斩断误差积累的因果链。 * 速度突破DreamZero-Flash: 通过“解耦噪声调度”,强制模型在高度模糊的视觉输入下预测干净精准的动作信号,实现1步去噪,推理时间从350毫秒压缩至150毫秒(7Hz)。 * 强大的泛化与跨机体能力: 在AgiBot机器人上,零样本完成解鞋带等复杂任务(平均进度39.5%);仅观看12分钟人类视频即提升42%表现,并在30分钟微调后迁移至不同形态机器人。 DreamDojo:强化世界模型训练与数据利用 * 持续优化的道场: 将DreamZero的科研demo转化为可重复的工业流程,涵盖数据摄入、表征对齐、滚动预测、误差诊断。 * 解决VLA数据“三重死穴”: 克服互联网视频标签稀缺、机器人身体异构造成的“工程地狱”以及模型物理因果不可控等问题。 * 聚焦“连续潜在动作”: 设计自监督编码器,通过观察视频前后帧的变化,自动提取“让世界状态发生改变的力量”,即连续潜在动作,而非记录稀疏的绝对关节姿态。 * 数据多样性优先: 实验证明,世界模型需要覆盖率而非重复率,杂乱多样数据(如22个环境,数百任务,500小时)训练的模型泛化成功率远高于重复性高的数据。 * 解锁人类视频资产: 构建DreamDojo-HV数据集(44,711小时第一视角人类交互视频),通过连续潜在动作将人类经验转化为机器人可理解的形式,实现未见真实机器人即可预训练。 具身智能的范式转变与未来展望 * VLA时代终结: DreamZero的出现宣告纯VLA时代的丧钟,行业生态将深刻重塑。 * 数据采集哲学颠覆: 从高成本的实体遥操作转向低成本的互联网视频挖掘,解锁YouTube、TikTok等缺乏动作标签的数据金矿,实现常识获取的降维打击。 * 机器认知方式变革: 机器不再是简单的“翻译官”,而是能在内部构建符合物理定律的微缩宇宙并推演行为后果,标志着通用具身智能的起点。 * 挑战与代价: DreamZero的7Hz速度仍慢,对H100/GB200等顶级硬件要求高,边缘部署成本高昂。 * 长期价值: 算力成本服从摩尔定律,以昂贵算力换取原本不存在的泛化能力,从技术演进长期视角看绝对划算。
1年12轮融资、百亿估值:智平方凭什么是“中国最像特斯拉”的机器人公司?本期播客划重点: 智平方是一家成立不到三年、估值超百亿的具身智能独角兽,近期完成超10亿元B轮融资,成为全球融资最快的具身智能企业。其核心竞争力在于坚定选择端到端大模型技术路线(GOVLA),拥有强大的AI与智能硬件量产复合能力,并已在工业制造、公共服务及新零售领域实现规模化商业落地,被认为是“最像特斯拉”的中国机器人公司。 最像特斯拉的核心基因 * 端到端大模型技术范式: 与特斯拉同选端到端大模型路线,智平方自研全球首个全域全身VLA大模型GOVLA,在开源社区评测中性能位列全球第一。 * AI+智能硬件复合背景: 创始人郭彦东博士曾任微软、小鹏、OPPO高管,核心团队具备AI研发、智能硬件、规模量产与产业化的全栈能力。 * 以量产为导向的制造体系: 智平方从创立之初就以量产为目标,自建产线,计划2026年扩产至年产万台规模。 全球领先的基础模型实力 * 原创VLA架构与GOVLA模型: 行业罕见非套用开源路径,自研GOVLA是全球首个实现全域全身控制的VLA模型,突破传统局限。 * 模型迭代与国际认可: GOVLA 0.0 (RoboMamba) 入选NeurIPS 2024并获图灵奖得主关注,GOVLA 0.5 (FiS-VLA) 全面超越主流模型,多篇论文获顶会收录,被摩根斯坦利列为行业代表。 * 高效数据战略: 采用正反金字塔数据观,强调真实场景作业数据对模型的反哺优化,在大型双臂机器人数据集RoboCOIN中贡献超35%。 商业化与量产落地能力 * 清晰的产品逻辑与商业闭环: 聚焦生产力型通用智能机器人,构建“技术研发-量产交付-场景落地-数据积累-模型迭代”的完整商业闭环。 * 工业级AlphaBot系列机器人: 围绕GOVLA大模型打造,最新款AlphaBot 2采用轮式双臂结构,核心部件无故障运行超5万小时,达到工业级标准。 * 多元场景规模化落地: 在工业柔性制造领域获惠科3年1000台订单;在公共服务领域于交通枢纽常态化运行;在新零售领域推出“智魔方”,计划三年落地1000个。 * 战略资本深度协同: 本轮融资引入百度战投、中车资本、特斯拉生态链企业等,中车资本入局将助力智平方机器人拓展高铁、地铁生产车间应用。
删除10万行代码后,Figure让人形机器人用神经网络“活”了过来本期播客划重点: 1、人形机器人技术演进与神经网络革命。 产品迭代与性能提升: Figure的人形机器人经历了Figure 01(原型,首次运行LLM与神经网络)到Figure 03(主力机型,更美观、功能更强,配备灵活脚趾和手掌摄像头,成本降低90%,重量减轻30磅)的快速进化。 全神经网络技术栈: 机器人控制从早期的C++代码转向完全由神经网络驱动。Helix 2系统移除了全部10.9万行C++代码,实现了基于全身强化学习的“System Zero”控制器,使机器人能像人类一样协调移动。 自主能力飞跃: 神经网络赋能机器人展现出意想不到的行为和强大的适应性,能够全自动完成厨房任务、包裹搬运和零件制造,远超传统预编程的能力。 2、未来愿景、商业化战略与市场潜力。 2026年核心目标: 实现机器人制造机器人(在Baku生产线),以及Figure 03在工业和商业领域的规模化部署(已与多个客户签订部署计划,倾向租赁模式)。 通用机器人技术展望: 致力于构建能与人对话、拥有常识推理、完美记忆并能与物理世界互动的“人类副本”,最终目标是实现融合所有模态的“Omni Model”。 巨大的市场空间: 预测未来地球上将部署数百亿台人形机器人,其市场规模可达50万亿美元,约占人类劳动GDP的一半。 3、研发挑战、供应链与竞争格局。 解决物理世界理解鸿沟: 针对大语言模型(LLM)缺乏对物理世界精细理解的弱点(如“零样本”测试撞墙),Figure成立HARC实验室专注于结合物理与数字世界的AI研究。 垂直整合与供应链自主: 公司选择垂直整合策略,自主制造执行器和电机,以确保技术领先和供应链安全;计划在今年夏天几乎完全摆脱对中国供应链的依赖。 全自动闭环控制: Figure强调其机器人是真正的全自动,而非远程操控或开环重放,通过每秒200次的推理实现对环境的动态响应。 全球竞争态势: 预测美国最终只会有少数2-3家严肃的人形机器人公司存活,并认为“中国”作为一个整体是Figure的主要竞争对手,多数中国公司仍停留在硬件销售或开环控制阶段。 4、硬件设计、算力优化与安全伦理。 硬件创新: Figure 03的手部配备了带有触觉传感器的全新设计,采用软性外壳以增强安全性;机器人面部的屏幕集成了计算单元并提供状态显示。 高效算力与续航: 采用常规GPU进行训练,但在机器人板载使用专用硬件进行推理(成本可降低100倍);机器人单次充电续航4-5小时,支持脚部感应式无线充电(2千瓦,约1小时充满)。 高度重视安全隐私: 公司设有网络安全团队,致力于确保机器人在语义(如不打翻蜡烛)和本质上(不伤害人畜)的安全,最终目标是实现比人类更高的安全标准,如同自动驾驶汽车。 安全承诺: CEO Brett Adcock表示,直到他愿意让机器人全自动地在家中与孩子共处时,Figure才算真正做好了大规模部署的准备。
春晚蔡明“复制人”震撼全场:万元机器人时代来了,你准备好了吗?本期播客划重点: 1、2026春晚机器人“天团”与核心技术 * 松延动力作为独家合作伙伴,携多款机器人亮相小品《奶奶的最爱》。 * 高度拟真仿生人形机器人: 1:1还原蔡明外形,实现眉毛上扬、眨眼、嘴唇开合等细腻微表情,30天内初步完成高拟真仿生人头研发(32个电机,12个嘴部自由度)。 * 消费级“小布米”: 94厘米高,具备孩童般外形,能奶声奶气打招呼、哭泣,通过动作捕捉和强化学习学会21种舞蹈,定位为万元级消费人形机器人。 * 高动态机器人N2和E1: N2完成干净利落的后空翻,E1颈部可稳定升降50厘米并精准抓取物体,展现卓越运动控制能力。 2、机器人情感价值与认知演变 * 机器人与春晚的“前世今生”实现了从“人模仿机器”到“机器模仿人”的跨越,反映社会对机器人认知和期待的演变。 * 松延动力通过深耕“面部系统”及仿生人头,旨在跨越“恐怖谷效应”,实现强交互、强情感共鸣,回答“机器人为何做人形”的关键问题。 * 消费级“小布米”作为“国民孙子”的形象,强调机器人提供情感价值的潜力,与传统工业机器人注重效率的技术路线形成鲜明对比。 * 此次春晚标志着人形机器人行业正从“功能优先”向“情感共鸣”的范式转变,开启人机共生的新图景。 3、市场潜能、产业挑战与未来图景 * 春晚为机器人企业带来巨大曝光和商业机遇,万元级小布米的推出有望激活C端消费市场,推动机器人进入家庭和教育场景。 * 市场预测:摩根士丹利预测2026年中国人形机器人销量同比增长133%;TrendForce预测全球出货量将突破5万台,年增超700%。 * 面临的挑战:规模化量产与成本控制、机器人泛化能力与场景拓展、以及伦理与社会接受度问题。 * 此次亮相预示人形机器人产业将加速C端渗透,推动产业链规模效应,并提升“中国智造”在全球机器人产业中的竞争力。 * 欢迎加入星河频率听友群:
中国具身智能:破除“国外带火”,争夺技术话语权本期播客划重点: 1、技术先见与话语权缺失:Scaling Law的教训。 * Scaling Law起源: 百度在2017年论文《Deep Learning Scaling is Predictable, Empirically》中已详细讨论Scaling现象,Anthropic创始人Dario Amodei在百度北美实验室期间曾研究此概念。 * 成果归属: Dario Amodei离开百度加入OpenAI后,Scaling Law在美国率先开花结果,催生GPT-3.5,使OpenAI声名大噪。 * 历史重演: 作者认为,中国研究者在关键架构上常有先见,却由海外团队带火并收获掌声,这种模式在具身智能领域有重演迹象。 2、VLA模型:从被动工具到自主智能体的跃迁。 * 核心价值与演进: VLA模型打破传统机器人被动编程范式,使机器人具备自主理解和决策能力,是LLM与VLM技术溢出的结果。谷歌DeepMind的RT-2于2023年7月首次正式提出VLA概念。 * 中国创新代表: 中国公司智平方联合北大等推出轻量化RoboMamba,引入Mamba架构,显著提升效率和推理泛化能力,入选NeurIPS 2024。 * 分层与纯粹端到端: VLA模型的主流路线分为分层端到端(如Figure AI、星动纪元)和纯粹端到端(如Physical Intelligence、自变量机器人),星动纪元早在2024年9月就推出了HiRT快慢分层架构及国内首个控制机器人四肢及灵巧手的ERA-42模型。 3、世界模型:赋能机器人预判与环境理解。 * 核心作用: 世界模型旨在弥补VLA模型的“开环执行”不足,让机器人通过构建虚拟环境模型,提前推演动作后果,从而具备预测与想象能力。 * 主流技术路线: 业界对世界模型尚无统一定义,主要有杨立昆(V-JEPA架构,视频学习)、李飞飞(空间智能,3D结构推断)和谷歌DeepMind(Genie,生成可交互虚拟世界)三条技术路线。 * 中国贡献: 星动纪元于2024年12月发布VPP算法框架,是全球首个深度融合世界模型与VLA的算法,利用视频训练AI理解世界并实现通用机器人策略。2025年10月,星动纪元联合PI团队发布Ctrl-World,首次提出可控生成式世界模型。 4、强化学习:实现具身智能的自主优化与进化。 * 互补作用与核心机制: 强化学习(RL)是具身智能实现“优化”的关键,与VLA的感知理解、世界模型的预测想象形成完美互补,通过“试错-奖励”闭环让机器人自主探索最优策略。 * 挑战与离线学习: 早期受限于高昂硬件成本和奖励函数设计难度,多局限于虚拟仿真。近期离线强化学习(如Sergey Levine团队的π*0.6模型)降低了训练成本,但泛化能力不足。 * 中国在线学习突破: 星动纪元2025年5月发布的iRe-VLA框架,实现全球首次将在线强化学习融入VLA模型,其核心思路成为π*0.6模型强化学习模块的重要参考来源。灵初智能和智元也推出分层VLA+RL算法模型(Psi-R1)和真机强化学习技术,加速产业落地。 更多内容,请点击这里阅读:具身智能,是时候跳出“中国先研,国外带火”的怪圈了
灵巧手:具身智能时代,谁能攻克工业“硬骨头”?本期播客划重点: 1、具身智能与灵巧手产业发展趋势 2025年量产元年与数据飞跃:全球人形机器人出货量接近1.8万台,灵巧手量产数超2万台,标志着产品从原型走向生产线。 行业共识与战略重心转移:行业普遍认为真正的价值高地在于充满挑战的工业场景。 未来命题:2026年起,行业重心将是如何在规模提升之外,让技术发挥更坚实、更不可替代的产业价值。 2、工业刚需与灵巧手核心价值 工业自动化升级驱动力:人口老龄化导致的用工短缺、高危岗位招人难、人工成本攀升以及精密制造对操作精度的持续提升。 政策导向:明确鼓励机器人应用于高危、恶劣的一线环境,解决人力难以胜任的问题。 灵巧手价值靶心:凭借模拟人手的灵活操作能力,适配复杂工业场景,解决人工难以完成的精密、高危、繁重作业。 3、灵巧手工业应用现状与挑战 当前应用场景局限:大部分厂商产品落地集中于高校科研、文娱交互、以及极少数工业流水线的标定工序。 行业普遍痛点:绝大多数厂商未能深入“苦、脏、险、累”的核心痛点场景,导致产品无法成为“雪中送炭”的生产力引擎。 核心难题:行业普遍缺乏“需求-产品-训练-落地”的一体化衔接能力,多数厂商仅提供单一产品,与工业产线实际要求严重脱节。 更多内容,请点击这里阅读:工业刚需场景,成了灵巧手玩家2026年的大考