DeepSeek超连接训练,李飞飞视频模型控机器人,Lecun验证世界模型,交大提速20倍|奇绩信号0104

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。

我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。

播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。

针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。

点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。

apply.miracleplus.com

【奇绩前沿信号介绍】

基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪，只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号：

认知模型突破、多模态跃迁、智能体进化……

OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向

Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆

【时间戳】

01:14 DeepSeek-AI提出流形约束超连接（mHC），在保持性能提升的同时解决了超连接架构的训练不稳定性问题

03:27 斯坦福大学李飞飞团队提出Dream2Flow：通过3D物体流将视频生成模型转化为开放世界机器人操控系统

05:25 Meta Yann Lecun团队和INRIA团队揭示JEPA世界模型规划成功的关键要素，在导航与操控任务中超越现有基线

06:46 上海创智学院，上海交通大学刘鹏飞团队GAIR联合发布LiveTalk：通过改进的在策略蒸馏实现实时多模态交互视频扩散，达成20倍推理加速与亚秒级响应

08:09 斯坦福大学等机构提出端到端测试时训练（TTT-E2E），在长上下文语言建模中实现了与全注意力相当的性能，同时保持常数推理延迟

09:14 谷歌发布MS-SSM：通过多尺度状态空间模型实现高效序列建模的新突破

10:13 谷歌提出Trellis：通过在线梯度下降学习动态压缩注意力机制的键值记忆，在长文本建模中实现突破性性能

11:02 普林斯顿大学等机构发现：小规模训练实验中的固定超参数配置会导致数据配方评估结论失效，提出用极小学习率训练代理模型可显著提升跨尺度迁移性

12:02 谷歌DeepMind与德克萨斯大学奥斯汀分校提出RISE框架：无监督发现大语言模型推理过程中的思维行为，实现可控推理路径干预

12:49 小米发布MiMo-Audio：首个实现语音领域"GPT-3时刻"的音频语言模型，通过1亿小时预训练数据展现强大的少样本学习能力

13:39 斯坦福大学与麻省理工学院韩松团队等提出自回归视频记忆压缩预训练框架，实现20秒历史视频压缩至5k上下文长度并保持高保真度重建

14:28 腾讯混元团队发布HY-Motion 1.0：首个十亿参数级文本生成3D人体动作模型，覆盖200+动作类别

15:16 腾讯混元团队发布HY-MT1.5模型技术报告，1.8B参数达到超大模型90%性能

16:06 新加坡国立大学提出D²VLM框架，通过分解学习显著提升视频语言模型的时序定位能力

16:54 上海AI Lab等提出DiffThinker，通过扩散模型实现生成式多模态推理，在视觉推理任务上相比GPT-4o提升314.2%

17:33 北京智源研究院等提出RoboMirror：首个无需姿态重定向的视频到人形机器人运动框架，实现'理解后模仿'的端到端控制

18:20 北京智源研究院等提出RoboPerform：首个音频驱动的类人机器人全身运动控制框架，实现音乐舞蹈与语音手势的实时生成

18:56 北京智源研究院等提出Robo-Dopamine框架，通过通用奖励模型实现机器人高精度操作，仅需约1小时交互即可达成95%成功率

19:38 字节跳动发布GR-Dexter技术报告：首个基于21自由度灵巧手的双臂通用操作系统，在长时域任务和跨域泛化中展现突破性表现

20:19 多模态数据预训练：迈向自主系统空间智能的路线图

21:01 普林斯顿大学提出Web世界模型（WWM），实现了可控且开放的无限环境生成

21:45 加州大学伯克利分校和洛桑联邦理工学院提出CASCADE框架，实现AI智能体从工具使用到技能获取的范式转变，在材料科学研究任务中达成93.3%成功率

22:26 中国电信TeleAI与华为联合发布TeleChat3-MoE：首个端到端在国产昇腾NPU集群上训练的万亿参数级MoE大模型，实现近线性扩展与高效训练

23:05 阿里巴巴通义实验室提出NestBrowse，通过嵌套式浏览器学习框架，让4B小模型在深度信息搜索任务上达到甚至超越大型专有系统的性能

23:45 MIT与IBM联合提出BOAD：通过多臂老虎机优化自动发现层级化软件工程智能体

24:17 理想汽车提出MindWatcher模型，实现了多模态工具集成推理能力的突破

24:48 上海交通大学等提出GeoBench：通过分层评估重新定义多模态几何问题求解能力

25:16 清华大学团队构建NeXT-IMDL基准，揭示了现有AI图像检测模型的"基准幻觉"与脆弱性

25:56 英伟达高管评价特斯拉FSD v14：通过物理图灵测试与端到端自动驾驶的新进展

26:24 Manus创始人肖弘，复盘至暗时刻：Meta收购背后的取舍与AI Agent的未来

如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。