GPT-5.1发布，自监督学习框架突破，AI数据中心建设加速，李飞飞世界模型新进展|奇绩前沿信号1114

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。

我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。

播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。

针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。

点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。

【奇绩前沿信号介绍】

【时间轴】

00:11 OpenAI 推出 GPT-5.1：更聪明也更“有人味”

01:12 布朗大学与纽约大学提出LeJEPA：首个无启发式的可证明自监督学习框架，实现理论最优与实践简洁的统一

03:21 Anthropic宣布500亿美元AI数据中心建设计划，加速美国基础设施布局

04:37 Meta在威斯康星州启动第30座AI数据中心建设——兼顾算力扩展、社区共建与生态修复

05:39 李飞飞World Labs发布Marble多模态世界模型

07:28 英伟达发布SONIC：100万帧数据训练的人形机器人通用运动控制系统，实现跨模态统一控制

08:18 清华大学与复旦大学等机构发布JustRL：以极简强化学习配方，实现小模型性能超越同类SOTA

09:06 MIT与Transluce联合发布：训练语言模型解释自身计算过程，揭示"特权访问假说"的有效性

09:44 斯坦福大学提出Feedback Descent：通过成对比较实现开放式文本优化，在分子发现中超越99.9%基准

10:24 Salesforce AI研究院提出GeoGNN:通过测地线聚合消除文本图神经网络中的语义漂移,在多个基准上实现显著性能提升

11:03 英伟达提出TiDAR：首个在保持自回归模型质量的同时实现4.71-5.91倍吞吐量提升的混合架构

11:39 小红书与上海交大提出LoopTool：通过模型感知的闭环数据演化，让8B模型在工具调用上超越32B生成器

12:20 ElevenLabs发布Scribe v2 Realtime，以150毫秒刷新语音识别速度纪录

12:43 Google DeepMind发布像素级自回归建模的缩放定律研究，预测五年内可实现原生分辨率图像生成

13:13 卡内基梅隆大学与Skild AI提出ViPRA：通过视频预测学习机器人动作，仅需百余演示即可实现高频连续控制

13:34 加州大学伯克利分校和普林斯顿大学提出多步拟度量学习（MQE），在最长4000步的长视野任务和真实机器人操作中实现了目标到达的组合泛化

13:56 Meta联合卡内基梅隆大学发布SPIDER：大规模物理感知灵巧重定向技术，实现人类动作向机器人的高效转换

14:16 卡内基梅隆大学提出IFG：融合视觉语言模型与力闭合模拟，实现互联网规模的功能性灵巧抓取生成

14:37 卡内基梅隆大学等发布视觉世界模拟路线图，构建从视频生成到世界模型的四代演进框架

14:59 CellWhisperer将转录组与文本的多模态学习用于交互式单细胞 RNA-seq 数据探索

15:22 教会语言模型用工具推理：中国科大与阿里巴巴Qwen团队提出CoRT框架，显著提升数学推理效率

15:43 字节跳动发布Lumine：首个实时完成3D开放世界游戏数小时任务的通用智能体

16:07 浙江大学与蚂蚁集团发布ProBench：基于精确过程信息的GUI智能体评测基准，揭示现有智能体在真实场景中的重大局限性

如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。