Smol训练手册发布，美团开源全模态实时模型，复旦与创智提图像编辑基准，OpenAI与AWS合作|奇绩前沿信号11.5

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩前沿信号依托奇绩内部的研究体系，持续追踪并解读全球 AI 领域前沿的论文和产品动态。

我们将这些内容以 AI 与生成播客的形式分享，用通俗易懂的方式呈现复杂技术，帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。

播客每日分享内容由奇绩行研实习生与 AI 共创，播客语音由 OpenMOSS （奇绩 2025 年春季创业营校友企业模型）支持。

针对每日前沿信号内容，我们还准备了进阶版的解读，提供更系统、深入的分析，涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。

点击下方链接获取完整版内容，也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群，一起追踪 AI 最前沿的信息。

【奇绩前沿信号介绍】

【时间轴】

00:10 Hugging Face 发布《Smol训练手册》：揭秘构建世界级小型语言模型的完整方法论，SmolLM3以3B参数实现多语言推理突破

02:00 美团发布LongCat-Flash-Omni：首个开源5600亿参数全模态实时交互模型，实现毫秒级音视频响应

02:50 复旦大学与上海创智学院等提出UniREditBench：首个统一推理驱动的图像编辑基准，覆盖真实与游戏世界场景，达成多模态双参考评估

03:48 OpenAI与AWS达成380亿美元算力合作 — 多云战略加速AI基础设施格局重构

04:33 爱丁堡大学等提出OpenSIR：从单一简单问题出发，通过自我博弈实现数学推理的开放式自我进化

05:21 厦门大学与腾讯AI联合提出UME-R1：首次实现推理驱动的生成式多模态嵌入，在78个任务上显著超越传统判别式方法

06:00 香港科技大学与阿里巴巴通义实验室联合提出通用视频检索框架，通过协同设计评估、数据和建模实现跨领域多任务视频嵌入表示

06:46 Adobe Research等发布MotionStream：实现首个实时交互式视频生成系统，达成29FPS流式输出

07:14 南京大学等机构提出Actial：通过视点学习激活多模态大语言模型的空间推理能力

07:56 阿里达摩院与浙江大学等提出UniLumos：基于物理反馈的统一快速图像与视频重光照框架，实现20倍推理加速

08:30 香港科技大学等提出统一扩散VLA模型，通过联合离散去噪实现视觉-语言-动作一体化推理

09:13 耶鲁大学等机构发布首个外科手术视频生成基准SurgVeo，揭示AI在专业医疗领域的"可信度鸿沟"

09:59 英伟达H100 GPU首次入轨，开启太空数据中心验证阶段 — 能源与冷却瓶颈或催生轨道计算新范式

10:38 微软GPU大规模闲置暴露AI基础设施瓶颈 — 电力与数据中心建设滞后制约算力释放

11:14 布朗大学推出Trove：首个支持动态数据管理的灵活密集检索工具包，实现2.6倍内存优化与线性扩展推理

11:54 谷歌DeepMind提出IMO-Bench基准套件，通过答案验证与证明评估推动数学推理鲁棒性评测，其IMO金牌模型在高级证明基准上达到65.7%准确率

12:30 马里兰大学等提出ROVER基准，首次评估统一多模态模型跨模态推理能力，揭示视觉生成与语言推理协同关键缺陷

13:06 上海AI Lab等机构推出TIR-Bench：首个全面评估AI模型"带图思考"能力的基准测试，揭示当前模型在工具驱动视觉推理上的根本局限

13:41 李飞飞等斯坦福学者呼吁大学重掌AI开放科研主导权，以维护公共利益

如果你对今天的前沿信号感兴趣或有自己的思考，也欢迎在评论区留言交流，期待与你碰撞更多观点。