AI集体“升级”? 数学推理更聪明,全模态训练更高效,英伟达把最优控制玩出新算法| 奇绩前沿信号EP|奇绩创坛

AI集体“升级”? 数学推理更聪明,全模态训练更高效,英伟达把最优控制玩出新算法| 奇绩前沿信号EP|

14分钟 ·
播放数204
·
评论数5

奇绩前沿信号播客——全球 AI 前沿的情报站

奇绩前沿信号依托奇绩内部的研究体系,持续追踪并解读全球 AI 领域前沿的论文和产品动态。

我们将这些内容以 AI 与生成播客的形式分享,用通俗易懂的方式呈现复杂技术,帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。

播客每日分享内容由奇绩行研实习生与 AI 共创,播客语音由 OpenMOSS (奇绩 2025 年春季创业营校友企业模型)支持。

针对每日前沿信号内容,我们还准备了进阶版的解读,提供更系统、深入的分析,涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。

点击下方链接获取完整版内容,也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群,一起追踪 AI 最前沿的信息。

apply.miracleplus.com

【奇绩前沿信号介绍】

  • 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪,只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号:
  • 认知模型突破、多模态跃迁、智能体进化……
  • OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向
  • Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆

【时间轴】

00:25 上交、AI Lab、港中文与复旦团队提出 RLCCF,改善 LLMs 数学推理并扩展集体能力边界

01:09 字节跳动Seed开源VeOmni框架,为全模态模型组合设置高效的并行训练方案

01:52 阿里通义千问提出Qwen-Image-Edit模型,兼具语义与外观的双重精准编辑能力

02:55 南洋理工大学等提出4DNeX,让单张图片生成动态3D世界成为可能

03:55 WIRobotics 推出 ALLEX:一款多功能新型通用 HouseBot

04:38 斯坦福提出自引导动作扩散(Self-GAD)方法,让机器人扩散模型在生成动作时能够参考之前的决策来自我纠偏

05:37 浙大&上海AI研究院发布观察中心的视觉-语言-动作策略OC-VLA,让机器人学会用相机的视角思考

06:30 北京中日友好医院提出DermINO模型,超越人类专家的诊断精度

07:31 生物启发水下软体机器人的全面框架

07:56 卡尔斯鲁厄理工学院、英伟达等机构提出路径空间中信赖域约束的测度传输在随机最优控制和推理中的应用

08:56 阿里&南京大学发布研究:让机器学会像老师一样出题

09:44 字节seed推出FutureX:用对未来事件的预测动态考察AI智能体能力

10:55 Meta发布OptimalThinkingBench,评估大语言模型的过度思考与思考不足

11:43 商汤发现GPT-5空间理解能力达到领先水平,但仍远未达到人类水平

12:33 AI发展方向激辩:Hinton提出“AI母亲”理论,李飞飞强调人类尊严

13:22 英伟达最新研究引发热议:小模型或成智能体发展新方向

如果你对今天的前沿信号感兴趣或有自己的思考,也欢迎在评论区留言交流,期待与你碰撞更多观点。

展开Show Notes
我这非专业人士听起来很棒👍
06:10 OpenMOSS的语音跟豆包差太远了
HD320088o:感谢您的反馈!由于 moss ttsd 是一个轻量级的开源模型,和一些商用闭源模型在定位上有所不同。相比于一些闭源ai博客产品,我们提供了完全可商用的开源代码(https://github.com/OpenMOSS/MOSS-TTSD)和API接口(https://cloud.siliconflow.cn/me/models?target=fnlp%2FMOSS-TTSD-v0.5),允许用户精准地控制生成内容,为需要深度集成和定制化的场景提供了便利。我们的新版模型也正在训练迭代中,如果您有什么具体的建议可以向我们反馈,您的宝贵建议会被采纳进后续的模型迭代方向里。
不爱吃面爱吃卤煮:最大的建议就是生成的语音不要像机器说,增加语气、停顿、气场、语境等等,自然点,你可以用豆豆试试,虽然定位不同,但是生成播客很自然很自然,不说豆包可能都听不出来的
3条回复