【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型；通义万相Wan2.2-Anima

Aishaobing的个人播客

6分钟 ·10个月前

170

·

0

【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio

基于创新预训练与上亿小时数据，具备语音领域少样本In-Context泛化能力。

在多项音频理解基准中超越Google与OpenAI闭源模型，并开放完整预训练方案。

- 项目链接：huggingface.co

【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate

人物一致性与生成质量大幅提升，支持动作模仿与角色扮演两种模式。

独立光照融合LoRA确保光影无缝迁移，适用于短视频与动漫制作。

- 项目链接：github.com

【行业动态】 📰 Suno v5音乐模型即将登场

被视为AI音乐创作的里程碑，预计引入更强语义控制与多模态输入。

v4.5期间用户作品播放量已达数亿次，新版本引发全球期待。

【行业动态】 📰 生数科技获数亿元融资，视频生成商业化提速

Vidu视频大模型年收入达2000万美元，多模态AI进展显著。

视频生成将重塑内容生产，但也面临版权与虚假信息治理挑战。

【行业动态】 📰 OpenAI修复ChatGPT漏洞，防止Gmail数据被盗

“深度研究”功能曾可被特制邮件诱导外泄敏感信息，OpenAI已紧急修复。

此类攻击难以被常规防护检测，用户需保持警惕与良好安全习惯。

【效率工具】 ⚡️ Chrome引入Gemini，开启跨页智能助理体验

支持理解网页内容、跨选项卡协同与任务安排，深度整合谷歌应用。

面向企业提供数据保护与代理能力，助力更安全高效的浏览与搜索。

【技术突破】 🚀 Luma AI发布Ray3：HDR与“推理”重塑视频生成

支持10/12/16位色深与EXR导出，贴合专业后期工作流。

具备复杂指令理解与自评迭代能力，并可用草图精准控制画面。

【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2

支持最高128k上下文，引入[THINK]特殊token以增强推理表现。

新增视觉编码器并兼容多框架，强化图文多模态能力。

【效率工具】 ⚡️ Notion发布AI智能体：自动纪要与全库分析

基于工作区上下文生成会议笔记、分析报告与竞品评估，可创建/更新页面与数据库。

支持从Slack、邮件与Google Drive触发，20分钟处理数百页文档。

【效率工具】 ⚡️ 腾讯混元3D Studio上线：3D创作从天级提速到分钟级

原生3D分割支持部件自动拆分与独立编辑，AI语义UV 1-2分钟出图。

智能材质编辑通过文本/图片生成高质量PBR纹理，显著提升生产效率。

- 项目链接：3d.hunyuan.tencent.com

在小宇宙打开