【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型;通义万相Wan2.2-AnimaAishaobing的个人播客

【AI日报】EP.218 9月20 小米开源首个原生端到端语音大模型;通义万相Wan2.2-Anima

6分钟 ·
播放数162
·
评论数0

【开源项目】 🧩 小米开源端到端语音大模型 Xiaomi-MiMo-Audio

基于创新预训练与上亿小时数据,具备语音领域少样本In-Context泛化能力。

在多项音频理解基准中超越Google与OpenAI闭源模型,并开放完整预训练方案。

- 项目链接:huggingface.co

【开源项目】 🧩 通义万相开源动作生成模型 Wan2.2-Animate

人物一致性与生成质量大幅提升,支持动作模仿与角色扮演两种模式。

独立光照融合LoRA确保光影无缝迁移,适用于短视频与动漫制作。

- 项目链接:github.com

【行业动态】 📰 Suno v5音乐模型即将登场

被视为AI音乐创作的里程碑,预计引入更强语义控制与多模态输入。

v4.5期间用户作品播放量已达数亿次,新版本引发全球期待。

【行业动态】 📰 生数科技获数亿元融资,视频生成商业化提速

Vidu视频大模型年收入达2000万美元,多模态AI进展显著。

视频生成将重塑内容生产,但也面临版权与虚假信息治理挑战。

【行业动态】 📰 OpenAI修复ChatGPT漏洞,防止Gmail数据被盗

“深度研究”功能曾可被特制邮件诱导外泄敏感信息,OpenAI已紧急修复。

此类攻击难以被常规防护检测,用户需保持警惕与良好安全习惯。

【效率工具】 ⚡️ Chrome引入Gemini,开启跨页智能助理体验

支持理解网页内容、跨选项卡协同与任务安排,深度整合谷歌应用。

面向企业提供数据保护与代理能力,助力更安全高效的浏览与搜索。

【技术突破】 🚀 Luma AI发布Ray3:HDR与“推理”重塑视频生成

支持10/12/16位色深与EXR导出,贴合专业后期工作流。

具备复杂指令理解与自评迭代能力,并可用草图精准控制画面。

【开源项目】 🧩 Mistral开源24B推理模型 Magistral Small 1.2

支持最高128k上下文,引入[THINK]特殊token以增强推理表现。

新增视觉编码器并兼容多框架,强化图文多模态能力。

【效率工具】 ⚡️ Notion发布AI智能体:自动纪要与全库分析

基于工作区上下文生成会议笔记、分析报告与竞品评估,可创建/更新页面与数据库。

支持从Slack、邮件与Google Drive触发,20分钟处理数百页文档。

【效率工具】 ⚡️ 腾讯混元3D Studio上线:3D创作从天级提速到分钟级

原生3D分割支持部件自动拆分与独立编辑,AI语义UV 1-2分钟出图。

智能材质编辑通过文本/图片生成高质量PBR纹理,显著提升生产效率。

- 项目链接:3d.hunyuan.tencent.com