【AI日报】EP.179 7月10 阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频

### AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支持静态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

**1. 阿里通义开源支持链式推理的音频生成模型ThinkSound**

- 阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound。

- 该模型通过引入思维链技术，突破传统视频转音频技术的局限，实现高保真、强同步的空间音频生成。

- ThinkSound首次将多模态大语言模型与统一音频生成架构结合，实现精准音频合成。

- 研究团队构建了包含2531.8小时高质量样本的AudioCoT数据集，提升模型处理复杂指令的能力。

- ThinkSound在多个测试集中表现优于主流方法，代码和预训练权重已开源，开发者可免费获取。

详情链接:

- [GitHub](github.com)

- [Hugging Face](huggingface.co)

**2. 谷歌Veo3重磅升级，支持静态图片生成生动视频**

- 谷歌宣布对AI视频生成工具Veo3进行重磅升级，用户只需上传一张静态照片即可生成高质量的音频和视频内容。

- Veo3的核心功能包括保持角色在多个镜头下的一致性，并提供丰富的运镜功能，如推镜头。

- 用户可以选择不同质量的生成模型，但需要消耗相应的credits资源。

**3. Hugging Face发布新一代小参数模型SmolLM3: 128K上下文，双模式推理**

- Hugging Face发布了SmolLM3，一款具有30亿参数的小型开源模型，性能优于Llama-3.2-3B和Qwen2.5-3B。

- 该模型支持多种语言处理，并具备双模式推理功能，同时公开了架构细节以促进研究与优化。

- SmolLM3采用先进的transformer解码器架构，通过三阶段混合训练提升能力。

详情链接:

- [Hugging Face](huggingface.co)

**4. 阿里开源WebSailor，具备强大的推理和检索能力**

- 阿里通义开源了网络智能体WebSailor，在中英文任务的BrowseComp评测集中表现出色，超越了DeepSeek R1和Grok-3等闭源模型。

- 银河证券指出AI Agent经济全面开启，并建议关注布局领先的SAAS企业。

- 相关上市公司如焦点科技和中科金财已在AI Agent技术应用上有所布局，推动了智能体技术的发展。

详情链接:

- [GitHub](github.com)

**5. Moonvalley发布Marey Realism v1.5: 原生1080P AI视频模型，零版权风险引领行业新风向**

- Moonvalley推出的Marey Realism v1.5 AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。

- 该模型具有原生1080P视频生成能力，基于授权内容的训练数据以及精准解读复杂提示的能力，为影视制作和广告创意提供了更安全、高效的工具。

**6. Vidu Q1震撼升级: 参考转视频支持最多七张图像，AI视频生成再创新高**

- Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像，生成视觉一致性极高的1080p视频。

- 该技术通过语义融合确保多图像元素在视频中保持一致，解决了传统AI视频生成中的场景断裂或角色失真问题。

**7. 苹果研发类似ChatGPT AI客服助手，提升用户体验**

- 苹果公司正在开发一款基于人工智能的‘支持助手’，旨在为用户提供更智能和高效的客户服务体验。

- 该功能已在Apple Support应用代码中被发现，未来将允许用户在联系客服前获得AI生成的解决方案，提高服务效率。

**8. 飞书重磅发布多款AI新品，打造企业级“豆包”**

- 飞书发布了多款AI产品，包括知识问答、AI会议、Aily、飞书妙搭等，旨在加速AI在企业级应用中的落地。

- 同时，飞书还推出了业界首个AI应用成熟度模型，帮助企业评估AI产品的实际效果。

**9. 微软、OpenAI与Anthropic联合推出教育工作者AI培训中心**

- 美国教师联合会（AFT）联合微软、OpenAI和Anthropic成立全国人工智能教育学院，旨在为教师提供免费的AI工具培训。

- 该项目获得2300万美元资金支持，推动教育领域的技术变革。

**10. 昆仑万维重磅发布Skywork-R1V3.0: 跨模态推理能力直逼人类专家**

- 昆仑万维发布Skywork-R1V3.0，展现出卓越的多模态推理能力，训练样本少但表现出色，达到了人类专家水平。

- Skywork-R1V3.0在跨模态推理中取得76.0分，超越多款闭源模型。

- 该模型使用1.2万条微调样本和1.3万条强化学习样本进行训练，在物理、逻辑和数学推理测试中表现优异。