AI早报 2025年08月27日
1. 谷歌DeepMind推出Gemini 2.5 Flash图像编辑模型,支持文字指令编辑,已在Gemini应用上线,开发者可通过API和平台试用。
2. 阿里云开源全新多模态视频生成模型通义万相 Wan2.2-S2V,可基于一张图片和音频生成电影级数字人视频,支持真人、卡通、动物等多种类型图片,并支持不同画幅和文本控制。
3. 微软发布开源文本转语音(TTS)模型VibeVoice-1.5B,能生成最长90分钟、最多4位说话者的自然语音,支持跨语言和歌声合成。
4. 香港大学与快手可灵团队提出“Context-as-Memory”方法,解决长视频生成中场景一致性控制难题,通过context learning技术和基于FOV的记忆检索机制提升计算效率。
5. 钉钉推出新型AI办公应用“钉钉ONE”,将采用信息流卡片的形式呈现优先级排序后的工作信息与任务。
6. 英伟达发布新一代机器人专用芯片Jetson Thor,能效提升至3.5倍,采用Blackwell架构GPU,支持生成式AI模型推理。
7. 面壁智能与清华大学NLP实验室联合发布端侧多模态大模型MiniCPM-V4.5,支持视觉、文本、视频理解。

