【AI日报】EP.200 8月20 腾讯推音效生成工具AudioGenie；阿里推智能体WebWatcher

【AI日报】阿里开源Qwen-Image-Edit；淘宝"AI万能搜"功能灰度测试；小红书发布DynamicFace人脸生成技术

1. 【AI图像编辑】阿里开源Qwen-Image-Edit：中文渲染秒杀GPT-4o，精准文本编辑+语义外观双控

* 突破性文本编辑能力，支持中英文精准渲染，尤其在中文场景下表现卓越

* 双重编码机制确保语义与外观的平衡，提升图像编辑的准确性和视觉一致性

* 开源赋能全球AI创作生态，提供多种平台和工具支持，推动技术普及与应用

详情链接：github.com

2. 【电商AI】淘宝"AI万能搜"功能灰度测试，探索电商新购物模式

* AI万能搜基于大模型技术，提升用户购物决策效率

* 功能聚焦穿搭指南、送礼清单、选购攻略和问口碑四大场景

* 用户可清晰看到AI的思考逻辑，包括获取信息、查询需求和分析总结

3. 【人脸生成】小红书发布DynamicFace人脸生成技术，实现高质量图像视频人脸融合

* DynamicFace技术强调可控性，允许用户对人脸生成过程进行精确控制

* 该技术在图像和视频两个维度都实现了优化，特别是在保持高度一致性方面表现突出

* 小红书在推出这一技术的过程中，如何平衡创新与安全将是业界关注的重点

4. 【API升级】Gemini API重磅升级！URL Context功能上线，网站内容直接变现新模式来袭！

* URL Context功能让开发者可以直接在提示中提供网页链接，模型自动访问并解析内容，提升开发效率

* 使用URL Context时，提取的内容将计入输入Tokens费用，需权衡成本与内容量

* 新的商业模式可能通过联盟机制实现，内容提供商可从Tokens费用中分得利润，激励高质量内容生成

详情链接：ai.google.dev

5. 【AI模型】Nvidia推出新型小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关

* Nemotron-Nano-9B-v2是一款新型小型语言模型，支持用户灵活控制推理功能

* 模型基于混合架构，能够高效处理长序列信息，适用于多语言任务

* 以开放模型许可证发布，允许商业用途和衍生模型的创建

详情链接：huggingface.co

6. 【图像生成】马斯克发布Grok Imagine 0.1版本，野心打造宇宙最强想象力放大器

* Grok Imagine是xAI推出的图像生成功能，目标是与DALL-E、Midjourney等竞争

* 马斯克公开承认当前版本仍需改进，但对未来发展充满信心

* 功能定位为"想象力放大器"，旨在帮助用户拓展创意思维和想象边界

7. 【移动开发】Vercel v0 iOS版发布：AI驱动的移动开发新篇章

* Vercel v0 iOS版正式推出，为移动开发者带来全新构建体验

* 利用自然语言提示生成全栈Web应用，提升开发效率

* 现已开放候补名单注册，欢迎开发者抢先体验

详情链接：v0.app

8. 【智能汽车】理想汽车发布MindGPT 3.1智能体模型，每秒200字符输出速度提升5倍

* MindGPT3.1将智能体能力深度融入大模型架构，支持边想边搜功能

* 每秒输出速度最高可达200个tokens，性能提升近5倍

* 代码能力增强，可实现贪吃蛇游戏、弹球控制等经典编程案例

9. 【动漫制作】AI技术简化动漫制作流程，ToonComposer实现自动上色和生成动画

* ToonComposer通过生成式AI技术，简化了动画制作流程，用户仅需一张草图和一帧彩色图像即可生成完整动画

* 该系统可节省高达70%的人工工作时间，让创作者专注于创意

* 提供区域控制功能，用户可自由标记草图区域，系统会智能填充，提升创作效率

10. 【音频生成】ElevenLabs发布全新视频到音乐生成流程

* 视频到音乐生成流程：基于视频内容自动生成定制化配乐

* AI学生包：提供免费积分和折扣工具，支持教育领域应用

* 技术与商业突破：扩展多模态能力，并推动AI音频生态升级