【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpeAishaobing的个人播客

【AI日报】EP.214 9月12 快手推出AI视频制作助手Kwali;字节跳动推出USO模型;Ope

6分钟 ·
播放数123
·
评论数0

【效率工具】 🛠️ 快手发布 Kwali:一语生成短视频的多Agent助手

云端多Agent自动拆解卖点、受众与情境标签,生成脚本、匹配镜头并剪辑合成。大幅降低制作成本,帮助商家更快投放。

- 项目链接:kc.kuaishou.com

【开源项目】 🧩 字节跳动开源 USO 模型:打破“风格与主题”对立

以创新训练与海量数据实现风格与主题的灵活融合,显著提升图像生成的精准度与可控性,面向创意与商业设计场景。

- 项目链接:github.com

【行业动态】 📰 微软推出 Copilot Audio 音频模式:更个性化的语音交互

基于 MAI-Voice-1,提供情感、故事、脚本三种模式与多样声音风格;配合 MAI-1 入驻 Office,丰富办公场景语音体验。

- 项目链接:copilot.microsoft.com

【AI模型】 🧠 Stability AI 发布 Stable Audio 2.5:专业音频生成再升级

支持最长三分钟音轨的高质量生成与音频修补,满足复杂音乐创作,并与 WPP 合作强化品牌音频识别。

【技术突破】 ⚡ 阿联酋开源 K2 Think:320 亿参数,号称全球最快

最高每秒 2000 tokens 的生成速度,擅长复杂数学与编程推理;开放权重与训练/部署方案,支持商业落地。

- 项目链接:www.k2think.ai

【行业动态】 📰 微信公众号上线智能回复:数字分身 7×24 小时在线

可学习历史文章与语言风格,提供个性化回复,提升运营效率与用户黏性。

【技术突破】 ⚡ OpenAI 推出 ChatGPT 开发者模式:AI 直接控制外部工具

支持自定义连接器执行写入与复杂任务,多层安全防护保障准确与安全,迈向自动化代理时代。

- 项目链接:platform.openai.com

- 项目链接:platform.openai.com

【开源项目】 🧩 字节 Seed 推出 AgentGym-RL 框架:让 LLM 更会决策

以强化学习训练多轮交互代理,配合 ScalingInter-RL 方法平衡探索与利用;多项任务表现超越商业模型。

- 项目链接:agentgym-rl.github.io

【开源项目】 🧩 月之暗面开源 Checkpoint Engine:LLM 推理原地热更新

最高可在 20 秒内完成万亿参数权重同步,支持数千 GPU 并行,显著减少停机并利于扩展到 SGLang 等框架。

【开源项目】 🧩 B 站开源 IndexTTS-2.0:情感与时长可控的零样本 TTS

引入时间编码实现精准时长控制,音色与情感解耦提升自然度,适用于配音、有声读物与跨语种本地化。

- 项目链接:huggingface.co

【效率工具】 🛠️ Replit 发布 Agent 3:自主性提升 10 倍的编程助手

可基于自然语言生成与优化代码,支持多语言与全流程协作(生成、调试、管理),显著提升开发效率。

- 项目链接:replit.com