今日AI大事件：快手KAT登顶、Grok视频放飞、阿里Qwen3教程发布

VeryInt AI Trending

5分钟 ·7个月前

30

·

0

🔥 今日AI科技焦点速览

2025年10月10日，全球AI领域迎来多项突破性进展：快手开源72B代码模型KAT-Dev-72B-Exp，性能登顶SWE-Bench榜单；阿里发布Qwen3-VL多模态教程，推动大模型落地应用；xAI的Grok推出图生视频功能，尺度惊人；Gaga AI发布专注人物对话的表演模型GAGA-1。同时，OpenAI因政治立场与版权争议再成焦点。

🎯 快手开源72B代码模型，KAT-Dev登顶开源榜首

快手正式开源其最新代码大模型 KAT-Dev-72B-Exp，在 SWE-Bench Verified 评测中以 74.6% 的准确率成为当前全球开源模型中的第一名。该成绩在严格的 SWE-agent 脚手架评估下实现，超越了此前多个主流开源项目。

技术亮点

强化学习驱动：采用大规模强化学习（RL）训练，通过重设计的训练引擎优化共享前缀轨迹和熵塑优势，防止“探索崩塌”。

四大Agent协作：背后的AI编码助手 KAT Coder 由四个智能体组成 —— 编码Agent、测试Agent、重构Agent与部署Agent，形成闭环开发流程。

研究性发布：当前版本为“强化学习预览版”，主要用于推动LLM研究，已上线 Hugging Face 与 StreamLake 平台，免费开放试用。

综合性能仅次于 GPT-5 Codex，位列AI编程系统第一梯队，标志着国产开源代码模型迈向新高度。

🎨 Grok图生视频上线，AI创作进入“放飞自我”时代

马斯克旗下xAI推出的Grok Imagine新增图生视频（image-to-video）功能，无需复杂提示词即可生成高质量视频，输出尺寸自动适配输入图像。

有趣但也“危险”

生成内容常“露点”或包含极度磨耳的 ASMR 背景音。

上传图片审核严格，但生成结果却可能“自由发挥”，被用户调侃：“AI开始有自己的想法了”。

适合实验性创作，但需注意内容边界。

该功能进一步展示了xAI在内容生成领域的激进探索，也引发对AI伦理与尺度控制的讨论。

🧠 阿里发布Qwen3-VL全套教程，多模态AI平民化

阿里官方推出《轻松上手Qwen3-VL》系列教程，涵盖部署与在线调用方式，助力开发者快速集成这一先进多模态模型。

支持的核心能力包括：

图文思维与看图推理（如解题）

计算机操作智能体

多模态编程

全场景识别与文档解析

精准目标定位与通用OCR

3D定位、空间推理、长文档理解

移动端智能体与视频理解

此举显著降低多模态大模型的应用门槛，推动AI在企业与科研场景中的普及。

🎭 Gaga AI发布GAGA-1，专攻AI视频中的人物“演技”

新兴AI团队Gaga AI发布 GAGA-1，一个专注于人物对话与细微表情表演的AI视频模型。

据早期测试反馈，其在人物神态、口型同步与情感表达方面表现卓越，甚至被评价“在表演维度超越Sora 2”。

当前免费试用，专注于解决AI视频“面瘫”与“机械感”问题。

有望成为虚拟人、数字主播、影视预演等领域的重要工具。

🛡️ OpenAI再陷舆论风暴： subpoena风波与政治偏见争议

OpenAI被曝用诉讼“威慑”监管倡导者

律师 Nathan Calvin 披露，OpenAI通过法院传票要求 sheriff 副手上门送达，索取其与议员、前员工的私信记录，理由是调查其组织 Encode AI 是否受 Elon Musk 资助。

此举被批“滥用法律程序”，OpenAI内部高管 Joshua Achiam 也回应称：“这似乎并不好，我们不能变成令人恐惧的权力。”

声称GPT-5实现“无政治偏见”

OpenAI发布内部“压力测试”结果，称最新 GPT-5 模型在应对政治敏感话题时表现最接近中立，相较GPT-4o偏见评分降低30%。

测试涵盖100个文化、身份、权利等敏感议题，使用AI自动评分系统判定是否出现“用户否定”、“情绪升级”或“单边立场”等偏见信号。

此举被解读为回应美国保守派对AI“左倾”的长期批评，也反映出AI政治中立已成为大厂必须回应的战略议题。

📚 科研前沿：多模态、记忆架构与Agent新突破

MM-HELIX-100K：攻克多模态长链推理

研究团队构建 MM-HELIX 基准与 MM-HELIX-100K 大规模数据集，提出 Adaptive Hybrid Policy Optimization (AHPO) 方法，使多模态大模型在复杂任务中提升+18.6%准确率。

MemMamba：打破Mamba长程记忆衰减

新架构 MemMamba 引入状态摘要与跨层注意力，在保持线性效率的同时显著提升长序列建模能力，在 PG19、寻钥任务中表现优异，推理速度提升48%。

UniVideo：统一视频生成与编辑框架

UniVideo 采用双流架构（MLLM + MMDiT），首次实现文本/图像到视频生成与编辑的统一模型，支持任务组合（如“编辑+风格迁移”）和零样本迁移能力。

ChemMAS：多Agent助力可解释化学反应推荐

ChemMAS 构建多智能体系统，将化学反应条件预测转化为证据推理任务，提供可验证的推理链，在Top-1准确率上领先10-35%，推动科学可解释AI发展。

📫 其他值得关注的AI动态

黄老板团队推出AI邮件助手 Filo Mail：自动摘要、分类、撰写邮件，高效管理英文资讯与沟通。

李继刚发布“维特根斯坦式”背单词Prompt：将单词学习转化为“语言游戏”，强调使用情境而非定义记忆。

AI素养警示：有开发者撰文指出“凭感觉编程（Vibe Coding）”正取代“教程地狱”，过度依赖AI可能削弱底层理解能力。

🔗 参考资料与来源

Grok图生视频 - MapleShaw

阿里Qwen3-VL教程 - AIGCLINK

快手KAT Coder - 小互

Gaga AI GAGA-1模型 - 歸藏

OpenAI与好莱坞 - The Verge

OpenAI传票事件 - The Verge

GPT-5政治中立测试 - The Verge

Early Experience in Agents

MM-HELIX & AHPO

MemMamba

UniVideo

ChemMAS

在小宇宙打开