在2026 AGI-Next前沿峰会上,Qwen技术负责人林俊旸讲述了阿里Qwen团队在2025年的最新进展,重点介绍了其通用代理(Generalist Agent)的愿景。团队致力于多模态基础模型,旨在提升语言、视觉和音频的理解与生成能力,并通过开源策略推动技术普及和应用。
通用代理的演进
从模型到代理的理念转变
- 将模型视为工具使用者,强调其自主利用工具的能力,类似于人类与动物的区别
- 训练范式从监督学习转向强化学习,通过推理和评估驱动模型训练,实现数字和物理代理的广泛应用
模型开源与社区互动
- Qwen模型通过
chat.qwen.ai平台提供开源和闭源模型的体验,聚合了多种模型功能 - 开源模型旨在降低研究门槛,特别是为资源有限的硕士生和博士生提供实验机会,促进学术研究
Qwen模型核心能力与进展
文本模型(Qwen-3系列)
- Qwen-3系列显著提升了推理能力,能够更自然地整合思考过程到回答中
- 支持119种语言及方言,致力于服务全球用户,尤其关注数据收集困难的非洲语言
- 上下文长度扩展至百万级,内部已实现数百万,目标是无限长上下文以支持记忆管理和自我认知模型
编程模型(Qwen-Coder系列)
- Qwen-Coder旨在成为软件工程师代理,能够处理GitHub issues并提交PR,实现多轮交互
- 在SWE-Bench和Terminal Bench等基准测试中表现出色,目标是更贴近实际生产任务
视觉语言模型(Qwen-VL)
- 致力于实现人类水平的视觉理解,甚至超越人类在细节识别方面的能力
- 提升了对电脑和手机的操控能力,并支持图像或视频作为编程输入,减少对文本Prompt的依赖
- 探索视频理解,特别是第一人称视角(egocentric video),以构建对物理世界的深层理解
多模态生成与未来展望
图像生成与编辑(Qwen-Image)
- Qwen-Image在图像生成方面取得显著进步,生成的图像接近真实,尤其在自然度和文字生成方面表现突出
- 图像编辑功能强大,能够精确调整图像元素,如光线和物体位置,满足用户P图需求
音频理解与生成(Qwen-Audio)
- 采用thinker和talker架构,实现端到端的听与说能力,目标是文本和语音能力的平衡
- 支持声音定制和通过Prompt描述声音特征,实现更自然的语音交互
全模态融合与强化学习
- 目标是实现文本、视觉、音频的“三进三出”的全模态模型,结合理解与生成能力
- 强调强化学习在未来模型训练中的重要性,通过环境反馈实现长期推理和任务加速
- 代理将走向虚拟和物理世界,通过将自然语言指令转化为可执行动作,实现数字代理和机器人控制

