2026 AGI-Next 前沿峰会 | Qwen技术负责人林俊旸:Towards a Generalist Agent

2026 AGI-Next 前沿峰会 | Qwen技术负责人林俊旸:Towards a Generalist Agent

39分钟 ·
播放数169
·
评论数7

在2026 AGI-Next前沿峰会上,Qwen技术负责人林俊旸讲述了阿里Qwen团队在2025年的最新进展,重点介绍了其通用代理(Generalist Agent)的愿景。团队致力于多模态基础模型,旨在提升语言、视觉和音频的理解与生成能力,并通过开源策略推动技术普及和应用。

通用代理的演进

从模型到代理的理念转变

  • 将模型视为工具使用者,强调其自主利用工具的能力,类似于人类与动物的区别
  • 训练范式从监督学习转向强化学习,通过推理和评估驱动模型训练,实现数字和物理代理的广泛应用

模型开源与社区互动

  • Qwen模型通过chat.qwen.ai平台提供开源和闭源模型的体验,聚合了多种模型功能
  • 开源模型旨在降低研究门槛,特别是为资源有限的硕士生和博士生提供实验机会,促进学术研究

Qwen模型核心能力与进展

文本模型(Qwen-3系列)

  • Qwen-3系列显著提升了推理能力,能够更自然地整合思考过程到回答中
  • 支持119种语言及方言,致力于服务全球用户,尤其关注数据收集困难的非洲语言
  • 上下文长度扩展至百万级,内部已实现数百万,目标是无限长上下文以支持记忆管理和自我认知模型

编程模型(Qwen-Coder系列)

  • Qwen-Coder旨在成为软件工程师代理,能够处理GitHub issues并提交PR,实现多轮交互
  • 在SWE-Bench和Terminal Bench等基准测试中表现出色,目标是更贴近实际生产任务

视觉语言模型(Qwen-VL)

  • 致力于实现人类水平的视觉理解,甚至超越人类在细节识别方面的能力
  • 提升了对电脑和手机的操控能力,并支持图像或视频作为编程输入,减少对文本Prompt的依赖
  • 探索视频理解,特别是第一人称视角(egocentric video),以构建对物理世界的深层理解

多模态生成与未来展望

图像生成与编辑(Qwen-Image)

  • Qwen-Image在图像生成方面取得显著进步,生成的图像接近真实,尤其在自然度和文字生成方面表现突出
  • 图像编辑功能强大,能够精确调整图像元素,如光线和物体位置,满足用户P图需求

音频理解与生成(Qwen-Audio)

  • 采用thinker和talker架构,实现端到端的听与说能力,目标是文本和语音能力的平衡
  • 支持声音定制和通过Prompt描述声音特征,实现更自然的语音交互

全模态融合与强化学习

  • 目标是实现文本、视觉、音频的“三进三出”的全模态模型,结合理解与生成能力
  • 强调强化学习在未来模型训练中的重要性,通过环境反馈实现长期推理和任务加速
  • 代理将走向虚拟和物理世界,通过将自然语言指令转化为可执行动作,实现数字代理和机器人控制
展开Show Notes
庄明浩
庄明浩
2026.1.14
你这是拿到现场的音轨了吗
RayHu
:
YouTube有外媒放了视频做了下音频提取,纯学习用,侵权删。
庄明浩:👌🏻
5条回复
宝藏播客奔走相告 ~~~