E2519 智能体·从数据驱动到经验学习，从方法中心到效用导向

▎参考文章

▎核心问题

AI的演进路径是怎样的？当前AI发展模式存在哪些局限性？如何衡量AI的真正进展？未来AI发展的关键要素是什么？高级AI带来了哪些机遇？

▎内容概览

00:00 AI早期理念、人类技能与向经验学习的演变

简单AI交互可涌现复杂现象，体现了“少即是多”的理念，AI智能体有潜力模拟现实社会系统。人类独特的模式识别和情境理解能力与AI的数据处理形成对比。在AI时代，软技能价值提升，人类将适应技术变革，专注于复杂问题解决、创造力和人际连接。AI发展正从数据驱动转向经验学习和效用导向。AlphaGo的胜利及AI在各领域的进步是重要里程碑，强化学习的有效泛化使AI能将习得原则应用于新情境。大型语言模型、海量数据与算力、增强的推理能力是关键组成，使AI能处理更广泛的复杂任务。

04:07 从方法/基准驱动到效用问题与主动学习的需求

AI早期发展侧重于发明方法、模型和算法，利用大量人类生成数据在基准测试中取得领先，是一种方法驱动、基准为中心的方式。然而，依赖人类数据存在局限，高质量数据有限，阻碍AI产生超越人类理解的新见解。存在效用问题，即AI在竞赛和测试中的超人表现与其在实际应用中的效果脱节。尽管AI在基准测试（如律师资格考试）上取得显著进展，但并未带来相应的经济生产力提高或现实问题解决能力的提升，这让人质疑当前优化指标的相关性。需要重新评估AI解决问题的方法，明确其目的并衡量现实世界的进展，从静态数据驱动学习转向通过与环境持续互动的主动学习，标志着AI发展进入经验时代。重要的里程碑包括AlexNet、Transformer架构和GPT-3，这些都侧重于方法论创新而非基准定义。以方法为中心的路径在2020-2025年间显著提升了基准测试准确率，在多领域达到或超越人类水平，但也面临数据有限、原创性不足和效用问题。

08:25 强化学习增强、转向真实世界经验与高级AI支柱

集成大型语言模型和内部推理能力显著增强了强化学习，使智能体能更好地泛化、处理新情况，并可能降低强化学习算法选择的重要性。AI学习从游戏模拟，发展到利用人类数据，再到利用现实世界经验，更加注重实用效用而非基准测试。新时代提出了四大支柱，重点关注终身学习流。AI系统演进的三个关键方面包括：具备记忆的持续终身学习、超越文本限制与世界进行互动式具身交互、基于真实的现实世界奖励进行优化（而非仅仅基于人类偏好）。

12:06 高级AI的真实世界评估、机遇、风险与安全考量

AI通过自我发现的规划和推理展现变革潜力，现实世界互动和人机协作对评估AI能力至关重要。现有基准测试因忽视现实应用中任务的连续性和关联性而受批评，需要转向衡量长期有效性、协作能力和适应性的测试。聊天机器人竞技场和tabesh等创新评估方法旨在模拟更真实的互动，推动AI通过迭代改进和经验学习实现实用效用并超越人类。向高级AI的转变在医学（如AlphaFold）、气候科学和个性化服务（如健康指导）领域带来巨大机遇。自主探索在经济、城市规划和艺术领域有突破性发现的潜力，但也伴随着安全风险、伦理问题和潜在的就业替代。AI自主性的风险包括：对就业市场的冲击、维持与人类价值观一致的挑战、意外后果的风险，以及理解和控制自主AI系统的难度日益增加。经验驱动学习方法可能具有潜在的安全优势，包括适应性、通过人类反馈实现动态价值对齐，以及现实世界实验的自然延迟为人类干预提供了更多时间。

16:15 未来焦点：效用、对齐、主动学习与社会影响

AI研究需关注真实效用、经验驱动学习和安全对齐，在技术进步中优先考虑人类福祉。AI正从基于人类数据的被动学习转向通过现实世界互动的主动学习。这一转变旨在各领域产生实际影响，但也带来对齐、控制和社会影响方面的挑战和风险。需要重新评估AI的开发方法、进展衡量标准和安全集成方式。随着AI自主性增强，人类可能需要新技能才能与之共存。复杂智能可从与环境的简单互动中涌现。