- 00:00 AI评估面临的问题:当下AI发展的一个核心问题:人工智能(AI)智能体技术发展迅速且强大,但如何衡量它们在真实世界中的经济价值和生产力提升,是当前面临的挑战。
- 01:02 Expanse项目的提出为了解决AI的实际价值衡量问题,播客介绍了名为“Expanse”的项目,旨在构建一个“路考”或“桥梁”,连接AI的能力与它在真实世界中的生产力。
- 02:00 核心理念:评估应由真实需求定义播客强调,Expanse项目的核心理念是:对AI的评估应该由真实的需求定义,而不是基于抽象的模拟题目,而是直接让AI去完成真实的工作任务。
- 02:21 Expanse在招聘和营销领域的应用Expanse目前主要集中在两个专业领域:招聘和营销。在招聘方面,它通过模拟真实的工作流程来评估AI在职位描述、目标公司定位等方面的能力。在营销方面,主要是评估AI帮助广告活动寻找合适的网红(influencer search)的能力。
- 03:10 Expanse的数据基础和评估方式播客提到,Expanse的评估任务是基于几十个真实的招聘业务场景和50个真实的客户需求,以及800多位候选网红的数据。评估结果是开放式的,并使用大型语言模型(LLM)作为裁判进行评估。
- 03:43 O3模型在招聘和营销测试中表现最佳根据2025年5月的数据,O3 AI智能体在招聘和营销这两个基准测试中排名第一,甚至超越了一些参数规模更大的模型。研究人员推测,这可能与它的训练方式和强大的搜索能力有关,它不是“死记硬背”,而是在实践中不断调整,更灵活高效。
- 04:36 Perplexity工具在招聘任务中的意外发现一个有趣发现是,在招聘任务中使用Perplexity工具的快速搜索版本时,其搜索效果反而比更深入的研究版本更好。这提醒我们,并非信息越多越好,对于某些任务,过多的信息反而会造成干扰。
- 05:07 AI评估范式转变:从技术指标到实际贡献播客总结,Expanse和这些初步发现表明,AI发展的重点正在发生转变。过去可能更关注纯粹的技术指标(例如模型大小、跑分高低),现在则越来越转向衡量AI在特定领域能带来实实在在的生产力提升或经济贡献。
- 05:47 Expanse未来的发展计划:动态基准测试和R.T.统计方法Expanse未来计划将评估任务等级持续更新,以跟上真实世界业务需求的变化。他们还将采用一种名为“适应反应理论”(R.T.)的统计方法,该方法能更准确地推测AI能力随时间的真实增长,即使未来的考题难度或环境发生变化,也能比较公平地衡量进步。
- 06:29 最终目标:衡量AI工具的真实价值播客再次强调,最终还是要落脚到技术市场契合度(TMF)和衡量生产力(M.F.E.)上,确保AI工具真正物有所值。
- 06:49 AI应用发展阶段:人机协作到领域专家主导播客提到,AI应用可能经历多个阶段,最终可能发展到由领域专家自主构建和运用高度定制化的专业AI服务。
- 07:04 思考:AI对行业和日常工作的影响最后,播客提出了一个引人深思的问题:当衡量AI在特定领域的生产力和它的划算程度越来越精确时,这对于我们所在的行业、日常工作意味着什么?哪些任务会被重塑?专业角色会改变?甚至做生意的方式会因此发生根本性变化?播客呼吁每个人持续关注和深入思考,因为像Expanse这样的评估体系越来越贴近真实价值,AI融入工作和生活的脚步会更快,也会更深刻。

如何做专业领域AI的评测?红杉Xbench重塑AI价值衡量标准,告别“跑分游戏”直击生产力
8分钟 ·
51·
0