如何做专业领域AI的评测？红杉Xbench重塑AI价值衡量标准，告别“跑分游戏”直击生产力

8分钟 ·10个月前

51

·

0

00:00 AI评估面临的问题：当下AI发展的一个核心问题：人工智能（AI）智能体技术发展迅速且强大，但如何衡量它们在真实世界中的经济价值和生产力提升，是当前面临的挑战。

01:02 Expanse项目的提出为了解决AI的实际价值衡量问题，播客介绍了名为“Expanse”的项目，旨在构建一个“路考”或“桥梁”，连接AI的能力与它在真实世界中的生产力。

02:00 核心理念：评估应由真实需求定义播客强调，Expanse项目的核心理念是：对AI的评估应该由真实的需求定义，而不是基于抽象的模拟题目，而是直接让AI去完成真实的工作任务。

02:21 Expanse在招聘和营销领域的应用Expanse目前主要集中在两个专业领域：招聘和营销。在招聘方面，它通过模拟真实的工作流程来评估AI在职位描述、目标公司定位等方面的能力。在营销方面，主要是评估AI帮助广告活动寻找合适的网红（influencer search）的能力。

03:10 Expanse的数据基础和评估方式播客提到，Expanse的评估任务是基于几十个真实的招聘业务场景和50个真实的客户需求，以及800多位候选网红的数据。评估结果是开放式的，并使用大型语言模型（LLM）作为裁判进行评估。

03:43 O3模型在招聘和营销测试中表现最佳根据2025年5月的数据，O3 AI智能体在招聘和营销这两个基准测试中排名第一，甚至超越了一些参数规模更大的模型。研究人员推测，这可能与它的训练方式和强大的搜索能力有关，它不是“死记硬背”，而是在实践中不断调整，更灵活高效。

04:36 Perplexity工具在招聘任务中的意外发现一个有趣发现是，在招聘任务中使用Perplexity工具的快速搜索版本时，其搜索效果反而比更深入的研究版本更好。这提醒我们，并非信息越多越好，对于某些任务，过多的信息反而会造成干扰。

05:07 AI评估范式转变：从技术指标到实际贡献播客总结，Expanse和这些初步发现表明，AI发展的重点正在发生转变。过去可能更关注纯粹的技术指标（例如模型大小、跑分高低），现在则越来越转向衡量AI在特定领域能带来实实在在的生产力提升或经济贡献。

05:47 Expanse未来的发展计划：动态基准测试和R.T.统计方法Expanse未来计划将评估任务等级持续更新，以跟上真实世界业务需求的变化。他们还将采用一种名为“适应反应理论”（R.T.）的统计方法，该方法能更准确地推测AI能力随时间的真实增长，即使未来的考题难度或环境发生变化，也能比较公平地衡量进步。

06:29 最终目标：衡量AI工具的真实价值播客再次强调，最终还是要落脚到技术市场契合度（TMF）和衡量生产力（M.F.E.）上，确保AI工具真正物有所值。

06:49 AI应用发展阶段：人机协作到领域专家主导播客提到，AI应用可能经历多个阶段，最终可能发展到由领域专家自主构建和运用高度定制化的专业AI服务。

07:04 思考：AI对行业和日常工作的影响最后，播客提出了一个引人深思的问题：当衡量AI在特定领域的生产力和它的划算程度越来越精确时，这对于我们所在的行业、日常工作意味着什么？哪些任务会被重塑？专业角色会改变？甚至做生意的方式会因此发生根本性变化？播客呼吁每个人持续关注和深入思考，因为像Expanse这样的评估体系越来越贴近真实价值，AI融入工作和生活的脚步会更快，也会更深刻。

在小宇宙打开