AI 下半场：聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

41分钟 ·1 年前

18282

活动预告🥳：5 月 24 日，我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动，大家记得翻到 shownotes 末尾查看报名信息！

像 RL 这个概念一样，Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词，但到底该怎么理解这个概念，该如何正确的设定这些问题和数值呢？

正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火，他核心讲的就是「我们当下已经进入了 AI 的第二阶段——从解决问题转向定义问题，评估的意义会超过训练本身。而这其中，评估最关键的不是设置更难的基准测试，而是要在实际落地的场景中重新设计一套实用的评估标准」。

所以这期我们请到了前 Kimi 产品经理丁丁，从她在大模型公司一年多的实践经验出发，请她分享些对于 Benchmark 和 Evaluation 的思考，相信大多数人听完这期都会对这些概念有更深的理解，也可以开始自己设定一些评估问题和标准了。

P.S. 丁丁之前曾在微信做过 5 年的搜索产品，也在美团做过策略产品，所以在节目最后她也分享了一些从古典产品转型 AI 产品经理的心得。

【人类博物馆】

导游：曲凯，42章经创始人

34 号珍藏：丁丁，前微信、美团、Moonshot 产品（负责 Kimi App）

【时光机】

1:27 进入 AI 下半场，「重新定义 Benchmark」比「刷榜提分」更关键

3:23 回顾 AI 上半场，国内大模型公司的发展重心历经了哪些变化？

5:51 一味追求 DAU 是一种偷懒的经验主义

7:07 数据固然重要，但更多的用户数据 ≠ 更好的模型智能

9:28 如果你是梁文锋，你要不要承接这波泼天的用户？

9:59 Evaluation 和 Benchmark 是拉开模型差距的一大关键

14:40 对于没有标准答案的问题，该怎么制定 Benchmark？

17:55 怎么衡量 Benchmark 的好坏？

22:14 创业公司的 Benchmark 有多少道题比较合理？

22:38 能通过高频的用户 Prompt 反推出一套 Benchmark 吗？

24:23 让模型「突出长板」好，还是「全面均衡」好？

25:42 以 C.AI 类产品为例，示范一下该怎么设计 Benchmark

29:28 Benchmark 是团队的核心机密，算法同学都不应该告诉

30:07 AI 产品经理和古典产品经理有什么异同？

31:49 怎么更好地理解模型边界？

33:38 未来每个人都要具备全栈能力

35:38 做微信产品积累下来的 knowhow

39:52 分享一些招 AI 产品经理的标准

【Reference】

OpenAI Agent Researcher 姚顺雨的最新博客内容，探讨了 AI 发展的「下半场」：ysymyth.github.io

一个顶级 AI 产品经理的自我修养 | 对谈光年之外产品负责人 Hidecloud

【活动预告🥳】

5 月 24 日，我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码，一起来认识&交流！

【The gang that made this happen】

制作人：陈皮、Celia

剪辑：陈皮

Bgm：Mondo Bongo - Joe Strummer & The Mescaleros

展开Show Notes

曲凯

2025.5.05

置顶

活动预告🥳：5 月 24 日，我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动，大家记得翻到 shownotes 末尾查看报名信息！

曲凯

:btw 报名成功的送 Fellou 邀请码👻

HD126183v:怎么报名？

llm007

2025.5.06

听完了，好像讲了什么，又好像什么都没讲。

鱼米粒:41:11 听前半部分讲benchmark和eval没得到多少insight，后半部分讲传统产品经理和AI产品经理这部分还挺有价值的

曲凯

:主要聊的是跟benchmark和evaluation业务啥的相关的，其他的kimi相关的都不太好讲哈哈

共3条回复

小羔要长大

2025.5.05

第一次听到离工作这么近的一期，内容很真实了，更适合局外人或想来了解bmk和eval概况的人群。想蹲一期对其中痛点的分享，比如evaluation如何更科学地让非标可量化，在可预见的未来eval视角的角色会发展成怎样的角色（换言之当下策略重要与方向和变化有关，未来相对稳定之后，如何继续发挥价值呢）

曲凯

:收到🫡

ShawnWu_

2025.5.07

全程听完，从实操角度，无论是对于benchmark到分享，还是关于产品角色以及能力的分享，都非常的务实，乍一听好像很浅，其实都是日常实操过程中会遇到的细节问题，质量很高，感谢分享。

鲜世丹

2025.5.06

16:53 感觉这期聊的有点浅

曲凯

:收到建议

壁花少年

2025.5.07

丁丁在模仿模型回复的时候画面感极强，好像这些话就是AI说出来的，音色音调也突然转变像是tts

Irisly

2025.5.07

对最后部分的几个问题做了一下简单的整理
1.古典产品经理和AI产品经理的对比：
相同：都需要懂用户，具有抽象、翻译能力；对交互体验的感知能力
不同：对数据的重视程度；对模型能力的理解

2.如何跟上模型的变化，掌握模型能力边界：
多尝试不同的模型及其api，熟悉不同模型以及不同版本之间的差异
把自己想做的事都尝试用AI做，了解它们能力的边界
需要有动手能力，尝试完成全流程闭环

3.面试AI产品经理的画像和问题：
做过初创，从0到1
业余时间自己做过一些demo
常用的模型，有什么评价，反映出对行业的理解和热情