AI 下半场:聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

AI 下半场:聊透 Benchmark 与 Evaluation | 对谈前 Kimi 产品经理丁丁

41分钟 ·
播放数11585
·
评论数57

活动预告🥳:5 月 24 日,我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动,大家记得翻到 shownotes 末尾查看报名信息!

像 RL 这个概念一样,Benchmark 和 Evaluation 也是做 AI 的人经常挂在嘴边的词,但到底该怎么理解这个概念,该如何正确的设定这些问题和数值呢?

正巧前不久 OpenAI 研究员姚顺雨的那篇《AI 即将进入下半场》特别火,他核心讲的就是「我们当下已经进入了 AI 的第二阶段——从解决问题转向定义问题,评估的意义会超过训练本身。而这其中,评估最关键的不是设置更难的基准测试,而是要在实际落地的场景中重新设计一套实用的评估标准」。

所以这期我们请到了前 Kimi 产品经理丁丁,从她在大模型公司一年多的实践经验出发,请她分享些对于 Benchmark 和 Evaluation 的思考,相信大多数人听完这期都会对这些概念有更深的理解,也可以开始自己设定一些评估问题和标准了。

P.S. 丁丁之前曾在微信做过 5 年的搜索产品,也在美团做过策略产品,所以在节目最后她也分享了一些从古典产品转型 AI 产品经理的心得。

人类博物馆】

导游:曲凯,42章经创始人

34 号珍藏:丁丁,前微信、美团、Moonshot 产品(负责 Kimi App)

时光机】

  • 1:27 进入 AI 下半场,「重新定义 Benchmark」比「刷榜提分」更关键
  • 3:23 回顾 AI 上半场,国内大模型公司的发展重心历经了哪些变化?
  • 5:51 一味追求 DAU 是一种偷懒的经验主义
  • 7:07 数据固然重要,但更多的用户数据 ≠ 更好的模型智能
  • 9:28 如果你是梁文锋,你要不要承接这波泼天的用户?
  • 9:59 Evaluation 和 Benchmark 是拉开模型差距的一大关键
  • 14:40 对于没有标准答案的问题,该怎么制定 Benchmark?
  • 17:55 怎么衡量 Benchmark 的好坏?
  • 22:14 创业公司的 Benchmark 有多少道题比较合理?
  • 22:38 能通过高频的用户 Prompt 反推出一套 Benchmark 吗?
  • 24:23 让模型「突出长板」好,还是「全面均衡」好?
  • 25:42 以 C.AI 类产品为例,示范一下该怎么设计 Benchmark
  • 29:28 Benchmark 是团队的核心机密,算法同学都不应该告诉
  • 30:07 AI 产品经理和古典产品经理有什么异同?
  • 31:49 怎么更好地理解模型边界?
  • 33:38 未来每个人都要具备全栈能力
  • 35:38 做微信产品积累下来的 knowhow
  • 39:52 分享一些招 AI 产品经理的标准

【Reference】

活动预告🥳】

5 月 24 日,我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!

The gang that made this happen】

  • 制作人:陈皮、Celia
  • 剪辑:陈皮
  • Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
展开Show Notes
曲凯
曲凯
2025.5.05
置顶
活动预告🥳:5 月 24 日,我们会请到丁丁和 Fellou 创始人谢扬办一场线上活动,大家记得翻到 shownotes 末尾查看报名信息!
曲凯
:
btw 报名成功的送 Fellou 邀请码👻
HD126183v:怎么报名?
llm007
llm007
2025.5.06
听完了,好像讲了什么,又好像什么都没讲。
鱼米粒:41:11 听前半部分讲benchmark和eval没得到多少insight,后半部分讲传统产品经理和AI产品经理这部分还挺有价值的
曲凯
:
主要聊的是跟benchmark和evaluation业务啥的相关的,其他的kimi相关的都不太好讲哈哈
第一次听到离工作这么近的一期,内容很真实了,更适合局外人或想来了解bmk和eval概况的人群。想蹲一期对其中痛点的分享,比如evaluation如何更科学地让非标可量化,在可预见的未来eval视角的角色会发展成怎样的角色(换言之当下策略重要 与方向和变化有关,未来相对稳定之后,如何继续发挥价值呢)
曲凯
:
收到🫡
ShawnWu_
ShawnWu_
2025.5.07
全程听完,从实操角度,无论是对于benchmark到分享,还是关于产品角色以及能力的分享,都非常的务实,乍一听好像很浅,其实都是日常实操过程中会遇到的细节问题,质量很高,感谢分享。
鲜世丹
鲜世丹
2025.5.06
16:53 感觉这期聊的有点浅
曲凯
:
收到建议
斯_u9iT
斯_u9iT
2025.5.06
听了五分钟 感觉每个字都听懂了 又感觉没太听懂。 写过代码 和没写过代码的人 聊出来的感觉很不一样。
壁花少年
壁花少年
2025.5.07
丁丁在模仿模型回复的时候画面感极强,好像这些话就是AI说出来的,音色音调也突然转变像是tts
Irisly
Irisly
2025.5.07
对最后部分的几个问题做了一下简单的整理
1.古典产品经理和AI产品经理的对比:
相同:都需要懂用户,具有抽象、翻译能力;对交互体验的感知能力
不同:对数据的重视程度;对模型能力的理解

2.如何跟上模型的变化,掌握模型能力边界:
多尝试不同的模型及其api,熟悉不同模型以及不同版本之间的差异
把自己想做的事都尝试用AI做,了解它们能力的边界
需要有动手能力,尝试完成全流程闭环

3.面试AI产品经理的画像和问题:
做过初创,从0到1
业余时间自己做过一些demo
常用的模型,有什么评价,反映出对行业的理解和热情
主要是kimi业务的东西不太能聊吧 所以只能聊这些通用的 公式在这了 要不大家代入下自己业务的参数吧 就不觉得浅了~
郦橙锦妖_Vanessa:23:46 Takeaway:做搜索的pm还挺适合转llm pm的
郦橙锦妖_Vanessa:24:32 技能偏科的问题,我来代入一下身边的case - pixeldance的视频模型是指令跟随非常强的,物理真实性也不错,但美感和清晰度上不够,所以它是个能因为长板出圈的模型,但那个版本肯定不是视频模型的终极解答
已报名活动👍
这期内容来的特别及时
陈皮皮屁:那太好了🥹!
HD963717x
HD963717x
2025.5.06
闲聊不产生智能
01:18 最重要的基本概念:评估和测试。btw并不喜欢大家把bench mark这个词跟大模型绑定,营销等其他行业也用bench mark
曲凯
:
👍
Clemente:跑分
Qiang_Cti8
Qiang_Cti8
2025.5.18
嘉宾提到试图制定一个覆盖所有线上用户的benchmark, 个人觉得这个方向不对,一个产品要有定位(收敛),不要试图去拉定位之外的用户,如果说没有区分是否是定位客户的能力,要先解决这个能力问题。
小猎豹
小猎豹
2025.5.12
这期有点像教材,没落实到具体实际。聊了很多,又好像什么都没聊。
Clemente
Clemente
2025.5.09
无聊的一集 对从业者没帮助 对非从业者也没什么用
briskair
briskair
2025.5.08
可以问下文章是哪一篇吗?
曲凯
:
姚顺雨 AI 下半场
吴11
吴11
2025.5.05
干货👍
zhoubo_pHhC
zhoubo_pHhC
10小时前
这集比较水,说的都是共识,既没有新的观点,也没有实践经验
很皮
很皮
6天前
借地问个问题:当前AI agent持续占领原本在搜索的需求和流量,类似CSDN等依靠查“怎么做”的社区流量也会被截胡,请问类似的社区能怎么转型,更好的适应AI广泛应用的带来的入口上的变化。