EP76：Arize产品负责人谈评测工程

播客无国界

45分钟 ·6个月前

35

·

0

我们都对Sora和GPT的惊艳演示感到兴奋，但在实际构建AI产品时，却常常陷入“幻觉”、“逻辑错误”和“回答不可靠”的泥沼。为什么AI巨头们（那些卖给你LLM的人）自己都在公开警告“必须做评估”？当AI连“45分钟是否小于60分钟”这样的简单数学都会搞错时，我们如何才能交付一个真正可用的产品？

本期节目深入AI产品的“幕后厨房”，我们将跟随Arise的产品负责人Aman Khan，用50分钟走完一遍从0到1的AI评估（Evals）实战流程。这不仅是技术指南，更揭示了AI时代PM的核心价值转变：告别高谈阔论，回归电子表格，在“混乱”的迭代中寻找确定性。您将了解到：

“Evals”的真相： 为什么说“评估”是AI产品经理最重要的新技能，是连接Demo与Production的唯一桥梁？

四种核心评估类型： 从简单的“代码评估”、“人工评估”，到规模化的“LLM作裁判”，再到最终的“用户评估”，它们各自解决了什么问题？

“黄金数据集”工作流： 如何使用一个简单的电子表格，为你的AI智能体定义“好”与“坏”的评估标准（Rubric），并启动最初的迭代飞轮？

高级战术“元评估”： 当你的“LLM裁判”开始“放水”（比如给所有回答都打高分）时，你该如何用“人工标签”反过来评估你的评估者？

AI-PM的真实循环： 如何利用评估笔记反向优化你的Prompt，以及为什么这个“混乱”且“枯燥”的迭代循环，才是AI-PM真正的护城河。

这集内容是为每一个不想只停留在“AI玩具”阶段，希望构建严肃、可靠AI产品的产品经理、工程师和创始人准备的实战指南。

时点内容 | Key Topics

AI的“皇帝新衣”：为什么AI巨头的CPO们（卖给你模型的人）反而都在警告你“必须做Evals”？

LLM的根本缺陷：大模型会产生幻觉，甚至连简单的数学（如“45分钟是否小于60分钟”）都会搞错，这是构建可靠产品的最大障碍。

评估（Evals）的四种核心类型：
Code-based Evals（代码评估）：检查特定字符串，如航司机器人不应推荐竞品。
Human Evals（人工评估）：产品经理和领域专家必须亲自“下场”做判断，这是无法外包的“脏活”。
LLM as a judge（LLM作裁判）：使用一个LLM去评估另一个LLM的输出，这是规模化的关键。
User Evals（用户评估）：来自真实世界的最终商业指标，如用户“点踩”。

AI-PM的“电子表格工作流”：
从零开始，在电子表格中建立你的“黄金数据集”（Golden Data Set）。
定义评估标准（Rubric）：如何为你的AI智能体定义“好”与“坏”？（例如：产品知识、规则遵循性、语气）。
人工标注的价值：为什么PM必须亲自动手，在电子表格里和团队“辩论”标签，这是产品判断力的核心。

实战案例：用Anthropic工具构建客服Bot：
现场演示：使用Anthropic的Workbench工具从零开始为“On Running”跑鞋构建一个客服Prompt。
迭代循环：发现初始回答（如退货政策）中的问题，并将其记录回电子表格。

高级战术：“LLM作裁判”及其陷阱：
如何使用Arise等工具将你的电子表格评估标准“Prompt化”，让LLM自动打分。
“裁判”的翻车：为什么“LLM作裁判”经常失败（例如，它给所有答案都打了“好”分）。
元评估：核心洞察——你必须用“人工标签”去评估“LLM裁判”的准确性（Match Rate），以校准你的自动化系统。

Evals驱动的产品开发：
从10个样本开始，快速迭代你的Prompt。
在有100个样本对齐“人工-LLM裁判”共识后，再考虑上线A/B测试。

警惕“虚荣指标”：为什么用户的“点踩”（Thumbs Down）可能是一个误导性信号？如何区分用户是对“政策”不满还是对“AI回答”不满？

最终结论：AI产品的世界没有“银弹”。AI-PM的真正价值，在于投身于“评估-迭代”这个“混乱”且“枯燥”的循环中，这才是构建可用AI的唯一路径。

相关链接与资源：

[视频来源]www.youtube.com

本播客采用虚拟主持人进行播客翻译的音频制作，因此有可能会有一些地方听起来比较奇怪。如想了解更多信息，请关注微信公众号“心流赫兹”获取AI最新资讯。

在小宇宙打开