006. 再访姚巍然：医疗Agent能替真人干活吗？

硅谷 AI 的节奏飞旋，一月如一年，时隔四个月，我们再度访谈 ActAVA AI 的联合创始人姚巍然。只为问出一个核心问题：在医疗健康领域，AI Agent 是否可以替真人干活？

Claude Code、Codex 这类工具所带来的深度变革已经改写了软件工程这个行业。但是一旦把AI外推到其他的行业中，质疑的声音总是接踵而至——AI是否可以在具体和复杂的沟通与规定场景下替代人类。

本期嘉宾巍然的答案是：不行！至少现在还不能......

巍然团队最近发布了一个面向医疗工作流的 Agent Benchmark：χ-Bench。它测试的是 AI Agent 能不能自动化端到端、长链条、政策密集的医疗流程，比如 prior authorization、utilization management 和 care management。这个 benchmark 虽然只是针对医疗领域，但是它对于其他行业应用 Agent 无疑有着强烈的借鉴作用。

本期 AI 实话实说，我们和巍然聊了 χ-Bench 为什么重要，医疗 Agent 为什么比 coding agent 更难，benchmark 和融资叙事之间的关系，AI 医疗创业公司的护城河，以及一个更大的问题：未来企业到底会继续依赖 OpenAI、Anthropic 这样的闭源模型，还是会走向行业专属、客户自有、可本地部署的模型。

欢迎关注节目同名小红书 AI 实话实说 加入群组参与互动。

嘉宾介绍：

姚巍然，AVA.AI联合创始人，主要关注 healthcare workflow automation、AI agent platform 和 domain-specific model。他所在团队正在开发企业级 Agent 平台，并探索医疗场景中的仿Agent解决方案、Benchmark 和医疗专用大模型。

相关术语：

χ-Bench / Chi Bench：面向医疗工作流的 AI Agent Benchmark，测试 Agent 是否能完成端到端、长时间、多政策约束的 healthcare workflow。

Policy-rich workflow：政策密集型流程。指每一步操作都需要受到保险政策、医疗规定、公司 SOP 或内部文档支持。

Long-horizon task：长链条任务。任务不是一步完成，而是需要多轮读取、判断、调用工具、生成文件、和人对话，并在过程中不断更新状态。

Human in the loop：AI 可以完成大部分草稿、检索、整理工作，但最终仍需要真人 review 和 sign off。

LLM-as-a-judge：用大语言模型作为评估器，判断 Agent 的输出是否符合标准。

快速跳转：

00:01:46 开场：四个月后，团队承诺的 Agent 平台做出来了吗？

00:03:49 什么是 χ-Bench？为什么医疗工作流需要新的 Agent Benchmark？

00:07:39 现在 AI Agent 能不能端到端自动化医疗 workflow？答案是：不能。

00:25:56 现在 Agent 做不到 end-to-end，对创业公司为什么反而是好消息？

00:27:14 发布 benchmark 是否也是为下一轮融资铺路？

00:39:43 Healthcare Agent 公司相对于 foundation model 的护城河是什么？

00:45:53 小公司员工既要做产品又要服务客户，会不会变成血汗工厂？

00:51:46 定制化开源模型能不能超过通用闭源模型？

00:53:30 当前 Agent 的主要 failure mode：rush to submit、policy reasoning、conversation mode 切换

01:04:04 怎么评估 Agent 和病人的对话？如何模拟病人的不信任？

01:11:11 为什么美国医疗系统是一个 administrative nightmare？

01:17:00 如果 Anthropic 或 OpenAI 来刷榜，会不会抢走市场？

01:23:56 Agent 出错了，谁承担责任？为什么产品里必须 human in the loop？

01:20:34 医院是否会走向自有模型？为什么企业不一定愿意把数据交给 OpenAI？