006. 再访姚巍然:医疗Agent能替真人干活吗?

006. 再访姚巍然:医疗Agent能替真人干活吗?

93分钟 ·
播放数123
·
评论数0

硅谷 AI 的节奏飞旋,一月如一年,时隔四个月,我们再度访谈 ActAVA AI 的联合创始人姚巍然。只为问出一个核心问题:在医疗健康领域,AI Agent 是否可以替真人干活?

Claude Code、Codex 这类工具所带来的深度变革已经改写了软件工程这个行业。但是一旦把AI外推到其他的行业中,质疑的声音总是接踵而至——AI是否可以在具体和复杂的沟通与规定场景下替代人类。

本期嘉宾巍然的答案是:不行!至少现在还不能......

巍然团队最近发布了一个面向医疗工作流的 Agent Benchmark:χ-Bench。它测试的是 AI Agent 能不能自动化端到端、长链条、政策密集的医疗流程,比如 prior authorization、utilization management 和 care management。这个 benchmark 虽然只是针对医疗领域,但是它对于其他行业应用 Agent 无疑有着强烈的借鉴作用。

本期 AI 实话实说,我们和巍然聊了 χ-Bench 为什么重要,医疗 Agent 为什么比 coding agent 更难,benchmark 和融资叙事之间的关系,AI 医疗创业公司的护城河,以及一个更大的问题:未来企业到底会继续依赖 OpenAI、Anthropic 这样的闭源模型,还是会走向行业专属、客户自有、可本地部署的模型。

欢迎关注节目同名小红书 AI 实话实说 加入群组参与互动。

嘉宾介绍:

姚巍然,AVA.AI联合创始人,主要关注 healthcare workflow automation、AI agent platform 和 domain-specific model。他所在团队正在开发企业级 Agent 平台,并探索医疗场景中的仿Agent解决方案、Benchmark 和医疗专用大模型。

相关术语:

χ-Bench / Chi Bench:面向医疗工作流的 AI Agent Benchmark,测试 Agent 是否能完成端到端、长时间、多政策约束的 healthcare workflow。

Policy-rich workflow:政策密集型流程。指每一步操作都需要受到保险政策、医疗规定、公司 SOP 或内部文档支持。

Long-horizon task:长链条任务。任务不是一步完成,而是需要多轮读取、判断、调用工具、生成文件、和人对话,并在过程中不断更新状态。

Human in the loop:AI 可以完成大部分草稿、检索、整理工作,但最终仍需要真人 review 和 sign off。

LLM-as-a-judge:用大语言模型作为评估器,判断 Agent 的输出是否符合标准。

快速跳转:

00:01:46 开场:四个月后,团队承诺的 Agent 平台做出来了吗?

00:03:49 什么是 χ-Bench?为什么医疗工作流需要新的 Agent Benchmark?

00:07:39 现在 AI Agent 能不能端到端自动化医疗 workflow?答案是:不能。

00:25:56 现在 Agent 做不到 end-to-end,对创业公司为什么反而是好消息?

00:27:14 发布 benchmark 是否也是为下一轮融资铺路?

00:39:43 Healthcare Agent 公司相对于 foundation model 的护城河是什么?

00:45:53 小公司员工既要做产品又要服务客户,会不会变成血汗工厂?

00:51:46 定制化开源模型能不能超过通用闭源模型?

00:53:30 当前 Agent 的主要 failure mode:rush to submit、policy reasoning、conversation mode 切换

01:04:04 怎么评估 Agent 和病人的对话?如何模拟病人的不信任?

01:11:11 为什么美国医疗系统是一个 administrative nightmare?

01:17:00 如果 Anthropic 或 OpenAI 来刷榜,会不会抢走市场?

01:23:56 Agent 出错了,谁承担责任?为什么产品里必须 human in the loop?

01:20:34 医院是否会走向自有模型?为什么企业不一定愿意把数据交给 OpenAI?