医疗AI是在看病还是编故事

医疗AI是在看病还是编故事

15分钟 ·
播放数2
·
评论数0

Med-StepBench: A Hierarchical Reasoning Framework for Evaluating Hallucinations in Medical Vision-Language Models

一句话核心结论

现有医疗多模态模型易产生看似合理的幻觉,Med-StepBench是首个针对 3D 肿瘤 PET/CT 的分步幻觉评测基准,能揪出模型推理缺陷,还发现模型易被伪合理解释误导、加剧幻觉。

它到底研究了啥

针对医疗视觉语言模型(VLM)幻觉问题(看似临床合理实则错误),现有基准仅测单轮 2D 诊断、掩盖推理漏洞;本文构建分层分步评测框架 Med-StepBench,精准暴露模型多步临床推理短板。

研究场景

3D 肿瘤 PET/CT 影像的分层临床诊断推理,覆盖体数据、多视角 2D 影像。

测试对象

通用多模态模型、专用医疗视觉语言模型。

怎么测的

  1. 构建Med-StepBench:含 1.2 万 + 影像、100 万 + 影像 - 语句对,拆解为 4 步专家设计的诊断阶段;

  2. 用医生标注数据,做分步级幻觉检测

  3. 加入对抗性伪合理解释,测试模型抗干扰能力。

测出来啥结果

  1. 现有模型分步推理漏洞严重,整体准确率掩盖系统性失败;

  2. 模型极易被看似合理的错误解释诱导,幻觉大幅增加;

  3. 3D 医疗场景下,模型无法基于视觉证据做可靠多步推理。

最后结论

当前医疗 VLM 缺乏扎实的多步临床推理能力,Med-StepBench可作为严格评测基准,助力开发更安全、可靠的医疗多模态模型。