Med-StepBench: A Hierarchical Reasoning Framework for Evaluating Hallucinations in Medical Vision-Language Models
一句话核心结论
现有医疗多模态模型易产生看似合理的幻觉,Med-StepBench是首个针对 3D 肿瘤 PET/CT 的分步幻觉评测基准,能揪出模型推理缺陷,还发现模型易被伪合理解释误导、加剧幻觉。
它到底研究了啥
针对医疗视觉语言模型(VLM)幻觉问题(看似临床合理实则错误),现有基准仅测单轮 2D 诊断、掩盖推理漏洞;本文构建分层分步评测框架 Med-StepBench,精准暴露模型多步临床推理短板。
研究场景
3D 肿瘤 PET/CT 影像的分层临床诊断推理,覆盖体数据、多视角 2D 影像。
测试对象
通用多模态模型、专用医疗视觉语言模型。
怎么测的
构建Med-StepBench:含 1.2 万 + 影像、100 万 + 影像 - 语句对,拆解为 4 步专家设计的诊断阶段;
用医生标注数据,做分步级幻觉检测;
加入对抗性伪合理解释,测试模型抗干扰能力。
测出来啥结果
现有模型分步推理漏洞严重,整体准确率掩盖系统性失败;
模型极易被看似合理的错误解释诱导,幻觉大幅增加;
3D 医疗场景下,模型无法基于视觉证据做可靠多步推理。
最后结论
当前医疗 VLM 缺乏扎实的多步临床推理能力,Med-StepBench可作为严格评测基准,助力开发更安全、可靠的医疗多模态模型。
