医疗AI是在看病还是编故事

听论文-懂大模型评测

15分钟 ·6天前

2

·

0

Med-StepBench: A Hierarchical Reasoning Framework for Evaluating Hallucinations in Medical Vision-Language Models

一句话核心结论

现有医疗多模态模型易产生看似合理的幻觉，Med-StepBench是首个针对 3D 肿瘤 PET/CT 的分步幻觉评测基准，能揪出模型推理缺陷，还发现模型易被伪合理解释误导、加剧幻觉。

它到底研究了啥

针对医疗视觉语言模型（VLM）幻觉问题（看似临床合理实则错误），现有基准仅测单轮 2D 诊断、掩盖推理漏洞；本文构建分层分步评测框架 Med-StepBench，精准暴露模型多步临床推理短板。

研究场景

3D 肿瘤 PET/CT 影像的分层临床诊断推理，覆盖体数据、多视角 2D 影像。

测试对象

通用多模态模型、专用医疗视觉语言模型。

怎么测的

构建Med-StepBench：含 1.2 万 + 影像、100 万 + 影像 - 语句对，拆解为 4 步专家设计的诊断阶段；
用医生标注数据，做分步级幻觉检测；
加入对抗性伪合理解释，测试模型抗干扰能力。

测出来啥结果

现有模型分步推理漏洞严重，整体准确率掩盖系统性失败；
模型极易被看似合理的错误解释诱导，幻觉大幅增加；
3D 医疗场景下，模型无法基于视觉证据做可靠多步推理。

最后结论

当前医疗 VLM 缺乏扎实的多步临床推理能力，Med-StepBench可作为严格评测基准，助力开发更安全、可靠的医疗多模态模型。

在小宇宙打开