- Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293–2303.
- DOI:10.1038/s41562-024-02024-1
核心问题一句话:
在什么条件下,“人 + AI”的组合真的比“单独的人”或“单独的 AI”更好?
作者区分了两个关键概念:Nature
- Human–AI synergy(人机协同增效)
定义:人机组合的表现 优于“人单独”和“AI 单独”里表现最好的一方。
这是大家口头上常说的“1+1>2”的那种理想状态。 - Human augmentation(人类增强)
定义:人机组合 优于“人单独” 即可,不要求超越“AI 单独”。
在一些不能完全交给 AI(伦理、法律、安全)的场景,这个指标也很重要。
他们的目的是:
- 量化评估近几年所有有实验数据的人机协作研究:
平均到底有没有“协同增效”;
哪些因素会调节“有/没有协同”和“增强效果大小”。
主要结果:平均没有“协同增效”,只有“人类增强”
1. 总体效应
- 针对“人机协同增效”指标(对比“人/AI中更好的那一方”):
综合效应量为 g = -0.23(显著小于 0,p = 0.005)。
含义:平均而言,“人+AI”组合的表现 比“人和AI中最好的那个”还要差一点。Nature - 针对“人类增强”指标(对比“人单独”):
综合效应量 g = 0.64,中到大的正效应(p ≈ 0)。
含义:整体来看,“人+AI” 显著优于“人单独”。
重要调节效应:什么时候会好,什么时候更糟?
1. 任务类型:决策 vs 创作
- 任务类型显著调节“人机协同增效”:F(1,104)=7.84, p=0.006。Nature
1)决策类任务(classification / diagnosis / forecasting 等)
- 协同效应量 g ≈ -0.27(显著负)。
- 解释:当任务是从有限选项中做出正确选择时,把 AI 和人类强行绑一起,平均而言反而会 拉低结果。
2)创作类任务(文本生成、图像/内容创作等)
- 协同效应量 g ≈ 0.19,方向是正的,但因为样本量较小(n=34),单独看不显著。
- 但“创作 vs 决策”之间的差值是显著的:创作明显优于决策任务。
2.人 vs AI 基线表现孰优
这是最关键的调节变量之一:
- 如果 人类单独 > AI 单独:
“人+AI”相对于两者里最好的那一方,协同效应 g ≈ +0.46(中等正效应,显著)。
含义:当人比 AI 强时,把 AI 加进来,可以做到“1+1>2”。 - 如果 AI 单独 > 人类单独:
“人+AI”相对于“AI 单独”反而是 g ≈ -0.54(中等负效应,显著)。
含义:当 AI 比人强时,让人参与反而拖后腿。
在人类增强这一指标上:当 AI 本来就比人强时,人+AI 相对于“人单独”的增强效应也会更大(g≈0.74,偏大)
直白一点讲:
AI 比人弱 → 人机组合可以进一步放大人的优势;
AI 比人强 → 最好别让人乱插手,否则会破坏 AI 的表现。
作者的讨论与未来研究路线
1. 为什么会有“协同损失”?
作者总结了几个问题:Nature
- 过度依赖(overreliance):
人把 AI 建议当成权威,不再认真思考,尤其在 AI 不可靠时会放大错误。 - 依赖不足(underreliance):
人不信任 AI,忽略高质量建议,导致表现不如 AI 单独。 - 流程设计粗糙:
大部分实验只是让 AI“给个建议”,最后由人拍板,
很少真的做“任务分解 + 谁擅长哪一部分就分配给谁”。
数据里只有 3 个实验真正在前期设定明确的人机分工子任务,虽然方向上有正面协同,但样本太少。Nature
2. 三条未来路线(作者提出的“roadmap”)
1)更多研究创作类任务 + 生成式 AI
- 目前 85% 的效应来自决策任务;创作任务只占约 10%,但后者的协同效应方向是正的。
- 作者认为:
创作任务中,人负责灵感与判断,AI 负责大规模生成、细节填充,这是更容易实现协同的结构。 - 呼吁更多以任务表现为指标的生成式 AI + 人类合作实验,而不是停留在态度/体验访谈。Nature+1
2)设计真正“互补分工”的流程(division of labour)
- 协同增效的必要条件:
人在某些子任务上更强,
AI 在另一些子任务上更强,
系统整体要能把不同子任务交给最适合的一方。Nature - 这意味着:
不要再只是“AI 全程给建议,人最后拍板”这种粗暴结构;
而是要设计 任务拆解 + 动态/预设分配 的流程。
3)更复杂、更现实的评价指标
- 多数实验只看一个“整体准确率”,但实际场景有:
错误类型成本差异巨大(比如医疗诊断里的漏诊 vs 误诊);
时间成本、金钱成本;
极端错误带来的社会/伦理风险。Nature - 作者建议使用:
非线性、成本加权、复合指标,
以及对“人类增强”更友好的度量方式(如减少严重错误的数量等)。
