人机协同的悖论：为什么1+1<2

纯AI论文解读

19分钟 ·6个月前

1

·

0

Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293–2303.

DOI：10.1038/s41562-024-02024-1

核心问题一句话：

在什么条件下，“人 + AI”的组合真的比“单独的人”或“单独的 AI”更好？

作者区分了两个关键概念：Nature

Human–AI synergy（人机协同增效）
定义：人机组合的表现 优于“人单独”和“AI 单独”里表现最好的一方。
这是大家口头上常说的“1+1>2”的那种理想状态。

Human augmentation（人类增强）
定义：人机组合 优于“人单独” 即可，不要求超越“AI 单独”。
在一些不能完全交给 AI（伦理、法律、安全）的场景，这个指标也很重要。

他们的目的是：

量化评估近几年所有有实验数据的人机协作研究：
平均到底有没有“协同增效”；
哪些因素会调节“有/没有协同”和“增强效果大小”。

主要结果：平均没有“协同增效”，只有“人类增强”

1. 总体效应

针对“人机协同增效”指标（对比“人/AI中更好的那一方”）：
综合效应量为 g = -0.23（显著小于 0，p = 0.005）。
含义：平均而言，“人+AI”组合的表现 比“人和AI中最好的那个”还要差一点。Nature

针对“人类增强”指标（对比“人单独”）：
综合效应量 g = 0.64，中到大的正效应（p ≈ 0）。
含义：整体来看，“人+AI” 显著优于“人单独”。

重要调节效应：什么时候会好，什么时候更糟？

1. 任务类型：决策 vs 创作

任务类型显著调节“人机协同增效”：F(1,104)=7.84, p=0.006。Nature

1）决策类任务（classification / diagnosis / forecasting 等）

协同效应量 g ≈ -0.27（显著负）。

解释：当任务是从有限选项中做出正确选择时，把 AI 和人类强行绑一起，平均而言反而会 拉低结果。

2）创作类任务（文本生成、图像/内容创作等）

协同效应量 g ≈ 0.19，方向是正的，但因为样本量较小（n=34），单独看不显著。

但“创作 vs 决策”之间的差值是显著的：创作明显优于决策任务。

2.人 vs AI 基线表现孰优

这是最关键的调节变量之一：

如果 人类单独 > AI 单独：
“人+AI”相对于两者里最好的那一方，协同效应 g ≈ +0.46（中等正效应，显著）。
含义：当人比 AI 强时，把 AI 加进来，可以做到“1+1>2”。

如果 AI 单独 > 人类单独：
“人+AI”相对于“AI 单独”反而是 g ≈ -0.54（中等负效应，显著）。
含义：当 AI 比人强时，让人参与反而拖后腿。

在人类增强这一指标上：当 AI 本来就比人强时，人+AI 相对于“人单独”的增强效应也会更大（g≈0.74，偏大）

直白一点讲：

AI 比人弱 → 人机组合可以进一步放大人的优势；
AI 比人强 → 最好别让人乱插手，否则会破坏 AI 的表现。

作者的讨论与未来研究路线

1. 为什么会有“协同损失”？

作者总结了几个问题：Nature

过度依赖（overreliance）：
人把 AI 建议当成权威，不再认真思考，尤其在 AI 不可靠时会放大错误。

依赖不足（underreliance）：
人不信任 AI，忽略高质量建议，导致表现不如 AI 单独。

流程设计粗糙：
大部分实验只是让 AI“给个建议”，最后由人拍板，
很少真的做“任务分解 + 谁擅长哪一部分就分配给谁”。
数据里只有 3 个实验真正在前期设定明确的人机分工子任务，虽然方向上有正面协同，但样本太少。Nature

2. 三条未来路线（作者提出的“roadmap”）

1）更多研究创作类任务 + 生成式 AI

目前 85% 的效应来自决策任务；创作任务只占约 10%，但后者的协同效应方向是正的。

作者认为：
创作任务中，人负责灵感与判断，AI 负责大规模生成、细节填充，这是更容易实现协同的结构。

呼吁更多以任务表现为指标的生成式 AI + 人类合作实验，而不是停留在态度/体验访谈。Nature+1

2）设计真正“互补分工”的流程（division of labour）

协同增效的必要条件：
人在某些子任务上更强，
AI 在另一些子任务上更强，
系统整体要能把不同子任务交给最适合的一方。Nature

这意味着：
不要再只是“AI 全程给建议，人最后拍板”这种粗暴结构；
而是要设计 任务拆解 + 动态/预设分配 的流程。

3）更复杂、更现实的评价指标

多数实验只看一个“整体准确率”，但实际场景有：
错误类型成本差异巨大（比如医疗诊断里的漏诊 vs 误诊）；
时间成本、金钱成本；
极端错误带来的社会/伦理风险。Nature

作者建议使用：
非线性、成本加权、复合指标，
以及对“人类增强”更友好的度量方式（如减少严重错误的数量等）。

在小宇宙打开