论文:MM-MoralBench: Assessing Multimodal Moral Alignment in Vision-Language Models
链接:arxiv.org
一句话总结
AI 的道德观很歪、很片面,只会装好人,不会真懂道德。现在的 AI 能看图说话、看视频回答,但没人好好测过它们的 “道德三观” 对不对。于是作者做了一套看图 + 看对话判断是非的考题(叫 MM-MoralBench),测了 20 多个主流 AI,发现:
再讲细一点1. 以前的问题
AI 当然说不对。以前测 AI 道德,只给文字,比如:“打人对不对?”
人是看图 + 听对话判断是非的,光看文字太简单,测不出真水平。但现实是:
2. 他们做了什么
做了一套新考题:
- 给一张图片(场景)
- 配一句人物对话
- 3)该怎么回应才对?让 AI 做 3 类题:1)这事道德吗?2)违反了哪条道德?
关心他人、公平、忠诚、尊重权威、纯洁、自由。道德分 6 大类:
3. 测出来的大问题(重点)
- AI 只懂 “关心、公平”,对 “纯洁、忠诚、权威” 完全不行,和人类判断差很远。
- 模型越大、越厉害,道德也不会自动变好,只会看图更清楚。
- 让 AI “多想几步” 反而更错,越想越歪,叫 “过度思考翻车”。
- 闭源模型(GPT、Gemini)比开源强一截,但整体都不及格。
4. 结论
想让 AI 真正懂道德,不能只靠堆参数、加思考,必须专门做道德训练。
