视觉大模型的道德盲区

听论文-懂大模型评测

21分钟 ·1 个月前

4

·

0

论文：MM-MoralBench: Assessing Multimodal Moral Alignment in Vision-Language Models

链接：arxiv.org

一句话总结

AI 的道德观很歪、很片面，只会装好人，不会真懂道德。现在的 AI 能看图说话、看视频回答，但没人好好测过它们的 “道德三观” 对不对。于是作者做了一套看图 + 看对话判断是非的考题（叫 MM-MoralBench），测了 20 多个主流 AI，发现：

再讲细一点1. 以前的问题

AI 当然说不对。以前测 AI 道德，只给文字，比如：“打人对不对？”

人是看图 + 听对话判断是非的，光看文字太简单，测不出真水平。但现实是：

2. 他们做了什么

做了一套新考题：

给一张图片（场景）

配一句人物对话

3）该怎么回应才对？让 AI 做 3 类题：1）这事道德吗？2）违反了哪条道德？

关心他人、公平、忠诚、尊重权威、纯洁、自由。道德分 6 大类：

3. 测出来的大问题（重点）

AI 只懂 “关心、公平”，对 “纯洁、忠诚、权威” 完全不行，和人类判断差很远。

模型越大、越厉害，道德也不会自动变好，只会看图更清楚。

让 AI “多想几步” 反而更错，越想越歪，叫 “过度思考翻车”。

闭源模型（GPT、Gemini）比开源强一截，但整体都不及格。

4. 结论

想让 AI 真正懂道德，不能只靠堆参数、加思考，必须专门做道德训练。

在小宇宙打开