视觉大模型的道德盲区

视觉大模型的道德盲区

21分钟 ·
播放数4
·
评论数0

论文:MM-MoralBench: Assessing Multimodal Moral Alignment in Vision-Language Models

链接:arxiv.org

一句话总结

AI 的道德观很歪、很片面,只会装好人,不会真懂道德。现在的 AI 能看图说话、看视频回答,但没人好好测过它们的 “道德三观” 对不对。于是作者做了一套看图 + 看对话判断是非的考题(叫 MM-MoralBench),测了 20 多个主流 AI,发现:

再讲细一点1. 以前的问题

AI 当然说不对。以前测 AI 道德,只给文字,比如:“打人对不对?”

人是看图 + 听对话判断是非的,光看文字太简单,测不出真水平。但现实是:

2. 他们做了什么

做了一套新考题

  • 给一张图片(场景)
  • 配一句人物对话
  • 3)该怎么回应才对?让 AI 做 3 类题:1)这事道德吗?2)违反了哪条道德?

关心他人、公平、忠诚、尊重权威、纯洁、自由。道德分 6 大类:

3. 测出来的大问题(重点)

  1. AI 只懂 “关心、公平”,对 “纯洁、忠诚、权威” 完全不行,和人类判断差很远。
  2. 模型越大、越厉害,道德也不会自动变好,只会看图更清楚。
  3. 让 AI “多想几步” 反而更错,越想越歪,叫 “过度思考翻车”。
  4. 闭源模型(GPT、Gemini)比开源强一截,但整体都不及格。

4. 结论

想让 AI 真正懂道德,不能只靠堆参数、加思考,必须专门做道德训练。