AI为何看不懂健身动作?

AI为何看不懂健身动作?

6分钟 ·
播放数17
·
评论数3

论文:Can Vision Language Models Judge Action Quality? An Empirical Evaluation

一句话核心结论

现在最强的看图说话 AI,根本做不了 “动作打分”,在健身、花滑、跳水这些精细动作上,基本等于瞎蒙,离真人教练 / 裁判差太远。

它到底研究了啥

  • 研究场景
动作质量评估(AQA):看视频给动作打分,比如健身标不标准、跳水漂不漂亮、花滑规不规范。
  • 测试对象
目前顶流多模态模型:Gemini 3.1 Pro、Qwen3‑VL、InternVL3.5 等。
  • 怎么测的
换各种提示词、加人体骨架信息、用分步推理、给例子学习
覆盖健身、花样滑冰、跳水等多个场景
  • 测出来啥结果
所有模型只比瞎猜好一丢丢,基本不及格
加骨架、改提示、给例子,偶尔有用,但没有稳定有效的办法
AI 有两个明显毛病:
    不管动作对不对,总爱说 “做得好”
    很容易被提问话术带偏,怎么问就怎么答
  • 最后结论
不是改改提示就能解决,是 AI 根本理解不了精细动作,现在还不能拿来当靠谱裁判或教练。
展开Show Notes
Alona8668
Alona8668
2026.4.17
Ai生成的语音吗
奶思兔米鱿_RkIm:是的呢
Alona8668
Alona8668
2026.4.17
内容很合适,通俗易懂