能全自动填表下单的AI Agent真的靠谱吗?它的好成绩可能只是一种“沙盒假象”。最新研究发现,离开实验室的静态环境,面对真实的网页弹窗和长表单,顶尖模型的表现会大幅下滑。很多人类觉得简单的操作,AI只要错一个小细节就会引发连锁崩溃。你觉得现在的AI离真正接管生活还有多远?(音频内容由AMiner Research Labs生成)


AI智能体真的能接管我们的生活吗?
11分钟 ·
1·
0


能全自动填表下单的AI Agent真的靠谱吗?它的好成绩可能只是一种“沙盒假象”。最新研究发现,离开实验室的静态环境,面对真实的网页弹窗和长表单,顶尖模型的表现会大幅下滑。很多人类觉得简单的操作,AI只要错一个小细节就会引发连锁崩溃。你觉得现在的AI离真正接管生活还有多远?(音频内容由AMiner Research Labs生成)