今日AI大事件速览
2025年10月18日,AI领域风云再起:马斯克宣布X平台将全面转向Grok驱动推荐系统;OpenAI因夸大GPT-5数学能力遭群嘲;Anthropic Skills与OpenAI AgentKit路线之争加剧;同时,多篇前沿论文揭示了AI在幻觉检测、智能体训练与多模态建模上的重大进展。本文为你全面梳理。
X平台即将彻底告别传统算法,Grok将“阅读每一篇帖子”
马斯克在X平台宣布,未来4-6周内将删除所有启发式推荐算法(如if-then规则),全面转向由其AI模型Grok驱动的信息流系统。
据歸藏(guizang.ai)引用推文透露,Grok将真正地“阅读每一篇帖子、观看每一个视频”,日均处理超1亿条内容,以精准匹配用户兴趣。这一变革有望解决新用户和小账户内容曝光难的问题。
更令人期待的是,用户未来将能直接通过对话告诉Grok,临时或永久调整自己的信息流偏好,实现真正的个性化控制。
OpenAI“翻车”:GPT-5并非破解数学难题,而是检索已有论文
OpenAI研究员Mark Sellke高调宣布,借助GPT-5“解出”10个未解的厄尔多斯数学难题(Erdős problems),引发全网震动,Sebastien Bubeck甚至称“AI驱动的科学加速时代正式开启”。
然而,这一“突破”很快被谷歌DeepMind CEO Demis Hassabis泼冷水,直呼“这真是尴尬啊(this is embarrassing)”。真相揭晓:GPT-5并未自主解题,而是通过网络搜索,找到了早已发表但维护者未察觉的论文。
erdosproblems.com网站创始人Thomas Bloom澄清,网站标注“未解”仅表示他个人尚未发现解法,并非全球无解。GPT-5展现的是强大的文献检索与整合能力,而非原创数学推理。
Sebastien Bubeck随后删除推文并道歉,Yann LeCun则讽刺道:“这次他们被自己吹嘘GPT的言论坑惨了(Hoisted by their own GPTards)”。
卡神再发声:人类学习 vs 大模型学习
前OpenAI科学家Andrej Karpathy在访谈中犀利指出,当前大语言模型(LLM)无法像人类一样学习。
- 强化学习是“用吸管吸取监督数据”:单一成功结果的奖励会被平摊到所有步骤,导致错误的中间步骤也被强化。
- 人类学习是通过“提示词”在脑中合成数据,主动处理信息才能获得知识,而LLM缺乏这种机制。
- 模型无法“融会贯通”:如果让LLM反复思考同一本书,它的10次回答几乎一样,缺乏人类思考的多样性与“熵”(创造性)。
- 人类的“健忘”是优势:它迫使人类学习泛化性强的知识,而LLM被海量记忆“分心”。卡神甚至呼吁应设计“认知核心”,让模型记性差一点,更专注于“思考的算法”。
Agent能力再进化:OpenAI五级分级与AEPO算法突破
AI正从“聊天机器人”迈向“智能体(Agent)”时代。业内提出AI发展的五级分级标准:
- ChatBot:一次性输出,依赖知识库
- Reasoners:能先思考再输出
- Agent:具备Think→Act→Observe的动态循环,能使用工具与世界互动
- 创新者:能辅助发明创造
- 组织者:能管理组织运作
当前AI正处于第三级Agent的关键发展阶段。
突破:AEPO算法解决Agentic RL的“熵塌缩”问题
一篇新论文AEPO提出了一种新型的Agentic强化学习算法,旨在解决训练中的“训练崩溃”问题。
传统方法过度依赖“熵”鼓励探索,但易导致策略不稳定和过分支化。AEPO通过:
- 动态熵平衡rollout:预监控熵值,防止过度分支
- 熵平衡策略优化:保留高熵token的梯度,优先学习高不确定性步骤
在GAIA等14个数据集上,AEPO显著优于主流RL算法,仅用1K样本即实现高达65%的GAIA Pass@5准确率,为可扩展的Web Agent训练铺平道路。
新研究:对抗AI“幻觉”与构建原生多模态模型
PsiloQA:首个14语言细粒度幻觉检测数据集
PsiloQA是一个大规模多语言数据集,标注了14种语言中的句子片段级幻觉。它通过三阶段自动化流水线构建,成本远低于人工标注,且证明编码器模型在幻觉检测上表现最佳。
NEO:从零构建的原生视觉-语言模型家族
NEO挑战传统“模块化”VLM,提出原生视觉-语言模型,将视觉与语言在统一框架内深度融合。仅用3.9亿图文对,NEO就能从头发展视觉感知,有效缓解模态冲突。
WithAnyone:对抗“复制粘贴”式人脸生成
针对文生图模型在人像生成中的“copy-paste”问题(直接复制参考脸,缺乏变化),新模型WithAnyone提出对比身份损失和大规模配对数据集MultiID-2M,能在保持高身份相似度的同时,实现对姿态、表情的可控行生成。
实用技巧:提升AI Coding与翻译效果的秘诀
宝玉分享了两条高效实践:
- AI Coding诀窍:不仅要指出错误,更要告诉AI如何验证。例如提供输入、实际输出和期望输出,让AI自动生成测试代码并迭代修复,直至通过。
- 精准翻译提示词:加入“适当解读”指令——对难懂的专业术语或文化差异,用(**注释内容**)进行加粗括号注解,大幅提升可读性。
其他AI相关动态
- Alpha-Service:基于AI眼镜的多智能体框架,能通过第一视角视频主动发现服务机会(如 Blackjack 顾问、博物馆导览),实现真正的“及时、个性化”主动服务。
- Gemini修复了LaTeX公式渲染的bug,支持高清显示和Canvas内联编辑,极大利好科研用户。
- Meta为Facebook推出AI相册优化功能,AI会扫描用户相机胶卷,找出“隐藏的宝藏”照片并建议编辑。Meta称只有当用户使用AI编辑或分享后,这些照片才会被用于训练AI。
结语
今天的AI世界,既有巨头的高调宣言与尴尬翻车,也有学术界的扎实突破。从被动响应到主动服务,从幻觉频收到可控生成,AI正以惊人的速度进化。但卡神的话提醒我们:真正的智能,或许不在于记住一切,而在于懂得“遗忘”并主动思考。
