AI前沿速递：Grok重塑推荐、Agent进化与模型幻觉新突破

今日AI大事件速览

2025年10月18日，AI领域风云再起：马斯克宣布X平台将全面转向Grok驱动推荐系统；OpenAI因夸大GPT-5数学能力遭群嘲；Anthropic Skills与OpenAI AgentKit路线之争加剧；同时，多篇前沿论文揭示了AI在幻觉检测、智能体训练与多模态建模上的重大进展。本文为你全面梳理。

X平台即将彻底告别传统算法，Grok将“阅读每一篇帖子”

马斯克在X平台宣布，未来4-6周内将删除所有启发式推荐算法（如if-then规则），全面转向由其AI模型Grok驱动的信息流系统。

据歸藏(guizang.ai)引用推文透露，Grok将真正地“阅读每一篇帖子、观看每一个视频”，日均处理超1亿条内容，以精准匹配用户兴趣。这一变革有望解决新用户和小账户内容曝光难的问题。

更令人期待的是，用户未来将能直接通过对话告诉Grok，临时或永久调整自己的信息流偏好，实现真正的个性化控制。

OpenAI“翻车”：GPT-5并非破解数学难题，而是检索已有论文

OpenAI研究员Mark Sellke高调宣布，借助GPT-5“解出”10个未解的厄尔多斯数学难题（Erdős problems），引发全网震动，Sebastien Bubeck甚至称“AI驱动的科学加速时代正式开启”。

然而，这一“突破”很快被谷歌DeepMind CEO Demis Hassabis泼冷水，直呼“这真是尴尬啊（this is embarrassing）”。真相揭晓：GPT-5并未自主解题，而是通过网络搜索，找到了早已发表但维护者未察觉的论文。

erdosproblems.com网站创始人Thomas Bloom澄清，网站标注“未解”仅表示他个人尚未发现解法，并非全球无解。GPT-5展现的是强大的文献检索与整合能力，而非原创数学推理。

Sebastien Bubeck随后删除推文并道歉，Yann LeCun则讽刺道：“这次他们被自己吹嘘GPT的言论坑惨了（Hoisted by their own GPTards）”。

卡神再发声：人类学习 vs 大模型学习

前OpenAI科学家Andrej Karpathy在访谈中犀利指出，当前大语言模型（LLM）无法像人类一样学习。

强化学习是“用吸管吸取监督数据”：单一成功结果的奖励会被平摊到所有步骤，导致错误的中间步骤也被强化。

人类学习是通过“提示词”在脑中合成数据，主动处理信息才能获得知识，而LLM缺乏这种机制。

模型无法“融会贯通”：如果让LLM反复思考同一本书，它的10次回答几乎一样，缺乏人类思考的多样性与“熵”（创造性）。

人类的“健忘”是优势：它迫使人类学习泛化性强的知识，而LLM被海量记忆“分心”。卡神甚至呼吁应设计“认知核心”，让模型记性差一点，更专注于“思考的算法”。

Agent能力再进化：OpenAI五级分级与AEPO算法突破

AI正从“聊天机器人”迈向“智能体（Agent）”时代。业内提出AI发展的五级分级标准：

ChatBot：一次性输出，依赖知识库

Reasoners：能先思考再输出

Agent：具备Think→Act→Observe的动态循环，能使用工具与世界互动

创新者：能辅助发明创造

组织者：能管理组织运作

当前AI正处于第三级Agent的关键发展阶段。

突破：AEPO算法解决Agentic RL的“熵塌缩”问题

一篇新论文AEPO提出了一种新型的Agentic强化学习算法，旨在解决训练中的“训练崩溃”问题。

传统方法过度依赖“熵”鼓励探索，但易导致策略不稳定和过分支化。AEPO通过：

动态熵平衡rollout：预监控熵值，防止过度分支

熵平衡策略优化：保留高熵token的梯度，优先学习高不确定性步骤

在GAIA等14个数据集上，AEPO显著优于主流RL算法，仅用1K样本即实现高达65%的GAIA Pass@5准确率，为可扩展的Web Agent训练铺平道路。

新研究：对抗AI“幻觉”与构建原生多模态模型

PsiloQA：首个14语言细粒度幻觉检测数据集

PsiloQA是一个大规模多语言数据集，标注了14种语言中的句子片段级幻觉。它通过三阶段自动化流水线构建，成本远低于人工标注，且证明编码器模型在幻觉检测上表现最佳。

NEO：从零构建的原生视觉-语言模型家族

NEO挑战传统“模块化”VLM，提出原生视觉-语言模型，将视觉与语言在统一框架内深度融合。仅用3.9亿图文对，NEO就能从头发展视觉感知，有效缓解模态冲突。

WithAnyone：对抗“复制粘贴”式人脸生成

针对文生图模型在人像生成中的“copy-paste”问题（直接复制参考脸，缺乏变化），新模型WithAnyone提出对比身份损失和大规模配对数据集MultiID-2M，能在保持高身份相似度的同时，实现对姿态、表情的可控行生成。

实用技巧：提升AI Coding与翻译效果的秘诀

宝玉分享了两条高效实践：

AI Coding诀窍：不仅要指出错误，更要告诉AI如何验证。例如提供输入、实际输出和期望输出，让AI自动生成测试代码并迭代修复，直至通过。

精准翻译提示词：加入“适当解读”指令——对难懂的专业术语或文化差异，用(**注释内容**)进行加粗括号注解，大幅提升可读性。

其他AI相关动态

Alpha-Service：基于AI眼镜的多智能体框架，能通过第一视角视频主动发现服务机会（如 Blackjack 顾问、博物馆导览），实现真正的“及时、个性化”主动服务。

Gemini修复了LaTeX公式渲染的bug，支持高清显示和Canvas内联编辑，极大利好科研用户。

Meta为Facebook推出AI相册优化功能，AI会扫描用户相机胶卷，找出“隐藏的宝藏”照片并建议编辑。Meta称只有当用户使用AI编辑或分享后，这些照片才会被用于训练AI。

结语

今天的AI世界，既有巨头的高调宣言与尴尬翻车，也有学术界的扎实突破。从被动响应到主动服务，从幻觉频收到可控生成，AI正以惊人的速度进化。但卡神的话提醒我们：真正的智能，或许不在于记住一切，而在于懂得“遗忘”并主动思考。

参考资料：

归藏：X将用Grok全面替代推荐算法

宝玉：GPT-5“解题”事件始末

宝玉：卡神谈人类学习

AEPO: Agentic Entropy-Balanced Policy Optimization

PsiloQA: Multilingual Hallucination Detection Dataset

NEO: Native Vision-Language Models

WithAnyone: Mitigating Copy-Paste in T2I

宝玉：AI翻译提示词技巧

宝玉：AI Coding验证技巧

Meta AI将扫描用户相机胶卷