

- Why We Think | Lilian Weng
前OpenAI的安全研究副总裁,现Thinking Machines Lab的联合创始人,Lilian Weng,更新的一篇超长的万字博客,《Why We Think》
- AlphaEvolve:由 Gemini 提供动力的算法发现
Google DeepMind 发布的文章,“AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms”(发布日期:2025 年 5 月 14 日) 谷歌DeepMind推出了名为AlphaEvolve的创新AI代理,它利用Gemini大型语言模型的创造力和自动化评估器来设计先进的算法。AlphaEvolve不仅提高了谷歌计算基础设施的效率,还为数学和计算机科学中的开放问题找到了新的解决方案。其通过进化框架优化代码的能力,展示了AI在算法发现和优化方面的巨大潜力,并且有望在未来的各种领域得到应用。 * 该系统采用“进化框架”,通过不断改进“最有前途的想法”来提升性能。 * AlphaEvolve 利用了一系列 Gemini 模型,包括“我们最快、最高效的模型,Gemini Flash”,以“最大化探索的思想广度”,以及“我们最强大的模型,Gemini Pro”,以提供“有洞察力的建议”来提供关键的深度。 * 程序的生成、评估和进化过程涉及一个循环:提示采样器组装提示 -> 语言模型生成程序 -> 评估器验证、运行和评分程序 -> 程序存储在数据库中 -> 进化算法决定哪些程序用于未来的提示。
- Attention Is All You Need
这篇论文介绍了 Transformer,一种新型的神经网络架构,完全依赖于 注意力机制 进行序列转换,彻底取代了传统的循环和卷积网络。作者提出 Transformer 在机器翻译等任务上表现 卓越,并且训练起来 更快、更易并行化,甚至在翻译质量上达到了 新的技术高度。通过分析注意力机制的运作方式以及与现有模型的比较,论文强调了 Transformer 在处理 长距离依赖 方面的优势,并展示了其在其他任务上的泛化能力。 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
- 选择性状态空间模型 (SSM) 的新型神经网络架构
Mamba: Linear-Time Sequence Modeling with Selective State Spaces 来源探讨了 Mamba,这是一种基于 选择性状态空间模型 (SSM) 的新型神经网络架构,旨在解决 Transformer 模型在处理长序列时的计算效率问题。作者发现传统 SSM 的弱点在于它们无法进行基于内容的信息处理,而 Mamba 通过允许 SSM 参数依赖于输入来克服这一限制。尽管这使得传统的卷积计算变得低效,但 Mamba 利用一种 硬件感知并行算法 来实现快速推理和训练。最终,Mamba 作为一种通用的序列模型主干,在语言、音频和基因组学等多种模态上取得了 最先进的性能,并在处理长达百万的序列时展现出其优势和线性扩展能力。
- 闭式连续时间模型和连续时间循环神经网络模型
论文1 Liquid Time-constant Networks 这篇论文介绍了一种新型的连续时间循环神经网络模型,称为液体时间常数网络(LTCs)。与依赖隐含非线性不同,LTCs 通过非线性门控调制线性微分系统来建模动态过程。这种结构使得网络具有随输入变化的“液体”时间常数,并且在理论上证明了其稳定和有界行为以及优越的表达能力。通过在各种时间序列预测任务上的实验,LTCs 在大多数情况下都表现出色,显示了其在建模复杂动态系统方面的潜力。 论文2 Closed-form continuous-time neural networks 这份来源介绍了一种闭式连续时间神经网络,称为 CfC,它能有效处理时空决策任务。与依赖耗时数值求解器的传统连续时间模型不同,CfCs 通过提供近似的闭式解,显著提高了训练和推理速度。通过近似 LTC(液体时间常数)网络的动态行为,CfCs 实现了显式的时间依赖性,从而避免了对复杂求解器的需求,展现出卓越的性能,尤其是在处理不规则时间序列数据时。
- 通过强化学习微调大型视觉-语言模型作为决策代理
Zhai, Y., Bai, H., Lin, Z., Pan, J., Tong, S., Zhou, Y., ... & Levine, S. Fine-tuning large vision-language models as decision-making agents via reinforcement learning, 2024. URL arxiv. org/abs/2405.10292. 这份研究提出了一种通过强化学习(RL)来微调大型视觉-语言模型(VLMs)使其能够更好地进行决策的方法。传统的通过指令进行监督学习的方式在需要多步骤、目标导向的互动任务中效果不佳。作者们通过在VLMs的输出中引入思维链(CoT)推理,让模型在生成最终文本动作之前先进行中间的推理步骤,从而提高了决策能力和探索效率。该框架将VLM的文本输出解析成可执行的环境动作,并利用环境提供的任务奖励来优化整个VLM。实验结果表明,这种结合了RL和CoT的方法显著提升了VLMs在各种视觉和语言任务中的表现,甚至超越了像GPT4-V和Gemini这样的商业模型。
- Transformer 模型中无需归一化层的探索
这篇论文探讨了在不使用归一化层的情况下训练 Transformer 模型。研究人员发现,Transformer 中广泛使用的层归一化(Layer Normalization,LN)通常会产生类似 tanh 的 S 形输入-输出映射。受此启发,他们提出了 动态 Tanh(Dynamic Tanh,DyT) 作为 LN 的直接替代品,它使用一个可学习的缩放参数 α 和 tanh 函数来模仿归一化的行为。实验结果表明,无论在视觉或语言任务上,使用 DyT 的 Transformer 在性能上与使用归一化层的模型相当或更好,这挑战了归一化层在现代神经网络中的不可或缺性。 Zhu, J., Chen, X., He, K., LeCun, Y., & Liu, Z. (2025). Transformers without normalization. arXiv preprint arXiv:2503.10622.
- 通过强化学习激励大语言模型的推理能力
这篇论文介绍了DeepSeek-R1系列大型语言模型,旨在通过强化学习提升模型的推理能力。研究人员首先开发了DeepSeek-R1-Zero,一个仅通过大规模强化学习训练的模型,展现出强大的推理能力,但存在可读性等问题。为解决这些挑战并进一步优化性能,他们引入了DeepSeek-R1,结合了多阶段训练和少量引导数据进行强化学习,在推理任务上达到了与OpenAI-o1-1217相当的水平。论文还开源了DeepSeek-R1及其几个尺寸更小的蒸馏模型,以支持研究社区。 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
- 自对弈方法|大型语言模型能否玩游戏?
这篇研究探讨了大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)的结合,旨在提升LLMs在确定性回合制零和游戏中的决策能力。论文提出了一种创新的自我对弈方法,利用LLMs作为行动剪枝器和价值函数代理,无需额外训练即可提高效率。理论分析表明,该方法估计值的次优性与模拟次数N的平方根以及剪枝行动空间大小有关,同时也受LLM作为剪枝器和评估器引入的误差影响。在国际象棋和围棋游戏中的实验结果证明,与单独使用LLMs或传统MCTS相比,这种混合方法表现出了卓越的性能。 Guo, H., Liu, Z., Zhang, Y., & Wang, Z. (2024). Can large language models play games? a case study of a self-play approach. arXiv preprint arXiv:2403.05632.