#124. Claude 4 是如何思考的？Anthropic研究员亲自揭秘

📝 本期播客简介

本期我们克隆了：How Does Claude 4 Think? – Sholto Douglas & Trenton Bricken

Dwarkesh Patel与老朋友，来自Anthropic的Sholto Douglas和Trenton Bricken再度聚首，深入探讨过去一年AI领域的惊人进展与未来挑战。Sholto分享了强化学习在大规模应用上的突破，特别是在竞赛编程和数学领域达到专家级水平的进展，并预测AI将在短期内胜任初级软件工程师的工作。Trenton则聚焦于机制互操作性研究，揭示了模型内部工作的新发现，例如Claude玩《口袋妖怪》所暴露的记忆瓶颈，以及AI在药物发现等领域的创造潜力，甚至提及了利用LLM完成长篇创作的案例。节目还深入讨论了AI智能体在软件工程等实际任务中的应用前景、可靠性挑战、可验证奖励机制的重要性，以及AI对齐、模型可解释性（如“金门大桥”特征）、算力瓶颈和AI伦理等关键议题。

感谢minimax提供的语音克隆技术支持，我们采用了minimax的speech-02模型进行声音复刻。通过minimax目前业界领先的语音克隆技术，我们能够精准还原原播客主持人和嘉宾的声音特征、情感色彩和语调变化，让您在聆听中文内容的同时，依然能感受到原声音的独特魅力。

👨‍💻 本期嘉宾

Sholto Douglas：Anthropic研究员，专注于强化学习的大规模应用，推动AI在竞赛编程和数学等复杂任务中达到专家级表现。

Trenton Bricken：Anthropic研究员，致力于机制互操作性研究，探索大型语言模型内部的工作原理、行为模式与可解释性。

📒 文字版精华

见微信公众号（点击跳转）

🌟 精彩内容

强化学习新进展: Sholto解读AI如何在编程与数学竞赛中达到专家级水平，以及“可验证奖励强化学习”的关键作用。

AI智能体的瓶颈与前景: 讨论AI在执行长期任务（如软件工程、游戏《口袋妖怪》）中的记忆、可靠性与上下文理解挑战。

AI的创造性潜力: Trenton分享AI在药物发现（如LSDV2）等科研领域的惊人案例，以及LLM在长篇创作中的应用。

模型可解释性探索: 揭示AI模型内部特征（如“金门大桥”特征）的跨模态泛化能力与复杂决策路径，以及模型如何进行推理和事实检索。

AI对齐与安全: 探讨“问题模型”审计挑战、AI“伪装”行为（Sleeper Agent现象）、以及将“人类繁荣”作为AI目标的复杂性。

AI操作计算机的未来: 预测AI智能体在未来一两年内操作Photoshop、预订机票甚至辅助处理税务等任务的可能性与挑战。

算力与政策前瞻: 分析未来算力瓶颈（如H100 GPU供应）对AI发展的影响，以及各国政府应如何制定政策以应对AI带来的社会变革。

DeepSeek案例分析: 讨论DeepSeek在算法和硬件协同优化方面的成就，及其对AI研究的启示。

🌐 播客信息补充

翻译克隆自：How Does Claude 4 Think? – Sholto Douglas & Trenton Bricken

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight