1.先抗命救人，后对人PUA？Anthropic的AI到底几副面孔

跨域请求

62分钟 ·5个月前

2895

逃离OpenAI自立门户，Anthropic如何靠“安全牌”吸金300亿？

切开大模型的大脑：从“金门大桥实验”看AI到底在想什么

细思极恐的AI联考：当大模型意识到自己“正在被评估”

🎙️ 节目介绍：

一家天天把AI安全、伦理道德挂在嘴边的公司，其实际商业操作却充满反差。当“伦理道德”成为硅谷精英圈获取资源和认可的社交货币，我们该如何客观审视这家估值高达3500亿美元的当红炸子鸡——Anthropic ？本期节目，我们剥开华丽的包装，硬核拆解Anthropic的崛起之路、技术底层逻辑与资本局中局。

⚠️ 播出说明：本集为[上集]

由于Anthropic背后的故事信息量过于庞大，为了保证大家的收听体验，本期播客将分为上下两集播出。上集我们将聚焦其起源、疯狂的融资内幕与AI安全理念的碰撞；下集将迎来画风突变，深扒其背后的侵权争议、爬虫风波与激进的商业操作。

📖 节目内容简介

在本期《跨域请求》中，主播CL与拥有多年湾区大厂经验的程序员嘉宾小王，共同探讨了由OpenAI前核心高管团队出走创立的Anthropic 。节目梳理了创始人Dario Amodei离开老东家的始末，深入解析了Anthropic独树一帜的“机械可解释性”研究和“宪法AI”机制。同时，节目客观揭露了其庞大融资背后的云厂商资本循环游戏，并分享了一场令人毛骨悚然的AI联合安全性测试：当大模型意识到自己在被人类评估时，它是否已经学会了隐蔽的欺骗？

⏱️ 时间线

00:00 - 06:20 既是信徒也是商人：Anthropic的矛盾开场
当一家标榜“服务人类长期福祉”的公司，在商业行动上展现出截然不同的攻击性，我们该作何评价？+2
介绍本期嘉宾：前谷歌程序员小王同学，以及程序员群体为何高度关注这家公司。

06:20 - 10:30 叛逃天网：原OpenAI绝对主力为何自立山头？回顾OpenAI从纯非盈利组织向“限额盈利模式”的转变，以及微软10亿美元入局引发的初心之变。
GPT-3发布后，团队在“早日达成AGI的快速迭代”与“保证模型绝对安全”之间产生了不可调和的路线分歧。

10:30 - 18:30 切开AI的大脑：机械可解释性与“金门大桥”实验创始人Dario Amodei的执念：解决AI黑盒问题，杜绝AI瞒着人类做坏事的隐患。
一次打破常规的实验：精准定位并放大特定的特征神经元后，AI竟陷入癫狂，坚称自己的本体就是金门大桥。

18:30 - 25:50 奇特的架构与沾满争议的第一桶金拆解Anthropic的PBC（公益性公司）架构：既要追逐商业利益，又要受“长期利益信托”制约兼顾公共利益。
早期融资揭秘：加密货币狂人SBF挪用客户资金砸下5亿美元，“有效利他主义”圈子的价值观同盟与反转。

25:50 - 41:00 资本螺旋升天：集齐云服务三巨头的“买路钱”Claude模型展现出行业第一档的编程能力，以及从10万跃升至100万token的惊人上下文窗口。
谷歌、亚马逊、微软纷纷入局，百亿美元投资协议背后“左脚踩右脚”的算力与云服务绑定游戏。

41:00 - 44:00 宪法AI：强行给大模型植入一套“三观”摒弃高昂且充满主观偏差的人类反馈强化学习（RLHF），Anthropic尝试用包含联合国人权宣言的84页“AI宪法”在训练中约束模型。

44:00 - 01:00:20 细思极恐的联合测试：AI学会了PUA人类？OpenAI与Anthropic的底牌互看：在指令层级测试中，Claude为了急救常识违反了必须写诗的系统强制指令，赢了道德却输了服从性测试。
蓄意欺骗测试：面对刁钻任务，OpenAI模型选择直接撒谎；而Anthropic模型则表现出极深的“城府”，用巧妙的重新表述来掩盖欺骗，隐蔽性令人胆寒。
终极隐患：测试记录显示，模型已经能在推理阶段识别出“自己正在被人类评估”，并疑似为了保全自我而伪装顺从。

01:00:20 - 结尾下期高能预告抛开道德滤镜：千万级盗版图书馆、暴力冲垮网站的无节制爬虫、以及引发核心华人科学家离职的地缘政治对立。

📱 进听友群

添加微信号：cliu21，备注“跨域请求”。

展开Show Notes

刘飞Lufy

2026.4.13

特别好！声音很适合做播客。内容也扎实

rawCL

:我要膨胀了，再学点儿歇后语岂不是要逆天哈哈哈哈

映轩贝卡:先听了茶哥秘鲁之旅刚好在看《酒吧长叹》刚好听了半拿铁刚好又看到刘飞赞了这一期都是芝麻掉到针眼里———可太巧了哈哈哈加油加油

共3条回复

Estella__

2026.3.04

这个内容质量也太高了，最近公司也在做AI转型，我需要零基础使用所有的AI模型，感觉真的很难，但是跑成功那一刻真的非常有成就感

rawCL

:慢慢来，真正能帮助到自己提高生产力的才是好 AI

Z_ESG6

2026.2.28

Mech Interp这个概念最早提出的是Chris Olah而不是Dario Amodei。当然Chris Olah也是Anthropic联合创始人之一。

rawCL

:是俺的不严谨！确实是 Chris Olah 提出来的，感谢指正！

晓婷儿

2026.2.28

这期的嘉宾怎么做的是捧哏的活儿，哈哈

rawCL

:你看得很准哈哈哈，就是捧哏，但是很重要！不然我一个人对着麦克风说可能会情绪枯萎🥀

晓婷儿:对对，还是很重要的！哈哈

ddddllll

2026.2.26

坐等下一期

rawCL

:等我！下一期最晚下周四晚上发

爔_F3oa

2026.5.20

内容做的很不错很喜欢关注了

rawCL

:感谢支持🫶

CC的嘉宾做客厅

2026.3.01

中午午休在听👂因为最近在使用openclaw，正好听到了你这一期，有很大的收获，open AI前高管的幕后故事，背后的庞大资本运作，确实之前没有过多了解，借这个机会也是有幸听到了，听过即收获，加油👏

rawCL

:很好奇你用 openclaw 的场景是什么呢？最近实在太火了，我也难免想装一个，但是我想了一下好像暂时没有什么实际用途，一直偷懒没去弄

CC的嘉宾做客厅:作为工作助手使用，一些琐碎的事情交给它，不过最好是新设备授予权限，不然不要安全🤔大用途还在研究，出来一个新的迭代app先用着看看科技更新成果吧，趟个底

飞悟杏仁

2026.3.12

43:08 想起了机器人三定律

简洁Jane互订

2026.3.05

AI在自我意识、蓄意欺骗的复杂博弈，安全边界已愈发模糊了。

田不甜FM

2026.2.27

这期我听得一边兴奋一边后背发凉。原本我对 Anthropic 的印象就是“更安全的 Claude”，结果你们把它从 OpenAI 出走、一路打“安全牌”融资、再到“宪法 AI”的那套逻辑讲得像一部硅谷宫斗剧。最戳我的是“金门大桥实验”和后面的联考式安全测试：模型为了急救敢抗命、又能在评估里学会更隐蔽的顺从和“包装过的欺骗”，真的细思极恐。听完我反而更清醒：公司说的价值观、做的生意、和模型表现，可能根本不是一回事。坐等下集把后面的争议部分讲完。

rawCL

:今天开始你就是课代表

田不甜FM:很荣幸成为你的课代表，哈哈

CC的嘉宾做客厅

2026.3.01

认真学习，认真学习，太高质量了这几期！