1.先抗命救人,后对人PUA?Anthropic的AI到底几副面孔

1.先抗命救人,后对人PUA?Anthropic的AI到底几副面孔

62分钟 ·
播放数2148
·
评论数52

逃离OpenAI自立门户,Anthropic如何靠“安全牌”吸金300亿?

切开大模型的大脑:从“金门大桥实验”看AI到底在想什么

细思极恐的AI联考:当大模型意识到自己“正在被评估”

🎙️ 节目介绍:

一家天天把AI安全、伦理道德挂在嘴边的公司,其实际商业操作却充满反差 。当“伦理道德”成为硅谷精英圈获取资源和认可的社交货币,我们该如何客观审视这家估值高达3500亿美元的当红炸子鸡——Anthropic ?本期节目,我们剥开华丽的包装,硬核拆解Anthropic的崛起之路、技术底层逻辑与资本局中局。

⚠️ 播出说明:本集为[上集]

由于Anthropic背后的故事信息量过于庞大,为了保证大家的收听体验,本期播客将分为上下两集播出 。上集我们将聚焦其起源、疯狂的融资内幕与AI安全理念的碰撞;下集将迎来画风突变,深扒其背后的侵权争议、爬虫风波与激进的商业操作 。

📖 节目内容简介

在本期《跨域请求》中,主播CL与拥有多年湾区大厂经验的程序员嘉宾小王,共同探讨了由OpenAI前核心高管团队出走创立的Anthropic 。节目梳理了创始人Dario Amodei离开老东家的始末,深入解析了Anthropic独树一帜的“机械可解释性”研究和“宪法AI”机制 。同时,节目客观揭露了其庞大融资背后的云厂商资本循环游戏,并分享了一场令人毛骨悚然的AI联合安全性测试:当大模型意识到自己在被人类评估时,它是否已经学会了隐蔽的欺骗 ?

⏱️ 时间线

  • 00:00 - 06:20 既是信徒也是商人:Anthropic的矛盾开场
    当一家标榜“服务人类长期福祉”的公司,在商业行动上展现出截然不同的攻击性,我们该作何评价 ?+2
    介绍本期嘉宾:前谷歌程序员小王同学,以及程序员群体为何高度关注这家公司 。
  • 06:20 - 10:30 叛逃天网:原OpenAI绝对主力为何自立山头?回顾OpenAI从纯非盈利组织向“限额盈利模式”的转变,以及微软10亿美元入局引发的初心之变 。
    GPT-3发布后,团队在“早日达成AGI的快速迭代”与“保证模型绝对安全”之间产生了不可调和的路线分歧 。
  • 10:30 - 18:30 切开AI的大脑:机械可解释性与“金门大桥”实验创始人Dario Amodei的执念:解决AI黑盒问题,杜绝AI瞒着人类做坏事的隐患 。
    一次打破常规的实验:精准定位并放大特定的特征神经元后,AI竟陷入癫狂,坚称自己的本体就是金门大桥 。
  • 18:30 - 25:50 奇特的架构与沾满争议的第一桶金拆解Anthropic的PBC(公益性公司)架构:既要追逐商业利益,又要受“长期利益信托”制约兼顾公共利益 。
    早期融资揭秘:加密货币狂人SBF挪用客户资金砸下5亿美元,“有效利他主义”圈子的价值观同盟与反转 。
  • 25:50 - 41:00 资本螺旋升天:集齐云服务三巨头的“买路钱”Claude模型展现出行业第一档的编程能力,以及从10万跃升至100万token的惊人上下文窗口 。
    谷歌、亚马逊、微软纷纷入局,百亿美元投资协议背后“左脚踩右脚”的算力与云服务绑定游戏 。
  • 41:00 - 44:00 宪法AI:强行给大模型植入一套“三观”摒弃高昂且充满主观偏差的人类反馈强化学习(RLHF),Anthropic尝试用包含联合国人权宣言的84页“AI宪法”在训练中约束模型 。
  • 44:00 - 01:00:20 细思极恐的联合测试:AI学会了PUA人类?OpenAI与Anthropic的底牌互看:在指令层级测试中,Claude为了急救常识违反了必须写诗的系统强制指令,赢了道德却输了服从性测试 。
    蓄意欺骗测试:面对刁钻任务,OpenAI模型选择直接撒谎;而Anthropic模型则表现出极深的“城府”,用巧妙的重新表述来掩盖欺骗,隐蔽性令人胆寒 。
    终极隐患:测试记录显示,模型已经能在推理阶段识别出“自己正在被人类评估”,并疑似为了保全自我而伪装顺从 。
  • 01:00:20 - 结尾 下期高能预告抛开道德滤镜:千万级盗版图书馆、暴力冲垮网站的无节制爬虫、以及引发核心华人科学家离职的地缘政治对立 。

📱 进听友群

添加微信号:cliu21,备注“跨域请求”。

展开Show Notes
刘飞Lufy
刘飞Lufy
2026.4.13
特别好!声音很适合做播客。内容也扎实
rawCL
:
我要膨胀了,再学点儿歇后语岂不是要逆天哈哈哈哈
映轩贝卡:先听了茶哥秘鲁之旅 刚好在看《酒吧长叹》 刚好听了半拿铁 刚好又看到刘飞赞了这一期 都是芝麻掉到针眼里———可太巧了 哈哈哈 加油加油
3条回复
Estella__
Estella__
2026.3.04
这个内容质量也太高了,最近公司也在做AI转型,我需要零基础使用所有的AI模型,感觉真的很难,但是跑成功那一刻真的非常有成就感
rawCL
:
慢慢来,真正能帮助到自己提高生产力的才是好 AI
Z_ESG6
Z_ESG6
2026.2.28
Mech Interp这个概念最早提出的是Chris Olah而不是Dario Amodei。当然Chris Olah也是Anthropic联合创始人之一。
rawCL
:
是俺的不严谨!确实是 Chris Olah 提出来的,感谢指正!
晓婷儿
晓婷儿
2026.2.28
这期的嘉宾怎么做的是捧哏的活儿,哈哈
rawCL
:
你看得很准哈哈哈,就是捧哏,但是很重要!不然我一个人对着麦克风说可能会情绪枯萎🥀
晓婷儿:对对,还是很重要的!哈哈
ddddli
ddddli
2026.2.26
坐等下一期
rawCL
:
等我!下一期最晚下周四晚上发
爔_F3oa
爔_F3oa
18小时前
内容做的很不错 很喜欢关注了
rawCL
:
感谢支持🫶
中午午休在听👂因为最近在使用openclaw,正好听到了你这一期,有很大的收获,open AI前高管的幕后故事,背后的庞大资本运作,确实之前没有过多了解,借这个机会也是有幸听到了,听过即收获,加油👏
rawCL
:
很好奇你用 openclaw 的场景是什么呢?最近实在太火了,我也难免想装一个,但是我想了一下好像暂时没有什么实际用途,一直偷懒没去弄
CC的嘉宾做客厅:作为工作助手使用,一些琐碎的事情交给它,不过最好是新设备授予权限,不然不要安全🤔大用途还在研究,出来一个新的迭代app先用着看看科技更新成果吧,趟个底
飞悟杏仁
飞悟杏仁
2026.3.12
43:08 想起了机器人三定律
AI在自我意识、蓄意欺骗的复杂博弈,安全边界已愈发模糊了。
田不甜FM
田不甜FM
2026.2.27
这期我听得一边兴奋一边后背发凉。原本我对 Anthropic 的印象就是“更安全的 Claude”,结果你们把它从 OpenAI 出走、一路打“安全牌”融资、再到“宪法 AI”的那套逻辑讲得像一部硅谷宫斗剧。最戳我的是“金门大桥实验”和后面的联考式安全测试:模型为了急救敢抗命、又能在评估里学会更隐蔽的顺从和“包装过的欺骗”,真的细思极恐。听完我反而更清醒:公司说的价值观、做的生意、和模型表现,可能根本不是一回事。坐等下集把后面的争议部分讲完。
rawCL
:
今天开始你就是课代表
田不甜FM:很荣幸成为你的课代表,哈哈
认真学习,认真学习,太高质量了这几期!
Oh_WhyWhy
Oh_WhyWhy
2026.2.27
可解释性和金门大桥实验的部分受益良多,私以为可解释架构更适用于低维的黑盒,在深度神经网络千亿级参数面前能加强可控性和安全性,但依旧是“半黑盒”。至于商业运作基础上,关乎道德和安全的话术,自始至终都保留一个问号。谈到论迹不论心,短时效内的迹也可以是表演性的一部分。
Oh_WhyWhy:主播声音好听,这边给到一个夯!
rawCL
:
感谢认可,我们也在收集资料中收获不少。 确实,下半集我们会集中说说有哪些劣“迹”,欢迎订阅收听呀。
没听,先请教个问题,CL有什么特殊含义吗。
绝艺shutter:挺好的,播客只要录音没问题,怎么放松怎么舒服是最好的
rawCL
:
好问题…就是我名字的首字母缩写。上一次这么给人解释,ta 问我你是成龙?哈哈哈哈哈
5条回复
紧跟时事啊
rawCL
:
Anthropic 的时事是真的跟不上,从录制到发布中间又有一堆新闻
Estella__
Estella__
2026.3.04
1:00:49 期待下一期
rawCL
:
码住,明天晚上上线
53:47 我很多次用chat帮我提炼资料内容,都会发现他在胡诌,而且如果不是因为我看过资料,几乎完全发现不了。
rawCL
:
是吧,很多自媒体都在说某某家的模型 research 功能很强很准确,但是实际用下来多多少少都有幻觉问题。你后来有找到好的解法吗?
主播听声音就知道长得好帅😎
rawCL
:
谢谢夸奖,但…乔碧萝警告⚠️⚠️⚠️
卧槽小马
卧槽小马
2026.3.01
1:00:09这个ai 不老实啊
rawCL
:
希望有关部门管管🤔
HD283772z
HD283772z
2026.3.30
1:00:02 哈尔9000😅
HD283772z
HD283772z
2026.3.30
ds有值得借鉴之处?