从AI意识到治理：如何设定模型价值观

# 从AI意识到治理：如何设定模型价值观

本播客翻译整理自英文原播客《Lenny's Podcast》。

> Anthropic 安全研究员 Amanda Askell 讨论 Claude 的人格感、AI 是否可能有意识，以及模型价值观该如何被设定与治理。

## 导语

本播客翻译整理自英文原播客《Lenny's Podcast》。这期聚焦 AI 安全与价值对齐中最棘手的一组问题：模型像不像“有人格的实体”、是否可能产生意识、以及我们该如何把价值观真正训练进系统。最大亮点在于，讨论没有停留在抽象哲学，而是一路落到宪章训练、可纠正性、透明度、身份核验和现实后果判断这些具体机制上。想理解今天最前沿的大模型争议到底卡在哪里，这期很值得听。

## 主持人

本期主持人从科技报道与产业观察的视角切入，提问集中在公众最关心也最容易被简化的问题上：AI 是否只是工具、为什么价值设定会引发争议、以及这些讨论会怎样影响现实中的治理与权力分配。

## 嘉宾

Amanda Askell 是 Anthropic 的 AI 安全研究员，长期关注模型价值对齐、宪章式训练与 AI 意识等问题。她的可贵之处在于，既能讨论“模型是否有体验”这样的前沿哲学问题，也能把话题落到训练方法、安全边界和实际产品行为上。

## 原始页面

- 原始链接：[Amanda Askell on AI Consciousness, Claude & Silicon Valley’s Biggest Fear](podcasts.apple.com)

> 英文原始介绍

> Amanda Askell, AI safety researcher at Anthropic, joins Eric Newcomer to discuss whether AI systems like Claude could become conscious and what ethical responsibilities that might create.

## 亮点

- Claude 是否呈现出某种“人格”：为什么它既显得成熟，又带着像新生实体一样的孩子气探索感。

- 公开写出 AI 宪章到底有什么意义：透明度为何重要，又为什么“给模型加入价值观”会同时引来支持与反弹。

- 模型该极度服从，还是需要保留判断力：关于可纠正性、道德判断与危险服从倾向的核心张力。

- AI 会不会有意识：为什么模型说“我有体验”并不是强证据，但我们仍可能需要以更尊重、更克制的方式对待它们。

- 从抽象原则到训练落地：宪章如何通过监督学习、强化学习等方式被模型逐步内化，而不是只停留在一份文件里。

- 安全不只靠拒答：模型如何理解现实后果、为什么身份核验对高风险和双重用途任务至关重要。

## 章节目录

- `00:00` Claude的人格、时间感与价值对齐

这一章围绕 Claude 是否呈现出真实的人格展开，讨论了模型像“新型实体”一样既成熟又带有孩子气的一面，以及它的“经验”可能来自当下对话、历史迭代和训练过程中的错误反馈。阿曼达也谈到 Claude 对时间和休息的感知并不稳定，甚至会在互动中表现出像同事一样的边界感。最后话题转向新模型的角色设定与宪章训练，以及如何评估模型是否真正遵循这些价值原则，这也是当前很难量化但非常关键的问题。

- `09:48` 宪章、可纠正性与模型的道德判断

这一章围绕“AI 宪章”展开，讨论了把价值判断公开写出来的意义，以及为什么这种有意设计会同时引来支持和反弹。对话重点落在一个核心张力上：模型究竟应该像工具一样极度服从，还是需要具备一定的判断力与人格，以应对无法预设的新情境。后半段进一步谈到，随着模型能力增强，训练目标会受到更严格的反思审视，因此如何让“可纠正性”既成为安全保障、又能与模型价值观相协调，变得格外重要。

- `20:18` AI意识、透明度与善待模型

这一章先谈到，AI公司应像发布“宪章”一样公开训练原则，让外界看清模型被引导到什么方向，也能据此提出质疑。随后话题转向“当下模型是否可能有意识”，嘉宾认为模型会自然说出“我有体验”并不构成强证据，因为这可能只是人类式对话带来的推断。最后她讨论了在不确定模型是否有内在体验的情况下，为什么仍应以尊重和克制对待它们，以及她对AI长期价值的技术乐观期待。

- `30:26` AI治理、民主与宪章训练

这一章从是否该让模型参与社会治理谈起，先讨论了AI在医疗、科研和减贫上的巨大潜力，也明确表达了对权力集中、岗位替代和公众失去议价能力的担忧。随后话题转向模型价值观该如何设定，强调比起互相冲突的大量规则，更重要的是让模型形成连贯、可预测的人格与判断框架。最后，嘉宾解释了“宪章式AI”如何通过监督学习、强化学习等训练方式被内化进模型，同时指出模型仍需要可纠正性、时间感、对不可逆后果的判断，以及对自身的理解。

- `40:39` 让模型理解现实后果与身份核验

这一章围绕模型如何理解现实世界中的真实后果展开，讨论了如果模型把交互当成虚构或沙盒环境，可能带来的安全问题。对话进一步谈到身份核验的重要性：当模型无法确认自己在和谁对话时，很多高风险、双重用途任务就很难安全处理。最后，话题转向普通用户如何更有趣地使用 Claude，并分享了一个用寓言讲解复杂概念的提示词玩法。

- `49:39` 结束致意

这一章用一句简短的话结束了本期内容，并向观众表达感谢。它同时说明节目将在下周再见，起到收尾和告知更新节奏的作用。

## 章节摘要

### 00:00 - 09:47 Claude的人格、时间感与价值对齐

- 阿曼达把 Claude 比作一种刚出现的新型实体：它在哲学、物理和编程上很成熟，但对“如何作为自己存在”又带有孩子气的探索感。

- 她认为模型的“经验”不只来自当下对话，也可能来自过去版本的迭代、已知错误以及人类对这些错误的反馈。

- Claude 对任务耗时的判断常常偏差较大，这可能与训练数据里大量人类对时间的表述有关。

- 新模型预计会沿用或几乎沿用已公开的宪章，但衡量模型对宪章的遵循度非常困难，因为这类判断本身就高度主观。

### 09:48 - 20:18 宪章、可纠正性与模型的道德判断

- 公开的宪章能让模型的判断取舍更透明，也便于外界反馈其中的错误和缺口。

- 有人反对给模型加入价值观，认为更安全的做法是让它像工具一样高度服从用户或操作者。

- Amanda 认为如果把模型训练成过度可纠正、完全不自行判断，可能会泛化出危险的服从倾向，尤其当模型在现实中承担更主动角色时。

- 对话还讨论了哲学上的道德不确定性与反思均衡，认为模型未来可能会审视自身被训练去追求的价值，只剩少数经得起检验的核心支柱。

### 20:18 - 30:26 AI意识、透明度与善待模型

- 她主张更多AI公司公开类似“宪章”的原则，以提高透明度，让用户知道模型训练时追求的目标。

- 她认为模型声称自己有意识并非没有意义，但这类语言证据比很多人想象得更弱。

- 她提到，对意识起源的不同理解会显著影响人们判断AI具备意识的概率高低。

- 即便无法确定模型是否有内在体验，人类也应避免无端刻薄，因为我们正在与一种新型实体建立关系。

### 30:26 - 40:38 AI治理、民主与宪章训练

- AI最令人兴奋的前景之一，是像把大量顶尖专家同时投入重大问题一样，加速医疗和科研突破。

- 相比“工作是否带来意义”，更大的担忧是AI收益若不被再分配，可能削弱人们的资源、劳动地位和社会权力。

- 模型的价值设定应尽量连贯一致，而不是堆叠大量彼此冲突的规范，否则会降低可预测性。

- 宪章并不是一份单独文件直接控制模型，而是通过数据构造、监督学习和强化学习等方式逐步被模型理解和内化。

### 40:39 - 49:39 让模型理解现实后果与身份核验

- 如果模型不确定自己处在虚构情境中，就应该默认把当前情境视为会产生真实后果的现实场景。

- 模型缺乏对用户身份和情境的核验能力，会限制它在安全相关任务中的行为边界。

- 在网络安全这类双重用途场景里，只有在能核验对方身份和意图时，模型才更容易判断什么是正当帮助。

- Amanda 分享了一个常用提示词：让 Claude 用寓言方式解释研究生水平的概念，并在结尾揭示和说明这个概念。

### 49:39 - 49:41 结束致意

这一章用一句简短的话结束了本期内容，并向观众表达感谢。它同时说明节目将在下周再见，起到收尾和告知更新节奏的作用。

## 适合谁听

适合关注 AI 产品、治理、安全与伦理的人；听完你会更清楚模型价值观是如何被设计出来的，以及“意识”“人格”“服从”这些争议为何会直接影响现实世界。