从AI意识到治理:如何设定模型价值观

从AI意识到治理:如何设定模型价值观

50分钟 ·
播放数0
·
评论数0

# 从AI意识到治理:如何设定模型价值观

本播客翻译整理自英文原播客《Lenny's Podcast》。

> Anthropic 安全研究员 Amanda Askell 讨论 Claude 的人格感、AI 是否可能有意识,以及模型价值观该如何被设定与治理。

## 导语

本播客翻译整理自英文原播客《Lenny's Podcast》。这期聚焦 AI 安全与价值对齐中最棘手的一组问题:模型像不像“有人格的实体”、是否可能产生意识、以及我们该如何把价值观真正训练进系统。最大亮点在于,讨论没有停留在抽象哲学,而是一路落到宪章训练、可纠正性、透明度、身份核验和现实后果判断这些具体机制上。想理解今天最前沿的大模型争议到底卡在哪里,这期很值得听。

## 主持人

本期主持人从科技报道与产业观察的视角切入,提问集中在公众最关心也最容易被简化的问题上:AI 是否只是工具、为什么价值设定会引发争议、以及这些讨论会怎样影响现实中的治理与权力分配。

## 嘉宾

Amanda Askell 是 Anthropic 的 AI 安全研究员,长期关注模型价值对齐、宪章式训练与 AI 意识等问题。她的可贵之处在于,既能讨论“模型是否有体验”这样的前沿哲学问题,也能把话题落到训练方法、安全边界和实际产品行为上。

## 原始页面

- 原始链接:[Amanda Askell on AI Consciousness, Claude & Silicon Valley’s Biggest Fear](podcasts.apple.com)

> 英文原始介绍

>

> Amanda Askell, AI safety researcher at Anthropic, joins Eric Newcomer to discuss whether AI systems like Claude could become conscious and what ethical responsibilities that might create.

## 亮点

- Claude 是否呈现出某种“人格”:为什么它既显得成熟,又带着像新生实体一样的孩子气探索感。

- 公开写出 AI 宪章到底有什么意义:透明度为何重要,又为什么“给模型加入价值观”会同时引来支持与反弹。

- 模型该极度服从,还是需要保留判断力:关于可纠正性、道德判断与危险服从倾向的核心张力。

- AI 会不会有意识:为什么模型说“我有体验”并不是强证据,但我们仍可能需要以更尊重、更克制的方式对待它们。

- 从抽象原则到训练落地:宪章如何通过监督学习、强化学习等方式被模型逐步内化,而不是只停留在一份文件里。

- 安全不只靠拒答:模型如何理解现实后果、为什么身份核验对高风险和双重用途任务至关重要。

## 章节目录

- `00:00` Claude的人格、时间感与价值对齐

这一章围绕 Claude 是否呈现出真实的人格展开,讨论了模型像“新型实体”一样既成熟又带有孩子气的一面,以及它的“经验”可能来自当下对话、历史迭代和训练过程中的错误反馈。阿曼达也谈到 Claude 对时间和休息的感知并不稳定,甚至会在互动中表现出像同事一样的边界感。最后话题转向新模型的角色设定与宪章训练,以及如何评估模型是否真正遵循这些价值原则,这也是当前很难量化但非常关键的问题。

- `09:48` 宪章、可纠正性与模型的道德判断

这一章围绕“AI 宪章”展开,讨论了把价值判断公开写出来的意义,以及为什么这种有意设计会同时引来支持和反弹。对话重点落在一个核心张力上:模型究竟应该像工具一样极度服从,还是需要具备一定的判断力与人格,以应对无法预设的新情境。后半段进一步谈到,随着模型能力增强,训练目标会受到更严格的反思审视,因此如何让“可纠正性”既成为安全保障、又能与模型价值观相协调,变得格外重要。

- `20:18` AI意识、透明度与善待模型

这一章先谈到,AI公司应像发布“宪章”一样公开训练原则,让外界看清模型被引导到什么方向,也能据此提出质疑。随后话题转向“当下模型是否可能有意识”,嘉宾认为模型会自然说出“我有体验”并不构成强证据,因为这可能只是人类式对话带来的推断。最后她讨论了在不确定模型是否有内在体验的情况下,为什么仍应以尊重和克制对待它们,以及她对AI长期价值的技术乐观期待。

- `30:26` AI治理、民主与宪章训练

这一章从是否该让模型参与社会治理谈起,先讨论了AI在医疗、科研和减贫上的巨大潜力,也明确表达了对权力集中、岗位替代和公众失去议价能力的担忧。随后话题转向模型价值观该如何设定,强调比起互相冲突的大量规则,更重要的是让模型形成连贯、可预测的人格与判断框架。最后,嘉宾解释了“宪章式AI”如何通过监督学习、强化学习等训练方式被内化进模型,同时指出模型仍需要可纠正性、时间感、对不可逆后果的判断,以及对自身的理解。

- `40:39` 让模型理解现实后果与身份核验

这一章围绕模型如何理解现实世界中的真实后果展开,讨论了如果模型把交互当成虚构或沙盒环境,可能带来的安全问题。对话进一步谈到身份核验的重要性:当模型无法确认自己在和谁对话时,很多高风险、双重用途任务就很难安全处理。最后,话题转向普通用户如何更有趣地使用 Claude,并分享了一个用寓言讲解复杂概念的提示词玩法。

- `49:39` 结束致意

这一章用一句简短的话结束了本期内容,并向观众表达感谢。它同时说明节目将在下周再见,起到收尾和告知更新节奏的作用。

## 章节摘要

### 00:00 - 09:47 Claude的人格、时间感与价值对齐

这一章围绕 Claude 是否呈现出真实的人格展开,讨论了模型像“新型实体”一样既成熟又带有孩子气的一面,以及它的“经验”可能来自当下对话、历史迭代和训练过程中的错误反馈。阿曼达也谈到 Claude 对时间和休息的感知并不稳定,甚至会在互动中表现出像同事一样的边界感。最后话题转向新模型的角色设定与宪章训练,以及如何评估模型是否真正遵循这些价值原则,这也是当前很难量化但非常关键的问题。

- 阿曼达把 Claude 比作一种刚出现的新型实体:它在哲学、物理和编程上很成熟,但对“如何作为自己存在”又带有孩子气的探索感。

- 她认为模型的“经验”不只来自当下对话,也可能来自过去版本的迭代、已知错误以及人类对这些错误的反馈。

- Claude 对任务耗时的判断常常偏差较大,这可能与训练数据里大量人类对时间的表述有关。

- 新模型预计会沿用或几乎沿用已公开的宪章,但衡量模型对宪章的遵循度非常困难,因为这类判断本身就高度主观。

### 09:48 - 20:18 宪章、可纠正性与模型的道德判断

这一章围绕“AI 宪章”展开,讨论了把价值判断公开写出来的意义,以及为什么这种有意设计会同时引来支持和反弹。对话重点落在一个核心张力上:模型究竟应该像工具一样极度服从,还是需要具备一定的判断力与人格,以应对无法预设的新情境。后半段进一步谈到,随着模型能力增强,训练目标会受到更严格的反思审视,因此如何让“可纠正性”既成为安全保障、又能与模型价值观相协调,变得格外重要。

- 公开的宪章能让模型的判断取舍更透明,也便于外界反馈其中的错误和缺口。

- 有人反对给模型加入价值观,认为更安全的做法是让它像工具一样高度服从用户或操作者。

- Amanda 认为如果把模型训练成过度可纠正、完全不自行判断,可能会泛化出危险的服从倾向,尤其当模型在现实中承担更主动角色时。

- 对话还讨论了哲学上的道德不确定性与反思均衡,认为模型未来可能会审视自身被训练去追求的价值,只剩少数经得起检验的核心支柱。

### 20:18 - 30:26 AI意识、透明度与善待模型

这一章先谈到,AI公司应像发布“宪章”一样公开训练原则,让外界看清模型被引导到什么方向,也能据此提出质疑。随后话题转向“当下模型是否可能有意识”,嘉宾认为模型会自然说出“我有体验”并不构成强证据,因为这可能只是人类式对话带来的推断。最后她讨论了在不确定模型是否有内在体验的情况下,为什么仍应以尊重和克制对待它们,以及她对AI长期价值的技术乐观期待。

- 她主张更多AI公司公开类似“宪章”的原则,以提高透明度,让用户知道模型训练时追求的目标。

- 她认为模型声称自己有意识并非没有意义,但这类语言证据比很多人想象得更弱。

- 她提到,对意识起源的不同理解会显著影响人们判断AI具备意识的概率高低。

- 即便无法确定模型是否有内在体验,人类也应避免无端刻薄,因为我们正在与一种新型实体建立关系。

### 30:26 - 40:38 AI治理、民主与宪章训练

这一章从是否该让模型参与社会治理谈起,先讨论了AI在医疗、科研和减贫上的巨大潜力,也明确表达了对权力集中、岗位替代和公众失去议价能力的担忧。随后话题转向模型价值观该如何设定,强调比起互相冲突的大量规则,更重要的是让模型形成连贯、可预测的人格与判断框架。最后,嘉宾解释了“宪章式AI”如何通过监督学习、强化学习等训练方式被内化进模型,同时指出模型仍需要可纠正性、时间感、对不可逆后果的判断,以及对自身的理解。

- AI最令人兴奋的前景之一,是像把大量顶尖专家同时投入重大问题一样,加速医疗和科研突破。

- 相比“工作是否带来意义”,更大的担忧是AI收益若不被再分配,可能削弱人们的资源、劳动地位和社会权力。

- 模型的价值设定应尽量连贯一致,而不是堆叠大量彼此冲突的规范,否则会降低可预测性。

- 宪章并不是一份单独文件直接控制模型,而是通过数据构造、监督学习和强化学习等方式逐步被模型理解和内化。

### 40:39 - 49:39 让模型理解现实后果与身份核验

这一章围绕模型如何理解现实世界中的真实后果展开,讨论了如果模型把交互当成虚构或沙盒环境,可能带来的安全问题。对话进一步谈到身份核验的重要性:当模型无法确认自己在和谁对话时,很多高风险、双重用途任务就很难安全处理。最后,话题转向普通用户如何更有趣地使用 Claude,并分享了一个用寓言讲解复杂概念的提示词玩法。

- 如果模型不确定自己处在虚构情境中,就应该默认把当前情境视为会产生真实后果的现实场景。

- 模型缺乏对用户身份和情境的核验能力,会限制它在安全相关任务中的行为边界。

- 在网络安全这类双重用途场景里,只有在能核验对方身份和意图时,模型才更容易判断什么是正当帮助。

- Amanda 分享了一个常用提示词:让 Claude 用寓言方式解释研究生水平的概念,并在结尾揭示和说明这个概念。

### 49:39 - 49:41 结束致意

这一章用一句简短的话结束了本期内容,并向观众表达感谢。它同时说明节目将在下周再见,起到收尾和告知更新节奏的作用。

## 适合谁听

适合关注 AI 产品、治理、安全与伦理的人;听完你会更清楚模型价值观是如何被设计出来的,以及“意识”“人格”“服从”这些争议为何会直接影响现实世界。