AI技术爆发的背后:安全、伦理与责任|对话青年AI研究员符尧

AI技术爆发的背后:安全、伦理与责任|对话青年AI研究员符尧

63分钟 ·
播放数20334
·
评论数48

最近6个月,以ChatGPT为代表的生成式AI技术出现了「寒武纪大爆发」。每天我们都能看到生成式AI涌现出新能力、新场景、新应用。作为一直研究和从事科技创新的创业者和投资人,我既感到非常兴奋,又和很多同行一样产生深深的担忧。

当一种新技术被创造出来的时候,其实被同时创造的还有相应的责任,但这种责任往往需要很长时间才会被人类所发现。历史教训告诉我们,在新技术造成大问题之前,人类世界往往是来不及去全面考虑新技术背后的责任的。

这期播客录制于2023年4月,我邀请了很活跃的青年AI学者符尧交流关于AI安全和对齐(Alignment)的一系列话题。在本期播客里,你将听到我们讨论什么是 AI alignment?目前主流的研究和进展是什么?大语言模型的能力不断增强,AI 的能力边界在哪里?面对动态变化的价值观,怎么 align AI?针对AI safety的研究有什么大框架?AI 是否具有意识?大模型方面中美的差距在哪里?

【主持人】戴雨森 真格基金管理合伙人

【嘉宾】符尧 青年AI研究员

2:30】2022年一整年,我追踪了GPT所有演化的版本

3:49】Alignment就是,希望AI符合人类的预期,符合人类的价值观

5:42】Open AI 在alignment上下了很多功夫

9:49】公开信真的能防“坏人”吗?

16:49】在很多维度上AI会比人类强很多,但也存在一些维度AI还无法拥有人类的能力

21:46】人类与人工智能的关系就好比教练与运动员

26:26】如何让AI向善:给AI文明

36:10】AI就像孩子能够迅速长大,alignment就像家长的管教,困难的同时又需要细水长流

40:22】AI是否具有意识?AI是否能够具备意识?

43:36】面对AI可能带来隐式的伤害我们应该怎么办?

47:58】很看好国内的选手做中国的Open AI和ChatGPT

50:48】做大模型的研究,并不需要很强的算力

57:02】现在对于AI的预期会不会过于乐观?

1:00:30】让更多非专业的人接触AI,是一件很好的事

【相关资料】

Our approach to alignment research

Recursively Summarizing Books with Human Feedback

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Specializing Smaller Language Models towards Multi-Step Reasoning

Improving alignment of dialogue agents via targeted human judgements

Constitutional AI: Harmlessness from AI Feedback

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned

A Mathematical Framework for Transformer Circuits

【联系我们】

公众号:真格基金(ID: zhenfund)

收听渠道:小宇宙|Apple Podcast|喜马拉雅

邮箱:yusen_dai@zhenfund.com

如对节目有任何的建议与期待,也欢迎大家在留言中互动~

展开Show Notes
Diiiiiiiii
Diiiiiiiii
2023.5.11
最近AI的发展,多数人关注的还是大模型的能力,“能做什么”。相对来说,(尤其是国内)对于安全性的关注并不多。大家都忙着踩油门,鲜有人去操心刹车的问题。这一期播客聚焦于AI的安全性Safety和可控性Alignment,对于这个主题讨论得比较充分。个人的一些takeways和感想:

1. 目前美国三个主要AI团队的不同风格:OpenAI更强调产品体验,Anthropic更强调安全,Deepmind更偏学术。

2. Alignment“对齐”(在这个场景下译作“控制”或“调教”可能更合适?)分为两个层面,在微观上,希望通过Align让AI输出人类想要的结果,有更好的依从性和相关性;在宏观上,希望AI的价值观要符合人类的期望,比如善良、正直、公平、诚实等。

3. Alignment的三个发展阶段:
- Stage1,GPT3.5 / ChatGPT,AI相对比较弱,让人类通过RLHF等方式手把手教AI;
- Stage2,GPT4,AI已经很强,人类教不了了,让AI去给另一个AI做Alignment;
- Stage3,AI过强,同等AI也控制不住了的时候怎么办?或者群体AI 作为新物种如何控制?嘉宾给出的思路是类比教练员和运动员,分工不同,尽量引导AI像运动员一样去发展专项能力,而人类像教练员一样更多地进行控制,确保AI在通用能力上被压制。(个人认为这个非常困难,低等生物如何去coach高等生物?)

4. 和谁对齐?价值观的动态和多元化问题。初代GPT是典型的美国白人精英男性。嘉宾认为对齐的尺度应该是文明尺度,介于“国家”和“人类”之间,我理解嘉宾的意思是儒教国家一个大模型,伊斯兰教国家一个大模型。

个人认为,对于倡导民主和多元化的国家,这个问题确实比较复杂,感觉未来可能会有多套标准,参考电影分级和政治光谱。对于中国来说,反而做法更简单,按照政治课本和舆论的审核尺度来就好了。

5. 对齐的两种思路:一种是类似OpenAI,一上来就很细,非常多的规则; 另一种是类似Anthropic的做法,从大往小,先制定3条基本原则:honest,helpful,harmless,基于此外扩。

具体来说,目前对齐有以下3种策略,但无论哪种策略,都是安全性和效果的trade-off:

- 在输出阶段,加filter;
- 在alignment阶段,做finetune和RLHF,以及一些其他的trick(比如钓鱼prompt等);
- 在pretraining阶段,做数据清洗和data engineering。

6. 关于AI Safety,两个主要的思路:
- 外部观察的思路,从probing发展到red team,利用探针/钓鱼来发现AI的各种可能的极端行为,然后加以控制。这里嘉宾提到了模拟的方式,给AI创造一个Metaverse,让AI撒开了去搞,进而发现安全隐患。(但这样做的前提是AI足够诚实,才能做到虚拟和真实同分布,如果AI有所保留或学会了隐瞒呢?)
- 内在探究的思路,试图理解AI模型的原理,提高neuron的可解释性,从源头解决问题。(昨天OpenAI发表的用GPT4解释GPT2,就是这个思路的一种尝试。)

除了以上内容之外,关于AI能做什么不能做什么,嘉宾还提到了一点,他认为Fundamentally对AI最难的是演绎性质的复杂推理,例如从5条欧式公理推导出整座欧式几何大厦。

总的来说,这是人类史上第一次面临智商可能超越自己的物种,所以相比于核武器,AI的不确定性和风险确实更大。看到海外机构们这种对人类负责任的态度,还是非常值得尊敬。
这期真的讲得非常好,把国内外AI技术发展的阶段,面临的问题,以及未来的可能性捋得非常清楚,启发性很大
RAMEET
RAMEET
2023.5.12
同问,符尧的社交媒体账号是什么呀
RAMEET:找到了Twitter : @Francis_YAO_
付航
付航
2023.5.11
笑死,red teaming,对 ai 钓鱼执法[破涕为笑] (听过这么多 ai 播客还是符尧给我印象最好
haoyun
haoyun
2023.5.10
为符尧打卡
巴啦啦虎
巴啦啦虎
2023.5.12
很有意思的研究主题!AI的价值观
惠文诶
惠文诶
2023.6.04
很喜欢这期 但 我英语不太好 没文字被背景知识是真的感受到了 当这期听众的门槛
想了解AI这方面,有什么推荐的书籍或者视频吗?
oran_ge
oran_ge
2023.5.13
很棒 prompt被低估得太严重了
HD784128v
HD784128v
2023.5.12
好硬核的一期,太棒了
林子_jhyP
林子_jhyP
2023.5.12
听到给 AI 设计一个元宇宙然后让其发展的时候,其实有种不寒而栗的感觉,这样推演的话,我们现在的宇宙又何尝可能不是一种模拟呢?
这比我们是宇宙中的最初发展到这一步的文明的概率,我们是另一个文明的试验品概率应该大得多。而且这样的嵌套可能是无限多层的🤪
Lu山煙雨
Lu山煙雨
2023.6.01
56:34 也可能两种同时进行
Lu山煙雨
Lu山煙雨
2023.5.31
51:10 我做公平性,也不需要很强的算力
Lu山煙雨
Lu山煙雨
2023.5.31
39:04 worst case的思路,以后大模型performance肯定没啥问题
Lu山煙雨
Lu山煙雨
2023.5.31
35:45 模型performance和公平性之间存在trade off
陈泽宇
陈泽宇
2023.5.30
55:04 nb,值得反复回味
_Chl
_Chl
2023.5.14
太硬核了,很棒!
欢勒个欢
欢勒个欢
2023.5.13
内容好棒,很能够拓展思路!
HD850396z
HD850396z
2023.5.12
23:07 突发感想,所以我们跟AI的关系应该是共存,AI也离不开人类,这样才能稳步共同发展
HD571294z
HD571294z
2023.5.12
19:28 对AI的想象很科幻,总觉得对于共时性读取信息的AI来说,演绎法很容易就能会了