最近6个月,以ChatGPT为代表的生成式AI技术出现了「寒武纪大爆发」。每天我们都能看到生成式AI涌现出新能力、新场景、新应用。作为一直研究和从事科技创新的创业者和投资人,我既感到非常兴奋,又和很多同行一样产生深深的担忧。
当一种新技术被创造出来的时候,其实被同时创造的还有相应的责任,但这种责任往往需要很长时间才会被人类所发现。历史教训告诉我们,在新技术造成大问题之前,人类世界往往是来不及去全面考虑新技术背后的责任的。
这期播客录制于2023年4月,我邀请了很活跃的青年AI学者符尧交流关于AI安全和对齐(Alignment)的一系列话题。在本期播客里,你将听到我们讨论什么是 AI alignment?目前主流的研究和进展是什么?大语言模型的能力不断增强,AI 的能力边界在哪里?面对动态变化的价值观,怎么 align AI?针对AI safety的研究有什么大框架?AI 是否具有意识?大模型方面中美的差距在哪里?
【主持人】戴雨森 真格基金管理合伙人
【嘉宾】符尧 青年AI研究员
【2:30】2022年一整年,我追踪了GPT所有演化的版本
【3:49】Alignment就是,希望AI符合人类的预期,符合人类的价值观
【5:42】Open AI 在alignment上下了很多功夫
【9:49】公开信真的能防“坏人”吗?
【16:49】在很多维度上AI会比人类强很多,但也存在一些维度AI还无法拥有人类的能力
【21:46】人类与人工智能的关系就好比教练与运动员
【26:26】如何让AI向善:给AI文明
【36:10】AI就像孩子能够迅速长大,alignment就像家长的管教,困难的同时又需要细水长流
【40:22】AI是否具有意识?AI是否能够具备意识?
【43:36】面对AI可能带来隐式的伤害我们应该怎么办?
【47:58】很看好国内的选手做中国的Open AI和ChatGPT
【50:48】做大模型的研究,并不需要很强的算力
【57:02】现在对于AI的预期会不会过于乐观?
【1:00:30】让更多非专业的人接触AI,是一件很好的事
【相关资料】
Our approach to alignment research
Recursively Summarizing Books with Human Feedback
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Specializing Smaller Language Models towards Multi-Step Reasoning
Improving alignment of dialogue agents via targeted human judgements
Constitutional AI: Harmlessness from AI Feedback
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned
A Mathematical Framework for Transformer Circuits
【联系我们】
公众号:真格基金(ID: zhenfund)
收听渠道:小宇宙|Apple Podcast|喜马拉雅
邮箱:yusen_dai@zhenfund.com
如对节目有任何的建议与期待,也欢迎大家在留言中互动~
1. 目前美国三个主要AI团队的不同风格:OpenAI更强调产品体验,Anthropic更强调安全,Deepmind更偏学术。
2. Alignment“对齐”(在这个场景下译作“控制”或“调教”可能更合适?)分为两个层面,在微观上,希望通过Align让AI输出人类想要的结果,有更好的依从性和相关性;在宏观上,希望AI的价值观要符合人类的期望,比如善良、正直、公平、诚实等。
3. Alignment的三个发展阶段:
- Stage1,GPT3.5 / ChatGPT,AI相对比较弱,让人类通过RLHF等方式手把手教AI;
- Stage2,GPT4,AI已经很强,人类教不了了,让AI去给另一个AI做Alignment;
- Stage3,AI过强,同等AI也控制不住了的时候怎么办?或者群体AI 作为新物种如何控制?嘉宾给出的思路是类比教练员和运动员,分工不同,尽量引导AI像运动员一样去发展专项能力,而人类像教练员一样更多地进行控制,确保AI在通用能力上被压制。(个人认为这个非常困难,低等生物如何去coach高等生物?)
4. 和谁对齐?价值观的动态和多元化问题。初代GPT是典型的美国白人精英男性。嘉宾认为对齐的尺度应该是文明尺度,介于“国家”和“人类”之间,我理解嘉宾的意思是儒教国家一个大模型,伊斯兰教国家一个大模型。
个人认为,对于倡导民主和多元化的国家,这个问题确实比较复杂,感觉未来可能会有多套标准,参考电影分级和政治光谱。对于中国来说,反而做法更简单,按照政治课本和舆论的审核尺度来就好了。
5. 对齐的两种思路:一种是类似OpenAI,一上来就很细,非常多的规则; 另一种是类似Anthropic的做法,从大往小,先制定3条基本原则:honest,helpful,harmless,基于此外扩。
具体来说,目前对齐有以下3种策略,但无论哪种策略,都是安全性和效果的trade-off:
- 在输出阶段,加filter;
- 在alignment阶段,做finetune和RLHF,以及一些其他的trick(比如钓鱼prompt等);
- 在pretraining阶段,做数据清洗和data engineering。
6. 关于AI Safety,两个主要的思路:
- 外部观察的思路,从probing发展到red team,利用探针/钓鱼来发现AI的各种可能的极端行为,然后加以控制。这里嘉宾提到了模拟的方式,给AI创造一个Metaverse,让AI撒开了去搞,进而发现安全隐患。(但这样做的前提是AI足够诚实,才能做到虚拟和真实同分布,如果AI有所保留或学会了隐瞒呢?)
- 内在探究的思路,试图理解AI模型的原理,提高neuron的可解释性,从源头解决问题。(昨天OpenAI发表的用GPT4解释GPT2,就是这个思路的一种尝试。)
除了以上内容之外,关于AI能做什么不能做什么,嘉宾还提到了一点,他认为Fundamentally对AI最难的是演绎性质的复杂推理,例如从5条欧式公理推导出整座欧式几何大厦。
总的来说,这是人类史上第一次面临智商可能超越自己的物种,所以相比于核武器,AI的不确定性和风险确实更大。看到海外机构们这种对人类负责任的态度,还是非常值得尊敬。