1953年2月28日,第一个DNA双螺旋结构的分子模型诞生。当我们用基因序列ATCG来理解生命,生命研究也就进入了编码时代,这似乎为如今的AI时代做好了伏笔。
中心法则告诉我们,一般情况下,遗传信息通过DNA复制、转录为RNA、再翻译为蛋白质的氨基酸序列进行传递。也就是说,蛋白质作为千姿百态的生命微观“机器”,从基因序列到氨基酸序列就是组装的“生产指令”。
如今,生物学家在过去几十年积累的工作,正在被AI学习。从序列到蛋白质结构再到功能,似乎并不是AI能不能的问题,而变成了数据够不够的问题。
海量的数据如同一顿乱拳,在这场蛋白质研究革命中,未来还有“人的创造力”的位置吗?我们邀请了三位一线研究者,有人是纯开发者背景,已经做出了蛋白质大模型工具;有人是利用AI改进对蛋白质改造的效率;有人是从头设计一个自然界原本不存在的蛋白质。
—致谢—
特别感谢西湖大学图书馆对本次节目的场地支持。
同时感谢兰拓相机租赁对本期器材的支持。
—本期嘉宾—
何 燕 西湖大学常兴实验室 博士后
朱璟熠 西湖大学卢培龙实验室 博士、访问学者
粟 锦 西湖大学原发杰实验室 博士生
—时间轴—
01:50-04:10 蛋白质研究基础科普
04:10-07:51 蛋白质大模型可以做到什么?
07:51-27:30 AI蛋白质研究技术发展历程
27:30-38:19 蛋白质大模型训练原理
38:19-01:03:32 应用案例:利用工具挖掘新型尿嘧啶 DNA 糖基化酶、从头设计跨膜荧光蛋白
01:03:32-01:07:30 AI将加速蛋白质技术应用
01:07:30-01:12:55 技术瓶颈
01:12:55-01:16:28 嘉宾推荐
—高频词—
研究主体:蛋白质、AI(人工智能)、蛋白质序列、蛋白质结构、蛋白质功能、基因编辑、蛋白质从头设计、跨膜蛋白、荧光蛋白
核心人物 / 团队:戴维・贝克(David Baker)、西湖大学(卢培龙实验室、原发杰实验室、常兴老师实验室)、 Deepmind
关键工具 / 系统:Protrek 系统、Rosetta(罗塞塔)、ESM2、AlphaFold(AlphaFold 1/2)、CAST(蛋白质结构预测竞赛)、BindCraft(设计工具)
应用场景:药物开发(抗体、胰岛素)、基因编辑工具(TDG、先导编辑器 PE)、生物传感、临床应用、宏基因组挖掘
核心问题:蛋白质折叠、多模态检索(序列-结构-功能)、数据瓶颈、多位点突变预测、动态结构设计
—推荐资源—
ProTrek
search-protrek.com
The Heroes of CRISPR
linkinghub.elsevier.com
The Bitter Lesson
www.cs.utexas.edu
The Baker Lab Podcast
www.bakerlab.org
—封面图—
人工设计的荧光跨膜蛋白(via 卢培龙实验室)
—BGM—
Whispered Dreams
Eternity And A Day. Eleni Karaindrou
————
《嗑嗑科学》是一档由西湖大学公共事务部出品的科普播客,欢迎在评论区留下你的想法。如果你喜欢这一期节目,欢迎推荐给更多朋友。工作联系shenronghua@westlake.edu.cn。

