本期「涌现Lab」AI4S特辑,邀请到了来自Merck、Isomorphic Labs、Atombeat的三位青年从业者共同交流与分享。
他们分别是:
昊特:Cheminformatics Scientist,聚焦利用AI加速分子从设计到制造的整体过程;博士毕业于耶鲁大学化学系,研究方向为Cheminformatics。
林宸:Research Scientist,研究聚焦Co-folding models;博士毕业于牛津大学计算机与信息科学系,研究方向为机器学习,曾于剑桥大学计算化学系组访问。
Tim:CADD Scientist,以物理引擎为主做药物设计;博士毕业于耶鲁大学化学系,涉猎计算机辅助药物设计、催化机理研究等。
(*本次对话仅代表嘉宾个人观点,与其所就职公司无关。)
三位嘉宾均于2025年博士毕业,求学期间亲历AI4S的快速发展,毕业后进入业界从事药物开发相关工作。对话中,我们围绕AI4S的一些核心基础问题展开讨论,也回顾了各自在求学、研究与职业选择方面的关键思考。
以下是对话的完整时间线:
一、 AI for Science核心问题
03:49 跨学科交叉与AI的连接作用
09:24 AI4S应用广泛:既为科学家服务;也直接面对解决产业问题
10:35 生成式语境下的两条核心技术路径与延展:Transformer与Diffusion Models
14:30 几何深度学习对数据的三层理解:Sequence、Graph及3D空间嵌入
20:54 化学反应需降维处理,AI在其中寻找规律
二、AI与科研流程&模式
22:33 从辅助到驱动:加速全流程,但仍需甄别判断
27:00 市面模型选择取决于任务本身
30:01 AI是否真的能带来科研重大发现?
32:43 对AI边界的认知取决于个人信仰
35:22 AI强在Interpolation,但在Extrapolation仍有实现难度
42:07 AlphaTensor文章:纯计算/模拟类研究代表
44:28 AI做实验、AI主导,化学合成是显著例子
47:18 AI应用前后的经典药物设计流程变化
三、现有核心痛点讨论
50:20 需要花大量时间排除错误idea,现已有趋势研究AI本身置信度
52:05 三大痛点总结:可信度与可解释性;局部数据兼容性;数据处理本身
55:09 从模拟角度,AI仍局限在已有知识的联系内
58:34 数据质量有多方面考虑,目前市面已有模型缺失诸多分子特征
案例拆解:“MOSAIC”工作分析

文章地址:www.nature.com
01:01:49 “MOSAIC”:AI辅助化学合成的集体智慧
01:03:03 针对任意给定的化学反应,提供多专家解决方案
01:04:49 对模型进行可信度测试,并对照实验成功率
01:06:10 实验验证模型在已知数据边界上稍外推能产生新突破
四、AI4S能力需求及业界现状
01:10:09 AI重视SOTA,但化学领域些细节比分数尤为重要
01:12:43 LLM和领域深耕多年专家的能力仍有本质区别
01:14:42 需从其他领域专家吸取到垂类领域难点、痛点
01:17:30 Big Pharma&Biotech职业选择
01:23:00 Big Pharma管线丰富,涵盖DMTA全流程
01:25:02 Biotech类型多元,业务更为专注
01:28:49 PhD阶段能力培养:沟通、合作、工程能力
01:35:38 如何看科研中的“马太效应”?选大组还是小组?
本期对话文字稿已同步在GZH更新,欢迎关注订阅~

