AI4S特辑｜和3位青年从业者聊了聊一线体验 - 涌现Lab

本期「涌现Lab」AI4S特辑，邀请到了来自Merck、Isomorphic Labs、Atombeat的三位青年从业者共同交流与分享。

他们分别是：

昊特：Cheminformatics Scientist，聚焦利用AI加速分子从设计到制造的整体过程；博士毕业于耶鲁大学化学系，研究方向为Cheminformatics。

林宸：Research Scientist，研究聚焦Co-folding models；博士毕业于牛津大学计算机与信息科学系，研究方向为机器学习，曾于剑桥大学计算化学系组访问。

Tim：CADD Scientist，以物理引擎为主做药物设计；博士毕业于耶鲁大学化学系，涉猎计算机辅助药物设计、催化机理研究等。

（*本次对话仅代表嘉宾个人观点，与其所就职公司无关。）

三位嘉宾均于2025年博士毕业，求学期间亲历AI4S的快速发展，毕业后进入业界从事药物开发相关工作。对话中，我们围绕AI4S的一些核心基础问题展开讨论，也回顾了各自在求学、研究与职业选择方面的关键思考。

以下是对话的完整时间线：

一、 AI for Science核心问题

03:49 跨学科交叉与AI的连接作用

09:24 AI4S应用广泛：既为科学家服务；也直接面对解决产业问题

10:35 生成式语境下的两条核心技术路径与延展：Transformer与Diffusion Models

14:30 几何深度学习对数据的三层理解：Sequence、Graph及3D空间嵌入

20:54 化学反应需降维处理，AI在其中寻找规律

二、AI与科研流程&模式

22:33 从辅助到驱动：加速全流程，但仍需甄别判断

27:00 市面模型选择取决于任务本身

30:01 AI是否真的能带来科研重大发现？

32:43 对AI边界的认知取决于个人信仰

35:22 AI强在Interpolation，但在Extrapolation仍有实现难度

42:07 AlphaTensor文章：纯计算/模拟类研究代表

44:28 AI做实验、AI主导，化学合成是显著例子

47:18 AI应用前后的经典药物设计流程变化

三、现有核心痛点讨论

50:20 需要花大量时间排除错误idea，现已有趋势研究AI本身置信度

52:05 三大痛点总结：可信度与可解释性；局部数据兼容性；数据处理本身

55:09 从模拟角度，AI仍局限在已有知识的联系内

58:34 数据质量有多方面考虑，目前市面已有模型缺失诸多分子特征

案例拆解：“MOSAIC”工作分析

文章地址：www.nature.com

01:01:49 “MOSAIC”：AI辅助化学合成的集体智慧

01:03:03 针对任意给定的化学反应，提供多专家解决方案

01:04:49 对模型进行可信度测试，并对照实验成功率

01:06:10 实验验证模型在已知数据边界上稍外推能产生新突破

四、AI4S能力需求及业界现状

01:10:09 AI重视SOTA，但化学领域些细节比分数尤为重要

01:12:43 LLM和领域深耕多年专家的能力仍有本质区别

01:14:42 需从其他领域专家吸取到垂类领域难点、痛点

01:17:30 Big Pharma&Biotech职业选择

01:23:00 Big Pharma管线丰富，涵盖DMTA全流程

01:25:02 Biotech类型多元，业务更为专注

01:28:49 PhD阶段能力培养：沟通、合作、工程能力

01:35:38 如何看科研中的“马太效应”？选大组还是小组？

本期对话文字稿已同步在GZH更新，欢迎关注订阅～