这项研究介绍了 X-Atlas/Pisces,这是目前全球规模最大的全基因组单细胞扰动数据集,包含 2560万个转录组数据,涵盖了 16 种不同的生物背景。基于这一海量资源,作者开发了名为 X-Cell 的扩散语言模型,专门用于预测基因受扰动后的细胞反应。该模型通过迭代扩散过程精细化预测结果,并利用多模态生物先验知识(如蛋白质模型和相互作用网络)进行跨注意力引导。研究团队将模型扩展至 49 亿参数的 X-Cell-Ultra,首次证明扰动预测遵循类似于大语言模型的幂律缩放法则。实验表明,X-Cell 在跨细胞类型的零样本预测中表现优异,能准确推断未见过的原代人类 T 细胞等复杂生物系统的变化。这为药物研发中的靶点识别与验证提供了一个高效的计算基础模型。
References:
- Wang C, Karimzadeh M, Ravindra N G, et al. X-Cell: Scaling Causal Perturbation Prediction Across Diverse Cellular Contexts via Diffusion Language Models[J]. bioRxiv, 2026: 2026.03. 18.712807.

