CompBioBench 是一个专门用于评估计算生物学领域智能代理系统的基准测试集，包含 100 个涵盖基因组学、单细胞分析及机器学习等方向的复杂任务。该基准通过合成数据、增强数据以及对真实数据集进行元数据混淆，构建出具有唯一标准答案的挑战，以衡量系统在多步推理和工具使用方面的能力。研究显示，领先的通用型代理系统（如 Codex CLI 和 Claude Code）在处理这类任务时表现出色，最高准确率超过 80%。尽管表现强劲，但在面对高难度问题或细微的分析陷阱时，这些系统仍表现出一定的脆弱性。该研究不仅为生物信息学自动化的进展提供了量化标准，也为未来科学基准的设计提供了宝贵经验。
References:
* Nair S, Gunsalus L, Orcutt-Jahns B, et al. Agentic systems are adept at solving well-scoped, verifiable problems in computational biology[J]. bioRxiv, 2026: 2026.04. 06.716850.

SHARE

COMMENT

VOICE_COMMENT

COMMENT_PAGE

CLAP

PICK

VOTE

AI_SUMMARIZE

xinmiaoyan28@gmail.com

AI_SUMMARIZE_EPISODE

聊聊Sci

864-CompBioBench：计算生物学智能体基准测试

68547cd247eaa0486f902f67/luaUCPS_aTOXgiaBII8Had3eJe_P.m4a