你知道为什么用更多数据训练的模型,效果反而可能更差吗?
论文基本信息
标题:DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
作者:Hao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen 等(北京大学、上海高等算法研究院、LLaMA-Factory团队等联合研究)
发布时间:2026年3月
开源地址:github.com/OpenDCAI/DataFlex
核心贡献:首次提出"以数据为中心的动态训练系统"概念,统一了数据选择、数据混合、样本重加权三大优化范式,实验证明动态数据策略相比静态训练可提升准确率最高5.8%,节省训练时间最高57%。
本期节目解读2026年北大团队发表的前沿论文《DataFlex》,揭示大模型训练的范式转变:数据不再是静态资源,而是可以动态优化的"一等变量"。
我们聊了:
- 为什么传统"堆数据"的方法已经过时
- DataFlex如何让训练数据"活"起来
- 动态数据选择、混合、重加权三大核心策略
- 实验结果:准确率提升5.8%,训练时间节省57%
- 从大规模预训练到指令微调的实际应用场景
无论你是AI研究者、开发者,还是对大模型技术感兴趣的听众,这期节目都能让你重新理解数据在大模型训练中的关键作用。
适听人群
- AI/机器学习研究者与开发者
- 大模型训练从业者
- 对AI前沿技术感兴趣的技术爱好者
- 希望了解大模型训练背后原理的普通听众

