北大团队提出的DataFlex框架,将数据从静态资源升级为可动态优化的变量。实测:准确率提升5.8%,训练时间节省57%AIGC 深一度

北大团队提出的DataFlex框架,将数据从静态资源升级为可动态优化的变量。实测:准确率提升5.8%,训练时间节省57%

4分钟 ·
播放数5
·
评论数0

你知道为什么用更多数据训练的模型,效果反而可能更差吗?

论文基本信息

标题:DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

作者:Hao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen 等(北京大学、上海高等算法研究院、LLaMA-Factory团队等联合研究)

发布时间:2026年3月

开源地址github.com/OpenDCAI/DataFlex

核心贡献:首次提出"以数据为中心的动态训练系统"概念,统一了数据选择、数据混合、样本重加权三大优化范式,实验证明动态数据策略相比静态训练可提升准确率最高5.8%,节省训练时间最高57%。

本期节目解读2026年北大团队发表的前沿论文《DataFlex》,揭示大模型训练的范式转变:数据不再是静态资源,而是可以动态优化的"一等变量"。

我们聊了:

  • 为什么传统"堆数据"的方法已经过时
  • DataFlex如何让训练数据"活"起来
  • 动态数据选择、混合、重加权三大核心策略
  • 实验结果:准确率提升5.8%,训练时间节省57%
  • 从大规模预训练到指令微调的实际应用场景

无论你是AI研究者、开发者,还是对大模型技术感兴趣的听众,这期节目都能让你重新理解数据在大模型训练中的关键作用。

适听人群

  • AI/机器学习研究者与开发者
  • 大模型训练从业者
  • 对AI前沿技术感兴趣的技术爱好者
  • 希望了解大模型训练背后原理的普通听众

欢迎关注小红书 视频号 BiliBili : AIGC深一度