北大团队提出的DataFlex框架，将数据从静态资源升级为可动态优化的变量。实测：准确率提升5.8%，训练时间节省57%

4分钟 ·3个月前

5

·

0

你知道为什么用更多数据训练的模型，效果反而可能更差吗？

论文基本信息

标题：DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models

作者：Hao Liang, Zhengyang Zhao, Meiyi Qiang, Mingrui Chen 等（北京大学、上海高等算法研究院、LLaMA-Factory团队等联合研究）

发布时间：2026年3月

开源地址：github.com/OpenDCAI/DataFlex

核心贡献：首次提出"以数据为中心的动态训练系统"概念，统一了数据选择、数据混合、样本重加权三大优化范式，实验证明动态数据策略相比静态训练可提升准确率最高5.8%，节省训练时间最高57%。

本期节目解读2026年北大团队发表的前沿论文《DataFlex》，揭示大模型训练的范式转变：数据不再是静态资源，而是可以动态优化的"一等变量"。

我们聊了：

为什么传统"堆数据"的方法已经过时

DataFlex如何让训练数据"活"起来

动态数据选择、混合、重加权三大核心策略

实验结果：准确率提升5.8%，训练时间节省57%

从大规模预训练到指令微调的实际应用场景

无论你是AI研究者、开发者，还是对大模型技术感兴趣的听众，这期节目都能让你重新理解数据在大模型训练中的关键作用。

适听人群

AI/机器学习研究者与开发者

大模型训练从业者

对AI前沿技术感兴趣的技术爱好者

希望了解大模型训练背后原理的普通听众

欢迎关注小红书视频号 BiliBili : AIGC深一度

在小宇宙打开