大数据真的越多越好？AI减肥秘籍大公开

漫聊AI进化论

6分钟 ·6个月前

630

·

46

本期主题：AI训练新思路——像做红烧肉一样精选数据，效果反而更好！

【本期节目简介】

从学做红烧肉的一次调味失误，聊到AI模型的训练瓶颈。本期《AI进化论》带你探究“数据精选”的奥秘：为何海量数据反成干扰？如何用小模型“挑金子”？掌握Keep Easy与Keep Hard策略，让你的小项目省时省力，效果还更稳！

【主要话题点总结】

红烧肉一次性倒入所有调料会不会把原味掩盖？对应模型全量喂数据是否真的提升性能？

为什么先用“基础菜谱”训练模型（keep‑easy）比直接上高难样本更稳健？

只保留高置信度的几千张图片，能让图像分类误差下降多少？这和挑选精品食材有什么相似之处？

数据筛选过程会不会放大偏见？如何在“调味”时加入多样性保障？

动态削减训练样本能否同时省算力又不丢基础知识，像分阶段练自行车一样吗？

精挑细选的数据是否真的可以降低GPU使用时间，实现AI项目的绿色节能？

订阅与关注：

如果您喜欢本期播客的内容，欢迎访问我们的B站主页：

在B站搜索GenJi是真想教会你或扫描下方二维码，进入我们的频道。

直接搜索 AI进化论，即可观看完整的系列视频节目。

展开Show Notes

2025.11.16

以前卷算力，现在卷数据质量了吗哈哈哈

明天会更好_Xkd8

2025.11.16

作为一个被数据清洗折磨过的人，这期内容太治愈了

2025.11.15

这和我们常说的“二八法则”很像，20%的数据可能贡献80%的效果。

2025.11.14

能不能日更！

2025.11.14

通勤路上听完，收获满满

卿舟二两风

2025.11.14

“数据-centric的AI”时代可能真的要来了！

2025.11.14

可是，在数据量很少的时候，还能做精选吗？

2025.11.14

没想到AI训练也能为环保做贡献

2025.11.14

遇见这个播客，是我今年最大的收获之一。

2025.11.13

那什么才是真正的好数据呢，能不能出一期展开讲讲

无志青年9527

2025.11.13

AI产品经理快来听！

阁主打烊了

2025.11.13

这技术能不能用来帮我筛选男朋友啊？（开玩笑的）

凡尔赛之王

2025.11.13

在不同任务上，最优的保留比例会有很大差异吗？

月光下等你

2025.11.13

数据界的断舍离

耳朵充电站

2025.11.13

数据精选可能是下一个AI创业的热点方向

2025.11.13

如无必要，勿增实体。

尽意不知非

2025.11.13

AI：以前吃食堂，现在吃私房菜

贩卖半分可爱

2025.11.13

生成器的质量确实决定了下限，这点深有体会

2025.11.13

亲测有效！在Kaggle比赛里用了类似思路，排名提升了20%！

2025.11.13

懂了，用更少的资源获得了更好的结果

打开小宇宙查看更多精彩评论