EP19 | 从数据清洗到视觉RAG:决定大模型智商的底层工程实录

EP19 | 从数据清洗到视觉RAG:决定大模型智商的底层工程实录

12分钟 ·
播放数0
·
评论数0

本期简介

本期节目深入大模型底层工程,带你拆解Datascale AI发布的实战指南。我们将探讨如何通过Ray架构优化处理海量数据,利用PoT(程序思维)破解合成数据幻觉,并揭秘为何顶尖团队正全面转向基于ColPali的视觉RAG体系。

核心看点

  • 清洗数据的ROI最高: 盲目堆砌PB级原始语料只会产出昂贵的“复读机”,通过MinHash LSH等算法将留存率优化至十万分之一,才是模型逻辑进化的关键。
  • 算力架构的残酷二选一: Spark在处理AI Python原生任务时存在严重的跨进程序列化损耗,Ray凭借Arrow内存模型实现的“零拷贝”优势,在推理密集型任务中吞吐量可达前者的十倍。
  • 视觉RAG的范式转移: 传统的OCR路线在处理复杂财务报表时极易造成上下文断层,直接引入ColPali将报表视作高清图片处理,是绕过文本解析深水区的“野路子”解法。

高光时间轴

  • 01:39 为什么大厂吹嘘的“数十TB训练数据”大多是误导性的垃圾语料?
  • 03:02 微软Phi系列模型如何靠7B参数的合成数据,干翻大10倍的对手?
  • 04:08 为什么说Spark在处理AI清洗链条时,是在给Python做极其昂贵的“同声传译”?
  • 06:05 如何利用MinHash LSH(局部敏感哈希)将模糊去重的算力复杂度从O(N²)降至工业级可用?
  • 08:08 PoT(Program of Thought)如何通过沙箱验证,彻底切断模型生成的幻觉传播链?
  • 09:57 深度解析ColPali:为何放弃OCR文字提取,直接用视觉编码器检索才是多模态RAG的正解?

延伸阅读

  • 工具/技术: Spark, Ray Data, Apache Arrow, MinHash LSH, KenLM, FastText, PoT (Program of Thought), ColPali, RLAIF (Constitutional AI), Iceberg, Parquet
  • 概念: Scaling Laws, Chinchilla论文, 垃圾进垃圾出 (Garbage In, Garbage Out), 幻觉坍塌, 视觉检索 (Vision in Retrieval)
  • 模型: Microsoft Phi系列, GPT-4, CLIP

参考资料

  • Datascale AI - 《大模型数据工程架构、算法及实战成绩》(2026版)
  • DeepMind - 《Chinchilla: Training Compute-Optimal Large Language Models》

互动话题

既然大模型已经能通过PoT机制自我生成数据、验证逻辑并清洗残次品,在未来高度自动化的研发链条中,你认为人类工程师最核心的不可替代性,是体现在“场景定义”上,还是“宪法规则的顶层设计”上?欢迎在评论区留下你的观点。