EP19 | 从数据清洗到视觉RAG：决定大模型智商的底层工程实录

12分钟 ·6天前

0

·

0

本期简介

本期节目深入大模型底层工程，带你拆解Datascale AI发布的实战指南。我们将探讨如何通过Ray架构优化处理海量数据，利用PoT（程序思维）破解合成数据幻觉，并揭秘为何顶尖团队正全面转向基于ColPali的视觉RAG体系。

核心看点

清洗数据的ROI最高： 盲目堆砌PB级原始语料只会产出昂贵的“复读机”，通过MinHash LSH等算法将留存率优化至十万分之一，才是模型逻辑进化的关键。

算力架构的残酷二选一： Spark在处理AI Python原生任务时存在严重的跨进程序列化损耗，Ray凭借Arrow内存模型实现的“零拷贝”优势，在推理密集型任务中吞吐量可达前者的十倍。

视觉RAG的范式转移： 传统的OCR路线在处理复杂财务报表时极易造成上下文断层，直接引入ColPali将报表视作高清图片处理，是绕过文本解析深水区的“野路子”解法。

高光时间轴

01:39 为什么大厂吹嘘的“数十TB训练数据”大多是误导性的垃圾语料？

03:02 微软Phi系列模型如何靠7B参数的合成数据，干翻大10倍的对手？

04:08 为什么说Spark在处理AI清洗链条时，是在给Python做极其昂贵的“同声传译”？

06:05 如何利用MinHash LSH（局部敏感哈希）将模糊去重的算力复杂度从O(N²)降至工业级可用？

08:08 PoT（Program of Thought）如何通过沙箱验证，彻底切断模型生成的幻觉传播链？

09:57 深度解析ColPali：为何放弃OCR文字提取，直接用视觉编码器检索才是多模态RAG的正解？

延伸阅读

工具/技术： Spark, Ray Data, Apache Arrow, MinHash LSH, KenLM, FastText, PoT (Program of Thought), ColPali, RLAIF (Constitutional AI), Iceberg, Parquet

概念： Scaling Laws, Chinchilla论文, 垃圾进垃圾出 (Garbage In, Garbage Out), 幻觉坍塌, 视觉检索 (Vision in Retrieval)

模型： Microsoft Phi系列, GPT-4, CLIP

参考资料

Datascale AI - 《大模型数据工程架构、算法及实战成绩》（2026版）

DeepMind - 《Chinchilla: Training Compute-Optimal Large Language Models》

互动话题

既然大模型已经能通过PoT机制自我生成数据、验证逻辑并清洗残次品，在未来高度自动化的研发链条中，你认为人类工程师最核心的不可替代性，是体现在“场景定义”上，还是“宪法规则的顶层设计”上？欢迎在评论区留下你的观点。

在小宇宙打开