本期播客内容主要引用自鄂维南、汤林鹏、张文涛发表在《计算》杂志上的文章**《Data-Centric AI》**。
【核心摘要】 人工智能正经历从**以模型为中心(MCAI)向以数据为中心(DCAI)**的范式转型。随着模型创新边际效益递减,数据质量和数量成为决定模型性能上限的关键。
该研究提出了一个面向DCAI的全新数据基础设施框架,主要包含两大核心组件:
• AI数据库:用于统一管理海量多模态数据,支持结构化与非结构化数据的融合检索与分析,例如MyScale AI数据库。
• DataFlow数据准备与动态训练工具:这是一个集成平台,提供数据解析、合成、质量评估、处理等模块,并通过DataFlex模块实现训练数据的动态调度和配比。
这套DCAI基础设施能够显著提升模型性能,并大幅降低AI开发门槛和计算成本。它通过自动化数据准备,实现了用更少数据、更短时间达到更优的大模型预训练效果。同时,它赋能企业高效构建基于私有数据的个性化模型和专用知识库,并为**检索式人工智能(Retrieval-Augmented AI)**提供了关键的存储和数据处理能力。DCAI预示着AI系统开发模式的革新,将推动数据采集与合成向标准化、自动化、智能化方向发展。
