EP4 《大模型搭建知识库》-Andrej Karpathy

原帖：x.com

大模型知识库

最近我发现一个非常实用的方法：利用大语言模型（LLM）为各类研究方向搭建个人知识库。这样一来，我近期消耗的 token 里，很大一部分不再用于处理代码，而是用于处理知识——这些知识以 Markdown 文件和图片的形式存储。最新的大模型在这方面表现相当出色。

数据导入

我会把各类原始文档（文章、论文、代码库、数据集、图片等）统一归档到 raw/ 目录下，再用大模型逐步“编译”成一套知识库，本质就是按目录结构组织的一系列 .md 文件。知识库会包含所有原始资料的摘要、反向链接，还会按概念对资料进行分类、撰写对应词条，并把所有内容相互关联。我习惯用 Obsidian 网页剪藏插件把网页文章转成 Markdown，再通过快捷键把相关图片批量下载到本地，方便大模型直接引用。

编辑环境

我把 Obsidian 当作“前端”IDE，用来查看原始资料、编译后的知识库以及衍生的可视化内容。重点是：整个知识库的内容都由大模型撰写和维护，我几乎不直接手动修改。我也试过一些 Obsidian 插件来用其他形式呈现内容，比如用 Marp 制作幻灯片。

问答交互

真正有意思的是，当知识库规模足够大之后（比如我最近的研究知识库已有约 100 篇文章、近 40 万字），就可以向大模型智能体提出各种复杂问题，它会自主检索、梳理并给出答案。我原本以为必须用上复杂的检索增强生成（RAG），但在这种中小规模下，大模型能自动维护索引文件和所有文档的精简摘要，轻松读取所有关键相关内容，效果已经很好。

结果输出

我不满足于只在文本或终端里得到答案，更喜欢让模型直接生成 Markdown 文件、Marp 格式幻灯片或 Matplotlib 图表，再回到 Obsidian 里查看。根据不同查询需求，还可以输出更多可视化格式。我通常会把这些输出结果“归档”回知识库，让内容更完善，方便后续查询。也就是说，我的每一次探索和提问，都在持续为知识库“增值”。

内容校验

我会让大模型对知识库做一些“健康检查”，比如发现数据不一致、补全缺失信息（结合联网搜索）、挖掘潜在关联以生成新词条等，逐步清理内容、提升整体数据完整性。大模型还很擅长提出值得进一步探究的问题。

额外工具

我还自己开发了一些辅助工具，比如随手写了一个简单的知识库搜索引擎，既可以在网页界面直接使用，也更常通过命令行交给大模型调用，作为处理复杂查询的工具。

后续探索

随着知识库不断扩大，自然而然会想到结合合成数据生成与微调，让大模型把这些知识“刻进”模型权重里，而不只是依赖上下文窗口。

总结

从多个来源收集原始数据 → 由大模型编译为 Markdown 知识库 → 大模型通过各类命令行工具进行问答并持续优化知识库 → 全程在 Obsidian 中查看。几乎不需要手动编写或编辑知识库，所有内容都由大模型打理。我认为这一方向完全可以诞生一款极具潜力的全新产品，而不只是一堆临时拼凑的脚本。