EP4 《大模型搭建知识库》-Andrej Karpathy代泊404

EP4 《大模型搭建知识库》-Andrej Karpathy

5分钟 ·
播放数3
·
评论数0

原帖:x.com

大模型知识库

最近我发现一个非常实用的方法:利用大语言模型(LLM)为各类研究方向搭建个人知识库。这样一来,我近期消耗的 token 里,很大一部分不再用于处理代码,而是用于处理知识——这些知识以 Markdown 文件和图片的形式存储。最新的大模型在这方面表现相当出色。

数据导入

我会把各类原始文档(文章、论文、代码库、数据集、图片等)统一归档到 raw/ 目录下,再用大模型逐步“编译”成一套知识库,本质就是按目录结构组织的一系列 .md 文件。 知识库会包含所有原始资料的摘要、反向链接,还会按概念对资料进行分类、撰写对应词条,并把所有内容相互关联。 我习惯用 Obsidian 网页剪藏插件把网页文章转成 Markdown,再通过快捷键把相关图片批量下载到本地,方便大模型直接引用。

编辑环境

我把 Obsidian 当作“前端”IDE,用来查看原始资料、编译后的知识库以及衍生的可视化内容。 重点是:整个知识库的内容都由大模型撰写和维护,我几乎不直接手动修改。我也试过一些 Obsidian 插件来用其他形式呈现内容,比如用 Marp 制作幻灯片。

问答交互

真正有意思的是,当知识库规模足够大之后(比如我最近的研究知识库已有约 100 篇文章、近 40 万字),就可以向大模型智能体提出各种复杂问题,它会自主检索、梳理并给出答案。 我原本以为必须用上复杂的检索增强生成(RAG),但在这种中小规模下,大模型能自动维护索引文件和所有文档的精简摘要,轻松读取所有关键相关内容,效果已经很好。

结果输出

我不满足于只在文本或终端里得到答案,更喜欢让模型直接生成 Markdown 文件、Marp 格式幻灯片或 Matplotlib 图表,再回到 Obsidian 里查看。根据不同查询需求,还可以输出更多可视化格式。 我通常会把这些输出结果“归档”回知识库,让内容更完善,方便后续查询。也就是说,我的每一次探索和提问,都在持续为知识库“增值”。

内容校验

我会让大模型对知识库做一些“健康检查”,比如发现数据不一致、补全缺失信息(结合联网搜索)、挖掘潜在关联以生成新词条等,逐步清理内容、提升整体数据完整性。大模型还很擅长提出值得进一步探究的问题。

额外工具

我还自己开发了一些辅助工具,比如随手写了一个简单的知识库搜索引擎,既可以在网页界面直接使用,也更常通过命令行交给大模型调用,作为处理复杂查询的工具。

后续探索

随着知识库不断扩大,自然而然会想到结合合成数据生成与微调,让大模型把这些知识“刻进”模型权重里,而不只是依赖上下文窗口。

总结

从多个来源收集原始数据 → 由大模型编译为 Markdown 知识库 → 大模型通过各类命令行工具进行问答并持续优化知识库 → 全程在 Obsidian 中查看。 几乎不需要手动编写或编辑知识库,所有内容都由大模型打理。我认为这一方向完全可以诞生一款极具潜力的全新产品,而不只是一堆临时拼凑的脚本。