语义高亮——RAG的隐形Bug

一支烟花AI播客

26分钟 ·2个月前

29

·

0

节目简介

你的RAG系统检索很准，但用户还是说"搜出来的东西找不到重点"？

这期我们聊一个大多数人没注意到的裂缝：

检索是语义化的，但高亮还在用关键词匹配。

搜"iPhone性能"，文档讨论的是"A15仿生芯片"和"基准分数"，什么都没高亮。

为什么LLM解决不了这个问题（每秒10美元成本），以及一个0.6B参数的小模型如何做到毫秒级语义高亮。

时间线

01:00 RAG系统的一个被忽视的问题

03:00 语义检索 vs 关键词高亮——裂缝在哪

06:00 3000字文档没有高亮：用户体验灾难

08:00 为什么LLM不行——每秒10美元的成本计算

12:00 Zilliz的解决方案：0.6B的小模型

15:00 为什么要用Qwen3解释推理步骤（内置质量检查）

17:00 知识蒸馏的力量：8x A100训练5小时

18:00 测试结果：跨域泛化才是关键

21:00 集成到Milvus：未来开箱即用

22:00 系列联动：从AI记忆到Paged Attention到语义高亮

24:30 隐形Bug总结：你系统里还有多少这样的问题

核心观点

· 大多数RAG系统存在一个被忽视的体验裂缝：检索语义、高亮关键词

· 搜"iPhone性能"，文档讨论"A15仿生芯片"——检索理解意义，高亮不理解

· LLM能解决但成本毁灭：100并发用户500次LLM调用，每天可能数十万美元

· Zilliz用0.6B参数小模型 + Qwen3蒸馏（含推理解释步骤）解决了速度和成本问题

· 跨域泛化是关键指标：竞争对手领域内好领域外差，这个模型都好

· RAG体验完整链：检索→理解→展示→用户信任，多数系统只做好了前两个

公众号：一支烟花AI

· 欢迎加入社群交流

在小宇宙打开