语义高亮——RAG的隐形Bug

语义高亮——RAG的隐形Bug

26分钟 ·
播放数29
·
评论数0

节目简介

你的RAG系统检索很准,但用户还是说"搜出来的东西找不到重点"?

这期我们聊一个大多数人没注意到的裂缝:

检索是语义化的,但高亮还在用关键词匹配。

搜"iPhone性能",文档讨论的是"A15仿生芯片"和"基准分数",什么都没高亮。

为什么LLM解决不了这个问题(每秒10美元成本),以及一个0.6B参数的小模型如何做到毫秒级语义高亮。

时间线

 01:00 RAG系统的一个被忽视的问题

 03:00 语义检索 vs 关键词高亮——裂缝在哪

 06:00 3000字文档没有高亮:用户体验灾难

 08:00 为什么LLM不行——每秒10美元的成本计算 

12:00 Zilliz的解决方案:0.6B的小模型

 15:00 为什么要用Qwen3解释推理步骤(内置质量检查)

 17:00 知识蒸馏的力量:8x A100训练5小时

 18:00 测试结果:跨域泛化才是关键

 21:00 集成到Milvus:未来开箱即用

 22:00 系列联动:从AI记忆到Paged Attention到语义高亮

 24:30 隐形Bug总结:你系统里还有多少这样的问题 

核心观点

· 大多数RAG系统存在一个被忽视的体验裂缝:检索语义、高亮关键词 

· 搜"iPhone性能",文档讨论"A15仿生芯片"——检索理解意义,高亮不理解 

· LLM能解决但成本毁灭:100并发用户500次LLM调用,每天可能数十万美元

 · Zilliz用0.6B参数小模型 + Qwen3蒸馏(含推理解释步骤)解决了速度和成本问题 

· 跨域泛化是关键指标:竞争对手领域内好领域外差,这个模型都好 

· RAG体验完整链:检索→理解→展示→用户信任,多数系统只做好了前两个

公众号:一支烟花AI 

· 欢迎加入社群交流