大型语言模型常常会提供一个看似清晰的“知识截止日期”,但这篇文章指出,模型宣称的截止日期与其实际掌握知识的“有效截止日期”可能并不一致,这种错位并非偶然,而是源于CommonCrawl数据中藏匿的“旧数据陷阱”,以及训练数据去重机制对语义近似或词汇近乎重复文档的“视而不见”。最终,这篇论文提醒我们:大模型的“时间观”远比想象中复杂,无论是数据整理者还是模型使用者,都需擦亮眼睛。
原文题目:Dated Data: Tracing Knowledge Cutoffs in Large Language Models
原文链接:arxiv.org
你将听到:
- 大型语言模型“知识截止日期”的真实含义与挑战是什么?
- 什么是“有效截止日期”(Effective Cutoff)以及如何衡量?
- 大型语言模型的有效截止日期与报告截止日期为何存在显著差异?

