Kronos :A Foundation Model for the Language of Financial Markets
摘要
本简报回顾了清华大学研究团队提出的“Kronos”模型,这是一个专门为金融K线(K-line)数据设计的统一、可扩展的预训练框架。Kronos旨在克服现有时间序列基础模型(TSFMs)在金融数据应用中的局限性,特别是在K线数据上表现不佳以及忽视波动率预测和合成数据生成等关键下游任务的问题。
核心贡献与创新点
- 专有分词器和分层表示学习: Kronos引入了一种专门的分词器,将连续的K线数据离散化为包含粗粒度(coarse)和细粒度(fine)双组分的分层令牌序列。这种设计使得模型能够“显式地对多尺度市场动态进行建模。”每个K线记录(OHLCVA - 开盘价、最高价、最低价、收盘价、交易量、交易金额)都被量化为一个独立的令牌。
- 大规模多市场预训练: Kronos在一个“来自45个全球交易所的超过120亿条K线记录的大规模多市场语料库上”进行预训练。这一庞大且多样化的数据集是其学习“稳健且可泛化的市场表示”的基础。与现有TSFMs的语料库中金融数据占比极低(通常低于1%)形成鲜明对比,Kronos的训练语料库完全由金融K线数据组成。
- 统一的自回归预训练框架: 模型采用仅解码器(decoder-only)Transformer架构,通过自回归目标(next-token prediction)顺序预测分层子令牌,从而捕捉“细微的时间和跨资产表示。”这种离散化和生成范式使得Kronos能够“构建市场动态的高保真分层表示。”
- 卓越的性能表现: Kronos在多项金融任务中展现出卓越的零样本(zero-shot)性能:
- 价格序列预测: RankIC(排名信息系数)比领先的TSFM提高了93%,比最佳的非预训练基线提高了87%。
- 波动率预测: MAE(平均绝对误差)降低了9%。
- 合成K线生成: 生成保真度提高了22%。
- 投资模拟: 在中国A股市场投资模拟中,实现了最高的年化超额回报(AER)和信息比率(IR),“表明该模型可以有效地将其卓越的预测准确性转化为实际的投资收益。”
- 模型可扩展性: 团队训练了不同规模的Kronos模型,参数量最高接近5亿,并验证了“随着模型规模的扩大,这些任务的性能持续提高”的缩放定律。
- 推理时性能增强: Kronos的概率生成框架允许通过“生成多个未来轨迹(即蒙特卡洛展开)并对解码后的连续值进行平均”来增强预测精度,而无需重新训练模型,从而在计算成本和预测准确性之间取得平衡。
关键主题与重要事实
1. 金融K线数据的特性与挑战
- 信息密集型语言: K线序列(OHLCVA)是“高度紧凑、信息密集的‘语言’,市场参与者通过它来解读价格走势、波动率状态、流动性变化和集体情绪。”
- 独特统计属性: 金融K线数据具有“低信噪比、强非平稳性以及开盘价、最高价、最低价、收盘价、成交量和成交额(OHLCVA)属性之间复杂的高阶依赖性”。
- 通用TSFM的局限: “通用TSFMs在金融任务上的表现往往不如专门的、未预训练的模型……并且无法在更广泛的量化金融领域进行泛化。”这主要是因为金融数据在大多数现有TSFMs的预训练语料库中仅占“微小比例”,其独特属性在预训练中被忽视或平均化。
2. Kronos的建模范式:离散化与分层自回归
- 将连续市场信息转化为令牌序列: Kronos不直接操作原始连续输入,而是通过可学习的码本将每个多变量K线观测值量化为离散令牌。这使得预测任务简化为自回归令牌序列建模问题。
- 两阶段框架:K线令牌化: “一个基于Transformer的专用分词器,通过一个可学习的码本,将连续的多变量K线序列量化为相应的离散令牌序列。”每个令牌由粗粒度子令牌和细粒度子令牌组成,通过“分层重建损失”强制实现从粗到细的信息层次结构。
- 自回归预训练: “一个仅包含自回归解码器的Transformer在这些令牌化序列上进行预训练,使用标准的下一个令牌预测目标,根据给定的历史上下文,在每个未来时间步依次预测两个子令牌层次。”这种分解使得模型能够“首先预测粗粒度子令牌,它作为随后生成细粒度残余子令牌的支架。”
- 令牌器的工作原理(BSQ): 采用二进制球面量化(BSQ),通过将连续潜在向量投影到可学习的超平面上进行量化。BSQ的优势在于其“固有的噪声抑制能力”和“创建适合序列建模的结构化离散状态空间的能力”。
- 噪声抑制: BSQ将连续的价格-交易量嵌入投影到单位球面上,确保“预期失真严格有上界”,从而减轻金融时间序列数据中异常值(如“闪电崩盘”事件)的影响。
- 紧凑离散状态空间: 将无限状态映射到有限、离散的词汇表,起到“强大的正则化形式”作用,从而提高样本效率、泛化能力并减少过拟合。
- 高词典利用率: 粗粒度子令牌的码本使用率达到97.66%,细粒度子令牌达到85.25%,表明模型创建了富有表现力的词汇表,并有效利用了特征空间。
- 对厚尾数据的敏感性: BSQ的二进制编码能高效保留角度信息,使其对“在特征空间中表现为急剧方向变化的肥尾数据”更敏感,这对于捕捉市场微观结构事件(如价格-成交量向量的突然变化)至关重要。
3. 数据集与预训练规模
- 大规模高质量语料库: Kronos的预训练数据集是“从头开始精心策划的”,包含“从45个全球交易所抽取的广泛资产类别”的“超过120亿条K线记录”,涵盖7种采样频率(1分钟到每周)。
- 严格的数据清洗: 实施了两阶段数据清洗流程,包括处理缺失值(价格字段进行分割,成交量/金额字段用零填充并随机置零以增强鲁棒性)和过滤低质量数据段(基于价格不连续性、非流动期和价格停滞期进行识别和移除)。
- 数据再平衡: 对原始语料库中资产类别不平衡问题,通过“增加来自加密货币、期货和外汇市场数据的采样权重”进行战略性重采样,确保模型对不同金融工具的动态有更均衡的曝光。
4. 实验验证与性能
- 综合性评估: 评估任务涵盖价格序列预测、收益预测、已实现波动率预测、合成K线生成和投资模拟,全面衡量Kronos在量化金融场景中的预测和生成能力。
- 与25个基线模型比较: 基线模型包括非预训练全样本模型(如iTransformer)、零样本时间序列基础模型(如TimeMOE)、计量经济学波动率模型(如GARCH)和生成式时间序列模型(如DiffusionTS)。
- 性能提升显著:价格序列预测:RankIC提升93%(对比最强TSFM),87%(对比最佳非预训练模型)。
- 波动率预测:MAE降低9%。
- 合成K线生成:保真度和有用性表现最佳,且随着模型规模扩大优势增强。
- 投资模拟:在A股市场策略回测中,超越所有基线,实现最高年化超额回报和信息比率。
- 消融研究结果:建模范式: 离散空间模型(Kronos)显著优于连续空间模型(Direct-AR, Prob-AR)。并行预测子令牌(Kronos-Parallel)的表现不如顺序预测,验证了子令牌依赖性建模的重要性。
- 词汇量影响: 增加词汇量能同时提高重建质量和预测准确性,提供更细粒度的表示,减少量化误差。
- 子令牌分解(n=2)的优势: 将20位令牌分解为2个子令牌(n=2)实现了超过99.8%的词汇表相关参数减少,使大词汇量在计算上可行。进一步分解(n>2)收益递减,且会显著增加推理延迟。
5. 实际应用意义
- 通用基础模型: Kronos被定位为“用于端到端金融时间序列分析的强大、通用基础模型”,能够“解释金融市场复杂‘语言’”。
- 广泛的应用场景: 适用于算法交易策略、投资组合优化方案和风险管理系统等。
- 克服数据稀疏性: 离散化方法有助于模型从稀疏数据中学习稳健模式,这对于建模罕见的市场现象(如对流动性冲击的反应)尤其重要。
- 代码与模型公开: 预训练模型已公开,可在GitHub上获取(github.com),促进了该领域的透明度和研究。
结论
Kronos通过其创新的K线令牌化、分层自回归建模以及在大规模高质量金融数据上的预训练,成功地解决了现有时间序列基础模型在金融市场应用中的核心挑战。其在多种金融任务上的卓越性能,以及在实际投资模拟中的盈利能力,确立了Kronos作为金融时间序列分析领域的新标杆,并为未来量化金融应用的开发提供了强大的基础。

