20250811-华泰证券-金工深度研究:以空间换时间_多目标基本面选股因子挖
一、核心观点与创新亮点
本报告介绍了华泰研究团队在基本面选股因子挖掘方面的最新进展,通过构建多目标遗传算法和优化数据处理与硬件管理,显著提升了因子挖掘的效率和效果。该框架相较传统单目标遗传规划实现了“脱胎换骨”的进步,尤其在中证1000指数增强策略中表现突出,扣费后年化超额收益高达32.5%。报告强调了中证1000成分股基本面信息仍蕴含丰富的$\alpha$。
主要创新点:
- 多目标遗传算法的应用: 从传统的单目标遗传规划升级为三目标遗传算法,引入IICI(分组单调性)、IICI胜率(时序稳定性)和NDCG@k(多头组表现)作为评价指标,有效提升了因子种群的多样性和对抗过拟合的能力。
- 参数化因子表达式: 放弃了复杂的树状结构,采用11个参数约束因子表达式格式,提升了基本面因子的可解释性和经济学含义。
- 精细化基本面指标预处理: 对71个输入指标进行了深度加工,包括引入企业价值、融合快报/预告信息、构建研发前财务指标、重构一致预期指标(从FY到NY再到RY),以及计算综合评级得分,确保了指标的及时性、准确性和经济学合理性。
- “以空间换时间”的优化: 通过提前计算和存储指标的多种变换形式,并进行高效的内存和显存管理,大幅提升了因子挖掘速度,使其能在相对“廉价”的硬件上流畅运行。
- 优异的回测表现: 在沪深300、中证500、中证1000(合计中证1800)成分股内进行双周频调仓回测,基本面合成因子表现亮眼,特别是中证1000指增策略,扣费后年化超额收益高达32.5%。
- 与量价因子低相关性: 本文的基本面合成因子与前期报告《LLMRouter-GRU: “舆情分诊台”赋能 AI 量价因子》中量价因子的长期相关性仅为0.07,具有进一步合成的潜力。
二、详细内容摘要
2.1 人工智能:构建多目标遗传算法,挖掘基本面选股因子
报告指出,团队的因子挖掘框架已经“脱胎换骨”,通过GPU加速、评价维度扩充和种群多样性提升,将其应用于基本面选股因子挖掘,取得了显著成效。在全成分内中证1000指增策略中,“基本面合成因子的扣费后年化超额收益高达 32.5%”,表明“中证 1000 成分股的基本面信息依然具有丰富的 $\alpha$”。
2.2 将基本面因子的表达式参数化,使用多目标遗传算法开展优化
为了提高因子的可解释性,报告不再使用树状结构,而是用11个参数来约束因子表达式的格式,使因子挖掘框架退变为通用的遗传算法。为了提升因子种群多样性及对抗过拟合性能,引入了三维因子评价指标:IICI评价因子分组单调性,IICI胜率评价因子时序稳定性,NDCG@k评价因子多头组表现。NSGA-II算法能够在不加权的情况下对因子进行优劣排序和选取。同时,通过内存和显存管理实现了“以空间换时间”的效果,提高了挖掘效率。
因子格式规定: 基本面因子统一为:Ne[f(y, x, y_lg, x_lg, y_tr, x_tr, y_tr_pd, x_tr_pd, y_tr_fm, x_tr_fm, mode), S]。 其中:
- f 定义因子计算方法,是遗传算法优化对象。
- S 是Barra市值因子,因子需进行市值中性化。
- y 和 x 是输入指标。
- y_lg 和 x_lg 控制是否取自然对数。
- y_tr 和 x_tr 控制是否进行时间维度变换。
- y_tr_pd 和 x_tr_pd 控制季度变换('q')或同比变换('y')。
- y_tr_fm 和 x_tr_fm 定义变换形式,包括差分('diff')、百分比变化('pct')、标准化变化('std')和滞后('lag',仅x)。
- mode 是y和x的组合模式:
- 模式A: 只用 y 自身(如归母净利润同比增速)。
- 模式B: y/x(如ROE、E/P)。
- 模式C: y 对 x 进行一元线性回归后的残差(如归母净利润增速近似、市盈率倒数近似)。 这三种模式“基本上囊括了目前市面上常见的价值因子、成长因子、质量因子”。
因子评价指标: 为解决传统单目标遗传规划因子同质化和过拟合问题,引入三维目标:
- IICI: 评价因子分组单调性。
- NDCG@k: 评价因子多头组表现(k取180,因为测试对象为中证1800成分股,分十组)。
- IICI胜率: 评价因子时序稳定性,即时序上IICI为正的比例。 多目标遗传算法(NSGA-II)能在不对这些维度加权的情况下,对因子进行优劣排序。
2.3 数据准备与个别指标重点讲解
因子挖掘共使用71个指标,涵盖市场表现、分析师一致预期、三大财务报表科目。报告对以下几个关键指标的预处理进行了详细说明:
- 企业价值: 引入企业价值作为价值因子分母的备选,解决了传统价值因子“分子分母错配问题”。企业价值等于总市值加上总负债、少数股东权益、优先股之和,再减去现金及现金等价物。
- 融合快报或预告的财务指标: 提前融合业绩快报或业绩预告信息,确保财务指标的及时性。
- 研发前财务指标: 将研发费用加回利润总额类科目,以更公允地反映企业的成长性,考虑到“企业倾向于将可能已经满足资本化条件的研发支出费用化”。
- 一致预期指标重构(FY -> NY -> RY): 针对Wind一致预期指标在年报公布日数值跳变、含义突变以及接近年报发布日信息价值有限的问题,进行了重构。
- 从“未公布年报预期 (FY)”重构为“自然年预期 (NY)”,通过拼接不同FY段的数据,使NY1预测当前自然年,NY2预测下一个自然年。
- 进一步从“自然年预期 (NY)”重构为“滚动一年预期 (RY)”,根据季报公布时间调整NY1和NY2的权重,逐步降低已知信息比例,提升未知信息的浓度。RY序列“可以理解为滚动一年预期”。
- 综合评级得分: 基于预测机构对企业的评级(买入、增持、中性、减持、卖出家数)计算0-1之间的综合评级得分。
2.4 训练与回测
研究在沪深300、中证500、中证1000成分股内进行因子挖掘和回测,回测区间为2019年12月31日至2025年7月31日,双周频调仓。
- 中证1800成分股内合成因子分层测试: 合成因子在NDCG@k辅助下,多头组表现亮眼,“脱离了空头 $\alpha$ “陷阱””,并保证了分组单调性和较高的IICI胜率。
- 中证1800成分股内风险暴露分析: 长期来看,合成因子偏好“高盈利(主要是指盈利视角的估值较低)、强反转(主要是指前期涨幅较小)、大市值和低换手的成分股”,“比较符合价值投资的理念”。
- 全成分内指数增强测试: 扣费后年化超额收益表现:
- 沪深300指增:10.1%
- 中证500指增:13.6%
- 中证1000指增:32.5% 尤其在中证1000指增上,“合成因子的表现令人惊喜”。
三、重要发现与结论
- 中证1000市场存在显著的未被充分挖掘的基本面$\alpha$。 报告指出,与业界普遍认为中证1000市场量价因子使用频率更高、主动投资者对基本面挖掘深度不及沪深300的共识相反,本文的基本面合成因子在中证1000上取得了极为优异的表现,证实了“中证 1000 成分股的基本面信息依然具有丰富的 $\alpha$”。
- 多目标遗传算法是提升因子挖掘效果的关键。 通过综合考虑分组单调性、时序稳定性和多头组表现,有效解决了传统单目标方法导致的因子同质化和过拟合问题。
- 精细化数据预处理的重要性。 对基本面指标进行深入改造和重构(如企业价值、研发前财务指标、一致预期指标重构),极大地提升了输入数据的质量和经济学意义,是因子有效性的重要基础。
- 技术优化对量化研究效率的推动。 “以空间换时间”的内存显存管理策略,显著提升了因子挖掘速度,降低了硬件成本,使得复杂的量化研究能够在更普及的硬件上运行。
- 基本面因子与量价因子的互补性。 本研究的基本面合成因子与“舆情分诊台”量价因子的长期相关性仅为0.07,具有显著的互补性,为构建多因子策略提供了基础。
四、风险提示
- 遗传算法在滚动窗口中挖掘历史规律,这些规律可能在下次重训练之前失效。
- 遗传算法作为机器学习方法,可能存在过拟合问题。
- 基本面模型有其适用的市场条件,无法保证在任何市场条件下均可取得超额收益。
本报告详细阐述了华泰研究团队在基本面选股因子挖掘方面的先进框架、技术细节、数据处理方法及令人信服的回测结果,为量化投资领域提供了有价值的参考。
