这是一期关于RL(强化学习)在股票市场的应用,主要围绕上海交通大学的一项研究,讨论了如何通过强化学习和一种名为 “Metatrader” 的新方法,来帮助AI在复杂多变的金融市场中做出更稳健的决策,从而实现更稳定的盈利。
以下是播客的关键内容总结和关键时点:
- 0:00 AI能否帮助我们在股市中更聪明地操作,赚到钱?
研究来源: 上海交通大学的研究,标题是“你的离线策略不可靠”。
核心技术: 强化学习。
新方法: Metatrader,旨在解决传统交易中遇到的痛点。 - 1:27 传统方法的不足传统强化学习: 就像机器人死记硬背历史数据,学到的策略在面对未曾见过的新情况时(比如市场风格突变,出现黑天鹅事件)会失效,导致“离线策略不可靠”的问题。
OOD(Out-of-Distribution)问题: 机器人可能反应不过来,做出让你亏钱的决策。 - 2:11 Metatrader的核心理念与解决的问题核心: 模拟和适应,就像给机器人加入抗压训练。
如何实现模拟和适应: 不止学习真实历史数据,还会故意制造一些“极端但可能发生”的市场场景来训练机器人。
具体例子:F one:模拟突发利空,让原来涨得好的股票突然掉头。
F two:模拟趋势反转,把一段走势颠倒过来。
F three:改变时间节奏,比如压缩一下,模拟市场波动突然变快或变慢。
目的: 让AI在真实市场里对意外情况有抵抗力。 - 3:34 双层优化框架另一个关键点: 双层优化框架。
内层: AI在特定数据集(真实或模拟)中如何快速找到最佳做法。
外层: 评估学习方法在其他不同数据集上的表现,确保AI不只会在特定情况赚钱,而是掌握一套能应用于多种情况的方法。
核心: 适应性更强,做决策更小心。
技术: “基于变换的序差学习”,让决策更谨慎,评估潜在价值时,不仅考虑正常情况,还会将模拟的困难模式和倒霉情况下的结果也综合考虑进去。 - 4:39 Metatrader的实际效果与评估指标目的: 不仅考虑最好能赚多少,也要考虑最差能亏多少。
- 5:23
效果: AI在波动市场中做出相对稳定的决策。
测试数据: 沪深300指数股票和纳斯达克100指数股票。
测试结果: Metatrader的累积回报更高,风险调整后的收益也更好。
风险控制: 最大回撤(策略可能出现的最大资金缩水)控制得更低。 - 7:01总结与思考目标: 让自动交易策略更靠谱,更能应对真实市场风云变幻,而非简单重复过去。
核心: 通过模拟各种意外,加上学习如何学习的双层框架,让AI策略更有韧性,更能适应变化。
遗留问题: 既然AI越来越能适应意外,我们应该在多大程度上把钱交给机器管理?
平衡点: 自动化带来的效率与人的经验判断之间的平衡点在哪里?这是一个需要不断探索和思考的问题,最终仍是看人如何使用工具。
