MTBENCH：AI看不懂金融套路

听论文-懂大模型评测

20分钟 ·1 个月前

29

·

0

论文：arxiv.org

这篇文档的核心是介绍了一个叫 MTBENCH 的 “AI 能力测试工具”，专门用来检验大语言模型（比如 GPT、Claude 这类 AI）能不能同时看懂 “数字变化” 和 “文字信息”，并结合两者解决实际问题 —— 简单说就是让 AI 既懂数据规律，又懂文字语境，还能灵活推理。

一、为啥要做这个测试工具？

现在很多 AI 要么只能处理文字（比如读新闻），要么只能单独分析时间序列数据（比如看股票涨跌、温度变化），但现实里这两类信息是绑在一起的：

看股票时，得结合 “公司盈利新闻” 和 “过去一个月股价数据” 才知道后续走势；

看天气时，要对照 “暴雨预警” 和 “过去 7 天温度湿度记录” 才懂天气变化原因。

但之前的测试工具要么只测一种数据，要么只让 AI 做简单预测（比如 “明天股价多少”），没法检验 AI 的 “深度推理能力”—— 比如 “为啥新闻说公司赚钱了，股价反而跌了” 这种需要结合文字和数据找原因的问题。所以研究者就做了 MTBENCH 来补这个缺口。

二、测试工具里有啥数据？

MTBENCH 的核心是 “数字 + 文字” 成对的数据集，聚焦两个实用领域：

金融领域：文字：20,000 篇专业财经新闻（来自 MarketWatch、SeekingAlpha 等网站，2021-2023 年），标注了 “是看涨还是看跌”“影响多久” 等信息；
数字：对应新闻里提到的股票的价格数据（比如过去 7 天 5 分钟一次的股价、过去 30 天 1 小时一次的股价）；
还分了 “新闻和股价趋势一致”（比如新闻看涨、股价真涨了）和 “不一致”（新闻看涨、股价跌了）两类数据，专门测 AI 能不能分辨误导信息。

天气领域：文字：2,000 条天气相关文本（比如暴雨、龙卷风的新闻报道，部分缺失的文本用 AI 补全）；
数字：50 个美国机场的气象数据（2003-2020 年），包括每小时的温度、湿度、风速等；
按 “短期（7 天数据预测 1 天）” 和 “长期（14 天数据预测 3 天）” 划分，贴合实际天气预报需求。

三、用这个工具测 AI 啥能力？

不是只让 AI “猜数字”，而是设计了 4 类实用任务，覆盖 “预测 + 分析 + 问答”：

时间序列预测：比如 “根据过去 30 天股价 + 新闻，预测未来 7 天股价”“根据过去 14 天气象数据 + 报道，预测未来 3 天温度”；

趋势分类：比如 “判断股票未来是涨（涨 2%-4%）、跌（跌超 4%）还是持平”“判断温度未来是升还是降”；

专业指标预测：金融领域测 “MACD（判断股价涨跌动量）”“布林带上轨（判断股价波动大小）”，天气领域测 “明天最高 / 最低温度”“昼夜温差”；

新闻驱动问答：最能测推理能力的任务，比如 “新闻说公司要签大订单，未来 7 天股价和新闻情绪是啥关系”“为啥预警暴雨了，温度还没降”，还有选择题（比如判断哪个说法符合新闻和数据）。

四、测出来的结果咋样？

用 GPT-4o、Claude、Gemini 等主流 AI 测了之后，发现两个关键结论：

文字和数据结合才管用：只给数据时，AI 预测长期趋势容易错；加了文字后，长期预测 accuracy 会提升（比如 GPT-4o 预测 30 天股价的误差从 3.74% 降到 3.52%）；
反过来，做 “为啥股价跌了” 这类问答时，给了数据的 AI 比只看文字的 AI 答得更准。

AI 还有很多短板：不会处理长期依赖：预测短期（比如 7 天数据猜 1 天）还行，长期（30 天数据猜 7 天）就容易乱；
因果推理差：比如金融新闻和股价常出现 “负相关”（新闻看涨、股价跌），但 AI 总倾向于猜 “中等程度正相关”，不会分析背后的真实原因；
对不同领域敏感度不一样：天气预测里，加了湿度、风速等额外数据后，AI 预测更准；但金融领域加了成交量等数据，AI 反而可能被干扰（因为金融数据关系更复杂）。

五、这个工具能用来干啥？

给 AI 研发者：用来测试自己的模型好不好，比如新模型能不能比 GPT-4o 更准确分辨 “新闻和股价不一致” 的情况；

给实际应用：比如训练 “能看懂财经新闻的股票分析 AI”“能结合报道的精准天气预报 AI”，让 AI 更贴近现实使用场景；

未来还会扩展到医疗（比如病历文本 + 体温 / 血压数据）、能源（比如能源政策文本 + 发电量数据）等领域。

简单说，MTBENCH 就像一个 “AI 综合能力考试卷”，专门考 AI “能不能把文字和数字融会贯通解决实际问题”，而不是只会单独处理一种信息 —— 毕竟现实里我们做决策，从来都是既要听 “说法”（文字），又要看 “事实”（数据）。

在小宇宙打开