论文:arxiv.org
这篇文档的核心是介绍了一个叫 MTBENCH 的 “AI 能力测试工具”,专门用来检验大语言模型(比如 GPT、Claude 这类 AI)能不能同时看懂 “数字变化” 和 “文字信息”,并结合两者解决实际问题 —— 简单说就是让 AI 既懂数据规律,又懂文字语境,还能灵活推理。
一、为啥要做这个测试工具?
现在很多 AI 要么只能处理文字(比如读新闻),要么只能单独分析时间序列数据(比如看股票涨跌、温度变化),但现实里这两类信息是绑在一起的:
- 看股票时,得结合 “公司盈利新闻” 和 “过去一个月股价数据” 才知道后续走势;
- 看天气时,要对照 “暴雨预警” 和 “过去 7 天温度湿度记录” 才懂天气变化原因。
但之前的测试工具要么只测一种数据,要么只让 AI 做简单预测(比如 “明天股价多少”),没法检验 AI 的 “深度推理能力”—— 比如 “为啥新闻说公司赚钱了,股价反而跌了” 这种需要结合文字和数据找原因的问题。所以研究者就做了 MTBENCH 来补这个缺口。
二、测试工具里有啥数据?
MTBENCH 的核心是 “数字 + 文字” 成对的数据集,聚焦两个实用领域:
- 金融领域:文字:20,000 篇专业财经新闻(来自 MarketWatch、SeekingAlpha 等网站,2021-2023 年),标注了 “是看涨还是看跌”“影响多久” 等信息;
数字:对应新闻里提到的股票的价格数据(比如过去 7 天 5 分钟一次的股价、过去 30 天 1 小时一次的股价);
还分了 “新闻和股价趋势一致”(比如新闻看涨、股价真涨了)和 “不一致”(新闻看涨、股价跌了)两类数据,专门测 AI 能不能分辨误导信息。 - 天气领域:文字:2,000 条天气相关文本(比如暴雨、龙卷风的新闻报道,部分缺失的文本用 AI 补全);
数字:50 个美国机场的气象数据(2003-2020 年),包括每小时的温度、湿度、风速等;
按 “短期(7 天数据预测 1 天)” 和 “长期(14 天数据预测 3 天)” 划分,贴合实际天气预报需求。
三、用这个工具测 AI 啥能力?
不是只让 AI “猜数字”,而是设计了 4 类实用任务,覆盖 “预测 + 分析 + 问答”:
- 时间序列预测:比如 “根据过去 30 天股价 + 新闻,预测未来 7 天股价”“根据过去 14 天气象数据 + 报道,预测未来 3 天温度”;
- 趋势分类:比如 “判断股票未来是涨(涨 2%-4%)、跌(跌超 4%)还是持平”“判断温度未来是升还是降”;
- 专业指标预测:金融领域测 “MACD(判断股价涨跌动量)”“布林带上轨(判断股价波动大小)”,天气领域测 “明天最高 / 最低温度”“昼夜温差”;
- 新闻驱动问答:最能测推理能力的任务,比如 “新闻说公司要签大订单,未来 7 天股价和新闻情绪是啥关系”“为啥预警暴雨了,温度还没降”,还有选择题(比如判断哪个说法符合新闻和数据)。
四、测出来的结果咋样?
用 GPT-4o、Claude、Gemini 等主流 AI 测了之后,发现两个关键结论:
- 文字和数据结合才管用:只给数据时,AI 预测长期趋势容易错;加了文字后,长期预测 accuracy 会提升(比如 GPT-4o 预测 30 天股价的误差从 3.74% 降到 3.52%);
反过来,做 “为啥股价跌了” 这类问答时,给了数据的 AI 比只看文字的 AI 答得更准。 - AI 还有很多短板:不会处理长期依赖:预测短期(比如 7 天数据猜 1 天)还行,长期(30 天数据猜 7 天)就容易乱;
因果推理差:比如金融新闻和股价常出现 “负相关”(新闻看涨、股价跌),但 AI 总倾向于猜 “中等程度正相关”,不会分析背后的真实原因;
对不同领域敏感度不一样:天气预测里,加了湿度、风速等额外数据后,AI 预测更准;但金融领域加了成交量等数据,AI 反而可能被干扰(因为金融数据关系更复杂)。
五、这个工具能用来干啥?
- 给 AI 研发者:用来测试自己的模型好不好,比如新模型能不能比 GPT-4o 更准确分辨 “新闻和股价不一致” 的情况;
- 给实际应用:比如训练 “能看懂财经新闻的股票分析 AI”“能结合报道的精准天气预报 AI”,让 AI 更贴近现实使用场景;
- 未来还会扩展到医疗(比如病历文本 + 体温 / 血压数据)、能源(比如能源政策文本 + 发电量数据)等领域。
简单说,MTBENCH 就像一个 “AI 综合能力考试卷”,专门考 AI “能不能把文字和数字融会贯通解决实际问题”,而不是只会单独处理一种信息 —— 毕竟现实里我们做决策,从来都是既要听 “说法”(文字),又要看 “事实”(数据)。
