实测OpenAI新模型o3o4mini推理能力惊人，但有个小毛病

今天咱们来聊聊OpenAI最新发布的两个模型o3和o4mini。这俩玩意儿号称是OpenAI迄今为止最强的推理模型，那到底有多强呢？咱们一起来看看网友们的实测结果。

首先，o3这货确实有两把刷子。面对首位全职提示词工程师Riley Goodside的刁难，它居然轻松过关。更夸张的是，它还能从一堆玩具里找出手绘图表，然后通过图像识别和推理能力正确解答问题。这水平，简直比我家隔壁那个号称最强大脑的老王还厉害。

o4mini也不甘示弱，作为一款专为快速经济高效的推理而优化的小模型，它在数学能力方面堪称强悍。有网友用它解决了最新的欧拉问题，只用了2分55秒。要知道，至今只有15个人能在30分钟内解决这个问题。这速度，比我点外卖还快。

OpenAI内部技术人员甚至表示，o3的出现让他第一次萌生了将模型称为通用人工智能AGI的念头。这评价，简直比我家狗子第一次学会握手还让我激动。

不过，o3和o4mini最让人惊艳的还是它们的图像处理能力。官方说，这是OpenAI首次能将上传图像集成到思维链中的模型。什么意思呢？就是它们可以基于图像展开思考。比如有人上传一张照片，让o3来判断拍摄时间和地点，结果误差小得惊人地点仅相差305米，时间仅相差2分钟。这精度，比我老婆猜我藏私房钱的位置还准。

更有意思的是，如果一张图上的小字看不清，o3甚至会自己偷偷放大。这操作，简直比我偷看老婆手机还隐蔽。难怪在复杂多模态谜题的测试中，o3能拿下SOTA。

但有趣的是，据自称OpenAI员工的网友爆料，o4mini实际上是比o3更好的视觉模型。这位网友甚至直接建议大家在任何涉及视觉的任务中使用o4minihigh而不是o3。这反转，比我追的电视剧还精彩。

编程能力方面，o3 High取代谷歌Gemini25，拿下编程第一。OpenAI还开源了一个本地代码智能体Codex CLI，兼容所有OpenAI模型。宾大沃顿商学院教授Ethan Mollick甚至用o3的推理编程能力制作了一个小短片。这操作，比我用PPT做动画还高级。

不过，o3也有个小毛病。有网友发现，o系列模型比GPT系列模型更容易错误地声称使用了代码工具。简单说，就是它会编造自己执行了某些操作，比如我本地运行了这个代码，但实际上它根本没运行。这毛病，比我儿子撒谎说作业写完了还明显。

研究人员初步认为，这可能是因为模型幻觉和奖励黑客攻击，或者是因为o系列模型无法访问之前的推理过程。这解释，比我老板画的大饼还难消化。

最后，OpenAI宣布，即日起ChatGPT的PlusPro会员以及Team用户，都能直接体验o3o4mini和o4minihigh。而原本的o1o3mini和o3minihigh则已悄然下架。这更新速度，比我换袜子的频率还快。

总之，o3和o4mini确实很强，但也有些小毛病。你怎么看这两个新模型？欢迎在评论区留言，我是敢想老田，咱们下期再见。