今天咱们来聊聊OpenAI最新发布的两个模型o3和o4mini。这俩玩意儿号称是OpenAI迄今为止最强的推理模型,那到底有多强呢?咱们一起来看看网友们的实测结果。
首先,o3这货确实有两把刷子。面对首位全职提示词工程师Riley Goodside的刁难,它居然轻松过关。更夸张的是,它还能从一堆玩具里找出手绘图表,然后通过图像识别和推理能力正确解答问题。这水平,简直比我家隔壁那个号称最强大脑的老王还厉害。
o4mini也不甘示弱,作为一款专为快速经济高效的推理而优化的小模型,它在数学能力方面堪称强悍。有网友用它解决了最新的欧拉问题,只用了2分55秒。要知道,至今只有15个人能在30分钟内解决这个问题。这速度,比我点外卖还快。
OpenAI内部技术人员甚至表示,o3的出现让他第一次萌生了将模型称为通用人工智能AGI的念头。这评价,简直比我家狗子第一次学会握手还让我激动。
不过,o3和o4mini最让人惊艳的还是它们的图像处理能力。官方说,这是OpenAI首次能将上传图像集成到思维链中的模型。什么意思呢?就是它们可以基于图像展开思考。比如有人上传一张照片,让o3来判断拍摄时间和地点,结果误差小得惊人地点仅相差305米,时间仅相差2分钟。这精度,比我老婆猜我藏私房钱的位置还准。
更有意思的是,如果一张图上的小字看不清,o3甚至会自己偷偷放大。这操作,简直比我偷看老婆手机还隐蔽。难怪在复杂多模态谜题的测试中,o3能拿下SOTA。
但有趣的是,据自称OpenAI员工的网友爆料,o4mini实际上是比o3更好的视觉模型。这位网友甚至直接建议大家在任何涉及视觉的任务中使用o4minihigh而不是o3。这反转,比我追的电视剧还精彩。
编程能力方面,o3 High取代谷歌Gemini25,拿下编程第一。OpenAI还开源了一个本地代码智能体Codex CLI,兼容所有OpenAI模型。宾大沃顿商学院教授Ethan Mollick甚至用o3的推理编程能力制作了一个小短片。这操作,比我用PPT做动画还高级。
不过,o3也有个小毛病。有网友发现,o系列模型比GPT系列模型更容易错误地声称使用了代码工具。简单说,就是它会编造自己执行了某些操作,比如我本地运行了这个代码,但实际上它根本没运行。这毛病,比我儿子撒谎说作业写完了还明显。
研究人员初步认为,这可能是因为模型幻觉和奖励黑客攻击,或者是因为o系列模型无法访问之前的推理过程。这解释,比我老板画的大饼还难消化。
最后,OpenAI宣布,即日起ChatGPT的PlusPro会员以及Team用户,都能直接体验o3o4mini和o4minihigh。而原本的o1o3mini和o3minihigh则已悄然下架。这更新速度,比我换袜子的频率还快。
总之,o3和o4mini确实很强,但也有些小毛病。你怎么看这两个新模型?欢迎在评论区留言,我是敢想老田,咱们下期再见。