OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布
作者:灵犀软件园时间:2025-04-17 13:17:08
感谢本站网友 GreatMOLA、耐小心 的线索投递!
本站 4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式发布了o3 和 o4-mini 模型。本站汇总内容如下:
OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。
首次,新的推理模型可以智能地使用和结合 ChatGPT 中的每一个工具 —— 包括搜索网络、使用 Python 分析上传的文件和其他数据、深入推理视觉输入,甚至生成图像。
关键的是,这些模型被训练来推理何时以及如何使用工具来产生详细和深思熟虑的答案,通常在不到一分钟内,以解决更复杂的问题。这使得它们能够更有效地处理多方面的问题,朝着更智能、能够独立执行任务的 ChatGPT 迈进。
性能表现
o3 是 OpenAI最强大的推理模型,它在编码、数学、科学、视觉感知等领域号称处于前沿,在包括 Codeforces、SWE-bench 和 MMMU 在内的基准测试中实现了新的 SOTA。
OpenAI 称,o3 非常适合需要多方面分析和答案可能不明显的高级查询。它在分析图像、图表和图形等视觉任务上表现尤为出色。在外部专家的评估中,o3 在困难、现实世界的任务上比 OpenAI o1 少犯 20% 的重大错误 —— 特别是在编程、商业 / 咨询和创意构思等领域表现出色。
早期测试者强调了其作为思维伙伴的分析严谨性,并强调了其生成和批判性地评估新颖假设的能力 —— 特别是在生物学、数学和工程背景下。
OpenAI o4-mini 是一个针对快速、成本效益推理进行优化的较小模型 —— 它在其大小和成本方面取得了“令人瞩目的性能”,尤其是在数学、编码和视觉任务上。在 AIME 2025 上,当提供 Python 解释器时,o4-mini 得分 99.5%。在专家评估中,它还在非 STEM 任务以及数据科学等领域相比前辈 o3-mini 表现更出色。得益于其效率,o4-mini 支持比 o3 高得多的使用限制,使其成为推理受益问题的强大高容量、高吞吐量选项。
与 OpenAI 的前几代推理模型相比,这两个模型也支持更加自然的对话,尤其是在它们参考记忆和过去的对话来使响应更加个性化和相关时。
能够推理图片
在整个 OpenAI o3 的开发过程中,OpenAI 发现大规模强化学习表现出与 GPT 系列预训练中观察到的相同的“更多计算能力 = 更好性能”趋势。通过重走扩展路径,OpenAI 在训练计算和推理时间上又推进了一个数量级,但仍然看到了明显的性能提升,这验证了随着模型被允许进行更多思考,其性能仍在持续提升。与 OpenAI o1 相比,在相同的延迟和成本下,o3 在 ChatGPT 中提供了更高的性能 —— 如果我们让它思考更长的时间,其性能会持续攀升。
从下面这个实例可以看到,这些模型可以直接将图像整合到它们的思维链中。它们不仅仅是看图像 —— 而是用图像思考。这解锁了一种新的问题解决类别,融合了视觉和文本推理。
人们可以上传白板照片、教科书图表或手绘草图,即使图像模糊、颠倒或质量很低,模型也可以解读它们。通过使用工具,模型甚至可以实时操作图像 —— 旋转、缩放或将其作为推理过程的一部分进行变换。
OpenAI o3 和 o4-mini 可以完全访问 ChatGPT 中的工具,以及通过 API 中的函数调用使用开发者自己的自定义工具。OpenAI 称,这些模型经过训练,能够推理如何解决问题,选择何时以及如何使用工具,以快速生成详细且深思熟虑的答案,通常在不到一分钟内完成。
例如,用户可能会问:“加利福尼亚的夏季能源使用量与去年相比如何?”该模型可以搜索公共事业数据,编写 Python 代码进行预测,生成图表或图像,并解释预测背后的关键因素,通过多个工具调用串联起来。推理能力使模型能够根据遇到的信息做出反应和调整。例如,它们可以在搜索提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试新的搜索。
成本
从成本来看,OpenAI 号称 o3 和 o4-mini 是其发布过的最智能的模型,它们通常也比 o1 和 o3-mini 更高效。例如,在 2025 AIME 数学竞赛中,o3 的性价比优于 o1;同样,o4-mini 也优于 o3-mini。
安全性
安全性方面,OpenAI o3 和 o4-mini 完全重建了安全训练数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。这些更新的数据使 o3 和 o4-mini 在其内部拒绝基准测试中取得了优异的成绩(例如,指令层次结构、越狱)。
除了在模型拒绝方面表现出色外,OpenAI还开发了系统级缓解措施,以标记前沿风险领域的危险提示。类似于在图像生成方面的早期工作,OpenAI训练了一个推理 LLM 监控器,该监控器从人类编写的可解释安全规范中工作。当应用于生物风险时,该监控器成功标记了约 99% 的对话。
怎么使用
ChatGPT Plus、Pro 和 Team 用户将从今天开始可以在模型选择器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。ChatGPT Enterprise 和 Edu 用户将在一周后获得访问权限。免费用户可以在提交查询前选择“思考”来尝试 o4-mini。所有计划中的速率限制与之前的一组模型保持不变。
OpenAI 预计将在几周内发布 OpenAI o3-pro,并支持全部工具。目前,Pro 用户仍然可以访问 o1-pro。
今天更新的内容反映了 OpenAI 模型的发展方向 —— 将 o 系列的专业推理能力与 GPT 系列的自然对话能力和工具使用能力相结合。
相关文章
-
OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布
感谢本站网友 GreatMOLA、耐小心 的线索投递! 本站 4 月 17 日消息,在今日凌晨的直播中,OpenAI 正式发布了o3 和 o4-mini
-
索泰将推单风扇版 RTX 5060 显卡,单 8-pin 电源接口
本站 4 月 17 日消息,英伟达 RTX 5060 显卡国内售价 2499 元起,将于 5 月上市。索泰官方展示了一款单风扇版 RTX 5060 显卡,尺寸小巧,将面向全球发售。本站注意到,这款显卡
-
微软承认 Win11 24H2 四月更新引发蓝屏故障,企业托管用户需管理员手动部署修复
本站 4 月 16 日消息,微软今日更新了支持文档,确认 Win11 24H2 最新更新存在严重 Bug,可能导致设备出现蓝屏死机等错误。该问题主要影响了已经安装四月累积更新(KB5055523)与三
-
【IT之家图赏】真我GT7实拍:1.3mm 超窄边框,配 7200mAh 泰坦电池
本站 4 月 16 日消息,真我GT7手机将于 4 月 23 日 16 时发布,官方宣称将挑战 3000 元以内的性能、续航“双冠王”。真我GT7手机将提供「石墨烯・冰」、「石墨烯・雪」、「石墨烯・夜
-
史上最快存储速度!复旦大学亚纳秒级闪存技术登 Nature,未来电脑有望不区分内外存
本站 4 月 16 日消息,复旦大学今日晚间官宣,复旦集成电路领域再获关键突破。复旦大学集成芯片与系统全国重点实验室、芯片与系统前沿技术研究院周鹏-刘春森团队通过构建准二维泊松模型,在理论上预测了超注
-
奇瑞 X3 Plus 方盒子纯电 SUV 入网工信部,可选装储物背包
本站 4 月 16 日消息,奇瑞汽车将推出一款方盒子纯电 SUV 车型,名称为奇瑞X3 Plus,现已入网工信部。从图中可以看到,该车采用黑化外观、方盒子造型,尾部有大大的 CHERY 英文标志。该车