OpenAI 正式推出新一代模型 o3-pro,现已向所有 ChatGPT 专业版和 API 用户开放,并将很快推广至企业版和教育版。相比于之前的版本(如 o3 和 o1-pro),o3-pro 在多个方面实现了显著改进。专家评审高度评价了其在科学、教育、数据分析、写作和编程等领域的能力,并指出它在表达清晰性、内容完整性、遵循指令和准确性方面更为出色。

  • 专家评估表明:相比 o3,o3-pro 在多个关键领域表现更佳,包括科学、教育、编程、数据分析和写作。
  • o3-pro 在清晰度、全面性、指令遵循能力和准确性方面评分更高
  • 类似 o1-pro,o3-pro 在学术评估中在数学、科学和编程方面表现优秀
  • 使用了 OpenAI 的“4/4 可靠性评估”来测试模型稳定性——只有在四次回答中全部正确才算成功。
  • o3-pro 能使用 ChatGPT 的高级工具:联网搜索、文件分析、图像识别、Python 编程、记忆个性化等
  • o3-pro 从即日起成为专业版和团队版用户的默认模型,取代 o1-pro;企业版与教育版用户将在下周获得访问权限。

性能评估

在专家评估中,评审人员普遍更喜欢 o3-pro 相较于 o3,强调其在科学、教育、编程、数据分析和写作等关键领域的性能提升。

o3-pro 在清晰度、全面性、指令理解与执行、内容准确性等方面均取得更高分数。

与 o1-pro 类似,o3-pro 在数学、科学和编程方面表现出色,这一点已在学术评估中得到验证。

更稳定:4/4 可靠性标准

为了验证模型的稳定性,OpenAI 使用了被称为“4/4 reliability”(四次中全部答对)的严格评估标准。只有模型在连续四次尝试中都能正确回答问题,才被认为真正可靠。

在这项评测中,o3-pro 的表现证明它不仅聪明,而且稳定。

与主流模型对比表现出色

  • 性能与 Gemini 2.5 Pro 相当,在评估中的智能指数一致
  • 智能优于 Claude 4 Sonnet Thinking,但单位 token 成本更低
  • 回答风格上 不如 Claude 4 Opus 冗长,但比 Gemini 2.5 Pro 和 DeepSeek R1 更简洁

工具集成:不仅是语言模型,更是智能助手

o3-pro 远不只是“会聊天”的 AI,它集成了 ChatGPT 的全部高级工具,使其成为真正多才多艺的智能助手:

  • 🔍 联网搜索:快速查找和整合实时信息
  • 📁 文件分析:可以读取和理解上传的文件内容
  • 🧠 图像识别:可处理视觉输入,理解图像
  • 🐍 Python 编程能力:直接运行代码、处理数据、画图等
  • 🧷 个性化记忆:记住用户偏好,持续优化交互体验

o3价格下降80% 比GPT 4o还要低

  • OpenAI 将 o3 模型的价格大幅下调 80%
    从每百万输入/输出 token 的 $8/$40 降至 $2/$8,同时对缓存输入 token 提供 75% 的折扣

    o3 Pro 价格:

    输入:$2 / 100 万令牌
    输出:$8 / 100 万令牌

    o1-pro:600 美元

    o3-pro:20 美元

    o3-pro 在各方面都优于 o1-pro,更快、更智能、更强大。

    而且价格便宜 30 倍。

  • 🧮 o3 每 token 成本已与 GPT-4.1 持平
    推理与非推理模型之间的价格统一,但由于 o3 平均输出是 GPT-4.1 的 7 倍左右,实际每次请求成本仍更高。

o3 的单位 token 成本与 GPT-4.1 看齐

  • 两者在“每个 token”的定价一致
  • 但是已经比GPT 4o低了不少
  • 但由于 o3 生成的 token 数量约为 GPT-4.1 的 7 倍,所以一次完整查询的花费更高

📉 AI 智能成本正在迅速下降

  • GPT-4 级别智能自发布以来价格已降低 100 倍以上
  • 训练出达到“高级智能阈值”的模型,其经济门槛持续降低
  • 用户部署 AI 服务的边际成本持续下降,推动更多落地场景出现

这意味着更高性能的 AI 模型正变得更加可用、更适合商业化集成和大规模使用。