OpenAI o1-mini模型发布！专注于快速解决专家级推理问题

发布时间：2024-10-11来源：小智

OpenAI o1-mini模型发布日期：2024年9月12日,产品名称：OpenAI o1-mini,目标：推进成本效益高的推理能力

发布日期：2024年9月12日

产品名称：openAI o1-mini

目标：推进成本效益高的推理能力

特点：专注于 STEM（科学、技术、工程、数学）领域的推理，尤其是在数学和编程方面

性能

基准测试：

数学：在高中数学竞赛 AIME 中，o1-mini（70.0%）与o1（74.4%）接近，显著优于 o1-preview（44.6%）

编程：在 Codeforces 竞赛网站上，o1-mini 达到1650 Elo，与o1（1673）接近，优于 o1-preview（1258）

STEM：在需要推理的学术基准测试中，如GPQA（科学）和 MATH-500 ，o1-mini 优于 GPT-4o人类偏好评估：在推理密集型领域，o1-mini 比 GPT-4o 更受偏好，但在语言密集型领域则不如 GPT-4o

速度

o1-mini 在处理问题时比 o1 快 3-5 倍

安全性

训练：使用与 o1-preview 相同的对齐和安全技术

标准有害提示安全完成率：99%

挑战性有害提示安全完成率：93.2%（比 GPT-4o 的 71.4% 高）

良好完成率：在 StrongREJECT 越狱评估中，o1-mini 得分为 0.83，比 GPT-4o 的 0.22 高

限制与未来计划

限制：o1-mini 在非 STEM 领域的知识（如日期、传记、琐事）与小型语言模型如 GPT-4o mini 相当

未来计划：将改进这些限制，并探索将模型扩展到 STEM 以外的其他模态和专业领域

免责声明：文章内容不代表本站立场，本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺，仅供读者参考，文章版权归原作者所有。
如本文内容影响到您的合法权益（内容、图片等），请及时联系本站小编，微信号：iDAOHANGCN，我们会及时删除处理。

ai模型 mini模型

智能编程助手 Neovate Code 正式开源

蚂蚁集团支付宝体验技术部正式对外开源智能编程助手 Neovate Code，能够深度理解你的代码库，遵循既有编码习惯，并在上下文感知的基础上，精准地完成功能实现、Bug 修复和代码重构。

2025-09-25

多智能体并发处理大规模任务，Manus 推出 Wide Research 功能

2025年8月1日，AI智能体平台 Manus 上线了名为「Wide Research」的新功能，允许用户通过多个 AI 智能体并发处理大规模任务，如批量生成设计稿、评选MBA项目或分析股票表现。

2025-08-24

OpenAI发布GPT-OSS：开源权重大模型，原生支持128K上下文

2025年8月5日，OpenAI 宣布推出全新开放权重大语言模型系列 GPT-OSS，这是自 GPT-2 以来该机构首次发布支持本地部署的模型权重。

2025-08-24

DeepSeek V3.1 发布，迈向智能 Agent 时代的关键一步

2025 年 8 月 21 日，深度求索公司正式发布新一代语言模型 DeepSeek-V3.1，标志着其在智能 Agent 领域迈出了重要一步。

2025-08-24

苹果公司AI企业版图再下一城，Apple 推出新的 ChatGPT 配置选项！

随着人工智能技术逐渐进入企业领域，苹果公司正在推出新的工具，使企业能够更精细地控制员工在何处以及如何使用人工智能。

2025-08-24

OpenAI o1-mini模型发布！专注于快速解决专家级推理问题

性能

速度

安全性

限制与未来计划

推荐资讯

智能编程助手 Neovate Code 正式开源

多智能体并发处理大规模任务，Manus 推出 Wide Research 功能

OpenAI发布GPT-OSS：开源权重大模型，原生支持128K上下文

DeepSeek V3.1 发布，迈向智能 Agent 时代的关键一步

苹果公司AI企业版图再下一城，Apple 推出新的 ChatGPT 配置选项！

最新上架

百度AI同传助手

AI同声传译工具

Toby

AI实时语音翻译工具

腾讯翻译君

智能语音翻译工具

彩云小译

智能翻译工具

必应翻译

免费在线翻译工具

阿里翻译

多语种在线实时翻译网站

会译

沉浸对照式AI翻译

沉浸式翻译

双语对照的网页翻译插件

最新资讯

热门标签