OpenAI o1-mini模型发布!专注于快速解决专家级推理问题

发布时间:2024-10-11来源:小智

OpenAI o1-mini模型发布日期:2024年9月12日,产品名称:OpenAI o1-mini,目标:推进成本效益高的推理能力

发布日期:2024年9月12日

产品名称:openAI o1-mini

目标:推进成本效益高的推理能力

特点:专注于 STEM(科学、技术、工程、数学)领域的推理,尤其是在数学和编程方面

性能

基准测试:

数学:在高中数学竞赛 AIME 中,o1-mini(70.0%)与o1(74.4%)接近,显著优于 o1-preview(44.6%)

编程:在 Codeforces 竞赛网站上,o1-mini 达到1650 Elo,与o1(1673)接近,优于 o1-preview(1258)

STEM:在需要推理的学术基准测试中,如GPQA(科学)和 MATH-500 ,o1-mini 优于 GPT-4o人类偏好评估:在推理密集型领域,o1-mini 比 GPT-4o 更受偏好,但在语言密集型领域则不如 GPT-4o

速度

o1-mini 在处理问题时比 o1 快 3-5 倍

安全性

训练:使用与 o1-preview 相同的对齐和安全技术

标准有害提示安全完成率:99%

挑战性有害提示安全完成率:93.2%(比 GPT-4o 的 71.4% 高)

良好完成率:在 StrongREJECT 越狱评估中,o1-mini 得分为 0.83,比 GPT-4o 的 0.22 高

限制与未来计划

限制:o1-mini 在非 STEM 领域的知识(如日期、传记、琐事)与小型语言模型如 GPT-4o mini 相当

未来计划:将改进这些限制,并探索将模型扩展到 STEM 以外的其他模态和专业领域

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。
如本文内容影响到您的合法权益(内容、图片等),请及时联系本站小编,微信号:iDAOHANGCN,我们会及时删除处理。

推荐资讯


亚马逊云科技宣布提供完全托管的DeepSeek-R1模型

亚马逊云科技宣布提供完全托管的DeepSeek-R1模型

亚马逊云科技今日宣布,DeepSeek-R1现已作为完全托管的无服务器大语言模型(LLM)在Amazon Bedrock上正式可用, 这也是首个将该模型作为完全托管服务推出的云服务提供商。

2025-03-11
借力DeepSeek 银行业智能化变革提速!

借力DeepSeek 银行业智能化变革提速!

记者日前从工商银行了解到,该行在同业率先完成DeepSeek最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系,推动金融业务场景的智能化升级。

2025-03-11
00后主播借DeepSeek创销售神话,单日狂揽3.3亿!

00后主播借DeepSeek创销售神话,单日狂揽3.3亿!

一群初出茅庐的00后主播,凭借一款名为DeepSeek的AI工具,在短短一天内创造了3.3亿元的惊人销售额,这一数字迅速刷新了直播电商领域的单日销售纪录。

2025-03-11
被质疑“饥饿营销+套壳炒作”,Manus合伙人张涛回应

被质疑“饥饿营销+套壳炒作”,Manus合伙人张涛回应

DeepSeek之后,又一款国产AI成功出圈。 3月6日凌晨,中国AI团队Monica宣布推出全球首款通用型AI智能体产品Manus。据悉,Manus在GAIA基准测试中取得了SOTA(State-of-the-Art)的成绩,……

2025-03-08
华为发布三款DeepSeek一体机,满足不同AI应用需求

华为发布三款DeepSeek一体机,满足不同AI应用需求

华为为了助力AI行业化落地,针对DeepSeek本地部署推出了FusionCube A3000训推超融合一体机。这款一体机通过可视化编排平台与标准化API接口,实现了模型训练的高效性,从通用模型到行业专……

2025-03-08
更多

最新上架


codingM(速码大师)
codingM(速码大师)
一款革新软件开发模式的 AI 智能体协作平台。
在问
在问
功能全面又免费的人工智能网站。
AI对话鸭
AI对话鸭
领先的AI聊天对话平台
小悟空
小悟空
超强的 AI 对话助手
酷盖AI实验室
酷盖AI实验室
跨入免费算力时代 探索你的无限想象
墨鱼Aigc
墨鱼Aigc
AI伪原创文案写作工具
Chato
Chato
基于AI轻松定制你的机器人
沐灵AI
沐灵AI
AI 聊天工具