OpenAI o1-mini模型发布!专注于快速解决专家级推理问题

发布时间:2024-10-11来源:小智

OpenAI o1-mini模型发布日期:2024年9月12日,产品名称:OpenAI o1-mini,目标:推进成本效益高的推理能力

发布日期:2024年9月12日

产品名称:openAI o1-mini

目标:推进成本效益高的推理能力

特点:专注于 STEM(科学、技术、工程、数学)领域的推理,尤其是在数学和编程方面

性能

基准测试:

数学:在高中数学竞赛 AIME 中,o1-mini(70.0%)与o1(74.4%)接近,显著优于 o1-preview(44.6%)

编程:在 Codeforces 竞赛网站上,o1-mini 达到1650 Elo,与o1(1673)接近,优于 o1-preview(1258)

STEM:在需要推理的学术基准测试中,如GPQA(科学)和 MATH-500 ,o1-mini 优于 GPT-4o人类偏好评估:在推理密集型领域,o1-mini 比 GPT-4o 更受偏好,但在语言密集型领域则不如 GPT-4o

速度

o1-mini 在处理问题时比 o1 快 3-5 倍

安全性

训练:使用与 o1-preview 相同的对齐和安全技术

标准有害提示安全完成率:99%

挑战性有害提示安全完成率:93.2%(比 GPT-4o 的 71.4% 高)

良好完成率:在 StrongREJECT 越狱评估中,o1-mini 得分为 0.83,比 GPT-4o 的 0.22 高

限制与未来计划

限制:o1-mini 在非 STEM 领域的知识(如日期、传记、琐事)与小型语言模型如 GPT-4o mini 相当

未来计划:将改进这些限制,并探索将模型扩展到 STEM 以外的其他模态和专业领域

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。
如本文内容影响到您的合法权益(内容、图片等),请及时联系本站小编,微信号:iDAOHANGCN,我们会及时删除处理。

推荐资讯