AI模型测评 - AI导航

AI模型测评

MMLU

多任务语言理解基准工具

Open LLM Leaderboard

Open LLM Leaderboard

开源大模型排行榜单

PubMedQA

生物医学问答数据集

SuperCLUE

中文大模型测评基准

LLMEval3

用于评估大模型的工具

CMMLU

综合性的中文评估基准

HELM

语言模型评估工具

C-Eval

中文基础模型评估套件

OpenCompass

开源大模型评估平台

MMBench

评估LVLMs的工具

AGI-Eval

AI大模型评测社区

Chatbot Arena

一个基于功能、定价和能力比较聊天机器人构建器的平台。

H2O EvalGPT

基于LLM的评估工具

更多

最新上架

百度AI同传助手

AI同声传译工具

Toby

AI实时语音翻译工具

腾讯翻译君

智能语音翻译工具

彩云小译

智能翻译工具

必应翻译

免费在线翻译工具

阿里翻译

多语种在线实时翻译网站

会译

沉浸对照式AI翻译

沉浸式翻译

双语对照的网页翻译插件

更多

最新资讯

智能编程助手 Neovate Code 正式开源多智能体并发处理大规模任务，Manus 推出 Wide Research 功能 OpenAI发布GPT-OSS：开源权重大模型，原生支持128K上下文 DeepSeek V3.1 发布，迈向智能 Agent 时代的关键一步苹果公司AI企业版图再下一城，Apple 推出新的 ChatGPT 配置选项！