AI模型测评


MMLU
MMLU
多任务语言理解基准工具
Open LLM Leaderboard
Open LLM Leaderboard
开源大模型排行榜单
PubMedQA
PubMedQA
生物医学问答数据集
SuperCLUE
SuperCLUE
中文大模型测评基准
LLMEval3
LLMEval3
用于评估大模型的工具
CMMLU
CMMLU
综合性的中文评估基准
HELM
HELM
语言模型评估工具
C-Eval
C-Eval
中文基础模型评估套件
OpenCompass
OpenCompass
开源大模型评估平台
MMBench
MMBench
评估LVLMs的工具
AGI-Eval
AGI-Eval
AI大模型评测社区
Chatbot Arena
Chatbot Arena
一个基于功能、定价和能力比较聊天机器人构建器的平台。
H2O EvalGPT
H2O EvalGPT
基于LLM的评估工具