Loading...

AI模型评测

共 13 篇网址

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室...

04720

AI模型评测 # AI # OpenCompass

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家...

05330

AI模型评测 # AI # PubMedQA

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三...

04570

AI模型评测 # AI # SuperCLUE

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件...

04980

AI模型评测 # AI # C-Eval

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的...

04810

AI模型评测 # AI # Chatbot Arena

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在...

03550

AI模型评测 # AI # CMMLU

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造，...

03640

AI模型评测 # AI # FlagEval

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 L...

05,6600

AI模型评测 # AI # H2O EvalGPT

HELM

HELM全称Holistic Evaluation of L...

04960

AI模型评测 # AI # HELM

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准，...

05820

AI模型评测 # AI # LLMEval3

MMBench

MMBench是一个多模态基准测试，由上海人工智能实验室、南...

04940

AI模型评测 # AI # MMBench

MMLU

MMLU 全称 Massive Multitask Lang...

04080

AI模型评测 # AI # MMLU

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数...

03580

AI模型评测 # AI # Open LLM Leaderboard