AGIEval_草庐IT

文章目录概述申请后直接使用大模型开源可本地部署通识数据集测评（C-Eval、AGIEval、MMLU、SuperCLUE）自媒体报道SuperCLUE：中文通用大模型综合性基准C-Eval：中英测评（清华上交提出）当前排名（23.06.27）数据集内容具体的科目如下图：数据量与试题示例论文中的测评结果AGIEval：微软中英文评测数据集内容人类与国外主流模型差异MMLU：英文试题部分测评结果试题内容概述中文英文模型，GPT-4性能是当着无愧的王者，但无法使用。中文评测平台榜单比较混乱，看个人使用习惯。模型汇总：https://github.com/wgwang/LLMs-In-China申请后