SuperCLUE_草庐IT

【GPT】中文大语言模型梳理与测评（C-Eval 、AGIEval、MMLU、SuperCLUE）

文章目录概述申请后直接使用大模型开源可本地部署通识数据集测评（C-Eval、AGIEval、MMLU、SuperCLUE）自媒体报道SuperCLUE：中文通用大模型综合性基准C-Eval：中英测评（清华上交提出）当前排名（23.06.27）数据集内容具体的科目如下图：数据量与试题示例论文中的测评结果AGIEval：微软中英文评测数据集内容人类与国外主流模型差异MMLU：英文试题部分测评结果试题内容概述中文英文模型，GPT-4性能是当着无愧的王者，但无法使用。中文评测平台榜单比较混乱，看个人使用习惯。模型汇总：https://github.com/wgwang/LLMs-In-China申请后

【AI大模型】SuperCLUE 中文大模型排行榜 (2023年6月) —— 最新大模型排名！中文大模型评测基准SuperCLUE发布6月榜单

SuperCLUE：中文通用大模型综合性测评基准中文通用大模型综合性测评基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准。它主要要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE，是中文语言理解测评基准（CLUE）在通用人工智能时代的进一步发展。SuperCLUE基准计划按照月度进行更新，数据集和进一步信息计划在下一次更新时公开，敬请期待。Github项目地址：htt