CMMLU:权威中文大语言模型知识理解能力评测基准与67学科全覆盖测试集

CMMLU:权威中文大语言模型知识理解能力评测基准与67学科全覆盖测试集

AI模型评测

CMMLU(Chinese Massive Multitask Language Understanding)是一个专门针对中文语境设计的大规模多任务语言理解评测基准,涵盖从初等到高等专业级别的67个学科主题,包含自然科学、社会科学、工程技术、人文学科以及具有中国文化特色的内容(如中国驾驶规则等)。测试集包含11,582道四选一选择题,每道题均提供四个选项且仅有一个正确答案,用于评估大语言模型在中文语境下的知识掌握程度和推理能力。

访问官网
完全免费(开源数据集,采用CC BY-NC-SA 4.0许可协议,可自由下载用于非商业研究)

在大型语言模型能力飞速发展的今天,一个核心问题逐渐浮出水面:这些号称“无所不知”的AI,在中文语境下的真实水平到底如何?尤其是面对具有中国文化特色的知识和表达方式时,那些基于英文数据训练的模型往往会暴露出明显的短板。为了解决这个评测空白,上海交通大学、清华大学等机构的研究团队联合推出了CMMLU——一个专门为中文大语言模型量身定制的综合性评测基准,其全称为“Chinese Massive Multitask Language Understanding”,即“中文大规模多任务语言理解测试”。

CMMLU最突出的特点在于它的全面性与中国本土化设计。与很多直接从英文翻译而来的评测集不同,CMMLU的题目在设计之初就充分考虑了中文语境的特殊性和文化独特性。整个评测集覆盖了67个不同的学科主题,从基础的初等数学、物理、化学,到进阶的法律、经济、医学,再到极具中国文化特色的内容——比如中国驾驶规则、中国历史、中国文学等。这些考题中,有很多答案只在中国语境下才正确,在其他地区或语言中可能完全不适用。这就意味着,一个模型想要在CMMLU上拿到高分,不能仅仅依靠“翻译能力”,而必须真正理解中国特有的知识体系和思维方式。

从数据规模来看,CMMLU提供了一个相当扎实的评测基础。它包含了11,582道测试题以及335道开发集题目,全部为四选一的选择题格式,每道题仅有一个正确答案。以一道生物题为例:“同一物种的两类细胞各产生一种分泌蛋白,组成这两种蛋白质的各种氨基酸含量相同,但排列顺序不同。其原因是参与这两种蛋白质合成的——A. tRNA种类不同 B. 同一密码子所决定的氨基酸不同 C. mRNA碱基序列不同 D. 核糖体成分不同”,正确答案是C。这种题目格式统一、答案客观明确,使得CMMLU能够对模型进行自动化、标准化的定量评估,不同模型之间的得分具有直接的可比性。

在当前的CMMLU评测榜单上,阿里巴巴通义千问团队的表现尤为亮眼。其Qwen2 72B Instruct模型以90.1% 的准确率位居榜首,成为首个在该基准上突破90%大关的模型。紧随其后的是LongCat-Flash-Chat(84.3%)和LongCat-Flash-Lite(82.5%)等模型。这些数字从侧面反映了当前中文大模型在知识理解和推理能力上已经达到了相当高的水平,同时也为持续的技术迭代提供了清晰的量化标尺。

CMMLU的学术价值也得到了领域内的高度认可。该项目的研究论文详细阐述了评测集的构建方法论和评估标准。该数据集采用CC BY-NC-SA 4.0许可协议开放,意味着全球的研究者都可以免费下载用于非商业研究。无论是AI公司进行模型能力内测,还是学术机构开展中文NLP研究,或是开发者对比不同模型的中文表现,CMMLU都已经成为一个不可或缺的权威参考工具。

如果你想对比更多同类型工具,也可以前往AI模型评测查看完整列表。

相关标签

CMMLU 中文大模型评测 大语言模型评估基准 中文多任务理解 模型评测数据集 AI知识理解测试 67学科评测 开源中文评测集