CMMLU

2个月前更新 35 00

中文大模型综合性能评测标准平台。

收录时间：

2026-04-30

CMMLU是什么？

CMMLU是一个综合性中文评估基准，专门用于衡量语言模型在中文语境中的知识与推理能力，涵盖67个学科主题，从基础科学到高级专业领域。它包含需要计算的自然科学、注重知识的人文与社会科学，以及中国特有的生活常识（如驾驶规则）。CMMLU提供丰富的测试数据、公开排行榜，并支持five-shot和zero-shot等多种评估方式，是优化中文语言模型性能的核心工具。

官网地址：https://github.com/haonan-li/CMMLU/

CMMLU的主要功能

排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，方便直观比较模型性能。
数据集：提供开发和测试数据，支持快速使用和评估。
预处理代码：提供提示生成方法，简化模型训练和测试流程。
评估工具：支持多种评估方式，便于研究者和开发者测试模型能力。

CMMLU的适用人群

人工智能研究人员：专注优化中文语言模型。
机器学习开发者：测试模型在特定中文任务上的表现。
教育科技企业：开发智能辅导或问答系统。
文化传播机构：推广中国文化知识。

CMMLU的应用场景

语言模型性能评估：测试和比较语言模型在中文多任务场景下的知识和推理能力，帮助优化模型架构。
智能辅导系统：开发智能辅导系统，为学生提供多学科的练习和学习建议，提升学习效果。
智能客服优化：评估模型在特定领域的知识理解能力，优化智能客服系统，提高客户服务质量。
文化知识传播：用CMMLU数据集开发文化问答系统，传播中国文化知识，促进文化传承。
医疗健康知识评估：评估语言模型在医学领域的知识理解能力，辅助开发医疗咨询工具，提供健康建议。

CMMLU的优势与特色

深度中文适配：涵盖中国特定答案（如交通规则），精准评估本土化能力。
多学科覆盖：67个主题从基础到专业，适合综合测试。
实用评估工具：提供的预处理和评估脚本降低使用门槛，助力快速上手。
开放排行榜：公开结果促进研究对比，推动模型迭代。

如何使用CMMLU

获取数据集

从GitHub下载：访问CMMLU GitHub页面，在data目录中找到开发和测试数据集。
通过HuggingFace获取：访问CMMLU HuggingFace数据集页面，直接加载CMMLU数据集。

准备测试环境

安装依赖：确保安装了必要的Python库，如transformers、datasets等。
克隆代码库：克隆CMMLU的GitHub仓库，获取测试代码和预处理工具。
git clone https://github.com/haonan-li/CMMLU.git
cd CMMLU

预处理数据

在src/mp_utils目录中，使用提供的脚本对数据进行预处理，生成适合模型输入的格式。
python src/mp_utils/preprocess.py

运行评估代码

选择模型：根据需要评估的语言模型，加载模型和tokenizer。
运行测试脚本：在script目录中，运行测试脚本，评估模型在不同任务上的表现。
python script/evaluate.py --model <model_name> --data_path <data_path>

提交测试结果

开源模型：直接提交拉取请求（PR），更新测试代码和结果。
未开放模型：将测试代码和结果发送到指定邮箱（如haonan.li@librai.tech），等待验证后更新到排行榜。

分析结果

在GitHub页面的排行榜部分，查看模型在不同任务上的表现，分析模型的优缺点。

CMMLU是评估中文语言模型知识的权威基准，适用于研究、教育、客服和文化传播等多个领域。访问其官网获取更多信息。

数据统计

暂无评论

暂无评论...

CMMLU

CMMLU是什么？

CMMLU的主要功能

CMMLU的适用人群

CMMLU的应用场景

CMMLU的优势与特色

如何使用CMMLU

获取数据集

准备测试环境

预处理数据

运行评估代码

提交测试结果

分析结果

数据统计

相关导航

LLMEval3

H2O EvalGPT

MMBench

SuperCLUE

FlagEval

LMArena

Open LLM Leaderboard

AGI-Eval

暂无评论