CMMLU是什么?
CMMLU是一个综合性中文评估基准,专门用于衡量语言模型在中文语境中的知识与推理能力,涵盖67个学科主题,从基础科学到高级专业领域。它包含需要计算的自然科学、注重知识的人文与社会科学,以及中国特有的生活常识(如驾驶规则)。CMMLU提供丰富的测试数据、公开排行榜,并支持five-shot和zero-shot等多种评估方式,是优化中文语言模型性能的核心工具。
官网地址:https://github.com/haonan-li/CMMLU/
CMMLU的主要功能
- 排行榜:展示不同语言模型在five-shot和zero-shot测试下的表现,方便直观比较模型性能。
- 数据集:提供开发和测试数据,支持快速使用和评估。
- 预处理代码:提供提示生成方法,简化模型训练和测试流程。
- 评估工具:支持多种评估方式,便于研究者和开发者测试模型能力。
CMMLU的适用人群
- 人工智能研究人员:专注优化中文语言模型。
- 机器学习开发者:测试模型在特定中文任务上的表现。
- 教育科技企业:开发智能辅导或问答系统。
- 文化传播机构:推广中国文化知识。
CMMLU的应用场景
- 语言模型性能评估:测试和比较语言模型在中文多任务场景下的知识和推理能力,帮助优化模型架构。
- 智能辅导系统:开发智能辅导系统,为学生提供多学科的练习和学习建议,提升学习效果。
- 智能客服优化:评估模型在特定领域的知识理解能力,优化智能客服系统,提高客户服务质量。
- 文化知识传播:用CMMLU数据集开发文化问答系统,传播中国文化知识,促进文化传承。
- 医疗健康知识评估:评估语言模型在医学领域的知识理解能力,辅助开发医疗咨询工具,提供健康建议。
CMMLU的优势与特色
- 深度中文适配:涵盖中国特定答案(如交通规则),精准评估本土化能力。
- 多学科覆盖:67个主题从基础到专业,适合综合测试。
- 实用评估工具:提供的预处理和评估脚本降低使用门槛,助力快速上手。
- 开放排行榜:公开结果促进研究对比,推动模型迭代。
如何使用CMMLU
获取数据集
- 从GitHub下载:访问CMMLU GitHub页面,在data目录中找到开发和测试数据集。
- 通过HuggingFace获取:访问CMMLU HuggingFace数据集页面,直接加载CMMLU数据集。
准备测试环境
- 安装依赖:确保安装了必要的Python库,如transformers、datasets等。
- 克隆代码库:克隆CMMLU的GitHub仓库,获取测试代码和预处理工具。
git clone https://github.com/haonan-li/CMMLU.git
cd CMMLU
预处理数据
在src/mp_utils目录中,使用提供的脚本对数据进行预处理,生成适合模型输入的格式。
python src/mp_utils/preprocess.py
运行评估代码
- 选择模型:根据需要评估的语言模型,加载模型和tokenizer。
- 运行测试脚本:在script目录中,运行测试脚本,评估模型在不同任务上的表现。
python script/evaluate.py --model <model_name> --data_path <data_path>
提交测试结果
- 开源模型:直接提交拉取请求(PR),更新测试代码和结果。
- 未开放模型:将测试代码和结果发送到指定邮箱(如haonan.li@librai.tech),等待验证后更新到排行榜。
分析结果
在GitHub页面的排行榜部分,查看模型在不同任务上的表现,分析模型的优缺点。
CMMLU是评估中文语言模型知识的权威基准,适用于研究、教育、客服和文化传播等多个领域。访问其官网获取更多信息。