MMLU
大规模多任务语言理解基准:衡量AI模型通用知识能力
AGI-Eval是一个由上海交通大学、同济大学、华东师范大学及DataWhale等知名高校和机构联合推出的大模型评测社区。它以“评测助力,让AI成为人类更好的伙伴”为使命,致力于构建公正、可信、科学、全面的评测生态。平台专门评估基础模型在人类认知与问题解决任务中的通用能力,通过模拟考试场景衡量模型性能,帮助用户了解AI在现实应用中的有效性与适用性。
官网地址:agi-eval.cn
AGI-Eval基于通用评测方案,定期发布业内大语言模型的能力得分排名榜单。榜单覆盖综合能力及各项子能力评测,数据透明且权威,助力您深入了解每个模型的优缺点。通过更新频繁的榜单,您可以掌握最新模型动态,为项目找到最合适的AI解决方案。
平台推出人机协同评测比赛,引领用户深入模型评测领域。通过与AI大模型协作,不仅提升了技术发展,也加强了人与机器的互动评测方案,让评测过程更具实践价值。
这些评测集实现了自动评测与人工评测的完美结合,并引入高校大牛私有数据集,提升评测深度。
AGI-Eval拥有活跃的用户社群,汇聚3万+众包用户,回收高质量真实数据。数据类型多样,覆盖多维度、多领域的专业数据。平台支持多种数据收集方式,如单条数据、扩写数据和Arena数据等,满足不同评测需求。同时,通过机审与人工审核双重机制,确保数据质量可靠。
AGI-Eval面向AI研究人员、NLP算法开发者、企业技术决策者、学术机构学者以及数据科学爱好者。无论您是在筛选最优模型,还是需要可靠的数据支持,平台都能满足您的评测需求。
AGI-Eval凭借专业工具与开放生态,已成为AI评测领域的重要资源,助力您在实际应用中做出明智决策。
