优站集
  • 排行榜
  • 收录投稿
      • 未登录
        登录后即可体验更多功能
    • AI写作工具
    • AI办公提效
    • AI图像工具
    • AI视频工具
    • AI智能体
    • AI聊天助手
    • AI编程工具
    • AI开发平台
    • AI设计工具
    • AI音频工具
    • AI搜索引擎
    • AI学习网站
    • AI训练模型
    • AI模型测评
    • AI提示指令
    • AI内容检测
    未登录
    登录后即可体验更多功能

    AI模型测评

    共 15 篇网址
    AI模型测评是评估人工智能模型性能与效果的重要环节。本分类收录主流AI模型评测平台与测试工具,支持大模型对比、性能测试、基准评估等多种功能,帮助用户全面了解不同AI模型的能力与表现。无论是开发者选型还是技术研究,都可以通过这些AI模型测评工具快速获取可靠的数据参考,提升决策效率。
    AI工具AI聊天助手
    AI内容检测AI写作工具AI办公提效AI图像工具AI开发平台AI提示指令AI搜索引擎AI智能体AI模型测评AI编程工具AI视频工具AI训练模型AI设计工具AI音频工具AI学习网站
    排序
    发布更新浏览点赞
    PubMedQA

    PubMedQA

    生物医学研究问答模型及数据集排行榜平台。
    0140
    AI模型测评# PubMedQA医学问题# PubMed查询工具# 临床问题解答
    H2O EvalGPT

    H2O EvalGPT

    H2O.ai的Elo评级大模型评估工具。
    0120
    AI模型测评# AI evaluation platform# AI model testing# AI performance benchmark
    LLMEval3

    LLMEval3

    复旦大学NLP实验室发布的大模型权威评测基准平台。
    0140
    AI模型测评# AI评估工具# LLMEval3# 人工智能评估平台
    LMArena

    LMArena

    AI模型评估平台提供权威的性能测试与基准对比。
    0110
    AI模型测评# LMArena 下载# LMArena 注册# MMORPG 社区
    HELM

    HELM

    斯坦福大模型评测权威平台
    0130
    AI模型测评# HELM头盔品牌# HELM头盔官网# HELM安全帽
    MMBench

    MMBench

    全方位评测多模态大模型能力的专业平台。
    0110
    AI模型测评# AI benchmark comparison# computer vision benchmark# MMBench benchmark
    CMMLU

    CMMLU

    中文大模型综合性能评测标准平台。
    0130
    AI模型测评# AI知识测试# 中文大语言模型评测# 中文模型性能排名
    OpenCompass

    OpenCompass

    上海人工智能实验室大模型开放评测权威平台
    0100
    AI模型测评# AI模型评估# AI能力评估平台# OpenCompass评测
    AGI-Eval

    AGI-Eval

    AI大模型测评与交流的专业社区平台
    0410
    AI模型测评# AGI基准测试# AGI评估工具# AI能力测试平台
    SuperCLUE

    SuperCLUE

    中文通用大模型评测基准,提供权威性能对比。
    090
    AI模型测评# AI能力评估# 中文大模型测评# 中文语言模型对比
    FlagEval

    FlagEval

    FlagEval天秤智源研究院大模型评测平台。
    0130
    AI模型测评# AI 模型评测# FlagEval 排行榜# FlagEval 数据集
    C-Eval

    C-Eval

    中文基础模型评估套件,提供全面性能测试与基准。
    0120
    AI模型测评# C-Eval 评估# LLM性能测试# 中文通用AI评估
    Open LLM Leaderboard

    Open LLM Leaderboard

    Hugging Face开源大模型排行,权威测评工具。
    0120
    AI模型测评# best open source language models# hugging face leaderboard# large language model comparison
    MMLU

    MMLU

    大规模多任务语言理解基准:衡量AI模型通用知识能力
    0120
    AI模型测评# AI知识理解# 多任务数据集# 大规模知识问答
    MagicArena

    MagicArena

    字节视觉生成模型在线对战与评测平台。
    0130
    AI模型测评# MTG牌组构建# 万智牌竞技场攻略# 免费魔法风云会游戏
    没有了
    优站集
    关于优站集

    优站集是一个持续更新的实用工具网站导航平台,致力于为用户精选高质量的 AI 工具、办公资源和实用网站,减少寻找工具的时间成本。

    友链申请免责声明广告合作关于我们站点地图

    扫码加站长优站集
    扫码加站长
    扫码加微信优站集
    扫码加微信
    Copyright © 2026 优站集 黑ICP备2026000807号-1 由 OneNav 强力驱动 
    反馈
    让我们一起共建文明社区!您的反馈至关重要!
    网址
    网址文章软件书籍