AI模型评测

实测对比各类 AI 模型,客观评测性能与效果

共 6 个工具

AGI-Eval:上海交通大学等顶尖高校联合打造的大模型评测社区与权威第三方评测平台

AGI-Eval:上海交通大学等顶尖高校联合打造的大模型评测社区与权威第三方评测平台

AGI-Eval是由上海交通大学、同济大学、华东师范大学及DataWhale等顶尖高校与机构联合打造的大模型评测社区,以“评测助力,让AI成为人类更好的伙伴”为使命。平台通过一系列高质量的人类认知考试(如LSAT、中国高考、SAT、数学竞赛、律师资格考试等)评估基础模型的通用能力,整合中英文双语任务,提供业内大语言模型的综合能力得分排名,涵盖综合评测及各专项能力评测。平台还提供Data Studio数据工坊,拥有超过3万众包用户,已上线485个任务标签,数据总量超过32万条,支持用户自建评测集、高校私有数据集托管,并已开源内部评测框架。

AI模型评测 免费
OpenCompass:上海人工智能实验室打造的开源大模型全方位评测体系与司南开放平台

OpenCompass:上海人工智能实验室打造的开源大模型全方位评测体系与司南开放平台

OpenCompass(司南)是由上海人工智能实验室推出的开源开放大模型评测体系,提供一站式大语言模型、多模态模型及科学智能模型评测服务。平台支持300+评测数据集、200+大语言模型、150+多模态模型的一键式分布式评测,涵盖知识、语言、推理、理解、数学、代码生成、智能体决策等八大能力维度,并扩展至科学智能、AI计算系统、具身智能、安全可信及垂类行业应用等六大领域,形成“六位一体”的全景评估范式。

AI模型评测 免费
FlagEval:智源研究院打造的国际权威大模型评测体系与天秤开放平台

FlagEval:智源研究院打造的国际权威大模型评测体系与天秤开放平台

FlagEval(天秤)是由北京智源人工智能研究院发起的大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准与方法。平台创新构建了“能力-任务-指标”三维评测框架,覆盖自然语言处理、计算机视觉、音频及多模态四大场景,支持语言大模型评测、多语言文图大模型评测、文图生成评测等工具。目前已集成600+评测子维度、84,433道评测题目,并提供“天秤角斗场”模型对战功能,支持纯文本、图文理解、文生图、文生视频四种模态的匿名对比评测。

AI模型评测 免费
MMLU:大语言模型多任务语言理解能力的国际权威评测基准

MMLU:大语言模型多任务语言理解能力的国际权威评测基准

MMLU(Massive Multitask Language Understanding)是由加州大学伯克利分校等机构联合发布的大规模多任务语言理解评测数据集,涵盖57个学科领域,包括人文科学、社会科学、自然科学、工程技术以及医学、法律、数学等专业领域,题目难度覆盖从初等知识到高阶专业知识。测试集包含约14,000道四选一选择题,用于评估大语言模型在零样本和少样本场景下的知识储备与推理能力,是目前全球引用率最高的大模型评测基准之一。

AI模型评测 国外 免费
HELM:斯坦福大学领衔的大语言模型全面评估框架与高影响力行业标准

HELM:斯坦福大学领衔的大语言模型全面评估框架与高影响力行业标准

HELM(Holistic Evaluation of Language Models)是由斯坦福大学基础模型研究中心CRFM发起的全面语言模型评估框架,旨在通过多维度、标准化、可复现的方式对大语言模型进行系统性评测。HELM覆盖核心场景(如问答、信息检索、摘要)与核心指标(如准确性、鲁棒性、公平性、偏见、毒性、效率),支持用户自定义评估管道,并提供公开可比的模型排行榜,累计评测模型数十款,被学术界和工业界广泛采纳为标准评估基准

AI模型评测 国外 免费
CMMLU:权威中文大语言模型知识理解能力评测基准与67学科全覆盖测试集

CMMLU:权威中文大语言模型知识理解能力评测基准与67学科全覆盖测试集

CMMLU(Chinese Massive Multitask Language Understanding)是一个专门针对中文语境设计的大规模多任务语言理解评测基准,涵盖从初等到高等专业级别的67个学科主题,包含自然科学、社会科学、工程技术、人文学科以及具有中国文化特色的内容(如中国驾驶规则等)。测试集包含11,582道四选一选择题,每道题均提供四个选项且仅有一个正确答案,用于评估大语言模型在中文语境下的知识掌握程度和推理能力。

AI模型评测 免费