AGI-Eval：上海交通大学等顶尖高校联合打造的大模型评测社区与权威第三方评测平台

AI模型评测

AGI-Eval是由上海交通大学、同济大学、华东师范大学及DataWhale等顶尖高校与机构联合打造的大模型评测社区，以“评测助力，让AI成为人类更好的伙伴”为使命。平台通过一系列高质量的人类认知考试（如LSAT、中国高考、SAT、数学竞赛、律师资格考试等）评估基础模型的通用能力，整合中英文双语任务，提供业内大语言模型的综合能力得分排名，涵盖综合评测及各专项能力评测。平台还提供Data Studio数据工坊，拥有超过3万众包用户，已上线485个任务标签，数据总量超过32万条，支持用户自建评测集、高校私有数据集托管，并已开源内部评测框架。

访问官网

完全免费

在大模型技术飞速发展的今天，全球涌现出数百款AI模型，一个核心问题始终困扰着研究者和开发者：这些模型究竟孰优孰劣，它们与人类认知能力的差距到底有多大？为了解决这个痛点，上海交通大学、同济大学、华东师范大学及DataWhale等顶尖高校与机构联合推出了AGI-Eval——一个以“评测助力，让AI成为人类更好的伙伴”为使命的大模型评测社区。

AGI-Eval最独特的定位在于其专注于人类认知考试的评测范式。与传统的技术指标评测不同，AGI-Eval通过一系列高质量的官方入学考试、资格考试以及为人类参与者量身定制的高级竞赛来评估AI模型的通用能力。这些考试包括法学院入学考试（LSAT）、中国高考、美国SAT、数学竞赛以及律师资格考试等经典的人类选拔性测试。这种设计直接关联并衡量模型与人类决策、认知能力的契合度，从而揭示AI模型在现实生活中的适用性与有效性。为了更全面地评估模型的能力，AGI-Eval还整合了中英文双语任务，为模型提供更广泛的评估范围，确保评测结果能够反映模型在跨语言、跨文化场景下的真实表现。

作为独立的第三方评测机构，AGI-Eval在2025年产出了大量严谨、客观、深度的评测报告。根据其发布的年度报告精选，该平台对GPT-4o、DeepSeek、Qwen3、Claude、阶跃AI、豆包等主流模型进行了系统性评测。在GPT-4o文生图能力的专项评测中，AGI-Eval通过图文一致性、图像质量、常识推理和结构化生成等维度的系统性打分，得出结论：GPT-4o的文生图能力全面登顶，综合得分（4.41分）显著高于第二名Dreamina 2.1（4.01分），尤其在字符生成和图表绘制等结构化任务上表现突出。在实时语音交互产品的横评中，AGI-Eval组织了一场覆盖8大主流产品的双盲评测，通过1624条真实语音对话数据、480名真人用户的评测，发现国产AI阶跃AI（0.64分）与豆包（0.63分）在综合流畅度上超越了GPT-4o（0.60分）。

AGI-Eval在评测方法创新上也走在了行业前列。2025年11月，AGI-Eval正式开源了其内部评测框架，宗旨是“评测不是一套固定流程，而是一套可快速插拔的系统”。该框架基于插件化架构设计，支持单机、本地调试、多进程并行等多种运行模式，可根据机器资源自由调整并发。从数据处理到指标计算，每一个环节都可以被实现成插件，随时扩展、自由组合，不必修改主框架。同时，框架内置Web报告功能，支持指标统计、模型对比、错误样例查看等能力。为了让评测结果更具可复现性，AGI-Eval还专门微调了用于唯一答案类数据集的打分模型AGI-Eval-OA-Judge，该模型同样已开源。

AGI-Eval的Data Studio数据工坊是其生态体系中的核心亮点。这个活跃的数据协作平台已拥有超过3万众包用户，上线了485个任务标签，数据总量突破32万条。平台支持单条数据、扩写数据、Arena数据等多种收集方式，并实施机审+人审双重审核机制，确保数据质量。用户不仅可以浏览和使用公开评测集，还可以上传个人评测集，共建开源社区。对于高校和科研机构，AGI-Eval还提供私有数据集托管服务，满足更高级别的评测需求。

在视频理解这一前沿评测领域，AGI-Eval与UC Santa Cruz、UC Santa Barbara及微软研究团队合作，托管了全新的MMWorld Bench基准。这是一个专为评估多模态大模型“世界建模”能力而设计的评测集，涵盖艺术与体育、商业、科学、健康医学等7大领域、69个子领域，包含1910个高质量视频（平均时长102秒）和6627个问答对。与传统视频理解基准停留在“识别物体”的初级阶段不同，MMWorld首次要求模型具备解释现象、反事实思考、未来预测、领域专业知识、时间理解等高阶推理能力。评测结果显示，即使是当前最强的GPT-4o在该基准上也仅达到62.54%的整体准确率，且在艺术体育领域（47.87%）和具身任务（62.94%）上表现明显弱于商业领域（91.14%）。这一发现揭示了当前多模态模型在跨学科泛化和动态世界理解上的核心瓶颈。

AGI-Eval的学术创新还体现在其提出的交互式在线评测框架上。该团队推出的AMemGym是首个对话助手的交互式在线策略评测框架，旨在解决静态评测中普遍存在的“重用偏差”问题。研究发现，在静态评测中排名第4的配置，在实战交互中竟能跃升至第1位，而传统的RAG系统则可能因检索噪声问题出现排名下滑。AMemGym首创了“写入-读取-利用”三阶段诊断体系，让开发者能够精准定位记忆失败的原因——是信息未被存储、未被检索，还是被错误使用。这一研究成果已被投稿至ICLR 2026，标志着AGI-Eval在评测方法论研究上达到了国际前沿水平。

AGI-Eval还积极推动AI评测的标准化与国际化。平台与上海交大、美团联合推出了CATArena——一个基于五子棋与德州扑克策略博弈的AI竞技场，旨在通过竞技博弈评估AI的核心综合智能。评测结果显示，国产模型Qwen 3 Coder与GPT-5共同登顶，而通用能力著称的Claude系列未能进入前三。这证明了CATArena衡量的并非单纯的单步推理，而是包含了策略编码、迭代学习、博弈泛化在内的、更接近实战的综合智能。不论你是需要对比模型真实能力的开发者，希望进行模型质量控制的企业，还是从事AI评测研究的学者，这个由国内顶尖高校联合打造的评测社区，都值得成为你AI研究与决策中的权威参考工具。

如果你想对比更多同类型工具，也可以前往AI模型评测查看完整列表。