OpenCompass:上海人工智能实验室打造的开源大模型全方位评测体系与司南开放平台
OpenCompass(司南)是由上海人工智能实验室推出的开源开放大模型评测体系,提供一站式大语言模型、多模态模型及科学智能模型评测服务。平台支持300+评测数据集、200+大语言模型、150+多模态模型的一键式分布式评测,涵盖知识、语言、推理、理解、数学、代码生成、智能体决策等八大能力维度,并扩展至科学智能、AI计算系统、具身智能、安全可信及垂类行业应用等六大领域,形成“六位一体”的全景评估范式。

大型语言模型技术快速演进的今天,如何科学、公正地评估模型能力,已经成为学术界和工业界共同面临的重大挑战。针对这一需求,上海人工智能实验室推出了OpenCompass(司南)——一个开源开放的大模型评测体系,旨在为行业提供公平、可复现的一站式评测服务。这个项目的GitHub仓库已获得超过10,000星标,累计支持200+大语言模型和150+多模态模型的评测,覆盖300+评测数据集,成为国内最具影响力的大模型评测平台之一。
OpenCompass最核心的优势在于其“六位一体”的全景评估范式。从最初的大模型评测起步,平台现已扩展至科学智能(AI for Science)、AI计算系统、具身智能、安全可信及垂类行业应用等六大领域,覆盖从底层算力到上层智能的全链路关键能力。在评测维度上,OpenCompass 2.0在原有五大维度(学科知识、语言能力、常识推理、逻辑理解、多模态交互)的基础上,新增了数学计算、代码生成、智能体决策三大维度。这种多维交叉的设计意味着,一个模型即使在某项任务上表现优异,也可能因为代码生成能力不足或数学推理薄弱而在整体评估中暴露短板。
在技术架构和生态建设方面,OpenCompass构建了完整的工具链闭环。其2.0版本推出了三大核心组件:CompassKit提供数据污染检测、长文本评估等10+专用工具;CompassHub收录了500+预训练模型的开源仓库;CompassRank支持按领域、模型规模等多维度排序的动态榜单系统。以代码评测为例,1.0版本采用简单的统一评分模型,而2.0版本引入了分层评估机制,能够从语法正确性、逻辑复杂度、运行时性能等多个细粒度指标对代码生成能力进行系统评估。这种精细化评估对于代码生成工具的选型和优化具有极高的实用价值。
在评测方法创新上,OpenCompass着力解决数据污染和长文本评估两大核心难题。针对数据污染问题,OpenCompass 2.0实现了自动化检测逻辑,能够识别评测数据是否与模型训练集存在重叠,避免“开卷考试”式的虚假高分。针对长文本评测场景(如万字报告的总结分析),平台引入了滑动窗口机制与注意力权重分析,有效解决了传统评测方法在处理超长文本时的信息丢失问题。此外,2026年初上线的科学智能评测体系包含文献检索、假设生成、实验执行及结果分析等科研全流程评测模块,其推出的科学通用智能评估基准SGI-Bench联合了十大科学领域近百位科学家共同构建,结果显示科学专业推理能力仍是当前前沿模型的主要短板。
OpenCompass的开源属性和行业影响力使其成为大模型评测的“基础设施”。平台采用Apache 2.0开源协议,支持二次开发与社区贡献。作为主要成员,OpenCompass参与了国家标准《人工智能大模型第2部分:评测指标与方法》 的制定,并联合百度、阿里、字节跳动、腾讯、中国电信、中国移动等20余家主流企业共建评测榜单。其工具链已集成至阿里云ModeScope、百度云在线评测服务等产品中,持续赋能大模型产业生态。在垂直领域方面,OpenCompass还携手南京大学、同济大学等机构,共同打造法律、土木工程等垂直领域评测基准。值得一提的是,平台还上线了覆盖金融、法律等20+垂直场景的评测体系,提供针对性的评测数据集和评估指标。
对于不同层级的用户,OpenCompass的分布式评测架构提供了灵活高效的评测体验。平台基于Ray框架实现横向扩展,支持千卡级并发评测,仅需几小时即可完成十亿级模型的全面评估。用户可以通过简单的命令行工具安装和使用:
git clone https://github.com/open-compass/opencompass后执行pip install -e .即可完成安装。
配置文件采用Python格式,用户只需定义models和datasets字段,即可一键运行评测任务,同时所有实验结果会自动记录并生成可视化报告。不论你是需要验证自研模型能力的开发者,还是希望在多款模型中进行选型的技术负责人,抑或是从事AI安全与伦理研究的学者,这个由上海人工智能实验室领衔打造的开源评测体系,都值得成为你工具箱中的标准配置。
如果你想对比更多同类型工具,也可以前往AI模型评测查看完整列表。