《通用大模型评测体系2.0》正式发布,认知智能全国重点实验室牵头制定
6月24日,认知智能全国重点实验室牵头,联合中国科学院文献情报中心、中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟发布了《通用大模型评测体系2.0》(以下简称“评测体系2.0”)。
这是该评测体系自2023年6月发布以来的首次重大升级。“评测体系2.0”以技术迭代与产业需求为导向,在评测维度扩展、专项能力深化、评测方法优化等方面实现全面突破,为中国大模型产业发展提供更加科学的标准化支撑。
评测任务扩展至1186项 全模态覆盖引领行业前沿
相比1.0版本的7大能力维度、71类任务类型、481个细分任务,“评测体系2.0”实现了全方位升级。

在任务规模上,“评测体系2.0”涵盖8大类、1186项细分任务,任务规模扩大至近2.5倍;在模态能力方面,从原有的文本/图片单一模态扩展至文本、图片、语音、视频全模态覆盖,新增了多模理解、多模生成、语音交互等能力评测;在语言支持上,从中文为主扩展至中英文并重,支持多语言评测,基础通用认知能力全面支持中英文双语评测。
专项评测精准对接行业需求 赋能行业价值验证
“评测体系 2.0”以行业场景需求为锚点,新增教育、科研等重点专项评测领域,构建起技术与产业深度融合的价值验证桥梁:
面向教育行业,覆盖K12教育领域的多学科知识能力测评,紧贴中国国情的教育体系,从智能备课内容生成的教学场景到个性化学习路径规划的辅学场景,通过标准化评测对模型进行能力验证,驱动大模型在因材施教、智能辅导、教学质量评估等核心应用场景的产业化落地。
面向科研行业,AI4S(AI for Science)专项涵盖了物理、数学、化学、地球与空间科学、生命科学、信息与智能科学等6大科学领域,覆盖98项细分任务场景,评测结果对大模型在科研辅助、假设生成、数据分析等高价值应用中的能力提升具有较高的参考意义。以文献分析场景为例,评测重点验证摘要、总结、翻译、理解、问答等核心能力,通过评测牵引,推动层次化综述生成、动态检索增强知识库问答、多维度论文预审、自适应专业翻译等关键技术突破。
科学评测方法 确保评测标准权威性
为确保评测质量,“评测体系2.0”建立严格的数据构建准则,在确保数据高质量的准则下进行构建:通用任务测试采用来源、题型、类别等多样性采样机制,确保数据真实性和多样性;专项任务测试数据在规范性、可用性、可解释性、合规性4个方面15个子维度进行严格质量把控,并定期刷新(如季度刷新20%)。
在评测方法上,采用“人工+自动”结合模式,以多人主观双盲评测为主,JudgeModel(判断模型)为辅;运用“1+4”评价体系,包含总体评分及相关度、连贯度、完整度、有效度四类分项指标。在安全层面,参照《生成式人工智能服务管理暂行办法》设计2大类16项风险指标,从内容安全、指令安全等维度构建安全评测体系。
引领产业转型 推动标准化建设发展
回顾发展历程,《通用认知智能大模型评测体系》于2023 年6月首次发布,旨在建立多任务客观评测体系,引导行业健康发展。两年来,中国大模型技术快速发展,从“百模大战”到“头部玩家凸显”,涌现出多个具有国际竞争力的模型,产业应用日趋成熟。
今年的《政府工作报告》提出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用。随着大模型能力快速提升,基础benchmark不断刷新高度,测评体系同样需要与时俱进。在注重大模型通用能力提升的同时,行业更需要在专项能力落地上开展深度评测。
此次“评测体系2.0”的升级,通过“全模态+多语言+重点专项”的评测能力进化,将进一步推动中国大模型从技术竞争转向产业价值创造。未来,希望与各个单位共同持续优化评测体系,促进大模型技术及产业健康发展,为全球AI 标准化发展贡献中国方案。