为33家企业测过大模型的“方升”，是一个怎样的评测体系？原创

作者：金旺

如何识别大模型的能力强弱？

2023年，是大模型乘风直上的一年，也是诸侯混战的一年。

在百模大战中，亟需一套大模型评估体系、评测标准，来评估各类大模型的能力，尤其是在行业大模型正式进入到产业中，批量化落地之前，如何区分大模型的实战能力，就成了大家关注的问题。

中国信通院是从2022年开始开展大模型评测体系构建工作的，经过两年三次迭代，就在本周，大模型评测体系升级到了3.0版本，全新的“方升”大模型基准测试体系在12月24日正式对外发布。

两年三迭代，“方升”问世

2022年，中国信通院提出大模型评测体系1.0。

在大模型还没有火起来时，中国信通院聚焦于模型开发、模型能力两个维度，就研发过程中的工程技术能力和验证性评估的模型能力，展开了大模型评测体系构建工作。

到2023年，大模型作为人工智能技术发展主流方向成为共识时，中国信通院将大模型评测体系升级到了2.0版本，围绕模型开发、模型能力、模型运营、模型应用和模型可信五个维度，重点针对大模型落地中的工程化问题进一步开展了标准和评测工作。

据悉，2023年，中国信通院累计服务了33家企业，对60多项大模型产品和服务进行了测试，服务企业有华为、百度、腾讯、科大讯飞、360、昆仑万维、H3C、海尔等。

在这一年的测试过程中，中国信通院也发现了当时评测体系的一些不足，同时也从产业中获得了更多的需求反馈。例如，有厂商希望在应对具体行业或场景中的问题时，大模型可以给一个明确的反馈。

基于此，在进一步对模型能力量化评估基准体系不足之处补充后，中国信通院再次将大模型评测体系升级到了3.0版本。

据悉，中国信通院大模型评测体系3.0，也就是“方升”评测体系整体构建思路包括三个方面：

第一，围绕产业需求，解决应用效果评估的问题，通过测试驱动模型能力高效评估，例如解决大模型刷榜问题。

第二，围绕能力补齐，补齐量化评估结果、多维度细粒度的大模型评估、海量动态更新测试数据集。

第三，围绕方法落地，大模型基准测试问题挑战、先进的人工智能测试方法的问题，并以及面向重点领域提前布局。

为此，中国信通院围绕测试规范、方法创新、应用导向、高效测试几个方面，构建了方升大模型基准测试体系。

方升大模型基准测试体系解析

中国信通院最新发布的“方升”大模型基准测试体系，涵盖4个维度、15个能力域，40+能力项。

针对指标体系，“方升”大模型基准测试体系主要从基准测试能力、基准测试数据、基准测试方法、基准测试平台四个方面进行构建。

例如，针对大模型基准测试能力，这一基准测试体系主要从通用能力、行业能力、应用能力、安全能力四个维度，来评估大模型在不同场景中的能力表现。

为了解决评测数据集难管理、大模型测试“刷榜”、测试数据质量难评估、测试效率低等问题，“方升”测试体系还自创提出了自适应动态测试方法，保证大模型基准测试全面、客观、高效。

具体而言，中国信通院有大量未开源的数据集，在测试过程中，通过固定的抽取规则抽取相关数据集，保证每个大模型测试过程中抽取不同题目的比例相同，又能够保证是一个“闭卷考试”。从而真正实现对大模型治理水平的一个公平、公正的测试。

针对这其中难度较大的测试数据集的构建，“方升”测试体系目前测试数据集涵盖领域包括金融、医疗、教育、法律、政府、电信、软件工程等多个领域，整体测试数据集超过100个，测试题目数超过100万道。

针对专业领域的数据集，中国信通院是与行业中具有相关储备的企业与高校共同合作构建的。

例如，中国信通院与北京市政府服务管理局共建了国内政务行业评测数据集，与东方财富共建了金融行业评测数据集，与甲骨易共建了幻觉评测数据集，与天津大学共建了道德伦理、角色扮演、AGENT的评测数据集。

目前，“方升”测试体系在实验室内部测试，支持两类测试：

第一类，选择性测试，即选择某个特定的评测维度，抽取相关数据集评测大模型能力，最终数据两个大模型的雷达图。

第二类，全面性测试，即从整体题库中按比例和规则抽取一定量的数据集，全面评测摸个大模型的能力，最终根据测试结果确定大模型后续优化方向。

“方升”测试体系还支持针对业务场景的测试。

例如，2023年7月由北京市政务服务中心牵头，委托中国信通院作为第三方测评机构，依托“方升”体系测评多家技术厂商政务大模型综合服务能力，验证在真实政务问答业务场景中大模型的应用效果。

2023年是大模型进入全球视野的一年，但更多行业专家预测，2024年才是大模型规模化商业落地的一年，在此之前，如何构建好一套大模型评测体系就成了一个亟需解决的问题。

中国信通院在这一年年底发布的方升大模型基准测试体系，就显得来得恰逢其时。

来源：至顶网软件与服务频道

0赞

好文章，需要你的鼓励

为33家企业测过大模型的“方升”，是一个怎样的评测体系？ 原创

来源：至顶网软件与服务频道

2023

12/29

10:35

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

DeepSeek之后，中国人形机器人以“群体智能”再次掀起技术浪潮

QwQ-32B模型成本地部署福音，通义App可第一时间体验

入局智驾的印奇，看到了怎样的未来？

成本打到6万以下，手把手教你用4路锐炫显卡+至强W跑DeepSeek

千里科技亮相吉利AI智能科技发布会，共启“AI+车”新纪元

天翼云CPU实例部署DeepSeek-R1模型最佳实践

京东云与宝德计算战略签约，共绘分布式存储与智算新未来

全球AI顶会AAAI 2025 在美开幕，产学研联手的“中国队”表现亮眼

蚂蚁数科提出创新跨域微调框架ScaleOT入选全球AI顶会AAAI 2025

国产软件再破记录！阿里云PolarDB数据库登顶TPC-C双榜第一

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

为33家企业测过大模型的“方升”，是一个怎样的评测体系？原创

打造Token极致性价比新华三震撼亮相2026世界人工智能大会