2023年,是大模型乘风直上的一年,也是诸侯混战的一年。
在百模大战中,亟需一套大模型评估体系、评测标准,来评估各类大模型的能力,尤其是在行业大模型正式进入到产业中,批量化落地之前,如何区分大模型的实战能力,就成了大家关注的问题。
中国信通院是从2022年开始开展大模型评测体系构建工作的,经过两年三次迭代,就在本周,大模型评测体系升级到了3.0版本,全新的“方升”大模型基准测试体系在12月24日正式对外发布。
两年三迭代,“方升”问世
2022年,中国信通院提出大模型评测体系1.0。
在大模型还没有火起来时,中国信通院聚焦于模型开发、模型能力两个维度,就研发过程中的工程技术能力和验证性评估的模型能力,展开了大模型评测体系构建工作。
到2023年,大模型作为人工智能技术发展主流方向成为共识时,中国信通院将大模型评测体系升级到了2.0版本,围绕模型开发、模型能力、模型运营、模型应用和模型可信五个维度,重点针对大模型落地中的工程化问题进一步开展了标准和评测工作。
据悉,2023年,中国信通院累计服务了33家企业,对60多项大模型产品和服务进行了测试,服务企业有华为、百度、腾讯、科大讯飞、360、昆仑万维、H3C、海尔等。
在这一年的测试过程中,中国信通院也发现了当时评测体系的一些不足,同时也从产业中获得了更多的需求反馈。例如,有厂商希望在应对具体行业或场景中的问题时,大模型可以给一个明确的反馈。
基于此,在进一步对模型能力量化评估基准体系不足之处补充后,中国信通院再次将大模型评测体系升级到了3.0版本。
据悉,中国信通院大模型评测体系3.0,也就是“方升”评测体系整体构建思路包括三个方面:
第一,围绕产业需求,解决应用效果评估的问题,通过测试驱动模型能力高效评估,例如解决大模型刷榜问题。
第二,围绕能力补齐,补齐量化评估结果、多维度细粒度的大模型评估、海量动态更新测试数据集。
第三,围绕方法落地,大模型基准测试问题挑战、先进的人工智能测试方法的问题,并以及面向重点领域提前布局。
为此,中国信通院围绕测试规范、方法创新、应用导向、高效测试几个方面,构建了方升大模型基准测试体系。
方升大模型基准测试体系解析
中国信通院最新发布的“方升”大模型基准测试体系,涵盖4个维度、15个能力域,40+能力项。
针对指标体系,“方升”大模型基准测试体系主要从基准测试能力、基准测试数据、基准测试方法、基准测试平台四个方面进行构建。
例如,针对大模型基准测试能力,这一基准测试体系主要从通用能力、行业能力、应用能力、安全能力四个维度,来评估大模型在不同场景中的能力表现。
为了解决评测数据集难管理、大模型测试“刷榜”、测试数据质量难评估、测试效率低等问题,“方升”测试体系还自创提出了自适应动态测试方法,保证大模型基准测试全面、客观、高效。
具体而言,中国信通院有大量未开源的数据集,在测试过程中,通过固定的抽取规则抽取相关数据集,保证每个大模型测试过程中抽取不同题目的比例相同,又能够保证是一个“闭卷考试”。从而真正实现对大模型治理水平的一个公平、公正的测试。
针对这其中难度较大的测试数据集的构建,“方升”测试体系目前测试数据集涵盖领域包括金融、医疗、教育、法律、政府、电信、软件工程等多个领域,整体测试数据集超过100个,测试题目数超过100万道。
针对专业领域的数据集,中国信通院是与行业中具有相关储备的企业与高校共同合作构建的。
例如,中国信通院与北京市政府服务管理局共建了国内政务行业评测数据集,与东方财富共建了金融行业评测数据集,与甲骨易共建了幻觉评测数据集,与天津大学共建了道德伦理、角色扮演、AGENT的评测数据集。
目前,“方升”测试体系在实验室内部测试,支持两类测试:
第一类,选择性测试,即选择某个特定的评测维度,抽取相关数据集评测大模型能力,最终数据两个大模型的雷达图。
第二类,全面性测试,即从整体题库中按比例和规则抽取一定量的数据集,全面评测摸个大模型的能力,最终根据测试结果确定大模型后续优化方向。
“方升”测试体系还支持针对业务场景的测试。
例如,2023年7月由北京市政务服务中心牵头,委托中国信通院作为第三方测评机构,依托“方升”体系测评多家技术厂商政务大模型综合服务能力,验证在真实政务问答业务场景中大模型的应用效果。
2023年是大模型进入全球视野的一年,但更多行业专家预测,2024年才是大模型规模化商业落地的一年,在此之前,如何构建好一套大模型评测体系就成了一个亟需解决的问题。
中国信通院在这一年年底发布的方升大模型基准测试体系,就显得来得恰逢其时。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。