2023年,是大模型乘风直上的一年,也是诸侯混战的一年。
在百模大战中,亟需一套大模型评估体系、评测标准,来评估各类大模型的能力,尤其是在行业大模型正式进入到产业中,批量化落地之前,如何区分大模型的实战能力,就成了大家关注的问题。
中国信通院是从2022年开始开展大模型评测体系构建工作的,经过两年三次迭代,就在本周,大模型评测体系升级到了3.0版本,全新的“方升”大模型基准测试体系在12月24日正式对外发布。
两年三迭代,“方升”问世
2022年,中国信通院提出大模型评测体系1.0。
在大模型还没有火起来时,中国信通院聚焦于模型开发、模型能力两个维度,就研发过程中的工程技术能力和验证性评估的模型能力,展开了大模型评测体系构建工作。
到2023年,大模型作为人工智能技术发展主流方向成为共识时,中国信通院将大模型评测体系升级到了2.0版本,围绕模型开发、模型能力、模型运营、模型应用和模型可信五个维度,重点针对大模型落地中的工程化问题进一步开展了标准和评测工作。
据悉,2023年,中国信通院累计服务了33家企业,对60多项大模型产品和服务进行了测试,服务企业有华为、百度、腾讯、科大讯飞、360、昆仑万维、H3C、海尔等。
在这一年的测试过程中,中国信通院也发现了当时评测体系的一些不足,同时也从产业中获得了更多的需求反馈。例如,有厂商希望在应对具体行业或场景中的问题时,大模型可以给一个明确的反馈。
基于此,在进一步对模型能力量化评估基准体系不足之处补充后,中国信通院再次将大模型评测体系升级到了3.0版本。
据悉,中国信通院大模型评测体系3.0,也就是“方升”评测体系整体构建思路包括三个方面:
第一,围绕产业需求,解决应用效果评估的问题,通过测试驱动模型能力高效评估,例如解决大模型刷榜问题。
第二,围绕能力补齐,补齐量化评估结果、多维度细粒度的大模型评估、海量动态更新测试数据集。
第三,围绕方法落地,大模型基准测试问题挑战、先进的人工智能测试方法的问题,并以及面向重点领域提前布局。
为此,中国信通院围绕测试规范、方法创新、应用导向、高效测试几个方面,构建了方升大模型基准测试体系。
方升大模型基准测试体系解析
中国信通院最新发布的“方升”大模型基准测试体系,涵盖4个维度、15个能力域,40+能力项。
针对指标体系,“方升”大模型基准测试体系主要从基准测试能力、基准测试数据、基准测试方法、基准测试平台四个方面进行构建。
例如,针对大模型基准测试能力,这一基准测试体系主要从通用能力、行业能力、应用能力、安全能力四个维度,来评估大模型在不同场景中的能力表现。
为了解决评测数据集难管理、大模型测试“刷榜”、测试数据质量难评估、测试效率低等问题,“方升”测试体系还自创提出了自适应动态测试方法,保证大模型基准测试全面、客观、高效。
具体而言,中国信通院有大量未开源的数据集,在测试过程中,通过固定的抽取规则抽取相关数据集,保证每个大模型测试过程中抽取不同题目的比例相同,又能够保证是一个“闭卷考试”。从而真正实现对大模型治理水平的一个公平、公正的测试。
针对这其中难度较大的测试数据集的构建,“方升”测试体系目前测试数据集涵盖领域包括金融、医疗、教育、法律、政府、电信、软件工程等多个领域,整体测试数据集超过100个,测试题目数超过100万道。
针对专业领域的数据集,中国信通院是与行业中具有相关储备的企业与高校共同合作构建的。
例如,中国信通院与北京市政府服务管理局共建了国内政务行业评测数据集,与东方财富共建了金融行业评测数据集,与甲骨易共建了幻觉评测数据集,与天津大学共建了道德伦理、角色扮演、AGENT的评测数据集。
目前,“方升”测试体系在实验室内部测试,支持两类测试:
第一类,选择性测试,即选择某个特定的评测维度,抽取相关数据集评测大模型能力,最终数据两个大模型的雷达图。
第二类,全面性测试,即从整体题库中按比例和规则抽取一定量的数据集,全面评测摸个大模型的能力,最终根据测试结果确定大模型后续优化方向。
“方升”测试体系还支持针对业务场景的测试。
例如,2023年7月由北京市政务服务中心牵头,委托中国信通院作为第三方测评机构,依托“方升”体系测评多家技术厂商政务大模型综合服务能力,验证在真实政务问答业务场景中大模型的应用效果。
2023年是大模型进入全球视野的一年,但更多行业专家预测,2024年才是大模型规模化商业落地的一年,在此之前,如何构建好一套大模型评测体系就成了一个亟需解决的问题。
中国信通院在这一年年底发布的方升大模型基准测试体系,就显得来得恰逢其时。
好文章,需要你的鼓励
Meta宣布为Facebook Dating推出AI聊天机器人助手,帮助用户找到更匹配的对象。该AI可根据用户需求推荐特定类型的匹配者,并协助优化个人资料。同时推出Meet Cute功能,每周提供算法选择的"惊喜匹配"。尽管18-29岁用户匹配数同比增长10%,但相比Tinder的5000万日活用户仍有差距。AI功能已成为约会应用标配,Match Group等竞争对手也在大力投资AI技术。
字节跳动团队提出RewardDance框架,首次系统性解决视觉生成中的奖励模型扩展问题。该框架通过将奖励预测转为生成式任务,并将模型规模扩展至260亿参数,同时集成任务指令、参考样例和推理能力,有效解决了"奖励作弊"问题。实验显示,在文本生成图像任务中质量提升10.7分,视频生成性能改善49%,达到行业领先水平,为AI视觉创作提供了更强大可靠的技术基础。
Neo4j认为已找到让生成式AI访问图数据库记录的方法。图数据库专注于数据点之间的关系建模和查询,在欺诈检测、推荐引擎等场景中表现出色。2024年4月,ISO批准了图查询语言GQL标准,Neo4j的Cypher查询语言完全符合该标准。现代工具提供拖拽式工作流程,GenAI可作为自然语言接口,将用户请求转换为Cypher查询。
ByteDance团队开发的Mini-o3系统通过深度多轮推理突破了传统AI视觉理解的局限。该系统能像人类侦探般进行几十轮的视觉探索,在困难的视觉搜索任务上准确率达48%,相比现有模型提升显著。核心创新包括挑战性的Visual Probe数据集、多样化推理策略训练和突破性的过轮掩码技术,实现了测试时思考轮数的自然扩展。