全球NLP最难榜单刷新：追一科技超越Facebook跃居第二

近日，自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一，中国AI创业公司追一科技AI Lab团队超越Facebook AI，跃居榜单第二。

至顶网软件与服务频道消息：近日，自然语言处理领域权威数据集SuperGLUE最新榜单排名更新。Google预训练模型T5保持第一，中国AI创业公司追一科技AI Lab团队超越Facebook AI，跃居榜单第二。值得注意的是，相比谷歌T5等超大规模研究型模型，追一此次登榜的RoBERTa-mtl-adv模型在商业化能力也非常强劲，相关技术已经落地到追一科技的AI数字员工产品线上，持续赋能银行、保险、证券、零售、地产、能源，教育，互联网等多个行业。

图片1.jpg

追一科技跃居SuperGLUE测试榜第二

SuperGLUE(Super General Language Understanding Evaluation)是当下NLP领域难度最大，权威性最高，含金量最足的测评标准之一，由纽约大学、华盛顿大学以及谷歌旗下的DeepMind联合Facebook作为主要发起人推出，最大程度涵盖了现实生活中可能遇到的不同类型的NLP任务，旨在更真实地反映当前最前沿的NLP技术可以达到的认知智能水平。

追一科技在为企业提供智能交互服务的过程中，技术和应用互相驱动，将实际商业化应用中总结出的多任务学习、对抗训练、知识蒸馏等技术手段和经验融入到参赛模型中，并在SuperGLUE测评数据集上拿到第二的成绩。

除去作为参照的人类水平，目前排名榜单第一的是Google的T5模型。从学术研究看，T5模型达到了目前“实验室智能”的最好水平，但如果考虑商用，T5需要耗费大量的算力，且模型自身体积过于庞大，目前还不能落地到实际业务场景中，缺少实际的商业应用价值。

而追一科技通过多任务学习、对抗训练以及知识蒸馏的方式，使得RoBERTa-mtl-adv模型大小合理，效果仅次于Google的T5。同时，相关技术也落地到了追一科技AI数字员工的产品线上。就SuperGLUE排名而言，可以说追一科技的RoBERTa-mtl-adv模型在目前全球具有实际落地能力的NLP模型中效果最好，排名最高。

“学霸”模型的商业化能力

SuperGLUE测试项目并非是“花拳绣腿”，而是实实在在考验模型通用能力的“铁人三项”;参加SuperGLUE也并非只是为了刷新评分，更重要的是检验当前技术能否很好地落地到实际应用场景中去。

SuperGLUE覆盖了问答、推断、语义理解、常识判断等自然语言理解维度，是人机智能交互过程中的核心环节，在具体的业务场景中都有很重要的应用价值。追一科技此次参赛模型的相关NLP技术已经被成熟运用于到自主研发的全套AI数字员工产品线上，广泛服务于银行、保险、泛互联网、地产、政企等多个行业的标杆客户。例如，在追一科技的智能在线机器人Bot中就融入了多轮问答技术、语义检索、机器阅读理解技术等NLP技术，能准确识别用户意图，满足用户需求。

口说无凭，接下来就结合SuperGLUE中的任务与Bot的具体案例，一探虚实。

单/多轮问答技术是指机器人和用户之间一问一答，实现多轮对话的过程。例如下面这个智能在线机器人Bot服务餐饮行业的场景：

图片2.jpg

智能在线机器人Bot不仅可以从对话中准确识别出地点，人数等信息，还能进一步追问用户未给出的“用餐时间”的信息，满足客户的需求。而传统的客服机器人并不会对未给出的潜在信息做出反应。

机器阅读理解技术在于机器人去“用力”理解文档中内容的意思，从而根据用户需求输出相应的结果。例如在金融保险领域会涉及到大量保险业务文档的修订、新增等情况。在面对客户时，即使是富有经验的客户经理，往往也很难迅速结合所有新增的文档内容进行有效回答。这时，定制了阅读理解技术的智能在线机器人Bot就又可以发挥作用了——可以实时帮助业务人员，针对相关问题从新文档中提取出答案，解决问题，降低出错的概率。

自然语言推断任务中“文本蕴含”是常出现的形式，在实际用语中非常的普遍，参考下面这个银行领域的例子：

图片3.jpg

因为白金信用卡属于信用卡，因此“我的白金信用卡需要挂失”蕴含在“我的信用卡需要挂失”中，因此，智能在线机器人Bot 在回答用户时只需准确指引用户如何挂失信用卡即可。

指代消解在人的交流过程中非常常见，在表达中适当地使用指代会让表达更加简练却不影响本意的阐述。如下面这个出行领域的例子：

图片4.jpg

智能在线机器人Bot理解了客户问句里的“上次”其实指代的是“上次中途取消订单”，所以立马给出了正确回复。

然而，最难为机器人的是常识推断，对语言的理解离不开对常识的掌握。举这么一个例子：

图片5.jpg

机器人需要具备“影子是由太阳升起照射留下的”这样的常识性推断，才能正确的选择答案。对于人来说，这些常识很简单，但是对于机器来说，大量的这种常识知识都潜藏在我们意识的深处，AI系统的研究者几乎不可能把所有这样的常识都总结出来，并灌入到系统中，所以机器人在该数据集的表现往往不尽如人意。

落地到现实场景中，比如我们可以对智能在线机器人Bot说“我银行卡弄丢了”，Bot就会询问你是否需要挂失。因为它具备了“弄丢银行卡需要挂失”这样的业务常识。

可以看到，真实的交互场景中模型需要对语言的不同维度都具有理解能力才能完全正常流畅的对话。而上述的几个例子中的问题形式都很好地包含在了SuperGLUE的不同数据集中，因此，此次追一科技在SuperGLUE测评指标上获得的成绩，不仅是对其RoBERTa-mtl-adv模型在理解自然语言技术上的一个肯定，还验证了“技术驱动应用，应用导向技术”策略的可行性，更加坚定了追一科技继续深耕技术，持续用AI赋能百业的信念。

来源：业界供稿

0赞

好文章，需要你的鼓励

全球NLP最难榜单刷新：追一科技超越Facebook跃居第二

来源：业界供稿

2020

01/16

10:05

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会