开源预训练模型BERT的正确使用姿势

作者：百分点认知智能实验室

近期，百分点认知智能实验室针对NLP领域神器BERT与文本分类等下游具体任务如何结合的问题提出了一套新的优化策略，在对BERT进行微调（fine-tune）的同时，在其后添加神经网络模型，打破之前BERT使用中fine-tune步骤和上层复杂模型完全隔离的方案。

至顶网软件与服务频道消息：近期，百分点认知智能实验室针对NLP领域神器BERT与文本分类等下游具体任务如何结合的问题提出了一套新的优化策略，在对BERT进行微调（fine-tune）的同时，在其后添加神经网络模型，打破之前BERT使用中fine-tune步骤和上层复杂模型完全隔离的方案，并通过实验证明，对于特定任务，二者结合能显著提高模型性能。

自2018年google发布开源预训练模型BERT之后，一时席卷业内十余项任务的state-of-art，引得无数NLPer聚焦于此。对于自然语言处理领域而言，BERT的出现，彻底改变了预训练词向量与下游具体NLP任务的关系，因此BERT被称为改变了NLP游戏规则的工作。然而，究竟如何最好的使用BERT呢？

一种自然的方法当然是改变BERT的预训练过程，从而造出更好的预训练语言模型。这种方法可以简单的引入更多的语料、采用不同的预训练任务、采用多任务学习、采用在特定领域的语料上进行fine-tune等等。然而，从头训练甚至fine-tune BERT均需要大量的算力才可实现。那么另一种自然而然的想法是，我们是否可以将已有模型（LSTM或者CNN）接入到BERT之上，从而发挥二者各自的优势呢？这是本文介绍的重点。

BERT的基础使用方式

本文以是否fine-tune预训练模型和是否对上层模型进行训练作为两个参考指标，将BERT的应用方法大致划分为三类，如下表所示：

其中，方法NFT-TM是指在BERT模型的上层添加复杂的网络结构，在训练时，固定BERT的参数，仅单独训练上层任务模型网络。方法FT-NTM是指在在BERT模型后接一个简单的特定任务层（如全连接网络），在训练时，根据任务的训练样本集对BERT进行fine-tune即可。

就以上NFT-TM、FT-NTM两种方法，美国Allen人工智能研究所的Matthew Peter等人分别在ELMo及BERT两种预训练模型上对比了效果，希望能够得出到底哪个方式更适合下游任务，他们针对7项NLP任务给出实验结果。对于ELMo而言，使用上层网络进行特征提取效果更好，对于BERT而言，fine-tune效果略胜一筹。最终该文得出结论，对于预训练模型，fine-tune方法（即FT-NTM）能够更好的将其应用于特定任务。

BERT的高级使用方式

以上两种方法看上去有些片面，如果把特征抽取和fine-tune结合起来成为第三种模式，效果会怎样呢？在BERT出现之前，就有人在训练好语言模型之后，用后续网络（如CNN，LSTM等）对词嵌入进行微调的方法了。如果把预训练模型看作是一个词嵌入的强化版，那么在BERT时代，我们在追求其应用模式革新上也应该考虑到此方法，于是百分点认知智能实验室提出融合特征抽取及fine-tune的方法FT-TM，其步骤如下：

1.在底层通过一个预训练模型，先训练一个可用的语言模型（视情况可停止训练）；

2.针对具体下游任务设计神经网络结构，将其接在预训练模型之后；

3.联合训练包括预训练模型在内的整个神经网络，以此模式尝试进一步改善任务结果。

基于以上内容，我们对各种BERT应用方式选取了三个NLP典型任务进行实验，并通过实践证明，该方法在特定任务上均表现出色。

实验一：针对序列标注任务，我们选择了其子任务之一的命名实体识别任务（NER），并在NER的开源数据集CoNLL03上进行实验。该实验以仅对BERT进行fine-tune（即方法FT-NTM）的结果为baseline，对比了在BERT基础上增加一个传统用于NER任务的Bi-LSTM网络（即方法FT-TM）的效果，其实验结果如下图所示：

由图可得，结合BERT的fine-tune和上层神经网络的FT-TM方法在该任务上的F1值较baseline提升了近7个百分点。

实验二：针对文本分类任务，本次实验选取雅虎问答分类数据集，以原始BERT结果作为baseline，对比了在其基础上分别连接了HighwayLSTM和DenseNet网络，并对其进行模型融合后的结果。实验结果由下图所示：

由实验看出，虽然模型融合后的效果并不十分明显，但也有一定的效果提升。

实验三：针对语义等价性任务，本实验选取包含了40万个问题对的“Quora-Question-Pair“数据集，根据句子对进行相似度的计算。本次实验将仅对BERT进行fine-tune的方法FT-NTM为baseline，对比了在BERT之后接BIMPM网络的效果。同时以方法NFT-TM为baseline，对比了两种改进BIMPM之后模型结构的效果（移除BIMPM中的第一层Bi-LSTM模型和将BIMPM的matching层与transformer相结合的模型）。注意，在模型训练时有个重要的trick，考虑到预训练模型本身的效果和其与顶层模型的融合问题，在训练模型时，需要分两步进行：先固定预训练模型的参数，仅训练其上层特定任务网络，第二步再将整个网络联合训练。

该任务的实验结果如下图所示：

由实验结果可得，Bert+Sim-Transformer结合fine-tune Bert的效果相较仅对BERT进行fine-tune的方法FT-NTM，准确率提升了近5个百分点。

因此，从上面一系列的实验结果可以看出，我们提出的结合上层复杂模型和fine-tune的方法FT-TM是有效的，并且在某些任务中优于fine-tune的方式。同时在BERT预训练模型上面集成的神经网络模型好坏也会影响到最终的任务效果。

来源：业界供稿

0赞

好文章，需要你的鼓励

开源预训练模型BERT的正确使用姿势

来源：业界供稿

2019

07/23

18:03

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

性能狂飙70%！宝德 x 京东云AI存储一体机新品上市，重塑行业标杆

思科与英伟达扩大合作，助力企业加速应用AI技术

两位前谷歌软件工程师，用AI改写黑夜成像规则

德勤2025技术趋势报告，AI与企业未来的交汇

思科在Cisco Live阿姆斯特丹大会上展示简洁、安全和AI就绪的创新技术

区分“模型”和“应用”是对AI最大的误解

终端侧AI，如何从DeepSeek的连锁反应中受益？

Gartner发布2025年及未来中国企业实现AI价值的重要预测

专访DeepMind CEO：我们距离实现AGI只需5-10年

企业AI是确定性的长期主义

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会