推广

【论文解读】文本分类上分利器:Bert微调trick大全

iseeyu2年前 (2024-02-21)推广110

  • Fine-Tuning Strategies:当我们为目标任务微调 BERT 时,有很多方法可以
    使用 BERT。 例如,BERT 的不同层捕获不同级别的语义和句法信息,哪一层更适合目标任务? 我们如何选择更好的优化算法和学习率?

  • Further Pre-training:BERT 在通用域中训练,其数据分布与目标域不同。 一个自然的想法是使用目标域数据进一步预训练 BERT。这个真的非常有效,在微调达到一定瓶颈之后,可以尝试下在比赛语料上ITPT,也就是继续预训练。在海华阅读理解比赛以及基于文本挖掘的企业隐患排查质量分析模型都得到了成功验证~

  • Multi-Task Fine-Tuning:在没有预先训练的 LM 模型的情况下,多任务学习已显示出其利用多个任务之间共享知识优势的有效性。 当目标域中有多个可用任务时,一个有趣的题是,在所有任务上同时微调 BERT 是否仍然带来好处。

微调策略

1. 处理长文本
我们知道BERT 的最大序列长度为 512,BERT 应用于文本分类的第一个问题是如何处理长度大于 512 的文本。本文尝试了以下方式处理长文章。

Truncation methods 截断法
文章的关键信息位于开头和结尾。 我们可以使用三种不同的截断文本方法来执行 BERT 微调。

  1. head-only: keep the first 510 tokens 头部510个字符,加上两个特殊字符刚好是512 ;
  2. tail-only: keep the last 510 tokens;尾部510个字符,同理加上两个特殊字符刚好是512 ;
  3. head+tail: empirically select the first 128and the last 382 tokens.:尾部结合

Hierarchical methods 层级法
输入的文本首先被分成k = L/510个片段,喂入 BERT 以获得 k 个文本片段的表示向量。 每个分数的表示是最后一层的 [CLS] 标记的隐藏状态,然后我们使用均值池化、最大池化和自注意力来组合所有分数的表示。

上表的结果显示,head+tail的截断法在IMDb和Sogou数据集上表现最好。后续的实验也是采用这种方式进行处理。

2. 不同层的特征
BERT 的每一层都捕获输入文本的不同特征。 文本研究了来自不同层的特征的有效性, 然后我们微调模型并记录测试错误率的性能。

我们可以看到:最后一层表征效果最好;最后4层进行max-pooling效果最好
3. 灾难性遗忘
Catastrophic forgetting (灾难性遗忘)通常是迁移学习中的常见诟病,这意味着在学习新知识的过程中预先训练的知识会被遗忘。
因此,本文还研究了 BERT 是否存在灾难性遗忘问题。 我们用不同的学习率对 BERT 进行了微调,发现需要较低的学习率,例如 2e-5,才能使 BERT 克服灾难性遗忘问题。 在 4e-4 的较大学习率下,训练集无法收敛。

这个也深有体会,当预训练模型失效不能够收敛的时候多检查下超参数是否设置有问题。
4. Layer-wise Decreasing Layer Rate 逐层降低学习率
下表 显示了不同基础学习率和衰减因子在 IMDb 数据集上的性能。 我们发现为下层分配较低的学习率对微调 BERT 是有效的,比较合适的设置是 ξ=0.95 和 lr=2.0e-5

为不同的BERT设置不同的学习率及衰减因子,BERT的表现如何?把参数θ \thetaθ划分成{ θ 1 , … , θ L } {\theta1,\dots,\thetaL}{θ
1
,…,θ
L
},其中θ l \theta^lθ
l

ITPT:继续预训练

Bert是在通用的语料上进行预训练的,如果要在特定领域应用文本分类,数据分布一定是有一些差距的。这时候可以考虑进行深度预训练。

Within-task pre-training:Bert在训练语料上进行预训练
In-domain pre-training:在同一领域上的语料进行预训练
Cross-domain pre-training:在不同领域上的语料进行预训练

  1. Within-task pretraining

    BERT-ITPT-FiT 的意思是“BERT + with In-Task Pre-Training + Fine-Tuning”,上图表示IMDb 数据集上进行不同步数的继续预训练是有收益的。
    2 In-Domain 和 Cross-Domain Further Pre-Training

    我们发现几乎所有进一步的预训练模型在所有七个数据集上的表现都比原始 BERT 基础模型。 一般来说,域内预训练可以带来比任务内预训练更好的性能。 在小句子级 TREC 数据集上,任务内预训练会损害性能,而在使用 Yah 的领域预训练中。Yah. A.语料库可以在TREC上取得更好的结果。

这篇论文与其他模型进行了比较,结果如下表所示:

我们可以看到ITPT和IDPT以及CDPT的错误率相比其他模型在不同数据集有不同程度下降。

多任务微调

所有任务都会共享BERT层及Embedding层,唯一不共享的层就是最终的分类层,每个任务都有各自的分类层。

上表表明对于基于BERT多任务微调,效果有所提升,但是对于CDPT的多任务微调是有所下降的,所以说多任务学习对于改进对相关文本分类子任务的泛化可能不是必要的。

小样本学习 Few-Shot Learning

实验表明:BERT能够为小规模数据带来显著的性能提升。

BERT Large模型上进一步预训练

实验结果表明:在特定任务上微调BERT Large模型能够获得当前最优的结果。

接下来给大家带来干货部分:不同学习率策略的使用

不同学习率策略

完整代码回复“学习率”获取

  1. Constant Schedule

  2. Constant Schedule with Warmup

  3. Cosine with Warmup

  4. Cosine With Hard Restarts

  5. Linear Schedule with Warmup

  6. Polynomial Decay with Warmup

参考资料

  • 一起读论文 | 文本分类任务的BERT微调方法论
  • NLP重铸篇之BERT如何微调文本分类
  • 【论文解析】如何将Bert更好地用于文本分类(How to Fine-Tune BERT for Text Classification?)
  • How to Fine-Tune BERT for Text Classification 论文笔记
  • Bert微调技巧实验大全
  • 论文阅读笔记:这篇文章教你在文本分类任务上微调BERT
  • How to Fine-Tune BERT for Text Classification?读论文
    -如何让Bert在finetune小数据集时更“稳”一点

扫描二维码推送至手机访问。

版权声明:本文由西安泽虎代运营发布,如需转载请注明出处。

转载请注明出处https://0291.com.cn/post/57111.html

相关文章

招商加盟公司如何做好线上营销?适合推广的渠道有哪些?

招商加盟公司如何做好线上营销?适合推广的渠道有哪些?

哈喽,大家好,今天媒介盒子小编又来跟大家分享软文的了,本篇分享的主要是:加盟公司如何做好线上?适合推广的有哪些?现在很多企业都在开展招商加盟模式,主要通过向加盟商售卖产品或持续收取服务及管理费用获得利润。传统找加盟商的方式大多是通过打电话、找、参加展会等来获取意向加盟商或经...

极速推广怎么收费(什么是极速推广)

极速推广怎么收费(什么是极速推广)

每天的费用是可以由店主来控制的,通常99元的推广费用不了多久,有些商家使用的推广费用会更高些。当然,它是按照曝光次数来算的,并不是按天数,所以,就看大家期望的曝光情况了。...

我来分享网站建设好过后,如何查看影响转化率的细节。

我来分享网站建设好过后,如何查看影响转化率的细节。

有时候在网络营销中,就像在生活中一样,很容易随心所欲。  公司工作完成后,企业主开始特别关注联系潜在客户并将其转化为在线客户的过程。然而,他们让事情变得比以前困难多了。  当这种情况发生时,他们通常会感到沮丧,工作越努力,事情就越糟糕。 在这种情况下,优化网站转换的最好...

三招搞定网站SEO优化。

三招搞定网站SEO优化。

想要做好seo优化首先就需要seoer学会关键词的选择和分析,这一点低于网站优化可是非常重要的,设置关键词是做好搜索引擎优化的第一步。如果我们的网站是seo优化,主要从事SEO优化业务,那么我们的关键词可以是百度SEO、SEO优化、关键词优化等,这些都是我们需要定义的词。 一、关键词出现...

增加销售成功率的5个销售技巧,你知道几个?

增加销售成功率的5个销售技巧,你知道几个?

一,用打麻将的精神去工作,这个世界上就没有什么干不好的工作了,什么是麻将精神?一,随叫随到,从来不拖拉。二,不在乎工作环境专心自制三,不抱怨,经常的反思自己。四,永不言败,推到重来。五,牌好牌坏都努力往更好的方向整。六,不管跟谁搭档,照样努力。七,从不挑剔工作中使用的工具。...

公司网站制作不理想怎么办?导致公司网站制作失败的原因有哪些。

公司网站制作不理想怎么办?导致公司网站制作失败的原因有哪些。

通常来说,制作一个高质量网站不是那么容易的事情,如果在前期没有进行充足的准备,那在实施的过程中就会出现很多意外,导致的周期延长,就算在预期内制作好了,在后期进行维护的时候也极易出现问题,那么这个网站制作也就失败相当于,那么导致公司网站制作失败的因素有哪几种呢? 一、网站没有定位目标...

现在,非常期待与您的又一次邂逅

我们努力让每一部企业宣传片和抖音短视频成为商业大片