3分彩官网平台_3分彩网投平台_3分彩投注平台_3分彩娱乐平台

谷歌论文提出全新轻量级新模型ALBERT,制霸三大NLP基准测试

时间:2019-11-08 12:41:40 出处:3分彩官网平台_3分彩网投平台_3分彩投注平台_3分彩娱乐平台

9月27日消息,由图灵奖获得者、人工智能巨头Yoshua Bengio 和 Yann LeCun牵头创办的顶级会议ICLR,被誉为角度学习“无冕之王”,获得学术研究者们广泛认可。ICLR 2019 共收到 1591 篇论文投稿,其中 oral 论文 24 篇,poster 论文 476 篇。ICLR 2020 更疯狂,到9月25日论文提交截止日期,已投稿的论文有2594篇!比去年增加了近30000篇。其中,来自谷歌的一篇论文引起格外瞩目,该论文提出ALBERT模型,比BERT-large 参数更少,却在GLUE、RACE和SQuAD三大NLP基准测试中取得第一。

完全论文:https://openreview.net/group?id=ICLR.cc/2020/Conference

当然这却说算有点硬震惊,毕竟最近几年顶会论文的疯狂增长一些人早完全一定会了心理准备。

在这麼多投稿中,一篇来自谷歌的论文减慢引起研究社区瞩目。该论文提出两个 名为ALBERT的模型,比BERT-large 参数更少,却在 GLUE 基准远远甩开 BERT-Large 拿到榜首。不仅这麼,该模型横扫 GLUE、RACE 和 SQuAD,以显著的优势稳坐第一。

事情经过是两个 的:

有Reddit外国外国老外 发现,两个 叫做 ALBERT 的模型,在 SQuAD 2.0 leaderboard 和 GLUE benchmark 都达到了最佳水准。这是两个 前所未见的新模型,引起了一些人的好奇。

ALBERT在SQuAD 2.0上排名第一

ALBERT在GLUE benchmark上排名第一

不久,终于有外国外国老外 扒出了这种模型的论文,两个 是 ICLR 2020 的一篇投稿,出自谷歌。

ALBERT 又叫 A LITE BERT,顾名思义却说两个 轻量级的 BERT 模型。模型大难能可贵效果好,但也超吃资源。训练一次不仅耗时、更费钱。甚至在一些情形下,并且 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等由于 ,更难提升模型大小。

谷歌研究人员对此提出了通过这种参数约简技术来降低内存消耗,加快 BERT 的训练强度的思路,于是完全一定会了 ALBERT。

接下来,一些人就来看一下这篇 ICLR 2020 投稿论文,来一探这种神仙模型的究竟。

制霸三大基准测试,ALBERT用了两招

在训练自然语言表示时,增加模型大小通常会提高下游任务的性能。然而,在这种程度上,并且GPU/TPU内存的限制、更长的训练时间以及意想必须的model degradation,进一步增大模型会变得更加困难。

为了处理这种疑问,谷歌的研究人员提出了这种参数约简技术,以降低内存消耗,并提高BERT的训练强度。

实验表明,本文提出的方式得到的模型比原始BERT模型更好。一些人还使用 self-supervised loss,专注于建模励志的话 间的连贯性,并表明它始终助于多励志的话 输入的下游任务。

基于此方式的最佳模型在GLUE、RACE和SQuAD基准上都得到了最新的SOTA结果,并且与BERT-large相比,参数更少。

构建更大的模型的两个 障碍是可用硬件的内存限制。考虑到目前最先进的模型通常有数亿甚至数十亿个参数,当一些人试图扩展模型时,很容易遇到这种限制。在分布式训练中,训练强度也会受到很大的影响,并且通信开销与模型参数的数量成正比。

一些人还观察到,简单滴增加模型的hidden size并且会由于 性能下降,比如BERT-large。表1和图1给出了两个 典型的例子,一些人简单地将这种BERT-xlarge模型的hidden size增加到2倍,结果却很糟糕。

表1:在RACE测试中,增加BERT-large的hidden size由于 模型性能下降。

图1:较大模型的masked LM精度较低,但这麼明显的过拟合迹象。

针对上述疑问,现有处理方案包括模型并行化(Shoeybi et al.,2019)和智能内存管理(Chen et al., 2016); Gomez et al., 2017)。这种处理方案处理了内存限制疑问,但这麼处理通信开销和model degradation疑问。在本文中,一些人通过设计两个 比传统BERT架构参数少得多的架构来处理上述所有疑问,称为A Lite BERT (ALBERT)。

ALBERT结合了这种参数约简(parameter reduction)技术,消除了在扩展预训练模型时的主要障碍。

第两个 技术是对嵌入参数化进行因式分解(factorized embedding parameterization)。通过将大的词汇表嵌入矩阵分解为两个 小的矩阵,将隐藏层的大小与词汇表嵌入的大小分选择离开来。这种分离使得在不显著增加词汇表嵌入的参数大小的情形下,更容易增加隐藏大小。

第二种技术是跨层参数共享(cross-layer parameter sharing)。这种技术能必须处理参数随着网络角度的增加而增加。

BERT和ALBERT模型的规模

这这种方式完全一定会不严重影响性能的前提下,显著减少了BERT的参数数量,从而提高了参数强度。ALBERT的配置这种BERT-large,但参数量少了18倍,并且训练强度快1.7倍。参数约简技术还能必须作为这种形式的正则化,能必须使训练更加稳定,并且助于泛化。

为了进一步提高ALBERT的性能,一些人还引入了两个 用于励志的话 顺序预测(sentence-order prediction ,SOP)的自监督损失。SOP 主要聚焦于励志的话 间的连贯,旨在处理原始BERT模型中下一句预测(NSP)损失低效的疑问。

基于这种设计,ALBERT都都可以扩展到更大的版本,参数量仍然比BERT-large少,并且性能明显更好。

一些人在 GLUE、SQuAD 和 RACE 三大自然语言理解基准测试上都得到了新的SOTA结果:在 RACE 上的准确率提高到 89.4%,在 GLUE 上的得分提高到 89.4,在 SQuAD 2.0 上的 F1 得分达到 92.2。

表10:GLUE基准测试的State-of-the-art 结果。

表11:在SQuAD 和 RACE 两个 基准测试上的State-of-the-art 结果

论文地址:https://openreview.net/pdf?id=H1eA7AEtvS

热门

热门标签