Facebook AI和华盛顿大学的研究人员设计了一些方法来增强Google的BERT语言模型,并在GLUE,SQuAD和RACE基准数据集中实现与先进或超过最先进结果的性能。研究人员详细介绍了RoBERTa如何在上周发表于arXiv的论文中发挥作用。
该模型被命名为RoBERTa,用于“稳健优化的BERT方法”,该模型采用了变形金刚双向编码器表示(BERT)所使用的许多技术,这是一种由谷歌去年秋天开源的新型自然语言模型。
RoBERTa的不同之处在于,它依赖于预训练大量数据和改变训练数据的掩蔽模式。在预训练中,原始BERT使用蒙面语言建模和下一句话预测,但RoBERTa删除了下一句话预测方法。
总的来说,RoBERTa在9个GLUE基准任务中的4个中实现了最先进的结果,并且拥有与XLNet相同的整体GLUE任务性能。
“我们发现BERT显着不足,可以匹配或超过其后发布的每个模型的性能,”报告中写道。“我们的培训改进表明,在正确的设计选择下,预先训练的蒙面语言模型与所有其他最近发布的方法相比具有竞争力。”
为了制作RoBERTa,研究人员使用1,024个Nvidia V100 GPU大约一天。
最初的BERT使用16GB BookCorpus数据集和英语维基百科进行训练,但RoBERTa使用了CommonCrawl(CC)-News,这是一个76GB的数据集,在2016年9月到2019年2月期间获得了6300万条英文新闻文章。
“最后,我们预先训练RoBERTa的时间要长得多,将预训练步数从100K增加到300K再增加到500K。我们再次观察到下游任务性能的显着提升,300K和500K步骤模型在大多数任务中都优于XLNet,“报告中写道。
RoBERTa的推出延续了大量语言理解人工智能系统OpenAI的GPT-2,Google Brain的XLNet和微软的MT-DNN,这些都是基准性能结果中超越BERT的一年。
培训此类模型的成本可能非常昂贵,并且具有相当大的碳足迹。
本月早些时候,在转型2019年,Facebook AI副总裁JérômePesenti表示,对于像谷歌和Facebook这样的公司来说,对尖端或强大系统的计算需求也是一个挑战。