当前位置:首页 > 编程笔记 > 正文
已解决

论文阅读——BART

来自网友在路上 160860提问 提问时间:2023-10-27 19:37:58阅读次数: 60

最佳答案 问答题库608位专家为你答疑解惑

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

        允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

        Token Masking:和BERT一样

        Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

        Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

        Sentence Permutation:文章句子打乱顺序

        Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

        各下游任务微调

二、Loss:交叉熵

查看全文

99%的人还看了

猜你感兴趣

版权申明

本文"论文阅读——BART":http://eshow365.cn/6-26284-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!