notes_NLP

来自网友在路上 139839提问提问时间：2023-10-22 12:59:37阅读次数： 39

最佳答案问答题库398位专家为你答疑解惑

RNN > LSTM, GRU

model特点RNNLSTMinput+forget+putput；GRUreset+update；参数比LSTM少，计算效率更高；

循环神经网络（RNN/LSTM/GRU）
人人都能看懂的GRU

transformer > self-attention

根据Query和Key计算权重系数
1.1 根据Query和Key计算两者的相似性或者相关性
1.2 对第一阶段的原始分值进行归一化处理
根据权重系数对Value进行加权求和

Transformer的attention机制和LSTM的gate机制都通过加权方法控制了信息的流动；当前时刻的输出依赖于历史（单向模型）或者历史和未来的信息（双向模型）。
不同点：

modelattentiongate激活函数sigmoidsoftmax操作对象全局元素可作用范围any有限

Attention weights和LSTM/GRU中的gate机制有何不同？
超详细图解Self-Attention
熬了一晚上，我从零实现了Transformer模型，把代码讲给你听

预训练语言模型

预训练：在模型参数初始化时使用已经在一些任务上预先训练完的、而非随机的参数。在后续具体任务上，可以冻结（fronzen）或微调（fine-tune）参数。

预训练语言模型：在以word2vec(2013)为代表的第一代预训练语言模型中，一个单词的词向量是固定不变的，无法区分单词的不同语义。ELMo(2018)考虑了上下文的信息，较好地解决了多义词的表示问题，开启了第二代预训练语言模型的时代，即预训练+微调的范式。

自回归模型可以类比为早期的统计语言模型，也就是根据上文预测下一个单词，或者根据下文预测前面的单词。包括ELMo、GPT、XLNet等。
自编码模型可以在输入中随机掩盖一个单词（相当于噪声），在预训练过程中，根据上下文预测被掩码词，因此可以认为是一个降噪（denosing）的过程。包括BERT、ERINE、RoBERTa等。

MLM (Masked Language Modeling) 是一种预训练语言模型的方法，通过在输入文本中随机掩盖一些单词或标记，并要求模型预测这些掩盖的单词或标记。主要目的是训练模型来学习上下文信息，以便在预测掩盖的单词或标记时提高准确性。

一文了解预训练语言模型！
预训练模型与10种常见NLP预训练模型
Masked Language Modeling

ProtBERT

… …

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"notes_NLP"：http://eshow365.cn/6-21661-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 通过小程序实现会议Oa的会议展示以及个人中心
下一篇: 论文阅读-FCD-Net: 学习检测多类型同源深度伪造人脸图像

晴海小常识分享

晴海小常识分享

notes_NLP

最佳答案问答题库398位专家为你答疑解惑

RNN > LSTM, GRU

transformer > self-attention

预训练语言模型

ProtBERT

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

notes_NLP

最佳答案 问答题库398位专家为你答疑解惑

RNN > LSTM, GRU

transformer > self-attention

预训练语言模型

ProtBERT

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库398位专家为你答疑解惑