当前位置:首页 > 编程笔记 > 正文
已解决

多头注意力机制

来自网友在路上 157857提问 提问时间:2023-10-09 04:55:05阅读次数: 57

最佳答案 问答题库578位专家为你答疑解惑

1、什么是多头注意力机制

从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换,但是并不是,只使用了一组线性变换层,即三个变换张量对 Q、K、V 分别进行线性变换,这些变化不会改变原有张量的尺寸,因此每个变换矩阵都是方阵,得到输出结果后,多头的作用才开始显现,每一个头开始从词义层面分割输出的张量,也就是每一个头都先获得一组 Q、K、V进行注意力机制的计算,但是句子中的每个词的表示只获得一部分,也就是只分割了最后一维的词嵌入向量,这就是所谓的多头,将每个头获取的输入送到注意力机制中就形成了多头注意力机制。

2、多头注意力机制结构图

3、多头注意力机制的作用

这种结构的设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让词义拥有来自多元的表达,实验表名可以从而提升模型效果

查看全文

99%的人还看了

猜你感兴趣

版权申明

本文"多头注意力机制":http://eshow365.cn/6-17611-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!