[论文笔记]Poly-encoder

来自网友在路上 149849提问提问时间：2023-10-07 23:14:12阅读次数： 49

引言

本文是Poly-encoder¹的阅读笔记，论文题目为基于预训练模型的快速准确多句评分模型。

也是本系列第一篇基于Transformer架构的模型，对于进行句子对之间比较的任务，有两种常用的途经：Cross-encoder在句子对上进行交互完全自注意力；Bi-encoder单独地编码不同的句子。前者通常表现更好，但实际中太慢。

本篇工作提出了一种新的Transformer架构，Ploy-encoder，学习了全局而不是标记级自注意特征。Poly-encoder比Cross-encoder快，比Bi-encoder好。

对于句子对比较任务来说，有两种常用的途径：Cross-encoder和Bi-encoder。

Cross-encoder基于给定的输入句子和标签句子(组成一个句子对，将它们拼接在一起作为输入)进行交叉自注意，通常能获得较高的准确率，但速度较慢。

而Bi-encoder单独地对句子对中的句子进行自注意，分别得到句子编码。由于这种独立性，Bi-encoder可以对候选句子进行缓存，从而在推理时只需要计算输入句子的编码表示即可，大大加快推理速度。但是表现没有Cross-encoder好。

本文作者提出了一种新的Transformer结构，Poly-encoder，学习全局级而不是单词级的自注意特征。

Poly-encoder比Cross-encoder快，同时比Bi-encoder更准确。