当前位置：首页 > 编程笔记 > 正文

已解决

论文阅读——BERT

来自网友在路上 150850提问提问时间：2023-10-28 21:19:56阅读次数： 50

最佳答案问答题库508位专家为你答疑解惑

ArXiv：https://arxiv.org/abs/1810.04805

github：GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT

一、模型及特点：

1、模型：

深层双向transformer encoder结构

BERT-BASE：(L=12, H=768, A=12）

BERT-LARGE：(L=24, H=1024, A=16）

2、特点：

不同任务使用统一架构，预训练和微调只有很小不同

双向预训练模型——通过训练MLM子任务获得

二、训练：两阶段训练——预训练和微调

1、预训练：

（1）训练设置

1）在无标签、不同任务上训练

2）训练两个子任务：Masked LM（MLM）,Next Sentence Prediction (NSP)

MLM：为了双向模型

损失函数：cross entropy loss

mask：随机选择15%的位置，被选择的位置有80%mask，10%随机token，10%unchanged。训练中位置不变，但是由于每个句子不一样，所以预测的token也不是每次都一样。

NSP：为了理解句子关系

（2）数据：

BooksCorpus (800M words)、English Wikipedia (2,500M words) extract only the text passages and ignore lists, tables, and headers.

2、微调：

预训练参数初始化，针对不对任务在有标签数据的所有参数微调，不同任务各自单独微调。

三、实验：

1、数据：

GLUE、SQuAD v1.1（问答。损失函数-最大似然，首先在TriviaQA上微调，然后在SQuAD 上微调）、SQuAD v2.0（没有在TriviaQA上微调）、The Situations With Adversarial Generations (SWAG)

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"论文阅读——BERT"：http://eshow365.cn/6-27098-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: 读取Excel的工具类——ExcelKit
下一篇: Leetcode—7.整数反转【中等】

晴海小常识分享

晴海小常识分享

论文阅读——BERT

最佳答案问答题库508位专家为你答疑解惑

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

论文阅读——BERT

最佳答案 问答题库508位专家为你答疑解惑

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库508位专家为你答疑解惑