当前位置：首页 > 编程笔记 > 正文

已解决

NLP之Bert介绍和简单示例

来自网友在路上 172872提问提问时间：2023-11-07 00:01:55阅读次数： 72

最佳答案问答题库728位专家为你答疑解惑

文章目录

1. Bert 介绍
2. 代码示例
- 2.1 代码流程

1. Bert 介绍

在这里插入图片描述

2. 代码示例

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')
print(input_ids)

输出内容：

tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)

2.1 代码流程

代码片段涉及到了使用transformers库来加载一个预训练的BERT模型的分词器，并用它来对一段文本进行编码。以下是整体流程和目的的分步说明：

导入AutoTokenizer类：
from transformers import AutoTokenizer这行代码导入了transformers库中的AutoTokenizer类。这个类可以自动检测并加载与给定模型相对应的分词器(tokenizer)。
加载分词器：
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")这行代码创建了一个分词器的实例。from_pretrained方法用于加载预先训练好的分词器，这里是"bert-base-chinese"，专门为中文文本设计的BERT模型的分词器。
文本编码：
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')这行代码用分词器将提供的中文字符串'欢迎来到Bert世界'转换成BERT模型能够理解的输入格式，即一系列的数字ID。每个ID对应原始文本中的一个词或子词单位。return_tensors='tf'指定返回的格式为TensorFlow张量。
打印输出：
print(input_ids)这行代码输出编码后的input_ids。这个输出是用于后续的模型预测或者微调过程的输入。
```
tf.Tensor([[ 101 3614 6816 3341 1168  100  686 4518  102]], shape=(1, 9), dtype=int32)
```

目的：
这段代码的主要目的是为了准备数据，将自然语言文本转换为BERT模型可以接受的格式，这是使用BERT模型进行任务（如分类、问答等）前的标准步骤。

查看全文

99%的人还看了

相似问题

猜你感兴趣

版权申明

本文"NLP之Bert介绍和简单示例"：http://eshow365.cn/6-34049-0.html 内容来自互联网，请自行判断内容的正确性。如有侵权请联系我们，立即删除！

上一篇: C++多态基础
下一篇: Java程序设计2023-第六次上机测试

晴海小常识分享

晴海小常识分享

NLP之Bert介绍和简单示例

最佳答案问答题库728位专家为你答疑解惑

文章目录

1. Bert 介绍

2. 代码示例

2.1 代码流程

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

晴海小常识分享

晴海小常识分享

NLP之Bert介绍和简单示例

最佳答案 问答题库728位专家为你答疑解惑

文章目录

1. Bert 介绍

2. 代码示例

2.1 代码流程

99%的人还看了

相似问题

猜你感兴趣

版权申明

推荐回答

最佳答案问答题库728位专家为你答疑解惑