NLP之Bert介绍和简单示例
最佳答案 问答题库728位专家为你答疑解惑
文章目录
- 1. Bert 介绍
- 2. 代码示例
- 2.1 代码流程
1. Bert 介绍
2. 代码示例
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')
print(input_ids)
输出内容:
tf.Tensor([[ 101 3614 6816 3341 1168 100 686 4518 102]], shape=(1, 9), dtype=int32)
2.1 代码流程
代码片段涉及到了使用transformers
库来加载一个预训练的BERT模型的分词器,并用它来对一段文本进行编码。以下是整体流程和目的的分步说明:
-
导入AutoTokenizer类:
from transformers import AutoTokenizer
这行代码导入了transformers
库中的AutoTokenizer
类。这个类可以自动检测并加载与给定模型相对应的分词器(tokenizer)。 -
加载分词器:
tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese")
这行代码创建了一个分词器的实例。from_pretrained
方法用于加载预先训练好的分词器,这里是"bert-base-chinese",专门为中文文本设计的BERT模型的分词器。 -
文本编码:
input_ids = tokenizer.encode('欢迎来到Bert世界', return_tensors='tf')
这行代码用分词器将提供的中文字符串'欢迎来到Bert世界'
转换成BERT模型能够理解的输入格式,即一系列的数字ID。每个ID对应原始文本中的一个词或子词单位。return_tensors='tf'
指定返回的格式为TensorFlow张量。 -
打印输出:
print(input_ids)
这行代码输出编码后的input_ids
。这个输出是用于后续的模型预测或者微调过程的输入。tf.Tensor([[ 101 3614 6816 3341 1168 100 686 4518 102]], shape=(1, 9), dtype=int32)
目的:
这段代码的主要目的是为了准备数据,将自然语言文本转换为BERT模型可以接受的格式,这是使用BERT模型进行任务(如分类、问答等)前的标准步骤。
99%的人还看了
相似问题
- 图数据库Neo4J 中文分词查询及全文检索(建立全文索引)
- 基于 NGram 分词,优化 Es 搜索逻辑,并深入理解了 matchPhraseQuery 与 termQuery
- Docker安装部署[8.x]版本Elasticsearch+Kibana+IK分词器
- Elasticsearch下载安装,IK分词器、Kibana下载安装使用,elasticsearch使用演示
- Docker安装部署Elasticsearch+Kibana+IK分词器
- 快速入门Elasticsearch:安装、基本概念、分词器和文档基本操作详解
- Python中文分词、词频统计并制作词云图
- 从入门到进阶 之 ElasticSearch 文档、分词器 进阶篇
- IK分词器如何修改支持跨版本ES
- docker安装es分词插件ik详情步骤
猜你感兴趣
版权申明
本文"NLP之Bert介绍和简单示例":http://eshow365.cn/6-34049-0.html 内容来自互联网,请自行判断内容的正确性。如有侵权请联系我们,立即删除!
- 上一篇: C++多态基础
- 下一篇: Java程序设计2023-第六次上机测试