实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

终身学习网

终身学习网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

热门搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名

终身学习网 > IT > 软件开发 > 后端开发 > Python

BertTokenizer如何添加token

Python 更新时间：2026-03-19 16:03:01发布时间：1632天前百科书网趣学号

BertTokenizer如何添加token

在实际情况中，我们可能需要往预训练模型中添加 token。例如下面的例子：

tokenizer = BertTokenizer.from_pretrained("hfl/chinese-roberta-wwm-ext-large")
model = BertModel.from_pretrained("hfl/chinese-roberta-wwm-ext-large")

text = "c_1四处张望。"

print(text)
print(tokenizer.tokenize(text))

print(tokenizer.encode(text))
print(tokenizer.decode(tokenizer.encode(text)))

输出为：

['c', '_', '1', '四', '处', '张', '望', '。']
[101, 145, 142, 122, 1724, 1905, 2476, 3307, 511, 102]
[CLS] c _ 1 四 处 张 望 。 [SEP]

显然BertTokenizer在分词时将 c_1 理解成了三个字，而我们希望模型将其理解为1个字，此时需要向 tokenizer 中添加 token。
我们先将要添加的 token 放入列表中，再使用 add_token 方法。需要注意的是，模型需要调用 resize_token_embeddings，预训练的 Embedding 不变，添加的 token 随机初始化进 Embedding 矩阵中。

characters=["c_1"]
tokenizer.add_tokens(characters)
model.resize_token_embeddings(len(tokenizer))

此时再进行分词就没有问题了。

print(tokenizer.tokenize(text)) 
# ['c_1', '四', '处', '张', '望', '。']

print(tokenizer.decode(tokenizer.encode(text)))
# [CLS] c_1 四 处 张 望 。 [SEP]

转载请注明：文章转载自 www.051e.com

本文地址：http://www.051e.com/it/273394.html

上一篇抽奖控制概率

下一篇贝叶斯算法进行文档分类

Python相关栏目本月热门文章

热门相关搜索

北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名铁岭卫生职业学院排名沈阳北软信息职业技术学院排名吉林艺术学院排名吉林体育学院排名白城师范学院排名通化师范学院排名吉林农业大学排名长春电子科技学院排名吉林工业职业技术学院排名吉林司法警官职业学院排名吉林警察学院排名长春健康职业学院排名吉林水利电力职业学院排名大庆师范学院排名黑龙江大学排名哈尔滨剑桥学院排名哈尔滨铁道职业技术学院排名哈尔滨应用职业技术学院排名黑龙江民族职业学院排名七台河职业学院排名黑龙江生态工程职业学院排名华东师范大学排名上海健康医学院排名华东理工大学排名上海交通大学排名同济大学排名复旦大学排名上海杉达学院排名上海戏剧学院排名上海音乐学院排名

关于我们文章归档网站地图联系我们

版权所有 ©2023-2025 051e.com

ICP备案号：京ICP备12030808号