当前位置：首页 > 软件库 > 神经网络/人工智能 > 自然语言处理 >

Chinese BERT

中文预训练语言模型

授权协议 Apache-2.0

开发语言 Python

所属分类神经网络/人工智能、自然语言处理

软件类型开源软件

地区国产

投递者柴茂材

操作系统跨平台

开源组织无

适用人群未知

软件概览

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词遮罩（Whole Word Masking）技术的中文预训练模型 BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3, RBTL3。

本项目基于谷歌官方BERT：https://github.com/google-research/bert

其他相关资源：

中文MacBERT预训练模型：https://github.com/ymcui/MacBERT
中文ELECTRA预训练模型：https://github.com/ymcui/Chinese-ELECTRA
中文XLNet预训练模型：https://github.com/ymcui/Chinese-XLNet
知识蒸馏工具TextBrewer：https://github.com/airaria/TextBrewer

简介

Whole Word Masking (wwm)，暂翻译为全词Mask或整词Mask，是谷歌在2019年5月31日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词，在生成训练样本时，这些被分开的子词会随机被mask。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。

需要注意的是，这里的mask指的是广义的mask（替换成[MASK]；保持原词汇；随机替换成另外一个词），并非只局限于单词替换成[MASK]标签的情况。更详细的说明及样例请参考：#4

同理，由于谷歌官方发布的BERT-base, Chinese中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词（CWS）。我们将全词Mask的方法应用在了中文中，使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大LTP作为分词工具，即对组成同一个词的汉字全部进行Mask。

下述文本展示了全词Mask的生成样例。 注意：为了方便理解，下述例子中只考虑替换成[MASK]标签的情况。

说明	样例
原始文本	使用语言模型来预测下一个词的probability。
分词文本	使用语言模型来预测下一个词的 probability 。
原始Mask输入	使用语言 [MASK] 型来 [MASK] 测下一个词的 pro [MASK] ##lity 。
全词Mask输入	使用语言 [MASK] [MASK] 来 [MASK] [MASK] 下一个词的 [MASK] [MASK] [MASK] 。

中文模型下载

本目录中主要包含base模型，故我们不在模型简称中标注base字样。对于其他大小的模型会标注对应的标记（例如large）。

BERT-large模型：24-layer, 1024-hidden, 16-heads, 330M parameters
BERT-base模型：12-layer, 768-hidden, 12-heads, 110M parameters

模型简称	语料	Google下载	讯飞云下载
`RBT6, Chinese`	EXT数据[1]	-	TensorFlow（密码XNMA）
`RBT4, Chinese`	EXT数据[1]	-	TensorFlow（密码e8dN）
`RBTL3, Chinese`	EXT数据[1]	TensorFlow PyTorch	TensorFlow（密码vySW）
`RBT3, Chinese`	EXT数据[1]	TensorFlow PyTorch	TensorFlow（密码b9nx）
`RoBERTa-wwm-ext-large, Chinese`	EXT数据[1]	TensorFlow PyTorch	TensorFlow（密码u6gC）
`RoBERTa-wwm-ext, Chinese`	EXT数据[1]	TensorFlow PyTorch	TensorFlow（密码Xe1p）
`BERT-wwm-ext, Chinese`	EXT数据[1]	TensorFlow PyTorch	TensorFlow（密码4cMG）
`BERT-wwm, Chinese`	中文维基	TensorFlow PyTorch	TensorFlow（密码07Xj）
`BERT-base, Chinese`Google	中文维基	Google Cloud	-
`BERT-base, Multilingual Cased`Google	多语种维基	Google Cloud	-
`BERT-base, Multilingual Uncased`Google	多语种维基	Google Cloud	-

[1] EXT数据包括：中文维基百科，其他百科、新闻、问答等数据，总词数达5.4B。

PyTorch版本

如需PyTorch版本，

1）请自行通过��Transformers提供的转换脚本进行转换。

2）或者通过huggingface官网直接下载PyTorch版权重：https://huggingface.co/hfl

方法：点击任意需要下载的model → 拉到最下方点击"List all files in model" → 在弹出的小框中下载bin和json文件。

使用说明

中国大陆境内建议使用讯飞云下载点，境外用户建议使用谷歌下载点，base模型文件大小约400M。以TensorFlow版BERT-wwm, Chinese为例，下载完毕后对zip文件进行解压得到：

chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

其中bert_config.json和vocab.txt与谷歌原版BERT-base, Chinese完全一致。 PyTorch版本则包含pytorch_model.bin, bert_config.json, vocab.txt文件。

快速加载

使用Huggingface-Transformers

依托于Huggingface-Transformers 2.2.2，可轻松调用以上模型。

tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

注意：本目录中的所有模型均使用BertTokenizer以及BertModel加载，请勿使用RobertaTokenizer/RobertaModel！

其中MODEL_NAME对应列表如下：

模型名	MODEL_NAME
RoBERTa-wwm-ext-large	hfl/chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	hfl/chinese-roberta-wwm-ext
BERT-wwm-ext	hfl/chinese-bert-wwm-ext
BERT-wwm	hfl/chinese-bert-wwm
RBT3	hfl/rbt3
RBTL3	hfl/rbtl3

使用PaddleHub

依托PaddleHub，只需一行代码即可完成模型下载安装，十余行代码即可完成文本分类、序列标注、阅读理解等任务。

import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

其中MODULE_NAME对应列表如下：

模型名	MODULE_NAME
RoBERTa-wwm-ext-large	chinese-roberta-wwm-ext-large
RoBERTa-wwm-ext	chinese-roberta-wwm-ext
BERT-wwm-ext	chinese-bert-wwm-ext
BERT-wwm	chinese-bert-wwm
RBT3	rbt3
RBTL3	rbtl3

模型对比

针对大家比较关心的一些模型细节进行汇总如下。

-	BERTGoogle	BERT-wwm	BERT-wwm-ext	RoBERTa-wwm-ext	RoBERTa-wwm-ext-large
Masking	WordPiece	WWM[1]	WWM	WWM	WWM
Type	base	base	base	base	large
Data Source	wiki	wiki	wiki+ext[2]	wiki+ext	wiki+ext
Training Tokens #	0.4B	0.4B	5.4B	5.4B	5.4B
Device	TPU Pod v2	TPU v3	TPU v3	TPU v3	TPU Pod v3-32[3]
Training Steps	?	100KMAX128 +100KMAX512	1MMAX128 +400KMAX512	1MMAX512	2MMAX512
Batch Size	?	2,560 / 384	2,560 / 384	384	512
Optimizer	AdamW	LAMB	LAMB	AdamW	AdamW
Vocabulary	21,128	~BERT[4]	~BERT	~BERT	~BERT
Init Checkpoint	Random Init	~BERT	~BERT	~BERT	Random Init

[1] WWM = Whole Word Masking
[2] ext = extended data
[3] TPU Pod v3-32 (512G HBM)等价于4个TPU v3 (128G HBM)
[4] ~BERT表示继承谷歌原版中文BERT的属性

使用案例

【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514. Abstract 在本文中，我们旨在首先介绍中文 BER
bert-ancient-chinese——专注于古汉语智能处理的BERT预训练模型

引言当下人工智能和数字人文浪潮风靡全球，现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱，难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议，资源建设困难重重。数字人文研究需要大规模语料库和高性能古文自然语言处理工具支持。鉴于预训练语言模型已经在英语和现代汉语文本上极大的提升了文本挖掘的精度，目前亟需专门面向古文自动处理领
BERT-wwm、BERT-wwm-ext

1.Bert-wwm wwm 即 Whole Word Masking（对全词进行Mask），是谷歌在2019年5月31号发布的一项bert升级版本，主要更改了原预训练阶段的训练样本生成策略。相比于bert的改进是用Mask标签替换一个完整的词而不是字词，中文和英文不同，英文最小的token是一个单词，而中文中最小的token却是字，词是由一个或多个字组成，且每个词之间没有明显的分割，包含更多信息
Pre-Training with Whole Word Masking for Chinese BERT

Abstract Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks. Recently, an upgraded version of BERT has been released with Whole Wo
哈工大：Chinese-BERT-wwm

在自然语言处理领域中，预训练语言模型（Pre-trained Language Models）已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展，我们发布了基于全词掩码（Whole Word Masking）技术的中文预训练模型BERT-wwm，以及与此技术密切相关的模型：BERT-wwm-ext，RoBERTa-wwm-ext，RoBERTa-wwm-ext-large, RBT3,

Chinese BERT

简介

中文模型下载

PyTorch版本

使用说明

快速加载

使用Huggingface-Transformers

使用PaddleHub

模型对比

同类工具

相关阅读

相关文章

相关问答

相关文档