wwm 即 Whole Word Masking(对全词进行Mask),是谷歌在2019年5月31号发布的一项bert升级版本,主要更改了原预训练阶段的训练样本生成策略。相比于bert的改进是用Mask标签替换一个完整的词而不是字词,中文和英文不同,英文最小的token是一个单词,而中文中最小的token却是字,词是由一个或多个字组成,且每个词之间没有明显的分割,包含更多信息的是词,对全词mask就是对整个词都通过mask进行掩码。
说明 样例:
原始文本: 使用语言模型来预测下一个词的probability。
分词文本: 使用 语言 模型 来 预测 下 一个 词 的 probability 。
原始Mask输入:使用 语言 [MASK]型 来 [MASK]测 下 一个 词 的 pro [MASK] ##lity 。
全词Mask输入 使用 语言 [MASK] [MASK] 来 [MASK] [MASK] 下 一个 词 的 [MASK] [MASK] [MASK] 。
论文下载地址:https://arxiv.org/pdf/1906.08101.pdf
它是BERT-wwm的一个升级版,相比于BERT-wwm的改进是增加了训练数据集同时也增加了训练步数。
BERT-wwm-ext主要是有两点改进:
1)预训练数据集做了增加,次数达到5.4B;
2)训练步数增大,训练第一阶段1M步,训练第二阶段400K步。
中文模型下载
由于目前只包含base模型,故我们不在模型简称中标注base字样。
BERT-base模型:12-layer, 768-hidden, 12-heads, 110M parameters
模型简称 | 语料 | Google下载 | 讯飞下载 |
---|---|---|---|
BERT-wwm-ext, Chinese | 中文维基+通用数据[1] | TensorFlow PyTorch | TensorFlow(密码4cMG)PyTorch(密码XHu4) |
BERT-wwm, Chinese | 中文维基 | TensorFlow PyTorch | TensorFlow(密码07Xj)PyTorch(密码hteX) |
[1] 通用数据包括:百科、新闻、问答等数据,总词数达5.4B
以上预训练模型以TensorFlow版本的权重为准。 对于PyTorch版本,我们使用的是由Huggingface出品的PyTorch-Transformers 1.0提供的转换脚本。 如果使用的是其他版本,请自行进行权重转换。
中国大陆境内建议使用讯飞云下载点,境外用户建议使用谷歌下载点,base模型文件大小约400M。 以TensorFlow版BERT-wwm, Chinese为例,下载完毕后对zip文件进行解压得到:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
其中bert_config.json和vocab.txt与谷歌原版BERT-base, Chinese完全一致。 PyTorch版本则包含pytorch_model.bin, bert_config.json, vocab.txt文件。