在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词遮罩(Whole Word Masking)技术的中文预训练模型 BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large, RBT3, RBTL3。
本项目基于谷歌官方BERT:https://github.com/google-research/bert
其他相关资源:
Whole Word Masking (wwm),暂翻译为全词Mask
或整词Mask
,是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。 简单来说,原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在全词Mask
中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask,即全词Mask
。
需要注意的是,这里的mask指的是广义的mask(替换成[MASK];保持原词汇;随机替换成另外一个词),并非只局限于单词替换成[MASK]
标签的情况。 更详细的说明及样例请参考:#4
同理,由于谷歌官方发布的BERT-base, Chinese
中,中文是以字为粒度进行切分,没有考虑到传统NLP中的中文分词(CWS)。 我们将全词Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个词的汉字全部进行Mask。
下述文本展示了全词Mask
的生成样例。 注意:为了方便理解,下述例子中只考虑替换成[MASK]标签的情况。
说明 | 样例 |
---|---|
原始文本 | 使用语言模型来预测下一个词的probability。 |
分词文本 | 使用 语言 模型 来 预测 下 一个 词 的 probability 。 |
原始Mask输入 | 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。 |
全词Mask输入 | 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。 |
本目录中主要包含base模型,故我们不在模型简称中标注base
字样。对于其他大小的模型会标注对应的标记(例如large)。
BERT-large模型
:24-layer, 1024-hidden, 16-heads, 330M parametersBERT-base模型
:12-layer, 768-hidden, 12-heads, 110M parameters模型简称 | 语料 | Google下载 | 讯飞云下载 |
---|---|---|---|
RBT6, Chinese |
EXT数据[1] | - | TensorFlow(密码XNMA) |
RBT4, Chinese |
EXT数据[1] | - | TensorFlow(密码e8dN) |
RBTL3, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码vySW) |
RBT3, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码b9nx) |
RoBERTa-wwm-ext-large, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码u6gC) |
RoBERTa-wwm-ext, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码Xe1p) |
BERT-wwm-ext, Chinese |
EXT数据[1] | TensorFlow PyTorch |
TensorFlow(密码4cMG) |
BERT-wwm, Chinese |
中文维基 | TensorFlow PyTorch |
TensorFlow(密码07Xj) |
BERT-base, Chinese Google |
中文维基 | Google Cloud | - |
BERT-base, Multilingual Cased Google |
多语种维基 | Google Cloud | - |
BERT-base, Multilingual Uncased Google |
多语种维基 | Google Cloud | - |
[1] EXT数据包括:中文维基百科,其他百科、新闻、问答等数据,总词数达5.4B。
如需PyTorch版本,
1)请自行通过��Transformers提供的转换脚本进行转换。
2)或者通过huggingface官网直接下载PyTorch版权重:https://huggingface.co/hfl
方法:点击任意需要下载的model → 拉到最下方点击"List all files in model" → 在弹出的小框中下载bin和json文件。
中国大陆境内建议使用讯飞云下载点,境外用户建议使用谷歌下载点,base模型文件大小约400M。 以TensorFlow版BERT-wwm, Chinese
为例,下载完毕后对zip文件进行解压得到:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
其中bert_config.json
和vocab.txt
与谷歌原版BERT-base, Chinese
完全一致。 PyTorch版本则包含pytorch_model.bin
, bert_config.json
, vocab.txt
文件。
依托于Huggingface-Transformers 2.2.2,可轻松调用以上模型。
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
注意:本目录中的所有模型均使用BertTokenizer以及BertModel加载,请勿使用RobertaTokenizer/RobertaModel!
其中MODEL_NAME
对应列表如下:
模型名 | MODEL_NAME |
---|---|
RoBERTa-wwm-ext-large | hfl/chinese-roberta-wwm-ext-large |
RoBERTa-wwm-ext | hfl/chinese-roberta-wwm-ext |
BERT-wwm-ext | hfl/chinese-bert-wwm-ext |
BERT-wwm | hfl/chinese-bert-wwm |
RBT3 | hfl/rbt3 |
RBTL3 | hfl/rbtl3 |
依托PaddleHub,只需一行代码即可完成模型下载安装,十余行代码即可完成文本分类、序列标注、阅读理解等任务。
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
其中MODULE_NAME
对应列表如下:
模型名 | MODULE_NAME |
---|---|
RoBERTa-wwm-ext-large | chinese-roberta-wwm-ext-large |
RoBERTa-wwm-ext | chinese-roberta-wwm-ext |
BERT-wwm-ext | chinese-bert-wwm-ext |
BERT-wwm | chinese-bert-wwm |
RBT3 | rbt3 |
RBTL3 | rbtl3 |
针对大家比较关心的一些模型细节进行汇总如下。
- | BERTGoogle | BERT-wwm | BERT-wwm-ext | RoBERTa-wwm-ext | RoBERTa-wwm-ext-large |
---|---|---|---|---|---|
Masking | WordPiece | WWM[1] | WWM | WWM | WWM |
Type | base | base | base | base | large |
Data Source | wiki | wiki | wiki+ext[2] | wiki+ext | wiki+ext |
Training Tokens # | 0.4B | 0.4B | 5.4B | 5.4B | 5.4B |
Device | TPU Pod v2 | TPU v3 | TPU v3 | TPU v3 | TPU Pod v3-32[3] |
Training Steps | ? | 100KMAX128 +100KMAX512 |
1MMAX128 +400KMAX512 |
1MMAX512 | 2MMAX512 |
Batch Size | ? | 2,560 / 384 | 2,560 / 384 | 384 | 512 |
Optimizer | AdamW | LAMB | LAMB | AdamW | AdamW |
Vocabulary | 21,128 | ~BERT[4] | ~BERT | ~BERT | ~BERT |
Init Checkpoint | Random Init | ~BERT | ~BERT | ~BERT | Random Init |
[1] WWM = Whole Word Masking
[2] ext = extended data
[3] TPU Pod v3-32 (512G HBM)等价于4个TPU v3 (128G HBM)
[4]~BERT
表示继承谷歌原版中文BERT的属性
Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 3504-3514. Abstract 在本文中,我们旨在首先介绍中文 BER
引言 当下人工智能和数字人文浪潮风靡全球,现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,资源建设困难重重。数字人文研究需要大规模语料库和高性能古文自然语言处理工具支持。鉴于预训练语言模型已经在英语和现代汉语文本上极大的提升了文本挖掘的精度,目前亟需专门面向古文自动处理领
1.Bert-wwm wwm 即 Whole Word Masking(对全词进行Mask),是谷歌在2019年5月31号发布的一项bert升级版本,主要更改了原预训练阶段的训练样本生成策略。相比于bert的改进是用Mask标签替换一个完整的词而不是字词,中文和英文不同,英文最小的token是一个单词,而中文中最小的token却是字,词是由一个或多个字组成,且每个词之间没有明显的分割,包含更多信息
Abstract Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks. Recently, an upgraded version of BERT has been released with Whole Wo
在自然语言处理领域中,预训练语言模型(Pre-trained Language Models)已成为非常重要的基础技术。为了进一步促进中文信息处理的研究发展,我们发布了基于全词掩码(Whole Word Masking)技术的中文预训练模型BERT-wwm,以及与此技术密切相关的模型:BERT-wwm-ext,RoBERTa-wwm-ext,RoBERTa-wwm-ext-large, RBT3,
ASR语言模型在线训练 分词 文本清洗 语言模型目前不支持英文,阿拉伯数字,标点符号以及特殊字符,所以需要将训练文本中英文剔除,阿拉伯数字转换成相应的中文表示,删除标点符号和特殊字符。 文本分词 一般先用结巴或清华分词器分词,再人工矫正,分词的原则是它需要具有独立的实体意义。比如,刘德华, 张学友,这些人名;还有一些地名,张家港,黑龙江等;专有名词,中国,迪士尼等.对于我们需要训练的文本,要保证分
我希望使用AWS Sagemaker工作流部署一个预训练的模型,用于实时行人和/或车辆检测,我特别想使用Sagemaker Neo编译模型并将其部署在边缘。我想从他们的模型动物园中使用OpenVino的预构建模型之一,但是当我下载模型时,它已经是他们自己的优化器的中间表示(IR)格式。 > 如果没有,是否有任何免费的预训练模型(使用任何流行的框架,如pytorch,tenorflow,ONXX等)
在之前的描述中,我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例,你惊奇的发现你可以优化回归系统,改进数字图像的分类器,你甚至可以零基础搭建一个垃圾邮件的分类器,但是你却对它们内部的工作流程一无所知。事实上,许多场合你都不需要知道这些黑箱子的内部有什么,干了什么。 然而,如果你对其内部的工作流程有一定了解的话,当面对一个机器学习任务时候,这些理论可以帮助你快速的找到恰
在之前的描述中,我们通常把机器学习模型和训练算法当作黑箱子来处理。如果你实践过前几章的一些示例,你惊奇的发现你可以优化回归系统,改进数字图像的分类器,你甚至可以零基础搭建一个垃圾邮件的分类器,但是你却对它们内部的工作流程一无所知。事实上,许多场合你都不需要知道这些黑箱子的内部有什么,干了什么。 然而,如果你对其内部的工作流程有一定了解的话,当面对一个机器学习任务时候,这些理论可以帮助你快速的找到恰
文章信息 通过本教程,你可以掌握技能:使用预先训练的词向量和卷积神经网络解决一个文本分类问题 本文代码已上传到Github 本文地址:http://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html 本文作者:Francois Chollet 什么是词向量? ”词向量”(词嵌入)是将一类将词的语义映射到向量空间
问题内容: 我像这样使用scikit-learn的SVM: 我的问题是,当我使用分类器预测训练集成员的班级时,即使在scikit- learns实现中,分类器也可能是错误的。(例如) 问题答案: 是的,可以运行以下代码,例如: 分数是0.61,因此将近40%的训练数据被错误分类。部分原因是,即使默认内核是(理论上也应该能够对任何训练数据集进行完美分类,只要您没有两个带有不同标签的相同训练点),也可
本文向大家介绍python PyTorch预训练示例,包括了python PyTorch预训练示例的使用技巧和注意事项,需要的朋友参考一下 前言 最近使用PyTorch感觉妙不可言,有种当初使用Keras的快感,而且速度还不慢。各种设计直接简洁,方便研究,比tensorflow的臃肿好多了。今天让我们来谈谈PyTorch的预训练,主要是自己写代码的经验以及论坛PyTorch Forums上的一些回
训练视图 浏览训练视图 上下滑动屏幕。 或 将手腕向内再向外轻快移动。 观看如何在训练期间使用 Polar 应用程式的相关视频教程。 您在训练视图上看到的信息取决于您对所选的运动内容的编辑。您可以在 Polar Flow 应用程式或 Polar Flow 网络服务中对每项运动内容进行设置。 例如,训练视图可提供以下信息: 您的当前心率 心率 ZonePointer 训练时长 训练期间到目前为止完成