当下人工智能和数字人文浪潮风靡全球,现代汉语自动分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,资源建设困难重重。数字人文研究需要大规模语料库和高性能古文自然语言处理工具支持。鉴于预训练语言模型已经在英语和现代汉语文本上极大的提升了文本挖掘的精度,目前亟需专门面向古文自动处理领域的预训练模型。
2021年产生了两个较为高效的面向古文智能处理任务的预训练模型SikuBERT
和SikuRoBERTa
,并被第一个古汉语领域NLP工具评估比赛——EvaHan 2022 作为封闭环境下的预训练模型。bert-ancient-chinese
是我们为了进一步优化开放环境下模型效果得到的。
如果要引用我们的工作,您可以引用这篇论文:
@inproceedings{wang2022uncertainty,
title={The Uncertainty-based Retrieval Framework for Ancient Chinese CWS and POS},
author={Wang, Pengyu and Ren, Zhichen},
booktitle={Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages},
pages={164--168},
year={2022}
}
如果希望查阅英文说明,您可以查阅这个github网址。
相比于之前的预训练模型,bert-ancient-chinese
主要有以下特点:
古汉语文本多以繁体字出现,并且包含大量生僻汉字,这使得预训练模型的vocab表
(词表)中并不存在部分生僻汉字。bert-base-chinese
通过在大规模语料中进行学习,进一步扩充了预训练模型的vocab
(词典),最终的vocab表
大小为38208,相比于bert-base-chinese
词表大小为21128,siku-bert
词表大小为29791,bert-ancient-chinese
拥有更大的词表,也收录了更多的生僻字,更有利于提升模型在下游任务的表现性能。vocab表
即词表,收录在预训练模型中的vocab.txt
中。
bert-ancient-chinese
使用了更大规模的训练集。相比于siku-bert
只使用《四库全书》作为预训练数据集,我们使用了更大规模的数据集(约为《四库全书》的六倍),涵盖了从部、道部、佛部、集部、儒部、诗部、史部、医部、艺部、易部、子部,相比于四库全书内容更为丰富、范围更加广泛。
基于领域适应训练(Domain-Adaptive Pretraining)的思想,bert-ancient-chinese
在bert-base-chinese
的基础上结合古文语料进行继续训练,以获取面向古文自动处理领域的预训练模型。
基于Huggingface Transformers的from_pretrained
方法可以直接在线获取bert-ancient-chinese
模型。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Jihuai/bert-ancient-chinese")
model = AutoModel.from_pretrained("Jihuai/bert-ancient-chinese")
我们提供的模型是PyTorch
版本。
通过Huggingface官网直接下载,目前官网的模型已同步更新至最新版本:
下载地址:
模型名称 | 网盘链接 |
---|---|
bert-ancient-chinese | 链接 提取码: qs7x |
我们在比赛EvaHan 2022提供的训练集、测试集上对不同的预训练模进行了测试和比较。我们通过对模型在下游任务自动分词
、词性标注
上微调(fine-tuning)的性能进行了比较。
我们以BERT+CRF
作为基线模型,对比了siku-bert
、siku-roberta
和bert-ancient-chinese
在下游任务上的性能。为了充分利用整个训练数据集,我们采用 K 折交叉验证法
,同时其他超参均保持一致。评测指标为F1值
。
《左传》 | 《史记》 | |||
自动分词 | 词性标注 | 自动分词 | 词性标注 | |
siku-bert | 96.0670% | 92.0156% | 92.7909% | 87.1188% |
siku-roberta | 96.0689% | 92.0496% | 93.0183% | 87.5339% |
bert-ancient-chinese | 96.3273% | 92.5027% | 93.2917% | 87.8749% |
如果我们的内容有助您研究工作,欢迎在论文中引用。
报告中所呈现的实验结果仅表明在特定数据集和超参组合下的表现,并不能代表各个模型的本质。实验结果可能因随机数种子,计算设备而发生改变。使用者可以在许可证范围内任意使用该模型,但我们不对因使用该项目内容造成的直接或间接损失负责。
bert-ancient-chinese
是基于bert-base-chinese继续训练得到的。
Pengyu Wang: wpyjihuai@gmail.com