多准则融合的中文命名实体识别方法 [PDF全文]
(江苏自动化研究所,连云港 222061)

为提高中文命名实体识别任务的识别率,提出了一种多准则融合模型.采用基于字的BERT语言模型作为语言信息特征提取层,将其接入多准则共享连接层和条件随机场(CRF)层,得到融合模型.建立大规模中文混合语料库,优化模型参数,使用单GPU设备完成BERT语言模型的预训练.将融合模型在MSRA-NER和RMRB-98-1实体标注集上进行独立训练和混合训练,得到各语料库独立的单准则中文命名实体识别模型和多准则融合中文命名实体识别模型.结果表明,多准则融合中文命名实体识别模型能够挖掘语料库间的共有信息,提高中文命名实体的识别率,MSRA-NER和RMRB-98-1实体标注集上的F1值分别为94.46%和94.32%,优于其他现有模型.

Chinese named entity recognition based on multi-criteria fusion
Cai Qing
(Jiangsu Institute of Automation, Lianyungang 222061, China)

To improve the recognition rate of Chinese named entity recognition tasks, a multi-criteria fusion model was proposed. The word-based BERT(bidirectional encoder representations from transformers)language model was used as the language information feature extraction layer, and connected to the multi-criteria shared connection layer and the conditional random field(CRF)layer to obtain the fusion model. Then,a large-scale Chinese mixed corpus was established and the model parameters were optimized. A single GPU(graphics processing unit)device was used to complete the pre-training of the BERT language model. Independent and hybrid training of the fusion model on MSRA-NER and RMRB-98-1 entity annotation sets were carried out to obtain the independent single-criteria Chinese named entity recognition model and the multi-criteria fusion Chinese named entity recognition model for each corpus. The results show that the multi-criteria fusion Chinese named entity recognition model can mine common information between corpora and improve the recognition rate of Chinese named entities. The F1 values on MSRA-NER and RMRB-98-1 entity tagging sets are 94.46% and 94.32%, respectively, which are better than those of other models.

引言

命名实体识别(NER)作为自然语言处理技术中的一项基本任务,在信息提取、信息检索、知识发现中有着广泛的应用.其目的是从文本中识别出具有特定意义的实体,一般包括机构名、人名、地名、时间、日期、数量短语等.其中,时间、日期、数量短语等由于具有良好的规则性,通过编写规则就可以解决识别问题; 而机构名、人名、地名3类命名实体,数量多且结构复杂,是命名实体识别的难点和重点.

命名实体识别的早期研究较多基于特定领域的知识,采用的是人工构造特征的方法.其不足是获取相关领域的知识并据此设计相应的人工特征需要非常大的工作量,且难以将这些特征从一个领域迁移到另一个领域.近年来,随着计算机算力的提升和算法技术的发展,基于深度神经网络(DNN)的统计模型在自然语言处理领域得到了更加广泛的应用.Collobert等[1]提出了一种DNN结构,普遍适用于命名实体识别等多种自然语言处理中的研究任务.Duan等[2]利用条件随机场(CRF)对人民日报语料库中的人名、地名和机构名进行识别.Ouyang等[3]使用双向长短时记忆循环神经网络(bi-directional LSTM RNN),结合跳字模型来解决中文命名实体识别问题.杨飘等[4]通过BERT预训练模型提取语义向量,并且将其输入序列标注经典模型BiGRU-CRF中进行训练,中文命名实体识别准确率较高.

目前,基于神经网络的命名实体识别技术一般使用单一语料库进行训练,或者2个语料库分开训练和评估,需要大量人工标注的语料.由于语言的复杂性,小规模的语料库缺少足够数量的语言信息.增大训练语料库规模通常可以提升模型性能,但标注语料的代价较高; 同时,不同的语料库制作单位使用的标注标准也不同,无法混合使用.文献[5]指出,挖掘根据不同标准建立的多个语料库间的共有信息,可以互相提升未登录词(OOV)的召回率.

不同语料库所用的分词和标注标准之间存在差异,因此无法将不同的语料库混合在一起进行训练.针对此问题,本文采用一种多准则融合的方法,提出了BERT-DNN-CRF多准则融合模型,引入多准则共享连接层.所包含的共享计算单元可习得各语料库间的共有知识,各语料库独有的计算单元可以解决各语料库间标注准则的差异.因此,该模型可以习得更多的语言知识,提高中文命名实体的识别准确率和召回率.

1 BERT-DNN-CRF多准则融合模型

图1为BERT-DNN-CRF多准则融合模型的整体结构框架.图中,B=[BT1 BT2 … BTn]T和T=[TT1 TT2 … TTn]T分别为BERT特征提取层和DNN共享连接层的输出矩阵,其中n为输入句子的词汇(或字符)数量; Y={y1,y2,…,yn}为CRF层解码出的概率最大的标签序列.BERT-DNN-CRF多准则融合模型包括BERT特征提取层、DNN共享连接层和CRF层3个部分.首先,将句子按字符输入BERT特征提取层,计算出句子的表征向量组.然后,将此表征向量组输入DNN共享连接层,进行进一步计算.最后,在CRF层解码出此句子概率最大的标签序列.

图1 BERT-DNN-CRF多准则融合模型

图1 BERT-DNN-CRF多准则融合模型

1.1 BERT特征提取层

统计语言模型是自然语言处理任务的基础.本文基于统计语言模型对语言特征进行提取和分析.由n个词汇(或字符)组成的句子表示为s={w1,w2,…,wn},其中wi表示句子中第i个单词.由链式法则计算句子s的概率为

前向语言模型

Pr(s)=Pr(w1,w2,…,wn)=

nk=1Pr(wk〖JB<1|〗w1,w2,…,wk-1)(1)

反向语言模型

Pr(s)=Pr(w1,w2,…,wn)=

nk=1Pr(wk〖JB<1|〗wk+1,wk+2,…,wn)(2)

将式(1)和(2)相乘后取对数,得到双向语言模型为

logPr(s)=1/2∑nk=1(logPr(wk〖JB<1|〗w1,w2,…,wk-1)+

logPr(wk〖JB>1|〗wk+1,wk+2,…,wn))(3)

Peters等[6]提出的ELMo模型结合了前向和反向2个方向,通过最大化式(3)来训练语言模型.但上述语言模型无论是从前向后还是从后向前,均为2个方向独立训练,每个字词的概率无法同时依赖于上下文,因此每次只能提取单方向的特征,不能充分表达语言信息的复杂性.2018年,Devlin等[7]进一步提出了BERT预训练语言模型,通过左右文本内容联合调节进行训练,训练得到的模型可从文本中提取更精准的语言信息特征.此外,BERT模型还引入句间关系判定任务来识别理解句子之间的关系.研究表明,BERT模型在自然语言处理的各种任务中明显优于传统的预训练语言模型.

BERT模型结构中,Ek为位置k上的表征向量,由字词表征向量ETk、段落表征向量ESk和位置表征向量EPk求和得到,即

Ek=ETk+ESk+EPk(4)

式(4)中的参数初始化为随机变量,需要在BERT模型中进行深度训练以进行应用.

将综合了位置信息、字词信息、段落信息的表征向量Ek输入多层双向Transformer编码器 [8],编码器在位置k处输出向量Bk,sigmoid概率层将其用于预测位置k上的原词,则位置k处输出为标签yk的概率为

Pr(yk)=sigmoid(WBk+b)(5)

式中,W和b分别为sigmoid概率层的权重矩阵和偏置,需要在BERT模型中进行预训练.

原版BERT模型计算具有较高的时间复杂度,综合考虑训练速度和性能,使用BERT模型之前,本文对其进行了如下的简化处理:①原始英文BERT模型中输入为英文单词序列; 本文中文命名实体识别研究中输入为单个中文字符组成的序列.②句间关系判定偏重于理解句间内在联系、篇章段落含义等,而实体识别一般通过观察单句就能准确完成,故本文不采用此任务,只保留预测遮盖词的任务.③原始BERT模型的基本版本(BERT-Base)使用了12层编码器,对中文命名实体识别任务而言计算量过大; 为了提升训练速度,减少计算量,本文对网络层数等参数进行了调整.

1.2 DNN多准则共享连接层

BERT特征提取层使用相同的参数处理不同语料库的输入.对于输入的相同句子,无论属于何种语料库,得到的输出均相同,无法体现语料库的标注差异.多准则共享连接层所包含的共享计算单元可习得各语料库间的共有知识,各语料库独有的计算单元可以解决各语料库间标注准则的差异.

DNN多准则共享连接层见图2.图中,FF为全连接前馈网络; Ik为全连接前馈网络在位置k处的输出; FFs1为MSRA-NER语料库独有计算单元; FFs2为RMRB-98-1语料库独有计算单元; FFc为2个语料库的共有计算单元; Tk为DNN多准则共享连接层在位置k处的输出.

通过BERT特征提取层得到位置k处的表征向

图2 DNN多准则共享连接层

图2 DNN多准则共享连接层

量Bk.Bk被全连接前馈网络映射为向量Ik,即

Ik=FF(Bk)=GELU(WffBk+bff)(6)

式中,Wff和bff分别为全连接前馈网络的权重矩阵和偏置; GELU(x)=xPr(X<x)=xΦ(x)为激活函数[9],其中Φ(x)为标准正态分布的积累分布函数,x~N(0,1).根据当前样本对应的特有前馈单元和多准则共享的前馈单元计算Ik,得到共享连接层的输出Tk

Tk=GELU(FFs(Ik)FFc(Ik))(7)

式中,FFs为当前样本对应的特有前馈单元模块中的全连接前馈计算单元; FFc为公用前馈计算单元.

对MSRA-NER语料库中的样本,有

Tk=GELU((Wffs1Ik+bffs1)(WffcIk+bffc))(8)

式中,Wffs1和bffs1分别为MSRA-NER独有全连接前馈网络的权重矩阵和偏置; Wffc和bffc分别为两语料库共享全连接前馈网络的权重矩阵和偏置.

对于RMRB-98-1语料库中的样本,有

Tk=GELU((Wffs2Ik+bffs2)(WffcIk+bffc))(9)

式中,Wffs2和bffs2分别为RMRB-98-1独有全连接前馈网络的权重矩阵和偏置.

基于图2中2个语料库融合训练的网络结构设计,各语料库中共有信息可以通过共享前馈计算单元共同学习,各语料库间有差异的标注规则信息也可以通过独有的前馈计算单元得到学习.

作为实验结果参照,本文使用各语料库分别进行独立训练,得到各单语料库的单准则模型.独立训练DNN网络结构见图3.图中,FF1和FF2为前馈计算单元.FF1的网络结构和参数量与图2中的FFs1和FFs2相同,FF2的网络结构和参数量与图2中的FFc相同.

图3 独立训练DNN网络结构

图3 独立训练DNN网络结构

语料库MSRA-NER和RMRB-98-1独立训练时,均有

Tk=GELU((Wff1Ik+bff1)(Wff2Ik+bff2))(10)

上述语料库的训练是独立的,训练出的独立模型参数信息不共享,故无法获取本语料库外其他语料库所包含的有用信息.

1.3 CRF层

CRF层[10] 能容纳上下文信息,计算出整个标签序列的联合概率分布,获得全局最优解,故选择CRF层进行标签序列的建模.对于给定句子s={w1,w2,…,wn}和对应的标签Y={y1,y2,…,yn},共享连接层的输出为矩阵T=[TT1 TT2 … TTn]T.将此矩阵与CRF层进行连接,得到条件概率为

Pr(y〖JB<1|〗s)=(∏nk=2exp(lkyk+byk-1yk))/(∑y'nk=2exp(lky'k+by'k-1y'k))(11)

lk=WsTk+bs(12)

式中,lk为位置k处所有可能标签的得分; lkyk为目标标签yk的可能性得分; byk-1yk为概率转移矩阵; Ws和bs分别为预测权重矩阵和偏置.

通过求解式(13),训练得到最终参数为

Y*=argmaxPr(y〖JB<1|〗s)(13)

2 实验2.1 实验数据及处理

本文使用自建大规模综合中文无标注语料库,数据采集于新闻网站、电子小说杂志、百科知识、公众号文章等数据源.将采集数据过滤清除格式标签,只保留正文文本,再将全角字符转为半角字符,最终得到含有22×108个字符的中文无标注语料数据.本文使用的命名实体标注语料库包括微软亚洲研究院发布的MSRA-NER 命名实体标注集(MSRA-NER)和1998年1月的《人民日报》分词词性标注集(RMRB-98-1).

MSRA-NER命名实体标注集中包含人名、地名和组织名共3类实体,语料库中对应的标签分别为nr、ns、nt.其余非实体词汇统一使用 O标签.

RMRB-98-1含有各种词性标注标签.本文只关注其中的人名(PER/nr)、地名(LOC/ns)和组织机构名(ORG/nt)标签,将其他标签统一改为非实体标签.此外,RMRB-98-1中姓和名是分开标注的,本文将姓和名合并为1个标签.例如,将“李/nr华/nr”合并为“李华/nr”.

为了使用CRF层,需要将实体标注标签转换为CRF层所用的标签,标注集主要有BIO和BIOES两种.Ratinov等[11]指出,BIOES标注集与BIO标注集相比可以更加清晰地定义实体的边界.传统的BIOES标注集将地名标签标注为B-LOC、I-LOC、E-LOC、S-LOC.机构、人名也使用类似标注,剩余的非实体字符统一标记为O标签.但这一标注方法丢失了语料库中非实体字符的分词信息.与英文命名实体识别中直接输入英文词汇不同,中文命名实体识别输入的是字符序列,需要同时将实体词汇从句子中分离出来.而被丢弃的分词信息对实体标记是有帮助的.因此,本文对BIOES标注集进行了扩展,使用B-O、I-O、E-O、S-O标注非实体词汇.

2.2 实验环境

本文实验使用硬件配置为:Intel 3770K CPU,内存32G,NVIDIA GeForce(R)1080 TI显卡(显存),配备11G GDDR5显存.

软件配置为:Debian 9操作系统,Python3.7和PyTorch1.1.

2.3 参数设置

综合考虑训练速度和性能,在BERT特征提取层预训练步骤中,句子最大长度设置为128个字符,网络深度设置为3层,每层包含384个隐藏单元,自注意力的分组数为12.预训练中,根据语料库统计的词频由多到少保留10 240种字符,其他字符统一使用UNK标识.

模型中包含3层全连接前馈层,每层包含1 024个隐藏单元.其中,前2层为普通全连接层,第3层为多准则融合层.多准则融合层中的共享前馈计算单元和各语料库独有的前馈计算投影单元隐藏单元数均设置为1 024.

学习速率先设置为10-3,然后逐步下降到10-4.

2.4 实验步骤

本文实验的详细步骤如下:

①在综合语料库上根据设定的模型参数,预训练BERT特征提取层.于字符集语料上迭代训练了10次,总用时约7 d.

②固定BERT特征提取层的参数,训练投影层和CRF层,再进行模型全网络层参数微调.实验训练包括2种方式:一种是分别训练每一种语料库,基于2种命名实体识别库可训练得到2个独立的模型; 另一种是将2个语料库合并在一起进行训练,得到一个综合模型.前者作为对比基准.

③训练完成后,使用模型生成测试集的预测结果,然后利用Conlleval脚本[12]对预测结果进行评估分析.

2.5 实验结果

本实验使用精度P、召回率R和F1值对结果进行评价.其计算公式为

P=(Ng)/(Ne)×100%(14)

R=(Ng)/(Ns)×100%(15)

F1=(2PR)/(P+R)×100%(16)

式中,Ng为正确识别出的实体数; Ne为识别出的实体数; Ns为样本中的实体数.

对选取的2个语料库分别进行单独训练,其识别结果见表1.

表1 单独训练后不同类型命名实体识别结果

表1 单独训练后不同类型命名实体识别结果

使用2个语料库进行融合模型训练,其命名实体识别结果见表2.由表可知,2个语料库融合训练得到的所有指标都优于单独训练结果.对于MSRA-NER语料库,F1值由93.35%提升到94.46%.对于RMRB-1998-1语料库,F1值由93.89%提升到94.32%.

表2 融合训练后不同类型命名实体识别结果

表2 融合训练后不同类型命名实体识别结果

对比表1表2可知,各类别的F1值均有所提升.其中,提升最大的是MSRA-NER语料库中的人名类别,F1值提升约2%.究其原因在于,MSRA-NER语料库中人名较少,而RMRB-1998-1语料库来源于新闻,人名较多,两者融合训练后人名语料更充分.

在MSRA-NER语料库上,不同模型的命名实体识别效果见表3.

表3 MSRA-NER语料库上不同模型命名实体识别结果

表3 MSRA-NER语料库上不同模型命名实体识别结果

表3可知,对于MSRA-NER语料库,融合训练模型的识别结果优于大部分模型,较序列标注经典模型BiGRU-CRF模型[4]的F1值提升6.49%.但融合训练模型略低于BERT-BiGRU-CRF-f模型[4],这是因为后者使用的BERT-Base(12层,768个隐藏单元)参数量远多于本文自训练的BERT(3层,384个隐藏单元).

在RMRB-98-1语料库上,不同模型的F1值见表4.

表4 RMRB-98-1语料库上不同模型的F1值

表4 RMRB-98-1语料库上不同模型的F1值

上述实验结果表明,相比于基准模型,本文提出的BERT-DNN-CRF多准则融合模型可有效提高整体中文命名实体的识别效果.在MSRA-NER语料库上,其优于大部分模型,仅次于参数数量远大于本文模型的BERT-BiGRU-CRF-f模型.在RMRB-98-1语料库上,本文模型的F1值较参数更多的现有最优B-LSTM模型高1.85%.

3 结论

1)本文提出的基于多准则融合训练的中文命名实体识别方法,可以同时在多种不同准则标注的语料库上进行融合训练,生成统一的融合模型.通过减少BERT模型的规模,使用单GPU在自建中文综合语料库上完成预训练.使用预训练的简化版BERT模型,结合所提融合训练方法,在MSRA-NER语料库和RMRB-98-1语料库上进行了实验验证.

2)实验结果表明,简化版的BERT模型能较好地完成中文命名实体识别任务.融合训练得到的融合模型在MSRA-NER和RMRB-98-1语料库上的F1值分别达到94.46%和94.32%,优于各语料库独立模型.

3)融合训练能提升模型性能,说明单一语料库规模不够,不能满足复杂多变的语言现象.由此推测,增加语料库规模可提升融合模型性能.下一步的研究方向为扩展融合领域,将生物实体识别、军事实体识别等领域中不同准则的语料信息增加到语料库中,进一步提升中文命名实体整体融合识别效果.

参考文献