一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于局部和全局字符表征增强的中文命名实体识别方法

2022-12-10 11:19:16 来源:中国专利 TAG:


1.本发明涉及基于局部和全局字符表征增强的中文命名实体识别方法,属于自然语言处理技术领域。


背景技术:

2.中文命名实体识别(cner)是一项基本的信息提取任务,在信息检索、文本自动文摘、问答、机器翻译、知识图等自然语言处理(nlp)应用中起着至关重要的作用。cner的目标是从句子中提取一些预定义的特定实体,并识别它们的正确类型,如人称、位置、组织。针对cner,目前的方法主要是基于深度学习的方法,将其视为一个序列标注任务,与基于统计的方法不同,基于深度学习的方法使用分布式表示而不是人工设计的特征来表示字符。使用编码器如lstm,cnn和transformer,将文本中的每个字符被序列化,然后,可以根据标签方案对自动标记的序列进行解码,并且可以整合文本中由多个字符组成的命名实体。
3.中文命名实体的构成比英语命名实体复杂,中文里的字可以看作是英语中介于字和词之间的一个概念。汉字的语义比英文多,比词的语义少。有些汉字有其独立的含义,但更多的汉字需要与其他汉字组合成一个有意义的词。汉字作为文本的基本单位,没有明确的分词符号,模糊的词边界会造成大量的边界歧义,增加了定义中文命名实体边界的难度。因此,词边界信息在汉语中是必不可少的,在cner任务中有许多组合词典信息来增强词边界信息的方法,比如lattice和softlexicon等结构在字符嵌入上融合词嵌入来表示字符以增强实体边界和类型信息。在cner任务中还有许多引入外部信息的方法。比如外部词典,笔划、拼音、部首和字形特征作为辅助信息,进一步增强了嵌入向量的语义表示能力。这些方法已被证明是有效的,并有助于提高命名实体识别模型的性能。比如flat-lattice,借助transformer的强大功能和精心设计的位置编码,可以充分利用lattice信息,具有出色的并行化能力,充分发挥模型捕获远程上下文依赖能力方面的优势。但是错误的引入词信息难免会带来实体边界判断有误和语意歧义等问题,会影响这类模型的实体识别性能。导致实体抽取模型的准确率下降。另一方面,中文字符的字形结构具有独立的语意,代表了特定的实体含义,这种字形结构称为字符的局部信息。具体来说,中文是一种象形文字,由形旁和声旁两部份组成,形旁的表义功能比较强,具有相同形旁的中文字符有相近的实体含义。利用字符字形增强的模型还比较少,而且仍然存在以下不足:(1)模型只对字形的结构或者部首等某一方面进行特征抽取,这限制了模型对字形表征全面的学习。(2)模型提取出字形表征后,如何与自身的嵌入层向量进行加权融合也没有提出较好的方法,这会影响ner模型的结果。
4.针对以上问题,本发明提出一种基于局部和全局字符表征增强的中文命名实体识别方法。目前主流的ner方法没有考虑汉字全面的空间和序列两个方面的字符信息。由于中文字符底层本身就携带了大量的语意信息,重要的是如何将其有效的抽取出来并运用在ner任务上,从这一角度出发,本发明使用了字的形旁结构和序列增强字符潜在边界和语意信息,并使用交互门控机制有效得到了综合字符局部和全局的信息,提升了基于字符ner模
型的性能。在中文命名实体数据集imcs21和cmeee进行了理论与技术的验证,实验结果充分证明了该方法的有效性。


技术实现要素:

5.为了解决上述问题,本发明提供了基于局部和全局字符表征增强的中文命名实体识别方法,本发明利用自编码机制融合形旁的空间信息和序列信息等字符的不同局部信息,并利用交互门控机制控制字符局部信息和全局信息对于字符表征的贡献程度,从而获得综合的字符表征来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力;在两个中文ner基准数据集上对所提出的方法进行了评估,各种实验结果不仅证明了本方法的有效性,而且表明本方法能够提高对特定领域和密切相关实体的表示能力。
6.本发明的技术方案是:基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
7.step1、将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
8.step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
9.step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
10.step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
11.step5、首先在领域语料库上使用word2vec的skip-gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
12.step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进行信息筛选,得到综合表征;之后将综合表征送入到bi-lstm进行上下文编码,然后crf被用作解码层,来得到输出结果的标签。
13.作为本发明的进一步方案,所述step1中,将输入句子视为字符序列s={c1,c2,
···
,cn},然后将每个字符ci都映射到一个密集向量表示得到每个句子的字符嵌入:
[0014][0015]
其中ec表示字符嵌入查找表。
[0016]
作为本发明的进一步方案,所述step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络cnn中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
[0017]
作为本发明的进一步方案,所述step2包括如下步骤::
[0018]
step2.1、将第i个字符ci拆分为k个部分,如果某个字符成分的长度不足k,则将空缺位置用“《pad》”来填充,然后对每个字符成分进行随机嵌入操作er:
[0019][0020]
step2.2、将所获得字符的随机嵌入序列送入卷积核大小为3的卷积操作conv3,得到字符隐向量序列
[0021][0022]
step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max-pooling,然后送入一个全连接层fc进行维度变换,得到该字符的字形序列嵌入该字符的字形序列嵌入维度大小为do;
[0023][0024]
作为本发明的进一步方案,所述step3中,字形结构特征能从字符图像中获取丰富的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
[0025]
作为本发明的进一步方案,所述step3包括如下步骤:
[0026]
step3.1、将ci字符转换为对应的6种不同字体的灰度图像其中为第j种字体的大小为12
×
12的8bit灰度图像,将不同图像矩阵进行拼接,得到字符ci的结构图像
[0027][0028]
其中concat表示拼接操作;
[0029]
step3.2、然后,使用卷积核大小为5
×
5,有384个输出通道的卷积操作conv1,捕获低级别的图形特征,得到隐藏层向量
[0030][0031]
step3.3、使用模板大小为4
×
4的maxpooling操作,将的分辨率从8
×
8降低到2
×
2;再通过一个卷积核大小为1
×
1和ds个输出通道的卷积操作conv2,得到隐藏层向量
[0032][0033]
step3.4、最后,将送入卷积核大小为2的群卷积操作groupconv,并进行维度转化操作reshape,得到该字符的字形结构表征该字符的字形结构嵌入维度大小为ds;
[0034]
[0035]
reshape表示一个维度变换将2维向量变成一维的。
[0036]
作为本发明的进一步方案,所述step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
[0037]
作为本发明的进一步方案,所述step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述step4包括如下步骤:
[0038]
step4.1、首先将字形结构特征字形序列特征和字符嵌入进行拼接,得到初始拼接向量
[0039][0040]
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大小,dc表示字符的预训练嵌入维度大小;
[0041]
step4.2、然后,将进行以下两次线性变换和激活,得到隐向量
[0042][0043]
step4.3、用重构最初的拼接向量,得到重构向量
[0044][0045]
step4.4、使用均方误差损失函数计算和之间的损失lossf:
[0046][0047]
step4.5、将损失加入主模型序列标注模型中,通过ner下游任务激励以上重构过程,获得经过中间层压缩但没有损耗的信息,将中间层的隐向量作为融合的局部表征。
[0048]
作为本发明的进一步方案,所述step5包括如下步骤:
[0049]
step5.1、字符ci在一个使用skip-gram模型预训练好的词典d中进行查询匹配;如果d中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集b(ci),m(ci),e(ci),s(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集b(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集m(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集e(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集s(ci);
[0050]
step5.2、统计出字符ci匹配到的某个词w在训练数据中出现的次数m,以及字符ci匹配到的所有的词在训练集数据中出现的总次数m,则字符ci匹配到的某个词w的频率为:
[0051][0052]
step5.3、将匹配词集b(ci)中每一个词的词向量乘以其权重并加和,得到字符ci作为词语起始字符的表征
[0053][0054]
其中,ed(w)表示词w的嵌入向量;
[0055]
step5.4、循环执行step5.3中同样的方法,获得字符ci作为词语中间字符的表征作为词语末尾字符的表征以及作为独立词语的表征
[0056]
step5.5、将字符ci的四种表示组合起来得到每个字符的全局表征dg表示字符的全局表征维度大小;
[0057][0058]
作为本发明的进一步方案,所述step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向lstm网络来提取句子上下文特征,条件随机场crf被用作解码层,将经过上下文编码器编码后的向量将送到crf中,通过最小化负最大似然函数找到概率最大的标签序列。
[0059]
本发明的有益效果是:本发明通过融入中文字符的形旁局部信息和领域术语全局信息来增强字符表示,增强了字符的语义和潜在边界信息,使主模型获得更好的实体识别能力。相比于基于外部信息的中文ner模型,本发明的方法在嵌入层利用自编码网络结合字形信息,并使用交互门控机制将字符的局部信息和全局信息进行过滤,使主模型准确识别领域实体的边界和类别。各种实验结果不仅证明了本发明模型的有效性,而且表明本发明主模型能够提高对特定领域和密切相关实体的表示能力。本发明主模型在两个个基准中文数据集上的性能基本上都优于现有的方法。
附图说明
[0060]
图1为本发明中的流程图;
[0061]
图2为本发明提出的提取字形序列特征的模型图;
[0062]
图3为本发明提出的提取字形结构特征的模型图;
[0063]
图4为本发明自编码后隐藏层向量维度实验折线图。
具体实施方式
[0064]
实施例1:如图1-图4所示,基于局部和全局字符表征增强的中文命名实体识别方法,所述方法包括如下步骤:
[0065]
step1、本发明使用数据集有两个,一个是中国计算语言学大会(ccl)提供的数据集imcs21,包括6万余条句子。另一个是cmeee数据集,包含2万多条句子。这两个数据集的具体数据如表1所示:
[0066]
表1数据集统计
[0067][0068]
将在语料上所训练的字符向量作为字符的初始嵌入:将每个字符都映射到一个密集向量表示,得到每个句子的字符嵌入;
[0069]
作为本发明的进一步方案,所述step1中,将输入句子视为字符序列s={c1,c2,
···
,cn},然后将每个字符ci都映射到一个密集向量表示得到每个句子的字符嵌入:
[0070][0071]
其中ec表示字符嵌入查找表。
[0072]
step2、将字符拆分为形旁和其他的字符成分,然后用序列特征编码器来提取字符的字形序列特征;
[0073]
所述step2中,首先对数据集里的每个字使用拆字的字典来构建包含每个字的组成部分查询表;然后将字符拆分的序列送入到卷积神经网络cnn中提取字符的字形序列特征,再使用残差网络来优化卷积层,缓解神经网络深度加深的梯度消失问题,最后,利用最大池和全连通层得到字形序列特征嵌入。
[0074]
作为本发明的进一步方案,所述step2包括如下步骤::
[0075]
step2.1、将第i个字符ci拆分为k个部分,如果某个字符成分的长度不足k,则将空缺位置用“《pad》”来填充,然后对每个字符成分进行随机嵌入操作er:
[0076][0077]
step2.2、将所获得字符的随机嵌入序列送入卷积核大小为3的卷积操作conv3,得到字符隐向量序列
[0078][0079]
step2.3、将该字符隐向量序列中每一个字符成分所对应的向量进行max-pooling,然后送入一个全连接层fc进行维度变换,得到该字符的字形序列嵌入该字符的字形序列嵌入维度大小为do;
[0080][0081]
step3、将单个字符视为二维图像,通过图像特征编码器来获得字符的字形结构特征;其中汉字所对应的图像通过的多个卷积层,捕获低级别的图形特征,再使用自适应池化操作并应用群卷积映射到最终字形结构特征;
[0082]
作为本发明的进一步方案,所述step3中,字形结构特征能从字符图像中获取丰富
的象形文字信息,以提升中文命名实体识别模型性能;对于不同字体类型的图像,将其拼接到一起来表示该字的结构图像,将字符图片通过多个卷积层和多个输出通道,捕获低级别的字形结构特征。
[0083]
作为本发明的进一步方案,所述step3包括如下步骤:
[0084]
step3.1、将ci字符转换为对应的6种不同字体的灰度图像其中为第j种字体的大小为12
×
12的8bit灰度图像,将不同图像矩阵进行拼接,得到字符ci的结构图像
[0085][0086]
其中concat表示拼接操作;
[0087]
step3.2、然后,使用卷积核大小为5
×
5,有384个输出通道的卷积操作conv1,捕获低级别的图形特征,得到隐藏层向量
[0088][0089]
step3.3、使用模板大小为4
×
4的maxpooling操作,将的分辨率从8
×
8降低到2
×
2;再通过一个卷积核大小为1
×
1和ds个输出通道的卷积操作conv2,得到隐藏层向量
[0090][0091]
step3.4、最后,将送入卷积核大小为2的群卷积操作groupconv,并进行维度转化操作reshape,得到该字符的字形结构表征该字符的字形结构嵌入维度大小为ds;
[0092][0093]
reshape表示一个维度变换将2维向量变成一维的。
[0094]
step4、采用自编码机制,对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合得到字符局部表征;
[0095]
作为本发明的进一步方案,所述step4中,首先将字符的字形结构特征、字形序列特征和预训练的字符嵌入拼接起来,再通过变换层得到一个自动融合的潜在向量,然后尝试从自融合的潜在向量重建最初拼接的向量,最后,通过计算原始向量和重构向量之间的欧氏距离,使用均方误差来计算损失,获得经过中间层压缩但没有损耗的信息。
[0096]
作为本发明的进一步方案,所述step4中,使用自编码网络来对字符的字形结构特征、字形序列特征和预训练的字符嵌入三种向量进行融合,通过最大化不同粒度输入之间的相关性,鼓励模型提取多粒度特征;具体的,所述step4包括如下步骤:
[0097]
step4.1、首先将字形结构特征字形序列特征和字符嵌入进行拼接,得到初始拼接向量
[0098][0099]
其中,ds表示字符的字形结构嵌入维度大小,do表示字符的字形序列嵌入维度大
小,dc表示字符的预训练嵌入维度大小;
[0100]
step4.2、然后,将进行以下两次线性变换和激活,得到隐向量
[0101][0102]
step4.3、用重构最初的拼接向量,得到重构向量
[0103][0104]
step4.4、使用均方误差损失函数计算和之间的损失lossf:
[0105][0106]
step4.5、将损失加入主模型序列标注模型中,通过ner下游任务激励以上重构过程,获得经过中间层压缩但没有损耗的信息,将中间层的隐向量作为融合的局部表征。
[0107]
step5、首先在领域语料库上使用word2vec的skip-gram模型训练一个领域词典,然后,对每个字符在词典中进行查询匹配,得到若干个词集合,再通过加权分配权并拼接最后得到字符的全局表征;
[0108]
作为本发明的进一步方案,所述step5包括如下步骤:
[0109]
step5.1、字符ci在一个使用skip-gram模型预训练好的词典d中进行查询匹配;如果d中的某个词w中包含有字符ci,则根据字符出现在该词中的不同位置情况,分别将其纳入到四个词集b(ci),m(ci),e(ci),w(ci)中;具体来说,如果ci出现在某个词w的开头位置,就将该词w归类到词集b(ci);如果ci出现在某个词w的中间位置,就将该词w归类到词集m(ci)中;如果ci出现在某个词w的尾部,就将该词w归类到词集e(ci);如果ci和某个词w相同,即字符为一个独立的词,就将该词w归类到词集s(ci);
[0110]
step5.2、统计出字符ci匹配到的某个词w在训练数据中出现的次数m,以及字符ci匹配到的所有的词在训练集数据中出现的总次数m,则字符ci匹配到的某个词w的频率为:
[0111][0112]
step5.3、将匹配词集b(ci)中每一个词的词向量乘以其权重并加和,得到字符ci作为词语起始字符的表征
[0113][0114]
其中,ed(w)表示词w的嵌入向量;
[0115]
step5.4、循环执行step5.3中同样的方法,获得字符ci作为词语中间字符的表征作为词语末尾字符的表征以及作为独立词语的表征
[0116]
step5.5、将字符ci的四种表示组合起来得到每个字符的全局表征dg表示字符的全局表征维度大小;
[0117][0118]
step6、在获得字符的局部表征和全局表征后,利用交互门控机制对两者的特征进
行信息筛选,得到综合表征;之后将综合表征送入到bi-lstm进行上下文编码,然后crf被用作解码层,来得到输出结果的标签。
[0119]
作为本发明的进一步方案,所述step6中,由于局部表征相比全局表征而言会存在信息冗余,因此利用交互门控机制对两者的特征进行信息筛选,从而得到合理的综合表征,由于句子中的上下文信息有助于序列建模,因此使用能捕获文本双向信息的双向lstm网络来提取句子上下文特征,条件随机场crf被用作解码层,将经过上下文编码器编码后的向量将送到crf中,通过最小化负最大似然函数找到概率最大的标签序列。
[0120]
所述step6包括如下步骤:
[0121]
基于字符的ner是一个连续的标记任务,相邻字符之间存在很强的约束关系。因此,还应该考虑字符在句子序列中的上下文信息。将句子序列送入bi-lstm网络来提取字符的句子序列表征公式如下:
[0122][0123][0124][0125]
在序列标签输出阶段,使用crf作为解码器。crf会基于前一个标签的结果影响当前标签的结果。具体而言,crf由一个发射矩阵和一个转移矩阵组成。发射矩阵记录每个标签的概率,m
i,j
表示第i个单词发射(预测)到第j个实体标签的概率。以及一个转换矩阵t∈r
tags
×
tags
,t
i,j
表示第j个标签转移到第i个标签的概率,用来模拟crf层中要学习的相邻标签之间的关系,是一个可学习的参数矩阵,它能够帮助显示地去建模标签之间的转移关系,提高命名实体识别的准确率。n是句子中的字符数,tags是实体标签数。字符通过bilstm编码后得到隐向量hi,使用h来表示输入序列的隐向量矩阵,然后送到crf中,通过最小化负最大似然函数找到概率最大的标签序列。公式如下:
[0126]
m=σ(w
t
h b
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0127][0128][0129]
其中,φ(s,y)为观测序列与标签序列之间的发射概率与标签序列转移分数之和,s表示观测序列,y为真实的标签。和b
t
∈rn×
tags
是线性层的参数,y表示有效标签序列的集合。
[0130]
使用负对数似然函数来计算标签分类的损失值:
[0131]
loss
cls
=-logp(y|s)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(22)
[0132]
y是真实的序列标签;
[0133]
最后,把标签分类损失和融合损失相加,得到模型最终的损失值。
[0134][0135]
为了说明本技术的效果,本发明比较了传统ner模型bi-lstm、基于词嵌入的cner模型(softlexicon,lgn和flat)等的效果,本发明提出的模型在进行实体识别时,能够更加准确判断实体的类型和边界,这得益于本发明模型利用了字形的结构和序列的向量在向量
空间的维度扩充了丰富的信息,使得相似类型的实体能够更加准确的预测,实验结果如表2所示,其中,lattice glyce为在lattice模型的嵌入层加入字形结构信息的实验结果结果。
[0136]
表2在cmeee和imcs21数据集上各模型的效果
[0137][0138]
可以观察到:1.本发明模型在所有模型中取得了最优性能。相比基模型中性能最好的mect,本发明模型的f1值在cmeee数据集中提升了1.04%,在imcs21中提升了0.62%。2.本发明的模型整体要优于以上比较的模型,有的模型在融入词信息的基础上都加入了字形信息,mect融入了部首信息,lattice glyce融入了字形,而本发明模型两者都有,后者则都是通过不同的方式融合了词信息的模型,这说明了外部的字形信息对理解中文语意有帮助。3.在cmeee数据集上,flat的召回率最高,说明在长句子中实体抽取能力较强,但其精确率却很低,导致整体的性能不如本发明的模型,本发明模型在长句子较多的cmeee数据集和短句子较多的imcs21数据集上都取得了最佳的f1值,证明了本发明模型有较强的鲁棒性。
[0139]
为了证明本发明模型的字形信息的有效性,对其进行了消融实验。其中,w/oglobal vector的实验是将本发明中模型的字符的全局表征去除,即模型只使用字形的信息增强后的字符表征。w/o glyph vector则是仅使用字符嵌入和全局表征,并用门控机制进行信息过滤,w/o glyph structure vector则是在进行局部特征融合时,去掉字形结构表征。w/o radical sequence vector是在进行局部特征融合时,去掉字形序列表征。在cmeee数据集上进行实验,实验结果如表3所示,在所有的数据集的结果可以看出,使用字形的图像信息可以有效的提升模型的性能,并且较强于使用字形的结构信息的提升效果,在融合这两种字形特征后模型的提升效果最为明显,由此证明对于使用字形信息来增强汉字字符表示能够对模型抽取实体性能有较好的提升。本发明进一步探索了自编码隐向量维度大小对模型的影响。将模型中隐向量维度大小设置为50至250,并在数据集cmeee集进行实验,结果如图4所示。从图中可以发现,当维度为200左右时模型的性能较好。如果隐向量维
度太低,表征能力不足,则模型性能下降较多。
[0140]
表3在cmeee数据集上进行消融实验的结果
[0141][0142]
为了证明本发明提出的模型的有效性,统计了各个模型识别实体的错误数量。表4显示了不同模型在两个数据集上实体识别错误的数量,包括实体头部边界错误(be)、实体尾部边界错误(ee)和实体类型错误(te)。我们的模型对比softlexicon在cmeee上的实体头部边界错误和实体尾部边界错误数量分别减少了377和394,实体类型错误减少了68,由结果来看,本发明的模型对实体的边界识别提升的效果显著。毫无疑问,本发明模型对于实体边界和实体类型的识别都是非常有益的。
[0143]
表4实体识别错误类型统计
[0144][0145]
为了证明本发明提出的局部特征和全局特征融合方法的有效性,本发明还在cmeee数据集上进行了其他3种融合方式的实验。filter_1的融合方式是将局部和全局表征直接相加,然后送入bi-lstm编码。filter_2的融合方式是将局部和全局表征直接拼接,然后送入bi-lstm编码。filter_3的融合方式是使用门控机制分别处理局部和全局表征,然后将处理后的向量相加,再送入bi-lstm编码。实验结果如表5所示。可以看到filter_1方式的效果不如filter_2,这可能是因为后者的方式能够完整的保存局部和全局的信息。filter_3加了门控后再加和,结果优于前两者。这可能得益于门控机制能够很好的筛选出局部和全局信息之间相关的重要部分,增强模型的拟合能力。本发明模型则是使用门控机制处理局部和全局表征后,将二者拼接,这样既能够完整的保存局部和全局的信息,又能筛选出两者的重要信息,从而取得最优的模型性能。
[0146]
表5局部和全局表征结合的消融实验
[0147][0148]
为了验证本发明的局部表征自编码融合的有效性,还在cmeee数据集上进行了其他2种局部特征融合方式的实验。fusion_1的方式是将字符嵌入,字形结构嵌入和字形序列嵌入直接拼接。fusion_2的方式是将字符嵌入,字形结构嵌入和字形序列嵌入经过线性变换后再相加。实验结果如表6所示。可以看出,本发明的自编码融合方式效果最好,比两外两种融合方式f1值高出0.51和1.67。需要注意的是,fuison_1的召回率最高,这可能是由于直接拼接能够较全面的利用3种局部向量来识别实体。但另一方面,三种向量所处的向量空间不同,差异较大,直接拼接会引入冗余信息,使得其精确率最低。相比之下,自编码方式能够更好的融合三种向量,从而兼顾实体识别的精确度和召回率。
[0149]
表6局部表征融合方式的消融结果
[0150][0151]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献