一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于笔画卷积和词向量的中文命名实体识别方法及系统

2022-04-09 11:59:52 来源:中国专利 TAG:


1.本发明涉及命名实体识别技术领域,尤其是涉及基于笔画卷积和词向量 的中文命名实体识别方法及系统。


背景技术:

2.随着互联网技术的高速发展,非结构化数据不断增长,我们正处于一个 海量的、无结构的数据时代。如何高效地管理数据,从非结构化数据中提取 有效的信息,成为我们急需解决的问题。
3.命名实体识别(named entity recognition,ner)的目的是从非结构化文 本中识别出已定义的命名实体,例如,人名、地名、机构名等,是信息检索 和信息抽取的基础核心任务。中文ner是ner在中文领域的一个划分,由 于汉字自身的特点,中文ner仍存在许多难题。中文ner的主要困难有以 下几点:1)中文字符通常存在一字多义,在不同的文本语境中,含义可能会 有很大的区别;2)中文文本没有类似英文文本中含有空格等明显的实体边界 标识符;3)中文ner研究起步较晚,相关的标注数据集较少,存在领域单 一等问题。
4.现有的中文命名实体识别通常存在两种方法,基于词的序列标注方法和 基于字的序列标注方法。基于词的标注方法,首先利用分词工具对文本进行 切分,然后进行实体识别,这类方法词边界也是实体边界,若在分词阶段出 现错误,那么后续的ner模型也无法正确识别该实体。基于字的序列标注方 法通常存在语义不足的情况,所以人们主要考虑如何更好地利用词信息,一 些应用者在基于字的序列标注方法基础上引入外部词汇信息,并在输入层整 合到字向量表示中,这使得改变了模型本身,同时外部词向量的引入也使得 模型训练效率较低,最终对命名实体识别的准确率就降低;一些应用者在基 于字的序列标注方法基础上,仅基于笔画序列建立elmo模型,对于命名实体 识别的有效性和准确性方面存在缺陷。


技术实现要素:

5.针对上述问题,本发明提供了基于笔画卷积和词向量的中文命名实体识 别方法及系统,在命名实体识别方法中基于字的序列标注方法的基础上,考 虑到汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量 和字符特征向量后,在进行命名实体识别,提高命名实体识别的效果。
6.为实现上述目的,本发明提供了基于笔画卷积和词向量的中文命名实体 识别方法,包括:
7.获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
8.将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;
9.根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取 每个字在所述滑动窗口内的词向量;
10.拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量, 并输入
bilstm网络,获取每个汉字对应每种实体标签的得分;
11.采用crf模型对所述文本中每个汉字确定一个最佳的所述实体标签。
12.作为本发明的进一步改进,构建汉字到笔画序列的映射表,通过所述映 射表获取各汉字对应的所述笔画序列。
13.作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核对所述笔画序列进行卷积,获取所述笔画特征向量。
14.作为本发明的进一步改进,所述笔画卷积神经网络通过不同窗口大小的 卷积核卷积得到笔画特征图,将所述特征图进行最大池化和全连接,得到笔 画特征向量,公式为:
[0015][0016]
其中:
[0017]
w表示卷积神经网络训练中的权重;
[0018]mt,t k-1
表示输入的特征;
[0019]
b表示卷积神经网络训练中的偏置;
[0020]
作为本发明的进一步改进,所述笔画卷积神经网络训练过程中加入分类 损失函数l(cls):
[0021]
l(cls)=-logp(z|x)=-logsoftmax(w*semb)
[0022]
其中,
[0023]
x表示输入的笔画序列;
[0024]
z表示该笔画序列对应的中文标签;
[0025]
w表示网络中的参数;
[0026]
semb表示笔画特征向量。
[0027]
作为本发明的进一步改进,所述通过自注意力机制获取每个字在所述滑 动窗口内的词向量;包括:
[0028]
通过所述自注意力机制计算所述滑动窗口内每两个字之间的相似度;
[0029]
采用softmax函数根据所述相似度获取每个字在该所述滑动窗口中的词向 量。
[0030]
作为本发明的进一步改进,
[0031]
对所述滑动窗口内的每个汉字,根据所述字符特征向量生成对应的query 向量、key向量和value向量;
[0032]
计算所述query向量和key向量的点积获取每个字的得分,将所述得分 与每个字的所述value向量相乘,获取该字在该所述滑动窗口内的词向量。
[0033]
作为本发明的进一步改进,所述采用crf模型对所述文本中每个汉字确 定一个最佳的所述实体标签;包括:
[0034]
定义输入文本的字序列为x=(x1,x2,...,xn),预测标签序列为y= (y1,y2,

,yn);
[0035]
定义是bilstm网络模型输出的第i个字标注为标签yi的预测分 值;
[0036]
定义一个标签转移矩阵其中表示从标签yi转换为标签 yi 1的分数;
[0037]
通过计算每种所述预测标签序列的最终 得
分;
[0038]
将得分最高的所述预测标签序列作为最终的标签序列,根据标签获取到 中文命名实体。
[0039]
作为本发明的进一步改进,
[0040]
计算每种所述预测标签序列的条件概率
[0041]
若得分最高的所述预测标签序列的条件概率也最大,则将得分最高的所 述预测标签序列作为最终的标签序列。
[0042]
本发明还提供了基于笔画卷积和词向量的中文命名实体识别系统,包括 预准备模块、笔画特征获取模块、词向量获取模块、标签预测模块和最佳标 签获取模块;
[0043]
所述预准备模块,用于:
[0044]
获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
[0045]
所述笔画特征获取模块,用于:
[0046]
将所述笔画序列输入笔画卷积神经网络,获取笔画特征向量;
[0047]
所述词向量获取模块,用于:
[0048]
根据所述文本中实体的最大长度设置滑动窗口,通过自注意力机制获取 每个字在所述滑动窗口内的词向量;
[0049]
所述标签预测模块,用于:
[0050]
拼接所述文本中各汉字的所述笔画特征向量、词向量和字符特征向量, 并输入bilstm网络,获取每个汉字对应每种实体标签的得分;
[0051]
所述最佳标签获取模块,用于:
[0052]
采用crf模型对所述文本中每个汉字确定一个最佳的所述实体标签。
[0053]
与现有技术相比,本发明的有益效果为:
[0054]
本发明在命名实体识别方法中基于字的序列标注方法的基础上,考虑到 汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量和字 符特征向量后,在进行命名实体识别,提高命名实体识别的效果。
[0055]
本发明在笔画特征向量的求取过程,采用卷积的方法提取汉字的笔画特 征向量,卷积的方法更加适用于汉字笔画的数量范围;同时,卷积过程中选 择多窗口大小的卷积核对笔画序列进行卷积,获取最有效的笔画特征向量。
[0056]
本技术中求取汉字的词特征向量过程中,通过自注意力机制获取滑动窗 口中的词向量信息,弥补语义的不足,避免了现有技术中引入外部词汇情况 下使预测准确度下降的情况。
[0057]
本发明在笔画卷积神经网络训练过程中,加入分类损失函数,提高了笔 画卷积神经网络训练的准确性。
附图说明
[0058]
图1为本发明一种实施例公开的基于笔画卷积和词向量的中文命名实体 识别方法流程图;
[0059]
图2为本发明一种实施例公开的基于笔画卷积和词向量的中文命名实体 识别系
统示意图;
[0060]
图3为本发明一种实施例公开的笔画卷积神经网络示意图;
[0061]
图4为本发明一种实施例公开的自注意力机制模型示意图;
[0062]
图5为本发明一种实施例公开的双向时序模型及crf模型示意图。
具体实施方式
[0063]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发 明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述, 显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基 于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下 所获得的所有其他实施例,都属于本发明保护的范围。
[0064]
下面结合附图对本发明做进一步的详细描述:
[0065]
如图1所示,本发明提供的基于笔画卷积和词向量的中文命名实体识别 方法,包括:
[0066]
s1、获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
[0067]
其中,
[0068]
通过汉典网站获取训练过程训练集中每个汉字的笔画序列,构建汉字到 笔画序列的映射表,通过映射表获取该文本中各汉字对应的笔画序列。
[0069]
例如:如图3所示的“清”字,通过映射表得到笔画序列为“丶丶一一 丨一丨一一”。
[0070]
s2、将笔画序列输入笔画卷积神经网络,获取笔画特征向量;
[0071]
其中,
[0072]
如图3所示,笔画卷积神经网络通过不同窗口大小的卷积核对笔画序列 进行卷积,笔画卷积神经网络卷积后得到笔画特征图,将特征图进行最大池 化和全连接,得到笔画特征向量,公式为:
[0073][0074]
其中:
[0075]
w表示卷积神经网络训练中的权重;
[0076]mt,t k-1
表示输入的特征;
[0077]
b表示卷积神经网络训练中的偏置;
[0078]
本发明中在笔画卷积神经网络训练过程中加入分类损失函数,提高训练 的准确性,分类损失函数表示如下:
[0079]
l(cls)=-logp(z|x)=-logsoftmax(w*semb)
[0080]
其中,
[0081]
x表示输入的笔画序列;
[0082]
z表示该笔画序列对应的中文标签;
[0083]
w表示网络中的参数;
[0084]
semb表示笔画特征向量。
[0085]
s3、根据文本中实体的最大长度设置滑动窗口,通过自注意力机制获取 每个字在滑动窗口内的词向量;
[0086]
其中,
[0087]
基于字的序列标注方法,通常存在语义不足的问题,为了更好的利用词 向量信息,通过sa机制(自注意力机制)获取滑动窗口内的词向量信息来解 决此问题。
[0088]
训练过程中获取训练集中实体的最大长度,以该最大长度作为滑动窗口, 通过自注意力机制计算滑动窗口内每两个字之间的相似度;然后采用softmax 函数根据相似度获取每个字在该滑动窗口中的词向量。
[0089]
具体的,对滑动窗口内的每个汉字,根据字符特征向量生成对应的query 向量、key向量和value向量;
[0090]
计算query向量和key向量的点积获取每个字的得分,将得分与每个字 的value向量相乘,获取该字在该滑动窗口内的词向量。
[0091]
例如:
[0092]
如图4所示,文本内容为“北京市”,则e1、e2、e3分别为每个字对应的 字符特征向量,对于每个字会生成一个query向量,一个key向量和一个value 向量,这些向量是通过每个字对应的字符特征向量e1、e2、e3乘以训练过程中 创建的三个权重矩阵得来的;通过query向量和key向量之间的点积来计算 每个字对应的得分,然后将该得分与对应的value向量相乘得到每个字在该滑 动窗口内对应的词向量,公式为:
[0093][0094]
s4、拼接文本中各汉字的笔画特征向量、词向量和字符特征向量,并输 入bilstm网络,获取每个汉字对应每种实体标签的得分;
[0095]
其中,
[0096]
拼接是一种向量维度的直接拼接,如某汉字的笔画特征向量可表示为 1*20、词向量可表示为1*30、字符特征向量可表示1*60,则拼接后可获得拼 接特征向量1*110。
[0097]
bilstm(bi-directional long short-term memory)为双向长短时记忆网 络;lstm(long short-term memory)是长短时记忆网络是一种改进的时序 网络,它解决了梯度消息问题,并实现了对长距离信息的有效利用,lstm只 能获取单方向的时序信息,但上下文信息都对ner(命名实体识别)任务有 着重要的影响,因此,本技术采用bilstm网络获取上下文信息;
[0098]
如图5所示,以“北京史料”为例,经过正向lstm计算和反向lstm 计算获得每个字对应多种标签的得分,此处标签是预先设置的,可以包括: 地址、时间、人名、书籍名称等等。
[0099]
s5、采用crf模型对文本中每个汉字确定一个最佳的实体标签。
[0100]
其中,
[0101]
由于ner任务中,通常相邻的标签之间有很强的约束关系,例如在b-loc 标签(地址的开始标签)后只能是i-loc标签或o标签,不能为b-per标签 (人名的开始标签)等其他标签。所以在通过bilstm网络进行序列建模后, 本文采用条件随机场(conditional random field,crf)对整个序列进行标签 预测,具体为:
[0102]
定义输入文本的字序列为x=(x1,x2,...,xn),预测标签序列为y= (y1,y2,...,yn);y(x)表示文本所有可能的标签序列集合;
[0103]
定义是bilstm网络模型输出的第i个字标注为标签yi的预测分 值;
[0104]
定义一个标签转移矩阵其中表示从标签yi转换为标签 yi 1的分数;
[0105]
通过计算每种预测标签序列的最终得分;
[0106]
将得分最高的预测标签序列作为最终的标签序列,根据标签获取到中文 命名实体。
[0107]
进一步的,
[0108]
可设置损失函数,如:
[0109]
计算每种预测标签序列的条件概率
[0110]
若得分最高的预测标签序列的条件概率也最大,则将得分最高的预测标 签序列作为最终的标签序列。
[0111]
最后通过维特比算法寻找最佳的标签序列,公式为:
[0112][0113]
如图2所示,本发明还提供了基于笔画卷积核词向量的中文命名实体识 别系统,包括预准备模块、笔画特征获取模块、词向量获取模块、标签预测 模块和最佳标签获取模块;
[0114]
预准备模块,用于:
[0115]
获取文本中各汉字对应的笔画序列及各汉字的字符特征向量;
[0116]
笔画特征获取模块,用于:
[0117]
将笔画序列输入笔画卷积神经网络,获取笔画特征向量;
[0118]
词向量获取模块,用于:
[0119]
根据文本中实体的最大长度设置滑动窗口,通过自注意力机制获取每个 字在滑动窗口内的词向量;
[0120]
标签预测模块,用于:
[0121]
拼接文本中各汉字的笔画特征向量、词向量和字符特征向量,并输入 bilstm网络,获取每个汉字对应每种实体标签的得分;
[0122]
最佳标签获取模块,用于:
[0123]
采用crf模型对文本中每个汉字确定一个最佳的实体标签。
[0124]
本发明的优点:
[0125]
本发明在命名实体识别方法中基于字的序列标注方法的基础上,考虑到 汉字的笔画序列对汉字的影响,结合汉字的笔画特征向量、词特征向量和字 符特征向量后,在进行命名实体识别,提高命名实体识别的效果。
[0126]
本发明在笔画特征向量的求取过程,采用卷积的方法提取汉字的笔画特 征向量,卷积的方法更加适用于汉字笔画的数量范围;同时,卷积过程中选 择多窗口大小的卷积核对笔画序列进行卷积,获取最有效的笔画特征向量。
[0127]
本技术中求取汉字的词特征向量过程中,通过自注意力机制获取滑动窗 口中的词向量信息,弥补语义的不足,避免了现有技术中引入外部词汇情况 下使预测准确度下降的情况。
[0128]
本发明在笔画卷积神经网络训练过程中,加入分类损失函数,提高了笔 画卷积神经网络训练的准确性。
[0129]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域 的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围 之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献