一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种结合词典的中文命名实体识别系统的制作方法

2022-02-20 20:07:12 来源:中国专利 TAG:


1.本发明属于文本处理领域,具体涉及一种结合词典的中文命名实体识别系统。


背景技术:

2.命名实体识别是自然语言处理中的基础任务之一。其旨在从非结构化文本中提取出人名、地名、机构名等有特定含义的实体名词。命名实体识别系统在各领域具有广泛的应用,如,在法律领域,命名实体系统可以提取出案件相关的人名、地名等要素;在医药领域中,可以提取出特定的药品、病症名等专有名词。另外,作为自然语言处理的下游任务,命名实体识别也对许多上游任务有所帮助,如,在关系抽取任务中,需要先对实体进行抽取,再进行关系的分类;在问答系统、阅读理解等任务中,需要预先标注出实体。
3.目前,主流的命名实体识别系统都基于神经网络,该系统由三部分组成,分别为输入表示层、序列建模层和输出解码层。其中,输入表示层一般为特征嵌入层,一般是将输入的离散的词表示成连续特征向量或one-hot向量,或根据具体情况加入一些特征表示,例如pos特征、分词特征等等。序列建模层一般为一个特定的神经网络模型,可以是循环神经网络、卷积神经网络等。输出解码层即为解码得到命名实体标注的输出层,常用的方法有利用softmax层得到输出概率分布,或利用crf层建模序列标注依赖的预测结果。
4.针对中文命名实体识别任务,由于中文语句没有天然的词边界,因此涉及到中文分词时会出现如下情况:对于有标准分词的数据集,使用词级别的模型能够取得很好的效果;而对于无标准分词的数据集,分词错误传播会导致命名实体识别的标注错误。针对上述问题,有人使用字级别的模型来避免分词错误传播,但是因为缺乏词信息从而导致效果有限。还有人通过将词典信息引入字级别的lstm模型(即lattice-lstm模型)来避免分词错误传播,但是该方法存在如下问题:首先,为了引入词典信息,lattice-lstm在普通lstm的基础上在所有匹配词的首尾两字间额外增加了一条通路,从而引入一个新的词级别lstm模块来计算词信息。这使得模型的计算量增加了数倍,导致计算效率低下。另外,因为lattice-lstm的结构是专门针对lstm设计的,因此无法迁移到其他模型结构中,通用性差,即在许多工业领域,需要将lattice-lstm的结构应用一些其他的模型,例如应用到cnn或transformer等模型中,而此时lattice-lstm的结构则无法继续使用。
5.除此之外,与lattice-lstm同类的模型都是通过改进序列建模层来结合词典特征,这些模型都存在有lattice-lstm相同的问题,即计算效率低、通用性差。


技术实现要素:

6.为解决上述问题,提供一种只针对输入表示层进行改进,不需要针对序列建模层额外涉及结构的具有较好通用性以及较快计算速率的中文命名实体识别系统,本发明采用了如下技术方案:
7.本发明提供了一种结合词典的中文命名实体识别系统,用于对待识别句子进行识别得到中文命名实体,其特征在于,包括:词典表示模块,将待识别句子转化为字嵌入特征,
并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示;序列建模模块,利用预定的神经网络对输入表示进行编码得到编码后特征表示;以及解码输出模块,基于编码后特征表示利用预定的解码算法对待识别句子进行解码得到中文命名实体。
8.根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,词典表示模块的工作过程包括如下步骤:步骤s11-1,基于预定的预训练中文字向量以字为单位将所述待识别句子转化为字嵌入特征;步骤s11-2,在所述词典中,针对所述待识别句子中每个字进行匹配得到多个包含所述字的匹配词,从而构成与所述字对应的匹配词集合;步骤s11-3,根据所述字在所述匹配词中的位置对每个所述匹配词集合中所有所述匹配词进行分类得到与所述字对应的复数个匹配词子集;步骤s11-4,在预定的词向量表中对所述匹配词子集中的所有所述匹配词进行检索得到与所述匹配词对应的词向量,利用预定的权重分配规则为每个所述匹配词分配对应的权重进而得到与所述字对应的权重并设为词权重,基于所述匹配词子集的数量、所述词向量以及所述词权重利用预定的加权方法计算得到与所述匹配词子集对应的特征向量,将所述特征向量作为子集特征向量;步骤s11-5,将与所述字对应的所述匹配词子集的所有所述子集特征向量串联,得到与所述字对应的词特征表示,并将该词特征表示与所述字嵌入特征串联得到所述输入表示。
9.根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,步骤s11-3中匹配词子集分别为begin集合、middle集合、end集合以及single集合,步骤s11-4中的加权方法为:
[0010][0011]
式中,b为begin集合,m为middle集合,e为end集合,s为single集合,u为b、m、e、s中任意集合,w为匹配词,e(w)为词向量,z(w)为与匹配词对应的权重,z为与字对应的词权重。
[0012]
根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,神经网络为循环神经网络、卷积神经网络或transformer中的任意一种。
[0013]
根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,词典为lattice-lstm中提供的词典。
[0014]
根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,解码算法为条件随机场算法。
[0015]
根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,词典表示模块的工作过程包括如下步骤:步骤s12-1,将所述待识别句子输入预先训练好的语言模型中,得到每个字的上下文字向量作为字嵌入特征;步骤s12-2,在所述词典中,针对所述待识别句子中每个字进行匹配得到多个包含所述字的匹配词,从而构成与所述字对应的匹配词集合;步骤s12-3,根据所述字在所述匹配词中的位置对每个所述匹配词集合中所有所述匹配词进行分类得到与所述字对应的复数个匹配词子集;步骤s12-4,在预定的词向量表中对所述匹配词子集中的所有所述匹配词进行检索得到与所述匹配
词对应的词向量,利用预定的权重分配规则为每个所述匹配词分配对应的权重进而得到与所述字对应的权重并设为词权重,基于所述匹配词子集的数量、所述词向量以及所述词权重利用预定的加权方法计算得到与所述匹配词子集对应的特征向量,将所述特征向量作为子集特征向量;步骤s12-5,将与所述字对应的所述匹配词子集的所有所述子集特征向量串联,得到与所述字对应的词特征表示,并将该词特征表示与所述字嵌入特征串联得到所述输入表示。
[0016]
根据本发明提供的一种结合词典的中文命名实体识别系统,还可以具有这样的技术特征,其中,步骤s12-1中的语言模型为bert模型。
[0017]
发明作用与效果
[0018]
根据本发明的一种结合词典的中文命名实体识别系统,由于词典表示模块将待识别句子转化为字嵌入特征,并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示,进一步地,序列建模模块利用预定的神经网络对输入表示进行编码得到编码后特征表示,因此输入表示中包含了词典信息,不需要对序列建模模块中的神经网络进行特殊的设计从而引入词典信息,因此较少了神经网络的计算量,间接地提升了整个系统的计算速率。并且词典表示模块输出的输入表示可以应用到任意神经网络中,具有较好的通用性。
[0019]
本系统通过词典表示模块结合了完整的词典信息,并且不需要额外对序列建模模块进行设计,从而具有较高的计算速率以及较好的通用性。
附图说明
[0020]
图1为本发明实施例的一种结合词典的中文命名实体识别系统的结构框图;
[0021]
图2为本发明实施例的一种结合词典的中文命名实体识别系统工作过程的流程示意图;
[0022]
图3为本发明实施例的词典表示模块的工作过程的流程图;
[0023]
图4为本发明实施例的一种结合词典的中文命名实体识别系统工作过程的流程图;以及
[0024]
图5为本发明变形例的词典表示模块的工作过程的流程图。
具体实施方式
[0025]
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,以下结合实施例及附图对本发明的一种结合词典的中文命名实体识别系统作具体阐述。
[0026]
《实施例》
[0027]
本发明实施例中的一种结合词典的中文命名实体识别系统是对待识别句子进行识别得到中文命名实体。
[0028]
为了更好地理解本发明内容,待识别句子以“中国语言学”(如图所示)为例,进而更好地展示本系统的工作流程。
[0029]
图1为本发明实施例的一种结合词典的中文命名实体识别系统的结构框图。
[0030]
如图1所示,一种结合词典的中文命名实体识别系统1包括词典表示模块11、序列
建模模块12以及解码输出模块13。
[0031]
词典表示模块11将待识别句子转化为字嵌入特征,并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示。
[0032]
图3为本发明实施例的词典表示模块的工作过程的流程图。
[0033]
如图3所示,词典表示模块11的工作过程包括如下步骤:
[0034]
步骤s11-1,基于预定的预训练中文字向量以字为单位将待识别句子转化为字嵌入特征。
[0035]
其中,预训练中文字向量由lattice-lstm提供,具体地,预训练中文字向量通过word2vec方法在chinese giga-word上预训练得到。
[0036]
具体地,待识别句子为“中国语言学”,基于预定的预训练中文字向量以字为单位将待识别句子转化为字嵌入特征c1、c2、c3、c4、c5、c6(如图2所示)。
[0037]
步骤s11-2,在词典中,针对待识别句子中每个字进行匹配得到多个包含字的匹配词,从而构成与字对应的匹配词集合。
[0038]
如图2所示,针对“中国语言学”中的“语”字匹配到的匹配词集合为{“中国语言”,“语言学”,“语言”,“国语”,“中国语”,“语”}。
[0039]
本实施例中,匹配词的确定过程为先对待识别句子进行随机切分得到多个切分片段;然后,判断切分片段在词典中是否存在,判断为是时,将切分片段作为匹配词,判断为否时,对下一个切分片段进行判断,直到对所有切分片段完成判断,最后得到所有匹配词。
[0040]
例如,待识别句子为“李明住在中山西路”时,切分片段“李明”、“中山”、“山西”、“中山西路”及所有单字词在词典中均存在,将上述切分片段以及单子词作为该待识别句子的匹配词。
[0041]
对于一个句子中的所有字,挑选出包含该字的所有匹配词组成该字的匹配词集合。以“李明住在中山西路”为例,“山”字的匹配词集合为{“山西”,“中山西路”,“中山”,“山”}。
[0042]
步骤s11-3,根据字在匹配词中的位置对每个匹配词集合中所有匹配词进行分类得到与字对应的复数个匹配词子集。
[0043]
如图2所示,针对“语”字的匹配词集合{“中国语言”,“语言学”,“语言”,“国语”,“中国语”,“语”}而言,对应的b集合为{“语言学”,“语言”},m集合为{“中国语”},e集合为{“国语”,“中国语”},s集合为{“语”}。
[0044]
本实施例中,根据字在匹配词中的位置,对每个匹配词集合中所有匹配词分类成四类,从而得到四个匹配词子集,分别为begin(简称b)集合、middle(简称m)集合、end(简称e)集合以及single(简称s)集合。
[0045]
begin集合中匹配词的特点为字在匹配词的开头,middle集合中匹配词的特点为字在匹配词的中间,end集合中匹配词的特点为字在匹配词的结尾,single集合中匹配词的特点为字独立组成匹配词。
[0046]
具体地,针对“山”字的匹配词集合{“山西”,“中山西路”,“中山”,“山”},b集合为{“山西”},m集合为{“中山西路”},e集合为{“中山”},s集合为{“山”}。
[0047]
另外,当没有对应位置的匹配词时,begin集合、middle集合、end集合以及single
集合对应的为空。如,针对“路”字的匹配词集合{“中山西路”,“路”},则b集合为{“none”},m集合为{“none”},e集合为{“中山西路”},s集合为{“路”}。
[0048]
步骤s11-4,在预定的词向量表中对匹配词子集中的所有匹配词进行检索得到与匹配词对应的词向量,利用预定的权重分配规则为每个匹配词分配对应的权重进而得到与字对应的权重并设为词权重,基于匹配词子集的数量、词向量以及词权重利用预定的加权方法计算得到与匹配词子集对应的特征向量,将特征向量作为子集特征向量。
[0049]
如图2所示,针对“语”字的匹配词子集b集合中“语言学”的分配到的权重为f
3,4
,“语言”分配到的权重为f
3,5
,通知可得其他集合中每个匹配词的权重。
[0050]
其中,加权方法为:
[0051][0052]
式中,b为begin集合,m为middle集合,e为end集合,s为single集合,u为b、m、e、s中任意集合,w为匹配词,e(w)为词向量,z(w)为与匹配词对应的权重,z为与字对应的词权重。
[0053]
权重分配规则为先采用最长字符串匹配原则统计每个匹配词在b集合、m集合、e集合以及s集合上出现的频率,即只统计每句待识别句子中与词典匹配的最长子串数目,而忽略最长子串包含的子串个数,如“李明在中山西路”这句话中,只统计“中山西路”,而不统计“中山”的个数。然后,根据统计到的频率确定每个匹配词的权重(即静态统计量)。
[0054]
步骤s11-5,将与字对应的匹配词子集的所有子集特征向量(即soft-lexicon特征)串联,得到与字对应的词特征表示,并将该词特征表示与字嵌入特征串联(即拼接操作)得到输入表示。
[0055]
序列建模模块12利用预定的神经网络对输入表示进行编码得到编码后特征表示。
[0056]
其中,神经网络为循环神经网络、卷积神经网络或transformer中的任意一种。
[0057]
本实施例中,神经网络为循环神经网络,具体地为基于循环神经网络的双向长短期记忆网络。训练该网络时,先将用于训练的中文命名实体识别语料处理成字级别语料(即每个字对应一个标签)。然后,根据conll数据形式将字级别语料处理成每个字为一行空白符后连接该字对应标签的形式。最后,将处理后的conll形式训练集输入网络中,并选择合适的batch size、hidden size等参数进行训练从而得到训练好的基于循环神经网络的双向长短期记忆网络。
[0058]
其中,针对字级别语料的标注规则为“bmes”规则。
[0059]
另外,本实施例中编码后特征表示是由反向特征表示与正向特征表示串接得到。
[0060]
解码输出模块13基于编码后特征表示利用预定的解码算法对待识别句子进行解码得到中文命名实体(即预测结果)。
[0061]
如图2所示,在解码输出模块13输出的中文命名实体中,o代表这个字不是实体,b-loc代表这个字是location的开头,e-loc代表这个字是location的结尾
[0062]
其中,解码算法为条件随机场算法(简称crf)。
[0063]
具体地,解码输出模块13通过计算待识别句子中各个位置输出不同标签的联合概
率得到考虑整体标签依赖的中文命名实体。
[0064]
图4为本发明实施例的一种结合词典的中文命名实体识别系统工作过程的流程图。
[0065]
如图4所示,一种结合词典的中文命名实体识别系统1工作过程包括如下步骤:
[0066]
步骤s21-1,词典表示模块11将待识别句子转化为字嵌入特征,并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示,然后进入步骤s21-2;
[0067]
步骤s21-2,序列建模模块12利用预定的神经网络对输入表示进行编码得到编码后特征表示,然后进入步骤s21-3;
[0068]
步骤s21-3,解码输出模块13基于编码后特征表示利用预定的解码算法对待识别句子进行解码得到中文命名实体,然后进入结束状态。
[0069]
实施例作用与效果
[0070]
根据本实施例提供的结合词典的中文命名实体识别系统1,由于词典表示模块11将待识别句子转化为字嵌入特征,并在预定的词典中对待识别句子进行匹配得到由多个匹配词组成的匹配词集合,对匹配词集合进行处理得到特征向量,将特征向量与字嵌入特征串联得到输入表示,进一步地,序列建模模块12利用预定的神经网络对输入表示进行编码得到编码后特征表示,因此输入表示中包含了词典信息,不需要对序列建模模块12中的神经网络进行特殊的设计从而引入词典信息,因此较少了神经网络的计算量,间接地提升了整个系统1的计算速率。并且词典表示模块11输出的输入表示可以应用到任意神经网络中,具有较好的通用性。
[0071]
另外,在实施例中,由于权重分配规则为先采用最长字符串匹配原则统计每个匹配词在b集合、m集合、e集合以及s集合上出现的频率,因此统计到的频率更加真实,最长匹配词更符合分词规律。另外,该权重分配规则可以在任意中文数据上进行统计,方便领域的迁移,还可以通过更大的数据量统计获取更准确的统计量。除此之外,该统计可以在线下进行,不参与序列建模模块12中神经网络的计算过程,从而提升计算效率。
[0072]
《变形例》
[0073]
实施例中的词典表示模块11的工作过程中的步骤s11-1是基于预定的预训练中文字向量以字为单位将待识别句子转化为字嵌入特征,然而,为了获得更高的识别准确率,变形例利用预先训练好的语言模型对待识别句子中每个字进行编码得到上下文字向量作为字嵌入特征从而提升识别准确率。为了便于表达,本变形例中省略和实施例相同的说明。
[0074]
图5为本发明变形例的词典表示模块的工作过程的流程图。
[0075]
如图5所示,词典表示模块11的工作过程包括如下步骤:
[0076]
步骤s12-1,将待识别句子输入预先训练好的语言模型中,得到每个字的上下文字向量作为字嵌入特征。
[0077]
其中,语言模型为bert模型。
[0078]
步骤s12-2,在所述词典中,针对所述待识别句子中每个字进行匹配得到多个包含所述字的匹配词,从而构成与所述字对应的匹配词集合。
[0079]
步骤s12-3,根据所述字在所述匹配词中的位置对每个所述匹配词集合中所有所述匹配词进行分类得到与所述字对应的复数个匹配词子集。
[0080]
步骤s12-4,在预定的词向量表中对所述匹配词子集中的所有所述匹配词进行检索得到与所述匹配词对应的词向量,利用预定的权重分配规则为每个所述匹配词分配对应的权重进而得到与所述字对应的权重并设为词权重,基于所述匹配词子集的数量、所述词向量以及所述词权重利用预定的加权方法计算得到与所述匹配词子集对应的特征向量,将所述特征向量作为子集特征向量。
[0081]
步骤s12-5,将与所述字对应的所述匹配词子集的所有所述子集特征向量串联,得到与所述字对应的词特征表示,并将该词特征表示与所述字嵌入特征串联得到所述输入表示。
[0082]
变形例作用与效果
[0083]
根据本变形例提供的结合词典的中文命名实体识别系统11,由于步骤s12-1中使用预先训练好的bert语言模型对待识别句子进行编码从而得到上下文字向量,并作为字嵌入特征,因此步骤s12-5中的输入表示结合了上下文信息从而提升了本系统1的准确率。
[0084]
上述实施例仅用于举例说明本发明的具体实施方式,而本发明不限于上述实施例的描述范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献