一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种命名实体识别方法、装置及存储介质

2022-06-17 23:01:06 来源:中国专利 TAG:


1.本发明涉及机器学习技术领域,特别涉及一种命名实体识别方法、装置及存储介质。


背景技术:

2.ner(命名实体识别,named entity recognition)是指识别出文本或字符串中具有特定意义的实体,主要包括人名、地名、机构名和专有名词等。评判一个命名实体是否被正确识别包括两个方面:实体的边界是否正确;实体的类型是否标注正确。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,中文命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
3.现有的命名实体识别方法主要包括:基于规则(rule-based)的方法、基于统计(statistic-based)的方法。
4.早期的命名实体识别大都是基于规则的方法,其多采用语言学家构造的规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾子)、中心词等方法,以模式和字符串相匹配为主要手段。该方法主要用于一些特征容易归纳的特定场合中。
5.基于统计的方法归根结底都是分类的方法,给定命名实体的多个类别,再使用模型对文本中的实体进行分类。可以分为两种思路:一种是先识别出文本中所有命名实体的边界,在对这些命名实体进行分类;另一类是序列化标注方法,对于文本中的每个词,可以有若干个候选的类别标签,这些标签对应于其在各类命名实体中的位置,此时ner任务就是对文本中的每个词进行序列化的自动标注,再将自动标注的标签进行整合,最终获得有若干词构成的命名实体及其类别。其中,序列化标注是最为有效,也是最普遍的ner方法。典型的方法有:svm(支持向量机,support vector machine)、me(最大熵,maximum entropy)、hmm(隐马尔可夫模型,hidden markov model)、crf(条件随机场,conditional random field)、神经网络(neural network)等。
6.现有技术的不足在于:由于各种命名实体识别方法原理上的固有局限,使得现有的识别模型中存在实体边界问题。


技术实现要素:

7.本发明提供了一种命名实体识别方法、装置及存储介质,用以解决基于字的命名实体识别模型中存在的实体边界问题。
8.本发明提供以下技术方案:
9.一种命名实体识别方法,包括:
10.以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
11.预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后
一个隐藏层拼接token补充信息;
12.在transformer最后一层位置上面串接一个softmax分类层;
13.分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
14.根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。
15.实施中,所述token补充信息为能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息。
16.实施中,所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
17.实施中,word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
18.positional represention的位置向量表示为:对位置信息进行位置的embedding后,获得位置的向量表示;
19.segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
20.实施中,所述预训练为masked language model的预训练。
21.实施中,使用bert模型进行预训练前,进一步包括:
22.预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
23.实施中,进一步包括:
24.对预训练获取的参数进行联合再训练。
25.一种命名实体识别装置,包括:
26.处理器,用于读取存储器中的程序,执行下列过程:
27.以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
28.预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;
29.在transformer最后一层位置上面串接一个softmax分类层;
30.分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
31.根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值;
32.收发机,用于在处理器的控制下接收和发送数据。
33.实施中,所述token补充信息为能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息。
34.实施中,所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
35.实施中,word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
36.positional represention的位置向量表示为:对位置信息进行位置的embedding
后,获得位置的向量表示;
37.segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
38.实施中,所述预训练为masked language model的预训练。
39.实施中,使用bert模型进行预训练前,进一步包括:
40.预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
41.实施中,进一步包括:
42.对预训练获取的参数进行联合再训练。
43.一种命名实体识别装置,包括:
44.预训练模块,用于以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
45.transformer模块,用于预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;
46.softmax模块,用于在transformer最后一层位置上面串接一个softmax分类层;
47.概率模块,用于分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
48.标签模块,用于根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。
49.实施中,transformer模块进一步用于使用能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息为所述token补充信息。
50.实施中,预训练模块进一步用于在所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
51.实施中,预训练模块进一步用于在所述bert模型输入的embedding是以下参数表征的求和:
52.word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
53.positional represention的位置向量表示为:对位置信息进行位置的embedding后,获得位置的向量表示;
54.segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
55.实施中,预训练模块进一步用于采用masked language model的预训练。
56.实施中,预训练模块进一步用于使用bert模型进行预训练前,预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
57.实施中,预训练模块进一步用于对预训练获取的参数进行联合再训练。
58.一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述命名实体识别方法的计算机程序。
59.本发明有益效果如下:
60.在本发明实施例提供的技术方案中,由于是以token分别使用字和分词后的词两
种方式使用bert模型进行预训练,因此,对于基于字的命名实体识别模型中存在的实体边界问题,通过基于字和词的bert模型来减少未登录实体在分词上出现的错误会向前传递的问题,从而提高模型性能;
61.由于使用的是transformer,相对于rnn而言更加高效、能捕捉更长距离的依赖,与之前的预训练模型相比,它捕捉到的是真正意义上的bidirectional context(双向上下文)信息;
62.对于基于字的bi-lstm-crf模型中存在的实体边界问题,由于采用的是基于字和词的融合调整的方式帮助确定实体边界,因此可以进一步提高模型性能;
63.由于会在被隐层的token在最后一个隐藏层拼接token补充信息,因此可以利用实体定义、实体描述信息、实体对应的结构化的知识图谱信息等的外部补充信息,对实体槽位进行补充进行编码,合理利用;
64.进一步的,由于对预训练获取的参数进行联合再训练,因此可以通过预训练模型的方式,再调整训练模型,解决目前的实体识别方法训练数据较少时,很难获得很好的训练模型的问题。
附图说明
65.此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
66.图1为本发明实施例中命名实体识别方法实施流程示意图;
67.图2为本发明实施例中bert模型结构示意图;
68.图3为本发明实施例中预训练模型结构示意图;
69.图4为本发明实施例中命名实体识别装置结构1示意图;
70.图5为本发明实施例中命名实体识别装置结构2示意图。
具体实施方式
71.发明人在发明过程中注意到:
72.现有的命名实体识别方法主要包括:基于规则(rule-based)的方法、基于统计(statistic-based)的方法。早期的命名实体识别大都是基于规则的方法,其多采用语言学家构造的规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾子)、中心词等方法,以模式和字符串相匹配为主要手段。当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。因此,该方法主要用于一些特征容易归纳的特定场合中。
73.基于统计的方法归根结底都是分类的方法,给定命名实体的多个类别,再使用模型对文本中的实体进行分类。可以分为两种思路:一种是先识别出文本中所有命名实体的边界,在对这些命名实体进行分类;另一类是序列化标注方法,对于文本中的每个词,可以有若干个候选的类别标签,这些标签对应于其在各类命名实体中的位置,此时ner任务就是对文本中的每个词进行序列化的自动标注,再将自动标注的标签进行整合,最终获得有若
干词构成的命名实体及其类别。其中,序列化标注是最为有效,也是最普遍的ner方法。典型的方法有:svm(支持向量机,support vector machine)、me(最大熵,maximum entropy)、hmm(隐马尔可夫模型,hidden markov model)、crf(条件随机场,conditional random field)、神经网络(neural network)等。
74.hmm是一种概率有向图模型,该模型主要作了两个假设,分别是“一阶马尔可夫假设”和“观测独立假设”,其中“一阶马尔可夫假设”描述了当前时刻的yt是由上一时刻的yt-1生成,模型只能对上文信息进行建模,无法对下文信息进行建模,使得模型的表达能力受到了限制。crf是一种概率无向图模型,该模型需要定义相关的特征模版,通过特征模版去扫描匹配整个句子,整个序列的特征由局部特征的线性加权组合得到,它不能灵活的考虑长远的上下文信息,但是可以灵活地应用局部上下文特征,此外它的模型表达可以涵盖hmm的模型参数,因此比hmm具有更强的表达能力。在神经网络方法中,bi-lstm(双向长短期记忆神经网络,bi-directional long short-term memory)在序列建模上很强大,能够捕获长远的上下文信息,此外还具备神经网络拟合非线性的能力,这些都是传统方法无法超越的地方,但是该方法缺少实体边界特征,在实体边界确定上极易出错,对于实体定义等的外部补充信息没有合理利用。此外,使用该方法需要较多有标注的训练数据,训练数据较少时,很难很好的训练网络。
75.现有技术的不足在于:由于各种方法原理上的固有局限,使得现有的识别方法容易出现识别错误。
76.如前所述,现有的中文命名实体识别方法主要有以下问题:
77.1、基于规则的方法依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,特别容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。
78.2、基于词的bi-lstm-crf模型需要先通过分词工具对文本或字符串分词,分词在未登录词上极易出错误,而人名、地名、机构名和专有名词等属于未登录词,使用该模型在分词上出现的错误会向前传递,影响模型性能。
79.3、基于字的bi-lstm-crf模型虽然在中文命名实体识别上的性能比基于词的bi-lstm-crf要高,但是基于字的bi-lstm-crf模型缺少实体边界信息,在实体边界识别上极易出错。
80.4、对于实体定义、实体描述信息、实体对应的知识图谱信息等的外部补充信息没有合理利用。没有利用知识图谱中结构化的实体信息。
81.5、使用目前的实体识别方法需要较多有标注的训练数据,训练数据较少时,很难很好的训练网络,得到理想的效果。
82.基于此,本发明实施例中提供的技术方案将至少解决上述问题之一,下面结合附图对本发明的具体实施方式进行说明。
83.图1为命名实体识别方法实施流程示意图,如图所示,可以包括:
84.步骤101、以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
85.步骤102、预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;
86.步骤103、在transformer最后一层位置上面串接一个softmax分类层;
87.步骤104、分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
88.步骤105、根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。
89.首先对bert模型结构的实施进行说明。
90.图2为bert模型结构示意图,如图所示,该模型以token(令牌)分别使用字和分词后的词两种方式使用bert模型进行预训练,预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息。最后一层位置上面串接一个softmax(软件最大值)分类层。分别得到基于字和基于词每个token的分类概率之后,再将基于词的每个token的分类概率转化基于字的标签概率,最后比较基于字和基于词的分类概率,取最高值作为该token的标签值。
91.其中,bert是一个预训练的模型,假设已有a训练集,先用a对网络进行预训练,在a任务上学会网络参数,然后保存以备后用,当来一个新的任务b,采取相同的网络结构,网络参数初始化的时候可以加载a学习好的参数,其他的高层参数随机初始化,之后用b任务的训练数据来训练网络,当加载的参数保持不变时,称为"frozen(冻结)",当加载的参数随着b任务的训练进行不断的改变,称为“fine-tuning(微调)”,即更好地把参数进行调整使得更适合当前的b任务。
92.这个模型的核心是聚焦机制,对于一个语句,可以同时启用多个聚焦点,而不必局限于从前往后的,或者从后往前的,序列串行处理。不仅要正确地选择模型的结构,而且还要正确地训练模型的参数,这样才能保障模型能够准确地理解语句的语义。bert用了两个步骤,试图去正确地训练模型的参数。
93.第一个步骤是把一篇文章中,15%的词汇遮盖,让模型根据上下文全向地预测被遮盖的词。假如有1万篇文章,每篇文章平均有100个词汇,随机遮盖15%的词汇,模型的任务是正确地预测这15万个被遮盖的词汇。通过全向预测被遮盖住的词汇,来初步训练transformer模型的参数。
94.然后,用第二个步骤继续训练模型的参数。譬如从上述1万篇文章中,挑选20万对语句,总共40万条语句。挑选语句对的时候,其中2*10万对语句,是连续的两条上下文语句,另外2*10万对语句,不是连续的语句。然后让transformer模型来识别这20万对语句,哪些是连续的,哪些不连续。
95.这两步训练合在一起,称为预训练(pre-training)。训练结束后的transformer模型,包括它的参数,即为通用的语言表征模型。
96.token分别使用字和分词后的词两种方式进行预训练,预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息。最后一层位置上面串接一个softmax分类层。分别得到基于字和基于词每个token的分类概率之后,再将基于词的每个token的分类概率转化基于字的标签概率,最后比较基于字和基于词的分类概率,取最高值作为该token的标签值。
97.实施中,所述token补充信息为能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息。
98.具体的,token补充信息为能够采集到的已知实体定义、实体描述信息、实体对应的结构化的知识图谱信息对应的词向量的平均。
99.下面对模型的输入实施进行说明。
100.实施中,所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
101.具体实施中,word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
102.positional represention的位置向量表示为:对位置信息进行位置的embedding后,获得位置的向量表示;
103.segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
104.token以字和词的方式分别预训练模型,以下以词为例进行预训练。使用所有可以使用的中文语料进行预训练。
105.图3为预训练模型结构示意图,如图所示,模型输入的embedding(嵌入)是3类表征的求和:word representation(词表示),positional represention(位置表示),segment represention(段表示)。
106.1)word representation词(字)向量化表示:
107.以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量,即word embedding(将数值表示的词表示,转换为具有固定大小的向量),获得token的词向量化表示。
108.2)positional represention位置向量表示:
109.对位置信息同样进行位置的embedding,获得位置的向量表示。序列的长度最长为512。
110.3segment represention句子向量表示:
111.对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
112.4)句子的开头用[cls]表示,结尾用[sep]表示,句子对中两个句子之间也用[sep]表示。
[0113]
下面对模型预训练的实施进行说明。
[0114]
实施中,所述预训练为masked language model的预训练。
[0115]
具体可以如下:
[0116]
task(任务)#1:masked lm
[0117]
为了训练双向特征,这里采用了masked language model(隐藏语言模型)的预训练方法,随机遮盖句子中的部分token(例如15%),然后训练模型来预测被去掉的token。被隐层的token在最后一个隐藏层得到的向量,被放入softmax中,去计算是字典中每个词的概率。
[0118]
具体操作是:
[0119]
随机mask语料中15%的token,然后将masked token位置输出的final hidden vectors(最终隐藏向量)送入softmax,来预测masked token(隐藏的令牌)。
[0120]
如果都用标记[mask]代替token会影响模型,所以在随机mask的时候采用以下策略:
[0121]
1)80%的词用[mask]token来代替:
[0122]
昨天看了电影阿凡达

昨天看了电影[mask]。
[0123]
2)10%的词用任意的词来进行代替:
[0124]
昨天看了电影阿凡达

昨天看了电影绿皮书。
[0125]
3)10%的词不变:
[0126]
昨天看了电影阿凡达

昨天看了电影阿凡达。
[0127]
task 2#:下一句预测
[0128]
实施中,使用bert模型进行预训练前,还可以进一步包括:
[0129]
预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
[0130]
具体的,为了训练一个具备理解长序列上下文的联系的能力、理解句子关系的模型,可以预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。可以如下:
[0131]
先准备训练集:(句子a,句子b),且50%的情况下b是a的后一句,50%的情况下b是在剩下的语料中随机取出的其他句子。label(标签)是两个句子的关系(是下一句/不是下一句),句子的开头用[cls]表示,结尾用[sep]表示,句子对中两个句子之间也用[sep]表示。例如:
[0132]
input=[cls]昨天看了电影[mask][sep]
[0133]
微软发布了机器人小冰[mask][sep]
[0134]
label=notnext
[0135]
input=[cls]昨天看了电影[mask][sep]
[0136]
[mask]真的特别喜欢[sep]
[0137]
label=isnext
[0138]
下面对模型fine-tuning的实施进行说明。
[0139]
槽位信息,即token补充信息,其可以为能够采集到的已知实体定义、实体描述信息、实体对应的结构化的知识图谱信息对应的词向量的平均。例如“看电影的时间”,token补充信息特征通过对描述语句中所有词的词向量进行平均得到token描述的编码向量。
[0140]
输出部分transformer最后一层每个单词对应位置都进行分类即可。对于序列级别的分类问题,在原来的bert模型上再加一层,w(k*h),k是要分类的类别数,h是transformer的因层数输出维度,再经过一个softmax层,预测类别的概率p(k维)=softmax(cw^t).
[0141]
实施中,还可以进一步包括:
[0142]
对预训练获取的参数进行联合再训练。
[0143]
所有的参数,包括bert原来预训练的参数,和新的w的参数,都会联合再训练,目标是使得模型预测的概率和真实的概率距离越小。
[0144]
下面对标签调整的实施进行说明。
[0145]
分别得到基于字和基于词每个token的分类概率之后,将基于词的每个token的分类概率转化基于字的标签概率,例如小明:b-per,p1,转化为小:b-per,p1和明:i-per,p1,
[0146]
最后比较基于字和基于词的分类概率,取最高值作为该token的标签值。
[0147]
表1词性类别对照表
[0148]
词性含义n名词nr人名ns地名nt机构名nz其他专名
[0149]
基于同一发明构思,本发明实施例中还提供了一种命名实体识别装置、及计算机可读存储介质,由于这些设备解决问题的原理与命名实体识别方法相似,因此这些设备的实施可以参见方法的实施,重复之处不再赘述。
[0150]
在实施本发明实施例提供的技术方案时,可以按如下方式实施。
[0151]
图4为命名实体识别装置结构1示意图,如图所示,装置中包括:
[0152]
处理器400,用于读取存储器420中的程序,执行下列过程:
[0153]
以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
[0154]
预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;
[0155]
在transformer最后一层位置上面串接一个softmax分类层;
[0156]
分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
[0157]
根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值;
[0158]
收发机410,用于在处理器400的控制下接收和发送数据。
[0159]
实施中,所述token补充信息为能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息。
[0160]
实施中,所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
[0161]
实施中,word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
[0162]
positional represention的位置向量表示为:对位置信息进行位置的embedding后,获得位置的向量表示;
[0163]
segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
[0164]
实施中,所述预训练为masked language model的预训练。
[0165]
实施中,使用bert模型进行预训练前,进一步包括:
[0166]
预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
[0167]
实施中,进一步包括:
[0168]
对预训练获取的参数进行联合再训练。
[0169]
其中,在图4中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器400代表的一个或多个处理器和存储器420代表的存储器的各种电路链接在一起。总线架构还
可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机410可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器400负责管理总线架构和通常的处理,存储器420可以存储处理器400在执行操作时所使用的数据。
[0170]
图5为命名实体识别装置结构2示意图,如图所示,装置中包括:
[0171]
预训练模块501,用于以token分别使用字和分词后的词两种方式使用bert模型进行预训练;
[0172]
transformer模块502,用于预训练完成后,分别利用输出部分transformer最后一层,被隐层的token在最后一个隐藏层拼接token补充信息;
[0173]
softmax模块503,用于在transformer最后一层位置上面串接一个softmax分类层;
[0174]
概率模块504,用于分别获取基于字和基于词的每个token的分类概率之后,将基于词的每个token的分类概率转化为基于字的标签概率;
[0175]
标签模块505,用于根据基于字和基于词的分类概率,每个token取最高值作为该token的标签值。
[0176]
实施中,transformer模块进一步用于使用能够采集到的以下信息之一或者其组合的对应的词向量的平均:已知实体定义、已知实体描述信息、已知实体对应的结构化的知识图谱信息为所述token补充信息。
[0177]
实施中,预训练模块进一步用于在所述bert模型输入的embedding是以下参数表征的求和:word representation,positional represention,segment represention。
[0178]
实施中,预训练模块进一步用于在所述bert模型输入的embedding是以下参数表征的求和:
[0179]
word representation的词或字的向量化表示为:以分词后语料中的词或字作为词典,以中文语料训练对应的词或字向量后,获得的token的词向量化表示;
[0180]
positional represention的位置向量表示为:对位置信息进行位置的embedding后,获得位置的向量表示;
[0181]
segment represention的句子向量表示为:对于句子对的数据,在前一个句子的每个词上都加上句子a的embedding,在后一个句子的每个词上都加上句子b的embedding。
[0182]
实施中,预训练模块进一步用于采用masked language model的预训练。
[0183]
实施中,预训练模块进一步用于使用bert模型进行预训练前,预先训练了一个中文语料库中生成的二分类的是否是下一句的模型。
[0184]
实施中,预训练模块进一步用于对预训练获取的参数进行联合再训练。
[0185]
为了描述的方便,以上所述装置的各部分以功能分为各种模块或单元分别描述。当然,在实施本发明时可以把各模块或单元的功能在同一个或多个软件或硬件中实现。
[0186]
本发明实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述命名实体识别方法的计算机程序。
[0187]
具体实施中可以参见命名实体识别方法的实施。
[0188]
综上所述,在本发明实施例提供的技术方案中,对于基于字的bi-lstm-crf模型中
存在的实体边界问题,采用基于字和词的融合调整的方法帮助优化实体边界,进一步提高模型性能。
[0189]
利用实体定义、实体描述信息、实体对应的结构化的知识图谱信息等的外部补充信息,对实体槽位进行补充进行编码,合理利用。
[0190]
能够更加高效、捕捉更长距离的依赖,真正意义上的双向上下文的信息。
[0191]
通过预训练模型的方案,再调整训练模型,解决目前的实体识别方法训练数据较少时,很难获得很好的训练模型的问题。
[0192]
通过基于字和词的bert(基于transformer的双向编码器表示,bidirectional encoder representations from transformers)模型来减少未登录实体在分词上出现的错误会向前传递的问题,提高模型性能,使用的是transformer,相对于rnn(循环神经网络,recurrent neural network)而言更加高效、能捕捉更长距离的依赖。
[0193]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0194]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0195]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0196]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0197]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献