一种基于小样本的命名实体识别方法、装置及相关介质与流程

2022-11-09 22:07:53 来源：中国专利 TAG：

1.本发明涉及命名实体识别技术领域，特别涉及一种基于小样本的命名实体识别方法、装置及相关介质。

背景技术：

2.命名实体识别是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。随着当前信息产业的不断发展，各类电子化文本数量急剧增加，从中快速高效地获取结构化信息的难度也越来越大，因此命名实体识别技术被应用到各个领域用于准确、高效地提取出文本中的关键信息。
3.目前处理实体识别任务的主流方法是基于深度学习的方法，其常见的做法是对文本进行编码后，利用深度学习模型捕获文本的语义特征，再输入到分类层对文本中的实体进行识别和分类。该方法的一个不足之处在于，其要求训练集的样本数量具有一定的规模，模型经过大量样本训练后才能有效地捕捉实体信息。而在一些特定领域，存在着样本数量少、搜集难度大成本高等问题。针对上述问题，现有技术也提出针对小样本的基于提示学习的神经网络模型。但是这类基于提示学习的方法需要枚举出所有潜在模板或实体进行推理预测，如此便会耗费大量的时间，并且由于微调目标和预训练语言模型不一致，在一定程度上同样会影响模型的识别效果。

技术实现要素：

4.本发明实施例提供了一种基于小样本的命名实体识别方法、装置、计算机设备及存储介质，旨在提高命名实体识别效率和精度。
5.第一方面，本发明实施例提供了一种基于小样本的命名实体识别方法，包括：
6.获取样本数据，并对所述样本数据标注实体标签，以此构建第一样本集；
7.在所述第一样本集中选取枢纽字符，并基于所述枢纽字符构建标签映射空间；
8.利用所述标签映射空间将所述第一样本集映射为第二样本集；
9.利用所述第二样本集对预训练语言模型进行微调；
10.采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
11.第二方面，本发明实施例提供了一种基于小样本的命名实体识别装置，包括：
12.标签标注单元，用于获取样本数据，并对所述样本数据标注实体标签，以此构建第一样本集；
13.字符选取单元，用于在所述第一样本集中选取枢纽字符，并基于所述枢纽字符构建标签映射空间；
14.样本映射单元，用于利用所述标签映射空间将所述第一样本集映射为第二样本集；
15.模型微调单元，用于利用所述第二样本集对预训练语言模型进行微调；
16.识别预测单元，用于采用微调后的预训练语言模型对指定文本进行命名实体识别
预测。
17.第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的基于小样本的命名实体识别方法。
18.第四方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的基于小样本的命名实体识别方法。
19.本发明实施例提供了一种基于小样本的命名实体识别方法、装置、计算机设备及存储介质，该方法包括：获取样本数据，并对所述样本数据标注实体标签，以此构建第一样本集；在所述第一样本集中选取枢纽字符，并基于所述枢纽字符构建标签映射空间；利用所述标签映射空间将所述第一样本集映射为第二样本集；利用所述第二样本集对预训练语言模型进行微调；采用微调后的预训练语言模型对指定文本进行命名实体识别预测。本发明实施例通过选取最具有代表性的枢纽字符构建标签映射空间，以对样本数据进行映射，然后利用映射得到的第二样本集对预训练语言模型进行微调，从而利用微调后的预训练语言模型进行命名实体识别预测，如此可以提高命名实体识别效率和精度。
附图说明
20.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1为本发明实施例提供的一种基于小样本的命名实体识别方法的流程示意图；
22.图2为本发明实施例提供的一种基于小样本的命名实体识别方法的网络结构示意图；
23.图3为本发明实施例提供的一种基于小样本的命名实体识别方法的预测流程示意图；
24.图4为本发明实施例提供的一种基于小样本的命名实体识别装置的示意性框图。
具体实施方式
25.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
27.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
28.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是
指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
29.下面请参见图1，图1为本发明实施例提供的一种基于小样本的命名实体识别方法的流程示意图，具体包括：步骤s101～s105。
30.s101、获取样本数据，并对所述样本数据标注实体标签，以此构建第一样本集；
31.s102、在所述第一样本集中选取枢纽字符，并基于所述枢纽字符构建标签映射空间；
32.s103、利用所述标签映射空间将所述第一样本集映射为第二样本集；
33.s104、利用所述第二样本集对预训练语言模型进行微调；
34.s105、采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
35.本实施例首先对少量的样本数据进行实体标签标注，以得到第一样本集，接着在第一样本集选取最具有代表性的字符作为枢纽字符，并根据所述枢纽字符构建标签映射空间，以对第一样本集中的样本数据进行映射，得到对应的第二样本集。然后利用映射所述第二样本集对预训练语言模型进行微调，从而利用微调后的预训练语言模型进行命名实体识别预测，如此可以提高命名实体识别效率和精度。
36.在一实施例中，所述步骤s101包括：
37.将所述样本数据划分为命名实体文本和非命名实体文本；
38.对所述命名实体文本标注实体标签；
39.对所述非命名实体文本标注为o；
40.基于标注结构构建得到所述第一样本集s1＝《文本x，标签y》。
41.本实施例中，在构建第一样本集时，首先对少量的样本数据进行实体标签标注，命名实体文本标注为相应的实体标签，例如姓名(per)、性别(gen)、年龄(age)、出生日期(dob)等等。对于非命名实体文本，统一标注为o。如此标注后，便可以得到二元组形式的第一样本集s1＝《文本x，标签y》。
42.在一实施例中，所述步骤s102包括：
43.按照下式构建所述标签映射空间m：
[0044][0045]
其中，x和y分别表示第一样本集中的文本和对应的实体标签，表示枢纽字符w对实体标签li的代表程度指标，表示从所有字符v中选择出对实体标签li代表程度指标最高的的枢纽字符w，tf(x＝w,y＝li)表示所有被标注为li的字符中枢纽字符w所出现的频率，idf(x＝w)表示枢纽字符w普遍重要性的度量。
[0046]
本实施例的目的在于，对于第一样本集的每个标签，从字典v中选出最具有代表性的字符(称为枢纽字符)，由此构建成标签映射空间m。以单个任意标签li为例：
[0047]
[0048]
其中，定义为枢纽字符w对标签li的代表程度指标。表示从所有字符v中选择出对标签li代表程度指标最高的的枢纽字符w。
[0049]
tf(x＝w,y＝li)定义为所有被标签为li的字符中，枢纽字符w所出现的频率。频率越高，则该字符越能代表此标签，具体公式如下：
[0050][0051]
其中，n(
·
)公式用于计算第一样本集内满足条件的字符的出现次数。上式中，分子表示枢纽字符w被标签为li的出现次数，而分母表示所有被标签为li的字符的出现次数之和。
[0052]
idf(x＝w)定义为枢纽字符w普遍重要性的度量。若普遍重要性越高，则该字符在每种标签样本中越常见，对于单种标签样本的代表能力越弱，公式如下：
[0053][0054]
上式中，分子表示第一样本集中的标签种类数目，分母表示包含枢纽字词w的标签种类数目。
[0055]
由此，标签映射空间m构建完成，该标签映射空间能够将实体标签映射为代表该标签的枢纽字符。
[0056]
在一实施例中，所述步骤s103包括：
[0057]
选取第一样本集中的实体标签；
[0058]
按照下式，对所述第一样本集中的实体标签对应的文本进行映射，以此得到包含文本和目标文本的所述第二样本集s2＝《文本x，目标文本x’》：
[0059]
x'＝{x1,
…
,m(yi),
…
,xn}
[0060]
其中，x’表示被映射为第二样本集中的目标文本，m(
·
)表示标签映射空间，yi表示第一样本集中的实体标签，x1和xn表示第一样本集中的文本。
[0061]
本实施例中，对第一样本集s1(x＝{x1,
…
,xn},y＝{y1,
…
,yn})进行标签映射。若是实体标签，则将其映射为枢纽字符；若不是实体标签，则保留原文本。假设yi是实体标签，原文本x经过映射后得到目标文本x'的公式如下：
[0062]
x'＝{x1,
…
,m(yi),
…
,xn}
[0063]
其中，m(
·
)是标签映射空间，枢纽字符m(yi)取代了原有的xi。在此基础上构建得到二元组形式的第二样本集s2＝《文本x,目标文本x'》。
[0064]
在一实施例中，所述预训练语言模型为bert预训练模型。当然，在其他实施例中，也可以采用其他预训练语言模型，例如roberta中文预训练模型、ernie预训练模型等等。
[0065]
进一步的，所述步骤s104包括：
[0066]
将所述第二样本集中的文本输入至bert预训练模型中，并由bert预训练模型输出对应的特征编码；
[0067]
基于所述特征编码，按照计算输入的文本被预测为目标文本的概率p：
[0068]
p(xi＝x'i|x)＝softmax(w
lm
·hi
)
[0069]
其中，xi表示输入的第i个文本数据，x'i表示第i个目标文本数据，x表示第二样本集的文本，lm表示bert预训练模型，w
lm
表示bert预训练模型lm最后一层全连接层的权重参数，hi表示第i个文本数据的特征编码；
[0070]
按照下式，利用损失函数对微调训练进行优化更新，以得到微调后的bert预训练模型lm'：
[0071][0072]
本实施例使用第二样本集s2(x＝{x1,
…
,xn},x'＝{x'1,
…
,x'n})对预训练语言模型lm进行微调训练，具体为：
[0073]
输入文本x＝{x1,
…
,xn}，经过预训练语言模型lm处理后得到特征编码h＝{h1,
…
,hn}，然后根据特征编码对输入文本x中的字符xi被预测为目标文本中x'i的概率进行计算：
[0074]
p(xi＝x'i|x)＝softmax(w
lm
·hi
)
[0075]
因此微调训练的损失函数为：
[0076][0077]
微调过程会适应性的更新预训练语言模型lm的权重参数，最后训练得到微调后的语言模型lm'。
[0078]
如图2所示，在训练过程中，首先对少量样本进行实体标签标注，生成第一样本集s1(x，y)，接着从第一样本集s1(x，y)中选取具有代表性的枢纽字符，以此构建标签映射空间m，并利用该标签映射空间m对第一样本集s1(x，y)进行标签映射，得到对应的第二样本集s2(x，x’)。然后利用第二样本集s2(x，x’)对预训练语言模型lm进行微调训练，以得到优化后的预训练语言模型lm’。
[0079]
在一实施例中，所述步骤s105包括：
[0080]
按照下式，采用微调后的预训练语言模型对指定文本进行字符预测：
[0081]
oi＝softmax(w
lm'
·ei
)
[0082][0083]
其中，oi表示字符生成概率，w
lm'
表示微调后的预训练语言模型的权重参数，ei表示指定文本中第i个文本数据的特征编码，表示预测的第i个字符；
[0084]
将预测生成的字符构建为预测文本，并利用所述标签映射空间将所述预测文本中的字符映射为实体标签。
[0085]
本实施例中，结合图3，利用微调训练后的预训练语言模型lm'对指定文本t＝{t1,
…
,tn}进行预测，具体包括：
[0086]
将指定文本t＝{t1,
…
,tn}输入至预训练语言模型lm'，并由预训练语言模型lm'输出相应的特征编码e＝{e1,
…
,en}；
[0087]
经过预训练语言模型lm'的全连接层后，使用softmax函数计算字符生成概率，并通过argmax(一种求参数函数)操作取其中可能性最大的字符。其中位置为i的字符生成
公式如下：
[0088]
oi＝softmax(w
lm'
·ei
)
[0089][0090]
根据上述得到的字符构建得到预测文本通过标签映射空间m映射为标签。具体的为，若文本是标签映射空间m中的枢纽字符，则输出其对应的实体标签否则输出非实体标签o；最后预测得到的标签结果为否则输出非实体标签o；最后预测得到的标签结果为代表反向映射，即从枢纽字符得到对应的实体标签，具体可以为per、age等实体标签。
[0091]
图4为本发明实施例提供的一种基于小样本的命名实体识别装置400的示意性框图，该装置400包括：
[0092]
标签标注单元401，用于获取样本数据，并对所述样本数据标注实体标签，以此构建第一样本集；
[0093]
字符选取单元402，用于在所述第一样本集中选取枢纽字符，并基于所述枢纽字符构建标签映射空间；
[0094]
样本映射单元403，用于利用所述标签映射空间将所述第一样本集映射为第二样本集；
[0095]
模型微调单元404，用于利用所述第二样本集对预训练语言模型进行微调；
[0096]
识别预测单元405，用于采用微调后的预训练语言模型对指定文本进行命名实体识别预测。
[0097]
在一实施例中，所述标签标注单元401包括：
[0098]
数据划分单元，用于将所述样本数据划分为命名实体文本和非命名实体文本；
[0099]
第一文本标注单元，用于对所述命名实体文本标注实体标签；
[0100]
第二文本标注单元，用于对所述非命名实体文本标注为o；
[0101]
第一样本集构建单元，用于基于标注结构构建得到所述第一样本集s1＝《文本x，标签y》。
[0102]
在一实施例中，所述字符选取单元402包括：
[0103]
空间构建单元，用于按照下式构建所述标签映射空间m：
[0104][0105]
其中，x和y分别表示第一样本集中的文本和对应的实体标签，表示枢纽字符w对实体标签li的代表程度指标，表示从所有字符v中选择出对实体标签li代表程度指标最高的的枢纽字符w，tf(x＝w,y＝li)表示所有被标注为li的字符中枢纽字符w所出现的频率，idf(x＝w)表示枢纽字符w普遍重要性的度量。
[0106]
在一实施例中，所述样本映射单元403包括：
[0107]
标签选取单元，用于选取第一样本集中的实体标签；
[0108]
第二样本集构建单元，用于按照下式，对所述第一样本集中的实体标签对应的文本进行映射，以此得到包含文本和目标文本的所述第二样本集s2＝《文本x，目标文本x’》：
[0109]
x'＝{x1,
…
,m(yi),
…
,xn}
[0110]
其中，x’表示被映射为第二样本集中的目标文本，m(
·
)表示标签映射空间，yi表示第一样本集中的实体标签，x1和xn表示第一样本集中的文本。
[0111]
在一实施例中，所述预训练语言模型为bert预训练模型。
[0112]
在一实施例中，所述模型微调单元404包括：
[0113]
文本输入单元，用于将所述第二样本集中的文本输入至bert预训练模型中，并由bert预训练模型输出对应的特征编码；
[0114]
概率计算单元，用于基于所述特征编码，按照计算输入的文本被预测为目标文本的概率p：
[0115]
p(xi＝x'i|x)＝softmax(w
lm
·hi
)
[0116]
其中，xi表示输入的第i个文本数据，x'i表示第i个目标文本数据，x表示第二样本集的文本，lm表示bert预训练模型，w
lm
表示bert预训练模型lm最后一层全连接层的权重参数，hi表示第i个文本数据的特征编码；
[0117]
优化更新单元，用于按照下式，利用损失函数对微调训练进行优化更新，以得到微调后的bert预训练模型lm'：
[0118][0119]
在一实施例中，所述识别预测单元405包括：
[0120]
字符预测单元，用于按照下式，采用微调后的预训练语言模型对指定文本进行字符预测：
[0121]
oi＝softmax(w
lm'
·ei
)
[0122][0123]
其中，oi表示字符生成概率，w
lm'
表示微调后的预训练语言模型的权重参数，ei表示指定文本中第i个文本数据的特征编码，表示预测的第i个字符；
[0124]
字符映射单元，用于将预测生成的字符构建为预测文本，并利用所述标签映射空间将所述预测文本中的字符映射为实体标签。
[0125]
由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。
[0126]
本发明实施例还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0127]
本发明实施例还提供了一种计算机设备，可以包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口，电源等组件。
[0128]
说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而
言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围内。
[0129]
还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种基于小样本的命名实体识别方法、装置及相关介质与流程

相关文献

最热文献