一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向教育考试的跨域图匹配实体识别方法与流程

2022-06-05 14:18:42 来源:中国专利 TAG:


1.本发明涉及命名实体识别技术领域,具体涉及一种面向教育考试的跨域图匹配实体识别方法。


背景技术:

2.识别教育考试文本数据中的实体有助于对文本内容的分析,能够帮助教师提取试题知识点、分类试题以提高教学质量。现有的命名实体识别技术主要依赖于利用海量有标注数据训练深度学习模型,然而要获取带有实体类别标注的教育考试文本数据通常费时费力,且往往无法通过公开渠道获取,因此训练一个深度学习模型用于教育考试文本数据的命名实体识别的成本较高。此外,由于不同任务下人们对识别的实体类别存在差异,所以在一种任务下训练好的模型无法应用到其他的场景。为了解决此问题,人们采取迁移学习的方式,把深度学习模型在一个任务中学习的知识迁移到另一个任务当中,由此提高模型在新任务中的表现。然而现有迁移学习的范式“预训练 微调”已经成为一种迁移知识的范式。“预训练 微调”目前是迁移学习的常用方法,具体指先在数据充足的任务中训练深度学习模型,然后在新任务中用少量数据对深度学习模型进行微调。然而由于不同的命名实体任务的实体类别往往不完全相同,“预训练 微调”这种方法无法取得很好的效果。


技术实现要素:

3.本发明的目的是为了解决现有技术中的上述缺陷,提供一种面向教育考试的跨域图匹配实体识别方法。该方法通过匹配不同场景下模型构建的标签图,利用标签图匹配来迁移模型在源域场景中学习到的知识从而帮助训练出更好地模型用于教育考试文本数据的实体识别任务。
4.本发明的目的可以通过采取如下技术方案达到:
5.一种面向教育考试的跨域图匹配实体识别方法,所述跨域图匹配实体识别方法包括以下步骤:
6.s1、获取一个包含语句及每个词实体标签的数据集作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
7.s2、利用步骤s1源域命名实体识别数据集训练深度神经网络模型得到源域模型;
8.s3、获取带有实体标签的教育考试文本数据,并去除其中包含缺失值的语句;
9.s4、利用步骤s2中获得的源域模型构建目标域模型;
10.s5、把步骤s3中获得的教育考试文本数据输入步骤s2中获得的源域模型和步骤s4中获得的目标域模型分别计算得到源域图和目标域图;
11.s6、利用步骤s3中获得的教育考试文本数据和步骤s5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
12.s7、输入步骤s3中获得的教育考试文本数据到经过训练的目标域模型,得到目标域模型对教育考试文本数据实体识别的结果。
13.进一步地,所述深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型bert,由12层transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:e=g(x)
14.其中是文本,表示第i
x
个单词,n
t
为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,表示实数域;
15.所述全连接层的计算公式如下:os=ews bs16.其中为源域模型输出,与分别为源域模型全连接层的权重矩阵与偏置,cs为源域命名实体识别数据集中实体类别的个数;
17.所述深度神经网络模型记为函数f0(),定义如下:f0(x)=os=ews bs=g(x)ws bs18.经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
19.进一步地,所述步骤s4中通过源域模型构建目标域模型的过程如下:
20.s401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时减少训练时间;
21.s402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:
22.o
t
=ew
t
b
t
23.其中为目标域模型输出,与分别为目标域模型全连接层的权重矩阵与偏置,c
t
为教育考试文本数据中实体类别的个数;
24.所述目标域模型记为函数f(),定义如下:f(x)=o
t
=ew
t
b
t
=g(x)w
t
b
t
25.进一步地,所述步骤s5中源域图和目标域图生成过程如下:
26.s501、给定教育考试文本数据利用步骤s2中获得的源域模型,计算类别之间的后验概率ps(ys|y
t
):
27.其中,ys和y
t
分别表示源域命名实体识别数据集和教育考试文本数据的类别,为中所有实体类别为y的样本,xi和yi表示中第i个样本的单词和实体标签,表示中样本的个数,f
’0()为调整输出平滑度后的源域模型,f
’0()的定义如下:
[0028][0029]
其中t为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第ks个类别的预测分数,ks=1,2,...,cs;
[0030]
通过得到的后验概率ps(ys|y
t
),构建源域图其中和εs分别代表源域
图的图节点和边集合,源域图中图节点定义为:
[0031][0032][0033][0034]
其中和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,分别表示中的第n个类别,和分别表示和中包含类别的个数,表示归一化前源域图类别y
t
的图节点,y1和y2是教育考试文本数据的任意两个类别,和表示归一化前源域图类别y1和y2的图节点,表示源域图类别y
t
的图节点,源域图中边定义为:
[0035][0036]
其中表示源域图类别为y1和y2的图节点之间的边长,和分别表示源域图类别y1和y2的图节点,表示源域图图节点和的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
[0037]
s502、利用步骤s4中获得的目标域模型,计算类别之间的后验概率p
t
(y
t1
|y
t2
):
[0038][0039]
其中,y
t1
和y
t2
为教育考试文本数据的类别,为教育考试文本数据的类别,为中所有实体类别为y
t1
的样本,xj和yj表示中第j个样本的单词和实体标签,表示中样本的个数,f

()为调整输出平滑度后的目标域模型,f

()的定义如下:
[0040][0041]
其中,表示目标域模型对第j个样本第k
t
个类别的预测分数;
[0042]
通过得到的后验概率p
t
(y
t1
|y
t2
),构建目标域图其中和ε
t
分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
[0043][0044]
[0045][0046]
其中yt2(m)表示中的第m个类别,表示归一化前目标域图类别y
t1
的图节点,y3和y4是教育考试文本数据的任意两个类别,和表示归一化前目标域图类别y3和y4的图节点,表示目标域图类别yt1的图节点,目标域图中边定义为:
[0047][0048]
其中,表示目标域图类别为y3和y4的图节点之间的边长,和分别表示目标域图类别y3和y4的图节点,表示目标域图图节点和的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
[0049]
进一步地,所述步骤s6中训练目标域模型的过程如下:
[0050]
s601、计算源域图和目标域图的相似度
[0051][0052]
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和分别表示源域图类别为i1和i2的图节点;和分别表示目标域图类别为j1和j2的图节点.表示估计的最优传输计划矩阵,通过sinkhom算法可以求解,和分别表示中的第i1行第j1列和第i2行第j2列的值;l()表示计算边之间相似度的函数,定义为:
[0053][0054]
其中表示源域图图节点和的欧氏距离,表示目标域图图节点和的欧氏距离;
[0055]
s602、计算目标域模型的分类损失
[0056][0057]
其中,n
t
为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第i
t
个训练样本的单词,表示目标域模型对单词的第ic个类别的预测分数,为
表示单词是否属于第ic个类别的零一变量,ln()表示自然对数函数;
[0058]
s603、计算总损失03、计算总损失其中λ为d
gw
的权重参数;
[0059]
s604、通过梯度下降的方式最小化当总损失不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
[0060]
本发明相对于现有技术具有如下的优点及效果:
[0061]
1.本发明基于迁移学习的方式有效地把模型在数据相对充足的源域数据集中学习的知识迁移到实体类别标注稀缺的教育考试文本数据实体识别任务,能够有效提高模型对教育考试文本数据的实体识别准确率。
[0062]
2.本发明在数据充足和数据稀缺的场景下均能取得不错的实体识别效果,因此本发明不仅具有较广泛的应用场景,而且能够降低教育考试文本数据的实体识别任务中对实体类别标注数据的依赖,降低数据搜集或标注的人力成本和时间成本。
[0063]
3.本发明公开的方法不受模型的限制,可以使用不同的模型(例如bert,roberta等)作为特征提取器,具有良好的可扩展性。
附图说明
[0064]
此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0065]
图1是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的流程图;
[0066]
图2是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络结构图;
[0067]
图3是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络示意图。
具体实施方式
[0068]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
实施例1
[0070]
图1是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的流程图,如图1所示,该方法包括以下步骤:
[0071]
s1、获取公开数据集conll2003作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
[0072]
s2、利用conll2003训练深度神经网络模型得到源域模型;
[0073]
s201、所述深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型bert,由12层transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:e=g(x)
[0074]
其中是文本,表示第i
x
个单词,n
t
为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,表示实数域;
[0075]
全连接层的计算公式如下:os=ews bs[0076]
其中为源域模型输出,与分别为源域模型全连接层的权重矩阵与偏置,cs为源域命名实体识别数据集中实体类别的个数;
[0077]
深度神经网络模型记为函数f0(),定义如下:f0(x)=os=ews bs=g(x)ws bs[0078]
经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
[0079]
s3、获取带有实体标签的教育考试文本数据,这里使用公开数据集mit movie、mit restaurant、atis和crossner作为教育考试文本数据的示例,并去除其中包含缺失值的语句;
[0080]
s4、利用步骤s2中获得的源域模型构建目标域模型;
[0081]
s401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时减少训练时间;
[0082]
s402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:o=xw b
[0083]
其中为目标域模型输出,为目标域模型倒数第二层的输出,与分别为全连接层的权重矩阵与偏置,为样本个数,为教育考试文本数据中实体类别的个数,为目标域模型倒数第二层输出的维度。
[0084]
s5、把步骤s3中获得的教育考试文本数据输入步骤s2中获得的源域模型和步骤s4中获得的目标域模型分别计算得到源域图和目标域图。图2是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络结构图。如图2所示,把语句“david was a member of both acl and accl”输入到源域模型和目标域模型中分别可以得到由源域模型和目标域模型估计的后验概率分布,从而建立对应的源域图和目标域图;
[0085]
s501、给定教育考试文本数据利用步骤s2中获得的源域模型,计算类别之间的后验概率ps(ys|y
t
):
[0086]
其中,ys和y
t
分别表示源域命名实体识别数据集和教育考试文本数据的类别,为中所有实体类别为y的样本,xi和yi表示中第i个样本的单词和实体标签,表示中样本的个数,f
’0()为调整输出平滑度后的源域模型,f
’0()的定义如下:
[0087][0088]
其中,t为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个
样本第ks个类别的预测分数,ks=1,2,...,cs;
[0089]
通过得到的后验概率ps(ys|y
t
),构建源域图其中和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
[0090][0091][0092][0093]
其中和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,分别表示中的第n个类别,和分别表示和中包含类别的个数,表示归一化前源域图类别y
t
的图节点,y1和y2是教育考试文本数据的任意两个类别,和表示归一化前源域图类别y1和y2的图节点,表示源域图类别yt的图节点,源域图中边定义为:
[0094][0095]
其中表示源域图类别为y1和y2的图节点之间的边长,和分别表示源域图类别y1和y2的图节点,表示源域图图节点和的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
[0096]
s502、利用步骤s4中获得的目标域模型,计算类别之间的后验概率p
t
(y
t1
|y
t2
):
[0097]
其中,y
t1
和y
t2
为教育考试文本数据的类别,为教育考试文本数据的类别,为中所有实体类别为y
t1
的样本,xj和yj表示中第j个样本的单词和实体标签,表示中样本的个数,f

()为调整输出平滑度后的目标域模型,f

()的定义如下:
[0098][0099]
其中,表示目标域模型对第j个样本第k
t
个类别的预测分数;
[0100]
通过得到的后验概率p
t
(y
t1
|y
t2
),构建目标域图其中和ε
t
分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
[0101][0102][0103][0104]
其中y
t2(m)
表示中的第m个类别,表示归一化前目标域图类别y
t1
的图节点,y3和y4是教育考试文本数据的任意两个类别,和表示归一化前目标域图类别y3和y4的图节点,表示目标域图类别y
t1
的图节点,目标域图中边定义为:
[0105][0106]
其中,表示目标域图类别为y3和y4的图节点之间的边长,和分别表示目标域图类别y3和y4的图节点,表示目标域图图节点和的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
[0107]
s6、利用步骤s3中获得的教育考试文本数据和步骤s5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
[0108]
s601、计算源域图和目标域图的相似度
[0109][0110]
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和分别表示源域图类别为i1和i2的图节点;和分别表示目标域图类别为j1和j2的图节点;表示估计的最优传输计划矩阵,通过gabriel peyr
é
和marco cuturi的论文《computational optimal transport sinkhorn》第57-84页中提到的sinkhom算法可以求解,和分别表示中的第i1行第j1列和第i2行第j2列的值;l()表示计算边之间相似度的函数,定义为:
[0111][0112]
其中表示源域图图节点和的欧氏距离,表示目标域图图节点和的欧氏距离;
[0113]
s602、计算目标域模型的分类损失
[0114][0115]
其中,n
t
为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第i
t
个训练样本的单词,表示目标域模型对单词的第ic个类别的预测分数,为表示单词是否属于第ic个类别的零一变量,ln()表示自然对数函数;
[0116]
s603、计算总损失03、计算总损失其中λ为d
gw
的权重参数;
[0117]
s604、通过梯度下降的方式最小化当总损失不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
[0118]
s7、输入步骤s3中获得的教育考试文本数据到经过训练的目标域模型,得到模型对教育考试文本数据实体识别的结果。
[0119]
实施例2
[0120]
本实施例继续公开一种面向教育考试的跨域图匹配实体识别方法,过程如下:
[0121]
s1、获取公开数据集conll2003作为源域命名实体识别数据集,并去除其中包含缺失值的语句;
[0122]
s2、利用conll2003训练深度神经网络模型得到源域模型;
[0123]
其中,深度神经网络模型包括特征编码器和全连接层,其中,特征编码器把文本的单词映射到特征空间当中,全连接层则把特征空间映射到类别空间当中,从而实现对文本单词的实体分类。所述特征编码器为预训练语言模型bert,由12层transformer单元和12层多头注意力组成。把特征编码器记作函数g(),其定义如下:是文本,表示第i
x
个单词,n
t
为单词个数,是文本特征嵌入,dh是文本特征嵌入的维度,dh设为768,表示实数域;
[0124]
全连接层的计算公式如下:os=ews bs[0125]
其中为源域模型输出,与分别为源域模型全连接层的权重矩阵与偏置,cs为源域命名实体识别数据集中实体类别的个数;
[0126]
深度神经网络模型记为函数f0(),定义如下:
[0127]
f0(x)=os=ews bs=g(x)ws bs[0128]
经过预训练的语言模型,有更强的文本建模能力。多头注意力机制使得特征编码器在计算每个单词的文本特征嵌入时动态关联上下文的语义信息,从而增强文本特征嵌入的表达能力。
[0129]
s3、获取带有实体标签的教育考试文本数据,这里使用公开数据集mit movie、mit restaurant、atis和crossner作为教育考试文本数据的示例,并去除其中包含缺失值的语句;
[0130]
s4、利用步骤s2中获得的源域模型构建目标域模型;
[0131]
s401、构建与所述源域模型具有相同参数的目标域模型。利用训练好的源域模型特征编码器的参数初始化目标域模型有助于目标域模型学习到源域当中的类别信息,同时
减少训练时间;
[0132]
s402、把目标域模型的全连接层更换为以下全连接层并随机初始化其参数。这里使用新全连接层的目的是为了把文本特征嵌入映射到教育考试文本数据实体类别的类别空间当中。其中,最后一层的全连接层的计算公式如下:o=xw b
[0133]
其中为目标域模型输出,为目标域模型倒数第二层的输出,与分别为全连接层的权重矩阵与偏置,为样本个数,为教育考试文本数据中实体类别的个数,为目标域模型倒数第二层输出的维度。
[0134]
s5、把步骤s3中获得的教育考试文本数据输入步骤s2中获得的源域模型和步骤s4中获得的目标域模型分别计算得到源域图和目标域图。图3是本发明公开的一种面向教育考试的跨域图匹配实体识别方法的网络示意图。如图3所示,把语句“a fast method for computing maximum likelihood estimates for the probit model was proposed by ronald fisher”输入到源域模型和目标域模型中分别可以得到由源域模型和目标域模型估计的后验概率分布,从而建立对应的源域图和目标域图;
[0135]
s501、给定教育考试文本数据利用步骤s2中获得的源域模型,计算类别之间的后验概率ps(ys|y
t
):
[0136]
其中,ys和y
t
分别表示源域命名实体识别数据集和教育考试文本数据的类别,为中所有实体类别为y的样本,xi和yi表示中第i个样本的单词和实体标签,表示中样本的个数,f
’0()为调整输出平滑度后的源域模型,f
’0()的定义如下:
[0137][0138]
其中,t为控制平滑度的超参数,e表示自然常数;表示源域模型对第i个样本第ks个类别的预测分数,ks=1,2,...,cs;
[0139]
通过得到的后验概率ps(ys|y
t
),构建源域图其中和εs分别代表源域图的图节点和边集合,源域图中图节点定义为:
[0140][0141][0142][0143]
其中,和分别表示是源域命名实体识别数据集和教育考试文本数据的类别集合,分别表示中的第n个类别,和分别表示和中包含类别的个数,表示归一化前源域图类别y
t
的图节点,y1和y2是教育考试文本数据的任意两个类别,和表示归一化前源域图类别y1和y2的图节点,表示源域图类别y
t
的图节点,源域
图中边定义为:
[0144][0145]
其中,表示源域图类别为y1和y2的图节点之间的边长,和分别表示源域图类别y1和y2的图节点,表示源域图图节点和的欧氏距离,δ为边长设定的阈值,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边;利用源域模型估计教育考试文本实体类别的后验概率分布可以构建对应的源域图,从而建模教育考试文本实体类别在源域类别空间当中的关系。
[0146]
s502、利用步骤s4中获得的目标域模型,计算类别之间的后验概率p
t
(y
t1
|y
t2
):
[0147]
其中,y
t1
和y
t2
为教育考试文本数据的类别,为教育考试文本数据的类别,为中所有实体类别为y
t1的
样本,xj和yj表示中第j个样本的单词和实体标签,表示中样本的个数,f

()为调整输出平滑度后的目标域模型,f

()的定义如下:
[0148][0149]
其中,表示目标域模型对第j个样本第k
t
个类别的预测分数;
[0150]
通过得到的后验概率p
t
(y
t1
|y
t2
),构建目标域图其中和ε
t
分别代表目标域图的图节点和边集合,目标域图中图节点定义为:
[0151][0152][0153][0154]
其中,y
t2(m)
表示中的第m个类别,表示归一化前目标域图类别y
t1
的图节点,y3和y4是教育考试文本数据的任意两个类别,和表示归一化前目标域图类别y3和y4的图节点,表示目标域图类别y
t1
的图节点,目标域图中边定义为:
[0155]
其中,表示目标域图类别为y3和y4的图节点之间的边长,和分别表示目标域图类别y3和y4的图节点,表示目标域图图节点和的欧氏距离,边长取值为无穷时表示目标域图图节点之间不存在直接相连接的边。利用目标域模型估计
教育考试文本实体类别的后验概率分布可以构建对应的目标域图,从而建模教育考试文本实体类别在目标域类别空间当中的关系。
[0156]
s6、利用步骤s3中获得的教育考试文本数据和步骤s5中获得的源域图和目标域图来训练目标域模型,将经过训练的目标域模型用于教育考试实体识别;
[0157]
s601、计算源域图和目标域图的相似度
[0158][0159]
其中u和v分别表示源域图和目标域图对应的离散分布,每个图节点被分配相同的质量,而且所有质量之和为1,π(u,v)表示分布u和v的联合概率分布;i1和i2分别表示源域命名实体识别数据集中的任意两个类别;j1和j2分别表示教育考试文本数据中的任意两个类别;和分别表示源域图类别为i1和i2的图节点;和分别表示目标域图类别为j1和j2的图节点.表示估计的最优传输计划矩阵,通过gabriel peyr
é
和marco cuturi的论文《computational optimal transport sinkhom》第57-84页中提到的sinkhom算法可以求解,和分别表示中的第i1行第j1列和第i2行第j2列的值;l()表示计算边之间相似度的函数,定义为:
[0160][0161]
其中表示源域图图节点和的欧氏距离,表示目标域图图节点和的欧氏距离;
[0162]
s602、计算目标域模型的分类损失
[0163][0164]
其中,n
t
为教育考试文本数据中训练样本的个数,表示教育考试文本数据中第i
t
个训练样本的单词,表示目标域模型对单词的第ic个类别的预测分数,为表示单词是否属于第ic个类别的零一变量,ln()表示自然对数函数;
[0165]
s603、计算总损失03、计算总损失其中λ为d
gw
的权重参数;
[0166]
s604、通过梯度下降的方式最小化当总损失不再下降时结束训练。最小化源域图和目标域图的相似度有助于类别的结构化关系从源域模型向目标域模型迁移,最小化目标域模型的分类损失有助于指导目标域模型正确地对实体类别进行分类。
[0167]
s7、输入步骤s3中获得的教育考试文本数据到经过训练的目标域模型,得到模型对教育考试文本数据实体识别的结果。
[0168]
以上两个实施例的结果如下:
[0169]
数据集mit movie、mit restaurant、atis和crossner的统计信息如表1所示,从表1中可以看出数据集mit movie、mit restaurant、atis三个数据集的训练样本较为充足,数据集crossner的训练样本较少。
[0170]
表1.不同数据集的统计信息
[0171][0172]
考虑到不同数据域的训练样本个数,使用mov.,res.和dia.三个数据域的全部训练样本模拟教育考试文本数据充足的场景,表2是本发明在数据充足场景下与其他方法的实体识别f1分数对比。“预训练 微调”是一种常用且相对高效的迁移学习方法(bert-tagger),已经在自然语言处理领域和计算机视觉领域被广泛地应用nnshot和structuralshot是两种针对样本稀缺场景设计的算法,在数据稀缺时有较好的表现。bilstm-crf、coach和templatener是三种命名实体识别的有效方法。如表2所示,本发明公开的一种面向教育考试的跨域图匹配实体识别方法(跨域图匹配方法)在数据域mov.和dia.取得了最高的实体识别f1分数,在数据域res.取得了第二高的实体识别f1分数。此外,数据域mov.,res.和dia.包含的实体类别与源域命名实体识别数据集conll2003中所包含的实体类别有很大差异,因此跨域图匹配方法能够提升模型模型跨域迁移的能力,从而提高新任务中的表现。
[0173]
表2.本发明在数据充足场景下与其他方法的实体识别f1分数对比
[0174] mov.res.dia.bilstm-crf67.1677.4995.10coach67.6277.8295.04bert-tagger67.4976.7195.12nnshot60.3972.3395.04structshot22.6353.3490.18templatener54.6369.9464.92跨域图匹配方法68.5377.6595.20
[0175]
为了模拟教育考试文本数据稀缺的场景,分别对每个数据域(pol.,sci.,mus.,lit.,ai,mov.,res.和dia.)随机挑选的每个实体类别各50个样本作为训练样本。表3为本发明在数据稀缺场景下与其他方法的实体识别f1分数对比。如表3所示,在数据稀缺的场景下nnshot和structshot有相对较好的表现,bilstm-crf、coach、bert-tagger和templatener的表现相对较差,而本发明公开的一种面向教育考试的跨域图匹配实体识别方法(跨域图匹配方法)在6个数据域上取得了最高的实体识别f1分数,在2个数据域上取得了第二高的实体识别f1分数。由此看出跨域图匹配方法能够减少模型对带实体类别标注训练样本的依赖,从而降低数据标注的人力和时间成本。
[0176]
表3.本发明在数据稀缺场景下与其他方法的实体识别f1分数对比
[0177] pol.sci.mus.lit.aimov.res.dia.bilstm-crf53.4648.8943.6541.5444.7356.1358.1194.28coach60.9752.0351.5648.7351.1556.0957.5094.69bert-tagger66.1363.9368.4163.4458.9358.1660.5894.51nnshot66.3363.7867.9463.1959.1757.3460.2693.86
structshot67.1664.5270.2165.3359.7358.7461.6094.38templatener65.2362.8464.5764.4956.5843.4254.0559.67跨域图匹配方法68.1964.4270.1766.1359.8660.3362.7394.74
[0178]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献