一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向实体关系抽取的数据标注规则发现方法及装置

2023-02-01 15:04:17 来源:中国专利 TAG:


1.本发明涉及实体关系抽取技术领域,尤其涉及一种面向实体关系抽取的数据标注规则发现方法及装置。


背景技术:

2.实体关系抽取任务是对文本中的实体对之间的关系进行语义识别。在实体关系抽取任务中,深度学习模型在标注数据较少的情况下容易出现过拟合问题。因此,数据标注在实体关系抽取任务中发挥着重要作用。
3.面向实体关系抽取的数据标注指,为待标注句子分配关系标签。现有的数据标注方法通常分为两种,一种是通过专家手动定义规则,进行语料标注,如snorkel。由于专家掌握的领域知识有限,手动定义的规则容易出现重复和覆盖不全面的问题。另一种是专家标注语料,自动挖掘规则。然而,由于自然语言具有模糊性和多义性,由错误匹配引起的规则低质量问题尚未得到很好的解决。例如q.li等提出的truepie利用正负规则分别来匹配正例和负例,并通过迭代机制来扩充规则集,但是该方法缺乏正负规则冲突的解决机制,导致规则匹配的精确率下降。w.zhou等提出的nero利用词嵌入方法计算规则和句子的相似度实现规则软匹配,提高规则匹配的召回率。然而它忽略了规则、词语和句子之间的语义关联,进而导致引入额外的错误匹配句子。
4.由此可知,现有技术中的方法存在数据标注精确率和召回率较低的技术问题。


技术实现要素:

5.本发明提供了一种面向实体关系抽取的数据标注规则发现方法及装置,用以解决或者至少部分解决现有技术中存在的数据标注效果不佳(即数据标注精确率和召回率较低)的技术问题。
6.为了解决上述技术问题,本发明第一方面提供了一种面向实体关系抽取的数据标注规则发现方法,包括:
7.s1:将预设种子数据集划分为训练集和测试集;
8.s2:定义pn规则,基于定义的pn规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,pn规则为由body,tag和i
t
(ri)构成的映射:ri.body

(ri.tag,i
t
(ri)),规则体body为p=[w,@sub-type,w,@obj-type,w]的文本模式序列,sub-type和obj-type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数i
t
(ri)用以确定规则的正负性;
[0009]
s3:将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;
[0010]
s4:基于规则集,构建基于词-句子语义关联图g(v,e)和建转移概率矩阵m,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词-句子语义关联图g(v,e)为一个无向简单图,v表示节点的
集合,e表示边的集合,e是v
×
v的子集,节点集合v=w
*

*
,w
*
表示从规则和候选句子中生成的词集,s
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:
[0011]
s5:在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;
[0012]
s6:基于训练集采用协同训练方法对两个机器学习模型(pc,sc)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型pc学习到的模式特征和机器学习模型sc学习到的语义特征;
[0013]
s7:重复执行步骤s2~s6,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果,数据标注结果能够作为实体关系抽取模型的训练集。
[0014]
在一种实施方式中,步骤s2中的pn规则的重要性分数的计算方法为:
[0015][0016]
其中,σ是归一化参数,为规则的可靠度,为规则频率,为规则冗余度;
[0017]
规则的可靠度的计算方式为:
[0018][0019]
表示规则ri在第t轮迭代中匹配到的真实标签为正的句子,表示规则ri在第t轮迭代中匹配到的真实标签为负的句子;和表示规则ri通过模式匹配和语义匹配得到的句子集,当时,该规则为正规则;当时,该规则为负规则,当说明该规则在第t轮无效;
[0020]
规则频率计算方式为:
[0021][0022]
和表示第t轮迭代中ri模式匹配和语义匹配到的且真实标签与ri.tag一致的句子集,表示在第t轮迭代中pn
t
匹配到的且真实标签与ri.tag一致的句子集;
[0023]
规则冗余度计算方式为:
[0024][0025]
其中,表示在第t轮迭代中被规则ri和相同tag的规则重复匹配到的句
子集合,规则冗余度越高,该规则所含的有用信息越少;
[0026]
标签的计算方式为:
[0027][0028]
当ri.tag=1时,该规则被视为正规则,记作此时该规则匹配正例;当ri.tag=-1时,该规则被视为负规则,计作此时该规则匹配负例;当ri.tag=0时,该规则被视为无效规则。
[0029]
在一种实施方式中,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,包括:
[0030]
在训练集中利用实体遮盖方法,将主语实体e
sub
和宾语实体e
obj
替换为各自所对应的实体类型,利用频繁序列挖掘算法生成规则集pn
t
,基于训练集计算规则集中包含的规则的重要性分数。
[0031]
在一种实施方式中,步骤s3中利用转换后的规则对预设语料库的中句子进行模式匹配,包括:
[0032]
将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则的主语实体和宾语实体所在句子中的上下文词序列是否为句子的主语实体和宾语实体所在句子中的上下文词序列的子序列,如果三者都满足,则表示句子与规则集中的规则模式匹配成功,判断条件的形式化表达为与规则集中的规则模式匹配成功,判断条件的形式化表达为sj被ri模式匹配成功,sj为预设语料库中的第j条句子,ri为规则集中的第i条规则。
[0033]
在一种实施方式中,s4中词-句子语义关联图g(v,e)是由语义关联矩阵a构成,表示为a∈r
|v|
×
|v|
,a
mn
表示节点vm和节点vn之间的语义关联,其中vm,vn∈v,a
ij
数值为两个节点间的包含关系或语义相似度,具体计算方式如下:
[0034][0035]
若vm,vn∈w
*
或vm,vn∈s
*
,使用sim(m,n)函数计算二者间的语义相似度;
[0036]
若vm∈w
*
且vn∈s
*
,使用contain(m,n)表示二者的包含关系,当vn包含vm时,contain(m,n)=1;否则,contain(m,n)=0;
[0037]
转移概率矩阵为m=(p
mn
)
m,n∈v
,其中p
mn
表示在下一步中,从节点vm随机游走到节点vn的概率:
[0038][0039]
给定一个节点vm开始的随机游走器,随机游走规则为:
[0040]
pm(μ)=m
t
pm(μ-1)
[0041]
其中pm(μ)表示从起始节点经过μ步后到达vm节点的概率;
[0042]
利用语义相似概率导向的随机游走算法计算节点vm和节点vn之间的语义匹配分数
为:
[0043][0044]
其中p
mn
(μ)表示随机游走器经过μ步后从节点vm走到节点vn的概率,km用来配置节点vm的初始资源,|e|表示图中的边数量;vm为词,vn为句子,则sem
mn
(μ)表示从词节点开始,经过μ步以后到达句子节点的游走概率,m和n分别表示词对应的节点的编号、句子对应的节点的编号;
[0045]
基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,包括:
[0046]
将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则对应的节点与句子对应的节点之间的语义匹配分数是否大于阈值分数,如果三者都满足,则表示句子与规则集中的规则模式匹配成功,判断条件的形式化表达为sj.sub-type=ri.sub-type&sj.obj-type=ri.obj-type&sem(ri,sj)≥θ,sj被ri语义匹配成功,sj为预设语料库中的第j条句子,ri为规则集中的第i条规则。
[0047]
在一种实施方式中,步骤s5中采用的冲突解决机制为:
[0048][0049]
其中,pn(sj)表示与句子模式匹配和语义匹配成功的规则集合,包括正规则和负规则,|pn(sj)|表示匹配成功sj的规则集合的数量,i
t
(ri)表示规则ri在第t轮迭代中的重要性分数;sem(ri,sj)表示规则ri和句子sj的匹配分数;当时,表明句子sj为正例;当时,表明句子sj为负例;当时,表明句子sj在本轮迭代的标签无效;
[0050]
通过冲突解决机制,确定已匹配成功的句子的标签,构建目标匹配句子集s
t

[0051]
在一种实施方式中,所述方法还包括:利用训练好的机器学习模型pc,sc以及人力资源即人工标注任务量h,同时对匹配句子集s
t
的每一个句子标签进行预测验证,输出预测结果和置信度;包括两种情形,情形一:当训练好的模型pc和训练好的sc的预测结果一致,且两个模型的置信度高于置信度阈值,则将句子标签直接输出到训练集s

t
;情形二:当训练好的模型pc和训练好的sc的预测结果不一致,且两个模型的置信度高于置信度阈值,若h》0,则将该类句子分配给人工标注,将标注结果输出到训练集s

t
;若h=0,则将该类句子返回至s
t
,等待下一轮的模型预测;
[0052]
训练好的模型pc和sc利用s

t
进行重新训练,对s
t
中未输出的句子进行重新预测,直到匹配句子集s
t
为空,训练好的模型pc和sc的预测结果置信度均低于置信度阈值;其中,当缺乏句子真实标签时,利用pc和sc的协同预测结果作为句子的真实标签。
[0053]
基于同样的发明构思,本发明第二方面提供了一种面向实体关系抽取的数据标注规则发现装置,包括:
[0054]
数据集划分模块,用于将预设种子数据集划分为训练集和测试集;
[0055]
规则集构建模块,用于定义pn规则,基于定义的pn规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,pn规则为由body,tag和i
t
(ri)构成的映
射:ri.body

(ri.tag,i
t
(ri)),规则体body为p=[w,@sub-type,w,@obj-type,w]的文本模式序列,sub-type和obj-type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数i
t
(ri)用以确定规则的正负性;
[0056]
模式匹配模块,用于将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;
[0057]
语义匹配模块,用于基于规则集,构建基于词-句子语义关联图g(v,e)和建转移概率矩阵m,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词-句子语义关联图g(v,e)为一个无向简单图,v表示节点的集合,e表示边的集合,e是v
×
v的子集,节点集合v=w
*

*
,w
*
表示从规则和候选句子中生成的词集,s
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:
[0058]
冲突解决模块,用于在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;
[0059]
协同训练模块,用于基于训练集采用协同训练方法对两个机器学习模型(pc,sc)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型pc学习到的模式特征和机器学习模型sc学习到的语义特征;
[0060]
标注结果输出模块,用于重复规则集构建模块、模式匹配模块、语义匹配模块、冲突解决模块以及协同训练模块的操作,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果。
[0061]
基于同样的发明构思,本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被执行时实现第一方面所述的方法。
[0062]
基于同样的发明构思,本发明第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
[0063]
相对于现有技术,本发明的优点和有益的技术效果如下:
[0064]
本技术提供的一种面向实体关系抽取的数据标注规则发现方法及装置,其中的方法定义了数据标注规则(pn规则)来表示正规则和负规则及其重要性分数。pn规则可以用于联合过滤错误匹配的句子,提高规则匹配精确度;设计了基于词-句子关联图的规则语义匹配机制,根据规则,词和句子之间的语义关联,基于语义相似概率导向的随机游走算法,来提高规则匹配召回率。pn规则的匹配冲突将通过加权投票策略来解决;提出了一种协同训练规则验证机制来进一步验证规则匹配的句子,从而提高迭代规则发现的质量。本发明能够解决由训练数据不足引起的实体关系抽取模型过拟合问题,在有限的先验知识下,迭代生成数据标注规则,提升数据标注质量。
附图说明
[0065]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0066]
图1为本发明提供的面向实体关系抽取的数据标注规则发现方法的流程图;
[0067]
图2为本发明一实施例提供的正负规则匹配句子示例;
[0068]
图3为本发明一实施例提供的基于词-句子语义关联图的规则语义匹配机制示例;
[0069]
图4为本发明一实施例提供的规则验证模型特征输入示例;
[0070]
图5为本发明一实施例提供的规则验证模型协同训练示例;
[0071]
图6为本发明实施例提供的计算机可读存储介质的结构示意图;
[0072]
图7为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
[0073]
本发明旨在解决由训练数据不足引起的实体关系抽取模型过拟合问题,发现高质量数据标注规则,提高规则匹配的精确度和召回率,进而提升数据标注质量,本发明面临以下挑战:
[0074]
由错误匹配引起的规则低质量问题尚未得到很好的解决。负规则可以用来匹配负例,然而,当正规则和负规则匹配相同的句子时会发生冲突;与模式匹配相比,语义匹配有助于匹配相似的句子,然而,语义匹配可能会引入额外的错误;基于有限的人工标记语料,很难验证规则匹配的句子,从而影响新规则的质量。
[0075]
基于上述挑战,本发明提出了一种面向实体关系抽取的数据标注规则发现方法。创新点如下:
[0076]
一、定义了pn规则来表示正规则和负规则及其重要性分数。pn规则可以用于联合过滤错误匹配的句子,提高规则匹配精确度。
[0077]
二、设计了基于词-句子关联图的规则语义匹配机制,根据规则,词和句子之间的语义关联,基于语义相似概率导向的随机游走算法,来提高规则匹配召回率。pn规则的匹配冲突将通过加权投票策略来解决。
[0078]
三、提出了一种协同训练规则验证方法为进一步验证规则匹配的句子,从而提高迭代规则发现的质量。
[0079]
本发明克服了现有技术中自动发现规则的匹配精确率和召回率较低的问题。提供一种面向实体关系抽取的数据标注规则发现方法,能够从未标记句子中精准识别正负例,实现规则匹配的精确度和召回率的提高,提升数据标注质量。
[0080]
附图说明
[0081]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0082]
实施例一
[0083]
本发明实施例提供了一种面向实体关系抽取的数据标注规则发现方法,包括:
[0084]
s1:将预设种子数据集划分为训练集和测试集;
[0085]
s2:定义pn规则,基于定义的pn规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,pn规则为由body,tag和i
t
(ri)构成的映射:ri.body

(ri.tag,i
t
(ri)),规则体body为p=[w,@sub-type,w,@obj-type,w]的文本模式序列,sub-type和obj-type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数i
t
(ri)用以确定规则的正负性;
[0086]
s3:将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;
[0087]
s4:基于规则集,构建基于词-句子语义关联图g(v,e)和建转移概率矩阵m,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词-句子语义关联图g(v,e)为一个无向简单图,v表示节点的集合,e表示边的集合,e是v
×
v的子集,节点集合v=w
*

*
,w
*
表示从规则和候选句子中生成的词集,s
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:
[0088]
s5:在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;
[0089]
s6:基于训练集采用协同训练方法对两个机器学习模型(pc,sc)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型pc学习到的模式特征和机器学习模型sc学习到的语义特征;
[0090]
s7:重复执行步骤s2~s6,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果。
[0091]
请参见图1,为本发明提供的面向实体关系抽取的数据标注规则发现方法的流程图。
[0092]
具体来说,少量数据的规模可以根据实际情况确定,例如选取其中的10%、20%等。重要性分数i
t
(ri)除了确定规则的正负性之外,还用于在多个规则同时匹配成功同一个句子时,作为权重进行投票,即步骤s5的冲突解决机制。
[0093]
与现有方法相比,本发明所公开的面向实体关系抽取的数据标注规则发现方法,是一种质量导向的自举式规则发现方法。其中自举式是指通过多轮迭代基于少量种子规则逐渐扩充规则集,规则质量是指规则匹配的精确率和召回率。该方法具有如下有益效果:
[0094]
该方法通过扩展规则匹配的句子,然后过滤这些匹配句子中的错误,实现了规则匹配精确度和召回率之间的平衡,同时增强了语义匹配的可解释性;
[0095]
该方法揭示了利用质量导向的自举机制构建高质量规则集的潜力,由于该方法采用有限的先验知识,因此可以应用到专业性较强的领域;
[0096]
此外,利用该方法发现的规则不仅可以进行数据标注,还可以揭示知识关联、发现语义规律和解释文本特征。
[0097]
在一种实施方式中,步骤s2中的pn规则的重要性分数的计算方法为:
[0098]
[0099]
其中,σ是归一化参数,为规则的可靠度,为规则频率,为规则冗余度;
[0100]
规则的可靠度的计算方式为:
[0101][0102]
表示规则ri在第t轮迭代中匹配到的真实标签为正的句子,表示规则ri在第t轮迭代中匹配到的真实标签为负的句子;和表示规则ri通过模式匹配和语义匹配得到的句子集,当时,该规则为正规则;当时,该规则为负规则,当说明该规则在第t轮无效;
[0103]
规则频率计算方式为:
[0104][0105]
和表示第t轮迭代中ri模式匹配和语义匹配到的且真实标签与ri.tag一致的句子集,表示在第t轮迭代中pn
t
匹配到的且真实标签与ri.tag一致的句子集;
[0106]
规则冗余度计算方式为:
[0107][0108]
其中,表示在第t轮迭代中被规则ri和相同tag的规则重复匹配到的句子集合,规则冗余度越高,该规则所含的有用信息越少;
[0109]
标签的计算方式为:
[0110][0111]
当ri.tag=1时,该规则被视为正规则,记作此时该规则匹配正例;当ri.tag=-1时,该规则被视为负规则,计作此时该规则匹配负例;当ri.tag=0时,该规则被视为无效规则。
[0112]
请参见图2,为本发明一实施例提供的正负规则匹配句子示例。
[0113]
在一种实施方式中,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,包括:
[0114]
在训练集中利用实体遮盖方法,将主语实体e
sub
和宾语实体e
obj
替换为各自所对应的实体类型,利用频繁序列挖掘算法生成规则集pn
t
,基于训练集计算规则集中包含的规则的重要性分数。
[0115]
在一种实施方式中,步骤s3中利用转换后的规则对预设语料库的中句子进行模式
匹配,包括:
[0116]
将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则的主语实体和宾语实体所在句子中的上下文词序列是否为句子的主语实体和宾语实体所在句子中的上下文词序列的子序列,如果三者都满足,则表示句子与规则集中的规则模式匹配成功,判断条件的形式化表达为与规则集中的规则模式匹配成功,判断条件的形式化表达为sj被ri模式匹配成功,sj为预设语料库中的第j条句子,ri为规则集中的第i条规则。
[0117]
具体来说,在将句子与规则集中的规则进行模式匹配时,首先将规则转化为正则表达式,然后将句子与每一条规则进行匹配。
[0118]
在一种实施方式中,s4中词-句子语义关联图g(v,e)是由语义关联矩阵a构成,表示为a∈r
|v|
×
|v|
,a
mn
表示节点vm和节点vn之间的语义关联(m和n分别表示节点的编号),其中vm,vn∈v,a
ij
数值为两个节点间的包含关系或语义相似度,具体计算方式如下:
[0119][0120]
若vm,vn∈w
*
或vm,vn∈s
*
,使用sim(m,n)函数计算二者间的语义相似度;
[0121]
若vm∈w
*
且vn∈s
*
,使用contain(m,n)表示二者的包含关系,当vn包含vm时,contain(m,n)=1;否则,contain(m,n)=0;
[0122]
转移概率矩阵为m=(p
mn
)
m,n∈v
,其中p
mn
表示在下一步中,从节点vm随机游走到节点vn的概率:
[0123][0124]
给定一个节点vm开始的随机游走器,随机游走规则为:
[0125]
pm(μ)=m
t
pm(μ-1)
[0126]
其中pm(μ)表示从起始节点经过μ步后到达vm节点的概率;
[0127]
利用语义相似概率导向的随机游走算法计算节点vm和节点vn之间的语义匹配分数为:
[0128][0129]
其中p
mn
(μ)表示随机游走器经过μ步后从节点vm走到节点vn的概率,km用来配置节点vm的初始资源,|e|表示图中的边数量;vm为词,vn为句子,则sem
mn
(μ)表示从词节点开始,经过μ步以后到达句子节点的游走概率;
[0130]
基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,包括:
[0131]
将预设语料库的中的每一个句子与规则集中的每一条规则进行匹配,判断句子的主语实体类型与规则的主语实体类型是否相同、句子的宾语的实体类型与规则的宾语实体类型是否相同以及规则对应的节点与句子对应的节点之间的语义匹配分数是否大于阈值分数,如果三者都满足,则表示句子与规则集中的规则模式匹配成功,判断条件的形式化表
达为sj.sub-type=ri.sub-type&sj.obj-type=ri.obj-type&sem(ri,sj)≥θ,sj被ri语义匹配成功,sj为预设语料库中的第j条句子,ri为规则集中的第i条规则。
[0132]
请参见图3,为本发明一实施例提供的基于词-句子语义关联图的规则语义匹配机制示例。
[0133]
在一种实施方式中,步骤s5中采用的冲突解决机制为:
[0134][0135]
其中,pn(sj)表示与句子模式匹配和语义匹配成功的规则集合,包括正规则和负规则,|pn(sj)|表示匹配成功sj的规则集合的数量,i
t
(ri)表示规则ri在第t轮迭代中的重要性分数;表示规则ri和句子sj的匹配分数;当时,表明句子sj为正例;当时,表明句子sj为负例;当时,表明句子sj在本轮迭代的标签无效;
[0136]
通过冲突解决机制,确定已匹配成功的句子的标签,构建目标匹配句子集s
t

[0137]
在一种实施方式中,所述方法还包括:利用训练好的机器学习模型pc,sc以及人力资源即人工标注任务量h,同时对匹配句子集s
t
的每一个句子标签进行预测验证,输出预测结果和置信度;包括两种情形,情形一:当训练好的模型pc和训练好的sc的预测结果一致,且两个模型的置信度高于置信度阈值,则将句子标签直接输出到训练集s

t
;情形二:当训练好的模型pc和训练好的sc的预测结果不一致,且两个模型的置信度高于置信度阈值,若h》0,则将该类句子分配给人工标注,将标注结果输出到训练集s

t
;若h=0,则将该类句子返回至s
t
,等待下一轮模型预测;
[0138]
训练好的模型pc和sc利用s

t
进行重新训练,对s
t
中未输出的句子进行重新预测,直到匹配句子集s
t
为空,训练好的模型pc和sc的预测结果置信度均低于置信度阈值;其中,当缺乏句子真实标签时,利用pc和sc的协同预测结果作为句子的真实标签。
[0139]
请参见图4和图5,其中,图4为本发明一实施例提供的规则验证模型特征输入示例;图5为本发明一实施例提供的规则验证模型协同训练示例。
[0140]
在具体的应用过程中,本发明涉及的总体算法如下:
[0141][0142]
具体实施例如下:
[0143]
从ipre数据集中组建朋友关系语料集,共5000个句子,以及种子数据集,共500个句子。将种子数据集句子按照7:3的比例,分为训练集和测试集。基于训练集,经过句子预处理和规则挖掘算法,可以得到pn规则和如图2所示,其初始重要性分数为1。接着,在第t轮迭代中,基于挖掘出来的pn规则和本发明将进行规则模式匹配和语义匹配。如图2所示,匹配成功了句子s1,s2,s3,s4。匹配成功了句子s3。其中,s2和s4是被语义匹配成功的,其语义匹配的具体过程可见图3:在词-句子语义关联图中,由于包含词语“一起”,且词语“一起”(w1)和“一同”(w2)的语义相似性为0.8,又因为句子s2包含“一同”这个词语,因此,从w1跳转到s2的概率,即语义匹配分数为0.8,高于语义匹配阈值θ=0.65,s2可以被语义匹配成功。同理,s4可以被语义匹配成功,其语义匹配路径为:w1→
w2→
s2→
s4,语义匹配分数为0.72,高于语义匹配阈值。接着,利用训练集,本发明将对两个支持向量机
模型(pc,sc)进行训练,并利用训练好的模型对匹配句子集进行预测。其中,两个模型对s3的预测标签为-1,且预测的置信度均高于0.7,因此,将s3为负例的预测结果输入到训练集中。同理,模型预测s1和s2的标签为1,且预测的置信度均高于0.7,本发明将s1和s2为正例的预测结果输入到训练集中。此外,两个模型对s4的预测标签不一致,因此,本发明利用人工标注s4为正例,输入到训练集中。至此,匹配句子集已经全部验证完毕。基于训练集,对和进行重要性评估,更新其重要性分数。如图1规则重要性评估部分,由于匹配成功了三个正例,一个负例,因此其可靠性分数频率分数频率分数冗余性分数因此,其重要性分数同理,的可靠性分数频率分数冗余性分数因此,其重要性分数根据重要性分数可知,为正规则,为负规则。在第t 1轮迭代中,基于s1至s4,本发明挖掘出了新的规则其初始重要性分数为0.2,为正规则。在规则匹配环节,又匹配成功了s5。由于s3同时被这三个规则匹配成功,且这些规则的类型不一致,因此出现了规则匹配冲突。本发明利用规则冲突解决机制可计算s3的标签,因此s3的规则标注标签为-1.这也证明了通过正负规则和规则冲突解决机制,可以有效过滤错误标注的句子,提高规则匹配的精确率。接着,如图4,在规则验证环节,基于训练集进行特征学习,其中模式特征由于向量维度不同,采取拼接方式得到总的特征向量输入到分类模型pc中;语义特征由于向量维度相同,为获得句子的整体语义,采取平均词向量的方式得到句向量,输入到分类模型sc中。阈值α设为0.7,由于pc和sc模型对s5的预测结果不同,且置信度高于阈值,本发明利用人工标注得到该句为负例(如图5)。因此,的可靠性分数频率分数冗余性分数因此,其重要性分数由于和同为正规则,且匹配成功了同样的正例,因此冗余性分数升高,导致的重要性分数降为0.2。通过规则挖掘-规则匹配-规则验证环节的自举式迭代过程,本发明逐渐构建高质量规则集,提高规则匹配的正确率和召回率,直到规则集趋于稳定,输出规则标注结果,即数据标注结果。
[0144]
本发明提供的面向实体关系抽取的数据标注规则发现方法,能够从非结构化文本中进行自举式规则发现,利用语义匹配机制提高规则匹配召回率,利用正负规则和规则验证机制提高规则匹配精确率,实现高质量数据标注规则发现。最终的数据标注结果可用于提升实体关系抽取质量和效果。
[0145]
实施例二
[0146]
基于同样的发明构思,本实施例提供了一种面向实体关系抽取的数据标注规则发现装置,包括:
[0147]
数据集划分模块,用于将预设种子数据集划分为训练集和测试集;
[0148]
规则集构建模块,用于定义pn规则,基于定义的pn规则,对划分出的训练集采用频繁模式挖掘算法进行规则挖掘,构建规则集,其中,pn规则为由body,tag和i
t
(ri)构成的映
射:ri.body

(ri.tag,i
t
(ri)),规则体body为p=[w,@sub-type,w,@obj-type,w]的文本模式序列,sub-type和obj-type分别代表主语和宾语的实体类型,w表示主语实体和宾语实体所在句子中的上下文词序列,标签tag表示规则的正负性,重要性分数i
t
(ri)用以确定规则的正负性;
[0149]
模式匹配模块,用于将规则集中包含的规则转换为正则表达式,利用转换后的规则对预设语料库的中句子进行模式匹配,得到与规则模式匹配成功的句子;
[0150]
语义匹配模块,用于基于规则集,构建基于词-句子语义关联图g(v,e)和建转移概率矩阵m,并基于语义相似概率导向的随机游走算法将规则对预设语料库中的句子进行语义匹配,得到与规则语义匹配成功的句子,其中词-句子语义关联图g(v,e)为一个无向简单图,v表示节点的集合,e表示边的集合,e是v
×
v的子集,节点集合v=w
*

*
,w
*
表示从规则和候选句子中生成的词集,s
*
表示主语和宾语实体类型一致的句子所构成的候选句子集,转移概率矩阵中的元素为从一个节点随机游走到另一个节点的概率:
[0151]
冲突解决模块,用于在得到的与规则模式匹配成功的句子、与规则语义匹配成功的句子的基础上,利用冲突解决机制进行冲突消解,构建目标匹配句子集;
[0152]
协同训练模块,用于基于训练集采用协同训练方法对两个机器学习模型(pc,sc)进行协同训练,得到训练好的两个分类模型,并利用训练好的两个分类模型对目标匹配句子集中的句子进行预测,得到预测结果,将预测结果加入至训练集中,预测结果分别为机器学习模型pc学习到的模式特征和机器学习模型sc学习到的语义特征;
[0153]
标注输出模块,用于重复规则集构建模块、模式匹配模块、语义匹配模块、冲突解决模块以及协同训练模块的操作,当采用频繁模式挖掘算法无法挖掘出新规则,停止迭代,输出规则集和目标匹配句子集,其中,目标匹配句子集中包含的句子与其对应的标签为数据标注结果。
[0154]
由于本发明实施例二所介绍的装置为实施本发明实施例一中面向实体关系抽取的数据标注规则发现方法所采用的装置,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该装置的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。
[0155]
实施例三
[0156]
基于同一发明构思,请参见图6,本发明还提供了一种计算机可读存储介质300,其上存储有计算机程序311,该程序被执行时实现如实施例一中所述的方法。
[0157]
由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中面向实体关系抽取的数据标注规则发现方法所采用的计算机可读存储介质,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机可读存储介质的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。
[0158]
实施例四
[0159]
基于同一发明构思,本技术还提供了一种计算机设备,如图7所示,包括存储器401、处理器402及存储在存储器上并可在处理器上运行的计算机程序403,处理器执行上述程序时实现实施例一中的方法。
[0160]
由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中面向实体关
系抽取的数据标注规则发现方法所采用的计算机设备,故而基于本发明实施例一所介绍的方法,本领域所属人员能够了解该计算机设备的具体结构及变形,故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。
[0161]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0162]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0163]
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0164]
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献