一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于相似词汇表的文本关系自动标注方法与流程

2022-02-19 02:14:50 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术,具体涉及一种基于相似词汇表的文本关系自动标注方法。


背景技术:

2.关系抽取是自然语言处理中最重要的子任务之一,其内容是根据上下文语义判断文本中某个实体对之间的关系。目前常用的关系抽取方法包括传统的统计学习方法和深度学习方法。传统的统计学方法需要人工地确定文本特征,不仅难度大,而且特征常常偏而不全。而基于深度学习的方法能通过模型自动且高效地提取特征,已经成为目前最主流的方法。
3.基于深度学习的方法训练出来的关系抽取模型,其性能很大一部分取决于训练语料的质量。目前常用的获取训练语料的方法有人工标注和远程监督自动标注,而这两种方法都有不同方面的弊端。人工标注虽然标注的语料质量较高,但需要消耗大量的时间和人力,对于短时间内生成数据集是非常困难的。而远程监督自动标注方法是将文本中出现的实体对对齐到已有知识库中,利用知识库中的信息给实体对确定关系,虽然能够短时间内获取大量的语料,但依然存在两个问题。第一是知识库构建难度大,虽然有一些通用的知识库如维基百科的wikidata,但在某些特定领域中这些知识库显然无法使用,而短时间内构建大型的知识库并不容易。第二是生成的语料质量低,由于相同的实体对在不同的语料中其语义表达的关系未必相同,因此会出现大量的错误标注。因此如何简单且高效的获取大量的训练语料是一个非常值得深入探讨和研究的问题。
4.[1]devlin j,chang m w,lee k,et al.bert:pre

training of deep bidirectional transformers for language understanding[j].2018.
[0005]
[2]李浩.基于远程监督的实体关系抽取方法研究[d].武汉理工大学,2019.。


技术实现要素:

[0006]
本发明的目的在于提出一种基于相似词汇表的文本关系自动标注方法,以解决构建知识库难度大,生成语料质量低等问题。
[0007]
实现本发明目的的技术解决方案为:一种基于相似词汇表的文本关系自动标注方法,步骤如下:
[0008]
步骤1,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料;
[0009]
步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表;
[0010]
步骤3,对句子进行命名体识别以及实体关系三元组提取;
[0011]
步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合;
[0012]
步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注。
[0013]
进一步的,步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表,具体方法为:
[0014]
对语料中所有出现关系名称的地方,利用bert模型依据上下文对关系名称进行相似词汇替换,生成对应关系在该位置的相似词汇表,每个相似词汇表取前40个词汇,如果不超过40个就全选;对语料中每个关系生成的所有相似词汇表,首先进行词频统计排序,出现次数越多的词汇代表与该关系更为紧密,然后去除停用词,取前80个词汇,作为该关系的类型词汇表,如果不超过80个就全选。
[0015]
进一步的,步骤3,对句子进行命名体识别以及实体关系三元组提取,具体方法为:
[0016]
利用命名体识别模型,对语料以句子为单位,提取句子中存在的实体,生成一个包含实体和实体类型的集合;利用开放式信息抽取工具,对语料以句子为单位,提取句子中的实体对和描述关系的关系短语,最后以三元组形式完成构建
[0017]
进一步的,步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,生成候选关系集合,具体方法为:
[0018]
对于每个句子的实体集合和实体关系三元组,首先判断关系三元组的实体对是否包含或等于命名体识别结果中的实体,若满足则将三元组实体改为命名体识别结果对应的实体,接着判断替换后的实体对的实体类型是否有目标抽取关系的实体类型与之相同,若有,则生成候选关系集合,上述条件任一不满足则该句子标注失败。
[0019]
进一步的,步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,所有词汇中表达次数最多的候选关系即为标注关系,完成自动标注,具体方法为:
[0020]
对关系短语中的每个词汇,利用bert模型生成对应的相似词汇表,将相似词汇表与候选关系的类型词汇表进行比较,选取相同词汇数量最多的关系,若数量达到设定的阈值,则该词汇表达该关系类型,这里阈值设为20;综合关系短语所有的词汇,表达次数最多的关系即为标注关系;若关系短语没有词汇表达出任一候选关系,则该条语料舍去。
[0021]
一种基于相似词汇表的文本关系自动标注系统,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0022]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0023]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0024]
本发明与现有技术相比,其显著优点为:预先定义好关系标签,基于生成的相似词汇表进行自动标注,解决了传统远程监督方法构建知识库难度大、标注语料质量低的问题,为构建关系抽取模型所需的数据集提供了新的策略。
附图说明
[0025]
图1是本发明基于相似词汇表的文本关系自动标注方法的流程图。
具体实施方式
[0026]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0027]
本发明提出一种基于相似词汇表的文本关系自动标注方法,步骤如下:
[0028]
步骤1,确定所有抽取的关系名称以及对应的实体类型,并获取含有关系名称的语料的方法为:
[0029]
确定所有抽取的关系名称,并根据关系确定好相对应的主语实体和宾语实体类型。同时根据关系名称,从网上等其他渠道获取含有关系名称的语料。
[0030]
步骤2,在语料中每个出现关系名称的地方生成可替代该关系名称的相似词汇表,并以此整理出关系类型词汇表的方法为:
[0031]
对语料中所有出现关系名称的地方,利用bert模型依据上下文对关系名称进行相似词汇替换,生成对应关系在该位置的相似词汇表,每个相似词汇表取前40个词汇。对语料中每个关系生成的所有相似词汇表,首先进行词频统计排序,出现次数越多的词汇代表与该关系更为紧密,然后去除停用词,取前80个词汇,作为该关系的类型词汇表,如果不超过40个或80个的话,就全选。
[0032]
bert是一种预训练语言表示的方法,它是在大量文本语料上训练了一个通用的“语言理解”模型,可以用这个模型去完成各种自然语言处理任务。bert相比于其他模型在各种nlp任务中表现更出色,因为它是第一个用在预训练上的无监督的、深度双向系统。因此,本发明中利用该模型进行掩码语言建模(mlm),对完整的句子的某个词汇进行屏蔽,然后根据上下文语义生成可替代屏蔽词汇的单词,从而生成相似词汇表。
[0033]
步骤3,对句子进行命名体识别以及实体关系三元组提取的方法为:
[0034]
利用命名体识别模型,对语料以句子为单位,提取句子中存在的实体,生成一个包含实体和实体类型的集合;利用开放式信息抽取工具,对语料以句子为单位,提取句子中的实体对和描述关系的关系短语,最后以三元组形式完成构建。
[0035]
开放式信息抽取指的是从纯文本中提取关系元组,其关系元组结构形式一般为(实体1,关系短语,实体2),这里提取的是二元的实体关系,不涉及多元关系抽取(即多个实体的关系同时抽取)。传统的关系信息抽取需要先确定好关系种类,而预先定义完整的关系种类是比较困难的。而与传统的关系信息抽取相比,开放式信息抽取模型不需要事先规定好关系类型,它使用实体上下文中的一些词语来描述实体之间的语义关系,从而避免了定义关系种类。
[0036]
步骤4,依据命名体识别的结果判断实体关系三元组的实体对是否满足条件,满足则生成候选关系集合的方法为:
[0037]
对于每个句子的实体集合和实体关系三元组,首先判断关系三元组的实体对是否包含或等于命名体识别结果中的实体,若满足则将三元组实体改为命名体识别结果对应的实体,接着判断替换后的实体对的实体类型是否有目标抽取关系的实体类型与之相同,若
有,则生成候选关系集合。上述条件任一不满足则该句子标注失败。
[0038]
步骤5,对实体关系三元组中关系短语的每个词汇生成相似词汇表,结合关系类型词汇表,判断该词汇表达的候选关系,表达次数最多的候选关系即为标注关系,完成自动标注的方法为:
[0039]
对关系短语中的每个词汇,利用bert模型生成对应的相似词汇表,将相似词汇表与候选关系的类型词汇表进行比较,选取相同词汇数量最多的关系(可以并列选取,即表达关系有多种),若数量达到设定的阈值,则该词汇表达该关系类型,这里阈值设为20。综合关系短语所有的词汇,表达次数最多的关系即为标注关系(可以并列选取,即标注关系有多种)。若关系短语没有词汇表达出任一候选关系,则该条语料舍去。
[0040]
设a
i
,i=1,2,3,...,m表示关系短语中第i个单词的相似词汇表,其中m表示关系短语的词汇数量,b
j
,j=1,2,3,...,n表示候选关系中第j个关系的类型词汇表,其中n表示候选关系的数量,h表示为相同词汇数阈值。设关系短语每个单词表达的关系为w
i
,i=1,2,3,...,m,与其对应关系的相同词汇数为k
i
,i=1,2,3,...,m,则:
[0041]
k
i
=max(|a
i
∩b
j
|),j=1,2,3,...,n
ꢀꢀꢀ①
[0042][0043]
若k
i
>=h,则第i个单词表达关系w
i
,若k
i
<h,则第i个单词不表达任何关系。所有单词表达最多的关系即为标注关系。若均不表达关系,则该语料舍去。
[0044]
假设关系短语有a、b、c、d四个单词,待抽取候选关系有α、β、γ三种关系。关于相同词汇数量最多示例:a单词的相似词汇表与α、β、γ的类型词汇表相同词汇数量分别为2个、8个、8个,a与β、γ的相同词汇数量相同,则a单词既表达β关系,也表达γ关系。关于表达次数最多的关系示例:a单词表达α、β关系,b单词不表达关系,c单词表达α关系,d单词表达β关系,最终该句子表达a、β两种关系。
[0045]
本发明还提出一种基于相似词汇表的文本关系自动标注系统,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0046]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0047]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,基于所述的基于相似词汇表的文本关系自动标注方法,实现基于相似词汇表的文本关系自动标注。
[0048]
实施例
[0049]
为了验证本发明方案的有效性,进行如下仿真实验,建立人物关系数据集。
[0050]
例句:in five’s earlier days,kieran conlon was briefly engaged to dancer suzanne mole,who toured with the group.
[0051]
第一步,首先确定与人物相关的一些关系类型,这里选择parent,couple,sibling,friend四种关系,其对应的实体类型均为人物,然后根据这些关系名称从网上获取语料。
[0052]
第二步,对语料中所有出现parent,couple,sibling,friend的地方生成相似词汇
表,然后整理生成每个关系的类型词汇表。
[0053]
第三步,对句子使用命名体识别模型和开放域信息抽取工具,得到实体(sean kieran conlon,人物),(suzanne mole,人物);使用开放域信息抽取工具,得到关系短语三元组:(sean kieran conlon,was briefly engaged to,dancer suzanne mole)。
[0054]
第四步:根据命名体识别结果判断关系三元组是否满足条件。关系短语的实体1sean kieran conlon在命名体识别的结果集合中,实体2dancer suzanne mole包含命名体识别结果suzanne mole,并且两个实体类型均为人物,满足条件。候选关系为parent,couple,sibling,friend。
[0055]
第五步:对关系短语的四个单词was、briefly、engaged、to生成的相似词汇表分别与候选关系的类型词汇表进行比较,最终was、briefly、to的相似词汇表与四个关系的类型词汇表相同词汇数均达不到20个,故不表达任何意思,engaged与couple相似词汇达到21个,表达couple关系,故整个语义表达couple关系,最终标注结果为(sean kieran conlon,couple,suzanne mole),完成自动标注。
[0056]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0057]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献