一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语句中实体关系的抽取方法及装置与流程

2021-11-05 23:23:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其是涉及一种语句中实体关系的抽取方法及装置。


背景技术:

2.随着网络和信息化的高速发展,新型威胁和攻击呈现持续性和扩大化的发展趋势,其中高级可持续性攻击(advanced persistent threat,apt)是典型代表。apt攻击向目标计算机投放特种木马(俗称特马)以达到窃取国家机密信息、重要企业的商业信息、破坏网络基础设施等目的。安全公司每天都会发布海量的威胁情报,这些威胁情报大多以文字呈现,无法直观地展示攻击关系。威胁情报报告主要描述了威胁组织使用何种工具以何种手段攻击某一国家的某个行业,安全团队以何种方式进行检测防御等。文字方式呈现的apt报告不利于安全运营人员快速感知异常,导致安全工作人员了解最新攻击事件的效率极低。最后的结果就是,虽有海量威胁情报,但绝大多数都没有得到及时处理、总结,这样对国家以及企业造成的安全隐患极大。
3.而信息抽取可以将非结构化的威胁情报文本转化为结构化数据,其中关系抽取是信息抽取中重要的一项任务。威胁情报关系抽取为进一步的网络安全挖掘分析、防御部署奠定坚实的基础,在网络安全防御方面具有良好的实际应用价值和理论意义。目前,威胁情报关系抽取任务主要存在以下问题:1)威胁情报文本的句子长度较长,威胁情报关系数据集中句子包含的令牌数量或者字符数量远大于通用领域数据集,难以充分有效地提取句子特征;2)由于威胁情报文本中包含了文件哈希、加密算法、防御措施等专业领域的信息,关系抽取的过程对于已知的词表具有较强的依赖性,从而导致关系抽取的结果具有局限性。


技术实现要素:

4.有鉴于此,本技术的目的在于提供了一种语句中实体关系的抽取方法及装置,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
5.本技术实施例提供了语句中实体关系的抽取方法,所述抽取方法包括:
6.获取包含有多种词嵌入特征的目标语句的第一特征向量序列;
7.基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;
8.将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;
9.基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。
10.进一步的,所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;所述获取包含有多种词嵌入特征的目标语句的第一特征向量序列,包括:
11.针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词;
12.针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量;
13.基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。
14.进一步的,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量,包括:
15.基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息;
16.将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。
17.进一步的,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句中的实体之间依赖关系的句法依赖特征向量,包括:
18.针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量;
19.基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为边的所述目标语句的句法依赖图;
20.从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点;
21.针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图;
22.基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。
23.进一步的,所述基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量,包括:
24.基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量;
25.基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量;
26.将所述上文隐藏层状态向量和所述下文隐藏层状态向量进行拼接,生成该分词的第二特征向量。
27.进一步的,所述基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图,包括:
28.基于所述目标语句的句法依赖图,从所述目标语句的句法依赖图的节点中识别出动词节点;所述动词节点是词性标签为动词的分词对应的节点;
29.从所述目标语句的句法依赖图中识别出至少经过一个动词节点的实体节点之间的最短依赖路径以及所述实体节点之间的最短依赖路径上的节点的关联节点;
30.基于所述实体之间的最短依赖路径与所述关联节点,得到表征所述实体之间依赖关系的句法依赖图。
31.进一步的,所述基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量,包括:
32.基于所述实体之间的句法依赖图,将所述实体之间的句法依赖图中的节点作为目标节点;
33.针对每个目标节点,确定出与所述目标节点相邻的相邻节点;
34.根据所述目标节点和所述相邻节点的第二特征向量,确定出表征所述目标节点和所述相邻节点的依赖关系的所述目标节点的第三特征向量;
35.将所述目标节点的第三特征向量进行拼接,以确定表征实体之间依赖关系的句法拼接向量;
36.基于所述句法拼接向量和训练好的多层感知器,生成表征实体之间依赖关系的句法依赖特征向量。
37.本技术实施例还提供了一种语句中实体关系的抽取装置,所述抽取装置包括:
38.获取模块,用于获取包含有多种词嵌入特征的目标语句的第一特征向量序列;
39.生成模块,用于基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;
40.拼接模块,用于将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;
41.确定模块,用于基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。
42.进一步的,所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;所述获取模块,在获取包含有多种词嵌入特征的目标语句的第一特征向量序列时,所述获取模块用于:
43.针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词;
44.针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量;
45.基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。
46.进一步的,所述生成模块,在基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量时,所述生成模块用于:
47.基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息;
48.将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。
49.进一步的,所述生成模块,在基于所述目标语句的第一特征向量序列,生成表征所述目标语句中的实体之间依赖关系的句法依赖特征向量时,所述生成模块用于:
50.针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量;
51.基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为
边的所述目标语句的句法依赖图;
52.从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点;
53.针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图;
54.基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。
55.进一步的,所述生成模块,在基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量时,所述生成模块用于:
56.基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量;
57.基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量;
58.将所述上文隐藏层状态向量和所述下文隐藏层状态向量进行拼接,生成该分词的第二特征向量。
59.进一步的,所述生成模块,在基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图时,所述生成模块用于:
60.基于所述目标语句的句法依赖图,从所述目标语句的句法依赖图的节点中识别出动词节点;所述动词节点是词性标签为动词的分词对应的节点;
61.从所述目标语句的句法依赖图中识别出至少经过一个动词节点的实体节点之间的最短依赖路径以及所述实体节点之间的最短依赖路径上的节点的关联节点;
62.基于所述实体之间的最短依赖路径与所述关联节点,得到表征所述实体之间依赖关系的句法依赖图。
63.进一步的,所述生成模块,在基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量时,所述生成模块用于:
64.基于所述实体之间的句法依赖图,将所述实体之间的句法依赖图中的节点作为目标节点;
65.针对每个目标节点,确定出与所述目标节点相邻的相邻节点;
66.根据所述目标节点和所述相邻节点的第二特征向量,确定出表征所述目标节点和所述相邻节点的依赖关系的所述目标节点的第三特征向量;
67.将所述目标节点的第三特征向量进行拼接,以确定表征实体之间依赖关系的句法拼接向量;
68.基于所述句法拼接向量和训练好的多层感知器,生成表征实体之间依赖关系的句法依赖特征向量。
69.本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的语句中实体关系的抽取方法的步骤。
70.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有
计算机程序,该计算机程序被处理器运行时执行如上述的语句中实体关系的抽取方法的步骤。
71.本技术实施例提供的语句中实体关系的抽取方法及装置,通过获取包含有多种词嵌入特征的目标语句的第一特征向量序列;所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
72.为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
73.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
74.图1示出了本技术实施例所提供的一种语句中实体关系的抽取方法的流程图;
75.图2示出了本技术实施例所提供的一种生成表征目标语句中的实体之间依赖关系的句法依赖特征向量的步骤的流程图;
76.图3a示出了本技术实施例所提供的目标语句的句法依赖图的示意图;
77.图3b示出了本技术实施例所提供的实体之间的句法依赖图的示意图;
78.图4示出了本技术实施例所提供的一种语句中实体关系的抽取装置的结构示意图;
79.图5示出了本技术实施例所提供的一种电子设备的结构示意图。
具体实施方式
80.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本技术保护的范围。
81.首先,对本技术可适用的应用场景进行介绍。本技术可应用于威胁情报文本中的实体之间的关系抽取过程。
82.经研究发现,随着网络和信息化的高速发展,新型威胁和攻击呈现持续性和扩大
化的发展趋势,其中高级可持续性攻击(advanced persistent threat,apt)是典型代表。apt攻击向目标计算机投放特种木马(俗称特马)以达到窃取国家机密信息、重要企业的商业信息、破坏网络基础设施等目的。安全公司每天都会发布海量的威胁情报,这些威胁情报大多以文字呈现,无法直观地展示攻击关系。威胁情报报告主要描述了威胁组织使用何种工具以何种手段攻击某一国家的某个行业,安全团队以何种方式进行检测防御等。文字方式呈现的apt报告不利于安全运营人员快速感知异常,导致安全工作人员了解最新攻击事件的效率极低。最后的结果就是,虽有海量威胁情报,但绝大多数都没有得到及时处理、总结,这样对国家以及企业造成的安全隐患极大。
83.而信息抽取可以将非结构化的威胁情报文本转化为结构化数据,其中关系抽取是信息抽取中重要的一项任务。威胁情报关系抽取为进一步的网络安全挖掘分析、防御部署奠定坚实的基础,在网络安全防御方面具有良好的实际应用价值和理论意义。目前,威胁情报关系抽取任务主要存在以下问题:1)威胁情报文本的句子长度较长,威胁情报关系数据集中句子包含的令牌数量或者字符数量远大于通用领域数据集,难以充分有效地提取句子特征;2)由于威胁情报文本中包含了文件哈希、加密算法、防御措施等专业领域的信息,关系抽取的过程对于已知的词表具有较强的依赖性,从而导致关系抽取的结果具有局限性。
84.基于此,本技术实施例提供了一种语句中实体关系的抽取方法,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
85.请参阅图1,图1为本技术实施例所提供的一种语句中实体关系的抽取方法的流程图。所如图1中所示,本技术实施例提供的语句中实体关系的抽取方法,包括:
86.步骤s101、获取包含有多种词嵌入特征的目标语句的第一特征向量序列。
87.该步骤中,首先针对威胁情报文本进行分句处理,得到多个目标语句,针对每个目标语句,都可以对该目标语句中的实体之间的关系进行抽取。这里,采用多种词嵌入特征共同表达一个目标语句,以得到目标语句的第一特征向量序列。在具体实施时,可以通过以下步骤获取包含有多种词嵌入特征的目标语句的第一特征向量序列:
88.步骤1011、针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词。
89.该步骤中,可以使用空格将目标语句中的词、符号以及字符分隔开,得到目标语句对应的多个分词。
90.步骤1012、针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量。
91.该步骤中,首先获取该分词对应的词嵌入特征,其中,词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签。这里,词向量可以是预先训练的300维词向量;词义向量可以通过预先训练的bert模型获得;此外,由于分词的词性在关系抽取中具有重要意义,因此,可以使用分词对应的词性标签来对该分词进行表达;进一步的,对于分词中被识别为实体的分词,使用实体标签对该分词进行表达,以便更加高效的进行实体之间的关系的抽取;然后,将该分词的词嵌入特征进行拼接处理,得到该分词的第一特征向量。
92.作为示例,针对每个分词,可以通过以下等式得到该分词第一特征向量t
n

93.t
n
=g
n
b
n
p
n
e
n

94.式中,n为目标语句中的第n个分词,g
n
为该分词的词向量,b
n
为该分词的词义向量,
p
n
为该分词的词性标签,e
n
为该分词的实体标签。
95.步骤1013、基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。
96.该步骤中,按照各分词在目标语句中的顺序,将各分词的第一特征向量进行排序,得到目标语句的第一特征向量序列,具体的,可以使用以下等式表示目标语句的第一特征向量序列s;
97.s={t1,t2,

,t
n
}。
98.步骤s102、基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量。
99.该步骤中,基于目标语句的第一特征向量序列,分别生成语义特征向量和句法依赖特征向量,其中,语义特征向量可以表征目标语句的语义信息,句法依赖特征向量可以表征目标语句中的实体之间的依赖关系。在具体实施时,可以通过以下步骤生成表征所述目标语句的语义信息的语义特征向量:
100.步骤1021、基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息。
101.该步骤中,语义特征转换模型可以根据输入的目标语句的各分词的第一特征向量,得到目标语句的语义信息,以缓解关系抽取过程对词表的依赖性,具体的,语义特征转换模型可以是sentence

bert模型,该模型是根据bert模型进行改进的神经网络模型,它使用二元组或者三元组网络结构来推导目标语句的语句特征,并使用余弦相似性对语句特征进行比较,最终得到目标语句的语义信息。
102.步骤1022、将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。
103.该步骤中,多层感知器是预先训练好的,可以将输入的多个数据集映射到单一的输出的数据集上,即将目标语句的语义信息输入至多层感知器,即可得到目标语句的语义特征向量。
104.请参阅图2,图2为本技术另一实施例提供的生成表征目标语句中的实体之间依赖关系的句法依赖特征向量的步骤的流程图。如图2中所示,本技术实施例提供的生成表征目标语句中的实体之间依赖关系的句法依赖特征向量的步骤,包括:
105.步骤s201、针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量。
106.该步骤中,将目标语句中各分词的第一特征向量作为输入,输入至训练好的双向长短时记忆网络,得到包含有上下文层的第二特征向量序列。在具体实施时,可以通过以下步骤生成包含有上下文层的该分词的第二特征向量:
107.步骤2011、基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量。
108.该步骤中,基于该分词的第一特征向量和训练好的前向长短时记忆网络lstm
fw
,通过以下等式得到该分词的上文隐藏层状态向量
[0109][0110]
步骤2012、基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量。
[0111]
该步骤中,基于该分词的第一特征向量和训练好的后向长短时记忆网络lstm
bw
,通过以下等式得到该分词的下文隐藏层状态向量
[0112][0113]
步骤2013、将所述上文隐藏层状态向量和所述下文隐藏层状态向量进行拼接,生成该分词的第二特征向量。
[0114]
该步骤中,将该分词的上文隐藏层状态向量和下文隐藏层状态向量进行拼接,得到以下等式所示的该分词的第二特征向量l
n

[0115][0116]
步骤s202、基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为边的所述目标语句的句法依赖图。
[0117]
该步骤中,基于目标语句中的分词的第二特征向量,对目标语句进行依赖项分析,得到两个分词之间的依赖关系,将各分词作为节点,将分词之间的依赖关系作为边,目标语句的句法依赖图。作为示例,图3a为目标语句的句法依赖图,在图3a中,用n1、n2、
……
、n
15
标记目标语句中的各分词对应的节点,用v标记动词节点,用e1、e2标记实体节点,该句法依赖图可以表征目标语句中所有分词之间的依赖关系。
[0118]
步骤s203、从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点。
[0119]
该步骤中,目标语句的关系抽取方法,主要是针对目标语句中的实体之间的关系进行抽取,那么,就需要识别出目标语句中的实体,具体的,当该分词的词嵌入特征中包含有实体标签时,判断该分词为实体,然后将该分词对应的节点确定为实体节点。作为示例,在图3a中,将节点n9、n
12
识别为实体节点,并分别标记为e1、e2。
[0120]
步骤s204、针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图。
[0121]
该步骤中,由于目标语句的句法依赖图中还包含有与实体之间的关系抽取无关的节点,因此,需要从目标语句的句法依赖图中提取出实体之间的句法依赖图,以提高数据处理效率。在具体实施时,可以通过以下步骤提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图:
[0122]
步骤2041、基于所述目标语句的句法依赖图,从所述目标语句的句法依赖图的节点中识别出动词节点;所述动词节点是词性标签为动词的分词对应的节点。
[0123]
该步骤中,由于动词在判断实体之间的关系上具有重要作用,因此,可以以实体节点和动词节点为基础提取出实体之间的句法依赖图,具体的,当该分词的词嵌入特征的词性标签为动词时,判断该分词的词性为动词,然后将该分词对应的节点确定为动词节点。作为示例,在图3a中,将节点n1、n5以及n7识别为动词节点,将上述动词节点标记为v。
[0124]
步骤2042、从所述目标语句的句法依赖图中识别出至少经过一个动词节点的实体
节点之间的最短依赖路径以及所述实体节点之间的最短依赖路径上的节点的关联节点。
[0125]
该步骤中,基于目标语句的句法依赖图,首先识别出实体节点之间的最短依赖路径,然后确定出该最短依赖路径上的节点,将与该最短依赖路径上的节点k跳的节点作为其关联节点,其中k可以为1,也可以为其他数值,在此申请人不做任何限定。作为示例,图3a中实体节点n9与实体节点n
12
之间的最短依赖路径上的节点包括:n9、n5、n2、n1、n4、n7以及n
12
,与该最短依赖路径上的节点k跳的关联节点包括:n
13
、n8、n3、n
14
、以及n
15

[0126]
步骤2043、基于所述实体之间的最短依赖路径与所述关联节点,得到表征所述实体之间依赖关系的实体之间的句法依赖图。
[0127]
该步骤中,将与动词节点连接的边赋予相较于其他的边更高的权重,以表现出其在实体之间的关系抽取过程的重要作用。作为示例,图3b为实体之间的句法依赖图,在图3b中,加粗显示的边为实体之间的最短依赖路径,将与动词节点n1、n5以及n7连接的边赋予相较于其他边2倍的权重,并对该边作相应的标记。
[0128]
步骤s205、基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。
[0129]
该步骤中,通过图卷积神经网络,基于实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。在具体实施时,可以通过以下步骤生成表征实体之间依赖关系的句法依赖特征向量:
[0130]
步骤2051、基于所述实体之间的句法依赖图,将所述实体之间的句法依赖图中的节点作为目标节点。
[0131]
该步骤中,将实体之间的句法依赖图中包含的节点作为目标节点,其中,该节点可以是实体节点,也可以是动词节点,还可以是关联节点;针对每个目标节点。
[0132]
步骤2052、针对每个目标节点,确定出与所述目标节点相邻的相邻节点。
[0133]
该步骤中,根据实体之间的句法依赖图,确定出与该目标节点相邻的相邻节点。
[0134]
步骤2053、根据所述目标节点和所述相邻节点的第二特征向量,确定出表征所述目标节点和所述相邻节点的依赖关系的所述目标节点的第三特征向量。
[0135]
该步骤中,根据相邻节点的第二特征向量来检索并更新目标节点的隐藏特征向量,经过多层更新后,得到可以表征目标节点之间的依赖关系的第三特征向量。作为示例,可以通过以下等式得到目标节点在第l层的隐藏特征向量
[0136][0137]
式中,v是目标节点,n(v)是该目标节点的相邻节点的集合,包括v本身,w和b是与目标节点连接的边对应的权重,是该目标节点在第l

1层的隐藏特征向量。
[0138]
进一步的,在经过l层更新后,得到该目标节点的第三特征向量。
[0139]
步骤2054、将所述目标节点的第三特征向量进行拼接,以确定表征实体之间依赖关系的句法拼接向量。
[0140]
该步骤中,将目标节点的第三特征向量进行拼接,可以生成第三特征向量序列s
g
={g1,g2,

,g
m
},其中,m为经过l层更新后的第三特征向量,该第三特征向量序列可以表征
实体之间的依赖关系,将该第三特征向量序列输入至最大池化函数中,通过以下等式将多个输出向量映射到为一个句法拼接向量g
sent

[0141]
g
sent
=f(s
g
)。
[0142]
步骤2055、基于所述句法拼接向量和训练好的多层感知器,生成表征实体之间依赖关系的句法依赖特征向量。
[0143]
该步骤中,将第三特征拼接向量、头实体特征向量以及尾实体特征向量输入至预先训练的多层感知器mlp中,通过以下等式得到句法依赖特征向量h
dependency

[0144]
h
dependency
=mlp([g
sent
;e
head
;e
tail
])。
[0145]
步骤s103、将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量。
[0146]
该步骤中,将语义特征向量和句法依赖特征向量进行拼接,得到表征实体之间关系的关系特征向量,那么,该关系特征向量既携带有目标语句的语义信息,又携带有实体之间的依赖关系,能够充分反映出目标语句的特征。
[0147]
步骤s104、基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。
[0148]
该步骤中,将关系抽取问题看作是一种多分类问题,针对于威胁情报领域,可以预先设置出多个实体之间的关系类别,通过归一化指数函数,针对每个实体之间的关系类别,得到该关系特征向量为该关系类别的概率。
[0149]
本技术实施例提供的语句中实体关系的抽取方法,通过获取包含有多种词嵌入特征的目标语句的第一特征向量序列;所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。相较于现有技术,本技术能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
[0150]
基于同一发明构思,本技术实施例中还提供了与语句中实体关系的抽取方法对应的语句中实体关系的抽取装置,由于本技术实施例中的装置解决问题的原理与本技术实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0151]
请参阅图4,图4为本技术实施例所提供的一种语句中实体关系的抽取装置的结构示意图。如图4中所示,所述语句中实体关系的抽取装置400包括:
[0152]
获取模块401,用于获取包含有多种词嵌入特征的目标语句的第一特征向量序列;
[0153]
生成模块402,用于基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;
[0154]
拼接模块403,用于将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;
[0155]
确定模块404,用于基于预先设置的各实体之间的关系类别和所述关系特征向量,
确定所述实体之间的关系的概率分布情况。
[0156]
进一步的,所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;所述获取模块401,在获取包含有多种词嵌入特征的目标语句的第一特征向量序列时,所述获取模块401用于:
[0157]
针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词;
[0158]
针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量;
[0159]
基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。
[0160]
进一步的,所述生成模块402,在基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量时,所述生成模块402用于:
[0161]
基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息;
[0162]
将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。
[0163]
进一步的,所述生成模块402,在基于所述目标语句的第一特征向量序列,生成表征所述目标语句中的实体之间依赖关系的句法依赖特征向量时,所述生成模块402用于:
[0164]
针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量;
[0165]
基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为边的所述目标语句的句法依赖图;
[0166]
从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点;
[0167]
针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图;
[0168]
基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。
[0169]
进一步的,所述生成模块402,在基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量时,所述生成模块402用于:
[0170]
基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量;
[0171]
基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量;
[0172]
将所述上文隐藏层状态向量和所述下文隐藏层状态向量进行拼接,生成该分词的第二特征向量。
[0173]
进一步的,所述生成模块402,在基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图时,所述生成模块402用于:
[0174]
基于所述目标语句的句法依赖图,从所述目标语句的句法依赖图的节点中识别出动词节点;所述动词节点是词性标签为动词的分词对应的节点;
[0175]
从所述目标语句的句法依赖图中识别出至少经过一个动词节点的实体节点之间的最短依赖路径以及所述实体节点之间的最短依赖路径上的节点的关联节点;
[0176]
基于所述实体之间的最短依赖路径与所述关联节点,得到表征所述实体之间依赖关系的句法依赖图。
[0177]
进一步的,所述生成模块402,在基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量时,所述生成模块402用于:
[0178]
基于所述实体之间的句法依赖图,将所述实体之间的句法依赖图中的节点作为目标节点;
[0179]
针对每个目标节点,确定出与所述目标节点相邻的相邻节点;
[0180]
根据所述目标节点和所述相邻节点的第二特征向量,确定出表征所述目标节点和所述相邻节点的依赖关系的所述目标节点的第三特征向量;
[0181]
将所述目标节点的第三特征向量进行拼接,以确定表征实体之间依赖关系的句法拼接向量;
[0182]
基于所述句法拼接向量和训练好的多层感知器,生成表征实体之间依赖关系的句法依赖特征向量。
[0183]
本技术实施例提供的语句中实体关系的抽取方法,通过获取包含有多种词嵌入特征的目标语句的第一特征向量序列;所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。相较于现有技术,本技术能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
[0184]
请参阅图5,图5为本技术实施例所提供的一种电子设备的结构示意图。如图5中所示,所述电子设备500包括处理器501、存储器502和总线503。
[0185]
所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备500运行时,所述处理器501与所述存储器502之间通过总线503通信,所述机器可读指令被所述处理器501执行时,可以执行如上述图1以及图2所示方法实施例中的语句中实体关系的抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0186]
本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的语句中实体关系的抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
[0187]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0188]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨
论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0189]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0190]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0191]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0192]
最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献