一种应用于医学知识图谱的数据融合方法及装置与流程

2021-10-24 11:10:00 来源：中国专利 TAG：医学知识图谱应用于融合装置

1.本发明涉及信息处理技术领域，特别是涉及一种应用于医学知识图谱的数据融合方法及装置。

背景技术：

2.在构建医疗知识图谱的过程中，数据来源较多，其中，数据可能来源于医学网站、文献、电子病历、临床指南等。在医学网站中包含大量俗语、习惯用语；电子病历中句子语法结构残缺，包含较多缩略语和大量英文缩写，且由于中文医学术语中多词一义现象突出，数据质量良莠不齐，可能存在重复数据、孤立数据、数据粒度不一致等问题。
3.因此，对多源异构的知识源中的重复、冗余数据进行实体对齐操作是保证知识图谱中数据准确性的关键操作，但是，现有的实体对齐操作并不能准确地对知识图谱中的数据进行有效融合，降低了医学知识图谱的准确性。

技术实现要素：

4.针对于上述问题，本发明提供一种应用于医学知识图谱的数据融合方法及装置，提升了数据融合的准确性，保证了知识图谱中数据的准确性。
5.为了实现上述目的，本发明提供了如下技术方案：
6.一种应用于医学知识图谱的数据融合方法，包括：
7.获取不同数据来源的初始三元组，所述三元组包括头实体、尾实体和关系；
8.计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果；
9.基于所述各个尾实体的相似度计算结果，对各个尾实体进行融合；
10.利用尾实体融合后的数据，计算各个头实体的相似度；
11.基于各个头实体的相似度计算结果，对各个头实体进行融合，得到目标三元组。
12.可选地，所述计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果，包括：
13.获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征；
14.将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型，得到各个尾实体的融合结果；
15.将所述各个尾实体的相似度计算结果，确定为各个尾实体的融合结果。
16.可选地，所述方法还包括：
17.计算各个尾实体的语义相似度特征，包括：
18.将各个尾实体转换为词向量；
19.计算各个词向量之间的距离，并基于所述距离确定各个尾实体的语义相似度，获得语义相似度特征。
20.可选地，所述方法还包括：
21.计算各个尾实体的结构相似度，包括：
22.将所述初始三元组确定为正例，并获取与所述正例对应的负例，所述负例为随机替换所述初始三元组中头实体或尾实体得到的；
23.通过映射矩阵分别对所述正例和所述负例进行映射，获得第一映射结果和第二映射结果；
24.基于所述第一映射结果和第二映射结果，利用余弦公式计算得到各个尾实体间的结构相似度特征。
25.可选地，所述方法还包括：
26.计算字符相似度特征，包括：
27.获取各个尾实体的字符信息；
28.基于所述字符信息，计算字符相似度特征，所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
29.可选地，所述获取尾实体融合后的三元组中的头实体，并计算各个头实体的相似度，包括：
30.获取尾实体融合后的三元组中的头实体的属性特征；
31.基于所述属性特征，计算各个头实体的属性相似度；
32.获取尾实体融合后的三元组中的头实体的结构特征，所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同字符个数与字符总数的比值和头实体之间的表示学习计算得到的相似度；
33.基于所述结构特征，计算各个头实体的结构相似度。
34.可选地，所述基于各个头实体的相似度计算结果，对各个头实体进行融合，包括：
35.若各个头实体的属性相似度满足融合条件，对各个头实体进行融合，得到头实体融合结果；
36.若各个头实体的属性相似度不满足融合条件，基于所述各个头实体的结构相似度对各个头实体进行融合，得到头实体融合结果。
37.一种应用于医学知识图谱的数据融合装置，包括：
38.获取单元，用于获取不同数据来源的初始三元组，所述三元组包括头实体、尾实体和关系；
39.第一计算单元，用于计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果；
40.第一融合单元，用于基于所述各个尾实体的相似度计算结果，对各个尾实体进行融合；
41.第二计算单元，用于获取尾实体融合后的三元组中的头实体，并计算各个头实体的相似度；
42.第二融合单元，用于基于各个头实体的相似度计算结果，对各个头实体进行融合，得到目标三元组。
43.一种存储介质，所述存储介质存储有可执行指令，所述指令被处理器执行时实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
44.一种电子设备，包括：
45.存储器，用于存储程序；
46.处理器，用于执行所述程序，所述程序具体用于实现如上述中任意一项所述的一种应用于医学知识图谱的数据融合方法。
47.相较于现有技术，本发明提供了一种应用于医学知识图谱的数据融合方法及装置，包括：获取不同数据来源的初始三元组，所述三元组包括头实体、尾实体和关系；计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果；基于所述各个尾实的相似度计算结果，对各个尾实体进行融合；利用尾实体融合后的数据，计算头实体的相似度；基于头实体的相似度计算结果，对头实体进行融合，得到目标三元组。本发明通过尾实体和头实体的分步计算实现了全部数据的融合，保证了知识图谱中数据的准确性。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
49.图1为本发明实施例提供的一种应用于知识图的数据融合方法的流程示意图；
50.图2为本发明实施例提供的一种数据融合的示意图；
51.图3为本发明实施例提供的一种头实体融合的示意图；
52.图4为本发明实施例提供的一种应用于医学知识图谱的数据融合装置的结构示意图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。
55.在医学知识图谱构建过程中，抽取不同来源的三元组数据时数据间可能具有互补、冗余甚至相互冲突，为了保证医学知识图谱数据的准确性，本发明实施例提供了一种应用于知识图谱的数据融合方法，参见图1，该方法可以包括以下步骤：
56.s101、获取不同数据来源的初始三元组。
57.其中，初始三元组是抽取不同来源的三元组数据，具体的三元组包括头实体、尾实体和关系。在本发明实施例中将医学知识图谱中的数据分为两大类，头实体特指疾病类型实体，尾实体指除了疾病实体的所有其他类型，例如症状、药物、治疗、检查等。
58.s102、计算初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果。
59.s103、基于各个尾实体的相似度计算结果，对各个尾实体进行融合。
60.首先计算尾实体的相似度，进行尾实体融合。然后利用对齐后的尾实体计算头实体的相似度，通过分布计算最终实现全部数据的融合。在本发明实施例中头实体指的是疾病一种类型，其他所有尾实体与头实体连接，呈现一种以头实体为中心的发散结构。先融合尾实体可以得到更一致的实体表达，再根据融合后信息融合头实体，可以提高融合效率。
61.相似度计算结果是得到是否可以进行融合的结果，其中，在本发明实施例中的相似度计算的目的是找到不同数据源实体之间的最优对齐。在计算尾实体相似度时主要是通过语义相似度、结构相似度和字符相似度进行计算的。然后将可以融合的尾实体进行融合。
62.s104、利用尾实体融合后的数据，计算头实体的相似度。
63.s105、基于头实体的相似度计算结果，对头实体进行融合，得到目标三元组。
64.在对尾实体进行融合后，再进行头实体融合。进行头实体对齐时，先利用属性进行对齐，对不能对齐的实体，利用图的结构信息计算结构相似度transr，字符相似度jaccard系数和相同尾节点个数来融合头实体。
65.对尾实体和头实体均进行融合后就可以将初始三元组得到融合后的目标三元组，保证了医学知识图谱中数据的准确性。
66.参见图2，其示出了本发明实施例提供的一种数据融合的示意图。首先，基于语义相似度bert、word2vec，结构相似度transr，字符相似度jaccard系数，计算两个数据源中尾实体的相似性。尾实体融合帮助我们得到更一致的实体表达。然后，进行头实体对齐，先利用属性进行对齐，对不能对齐的实体，利用图的结构信息计算transr、jaccard系数和相同节点个数来融合头实体。
67.在图2中，数据来源是病历数据源和网络数据源。其中，基于语义相似度进行尾实体融合，基于结构相似度进行头实体融合。在尾实体融合处理中的分类模型输入的是语义相似度特征、结构相似度特征和字符相似度特征，输出的是一个二分类结果，即尾实体是否可以进行融合。在进行头实体融合时，若不能基于头实体的属性对齐，则将相同节点数、jaccard系数和transr输入分类模型，得到头实体是否可以进行融合的结果。在完成尾实体和头实体融合后，可以得到融合后的三元组。
68.在本发明的一种实施方式中，所述计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果，包括：
69.获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征；
70.将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型；
71.将所述各个尾实体的相似度计算结果，确定为各个尾实体的融合结果。
72.在实体融合任务中，只有两种类型的训练结果(能融合/不能融合)，因此将其转换为二分类问题。在尾部实体融合实验中，从实体的3个不同方面提取特征构建模型：语义相似度，结构相似度和字符相似度。通过bert、word2vec模型得到实体的语义特征，transr得到实体结构相似度特征，利用jaccard系数获得实体的字符相似度特征。将多个特征送入分类模型进行训练学习得到融合结果。
73.其中，计算各个尾实体的语义相似度特征，包括：将各个尾实体转换为词向量；计算各个词向量之间的距离，并基于所述距离确定各个尾实体的语义相似度，获得语义相似
度特征。
74.在文本型数据的相似度计算中广泛使用到语义模型。使用两种语义模型word2vec模型和bert模型对不同数据源中的实体构造嵌入，将两个数据源映射到同一向量空间，通过度量空间距离衡量语义上的相似度。
75.将通用语料和医学领域专业语料结合作为训练语料，训练词向量。给定固定大小窗口的上下文词，每个词向量都经过训练以使词的概率最大化。使用word2vec模型将词映射到固定维度空间，对于实体词使用随机梯度下降的优化方法，最小化目标函数，更新并输出向量，得到实体的向量表示w2v_vec(x)。
76.由于相似度高的词在向量空间的位置间距小，因此可以通过比较词向量间的距离，完成实体对齐。利用余弦公式度量距离，通过计算两个向量的夹角来评估它们的相似性，实体对相似度值记为simteal_w2v(x,y)：
77.使用bert
‑
base中文来构建尾部实体在不同数据源数据中的嵌入，并通过计算空间距离测量向量的语义相似性。bert预训练语言模型分为预训练阶段和微调阶段。模型输入是包含实体信息的训练语料。通过预训练阶段的两个预训练任务：学习双向掩码的语言模型对序列中15％的词语进行遮蔽，然后对那些被掩盖的词进行预测；引入next sentence prediction(nsp)进行句子分类。训练得到实体向量的表示bert_vec(x)，使用余弦相似度来度量向量之间的相似度，得到simteal_bert(x,y)。
78.在一种实施方式中，计算各个尾实体的结构相似度，包括：
79.将所述初始三元组确定为正例，并获取与所述正例对应的负例，所述负例为随机替换所述初始三元组中头实体或尾实体得到的；
80.通过映射矩阵分别对所述正例和所述负例进行映射，获得第一映射结果和第二映射结果；
81.基于所述第一映射结果和第二映射结果，利用余弦公式计算得到各个尾实体间的结构相似度特征。
82.具体的，将抽取得到的三元组数据作为正例(h，r，t)，对于每个正例三元组，随机替换头实体(h’，r，t)或尾实体(h，r，t’)生成一个负例。对于一个给定的三元组(h，r，t)，transr模型首先使用关系特定的映射矩阵mr将实体从实体空间映射到关系空间中，分别得到第一映射结果hr和第二映射结果tr。对于每个三元组其损失函数定义为l，利用梯度下降法对参数进行更新，得到含有实体结构特征的向量trans_vec(x)。利用余弦公式计算得到两实体间的结构相似度simteal_trans(x,y)。
83.在另一种实施方式中，计算字符相似度特征，包括：
84.获取各个尾实体的字符信息；
85.基于所述字符信息，计算字符相似度特征，所述字符相似度特征表征两个尾实体中相同字符个数与总字符数的比值。
86.其中，字符相似度特征用jaccard系数表示。jaccard系数可以比较样本集之间的相似性和差异性。对于给定的两个尾实体x,y，jaccard系数定义为x与y交集的大小与并集大小的比值。使用jaccard系数来计算两个尾实体中相同字符个数与总字符数的比值jaccard(x,y)。
87.在本发明实施例中尾实体融合模型本质是一个分类模型，
88.在实体对齐任务中，因为数据的类别注释只有两种类型(相同或不同)，因此将其转换为二分类问题。在分类问题中，神经网络算法通过多轮迭代和梯度下降可以很好的拟合数据，分别选取上述模型将实体的语义相似度特征simteal_w2v(x,y)、simteal_bert(x,y)、结构相似度特征simteal_trans(x,y)、字符相似度特征jaccard(x,y)输入神经网络得到实体融合结果。具体的，语义相似度特征、字符相似度特征、结构相似度特征，都是0
‑
1的数值，表示计算出的相似度值，把4个数值输入神经网络训练得到的尾实体融合模型。
89.参见图3，其示出了本发明实施例提供的一种头实体融合的示意图。尾实体融合完成后，对头实体即疾病实体进行融合。利用两个头实体各自属性的相似性和其结构的相似性进行实体融合。
90.其中，所述获取尾实体融合后的三元组中的头实体，并计算各个头实体的相似度，包括：获取尾实体融合后的三元组中的头实体的属性特征；基于所述属性特征，计算各个头实体的属性相似度；获取尾实体融合后的三元组中的头实体的结构特征，所述结构特征包括两头实体包含的相同尾节点个数、头实体对应的所有尾实体集合中相同尾节点的字符数与字符总数的比值和利用表示学习计算得到的头实体之间的相似度；基于所述结构特征，计算各个头实体的结构相似度。
91.对应的，所述基于各个头实体的相似度计算结果，对各个头实体进行融合，包括：若各个头实体的属性相似度满足融合条件，对各个头实体进行融合，得到头实体融合结果；若各个头实体的属性相似度不满足融合条件，基于所述各个头实体的结构相似度对各个头实体进行融合，得到头实体融合结果。
92.在对头实体进行融合时，属性相似性：利用疾病的别名属性和英文名称属性进行实体对齐，如果两个数据源中头实体具有相同的疾病名称、别称、英文名称即可认为两个实体相同。
93.结构相似性：
94.当实体不能通过别名属性进行对齐时，根据结构相似性判断两实体能否对齐。定义两数据源中的某一疾病集合分别为和对于头实体h1和h2的相似度，计算两头实体包含的相同尾节点个数，用表示。
95.使用头实体对应尾实体集合的jaccard系数来计算两个数据源中头实体对应的所有尾实体集合中相同字符个数与字符总数的比值，计算时不考虑集合中词汇之间的顺序。
96.使用transr模型训练头实体的向量表示，并使用余弦相似度来计算两个不同头部实体之间的相似度transr(h1,h2)。
97.在特征构建完成后，将3个相似度结果在特征构建完成后，将3个相似度结果transr(h1,h2)作为特征输入到神经网络中进行头实体分类，得到头实体融合结果。
98.在本发明实施例提供的一种应用于医学知识图谱的数据融合方法，在尾部实体融合方法中，从实体的3个不同方面提取特征构建模型：语义相似度，结构相似度和字符相似
度。分别通过bert、word2vec模型得到实体的语义相似度，transr得到实体结构相似度，利用jaccard系数获得实体的字符相似度特征。将3个特征送入分类模型进行训练得到尾实体融合结果。然后利用对齐后的尾实体进行头实体融合，计算头实体的相似度。利用两个头实体各自属性相似性和其结构相似性进行实体融合。属性的相似性指利用疾病的别名属性和英文名称属性进行实体对齐。结构相似性从3个不同方面提取特征构建模型，包括：两头实体对应的相同尾节点个数，对应的尾实体集合的jaccard系数，transr相似度。提升了数据融合的准确性，保证了知识图谱中数据的准确性。
99.在本发明的另一实施例中还提供了一种应用于医学知识图谱的数据融合装置，参见图4，该装置包括：
100.获取单元，用于获取不同数据来源的初始三元组，所述三元组包括头实体、尾实体和关系；
101.第一计算单元10，用于计算所述初始三元组中各个尾实体的相似度，获得各个尾实体的相似度计算结果；
102.第一融合单元20，用于基于所述各个尾实体的相似度计算结果，对各个尾实体进行融合；
103.第二计算单元30，用于利用尾实体融合后的数据，计算各个头实体的相似度；
104.第二融合单元40，用于基于各个头实体的相似度计算结果，对各个头实体进行融合，得到目标三元组。
105.进一步地，所述第一计算单元包括：
106.第一获取子单元，用于获取各个尾实体的语义相似度特征、结构相似度特征和字符相似度特征；
107.模型处理子单元，用于将所述语义相似度特征、结构相似度特征和字符相似度特征输入到尾实体融合模型，得到各个尾实体的融合结果；
108.第一确定子单元，用于将所述各个尾实体的相似度结果，确定为各个尾实体的融合结果。
109.可选地，所述装置还包括：
110.语义计算单元，用于计算各个尾实体的语义相似度特征，所述语义计算单元具体用于：
111.将各个尾实体转换为词向量；
112.计算各个词向量之间的距离，并基于所述距离确定各个尾实体的语义相似度，获得语义相似度特征。
113.可选地，所述装置还包括：
114.结构计算单元，用于计算各个尾实体的结构相似度，所述结构计算单元具体用于：
115.将所述初始三元组确定为正例，并获取与所述正例对应的负例，所述负例为随机替换所述初始三元组中头实体或尾实体得到的；
116.通过映射矩阵分别对所述正例和所述负例进行映射，获得第一映射结果和第二映射结果；
117.基于所述第一映射结果和第二映射结果，利用余弦公式计算得到各个尾实体间的结构相似度特征。
memory，rom)、可编程只读存储器(programmable read
‑
only memory，prom)、可擦除可编程只读存储器(erasable programmable read
‑
only memory，eprom)、电可擦除可编程只读存储器(electrically erasable programmable read
‑
only memory，eeprom)、磁性随机存取存储器(ferromagnetic random access memory，fram)、快闪存储器(flash memory)、磁表面存储器、光盘、或只读光盘(compact disc read
‑
only memory，cd
‑
rom)等存储器；也可以是包括上述存储器之一或任意组合的各种终端，如移动电话、计算机、平板设备、个人数字助理等。
137.在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
138.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
139.另外，在本发明各实施例中的各功能单元可以全部集成在一个处理模块中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
140.本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。
141.本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。
142.本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。
143.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。
144.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
145.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的
一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种便于维护的信息服务用服务器的制作方法

一种应用于医学知识图谱的数据融合方法及装置与流程

相关文献

最热文献