一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

药物对相互作用关系的预测方法、设备及介质

2022-06-29 16:05:36 来源:中国专利 TAG:


1.本技术属于生物医药技术领域,尤其涉及一种药物对相互作用关系的预测方法、设备及介质。


背景技术:

2.药物-药物相互作用(drug-drug interaction,ddi)预测是药物警戒中的一个重要研究领域,在药物虚拟筛选、病人治疗方案、治疗效果以及病人安全研究等起着至关重要的作用。
3.目前所有的ddi预测都是基于句子级的关系进行预测。首先,将每一篇科学文献的摘要或部分关于药物描述的文字部分分为多个句子,每个句子中又包含若干种药物。因此,已有的工作都是将每种药物对输入特定的网络中进行处理,预测每种药物对之间的相互作用关系。
4.然而,上述ddi预测方法都是对句子级的药物对进行处理,而在实际中,一个药物对之间的相互作用关系往往是由多个句子共同决定的。因此,现有技术中,对文档中每种药物对的相互作用关系的预测准确率低。


技术实现要素:

5.本技术实施例提供了一种药物对相互作用关系的预测方法、设备及存储介质,可以解决对文档中每种药物对的相互作用关系的预测准确率低的问题。
6.第一方面,本技术实施例提供了一种药物对相互作用关系的预测方法,该方法包括:
7.获取目标文本;目标文本中包括多种药物,每种药物在目标文本中出现至少一次;
8.分别确定每种药物对应的综合实体表示,综合实体表示用于描述对应的药物在目标文本中的各个位置处的语义信息;
9.针对多种药物中的任一药物对,根据药物对中的两种药物的综合实体表示确定药物对的融合实体表示;
10.根据药物对的融合实体表示,预测药物对的相互作用关系。
11.第二方面,本技术实施例提供了一种药物对相互作用关系的预测装置,该装置包括:
12.获取模块,用于获取目标文本;目标文本中包括多种药物,每种药物在目标文本中出现至少一次;
13.综合实体表示确定模块,用于分别确定每种药物对应的综合实体表示,综合实体表示用于描述对应的药物在目标文本中的各个位置处的语义信息;
14.融合实体表示确定模块,用于针对多种药物中的任一药物对,根据药物对中的两种药物的综合实体表示确定药物对的融合实体表示;
15.预测模块,用于根据药物对的融合实体表示,预测药物对的相互作用关系。
16.第三方面,本技术实施例提供了一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述第一方面的方法。
17.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面的方法。
18.第五方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面的方法。
19.本技术实施例与现有技术相比存在的有益效果是:通过获取目标文本中每种药物的对应的综合实体表示,使终端设备可以采用一个综合实体表示能够综合的描述对应的药物在目标文本中各个位置处的语义信息。之后,对于每种目标药物对,终端设备均可以根据每种药物的综合实体表示进行融合,生成得到药物对的融合实体表示。进而,终端设备可以基于融合实体表示,准确的预测出药物对的相互作用关系。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术一实施例提供的一种生成句子级实施例的实现方式示意图;
22.图2是本技术一实施例提供的一种药物对相互作用关系的预测方法的实现流程图;
23.图3是本技术一实施例提供的一种药物对相互作用关系的预测方法中生成综合实体表示的一种实现方式示意图;
24.图4为本技术一实施例提供的一种生成药物的综合实体表示的模型结构示意图;
25.图5为本技术一实施例提供的一种药物关系预测模型预测药物对相互作用关系的流程示意图;
26.图6是本技术一实施例提供的一种药物对相互作用关系的预测方法中生成训练集的一种实现方式示意图;
27.图7是本技术另一实施例提供的一种药物对相互作用关系的预测方法中确定关系标签的一种实现方式示意图;
28.图8是本技术一实施例提供的一种药物对相互作用关系的预测装置的结构示意图;
29.图9是本技术一实施例提供的一种终端设备的结构示意图。
具体实施方式
30.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本技术的描述。
31.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
32.另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
33.本技术实施例提供的药物对相互作用关系的预测方法可以应用于平板电脑、可穿戴设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本等终端设备上,本技术实施例对终端设备的具体类型不作任何限制。
34.如背景技术记载,目前所有的ddi预测都是基于句子级的关系进行预测。其中,在训练句子级的药物关系预测模型时,通常需要使用大量的数据集。具体的,在获取数据集后,将数据集中每一篇科学文献的摘要或部分关于药物描述的文字被作为一个文档,保存在独立的xml文件中。此时,每一个xml文件中,又由至少一个或多个句子组成。每个句子中又包含若干个药物以及每两个药物之间的关系标签。
35.因此,已有的工作都是将每一个句子转换成若干个实例(每一个实例称为instance,只关注两个药物)。具体的,详情见图1),图1为本技术一实施例提供的一种生成句子级实施例的实现方式示意图。具体的,假设有一个句子(sentence),包含三个不重复的药物(drug1,drug2,drug3),则终端设备需要将其转成三个实例(instance_a,instance_b,instance_c),每个实例只关注一个药物对(e1和e2)。
36.基于此,可以确定一个句子生成实例的数量,是由句子中包含的药物数量决定的(排列组合,例如一个句子中包含4个药物时,需要转换成c
24
=6个实例)。也就意味着,基于句子级训练药物关系预测模型需要处理的实例数量是原文本中包含句子数量的数倍。因此,句子级的药物关系预测模型在训练过程中,需要更大的内存空间,且网络训练的耗时也更长。而在本实施例中,因将一个文本中相同的药物采用一个综合实体表示进行描述,以及一个药物对对应一个融合实体表示。也即,与句子级训练药物关系预测模型中将文本分为多个句子,并对每个句子中的药物和药物对分别使用向量进行表示不同。以此,终端设备可以极大降低模型训练时所需使用的内存空间。
37.另外,由于句子级的药物关系预测模型在训练时只关注句子中的某两个药物,因此,预测过程中也只基于句子中的某两个药物之间的语义信息进行预测。然而,在实际中,一个药物之间的关系往往是由多个句子共同决定的。因此,现有药物对相互作用关系的预测方法还存在无法从生物医学相关的文本中,挖掘出药物对之间更完整的相互作用的语义信息的问题。
38.基于此,为了解决无法从生物医学相关的文本中,挖掘出药物对之间更完整的相互作用的语义信息,在本实施例中,终端设备通如下方式s101-s104对目标文本进行处理,从而生成能够用于描述两个药物在目标文本中的相互作用的语义信息,以提高对药物相互作用关系预测的准确率。
39.下面结合具体实施例对本技术提供的一种药物对相互作用关系的预测方法进行示例性的说明。
40.请参阅图2,图2示出了本技术实施例提供的一种药物对相互作用关系的预测方法的实现流程图,该方法包括如下步骤:
41.s201、终端设备获取目标文本;目标文本中包括多种药物,每种药物在目标文本中出现至少一次。
42.在一实施例中,上述目标文本通常为与药物领域相关的文本,其包括但不限于期刊、论文等形式的文本。其中,目标文本可以为中文、英文或其他语言的文本,对此不作限定。
43.在一实施例中,为预测药物对相互作用,上述目标文本至少需包括两种以上的药物,否则,无法从目标文本中预测两种药物的相互作用关系。
44.可以理解的是,对于目标文本中的任一药物,其可能多次出现在目标文本中的不同位置。因此,本实施例中,对于目标药物出现的此时不作限制。
45.在一实施例中,终端设备具体可以通过如下步骤获取目标文本,详述如下:
46.终端设备获取初始文本,初始文本中包括多种药物,每种药物在初始文本中出现至少一次;若初始文本中存在使用药物共享后缀的药物名称,则对药物名称进行扩充,得到目标文本。
47.在一实施例中,上述初始文本为未经过处理的文本,其可以为终端设备基于药物名称从网络上爬取的文本,也可以为预先存储在终端设备指定的文本,本实施例中,对终端设备获取目标文本的路径不作限定。
48.在一实施例中,上述实体名称为药物的药物名称。其中,药物共享后缀为:多个药物的药物名称具有部分名称相同时,在初始文本中可能出现简写的情况,使多个药物共享一个后缀。该共享的后缀即为相同的部分名称。
49.示例性的,两个药物的实体名称可以分别为:1)diagnostic monoclonal antibodies(诊断性单克隆抗体);2)therapeutic monoclonal antibodies(治疗性单克隆抗体)。而包含两个药物的初始文本可以为
“…
when treated with other diagnostic or therapeutic monoclonal antibodies.(使用其他诊断性或治疗性单克隆抗体治疗时)”。也即上述两个药物名称共用了“monoclonal antibodies”作为共享后缀。对于该情况,终端设备需要对初始文本中的上述语句进行扩充,得到目标文本。即将上述语句改为:
“…
when treated with other diagnostic monoclonal antibodies or therapeutic monoclonal antibodies”。
50.s202、终端设备分别确定每种药物对应的综合实体表示,综合实体表示用于描述对应的药物在目标文本中的各个位置处的语义信息。
51.在一实施例中,上述综合实体表示用于综合描述对应的药物在目标文本中的各个位置处的语义信息。具体的,当药物在目标文本中的多个位置出现时,若只对其中某一位置处的包含药物的语句进行处理,得到用于表示药物在该语句中的语义信息,则最后基于该语义信息进行后续药物对相互作用关系预测时,其预测的准确率可能不准。也即该提取药物的语义信息的方式仅仅是基于目标文本中包含药物的某一句子进行处理后得到,该语义信息无法代替目标文本中其余位置处药物对应的语义信息。
52.基于此,在本实施例中,终端设备可以通过药物对应的综合实体表示,以参与后续处理,进而提到药物对相互作用关系的预测准确率。
53.在一具体实施例在,参照图3,在s202中,终端设备具体可通过如下子步骤s301-s303实现,详述如下:
54.s301、针对任一种药物,终端设备分别确定药物在目标文本中的多个位置。
55.s302、终端设备根据多个位置,分别生成每个位置对应的文本序列。
56.s303、终端设备对每个位置对应的文本序列进行向量处理,得到综合实体表示。
57.在一实施例中,上述位置为药物在目标文本中的位置信息。其中,文本序列为基于位置生成的序列。具体的,终端设备可以根据药物的实体名称,确定药物在目标文本中的位置信息。并且,终端设备可以采用“[”和“]”标识药物每次出现的起始位置和结束位置,以便对药物的位置进行标志。其中,对于一个药物具有多个位置信息的情况(也即药物多次出现在目标文本中),还可以根据药物在目标文本中出现的次序,赋予每个位置对应的次序信息。
[0058]
示例性的,终端设备可以采用如下方式表示药物的文本序列:
[0059]
x={x1,x2,

xn},x表示目标文本整体的文本序列,xn表示目标文本中第n个字符,n也表示目标文本中字符的总数量。假设,对于给定的药物drug-α,其由k个字符组成,且出现的次数为2次,则其文本序列可以分别为:p1={xi,x
i 1


x
i k-1
},p2={xj,x
j 1


x
j k-1
}。其中,p1和p2中的1和2分别表示药物在目标文本中出现的次序。xi表示为药物首次出现时处于目标文本中的第i个字符;因药物名称由k个字符组成,则x
i k-1
即为药物第一次出现后在文本中的结束位置。可以理解的是,若药物出现的次数具有多次,则文本序列也将对应有多个。
[0060]
在一实施例中,对文本序列进行向量处理即为:将文本序列表示为可被终端设备识别的处理。
[0061]
具体的,终端设备可以分别对每个位置对应的文本序列进行向量表示,对应得到多个文本向量;每个文本向量用于描述药物在与对应位置处的语义信息;将每个文本向量进行向量整合,生成药物的综合实体表示。
[0062]
其中,终端设备对每个文本序列进行向量表示,具体可以通过模型进行处理生成。例如,通过biobert(命名实体识别模型)对文本序列进行向量处理,得到综合实体表示。示例性的,biobert对上述p1和p2两个文本序列进行处理后生成的文本向量可以为:drugp1={vp1_1,vp1_2,

vp1_k},drugp2={vp2_1,vp2_2,

vp2_k}。其中,drugp1表示为p1文本序列对应的文本向量;vp1-k表示为p1文本序列中第k个字符对应的向量。
[0063]
可以理解的是,此时每个文本向量只能描述药物在目标文本中对应位置处的语义信息。基于此,为了得到药物的综合实体表示,终端设备还需对药物的多个文本向量进行整合。具体的,终端设备可以通过如下公式1和2对文本向量进行整合:
[0064][0065][0066]
其中,drug
e1
表示对第一个文本向量进行整合处理后,得到的整合向量;即对于drugp1,将表示drugp1中的每个向量进行求和后,在计算其平均值,此时平均值即为整合向量。之后,将该药物对应的每个整合向量再次进行求平均,生成药物的综合实体表示druga。
[0067]
具体的,可以参照图4,图4为本技术一实施例提供的一种生成药物的综合实体表示的模型结构示意图。其中,图4中最下层的drug-α表示药物的药物名称;{xi,...,x
i k-1
}表
示drug-α的文本序列,而后经过biobert模型进行向量表示处理,生成文本向量(图中drug
e1
和drug
e2
)。之后,对文本向量进行上述公式1和公式2处理生成最上层的druga。即生成综合实体表示。需要说明的是,此过程为终端设备通过整合单个药物的所有部分以及整合所有相同药物的单个文本向量来获得最终的综合实体表示。
[0068]
s203、针对多种药物中的任一药物对,终端设备根据药物对中的两种药物的综合实体表示确定药物对的融合实体表示。
[0069]
在一实施例中,上述单个药物的综合实体表示用于描述对应的药物在目标文本中的各个位置处的语义信息。因此,可以认为上述融合实体表示用于描述两个药物在目标文本中的相互作用的语义信息。
[0070]
其中,终端设备可以通过如下公式3对综合实体表示进行处理,得到融合
[0071]
实体表示:h1=w1*tanh(drug
α
)] b1,h2=w2[tanh(drug
β
)] b2ꢀꢀꢀ
(3)
[0072]
其中,h1和h2分别表示对综合实体表示进行处理后,得到的目标向量,w1和w2表示已知的参数矩阵,b1和b2表示已知的偏移项;tanh表示对综合实体表示进行双曲正切处理。
[0073]
在得到h1和h2后,终端设备可以将h1和h2进行拼接,然后再次将其输入至公式4中得到融合实体表示。
[0074]
h0=w3[concat(h1,h2)] b3ꢀꢀ
(4)
[0075]
其中,h0即为药物对的融合实体表示,w3表示已知的参数矩阵,b3已知的偏移项;concat表示为联结合并多个字符串函数(即对h1和h2进行拼接)。
[0076]
需要说明的是,上述公式仅对在目标文本出现次数为两次的药物进行处理的计算公式,在出现次数为多次时,其公式也应当对应进行适应性修改。
[0077]
s204、终端设备根据药物对的融合实体表示,预测药物对的相互作用关系。
[0078]
在一实施例中,上述s203已说明融合实体表示可以用于描述两个药物在目标文本中的相互作用的语义信息。基于此,终端设备在基于该融合实体表示预测药物对的相互作用关系时,其预测准确率将更高。
[0079]
具体的,终端设备可以通过如下公式5,预测药物对的相互作用关系:
[0080]
type=softmax(h0)
ꢀꢀ
(5)
[0081]
其中,softmax表示分类函数,用于对h0进行处理,并输出药物对属于每个相互作用关系的概率值。之后,将概率值的最大值对应相互作用关系,确定为最终预测的药物对的相互作用关系。
[0082]
在本实施例中,通过获取目标文本中每种药物的对应的综合实体表示,使终端设备可以采用一个综合实体表示能够综合的描述对应的药物在目标文本中各个位置处的语义信息。之后,对于每种目标药物对,终端设备均可以根据每种药物的综合实体表示进行融合,生成得到药物对的融合实体表示。进而,终端设备可以基于融合实体表示,准确的预测出药物对的相互作用关系。
[0083]
在一实施例中,上述s202-s204均可以由终端设备中的药物关系预测模型对目标文本进行处理。即终端设备在执行s201之后,可以将获取到的目标文本输入至药物关系预测模型中,以预测多种药物中的每一药物对的相互作用关系。
[0084]
具体的,药物关系预测模型中可以包括第一激活层、第二激活层、第一全连接层和第二全连接层。其中,第一激活层用于对综合实体表示执行公式3中的tanh函数处理。第一
全连接层用于对经过tanh函数处理后的向量执行公式3中的w1[] b1或w2[] b2处理,得到目标向量。之后,终端设备可以将两个药物的目标向量进行拼接,并输入至第二激活层处理,此时第二激活层用于对拼接后的目标向量执行公式4中的concat函数处理,并将经过concat函数处理后的向量输入至w3[] b3中进行处理得到融合实体表示。
[0085]
需要说明的是,上述示例仅说明了药物关系预测模型对药物对中的两种药物的综合实体表示进行处理,生成药物对的融合实体表示的模型结构。也即仅仅只说明了对s203进行处理的模型结构。其中,药物关系预测模型还应当包括执行s202以及s204过程的模型结构,对此本实施例不一一进行解释。
[0086]
在一具体实施例中,请参照图5,图5为本技术一实施例提供的一种药物关系预测模型预测药物对相互作用关系的流程示意图。其中,数据处理具体为将句子级ddi2013数据集(sentence-level ddi extraction 2013)转换为也即文档集ddi2013数据集(document-level ddi extraction 2013)。之后,对文档集ddi2013数据集执行加载关键信息过程。具体的,对数据集中的每个文本执行文本序列的建立(article seq),其包括但不限于整体文本的文本序列建立,以及每个药物的文本序列的建立;确定药物对(pairs)以及生成药物信息(drug info)。之后,对于确定的药物对,分别对药物对中的每种药物执行文档实体嵌入处理(document-entity embedding)。具体的,对每种药物(drug)分别进行综合实体表示(即生成drug emb)。之后,分别对药物的综合实体表示执行tanh fully-connected处理。即分别将综合实体表示依次输入至第一激活层和第一全连接层和处理,得到每种药物的目标向量(h1和h2)。之后,将两个目标向量进行拼接,并将拼接后的目标向量输入至第二激活层和第二全连接层中,得到融合实体表示(h0)。最后,将融合实体表示输入至sofmax层中进行分类预测,得到药物对的相互作用关系(type)。
[0087]
在一实施例中,上述药物关系预测模型为预先进行训练的模型。示例性的,上述药物关系预测模型可以为bert、scibert和biobert等模型。在本实施例中,药物关系预测模型具体可以为biobert。
[0088]
在一实施例中,对于上述还存在的句子级的药物关系预测模型在训练过程中,需要更大的内存空间,且网络训练的耗时也更长的问题,参照图6,终端设备具体可以通过如下步骤s601-s604对原始数据集进行处理,降低原始数据集的数据量,提升网络训练的效率,详述如下:
[0089]
s601、终端设备获取原始数据集,原始数据集包括多个原始文本。
[0090]
s602、终端设备分别统计每个原始文本中包含的药物的数量。
[0091]
s603、终端设备筛选原始数据集中包含至少两种药物的原始文本,得到原始数据子集。
[0092]
s604、终端设备对原始数据子集中的每个原始文本进行标签处理,得到训练集。
[0093]
在一实施例中,上述原始文本的获取方式可以与初始文本的获取方式类似,对比不再进行说明。需要说明的是,若直接将原始数据集用于模型训练,则将耗费大量的训练时间。
[0094]
可以理解的是,原始文本中可能存在不包含两种药物的文本。此类原始文本无法直接用于训练。基于此,终端设备可以分别统计每个原始文本中包含的药物的数量。之后,将只包括一种药物的原始文本进行删除,并对未删除的原始文本执行预处理。
[0095]
在一实施例中,上述预处理至少包括对使用药物共享后缀的药物进行扩充的处理。其中,上述处理过程已在上述s201中进行解释,对此不再进行说明。需要补充的是,上述预处理还包括但不限于:将原始文本中英文字符进行小写、将标点去除、将原始文本中的所有数字转换为“num”代替,对此不作限定。
[0096]
可以理解的是,在经过上述预处理后的原始文本,即为可以用于训练药物关系预测模型的文本,以此可以降低训练数据的冗余。
[0097]
在一实施例中,对原始文本进行标签处理具体为:对原始文本中每个位置出现的药物对分别进行打标签处理,以此参与模型训练。
[0098]
然而,基于上述对现有技术中句子级的药物关系预测模型的描述,可知,在将一个文档划分成多个句子时,可能存在某个多个多个句子包含相同的药物对。然而,相同的药物对在文档中不同的位置时,其对应的关系标签可能不同。即意味着相同药物对在文档中分别对应着不同的语义信息。若使用第一个药物对或者某一药物对的关系标签参与模型训练,则最终生成的药物关系预测模型的预测准确率也将降低。若一个文档中每个相同的药物对分别使用不同关系标签,则将造成数据集中关系标签混乱的问题。
[0099]
基于此,在本实施例中,参照图7,终端设备还可以通过如下方式s701-s702对原始文本中的每个药物对的标签关系进行处理,以使相同的药物对也可以使用最优的关系标签,进而解决关系标签混乱的问题:
[0100]
s701、终端设备获取原始文本中包含的每种药物对,以及各种药物对之间的关系标签。
[0101]
s702、若存在具备多种关系标签的药物对,则终端设备根据预设的标签优先级,将多种关系标签中优先级高的关系标签确定为药物对的关系标签。
[0102]
在一实施例中,上述关系标签用于表示药物对之间的作用关系,用于参与药物关系预测模型中的迭代过程。在训练过程中,每个药物对的关系标签通常有工作人员预先进行标注,因此,终端设备可以直接获取原始文本中包含的每种药物对,以及每种药物对之间的关系标签。
[0103]
需要说明的是,一个相同的药物对若出现在原始文本中的不同位置时,其语境以及语义可能各不相同,因此,对应的关系标签也可能各不相同。本实施例中,因药物对是基于两种药物的综合实体表示,生成的一个融合实体表示。也即在药物对具有多个关系标签时,也应当只使用一个关系标签与药物对进行对应,进行模型训练。
[0104]
在一实施例中,上述标签优先级为预先设置的优先级。示例性的,上述标签可以分别为:false,int,advise,effect,mechanism。其优先级可以为:false《int《advise《effect《mechanism
[0105]
其中,上述所示,标签mechanism拥有最高的优先级,即两个药物之间包含更多的药代动力学信息;标签effect表示两种药物之间具有一定程度的反应,但程度上不及mechanism;标签advise表示两种药物之间具有交互,程度不及effect;标签int为表示两种药物之间交互程度低,且程度不及advise;标签false表示两种药物之间不具有药物相互作用。
[0106]
在本实施例中,在药物对具有多个关系标签时,可以通过如上述所示的标签优先级的规则,将多关系标签转换为单关系标签,使转换后的单关系标签可以更好的表示药物
对在原始文本中的相互作用关系。
[0107]
在一实施例中,本技术中的药物对相互作用关系的预测方法为基于文档级的预测方法,相比于句子级的药物对相互作用关系的预测方法其优点如下:
[0108]
在实际应用中,句子级药物对相互作用关系的预测必须将一个句子转换为只包含两个药物实体的多个实例。相比之下,文档级药物对相互作用关系的预测可以同时针对多个药物实体。因此,文档级药物对相互作用关系的预测可以简化数据预处理的操作,也可以减少输入至药物关系预测模型中的文本。为了更直观地反映这一优势,收集近年来句子级药药物对相互作用关系的预测方法中所记录的(需要输入至药物关系预测模型)句子数量,并将其与本文所包含的句子数量进行比较。详见下表1:
[0109]
表1.不同方法中的句子数量
[0110][0111][0112]
从表1可以看出,在原始的ddi extraction 2013中包含的文本数量最高。经过预处理,训练集中有27792个句子,测试集中有5716个句子,共33508个句子。本实施例中,预处理后的数量最小:训练集中有3784个句子,测试集中有790个句子,总共4574个句子。
[0113]
(2)不同bert模型的比较:在文本处理中,有三种常用的bert预训练模型,即bert、scibert和biobert。为了观察三种预训练模型在文档级药物对相互作用关系的预测中的效果,将该方法中的biobert替换为bert和scibert。然而,在实际的实验中,发现使用bert或scibert代替biobert后,所提出的方法将无法正常工作。具体为:文档级的药物对相互作用关系的预测方法中不会使药物盲化,并且大多数药物由复杂的药物名词组成。在三种预训练模型中,只有biobert是在大规模生物医学语料库上训练的,因此也只有biobert能够准确地表达复杂的药物的实体表示。为了进一步得到三种预训练模型的表征效果,我们采用了在ddi语料库上提取句子级药物对相互作用关系的方法。其他实验设置完全一致,以便分析哪一个预训练模型能够更好地表达药物对相互作用关系的文本数据。详见下表2
[0114]
表2.采用不同bert模型的结果
[0115]
预训练模型macro-p(%)macro-r(%)macro-f1(%)bert78.7873.2775.92
scibert81.7174.8078.10biobert85.8973.4679.19
[0116]
如表2所示,使用bert的方法性能最低,macro-p(宏平均精确率,模型的一种评价指标)达到78.78%,macro-r(宏平均召回率,模型的另一种评价指标)达到73.27%,macro-f1(宏平均调和平均值,模型的再一种评价指标)达到75.92%。scibert方法的结果适中,macro-r最高,达到74.80%。这是因为scibert是在大规模的科学文献语料库上训练的,因此与bert相比,性能有了很大的提高。使用biobert方法得到的结果最好,macro-p达到85.89%,macro-f1达到79.19%。这表明在生物医学语料库上训练的biobert能够更准确地表达药物对相互作用关系的文本数据。
[0117]
(3)文档级药物的综合实体表示(embedding)的性能:为了验证上述实际性能,可以设计一个实验来比较不使用文档级药物的embedding和使用文档级药物的embedding的效果。具体的,将前者标记为without dee(对于每个药物,仅在第一次出现时进行embedding),并将其与本实施例提出的采用dee的方法进行比较。
[0118]
表3.采用dee及不采用dee的效果
[0119]
方法macro-p(%)macro-r(%)macro-f1(%)without dee60.0756.3258.43use dee65.6059.7162.51
[0120]
如表3所示,在没有采用dee方法的情况下,macro-p达到60.07%,macro-r达到56:32%,macro-f1达到58.43%。在采用dee方法的情况下,macro-p达到65.60%,macro-r达到59.71%,macro-f1达到62.51%,分别比没有采用dee的情况高出5.53%,3.39%和4.08%。原因在于:在没有采用dee的情况下,不会考虑文档中不同位置的同一药物的上下文语义信息。因此,该方法通过用文档级药物的embedding可以获得药物在文档中完整的综合实体表示,以获得更精确的预测结果。
[0121]
(4)不同神经网络模型结构的比较:本实施例首次对ddi extraction 2013数据集进行了专门预处理,实现了文档级药物对相互作用关系的预测。目前,还没有关于文档级ddi数据集的工作。为了验证所提方法的有效性,将其与使用cnn和bilstm(两种最常用的神经网络模型)的方法进行比较。这两种方法也采用文档级药物的embedding,但在获得药物的综合实体表示后,使用不同的神经网络模型结构。然而,在实际应用中,发现仅采用bilstm网络模型的方法无法工作。因此,终端设备将其改为cnn和bilstm神经网络模型相结合的方法,并将其表示为“cnn bilstm”。
[0122]
表4.采用不同神经网络模型结构的结果
[0123][0124]
从表4可以看出,虽然cnn bilstm的神经网络模型结构中macro-p达到66.98%,是
三种方法中最高的,但macro-r仅达到50.19%,macro-f1仅达到57.38%,因此网络结构的整体性能最低。cnn方法的macro-p达到56.75%,macro-r达到59.97%,macro-f1达到58.32%。cnn的总体性能略高于cnn bilstm。但是,使用本技术中的药物关系预测模型的结构时,macro-p仅比cnn bilstm低1.38%,macro-r比cnn低0.26%。macro-p和macro-r几乎都是最高的,因此总体性能最好。原因在于:输入为两个药物的综合实体表示,而不是一个完整的句子。因此,适合句子级神经网络模型结构在文档级神经网络模型结构(尤其是在bilstm中)无法达到相同的性能。
[0125]
综上所示,本实施例中,采用文档级药物对相互作用关系的预测方法,相比于现有技术中采用句子级药物对相互作用关系的预测方法,可以极大的降低输入到药物关系预测模型中的数据量,且可以将多个不同位置的药物综合进行准确的语义表达,从而使药物关系预测模型能够提取到药物在文档中的真实语义信息,提高模型预测准确率。
[0126]
请参阅图8,图8是本技术实施例提供的一种药物对相互作用关系的预测装置的结构框图。本实施例中药物对相互作用关系的预测装置包括的各模块用于执行图2、图3、图6和图7对应的实施例中的各步骤。具体请参阅图2、图3、图6和图7以及图2、图3、图6和图7所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图8,药物对相互作用关系的预测装置800可以包括:获取模块810、综合实体表示确定模块820、融合实体表示确定模块830以及预测模块840,其中:
[0127]
获取模块810,用于获取目标文本;目标文本中包括多种药物,每种药物在目标文本中出现至少一次。
[0128]
综合实体表示确定模块820,用于分别确定每种药物对应的综合实体表示,综合实体表示用于描述对应的药物在目标文本中的各个位置处的语义信息。
[0129]
融合实体表示确定模块830,用于针对多种药物中的任一药物对,根据药物对中的两种药物的综合实体表示确定药物对的融合实体表示。
[0130]
预测模块840,用于根据药物对的融合实体表示,预测药物对的相互作用关系。
[0131]
在一实施例中,获取模块810还用于:
[0132]
获取初始文本,初始文本中包括多种药物,每种药物在初始文本中出现至少一次;若初始文本中存在使用药物共享后缀的药物名称,则对药物名称进行扩充,得到目标文本。
[0133]
在一实施例中,综合实体表示确定模块820还用于:
[0134]
针对任一种药物,分别确定药物在目标文本中的多个位置;根据多个位置,分别生成每个位置对应的文本序列;对每个位置对应的文本序列进行向量处理,得到综合实体表示。
[0135]
在一实施例中,综合实体表示确定模块820还用于:
[0136]
分别对每个位置对应的文本序列进行向量表示,对应得到多个文本向量;每个文本向量用于描述药物在与对应位置处的语义信息;将每个文本向量进行向量整合,生成药物的综合实体表示。
[0137]
在一实施例中,药物对相互作用关系的预测装置800还包括:
[0138]
输入模块,用于将目标文本输入至预训练的药物关系预测模型中进行处理,得到多种药物中的每一药物对的相互作用关系。
[0139]
在一实施例中,药物关系预测模型包括第一激活层、第二激活层、第一全连接层和
第二全连接层;融合实体表示确定模块830还用于:
[0140]
将两种药物的综合实体表示依次输入第一激活层以及第一全连接层中,得到两种药物分别对应的目标向量;将两种目标向量进行拼接,并将拼接后的目标向量依次输入至第二激活层以及第二全连接层中,得到融合实体表示。
[0141]
在一实施例中,药物关系预测模型是根据训练集训练得到;药物对相互作用关系的预测装置800还包括如下模块获取训练集:
[0142]
原始数据集获取模块,用于获取原始数据集,原始数据集包括多个原始文本。
[0143]
统计模块,用于分别统计每个原始文本中包含的药物的数量。
[0144]
筛选模块,用于筛选原始数据集中包含至少两种药物的原始文本,得到原始数据子集。
[0145]
标签处理模块,用于对原始数据子集中的每个原始文本进行标签处理,得到训练集。
[0146]
在一实施例中,标签处理模块还用于:
[0147]
获取原始文本中包含的每种药物对,以及各种药物对之间的关系标签;若存在具备多种关系标签的药物对,则根据预设的标签优先级,将多种关系标签中优先级高的关系标签确定为药物对的关系标签。
[0148]
当理解的是,图8示出的药物对相互作用关系的预测装置的结构框图中,各模块用于执行图2、图3、图6和图7对应的实施例中的各步骤,而对于图2、图3、图6和图7对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图2、图3、图6和图7以及图2、图3、图6和图7所对应的实施例中的相关描述,此处不再赘述。
[0149]
图9是本技术一实施例提供的一种终端设备的结构框图。如图9所示,该实施例的终端设备900包括:处理器910、存储器920以及存储在存储器920中并可在处理器910运行的计算机程序930,例如药物对相互作用关系的预测方法的程序。处理器910执行计算机程序930时实现上述各个药物对相互作用关系的预测方法各实施例中的步骤,例如图1所示的s101至s104。或者,处理器910执行计算机程序930时实现上述图8对应的实施例中各模块的功能,例如,图8所示的模块810至840的功能,具体请参阅图8对应的实施例中的相关描述。
[0150]
示例性的,计算机程序930可以被分割成一个或多个模块,一个或者多个模块被存储在存储器920中,并由处理器910执行,以实现本技术实施例提供的药物对相互作用关系的预测方法。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序930在终端设备900中的执行过程。例如,计算机程序930可以实现本技术实施例提供的药物对相互作用关系的预测方法。
[0151]
终端设备900可包括,但不仅限于,处理器910、存储器920。本领域技术人员可以理解,图9仅仅是终端设备900的示例,并不构成对终端设备900的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0152]
所称处理器910可以是中央处理单元,还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0153]
存储器920可以是终端设备900的内部存储单元,例如终端设备900的硬盘或内存。存储器920也可以是终端设备900的外部存储设备,例如终端设备900上配备的插接式硬盘,智能存储卡,闪存卡等。进一步地,存储器920还可以既包括终端设备900的内部存储单元也包括外部存储设备。
[0154]
本技术实施例提供了一种计算机可读存储介质,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述各个实施例中的药物对相互作用关系的预测方法。
[0155]
本技术实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述各个实施例中的药物对相互作用关系的预测方法。
[0156]
以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献