一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

药物活性检测方法、装置、电子设备及存储介质与流程

2022-12-06 23:33:02 来源:中国专利 TAG:


1.本发明涉及数据处理技术领域,尤其涉及一种药物活性检测方法、装置、电子设备及存储介质。


背景技术:

2.目前,药物活性检测对于药物研究至关重要。一种药物其可以包含有多种成分,不同成分对药物活性的贡献并不一定相同。因此药物活性检测,其实质可以是判断药物中是否包含有对其活性有贡献的至少一种成分,如果包含则证明该药物有活性。也就是说,药物活性检测,是根据药物是否具有活性进而对药物进行分类,通常通过机器学习得到的分类模型实现。
3.在学习分类模型时,由于药物包含有多种成分,而构成每种成分的分子又可能存在同分异构体,因此通常采用多示例学习分类模型。在多示例学习中,训练集包含有一组具有分类标签的多示例包(bag)组成,每个多示例包含有若干个没有分类标签的示例(instance)。如果多示例包(bag)至少含有一个正示例,则该包被标记为正类多示例包(正包)。如果多示例包的所有示例都是负示例,则该包被标记为负类多示例包(负包)。此时,导致学习效果差的类不平衡可以发生在两个层面:类内的示例层面以及类间的多示例包层面。有研究者指出多示例学习有三种不同的范式:(1)示例空间范式,学习过程发生在示例层面;(2)多示例包空间范式,学习过程发生在多示例包层面;(3)嵌入空间范式,将每个多示例包映射为一个单独的、总结整个多示例包内各示例的相关信息的向量,在新的嵌入空间中学习分类模型。当多示例学习中的数据集在示例层面或多示例包层面导致类不平衡时,学习得到的分类边界通常会偏向多数类,该多数类通常为负类。示例空间范式中训练了一个示例级分类模型将正类和负类中的示例分开。由于真阳性示例在训练集中没有得到充分的表示,从而分类边界上的偏差可以用与单示例分类模型中解决不平衡问题相同的方法进行解释。多示例包空间范式和嵌入空间范式中的学习过程发生在多示例包层面,由于真阳性示例的代表性有所欠缺,因此分类边界可能是有偏差的。
4.然而,对于多示例包层面的学习过程中出现的类不平衡问题,现有技术中并未提出很好的解决方案,导致学习得到的分类模型的准确率降低,进而无法将其应用于药物活性检测。


技术实现要素:

5.本发明提供一种药物活性检测方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
6.本发明提供一种药物活性检测方法,包括:
7.获取待检测药物的药物成分集合;
8.将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;
9.其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;
10.所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
11.根据本发明提供的一种药物活性检测方法,所述正目标多示例包基于如下方法确定:
12.基于所述核密度估计方法,对所述正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,分别得到真阳性示例集以及假阳性示例集;
13.对所述真阳性示例集进行过采样处理,以增加所述真阳性示例集中真阳性示例的数量;
14.对所述假阳性示例集进行欠采样处理,以减少所述假阳性示例集中假阳性示例的数量;
15.基于所述过采样处理的结果以及所述欠采样处理的结果,确定所述正目标多示例包。
16.根据本发明提供的一种药物活性检测方法,所述基于核密度估计方法,对所述正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,分别得到真阳性示例集以及假阳性示例集,具体包括:
17.对于所述正药物成分多示例包中的任一正示例,基于所述核密度估计方法,确定所述任一正示例的活性标签为负的概率值;
18.确定所述正药物成分多示例包中所述概率值最大的第一预设数量个正示例为真阳性示例,并将所述真阳性示例存储至所述真阳性示例集;
19.确定所述正药物成分多示例包中所述概率值最小的第二预设数量个正示例为假阳性示例,并将所述假阳性示例存储至所述假阳性示例集。
20.根据本发明提供的一种药物活性检测方法,所述对所述真阳性示例集进行过采样处理,具体包括:
21.基于自适应综合采样算法,对所述真阳性示例集进行过采样处理。
22.根据本发明提供的一种药物活性检测方法,所述对所述假阳性示例集进行欠采样处理,具体包括:
23.基于随机欠采样技术,对所述假阳性示例集进行欠采样处理。
24.根据本发明提供的一种药物活性检测方法,所述负目标多示例包基于如下方法确定:
25.基于所述负药物成分多示例包中各负示例周围预设范围内存在属于所述正药物成分多示例包中的正示例的数量,对各负示例赋予权重;所述权重用于表征各负示例在所述多示例学习的过程中被选取的可能性。
26.根据本发明提供的一种药物活性检测方法,所述正目标多示例包中的真阳性示例与假阳性示例的数量之间存在预设倍数的关系。
27.本发明还提供一种药物活性检测装置,包括:
28.获取模块,用于获取待检测药物的药物成分集合;
29.检测模块,用于将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;
30.其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;
31.所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
32.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述药物活性检测方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述药物活性检测方法的步骤。
34.本发明提供的药物活性检测方法、装置、电子设备及存储介质,由于在确定正目标多示例包时引入核密度估计方法,考虑了正药物成分多示例包中真阳性示例以及假阳性示例的分布,可以确定正药物成分多示例包中各正示例的共同特征,以便于对正药物成分多示例包中的示例进行正确的标记;通过对真阳性示例以及假阳性示例的数量进行调整,进而得到正目标多示例包,可以有效提升正目标多示例包中真阳性示例的比例,缩小训练样本的类不平衡程度。通过正目标多示例包以及负目标多示例包对分类模型进行训练,可以使得到的分类模型准确率提升,保证药物活性检测结果的准确性。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1是本发明提供的药物活性检测方法的流程示意图;
37.图2是本发明提供的药物活性检测装置的结构示意图;
38.图3是本发明提供的电子设备的结构示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.在分类问题等涉及机器学习的领域中,类间不平衡是分类器学习效果差的主要原因。在标准监督学习中,一个数据集在它的类间表现出显著不相等的分布被认为是不平衡的。然而,在多示例学习中,数据集不平衡的问题更为复杂,因为这种不平衡可以发生在两
个层面:示例层面和包层面。
41.有研究者指出多示例学习有三种不同的范式:(1)示例空间范式,学习过程发生在示例层面;(2)多示例包空间范式,学习过程发生在多示例包层面;(3)嵌入空间范式,将每个多示例包映射为一个单独的、总结整个多示例包内各示例的相关信息的向量,在新的嵌入空间中学习分类模型。当多示例学习中的数据集在示例层面或多示例包层面导致类不平衡时,学习得到的分类边界通常会偏向多数类,该多数类通常为负类。示例空间范式中训练了一个示例级分类模型将正类和负类中的示例分开。由于真阳性示例在训练集中没有得到充分的表示,从而分类边界上的偏差可以用与单示例分类模型中解决不平衡问题相同的方法进行解释。多示例包空间范式和嵌入空间范式中的学习过程发生在多示例包层面,由于真阳性示例的代表性有所欠缺,因此分类边界可能是有偏差的。
42.单示例学习中的类不平衡问题在数据和算法层面运用有效的算法已经得到了解决。然而,对于多示例包层面的学习过程中出现的类不平衡问题,一些研究者在多示例包层面将成本项引入adaboost的权重更新策略,在示例层面使用了一种基于遍历少数类示例和多示例包的过采样技术。除此之外,一些多示例学习方法试图确定正多示例包中实际起作用的目标对象,并在此基础上表示正包。但是这些方法目前都没有取得特别让人们信服的效果。即现有技术中并未提出很好的解决方案用以确定学习样本,导致学习得到的分类模型的准确率降低,进而无法将其应用于药物活性检测。为此,本发明实施例中提供了一种药物活性检测方法,其中给出了如何在训练样本存在数据类不平衡问题的情况下对训练样本进行修正,以提高经过修正后的训练样本学习得到的分类模型的检测效果。
43.图1为本发明实施例中提供的一种药物活性检测方法的流程示意图,如图1所示,该方法包括:
44.s1,获取待检测药物的药物成分集合;
45.s2,将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;
46.其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;
47.所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
48.具体地,本发明实施例中提供的药物活性检测方法,其执行主体为药物活性检测装置,该装置可以配置于服务器内,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。
49.首先执行步骤s1,获取待检测药物的药物成分集合。其中,待检测药物中可以包含有多种药物成分,不同药物成分对待检测药物活性的贡献可能相同也可能不同。待检测药物中包含各种药物成分共同构成药物成分集合。
50.然后执行步骤s2,将步骤s1中获取到的药物成分集合输入至分类模型,得到分类模型输出的待检测药物是否具有活性的检测结果。
51.本发明实施例中采用的分类模型,可以采用携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到。其中,正活性标签用于表征对药物样本的活性具有积极贡献,负活性标签用于表征对药物样本的活性无贡献。正目标多示例包表征用于对分类模型进行训练的药物样本中对其活性具有积极贡献的正药物成分,可以是通过分子式表示。正目标多示例包中可以包含有多个正目标示例,每个正目标示例用于表示正药物成分的一种结构,可以通过相同分子式下的同分异构体表示。同样地,负目标多示例包表征用于对分类模型进行训练的药物样本中对其活性无贡献的负药物成分,也可以是通过分子式表示。负目标多示例包中可以包含有多个负目标示例,每个负目标示例用于表示负药物成分的一种结构,可以通过相同分子式下的同分异构体表示。
52.正目标多示例包的数量可以至少是药物样本中对其活性具有积极贡献的正药物成分的数量,负目标多示例包的数量可以至少是药物样本中对其活性无贡献的负药物成分的数量,本发明实施例中对此不作具体限定。
53.本发明实施例中,为确定正目标多示例包,可以先通过核密度估计方法对携带有正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计。正药物成分多示例包是指实际采集到的药物样本中对其活性具有积极贡献的正药物成分的各同分异构体的集合,正药物成分多示例包中每个正示例均表示正药物成分的一种已存在的同分异构体。
54.本发明实施例中采用的核密度估计公式可以为:
[0055][0056]
其中,是估计核,本发明实施例中采用高斯核函数,即有:
[0057][0058]
xi(i∈n

)表示正药物成分多示例包b

中第i个正示例,n

表示正药物成分多示例包中的正示例数量;xj(j∈n-)表示负药物成分多示例包b-中第j个负示例,n-表示负药物成分多示例包中的负示例数量;h表示核密度估计的带宽。表示xi属于b-的概率。
[0059]
真阳性示例是正药物成分多示例包内真正对药物样本的活性具有积极贡献的正药物成分的结构,假阳性示例是指虽然被包含在正药物成分多示例包内,但实际上是对药物样本的活性无贡献的负药物成分的结构,即实际上应被包含在负药物成分多示例包内。因此,对于给定的b-,xi离b-越远,则被标记为正的概率越大,即正药物成分多示例包内离负药物成分多示例包最远的k1个正示例,有较大的概率可以被确定为真阳性示例。同样地,xi离b-越近,则被标记为负的概率越大,即正药物成分多示例包内离负药物成分多示例包最近的k2个正示例,有较大的概率可以被确定为假阳性示例。
[0060]
由于多示例学习的标准假设中指出,当一个多示例包中至少有一个示例被标记为正时,该包才被标记为正。因此在这种假设下,无法对正药物成分多示例包中真阳性示例的数量进行衡量。由于正药物成分多示例包中示例标签的模糊性,多示例学习算法容易受到正药物成分多示例包中假阳性示例的影响。
[0061]
基于此,为解决训练样本的类不平衡问题,可以对真阳性示例以及假阳性示例的数量进行调整,以降低假阳性示例的影响。例如,可以增加正药物成分多示例包内真阳性示例的数量,减少假阳性示例的数量,最终得到可用于训练分类模型的正目标多示例包。
[0062]
本发明实施例中,负目标多示例包可以基于携带有负活性标签的负药物成分多示例包得到,负药物成分多示例包是指实际采集到的药物样本中对其活性无贡献的负药物成分的各同分异构体的集合,负药物成分多示例包中每个负示例均表示负药物成分的一种已存在的同分异构体。可以直接将负药物成分多示例包作为负目标多示例包,也可以先对负药物成分多示例包中各负示例进行权重赋值,然后得到负目标多示例包,本发明实施例中对此不作具体限定。
[0063]
本发明实施例中提供的药物活性检测方法,由于在确定正目标多示例包时引入核密度估计方法,考虑了正药物成分多示例包中真阳性示例以及假阳性示例的分布,可以确定正药物成分多示例包中各正示例的共同特征,以便于对正药物成分多示例包中的示例进行正确的标记;通过对真阳性示例以及假阳性示例的数量进行调整,进而得到正目标多示例包,可以有效提升正目标多示例包中真阳性示例的比例,缩小训练样本的类不平衡程度。通过正目标多示例包以及负目标多示例包对分类模型进行训练,可以使得到的分类模型准确率提升,保证药物活性检测结果的准确性。
[0064]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述正目标多示例包基于如下方法确定:
[0065]
基于所述核密度估计方法,对所述正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,分别得到真阳性示例集以及假阳性示例集;
[0066]
对所述真阳性示例集进行过采样处理,以增加所述真阳性示例集中真阳性示例的数量;
[0067]
对所述假阳性示例集进行欠采样处理,以减少所述假阳性示例集中假阳性示例的数量;
[0068]
基于所述过采样处理的结果以及所述欠采样处理的结果,确定所述正目标多示例包。
[0069]
具体地,本发明实施例中,在确定正目标多示例包的过程中,首先通过核密度估计方法,分别对正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,正药物成分多示例包内离负药物成分多示例包最远的k1个正示例可以被确定为真阳性示例,并构成真阳性示例集。同样地,正药物成分多示例包内离负药物成分多示例包最近的k2个正示例可以被确定为假阳性示例,并构成假阳性示例集。即真阳性示例集内可以包含有k1个真阳性示例,假阳性示例集内可以包含有k2个假阳性示例。k1和k2的取值可以根据需要进行设定,本发明实施例中对此不作具体限定。
[0070]
真阳性示例集可以表示为:
[0071]m
={pbi},i=1,2,...,k1
[0072]
其中,pbi表示正药物成分多示例包内第i个真阳性示例。
[0073]
假阳性示例集可以表示为:
[0074]
m-={nbi},i=1,...,k2
[0075]
其中,nbi表示正药物成分多示例包内第i个假阳性示例。
[0076]
然后,对真阳性示例集进行过采样处理,以增加真阳性示例集中真阳性示例的数量。本发明实施例中,可以通过随机过采样算法、合成少数类过采样技术(synthetic minority oversampling technique,smote)以及自适应综合采样(adaptive synthetic sampling,adasyn)算法等方法实现过采样处理。过采样处理过程可以理解为寻找真阳性示例添加至真阳性示例集中以丰富真阳性示例集。
[0077]
然后,对假阳性示例集进行欠采样处理,以减少假阳性示例集中假阳性示例的数量。本发明实施例中,可以通过easyensemble以及随机欠采样方法实现欠采样处理。欠采样处理过程可以理解为从假阳性示例集中剔除一些假阳性示例,以削减正药物成分多示例包因假阳性示例集产生的训练样本的类不平衡问题。
[0078]
最后,根据过采样处理的结果以及欠采样处理的结果,确定正目标多示例包。即将过采样处理的结果与欠采样处理的结果进行汇总,共同构成正目标多示例包。
[0079]
本发明实施例中,通过对真阳性示例集的过采样处理,可以增加正药物成分多示例包内真阳性示例的数量,通过对假阳性示例集的欠采样处理,可以减少正药物成分多示例包内假阳性示例的数量,进而可以提升正目标多示例包内真阳性示例与假阳性示例的数量平衡。
[0080]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述基于核密度估计方法,对所述正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,分别得到真阳性示例集以及假阳性示例集,具体包括:
[0081]
对于所述正药物成分多示例包中的任一正示例,基于所述核密度估计方法,确定所述任一正示例的活性标签为负的概率值;
[0082]
确定所述正药物成分多示例包中所述概率值最大的第一预设数量个正示例为真阳性示例,并将所述真阳性示例存储至所述真阳性示例集;
[0083]
确定所述正药物成分多示例包中所述概率值最小的第二预设数量个正示例为假阳性示例,并将所述假阳性示例存储至所述假阳性示例集。
[0084]
具体地,本发明实施例中,在得到真阳性示例集以及假阳性示例集的过程中,首先对于正药物成分多示例包中的任一正示例xi,采用核密度估计方法,确定任一正示例xi的活性标签为负的概率值,即任一正示例xi属于b-的概率值。然后确定正药物成分多示例包中概率值最大的第一预设数量个正示例为真阳性示例,并将真阳性示例存储至所述真阳性示例集;确定正药物成分多示例包中概率值最小的第二预设数量个正示例为假阳性示例,并将假阳性示例存储至假阳性示例集。
[0085]
第一预设数量可以为k1,第二预设数量可以为k2,例如可以将正药物成分多示例包内各正示例属于b-的概率由大至小进行排序,选取靠前的k1个正示例作为真阳性示例,选取靠后的k2个正示例作为假阳性示例。
[0086]
本发明实施例中,采用核密度估计方法,分别得到真阳性示例集以及假阳性示例集,可以区分正药物成分多示例包中活性标签为正、负的示例,为后续解决训练样本的类不平衡问题提供基础。
[0087]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述对所述真阳性示例集进行过采样处理,具体包括:
[0088]
基于自适应综合采样算法,对所述真阳性示例集进行过采样处理。
[0089]
具体地,本发明实施例中可以优选采用adasyn算法实现过采样处理。adasyn算法的基本思想是根据少数类示例的分布自适应地生成少数类示例,并且在容易分类的地方生成较少的示例,在难分类的地方生成更多的示例,自适应的将分类决策边界向多数类示例偏移。本发明实施例中,少数类示例为正药物成分多示例包中的真阳性示例,多数类示例为正药物成分多示例包中的假阳性示例。
[0090]
假设正药物成分多示例包内包含有x1、x2、...、xm等m个正示例,每个正示例对应有活性标签yi∈y={-1,1},即正药物成分多示例包可以表示为b

={(x1,y1),(x2,y2),...,(xm,ym)}。其中,少数类示例,即真阳性示例的数量为ms,多数类示例,即假阳性示例的数量为m
l
。则adasyn算法可以通过如下步骤实现:
[0091]
1)计算不平衡度d:
[0092][0093]
2)计算需要为少数类示例生成的合成示例的数量g:
[0094]
g=(m
l-ms)
×
β
[0095]
其中,β=1时,即g等于少数类示例的数量和多数类示例的数量之差,此时生成合成示例后多数类示例的数量和少数类示例的数量刚好平衡。
[0096]
3)对每个少数类示例,采用欧式距离计算k近邻,δ为k近邻中属于多数类示例的数量,并计算比例值r:
[0097][0098]
4)在3)中得到每个少数类示例对应的ri,采用如下公式计算每个少数类示例周围的多数类示例对应的比例值:
[0099][0100][0101]
5)对每个少数类示例,计算对应的合成示例的数量gi:
[0102][0103]
6)在每个少数类样本xi周围的k邻域内,选择1个少数类样本x
zi
,根据下列等式生成合成示例:
[0104]
si=xi (x
zi-xi)
×
λ,其中λ∈[0,1]。
[0105]
7)将合成示例添加至真阳性示例集,完成对真阳性示例集的过采样处理。
[0106]
本发明实施例中,采用adasyn算法实现过采样处理,可以保证过采样效果。
[0107]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述对所述假阳性示例集进行欠采样处理,具体包括:
[0108]
基于随机欠采样技术,对所述假阳性示例集进行欠采样处理。
[0109]
具体地,本发明实施例中,可以优选采用随机欠采样技术对假阳性示例集进行欠采样处理,以进一步降低训练样本的类不平衡度。
[0110]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述负目标多示例包基于如下方法确定:
[0111]
基于所述负药物成分多示例包中各负示例周围预设范围内存在属于所述正药物成分多示例包中的正示例的数量,对各负示例赋予权重;所述权重用于表征各负示例在所述多示例学习的过程中被选取的可能性。
[0112]
具体地,本发明实施例中,在确定负目标多示例包时,可以先对负药物成分多示例包中各负示例赋予权重,然后将赋予权重的各负示例构成负目标多示例包。
[0113]
在对各负示例赋予权重时,可以根据负药物成分多示例包中各负示例周围预设范围内存在属于正药物成分多示例包中的正示例的数量,对各负示例赋予权重。在此之前,本发明实施例中可以根据负药物成分多示例包中负示例的数量,使用线性递减的方式构建权重集合,权重集合可以表示为:
[0114][0115]
其中,m为负药物成分多示例包中负示例的数量。
[0116]
然后将各负示例按周围预设范围内存在的正示例的数量降序排列,分别将权重集合中对应位置的权重值赋予降序排列的每个负示例。
[0117]
每个负示例赋予的权重用于表征各负示例在多示例学习的过程中被选取的可能性。即在多示例学习的过程中,对负药物成分多示例包中的各负示例按照权重大小进行选取,权重大的示例,选取的概率更大,表示该负示例对于负药物成分多示例包的代表性更强;权重小的负示例,抽取到的概率更小,表示该负示例对于负药物成分多示例包的代表性更弱。
[0118]
本发明实施例中,通过对负药物成分多示例包中各负示例赋予权重,可以用以表征各负示例对于负药物成分多示例包的代表性,以确保可以把正目标多示例包中的正目标示例尽可能的正确分类出来。
[0119]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法,所述正目标多示例包中的真阳性示例与假阳性示例的数量之间存在预设倍数的关系。
[0120]
具体地,本发明实施例中,正药物成分多示例包经过过采样处理以及欠采样处理后得到的正目标多示例包,其中的真阳性示例与假阳性示例的数量之间可以存在预设倍数的关系,如此可以克服训练样本的类不平衡问题。该预设倍数可以是1、3等,即有:
[0121]m′s=tm

l
[0122]
其中,m
′s表示正目标多示例包中的真阳性示例的数量,m

l
表示正目标多示例包中的假阳性示例的数量,t表示预设倍数。
[0123]
在上述实施例的基础上,本发明实施例中提供的药物活性检测方法中应用的分类模型的训练样本生成方法,包括:
[0124]
1)利用核密度估计方法对正药物成分多示例包中真阳性示例与假阳性示例的分布进行估计,得到
[0125]
2)通过寻找正药物成分多示例包中真阳性示例集m

及假阳性示例集m-;
[0126]
3)对m

利用adasyn算法进行过采样处理;
[0127]
4)对m-利用随机欠采样技术进行欠采样处理;
[0128]
5)对负药物成分多示例包中负示例分别赋予相应权重;
[0129]
6)将3)-5)得到的结果进行整合,得到分类模型的训练样本。
[0130]
如图2所示,在上述实施例的基础上,本发明实施例中提供了一种药物活性检测装置,包括:
[0131]
获取模块21,用于获取待检测药物的药物成分集合;
[0132]
检测模块22,用于将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;
[0133]
其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;
[0134]
所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
[0135]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,还包括第一确定模块,用于:
[0136]
基于所述核密度估计方法,对所述正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,分别得到真阳性示例集以及假阳性示例集;
[0137]
对所述真阳性示例集进行过采样处理,以增加所述真阳性示例集中真阳性示例的数量;
[0138]
对所述假阳性示例集进行欠采样处理,以减少所述假阳性示例集中假阳性示例的数量;
[0139]
基于所述过采样处理的结果以及所述欠采样处理的结果,确定所述正目标多示例包。
[0140]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,所述第一确定模块,具体用于:
[0141]
对于所述正药物成分多示例包中的任一正示例,基于所述核密度估计方法,确定所述任一正示例的活性标签为负的概率值;
[0142]
确定所述正药物成分多示例包中所述概率值最大的第一预设数量个正示例为真阳性示例,并将所述真阳性示例存储至所述真阳性示例集;
[0143]
确定所述正药物成分多示例包中所述概率值最小的第二预设数量个正示例为假阳性示例,并将所述假阳性示例存储至所述假阳性示例集。
[0144]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,所述第一确定模块,还具体用于:
[0145]
基于自适应综合采样算法,对所述真阳性示例集进行过采样处理。
[0146]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,所述第一确定模块,还具体用于:
[0147]
基于随机欠采样技术,对所述假阳性示例集进行欠采样处理。
[0148]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,还包括第二
确定模块,用于:
[0149]
基于所述负药物成分多示例包中各负示例周围预设范围内存在属于所述正药物成分多示例包中的正示例的数量,对各负示例赋予权重;所述权重用于表征各负示例在所述多示例学习的过程中被选取的可能性。
[0150]
在上述实施例的基础上,本发明实施例中提供的药物活性检测装置,所述正目标多示例包中的真阳性示例与假阳性示例的数量之间存在预设倍数的关系。
[0151]
具体地,本发明实施例中提供的药物活性检测装置中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
[0152]
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行上述各实施例提供的药物活性检测方法,该方法包括:获取待检测药物的药物成分集合;将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
[0153]
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0154]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例提供的药物活性检测方法,该方法包括:获取待检测药物的药物成分集合;将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
[0155]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程
序,该计算机程序被处理器执行时实现以执行上述各实施例提供的药物活性检测方法,该方法包括:获取待检测药物的药物成分集合;将所述药物成分集合输入至分类模型,得到所述分类模型输出的所述待检测药物是否具有活性的检测结果;其中,所述分类模型基于携带有正活性标签的正目标多示例包以及携带有负活性标签的负目标多示例包进行多示例学习得到;所述正目标多示例包基于核密度估计方法对携带有所述正活性标签的正药物成分多示例包中真阳性示例以及假阳性示例的分布进行估计,并对所述真阳性示例以及所述假阳性示例的数量进行调整后得到,所述负目标多示例包基于携带有所述负活性标签的负药物成分多示例包得到。
[0156]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0157]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0158]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献