一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

蛋白质数据处理方法、装置、电子设备以及存储介质与流程

2022-09-03 23:21:07 来源:中国专利 TAG:


1.本发明实施例涉及生物信息处理技术领域,尤其涉及一种蛋白质数据处理方法、装置、电子设备以及存储介质。


背景技术:

2.蛋白质组比基因组和转录组能更加反映肿瘤病理生理学的变化,质谱技术是蛋白质组学高通量分析的重要技术手段,可以从复杂的细胞、组织和体液中准确鉴定和精确定量数千种蛋白质,从而越来越全面地了解蛋白质组的变化,推动个性化药物的发展。临床蛋白质组学产生的数据量也在同步增长,为蛋白质组学的临床应用带来了额外的挑战,包括如何对大量数据进行处理,以及如何在大规模数据集的基础上得到有效的结果成为研究瓶颈。蛋白质组数据维度高,数据量大,生物信息分析门槛高,需要同时具备生物学,统计学,计算机等多学科知识。
3.当前大多数蛋白质组数据分析软件功能单一,用户需要借助多种软件系统实现,才能得到完善的分析结果。同时一些软件系统流程使用复杂,用户需要通过时间去学习使用,且每种分析模板需要重新手动调整参数运行,极大消耗了时间,同时容易引入人为错误,使得分析困难且耗时。


技术实现要素:

4.本发明提供一种蛋白质数据处理方法、装置、电子设备以及存储介质,以实现自动得到蛋白质数据处理结果,操作方便,并提高了数据处理效率。
5.第一方面,本发明实施例提供了一种蛋白质数据处理方法,该方法包括:
6.获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组;
7.对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;
8.基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果;其中,所述目标聚类结果包括至少一个目标聚类中心点;
9.分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果;其中,所述富集分析结果包括各所述目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
10.可选的,所述蛋白数据组包括至少一个蛋白数据和各所述蛋白数据分别对应的蛋白标识;
11.相应的,所述对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组,包括:
12.对于当前时刻的各所述原始肽段数据,基于预设肽段筛选条件对各所述原始肽段数据进行数据筛选,得到各目标肽段数据;
13.分别确定各所述目标肽段数据所属的蛋白标识,基于所述蛋白标识、各所述目标肽段数据以及各所述目标肽段数据所属样本的样本标识,生成各所述样本的至少一个蛋白数据。
14.可选的,在所述得到各所述样本在当前时序内各时刻的蛋白数据组之后,还包括:
15.分别确定各样本中目标肽段数据的肽段鉴定数量和蛋白数据组中的蛋白鉴定数量;
16.分别对各样本的蛋白数据进行主成分分析,确定当前样本的蛋白数据中至少一个主要蛋白成分的成分信息,对各所述成分信息进行降维处理,得到降维后的成分信息;
17.确定各所述样本的样本分类结果,分别对各类样本的蛋白数据进行相对标准偏差分析,得到各类样本的分析结果。
18.可选的,所述基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白,包括:
19.获取预设的差异分析模型,将所述差异筛选条件和任意两组样本的蛋白数据作为输入信息,输入至所述差异分析模型中,得到所述差异分析模型输出的当前两组样本的差异蛋白。
20.可选的,所述分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果,包括:
21.基于预设的富集分析数据库、将任一目标聚类中心点的各差异蛋白输入至所述富集分析数据库中,得到所述富集分析数据库输出的当前目标聚类中心点对应的中心点蛋白富集分析结果;
22.对所述各所述目标聚类中心点分别对应的各中心点蛋白富集分析结果进行比较处理,得到各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
23.可选的,所述富集分析数据库包括kegg数据库;
24.相应的,在得到所述目标聚类结果的富集分析结果之后,还包括:
25.获取所述kegg数据库中预设的结果输出通道,将所述中心点蛋白富集分析结果和目标富集分析比较结果经过所述结果输出通道进行输出并展示。
26.可选的,在所述得到当前两组蛋白数据对于当前蛋白数据标签的差异蛋白之后,还包括:
27.基于预设的相关性分析方法,对各所述差异蛋白进行相关性分析,得到所述各所述差异蛋白之间的相关性分析结果;
28.基于预设的相互作用分析方法,对各所述差异蛋白进行相互作用分析,得到各所述差异蛋白之间的相互作用分析结果;
29.基于预设的富集分析数据库,对各所述差异蛋白进行富集分析,得到所述各所述差异蛋白的蛋白富集分析结果,并对各所述蛋白富集分析结果进行比较处理,得到各所述蛋白富集分析结果的蛋白富集分析比较结果。
30.可选的,所述方法还包括:
31.采用预设展示形式对任一数据统计结果和任一分析结果进行展示;其中,所述展
示形式包括火山图、箱线图、热图、气泡图、条形图、网络图、和弦图和散点图中至少一项。
32.第二方面,本发明实施例还提供了一种蛋白质数据处理装置,该装置包括:
33.蛋白数据组确定模块,用于获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组;
34.差异蛋白确定模块,用于对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;
35.目标聚类结果确定模块,用于基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果;其中,所述目标聚类结果包括至少一个目标聚类中心点;
36.富集分析结果确定模块,用于分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果;其中,所述富集分析结果包括各所述目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
37.第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
38.一个或多个处理器;
39.存储装置,用于存储一个或多个程序,
40.当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的蛋白质数据处理方法。
41.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的蛋白质数据处理方法。
42.本实施例的技术方案,具体包括获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组;对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;基于预设的初始聚类中心点对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果;其中,目标聚类结果包括至少一个目标聚类中心点;分别对各目标聚类中心点的蛋白数据进行富集分析,得到目标聚类结果的富集分析结果;其中,富集分析结果包括各目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。上述技术方案通过对获取到的原始肽段数据进行处理得到蛋白数据,并对各蛋白数据进行差异分析,并进一步的对差异分析结果进行进一步的数据分析,直接得到最终的数据分析结果,解决了现有技术的分析方法操作复杂,且同时容易引入人为错误,使得分析困难且耗时的技术问题,实现自动得到蛋白质数据处理结果,操作方便,并提高了数据处理效率。
附图说明
43.为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的
附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
44.图1是本发明实施例一提供的蛋白质数据处理方法的流程示意图;
45.图2是本发明实施例一提供的蛋白鉴定数量的一种可视化展示示意图;
46.图3是本发明实施例一提供的降维后的主要蛋白成分分析结果的一种可视化展示示意图;
47.图4是本发明实施例一提供的样本分组分析结果的一种可视化展示示意图;
48.图5是本发明实施例一提供的差异蛋白的一种可视化展示示意图;
49.图6是本发明实施例一提供的差异蛋白的另一种可视化展示示意图;
50.图7是本发明实施例一提供的富集分析结果的一种可视化展示示意图;
51.图8是本发明实施例一提供的蛋白富集分析比较结果的一种可视化展示示意图;
52.图9是本发明实施例二提供的蛋白质数据处理方法的流程示意图;
53.图10是本发明实施例二提供的蛋白-蛋白相关性分析结果的一种可视化展示示意图;
54.图11是本发明实施例三提供的蛋白质数据处理装置的结构示意图;
55.图12为本发明实施例四提供的电子设备的结构示意图。
具体实施方式
56.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
57.实施例一
58.图1为本发明实施例一提供的一种蛋白质数据处理方法的流程图,本实施例可适用于对获取到的各样本的质谱仪输出的质谱下机数据进行处理的情况。该方法可以由蛋白质数据处理装置来执行,该装置可以由软件和/或硬件的方式来实现。
59.如图1所示,该方法具体包括以下步骤:
60.s110、获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组。
61.在本发明实施例中,为了对获取的各样本在当前时序内的蛋白数据组进行蛋白数据定量分析,需要获取各样本在当前时序内各时刻的原始肽段数据,并对原始肽段数据进行数据处理,得到各样本的蛋白数据,从而进一步得到各样本之间的差异蛋白,并对差异蛋白进行定量分析。
62.本实施例中,原始肽段数据可以理解为任一型号的质谱仪输出的质谱下机数据。具体的,对于任意时序,将各样本在当前时序内各时刻采集的信息进行质谱分析,得到质谱仪输出的质谱下机数据,从而得到各样本在当前时序内各时刻的原始肽段数据。
63.进一步的,以获取到的当前样本在当前时刻的原始肽段数据为例介绍得到该样本在当前时刻的蛋白数据组。具体的,可以是对该原始肽段数据进行数据处理,生成该原始肽段数据对应的样本的蛋白数据组。
64.需要说明的是,本实施例中基于质谱仪得到的原始肽段数据还包括该原始肽段数
据所属的标签标识,相应的,可以基于同一样本标识的各原始肽段数据进行数据处理,生成该样本的蛋白数据组。
65.本实施例中,蛋白数据组包括至少一个蛋白数据和各蛋白数据分别对应的蛋白标识;在此基础上,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组的方法可以包括:对于当前时刻的各原始肽段数据,基于预设肽段筛选条件对各原始肽段数据进行数据筛选,得到各目标肽段数据;分别确定各目标肽段数据所属的蛋白标识,基于蛋白标识、各目标肽段数据以及各目标肽段数据所属样本的样本标识,生成各样本的至少一个蛋白数据。
66.具体的,获取预设的肽段筛选条件,基于该肽段筛选条件对原始肽段数据进行数据筛选,得到筛选后的目标肽段数据。可选的,可以是筛选原始肽段数据中均小于某个数值的肽段数据,得到筛选后的目标肽段数据,例如,筛选肽段fdr卡值(false discovery rate,肽段的错误发现率)小于0.05的原始肽段数据,即低于0.05认为该段原始肽段鉴定可信,可选的,将鉴定到的所有的原始肽段的fdr符合预设的卡值条件(如《0.05),其目的是保证获取到的肽段数据的可信度基础上减少肽段缺失,减少鉴定误差;再例如,筛选肽段fdr卡值小于0.01的原始肽段数据,当然还可以预设其他的筛选条件,本实施例对此不作限定。
67.在上述实施例的基础上,对得到的各样本的目标肽段数据进行数据归类,分别确定各目标肽段数据所属的蛋白数据,从而生成各样本的蛋白数据组。可选的,生成各样本的蛋白数据组的方法可以包括:分别确定各目标肽段数据所属的蛋白标识,基于蛋白标识、各目标肽段数据以及各目标肽段数据所属样本的样本标识,生成各样本的至少一个蛋白数据。
68.具体的,获取预设的肽段归类模型,将各目标肽段数据输入至该肽段归类模型中,得到该归类模型输出的各目标肽段数据所属的蛋白标识。可选的,预设的肽段归类模型可以包括但不限于maxlfq算法模型。获取各目标肽段数据的样本标识,将同一样本中所属同一蛋白标识的目标肽段数据进行整合,得到当前样本对于当前蛋白标识的初始蛋白数据。基于上述操作,获取各样本的对于各蛋白标识的初始蛋白数据,从而得到各样本分别对应的初始蛋白数据组。
69.在一些实施例中,为了消除初始蛋白数据组中的误差数据,提高后续定量分析的分析结果准确性,在获取到各样本的初始蛋白数据组的基础上,对各初始蛋白数据组中的蛋白数据进行归一化处理,并对归一化处理后的蛋白数据中存在缺失的蛋白数据进行数据缺失值处理。可选的,确定存在数据缺失的蛋白数据中的数据缺失率,并根据数据缺失率确定对应的缺失值处理方法。可选的,若蛋白数据中的数据缺失率大于预设缺失阈值,则丢弃该蛋白数据,若蛋白数据中的数据缺失率小于预设缺失阈值,则对该蛋白数据中缺失的部分基于预设默认值进行数据补齐。可选的,数据补齐的方法可以与上述补齐方法一致,也可以不一致,对此不作限定。上述数据缺失值处理方法的有益效果在于可以避免在数据缺失量过多时,补充后的数据与原始数据不一致,导致后续的定量分析结果准确性降低。
70.在本实施例中,对原始肽段数据进行数据筛选和数据缺失值处理,以及对归类后的蛋白数据进行数据缺失值处理的有益效果在于可以去除假阴性与假阳性结果,提高肽段数据与蛋白数据进行定量分析的定量分析结果准确性。
71.在一些其他实施例中,将处理后的蛋白数据结果自动保存在预设输出路径的
maxdia文件夹中,以便于后续对蛋白数据进行展示以及核查等数据处理。可选的,在得到各样本在当前时序内各时刻的蛋白数据组之后,一些实施例的技术方案还包括:分别确定各样本中目标肽段数据的肽段鉴定数量和蛋白数据组中的蛋白鉴定数量;分别对各样本的蛋白数据进行主成分分析,对各成分信息进行降维处理,得到降维后的成分信息;确定各样本的样本分类结果,分别对各类样本的蛋白数据进行相对标准偏差分析,得到各类样本的分析结果。
72.具体的,对每个样本的目标肽段数据中含有的肽段鉴定数量进行统计,并且使用条形图等可视化形式将统计结果进行展示。对每个样本的蛋白数据中含有的蛋白鉴定数量进行统计,示例性的参见图2,使用条形图等可视化形式将其统计结果进行展示,其中,图2中横坐标表示蛋白数据所属样本的样本id,纵坐标表示蛋白数据的数据数量,即数据深度,以使用户通过鉴定数量的统计结果可以获知后续定量分析的数据深度,从而证明数据分析结果的可靠性;可选的,一些实施例还可以对蛋白数据的蛋白定量值分布进行统计,并使用散点图将统计结果进行可视化。
73.具体的,对每个样本的蛋白数据进行主成分分析(principal components analysis,pca)。具体的,基于主成分分析结果确定主成分分析结果中蛋白数据的主要蛋白成分,可选的,主要蛋白成分可以理解为蛋白数据的成分含量较多的蛋白成分。对主要蛋白成分的成分信息进行降维处理,参见图3,使用散点图等二维可视化形式对降维后的主要蛋白成分的统计结果进行展示。其中,图3中每个点表示各样本,每个点所属的不同颜色表示样本的不同类别;可选的,类别可以是正常人样本和患者样本的分类,也可以是不同程度的患者样本的分类,本实施例对分类方式不作限定;基于上述散点图展示的统计结果可以使用户或者进行定量分析的蛋白数据所属样本的样本分布与重复性情况,以证明数据分析结果的可靠性和透明性。可选的,使用偏最小二乘判别分析(partial least squares discrimination analysis,pls-da),对样本进行监督聚类,并且使用散点图等可视化形式对对两个主成分进行展示;可选的,针对任意两个比较组,使用正交偏最小二乘法判别分析(opls-da)对样本分组进行预测使用散点图等可视化形式对上述统计结果进行展示。
74.具体的,对于每个样本分组使用相对标准偏差分析(rsd)进行分析,其分析结果表征样本重复性,可选的,参见图4,对于分析结果可以采用箱线图等可视化形式对上述统计结果进行展示;其中,图4中横坐标表示蛋白数据所属样本的样本id,纵坐标表示样本的重复性;可选的,纵坐标的数值越大,表示样本的重复性越高;基于图4可知样本的重复性在预设范围内,以进一步证明后续分析结果的可靠性。可选的,对各样本的蛋白定量结果使用pearson相关性分析,使用热图等可视化形式展示每个样本相关性系数,采用小提琴箱线图等可视化形式展示组内与组间的相关性系数分布。
75.需要说明的是,上述对各样本的蛋白数据中任一数据统计结果和任一分析结果进行展示的形式包括但不限于火山图、箱线图、热图、气泡图、条形图、网络图、和弦图和散点图中至少一项;即,对于同一种统计结果可以采用不同的展示进行展示,以从不同维度说明上述蛋白数据作为后续定量分析的源数据的可靠性。本实施例中对于不同统计结果采用的展示形式不作限定。
76.s120、对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白。
77.在本发明实施例中,差异筛选条件可以基于想要得到分析结果进行预先设定,可选的,差异筛选条件包括但不限于差异倍数(fold change),差异显著性水平(p value或者q value),蛋白在所有样本中的缺失率卡值比例(k值)。差异蛋白可以理解为进行差异分析的两组样本对于当前蛋白数据的差异分析结果,即两组样本的蛋白数据差异。
78.具体的,可以根据样本分组信息以及每个蛋白数据在每个样本比较组中的定量值,使用其在组中的中位数计算两两组之间的比值,得到每个蛋白数据在各个比较组中的差异倍数;使用其在每个组中的定量值根据双尾学生t检验(student’s t-test)得到p value,使用benjamini&hochberg(bh)对p value进行校正得到q value;可选的,还可以通过超过两组的蛋白数据使用方差分析anova计算p value,并使用bh对p value进行校正得到q value;进一步的,在得到上述各差异筛选条件的情况下,基于各差异筛选条件对各样本对于当前蛋白数据进行差异分析,得到当前蛋白数据的差异蛋白,即差异分析的数据分析结果,将其分析结果形成数据文件,并将其保存为excel文件格式,存储于预设存储路径。
79.可选的,基于预设的差异筛选条件对蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白的方法可以包括:获取预设的差异分析模型,将差异筛选条件和任意两组样本的蛋白数据作为输入信息,输入至差异分析模型中,得到差异分析模型输出的当前两组样本的差异蛋白。其有益效果在于:充分考虑到用户对分析结果的需求,提供如不同差异倍数或不同显著性阈值的需求,提供的分析结果种类较为完善。
80.需要说明的是,预设的差异分析模型可以包括但不限于基于代码形成的差异分析方法;具体的,将任意两组样本作为一组待比较的比较组。对于同一蛋白数据,获取预先设定的差异筛选条件,并基于各差异筛选条件对各比较组进行蛋白数据的差异分析,得到对于当前比较组当前蛋白数据的差异蛋白。
81.在一些实施例中,还可以在得到本实施例中各样本数据所形成的比较组对于蛋白数据组中的各蛋白数据的差异蛋白的基础上,示例性的参见图5,采用火山图展示上述差异蛋白;图5中横坐标表示差异倍数,预设差异倍数为1.2,对其进行log2后得到数值0.8;相应的,其纵坐标表示差异显著性水平p value,预设p value为0.05,对其进行log2后得到数值0.2;基于图中可以看出,左上侧和右上侧为同时满足两个差异筛选条件的蛋白数据,即具备显著性的数据;其他区域的数据为不具备显著性的数据;进一步的,图5中左上侧数据为需要下调的数据,右上侧数据为需要下调的数据,上述将分析结果进行存储和展示的有益效果在于可以使差异分析过程和结果清晰直观的进行展示,并且分析过程可追溯,提高了数据处理结果的可靠性和准确性。需要说明的是,还可以采用其他展示形式对其差异蛋白进行可视化展示,上述火山图只是作为可选展示形式,本实施例对展示形式不作限定。例如参见图6,采用热图对差异蛋白进行可视化,如图6所示,横坐标表示样本,不同的样色表示不同的样本颜色,纵坐标表示不同的差异蛋白,图中各差异蛋白的不同颜色表示其强度的不同。
82.s130、基于预设的初始聚类中心点对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果。
83.生命活动是一个动态变化的过程,通过时间序列的实验设计可以有效的挖掘蛋白的表达规律。时间序列不仅仅指的是单纯的不同时间点取样,也包括疾病发病的不同阶段,或者疾病治疗的不同阶段等。前面两两组之间进行了差异分析,与多组anova方差分析,但
是这样得到的差异蛋白并不能有效的代表整个时间序列中的变化,而且两两分析会得到很多的差异蛋白列表,同时也增加了后续生物学规律的挖掘的难度,对于两组特别是多组拥有时间序列的研究设计,为了得到差异蛋白在整个时间序列中的变化,对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果。
84.在本发明实施例中,初始聚类中心点可以为预先设定的至少两个聚类中心点,可选的,可以根据各差异蛋白的待分类类型确定不同的初始聚类中心点,例如,待分类类型为差异蛋白的数值随时间的变化趋势;再例如,差异蛋白各类样本的数量随时间的变化趋势,当然还可以是其他类型,对此不作限定。
85.具体的,随机选取预设的k个趋势变化特征作为初始聚类中心点,并分别计算各差异蛋白分别和初始聚类中心点的距离,示例性的,距离可以是欧式距离根据所有的距离数值确定新的聚类中心点,若新的聚类中心点与初始聚类中心点一致,则继续计算各差异蛋白分别和新的聚类中心点的距离,直至新一轮计算的聚类中心点与上一轮计算得到的聚类中心点一致,则结束聚类,将最新一轮计算的聚类中心点确定为当前时序的差异蛋白的目标聚类结果。其中,目标聚类结果包括至少一个目标聚类中心点,本实施例中,目标聚类中心点可以是差异蛋白的差异数值随时间变化的不同趋势。
86.s140、分别对各目标聚类中心点的蛋白数据进行富集分析,得到目标聚类结果的富集分析结果。
87.本实施例中,富集分析结果包括各目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
88.可选的,分别对各目标聚类中心点的蛋白数据进行富集分析的方法可以包括:基于预设的富集分析数据库、将任一目标聚类中心点的各差异蛋白输入至富集分析数据库中,得到富集分析数据库输出的当前目标聚类中心点对应的中心点蛋白富集分析结果;对各目标聚类中心点分别对应的各中心点蛋白富集分析结果进行比较处理,得到各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
89.本实施例中,预设的富集分析数据库包括但不限于go(gene ontology)数据库与kegg数据库。具体的,go数据库提供全世界所有与基因有关的研究结果进行分类,并且根据基因和基因产物分为分子功能(molecular function),细胞组分(cellular component),生物过程(biological process)三部分。kegg数据库,是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能,用于物种的基因组或转录组的功能注释的一个综合性数据库。本实施例中,基于预设富集分析数据库构建超几何分布模型,并基于该超几何分布模型来检验任一目标聚类中心点的差异表达蛋白中某个功能类的显著性,通过离散分布的显著性分析、富集度分析和假阳性分析,得出与实验目的有显著关联的、低假阳性率的及靶向性的蛋白功能类别。
90.示例性的,超几何分布模型的表达式可以包括:
[0091][0092]
其中,n表示所有蛋白中具有pathway/go term注释的蛋白数目;n表示n中差异表达蛋白的数目;m表示所有蛋白中注释为某特定pathway/go term的蛋白数目;m表示注释为某特定pathway/go term的差异表达蛋白数目。
[0093]
具体的,将任一目标聚类中心点的各差异蛋白输入至基于任一富集分析数据库构建的富集分析模型中,得到富集分析数据库输出的当前目标聚类中心点对应的中心点蛋白富集分析结果。具体的,富集结果显著性用p value表示,使用bh方法矫正p value,得到p.adjust值,然后以p.adjust《0.05为阈值,筛选满足此条件的pathway/go term为显著富集结果。
[0094]
在上述实施例的基础上,示例性的参见图7,可以使用气泡图可视化展示上述显著富集结果,图7中横坐标表示富集分子,纵坐标表示各富集通路的id;可选的,图7中不同的形状的气泡表示不同的样本的不同分类,每个气泡的大小代表样本的数量;各气泡的颜色代表其蛋白数据的显著性。当然,本实施例中还可以采用条形图等可视化形式展示上述显著富集结果,本实施例对展示形式不作限定。
[0095]
可选的,还可以将每个目标聚类中心点的富集分析结果保存在以目标聚类中心点命名的文件夹中。进一步的,在得到各目标聚类中心点的富集分析结果之后,将所有目标聚类中心点的富集结果结合起来比较,示例性的参见图8,采用气泡图的可视化形式展示显著富集通路比较结果;其中,图8中横坐标表示聚类中心点类别,纵坐标表示富集的通路名称,气泡颜色表示富集显著性大小,气泡大小表示富集因子大小。
[0096]
在上述实施例的技术上,若采用kegg数据库进行富集分析,相应的,在得到目标聚类结果的富集分析结果之后,还包括:获取kegg数据库中预设的结果输出通道,将中心点蛋白富集分析结果和目标富集分析比较结果经过结果输出通道进行输出并展示。
[0097]
具体的,对于kegg数据库显著富集通路,使用kegg中预设的结果输出通道对该通路图进行输出,并在该通路中鉴定到的上调蛋白赋予红色背景,下调蛋白赋予蓝色背景,多个蛋白可能对应同一个基因,当既有上调又有下调的信息,则用黄色背景。将kegg中结果输出通路的html结果存储至本地数据库中,以消除用户自行查询通路时的网络问题影响,同时与鉴定信息相结合增加用户数据对通路的解释性,修改html中的信息,添加通路中基因或酶体对应的蛋白信息,例如kegg基因对应在uniprot数据的id,差异倍数值,上下调信息。
[0098]
本实施例的技术方案,具体包括获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组;对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;基于预设的初始聚类中心点对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果;其中,目标聚类结果包括至少一个目标聚类中心点;分别对各目标聚类中心点的蛋白数据进行富集分析,得到目标聚类结果的富集分析结果;其中,富集分析结果包括各目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。上述技术方案通过对获取到的原始肽段数据进行处理得到蛋白数据,并对各蛋白数据进行差异分析,并进一步的对差异分析结果进行进一步的数据分析,直接得到最终的数据分析结果,解决了现有技术的分析方法操作复杂,且同时容易引入人为错误,使得分析困难且耗时的技术问题,实现自动得到蛋白质数据处理结果,操作方便,并提高了数据处理效率。
[0099]
需要说明的是,上述各实施例中提及的数据统计结果和数据分析结果均可以采用包括火山图、箱线图、热图、气泡图、条形图、网络图、和弦图和散点图中至少一项进行可视
化展示,上述分析结果和统计结果中的可视化形式只是示例性介绍,还可以采用其他可视化形式进行展示,本实施例对此不作限定。
[0100]
实施例二
[0101]
图9为本发明实施例二提供的一种蛋白质数据处理方法的流程图,本实施例在上述实施例的基础上,可选的,在所述得到当前两组蛋白数据对于当前蛋白数据标签的差异蛋白之后,还包括:
[0102]
基于预设的相关性分析方法,对各所述差异蛋白进行相关性分析,得到所述各所述差异蛋白之间的相关性分析结果;
[0103]
基于预设的相互作用分析方法,对各所述差异蛋白进行相互作用分析,得到各所述差异蛋白之间的相互作用分析结果;
[0104]
基于预设的富集分析数据库,对各所述差异蛋白进行富集分析,得到所述各所述差异蛋白的蛋白富集分析结果,并对各所述蛋白富集分析结果进行比较处理,得到各所述蛋白富集分析结果的蛋白富集分析比较结果。
[0105]
其中与上述各实施例相同或相应的术语的解释在此不再赘述。参见图9,本实施例提供的蛋白质数据处理方法包括:
[0106]
s210、获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组。
[0107]
s220、对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白。
[0108]
s230、基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果。
[0109]
s240、分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果。
[0110]
s250、基于预设的相关性分析方法,对各所述差异蛋白进行相关性分析,得到所述各所述差异蛋白之间的相关性分析结果。
[0111]
在本发明实施例中,对各比较组的差异蛋白进行蛋白-蛋白相关性分析,可以能够反应差异蛋白的相关性结果,对指导了解蛋白间的作用机理有重要帮助,有可能获得疾病的靶标基因。具体的,根据传入参数选择pearson或者spearman对差异蛋白间的相关性系数进行计算,同时计算相关性差异显著值p value,并在得到相关性分析结果后,将分析结果保存在预设的相关性分析结果文件中。可选的,根据比较组的蛋白与蛋白之间的相关性系数,采用网络图、热图等可视化形式对相关性系数进行展示。可选的,本实施例的技术方案在上述方案的基础上,对各比较组的差异蛋白进行相关性蛋白筛选。具体的,基于蛋白相关性差异显著值p value小于0.05,默认筛选相关性系数绝对值大于0.6(该数值可根据分析指令定义)为筛选条件进行筛选,得到相关性强的差异蛋白,并在得到蛋白相关性数据后,定义相关性系数大于0为正相关,小于0为负相关,并且通过筛选后的蛋白相关性矩阵,得到蛋白与蛋白对应关系,赋予正负相关性种类,并保存为相关性信息。可选的,使用r包igraph形成网络图的可视化形式对相关性信息展示。可选的,用r函数clust对相关性蛋白矩阵进行聚类分类,得到数个分类结果,对每个分类中连接度最大的蛋白定义为“hub”蛋白,使用r包visnetwork构建网络图,示例性的参见图10,以网络图的可视化形式对蛋白聚类结果进
行展示;图10中不同的点表示不同的差异蛋白,各点之间的连线表示各差异蛋白数据之间具有相关性。
[0112]
s260、基于预设的相互作用分析方法,对各所述差异蛋白进行相互作用分析,得到各所述差异蛋白之间的相互作用分析结果。
[0113]
需要说明的是,互作信息是指蛋白与蛋白间参与生物信号传递、基因表达调节、能量和物质代以及细胞走起调控等生命过程中的各个环节,能系统分析差异蛋白在生物系统中的相互作用关系,对了解生物系统中各个成分的工作原理,了解疾病等特殊生理状态下生物信号和能量物质代谢反应机制,蛋白之间能能联系具有重要意义。互作网络是目前最主要的互作信息可视化手段,因此可视化网络展示对了解互作信息至关重要。
[0114]
可选的,在对各比较组的差异蛋白进行互作用分析的过程中,可以采用string数据库(string:functional protein assoscication networks)分析蛋白互作信息,当然还可以采用其他数据库进行分析,对此本实施例不作限定。具体的,确定各比较组中的差异蛋白之间的互作信息,根据string数据库信息上的最小互作得分,筛选得分大于700(high confidence)的互作蛋白,含有互作信息的结果保存为文本文件,然后含有互作信息的蛋白与比较组中的差异蛋白匹配,得到每个蛋白含有的信息,包括蛋白对应的基因名(gene),string数据库上id,差异倍数(ratio),显著性(p value),上下调(type),蛋白与蛋白之间的连接度(degree),保存为蛋白节点文本文件。使用互作信息结果文件,与节点信息结果文件,使用r语言包visnetwork以网络图的可视化形式展示上述互作用分析结果。
[0115]
s270、基于预设的富集分析数据库,对各所述差异蛋白进行富集分析,得到所述各所述差异蛋白的蛋白富集分析结果,并对各所述蛋白富集分析结果进行比较处理,得到各所述蛋白富集分析结果的蛋白富集分析比较结果。
[0116]
具体的,采用上述实施例中所介绍的富集分析方法对各比较组中的差异蛋白进行富集分析,并对各比较组的富集分析结果进行比较,得到富集分析比较结果。
[0117]
需要说明的是,上述各实施例中提及的数据统计结果和数据分析结果均可以采用包括火山图、箱线图、热图、气泡图、条形图、网络图、和弦图和散点图中至少一项进行可视化展示,上述分析结果和统计结果中的可视化形式只是示例性介绍,还可以采用其他可视化形式进行展示,本实施例对此不作限定。
[0118]
本实施例的技术方案,具体包括获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组;对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;基于预设的初始聚类中心点对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果;其中,目标聚类结果包括至少一个目标聚类中心点;分别对各目标聚类中心点的蛋白数据进行富集分析,得到目标聚类结果的富集分析结果;其中,富集分析结果包括各目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。上述技术方案通过对获取到的原始肽段数据进行处理得到蛋白数据,并对各蛋白数据进行差异分析,并进一步的对差异分析结果进行进一步的数据分析,直接得到最终的数据分析结果,解决了现有技术的分析方法操作复杂,且同时容易引入人为错误,使得分析困难且耗时的技术问题,实现自动得到蛋白质数据处理
结果,操作方便,并提高了数据处理效率。
[0119]
以下是本发明实施例提供的蛋白质数据处理装置的实施例,该装置与上述各实施例的蛋白质数据处理方法属于同一个发明构思,在蛋白质数据处理装置的实施例中未详尽描述的细节内容,可以参考上述蛋白质数据处理方法的实施例。
[0120]
实施例三
[0121]
图11为本发明实施例三提供的蛋白质数据处理装置的结构示意图,本实施例可适用于对获取到的各样本的质谱仪输出的质谱下机数据进行处理的情况。参见图11,该蛋白质数据处理装置的具体结构包括:蛋白数据组确定模块310、差异蛋白确定模块320、目标聚类结果确定模块330和富集分析结果确定模块340;其中,
[0122]
蛋白数据组确定模块310,用于获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组;
[0123]
差异蛋白确定模块320,用于对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;
[0124]
目标聚类结果确定模块330,用于基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果;其中,所述目标聚类结果包括至少一个目标聚类中心点;
[0125]
富集分析结果确定模块340,用于分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果;其中,所述富集分析结果包括各所述目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
[0126]
本实施例的技术方案,具体包括获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各原始肽段数据进行数据处理,得到各样本在当前时序内各时刻的蛋白数据组;对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;基于预设的初始聚类中心点对当前时序内各时刻的各差异蛋白进行聚类处理,得到当前时序的差异蛋白的目标聚类结果;其中,目标聚类结果包括至少一个目标聚类中心点;分别对各目标聚类中心点的蛋白数据进行富集分析,得到目标聚类结果的富集分析结果;其中,富集分析结果包括各目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。上述技术方案通过对获取到的原始肽段数据进行处理得到蛋白数据,并对各蛋白数据进行差异分析,并进一步的对差异分析结果进行进一步的数据分析,直接得到最终的数据分析结果,解决了现有技术的分析方法操作复杂,且同时容易引入人为错误,使得分析困难且耗时的技术问题,实现自动得到蛋白质数据处理结果,操作方便,并提高了数据处理效率。
[0127]
在上述各实施例的基础上,可选的,所述蛋白数据组包括至少一个蛋白数据和各所述蛋白数据分别对应的蛋白标识;
[0128]
相应的,蛋白数据组确定模块310,包括:
[0129]
目标肽段数据确定单元,用于对于当前时刻的各所述原始肽段数据,基于预设肽
段筛选条件对各所述原始肽段数据进行数据筛选,得到各目标肽段数据;
[0130]
蛋白数据确定单元,用于分别确定各所述目标肽段数据所属的蛋白标识,基于所述蛋白标识、各所述目标肽段数据以及各所述目标肽段数据所属样本的样本标识,生成各所述样本的至少一个蛋白数据。
[0131]
在上述各实施例的基础上,可选的,该装置包括:
[0132]
鉴定数量获取单元,用于在所述得到各所述样本在当前时序内各时刻的蛋白数据组之后,分别确定各样本中目标肽段数据的肽段鉴定数量和蛋白数据组中的蛋白鉴定数量;
[0133]
成分信息确定单元,用于分别对各样本的蛋白数据进行主成分分析,确定当前样本的蛋白数据中至少一个主要蛋白成分的成分信息,对各所述成分信息进行降维处理,得到降维后的成分信息;
[0134]
分析结果确定单元,用于确定各所述样本的样本分类结果,分别对各类样本的蛋白数据进行相对标准偏差分析,得到各类样本的分析结果。
[0135]
在上述各实施例的基础上,可选的,差异蛋白确定模块320,包括:
[0136]
差异蛋白确定单元,用于获取预设的差异分析模型,将所述差异筛选条件和任意两组样本的蛋白数据作为输入信息,输入至所述差异分析模型中,得到所述差异分析模型输出的当前两组样本的差异蛋白。
[0137]
在上述各实施例的基础上,可选的,富集分析结果确定模块340,包括:
[0138]
中心点蛋白富集分析结果确定单元,用于基于预设的富集分析数据库、将任一目标聚类中心点的各差异蛋白输入至所述富集分析数据库中,得到所述富集分析数据库输出的当前目标聚类中心点对应的中心点蛋白富集分析结果;
[0139]
中心点蛋白富集分析比较结果确定单元,用于对所述各所述目标聚类中心点分别对应的各中心点蛋白富集分析结果进行比较处理,得到各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
[0140]
在上述各实施例的基础上,可选的,所述富集分析数据库包括kegg数据库;
[0141]
相应的,该装置还包括:
[0142]
结果输出展示模块,用于获取所述kegg数据库中预设的结果输出通道,将所述中心点蛋白富集分析结果和目标富集分析比较结果经过所述结果输出通道进行输出并展示。
[0143]
在上述各实施例的基础上,可选的,该装置还包括:
[0144]
相关性分析结果确定模块,用于在所述得到当前两组蛋白数据对于当前蛋白数据标签的差异蛋白之后,基于预设的相关性分析方法,对各所述差异蛋白进行相关性分析,得到所述各所述差异蛋白之间的相关性分析结果;
[0145]
相互作用分析结果确定模块,用于在所述得到当前两组蛋白数据对于当前蛋白数据标签的差异蛋白之后,基于预设的相互作用分析方法,对各所述差异蛋白进行相互作用分析,得到各所述差异蛋白之间的相互作用分析结果;
[0146]
蛋白富集分析结果和蛋白富集分析比较结果确定模块,用于在所述得到当前两组蛋白数据对于当前蛋白数据标签的差异蛋白之后,基于预设的富集分析数据库,对各所述差异蛋白进行富集分析,得到所述各所述差异蛋白的蛋白富集分析结果,并对各所述蛋白富集分析结果进行比较处理,得到各所述蛋白富集分析结果的蛋白富集分析比较结果。
[0147]
在上述各实施例的基础上,可选的,该装置还包括:
[0148]
采用预设展示形式对任一数据统计结果和任一分析结果进行展示;其中,所述展示形式包括火山图、箱线图、热图、气泡图、条形图、网络图、和弦图和散点图中至少一项。
[0149]
本发明实施例所提供的蛋白质数据处理装置可执行本发明任意实施例所提供的蛋白质数据处理方法,具备执行方法相应的功能模块和有益效果。
[0150]
值得注意的是,上述蛋白质数据处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0151]
实施例四
[0152]
图12为本发明实施例四提供的一种电子设备的结构示意图。图12示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图12显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0153]
如图12所示,电子设备12以通用计算电子设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
[0154]
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
[0155]
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
[0156]
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图12未显示,通常称为“硬盘驱动器”)。尽管图12中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
[0157]
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
[0158]
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)
通信。如图12所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图12中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0159]
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及样本数据获取,例如实现本发实施例所提供的一种蛋白质数据处理方法步骤,蛋白质数据处理方法包括:
[0160]
获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组;
[0161]
对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;
[0162]
基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果;其中,所述目标聚类结果包括至少一个目标聚类中心点;
[0163]
分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果;其中,所述富集分析结果包括各所述目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
[0164]
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的样本数据获取方法的技术方案。
[0165]
实施例五
[0166]
本实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现例如实现本发实施例所提供的一种蛋白质数据处理方法步骤,蛋白质数据处理方法包括:
[0167]
获取各样本在任意时序内各时刻的至少一个原始肽段数据,对各所述原始肽段数据进行数据处理,得到各所述样本在当前时序内各时刻的蛋白数据组;
[0168]
对于蛋白数据组中的任一蛋白数据,基于预设的差异筛选条件对任意两组样本的蛋白数据进行差异分析,得到当前两组样本对于当前蛋白数据的差异蛋白;
[0169]
基于预设的初始聚类中心点对当前时序内各时刻的各所述差异蛋白进行聚类处理,得到所述当前时序的差异蛋白的目标聚类结果;其中,所述目标聚类结果包括至少一个目标聚类中心点;
[0170]
分别对各所述目标聚类中心点的蛋白数据进行富集分析,得到所述目标聚类结果的富集分析结果;其中,所述富集分析结果包括各所述目标聚类中心点的蛋白数据分别对应的各中心点蛋白富集分析结果和各所述中心点蛋白富集分析结果的中心点蛋白富集分析比较结果。
[0171]
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个
或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0172]
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0173]
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
[0174]
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0175]
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
[0176]
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献