基于IM-DIAT数据结构的应用方法及其应用与流程

2022-02-22 03:44:15 来源：中国专利 TAG：

基于im-diat数据结构的应用方法及其应用
技术领域
1.本发明涉及非依赖性采集质谱的蛋白质组学技术领域，具体涉及基于im-diat数据结构的应用方法及其应用。

背景技术：

2.结合多种分离方法的数据依赖采集(data-dependent acquisition,dda)是临床样本等复杂样本最广泛采用的基于质谱的蛋白质组学策略。与dda相比，dia通过前体口窗的顺序分离和碎片化，获得所有可能前体的所有片段模式(ms2)，克服了dda对前体离子随机选择的问题，实现了高蛋白覆盖率和高复制的优点。
3.在捕获离子迁移谱仪(timstof pro)中实现的dia-pasef通过平行积累－串联碎片(pasef)的质量和离子迁移率的相关性，允许肽段前体离子几乎100％的传输。这大大降低了数据独立采集(dia)的光谱复杂性，并提高了蛋白鉴定的敏感性和特异性，通过添加第四维从四极杆质谱仪分离选择的离子迁移率可以通过pasef同步扫描，与仅限于1-3％的离子采样效率典型dia方法相比，进一步将四极杆质谱仪的离子采样效率提高到100％，这从本质上提高了采集的灵敏度。但是相关软件工具尚未完全支持这种新兴的新型数据。
4.而且传统方法需要先进行搜库，然后在搜库结果上进行数据处理，这样的缺点有二：提取离子色谱峰(xic)需要大量计算且依赖于库的肽段数量，需识别dia-ms数据中的肽前体，而往往存在大量缺失值使搜库结果矩阵存在大量缺失值。
5.因此提出了如cn111370072b－基于数据非依赖采集质谱的分子组学数据结构的实现方法，可通过深度学习算法可以直接分析diat张量，避免了提取离子色谱峰(xic)需要大量计算的问题。最后，根据该格式文件可以直接建立临床样本分类的深度学习模型。该方法使用端到端深度学习框架构建从原始ms数据到诊断分类器的函数映射，无需识别dia-ms数据中的肽前体，从而避免了缺失值的问题，但是这种方法不适合dia-pasef这种新型的采集方式，而且重要的离子淌度信息没有被保留下来，因此亟待一种基于im-diat数据结构的应用方法及其应用。

技术实现要素：

6.本发明的目的是针对现有技术中存在的上述问题，提供了基于im-diat数据结构的应用方法及其应用。
7.为了实现上述发明目的，本发明采用了以下技术方案：基于im-diat数据结构的应用方法包括以下步骤：
8.提取质谱原始文件中质谱信息的必要属性；
9.将该必要属性转换计算得到窗口索引、循环索引、离子淌度及质荷比，并分别与信号峰度一一对应作为im-diat数据结构的四个维度形成im-diat数据结构；
10.将所述im-diat数据结构经过图像处理转换为深度学习能够利用的二维多通道图像数据；
11.将所述二维多通道图像数据作为深度学习的训练数据得到分类结果。
12.工作原理及有益效果：1、与现有技术相比，本技术能够从质谱原始文件中提取并经过计算得到具有四个维度的im-diat数据结构，其中由于增加了离子迁移率，能够让质荷比维度不能区分的肽段离子在新增的离子迁移率(离子淌度)的维度上分离，也就是通过添加第四维从四极杆质谱仪分离选择的离子迁移率可以通过pasef同步扫描，与仅限于1-3％的离子采样效率典型dia方法相比，进一步将四极杆质谱仪的离子采样效率提高到100％。
13.2、彻底解决了现有技术的diat(data-independent acquisition tensor)张量格式数据不适合dia-pasef这种新型的采集方式，重要的离子淌度信息没有被保留下来的问题，由于同样为diat数据格式，因此同时同样具有现有技术的diat张量格式数据的读取序列不受限制，大大提高了数据读取速度，减少了质谱数据文件所需的存储空间的优点，也解决了因为额外的维度显著增加了数据存储、目标数据提取、数据存储文件大小以及计算成本的问题。而且通过深度学习算法可以直接分析diat张量，避免了提取离子色谱峰(xic)需要大量计算的问题；
14.3、与现有技术的diat张量格式数据一样，本技术的im-diat数据结构能够减少原始文件大小，而且本技术的im-diat数据结构还能够直接接受神经网络分析，通过神经网络分析得到分类结果，可更好地应用于医学领域，尤其是用于甲状腺良恶性判别。
15.进一步地，im-diat数据结构基于timstof pro质谱仪的蛋白质组学定量。
16.此设置，由于timstof pro质谱仪的本身特性和功能，本技术实际上是从该质谱仪上获取的原始数据中整理出有用的数据，因此本技术在常见的diapasef质谱数据上皆可应用，如蛋白组学，代谢组学以及各种小分子dia质谱数据，应用范围广。timstof pro凭借其专有的捕集离子淌度质谱(tims)技术，可以更快、更灵敏、稳定地完成蛋白质组学分析，独特的pasef技术打破数据采集速度新纪录，为蛋白组学带来更高的灵敏度和速度。因此，对于利用上述组学数据分析所进行的研发得到的试剂盒，质谱文件分析软件产品，其中的技术过程均可由本技术中的im-diat数据结构或者叫im-diat数据格式和对应分析流程所取代。
17.进一步地，图像处理转换的具体步骤为：
18.对所述im-diat数据结构的数据下采样并进行数据增广；
19.对数据增广后的所述im-diat数据结构进行最大池化、平均池化及最小池化操作。
20.由于质谱数据的窗口和离子淌度不存在连续关系，即固定其他变量，相邻窗口或相邻离子淌度的信号峰度没有相关性，而质荷比和周期指数是连续变量，导致深度学习无法直接利用，因此通过上述图像处理转换步骤可以将原先的4d数据(窗口索引、循环索引、离子淌度及质荷比)转换成深度学习可以直接利用的二维多通道图像数据。
21.进一步地，深度学习采用数据增广后的二维多通道图像数据进行训练；
22.随机添加白噪声并对每个通道进行平移操作；
23.分别预测每个数据的最大池化数据、平均池化数据及最小池化数据，并取平均值作为最终的预测值得到分类结果，其中每个数据为二维多通道图像数据经过训练和平移操作后的数据。
24.此设置中，由于二维多通道图像数据的通道数中，将质荷比与周期指数作为图像的横纵坐标(宽w和高h)，对于不同的质谱数据，其宽和高的范围是不确定的(依赖于质谱
仪)，因此需要将im-diat数据结构的数据经过下采样后再数据增广，如此可直接应用在深度学习框架中。
25.进一步地，基于adam的梯度下降法更新深度学习的神经网络模型的参数；
26.基于所述神经网络模型得到预测数据并计算该预测数据与真实分类之间的二分类交叉熵损失作为损失函数；
27.通过最小化该损失函数计算误差梯度并通过反向传播更新神经网络模型的梯度。
28.此设置中，通过上述步骤能够直接应用于甲状腺蛋白质组学数据的良恶性分类，或者是其他组织的良恶性分类，极大地提高识别效率。
29.im-diat数据结构的应用，包括前端和后端，所述前端用于输入dia数据，所述后端用于执行上述的基于im-diat数据结构的应用方法以输出至前端。
30.本技术具有操作方便的优点，可以直接输入dia数据或者是其他原始质谱数据，经过后端处理后可直接显示在前端。
31.一种计算机程序产品包括软件代码部分，当所述计算机程序产品在计算机上被运行时，所述代码软件部分用于执行上述的基于im-diat数据结构的应用方法。
32.一种电子设备，至少一个处理器；与所述至少一个处理器通信连接的存储器，其中所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于im-diat数据结构的应用方法。
33.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述的基于im-diat数据结构的应用方法。
附图说明
34.图1是本发明生成im-diat数据结构的流程图；
35.图2是本发明im-diat数据格式结构示意图；
36.图3是本发明生成im-diat数据结构中可视化方案的效果图；
37.图4是本发明生成im-diat数据结构中各种压缩方式的对比图；
38.图5是本发明2d resnet框架的示意图；
39.图6是本发明应用的逻辑图；
40.图7是本发明方法的流程图；
41.图8为采用一组包含19新冠和39非新冠尿液样品利用各种深度网络方法的示意图；
42.图9为各种深度网络玩法的分类准确率图。
具体实施方式
43.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。
44.本领域技术人员应理解的是，在本发明的披露中，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置
关系是基于附图所示的方位或位置关系，其仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此上述术语不能理解为对本发明的限制。
45.dia-pasef作为一种timstof pro上的最新的dia技术，正式名称为dia-pasef，采用dia-pasef技术，不仅大幅提高数据利用率、减少缺失值，而且4d数据的匹配有效降低了假阳性，定量准确性更高、重复性更好，极大地提高了定量分析的可信度，适合于大样本量的定量蛋白质组研究。现有相关软件工具尚未完全支持这种新兴的新型数据，而且额外的维度显著增加了数据存储、目标数据提取、数据存储文件大小以及计算成本。目前质谱数据格式大致可分为三类，包括质谱厂家专有的原始数据格式，基于psi标准的格式，以及其他实际应用中常用的格式，如新兴张量格式，可参考中国专利授权公告号cn111370072b公开的基于数据非依赖采集质谱的分子组学数据结构的实现方法，其中公开了新的diat张量数据，存储格式为.diat格式，但是diat张量格式数据并不适合dia-pasef这种新型的采集方式，重要的离子淌度信息没有被保留下来，而且额外的维度显著增加了数据存储、目标数据提取、数据存储文件大小以及计算成本，因此需要开发一款从dia-pasef原始数据到可直接应用在深度学习的新型数据格式。为此本技术提出了以下实施例：
46.实施例1,
47.本基于im-diat数据结构的应用方法包括以下步骤：
48.步骤1、提取质谱原始文件(dia质谱原始文件)中质谱信息的必要属性，其中质谱原始文件(.d原始文件)通过dia-pasef方式采集到，经过timspy3python自重含有的opentims_bruker_bridge中的bruker专有库来提取质谱信息的必要属性，抽取包含尽可能多信息的表格(dataframe)；此步骤中之所以采用bruker专有库，是因为需要解码bruker的tims数据格式(tdf)文件中的tof-m/z和scan-dt，而timspy3是开源python的工具包。
49.本实施例中的timspy3是一套基于c 的库，可以通过打开供应商的m/z代码库读取bruker tdf文件，可以很容易地使用python访问，提供了一个实用的接口来解码原始数据，为进一步的软件开发。但是解析出的原始数据格式不利于深度学习训练与测试，仍然需要进一步的数据变形与转换。
50.步骤2、将dataframe中的信息转换计算得到window索引(窗口索引)、cycle索引(循环索引)、ion-mobility(离子迁移率)及m/z(质荷比)作为im-diat数据结构的四个维度，从而形成im-diat数据结构以im-dia tensor的文件格式保存。相比现有的diat数据结构增加了ion-mobility(离子迁移率)，也就是新增加了一维离子淌度，原因在于离子淌度能够让在m/z维度不能区分的肽段离子在新增的离子淌度的维度上分离。此步骤中，dataframe中的信息转换计算实际上是根据dia窗口(数据非依赖采集data independent acquisition，dia)的结构进行重塑的，而window索引(窗口索引)、cycle索引(循环索引)、ion-mobility(离子迁移率)及m/z(质荷比)还需要进行四维numpy ms2 tof强度张量排列。最终生成的文件格式为四维动态数据格式。重塑包括将获取的质谱原始文件中的数据按照im-diat四个维度之间的映射关系并进行分箱操作，形成在im-diat数据结构中的索引，即为窗口索引、循环索引、离子迁移率及质荷比。
51.在本实施例中，采用timspy3中自带的timspydia函数可以方便地获取
‘
windowgroup’(窗口组)，
‘
scannumbegin’(开始扫描序号)，
‘
scannumend’(终止扫描序号)
的dia-pasef窗口的信息。采用timspy3中自带的timspydf函数通过
‘
frame’(序号id)，
‘
scan’(扫描序号)，
‘
tof’(强度值)，
‘
m/z’(质荷比)，
‘
inv_ion_mobility’(离子迁移率)，
‘
retention_time’(保留时间)列提取所有扫描的数据。
52.因此，window索引(窗口索引)的计算方法可由dia-pasef的原理计算得到，采用上述timspydia函数中获取到的
‘
windowgroup’(窗口组)，
‘
scannumbegin’(开始扫描序号)，
‘
scannumend’(终止扫描序号)来推导每个扫描window(窗口)数量，以及一个windowgroup(窗口组)包含的window(窗口)数量。例如，在covid－19公开原始数据集中，每一次pasef扫描涉及四个window(窗口)，这四个window(窗口)为一个窗口组，共有16个窗口组，也就是共有64个window(窗口)。记录了每一个窗口组中每一个window(窗口)的起始序列id与终止序列id，通过序列id除余窗口组的总数可得知数据位于哪一个窗口组，根据扫描序号的序号可定位到位于哪一个window(窗口)，最终形成window索引(窗口索引)。
53.而cycle索引(循环索引)是由序列id除以窗口组的个数取整得到。
54.在本实施例中，ion-mobility(离子迁移率)及m/z(质荷比)在抽取后需要进行分箱操作，也就是将这两者中的连续数离散化，其精度分别控制在0.5和0.1(默认)，意味着将ion-mobility(离子迁移率)以及m/z(质荷比)连续的数值离散化，形成整数下标。分箱的精度可以根据用户需求自定义设置，如果想保留更多的原始信息，可设置分箱精度足够小，但是相应格式变化的时间以及文件大小所占空间将会变大，因此用户能够根据需求进行自定义，而im-diat数据结构经过压缩之后数据大小可以变得很小，甚至可以达到原始文件的3.66％，最普通也能到达到原始文件的10％，因此用户能够拥有设置较高的进度来保留更多的原始信息量。
55.im-diat数据结构的示意图可以参见图2，图2中a是timspy3读取转换坐标，也就是包括上述步骤的操作，其中cycle index就是cycle索引(循环索引)，window index就是window索引(窗口索引)，binned m/z和binned im就是分别对ion-mobility(离子迁移率)及m/z(质荷比)进行分箱操作后得到的值，im就是ion-mobility的缩写。图1中b就是形成的im-dia tensor的文件格式。
56.总结上述步骤的整个工作流程的是端到端的，不需要鉴定蛋白质，因为其数据是依据原始质谱数据经过转化的，也就是从质谱仪原始数据文件中提取并整理有用的数据，能够保证质谱原始文件的有效信息量，并且在数据读取时，以四维张量形式读取，读取可以不受限制，大大提高了数据的读取便捷性和读取速度。由于现有技术采用的是proteowizard软件包中的msconvert工具将质谱原始书记转换成mzxml格式文件，这种文件无法用于dia-pasef这种新型的采集方式，重要的离子淌度信息没有被保留下来，而本技术选用现有计算机编程语言python的工具包timspy3中的opentims_bruker_bridge中的bruker专有库即可方便地提取质谱信息中的必要属性，保留重要的离子淌度信息，即离子迁移率，适合用于dia-pasef这种新型的采集方式。
57.在图1中展示了本技术的完整流程图框架，由此可见im-diat文件生成的整个工作流程是端到端的，并且读取的顺序不受限制。它从原始文件出发，最终生成im-dia tensor的格式，形成以.diat为后缀的数据文件，以及以窗口序列顺序的可视化图片，其中实施例1记载了可视化和池化与压缩之间的步骤。
58.im-diat数据结构以im-dia tensor的文件格式保存需要进行压缩处理，在默认操
作中，im-diat以numpy作为载体，默认采取numpy的savez_compressed进行压缩。im-diat数据格式将原始文件大小减少了十倍以上。
59.为此如图2展示了多种压缩方式的对比图，原始文件的大小以及采用不同m/z binsize，0.1im binsize生成的im-diat文件的大小的对比，原始文件与tensor文件分别使用了covid-19公开数据集中提供的37个数据，原始文件的均值为12g，而采用0.5m/z binsize的im-diat文件大小的平均值为450m。
60.在其他方式中还有其他两种压缩格式，hierarchical data format(层级数据格式)。这是一种专门用来存储和管理大型数据的文件格式。其最初是由美国国家超级计算应用中心(ncsa)开发，现在则由非营利社团hdf group管理运营。我们在这里采用hdf5中的file object进一步存储numpy数据类型，并且选取compression选项压缩，设置压缩率为最高，这会使得压缩后的数据文件大小比im-diat格式文件小，且不会有数据信息损失。
61.此外，scipy也可以对矩阵进行存储，并提供了压缩功能，其方法是将数据以字典形式存储，经过实验我们发现使用scipy将tensor压缩为以.mat为后缀的文件大小会比原始im-diat格式文件的数据大小减小13％。
62.为了更直观地体现信号峰度(intensity)的分布强度，需要对im-diat数据格式进行了可视化。
63.请参阅图4，以cycle索引为图片的横坐标，经过binning(分箱)操作之后的m/z(质荷比)作为纵坐标，这里m/z的binsize(分箱大小)为0.5。将信号峰度(intensity)从低到高映射到颜色由绿变红，由于图片限制，因此在附图中展示的只有颜色明暗变化，图片来源于covid-19公开数据集中hectic-zr-dia-1_slot1-19_1_1096.d的window index(窗口索引)的详尽数据。在图4的原始图中，最低的百分数用纯绿色填充，而最高强度的百分数用纯红色填充，0值用黑色填充，图的布局显示在顶部，图4中右上角的部分展示了信号峰度(intensity)从低到高映射到颜色由绿变红，水平条状线先从纯绿色慢慢变成了纯黄色，这个过程是g值变化，当颜色完全转变为黄色时，此时位于水平条状线和竖直条状线的交界处，此时由纯黄色慢慢转换成纯红色，这个过程是r值变化，也就是当纯绿色时处于lowest intensity(最低信号峰度)，当纯红色时处于highest intensity(最高信号峰度)。
64.选取其中一部分绘制了颗粒度的可视化图片，选取了cycle index(循环索引)从2000至3000，经过binning(分箱)操作之后的m/z index(质荷比索引)从80000到81000，m/z的值从894.99至904.99。细粒度的图片中m/z维度的binning size为0.01，由该结果可以明显看出m/z经过binning(分箱)操作之后形成的多条明暗条纹。
65.如图7，上述步骤对应提取质谱原始文件中质谱信息的必要属性；将该必要属性转换计算得到窗口索引、循环索引、离子淌度及质荷比，并分别与信号峰度一一对应作为im-diat数据结构的四个维度形成im-diat数据结构或者叫im-diat数据文件。
66.然而上述步骤解析出的原始数据格式虽然也能够直接应用在深度学习中，但是不利于深度学习训练与测试，仍然需要进一步的数据变形与转换。
67.因此，需要将im-diat数据结构经过图像处理转换为深度学习能够利用的二维多通道图像数据；将二维多通道图像数据作为深度学习的训练数据得到分类结果。其中，二维多通道图像数据相当于二维卷积，这里与空间无关的窗口和离子淌度被转化为通道，作为连续变量的质荷比和周期指数被转化为图像的两个维度(相邻质荷比和周期指数相关性很
高，符合图像中像素点间相关性高的特点，具有一定的pattern)。而二维卷积常用在计算机视觉、图像处理领域(在视频的处理中，是对每一帧图像分别利用cnn来进行识别，没有考虑时间维度的信息)。因此是可以直接应用于深度学习的。
68.由于传统的dia质谱原始文件的数据格式是通过加密并比较杂乱无章的，本方案创新性地理解了质谱数据中(窗口，质荷比，离子淌度，周期指数)和信号峰度(intensity)的一一对应性，并将其坐标化为4d数据，每一个数据会事先进行一个标注，形成im-diat数据结构或者叫im-diat数据文件为后面训练神经网络使用。其中，标注行为即标记一个标签label，意思为深度学习训练时提供标签，此为深度学习中的常规操作。
69.为此，首先需要对im-diat数据结构进行预处理，由于质谱数据的窗口和离子淌度不存在连续关系，即固定其他变量，相邻窗口或相邻离子淌度的信号峰度没有相关性，而质荷比和周期指数是连续变量，因此，我们将im-diat数据结构的4d数据(窗口，质荷比，离子淌度，周期指数)进一步转换为深度学习可利用的二维多通道图像数据，其中，通道数c为64win*100ion，质荷比与周期指数作为图像的横纵坐标(宽w和高h)，对于不同的质谱数据，其宽和高的范围是不确定的(依赖于质谱仪)，因此，预处理的第一步就是进行poolin g(池化)，利用pytorch中的库函数将原始数据6400*w*h下采样至6400*256*256的数据格式，在这个过程中，同时进行数据增广，利用nn.adaptivemaxpool2d((256,256))，nn.adaptiveavgpool2d((256,256))，以及构造的adaptiveminpool2d((256,256))进行最大池化，平均池化和最小池化操作，从而统一尺度，降低维度。
70.其中，原始数据为从im-diat数据转换过来的数据；其中pytorch是一个开源的python机器学习库，基于torch，用于自然语言处理等应用程序；其中，由于im-diat的4d数据是窗口*质荷比*离子淌度*周期指数，深度学习可利用的二维多通道图像数据是n*c*h*w，其中n是batch size也就是每次训练时输入的数据(测试时n＝1)，c是通道数，这里c＝窗口*离子淌度，h和w是我们常规理解时的图片宽和高，转化后h＝质荷比，w＝周期指数。
71.通过上述步骤后，可采用如图5所示的2d resnet框架进行甲状腺蛋白质组学数据的良恶性分类，不仅限于对于此，还可以是其他组织的两个良恶性分类。训练时用数据增广的二维多通道图像数据进行训练，并在这个二维多通道图像数据基础上采用随机添加白噪声以及对每个channel进行平移操作增加模型的鲁棒性，测试的时候对每个测试的数据的最大池化，平均池化和最小池化数据进行预测，并对预测值取平均作为最终的预测值。进行数据增广可以增加模型的稳定性，不易出现过拟合。
72.其中，鲁棒是robust的音译，也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，也是指控制系统在一定(结构，大小)的参数摄动下，维持其他某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。
73.其中，2d resnet框架又称为resnet(residual neural network)，由微软研究院的kaiming he等四名华人提出，通过使用resnet unit成功训练出了152层的神经网络，并在ilsvrc2015比赛中取得冠军，在top5上的错误率为3.57％，同时参数量比vggnet低，效果非常突出。resnet的结构可以极快的加速神经网络的训练，模型的准确率也有比较大的提
升。同时resnet的推广性非常好，甚至可以直接用到inceptionnet网络中。resnet的主要思想是在网络中增加了直连通道，即highway network的思想。提出残差学习的思想。传统的卷积网络或者全连接网络在信息传递的时候或多或少会存在信息丢失，损耗等问题，同时还有导致梯度消失或者梯度爆炸，导致很深的网络无法训练。resnet在一定程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络只需要学习输入、输出差别的那一部分，简化学习目标和难度。resnet最大的区别在于有很多的旁路将输入直接连接到后面的层，这种结构也被称为shortcut或者skip connections。
74.因此，经过上述步骤得到的训练模型能够解决由于维度偏高而数据量偏低的问题。
75.最后，采用基于adam的梯度下降法更新网络的参数，初始学习率为0.05，adam中的betas＝(0.95，0.9995)。经过上述步骤得到的神经网络模型得到预测概率并通过计算其与标签(真实分类)之间的bce loss(二分类交叉熵损失)作为损失函数，通过最小化损失函数，可以计算误差梯度并通过反向传播更新网络的梯度。在上述网络训练完成之后，利用最终的预测概率值，得到分类结果。如下表1为深度学习框架每一步的图像尺寸。
[0076][0077][0078]
表1
[0079]
本技术方案的一大创新就是其通用性，对于不同机器、组学、大分子小分子的质谱数据均可应用本方案进行分类，同时，对于同样的数据，可以在不同的经典网络上进行嵌套，包括但不限于resnet系列，inception系列，vgg系列等。本方案建立的模型可使用深度学习进行可解释性研究，对于重点区域发现的肽段可以用于生物标记物查找。为此请参阅图8，使用一组包含19新冠和39非新冠尿液样品，使用resnet,densenet,mobilenetv2等深度网络方法进行分类学习，请参阅图9，在单次实验和5折交叉验证都取得了高于90％的准确率的分类效果。图8为采用一组包含19新冠和39非新冠尿液样品利用各种深度网络方法的示意图，图9为各种深度网络玩法的分类准确率图。
[0080]
实施例2，
[0081]
请参阅图6，im-diat数据结构的应用，包括前端和后端，前端用于输入dia数据，后端用于执行上述的基于im-diat数据结构的应用方法以输出至前端。
[0082]
实施例3，
[0083]
一种计算机程序产品，包括软件代码部分，当计算机程序产品在计算机上被运行时，代码软件部分用于执行上述的基于im-diat数据结构的应用方法。
[0084]
实施例4，
[0085]
一种电子设备，至少一个处理器；与至少一个处理器通信连接的存储器，其中存储
器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的基于im-diat数据结构的应用方法。例如电脑，手机。
[0086]
实施例5，
[0087]
一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述的基于im-diat数据结构的应用方法。例如u盘，可移动硬盘。
[0088]
本发明未详述部分为现有技术，故本发明未对其进行详述。
[0089]
用于实现本方案实施例方法的服务器的计算机系统包括中央处理单元cpu)，其可以根据存储在只读存储器(rom)中的程序或者从存储部分加载到随机访问存储器(ram)中的程序而执行各种适当的动作和处理。在ram中，还存储有系统操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0090]
以下部件连接至i/o接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至i/o接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。
[0091]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(cpu)执行时，执行本发明的系统中限定的上述功能。
[0092]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0093]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代
表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0094]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的模块也可以设置在处理器中。
[0095]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行以下方法所对应过的流程步骤。
[0096]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所做的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于IM-DIAT数据结构的应用方法及其应用与流程

相关文献

最热文献