一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

大规模基因测序数据存储与查询系统的制作方法

2022-02-20 01:30:06 来源:中国专利 TAG:


1.本发明涉及基因测序数据的存储与查询技术领域,具体涉及一种大规模基因测序数据存储与查询系统。


背景技术:

2.传统的数据存储系统主要包括das、nas和san三种架构,但是随着数量的海量增长,传统的数据存储系统已经无法满足对数据存储的需求,因此,分布式存储系统应运而生。近年来,采用分布式架构的云存储系统由于适用于许多新的应用场景而得到了飞速的发展。
3.大规模基因组测序计划通常产生pb级的测序数据,产生的测序数据需要以某种格式记录在计算机内部或外部存储介质上。因此,对这些基因测序数据的快速存储及检索是非常重要的问题,同样地,数据存储的安全性和对存储数据的查询也是至关重要的。但是利用目前的数据存储方法不能满足对基因测序数据存储的高效性要求,同时也不能满足需要在有限的空间内存储更多基因测序数据的需求,基因测序数据的存储量严重受到空间内存的限制。


技术实现要素:

4.本发明的目的是为解决现有方法中基因测序数据的存储量受到空间内存的限制以及数据存储的效率低的问题,而提出了一种能够高效存储大规模基因测序数据以及对基因测序数据进行快速查询的系统。
5.本发明为解决上述技术问题所采取的技术方案是:
6.一种大规模基因测序数据存储与查询系统,所述系统包括用户登录模块、数据压缩模块、文件存储模块、界面显示模块、数据库、数据上传模块、数据检索模块和数据审批模块,其中:
7.所述用户登录模块用于用户输入实名认证信息,并将输入的认证信息与数据库内存储的用户信息进行匹配,若匹配成功,则用户成功登录,否则需要重新输入实名认证信息进行登录验证;
8.所述数据上传模块用于登录的用户上传基因测序数据,并将用户上传的基因测序数据上传至缓存区;
9.用户通过界面显示模块确认缓存区内的基因测序数据是否正确,若正确,则用户向缓存区发送确认指令,再将缓存区内的基因测序数据存储至文件存储模块,否则删除缓存区内的基因测序数据;
10.所述文件存储模块将存储的基因测序数据发送给数据压缩模块;
11.所述数据压缩模块用于对基因测序数据进行数据压缩,将数据压缩后的测序数据文件上传到文件存储模块的分级目录下,并删除测序数据文件在文件存储模块中对应的原始基因测序数据,同时更新数据库;
12.所述数据审批模块用于管理人员登录系统并对用户上传至数据库的测序数据文件进行审核,审核通过后,更新数据库内对应测序数据文件的审核状态,并永久保存通过审核的测序数据文件,否则,删除数据库内未通过审核的测序数据文件;
13.所述数据检索模块用于用户对数据库内的测序数据文件进行检索。
14.进一步地,所述用户信息是采用md5加密格式存储到数据库中的。
15.进一步地,所述用户上传基因测序数据的方式包括单样本上传和批量样本上传。
16.进一步地,所述系统还包括模板上传模块,当批量样本上传时,用户将批量样本中的单样本信息填写到模板中,填写好的模板通过模板上传模块上传至数据上传模块。
17.进一步地,所述用户将批量样本中的单样本信息填写到模板中,模板的格式为excel格式。
18.进一步地,所述数据压缩后的测序数据文件的格式为bam或vcf。
19.进一步地,所述数据压缩后的测序数据文件包括7种组学的文件;所述7种组学分别为基因组、转录组、蛋白质组、代谢组、微生物组、表型组以及暴露组学数据。
20.进一步地,所述文件存储模块中分级目录的层次关系为用户名称

项目名称

实验名称

样本名称

文件名称。
21.进一步地,所述数据压缩模块对基因测序数据进行数据压缩的具体过程为:
22.步骤1、将待进行数据压缩的基因测序数据与参考基因组进行比对,并标记出所有变异位点;
23.步骤2、建立两个一维数组,两个一维数组分别用于记录当前处理的基因测序数据所在序列片段的起始位置和终止位置;
24.步骤3、基于标记出的变异位点和变异位点在序列片段中的位置来构建变异位置矩阵,所述变异位置矩阵的维度为m*n,m代表待进行数据压缩的基因测序数据中包含的实际样本个数,n代表参考基因组长度;
25.所述变异位置矩阵中的元素均为0或1,0表示基因测序数据在该位点碱基与参考基因组对应碱基相同,1表示基因测序数据在该位点碱基与参考基因组对应碱基不同;
26.对于变异位置矩阵的第一列,将第一列所对应的每一行字符串按照反向前缀字典序进行排序,以此类推,直至从左到右遍历到变异位置矩阵的每一列后,得到新的变异位置矩阵;
27.步骤4、采用游程编码对获得的新变异位置矩阵进行压缩。
28.本发明的有益效果是:
29.本发明提出了一种大规模基因测序数据存储与查询系统,该系统具有基因测序数据的自动化分类功能,通过文件存储模块和数据库实现数据的存储,通过数据检索模块对存储在数据库内的数据进行检索。本发明通过对数据进行压缩,可以提高对数据的存储效率。而且,通过对数据进行压缩,可以明显增加有限空间内存储的数据量。
30.本发明的系统最多可容纳6.1pb的数据量,数据库最多可存储1200万条元数据信息。可同时检索51个类型标签,前端通过分页可同时展示50万条数据,多条件检索所需时间不超过10s。
附图说明
31.图1是本发明的大规模基因测序数据存储与查询系统的流程图;
32.图2是数据交互流程图;
33.图3是数据集成引擎图;
34.图4是用户登录流程图;
35.图5是多组学数据上传流程图;
36.图6是数据压缩的流程图;
37.图7是数据检索流程图。
具体实施方式
38.具体实施方式一、结合图1、图4和图5说明本实施方式。本实施方式所述的一种大规模基因测序数据存储与查询系统,所述系统包括用户登录模块、数据压缩模块、文件存储模块、界面显示模块、数据库、数据上传模块、数据检索模块和数据审批模块,其中:
39.所述用户登录模块用于用户输入实名认证信息,并将输入的认证信息与数据库内存储的用户信息进行匹配,若匹配成功,则用户成功登录,否则需要重新输入实名认证信息进行登录验证;使用该系统上传和检索数据之前均要进行登录注册;
40.所述数据上传模块用于登录的用户上传基因测序数据,并将用户上传的基因测序数据上传至缓存区;
41.用户通过界面显示模块确认缓存区内的基因测序数据是否正确,若正确,则用户向缓存区发送确认指令,再将缓存区内的基因测序数据存储至文件存储模块,否则删除缓存区内的基因测序数据;
42.所述文件存储模块将存储的基因测序数据发送给数据压缩模块;
43.所述数据压缩模块用于对基因测序数据进行数据压缩,将数据压缩后的测序数据文件上传到文件存储模块的分级目录下,并删除测序数据文件在文件存储模块中对应的原始基因测序数据,同时更新数据库;
44.所述数据审批模块用于管理人员登录系统并对用户上传至数据库的测序数据文件进行审核,审核通过后,更新数据库内对应测序数据文件的审核状态,并永久保存通过审核的测序数据文件,否则,删除数据库内未通过审核的测序数据文件;
45.为了确保用户上传的文件数据真实有效,需要管理人员对用户已上传的数据进行检验,管理人员通过检索文件列表,过滤出未审核的数据信息列表,通过文件路径查找文件,并检查文件格式和内容是否正确。对已经通过审核的数据,提供更新数据功能,更新数据库中数据的审核状态。对审核未成功的数据,更新状态后,并清除文件系统中的该数据对应的文件;
46.所述数据检索模块用于用户对数据库内的测序数据文件进行检索。
47.如图7所示,数据检索模块提供模糊检索和多信息联合检索功能;模糊检索时,只需输入关键字或关键字的一部分,提交到数据检索模块的后台接口,通过数据库关键词索引,提高检索速度,返回检索数据列表供用户使用。多信息联合检索时,系统将样本信息、实验信息、文件类型、多组学类型、测序类型进行分类,每种类别提供多个该类别下的分类标签,以复选框的形式展示给用户,用户可以选择多个不同类别下的多个标签,系统将用户已
选择的检索信息和检索框中填入的信息封装成json格式数据提交到检索接口,以列表形式返回给用户使用。同时,数据检索模块还提供列表文件导出功能,用户选择所需下载文件的列标签,导出excel文件。
48.使用本发明的系统上传和检索数据之前要进行用户登录注册,上传数据的用户需提供实名认证信息,用户提供的实名认证信息与通过md5加密格式存储的用户信息进行匹配,可以提高安全性。
49.本发明的生物信息数据存储方法以及数据可视化程序,可以将生物信息数据分类写入数据库,并可以进行数据关联检索以及可视化的方法以及程序。
50.具体实施方式二:本实施方式与具体实施方式一不同的是,所述用户信息是采用md5加密格式存储到数据库中的,以提高安全性。
51.其它步骤及参数与具体实施方式一相同。
52.具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述用户上传基因测序数据的方式包括单样本上传和批量样本上传。
53.单样本上传时,提供上传人的基本信息,填写数据元信息,即上传样本的辅助信息,用于与测序数据文件相关联。
54.其它步骤及参数与具体实施方式一或二相同。
55.具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述系统还包括模板上传模块,当批量样本上传时,用户将批量样本中的单样本信息填写到模板中,填写好的模板通过模板上传模块上传至数据上传模块。
56.批量上传时,系统提供上传模板(excel格式),模板中样本的个数及实验个数用户可通过填写参数自动生成,模板中包含多个单样本信息,用户填写完成后,通过上传模板功能单元,上传模板。同时上传多个测序数据文件到服务器指定位置,上传成功后,刷新前端页面,显示已上传的文件路径列表,用户检验成功后,提交到服务器接口。系统提供解析excel文件写入数据库功能,并提供数据回显功能,用于用户检验已上传的excel中是否包含错误信息。
57.其它步骤及参数与具体实施方式一至三之一相同。
58.具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述用户将批量样本中的单样本信息填写到模板中,模板的格式为excel格式。
59.其它步骤及参数与具体实施方式一至四之一相同。
60.具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述数据压缩后的测序数据文件的格式为bam或vcf。
61.其它步骤及参数与具体实施方式一至五之一相同。
62.具体实施方式七:本实施方式与具体实施方式一至六之一不同的是,所述数据压缩后的测序数据文件包括7种组学的文件;所述7种组学分别为基因组、转录组、蛋白质组、代谢组、微生物组、表型组以及暴露组学数据。
63.其它步骤及参数与具体实施方式一至六之一相同。
64.具体实施方式八:本实施方式与具体实施方式一至七之一不同的是,所述文件存储模块中分级目录的层次关系为用户名称

项目名称

实验名称

样本名称

文件名称。
65.建立的临时文件目录与每个注册用户的id进行关联,用户上传文件时,同时上传
这些文件对应的元信息,元信息包含数据的数据样本的详细信息、样本用户基本信息、测序信息等。其中,用户名称为系统当前登录的用户名称,项目名称是就实验目标而言的,一个项目下可包含多个实验;每个实验又包含了多个样本信息、测序平台信息和数据处理等信息;每个样本下可包含一个或多个文件结果信息。
66.其它步骤及参数与具体实施方式一至七之一相同。
67.具体实施方式九:结合图6说明本实施方式。本实施方式与具体实施方式一至八之一不同的是,所述数据压缩模块对基因测序数据进行数据压缩的具体过程为:
68.步骤1、将待进行数据压缩的基因测序数据与参考基因组进行比对,并标记出所有变异位点;
69.步骤2、建立两个一维数组,两个一维数组分别用于记录当前处理的基因测序数据所在序列片段的起始位置和终止位置;所记录的起始位置和终止位置主要用于后续对压缩数据的还原解压计算;
70.步骤3、基于标记出的变异位点和变异位点在序列片段中的位置来构建变异位置矩阵,所述变异位置矩阵的维度为m*n,m代表待进行数据压缩的基因测序数据中包含的实际样本个数,n代表参考基因组长度;
71.所述变异位置矩阵中的元素均为0或1,0表示基因测序数据在该位点碱基与参考基因组对应碱基相同,1表示基因测序数据在该位点碱基与参考基因组对应碱基不同;
72.对于变异位置矩阵的第一列,将第一列所对应的每一行字符串按照反向前缀字典序进行排序,以此类推,直至从左到右遍历到变异位置矩阵的每一列后,得到新的变异位置矩阵;
73.步骤4、采用游程编码对获得的新变异位置矩阵进行压缩。
74.大规模基因组测序计划通常产生pb级的测序数据,为了提高文件系统存储的高效性,即在有限的空间中,存储更多的数据,本系统采用基于自索引结构的重测序压缩(svrzip)算法,配合经典的字节编码技术实现具有较高压缩比的无损数据压缩,在一定程度上缓解了数据存储和数据传输的压力。下面对本实施方式中的压缩方法(srvzip算法)进一步解释为:
75.结合人类参考基因组,通过记录和压缩样本与参考基因组的序列差异信息来实现样本测序数据的存储压缩。使用debga、bwa、或bowtie2基因组序列比对软件将所有测序序列片段read比对到参考基因组上,遍历所有序列比对结果中的cigar信息,标记出所有变异位点。
76.通过两个一维数组记录序列片段(reads)的起始、终止位置,在进行pbwt编码处理时,序列片段动态加入、退出编码序列。pbwt引入了start[m]、end[m]两个一维数组,用于确定当前所处理位点对应的序列片段(reads)需要动态加入到处理队列中。
[0077]
构建m样本数(基因组计划中实际的样本个数)*n位点数(参考基因组长度)原始序列比对变异位置矩阵,基于参考基因组进行差异化编码的时候,0表示该位点碱基与参考基因组对应碱基相同,1表示该位点碱基与参考基因组对应碱基不同。进行pbwt矩阵转换操作,根据当前位置的反向前缀字典序对每一行的字符串进行排序,按此方法从左至右遍历矩阵直至遇到最后一个位点。
[0078]
pbwt矩阵序列转换完成后,在垂直方向上会出现连续的1或0,故可以采用游程编
码进行压缩。由于基因组数据的字母表个数较少,故将其中具体变异序列信息采用经典的huffman编码方式实现高效压缩。
[0079]
对于测序数据中质量数部分信息,首先进行稀疏化和均质化处理,使不同的质量数信息转换趋于相同并形成连续的相同数字内容,可采用游程编码进行压缩。其中差异化的简直质量数也采用游程编码进行压缩。
[0080]
本实施方式中,通过对基因测序数据进行较高压缩比的无损数据压缩,在一定程度上缓解了数据存储和数据传输的压力,提高了文件系统存储的高效性,可以在有限的空间中,存储更多的数据。
[0081]
其它步骤及参数与具体实施方式一至八之一相同。
[0082]
如图2和图3所示,存储模块为服务器上的文件系统,多组学数据上传时,首先将数据上传至缓存区,在用户检查无误后,通过后台接口向服务器缓存区发送确认指令,将缓存区的数据存储到永久存储区,同时更新数据库。其中,文件系统最多可容纳6.1pb的数据量。用户可通过pc端浏览器访问应用接口,从而实现数据查询、数据上传、数据存储功能。
[0083]
用户在使用系统时首先要登录注册,如图4所示,登录分为管理员登录和普通用户登录,不同角色可使用的权限不同,普通用户可以上传多组学数据文件和元数据信息至本发明系统,也可以进行数据检索。管理员可以对上传的数据进行审核,并决定这些数据是否能够通过审核,供用户检索使用。
[0084]
用户登录成功后,可以上传多组学文件和元数据信息到本系统,如图5所示,上传流程包括多样本本多组学数据上传和单样本多组学数据上传,用户选择单样本时直接录入信息,选择多样本上传时,要填写参数并下载模板,在模板中录入数据信息。信息填写完成后,通过文件传输系统上传文件到文件系统当前用户的目录,上传成功后,检查文件是否正确,确认无误后,上传成功。对上传成功的文件,为了进一步提高文件系统空间利用率,本系统采用基于自索引结构的重测序压缩算法(srvzip),进一步对基因测序数据进行压缩,对压缩后的文件重新写入分级目录中,同时删除原始文件,提高了文件系统的存储效率,如图6所示。
[0085]
在用户使用检索操作时,可以选择单一条件检索和多条件联合检索,如图7所示,单一条件只需在输入框中输入关键词,提交后通过接口向数据库中匹配关键词,匹配成功后返回检索列表。多条件联合检索可供选择多个不同分类下的多个标签,选中后组合检索字段,提交到接口向数据库中的多个表联合查询,返回检索列表。
[0086]
本发明提供一种人类遗传数据自动分类存储与检索系统,建立具有人类遗传数据的自动化分类、存储、检索和可视化等功能的综合大规模基因组数据管理系统。同时,建立多组学的遗传数据质量评价方法和敏感遗传数据的识别评估体系,与生物数据网络传输监测系统建立联动,实现对遗传数据非法出境和恶意伪造、扩大等行为的有效甄别。
[0087]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献