一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

构建多人群非外显子区SNP探针集合的方法及装置与流程

2022-06-29 20:03:07 来源:中国专利 TAG:
构建多人群非外显子区snp探针集合的方法及装置
技术领域
1.本发明涉及生物信息技术领域与医学分子生物学领域,具体而言,涉及一种构建多人群非外显子区snp探针集合的方法及装置。


背景技术:

2.对人类肿瘤组织样本的同源重组缺陷(homologous recombination deficiency,hrd)进行可靠量化具有重要的临床意义。例如,伴有brca1或brca2缺失的卵巢癌和三阴性乳腺癌对parp抑制剂和铂类化疗高度敏感,并以dna总拷贝数畸变的形式显示基因组瘢痕的积聚;没有brca1或brca2丢失,但有类似基因组疤痕积聚的癌种也显示出对铂类化疗的敏感性增加。此前基于snp阵列的染色体不稳定性特征:杂合性丢失(loss of heterozygosity,loh)、端粒等位基因失平衡(telomeric allelic imbalance,tai)和大片段迁移(large-scale state transitions,lst),其综合得分可作hrd的生物标志物。近来二代测序法,如全基因组测序(whole genome sequencing,wgs)和全外显子测序(whole exome sequencing,wes)逐渐取代snp芯片成为基因组瘢痕分析的主流方法,但存在高成本和检测密度不均等缺点。
3.考虑到肿瘤标本的倍性、纯度和异质性,同时为了满足高覆盖率和低成本的要求,基于二代测序的靶向测序(targeted next-generation sequencing,tg-ngs)锚向全基因组内均匀分布、高杂合率的数万个snp位点的思路成为应用于同源重组缺陷检测分析的较优解决方案之一。然而市场上出现的此类产品,大多针对欧美人群,亦或是基于检测密度不均的wes,因此对于推出一种多人群通用的针对全基因组范围内高密度均匀分布的snp探针设计方案显得尤为重要。


技术实现要素:

4.本发明旨在提供一种构建多人群非外显子区snp探针集合的方法及装置,确定并筛选出适用于多种人群的非外显子区均匀分布的snp探针集合。
5.为了实现上述目的,根据本发明的一个方面,提供了一种构建多人群非外显子区snp探针集合的方法。该方法包括以下步骤:s1,对人类基因组数据库中收纳的snp位点的等位基因频率信息进行过滤,保留m个人群中等位基因频率均在一定范围内的snp位点,形成snp集合a,m≥1;s2,针对snp集合a中的snp进行位置过滤,排除涉及外显子的snp,形成snp集合b;s3,针对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在指定取值范围内的snp,形成snp集合c;s4,针对snp集合c中snp在m个人群中变异频率偏离的情况进行snp过滤,过滤存在异常值的snp,形成snp集合d;s5,利用指定人群的最小等位基因频率值对snp集合d中的snp位点进行过滤,形成snp集合e;s6,针对snp集合e中的snp位点进行捕获探针设计,获得snp集合f与安全探针集a;s7,利用常见snp的参考文件对安全探针集a进行过滤,若一条探针区间内包含3个或以上的常见snp,则舍去该探针及对应snp位点,过滤完成后获得snp集合g和安全探针集b;s8,对snp集合g中snp位
点进行过滤,除去在wgs全基因组测序30x深度下无法稳定检测的snp位点及其对应的安全探针集b中的探针,过滤完成后获得snp集合h和安全探针集c;s9,过滤掉snp集合h中参考基因组坐标无法转换成hg38参考基因组坐标的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d;s10,将全基因组以n个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e;s11,可选择地,依托s10的方法从snp集合j和安全探针集合e中进一步挑选新的snp集合及对应安全探针集合,成为较低密度梯度的新的snp集合j和新的安全探针集合e;s12,计算snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
6.进一步地,人类基因组数据库为1000genomes人类基因组数据库;优选的,m=5。
7.进一步地,s1中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95;优选的,s2中,涉及外显子的snp为snp上下游200bp范围内触及外显子区域;优选的,s3中,gc含量在指定取值范围内是指gc含量在25%~75%;优选的,s4中,存在异常值的snp判断方法为:利用该snp在m个人群中的af值,计算q1-1.5iqr和q3 1.5iqr,若m个人群中任意一人群af值小于q1-1.5iqr或大于q3 1.5iqr,则判定为存在异常。
8.进一步地,s5中,指定人群包括中国人群,当以中国人群为指定人群时,过滤条件为最小等位基因频率取值范围为0.2~0.5,且去除了观测杂合度与期望杂合度差异较大的snp位点;优选的,s5中过滤条件为单个snp的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体sd的4倍。
9.进一步地,s6中,捕获探针的设计方法为:以snp为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以snp为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以snp为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该snp位点及对应探针。
10.进一步地,s8中,能被稳定检测的snp位点在wgs数据在gatk-3.8版本下计算的callable的bed区间之内;优选的,s9中,snp位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,s10中,n取值应大于等于50k,优选为50k;优选的,s12中,判断snp连锁不平衡的条件为:d
ab
=f(ab)-f(a)*f(b);r2=(d
ab
)2/(f(a)*f(a)*f(b)*f(b)),其中,r2表示相关系数,d
ab
表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,f(a)、f(b)、f(a)、f(b)表示等位基因基因型频率,f(ab)表示ab单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
11.根据本发明的另一个方面,提供一种构建多人群非外显子区snp探针集合的装置。该装置包括:等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的snp位点的等位基因频率信息进行过滤,保留m个人群中等位基因频率均在一定范围内的snp位点,形成snp集合a,m≥1;外显子排除单元,设置为对snp集合a中的snp进行位置过滤,排除涉及外显子的snp,形成snp集合b;gc含量过滤单元,设置为对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在指定取值范围内的snp,形成snp
集合c;变异频率偏离过滤单元,设置为snp集合c中snp在m个人群中变异频率偏离的情况进行snp过滤,过滤存在异常值的snp,形成snp集合d;最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对snp集合d中的snp位点进行过滤,形成snp集合e;探针设计单元,设置为snp集合e中的snp位点进行捕获探针设计,获得snp集合f与安全探针集a;探针过滤单元a,设置为利用常见snp的参考文件对安全探针集a进行过滤,若一条探针区间内包含3个或以上的常见snp,则舍去该探针及对应snp位点,过滤完成后获得snp集合g和安全探针集b;探针过滤单元b,设置为snp集合g中snp位点进行过滤,除去在wgs全基因组测序30x深度下无法稳定检测的snp位点及其对应的安全探针集b中的探针,过滤完成后获得snp集合h和安全探针集c;参考基因组转化及过滤单元,设置为过滤掉snp集合h中参考基因组坐标无法转换成hg38参考基因组坐标的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d;snp优选单元,设置为将全基因组以n个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e;并且可以通过修改本单元参数,从snp集合j和安全探针集合e中得到较低密度的新的snp集合j和新的安全探针集合e;连锁不平衡计算及过滤单元,设置为snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
12.进一步地,人类基因组数据库为1000genomes人类基因组数据库;优选的,m=5。
13.进一步地,等位基因频率信息过滤单元中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95;优选的,外显子排除单元中,涉及外显子的snp为snp上下游200bp范围内触及外显子区域;优选的,gc含量过滤单元中,gc含量在指定取值范围内是指gc含量在25%~75%;优选的,变异频率偏离过滤单元中,存在异常值的snp判断方法为:利用该snp在m个人群中的af值,计算q1-1.5iqr和q3 1.5iqr,若m个人群中任意一人群af值小于q1-1.5iqr或大于q3 1.5iqr,则判定为存在异常。
14.进一步地,最小等位基因频率过滤单元中,指定人群包括中国人群,当以中国人群为指定人群时,过滤条件为最小等位基因频率取值范围为0.2~0.5,且去除了观测杂合度与期望杂合度差异较大的snp位点;优选的,最小等位基因频率过滤单元中过滤条件为单个snp的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体sd的4倍。
15.进一步地,探针设计单元中,捕获探针的设计方法为:以snp为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以snp为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以snp为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该snp位点及对应探针。
16.进一步地,探针过滤单元b中,能被稳定检测的snp位点在wgs数据在gatk-3.8版本下计算的callable的bed区间之内;优选的,参考基因组转化及过滤单元中,snp位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,snp优选单元中,n取值应大于等于50k,优选为50k;优选的,连锁不平衡计算及过滤单元中,判断snp连锁不平衡的条件为:d
ab
=f(ab)-f(a)*f(b);r2=(d
ab
)2/(f(a)*f
(a)*f(b)*f(b)),其中,r2表示相关系数,d
ab
表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,f(a)、f(b)、f(a)、f(b)表示等位基因基因型频率,f(ab)表示ab单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
17.应用本发明的技术方案,可获得不同人群非外显子区高密度snp探针集合,该探针集合具有目标位点密度大且分布均匀、目标位点突变频率贴合特定人群的特点,经验证,依标准进行设计的探针在后续应用过程中有着良好的表现,可更好地完成同源重组缺失评分及snp骨架的构建。
具体实施方式
18.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。针对现有技术中,用于同源重组缺失评分及snp骨架构建的高密度snp探针集在设计过程中大多存在分布不均一、局限于外显子、指定单一人种的缺陷,本发明提出下列技术方案。
19.本发明的发明构思在于:提供一种构建不同人群非外显子区高密度snp探针集合的方法,该方法包括基于人类基因组数据库(例如,1000genomes数据库中五大人群)的等位基因频率获得初始snp集合,再对初始snp集合依次进行非外显子位置提取、上下游cg含量过滤、snp变异频率过滤、指定人群最小等位基因频率过滤,得到可用于设计探针的snp集合;针对该集合进行安全探针设计,再对该探针集合进行探针区间常见snp包含数、snp稳定检出性、能否hg38坐标转换进行再次过滤;再将经上述步骤得到的snp与探针以实际需求的密度情况均匀分布在全基因组多个区间上,按最优条件取合适的snp探针;最后根据进行连锁不平衡关系再次过滤掉不适用的snp探针和位点,得到最佳snp探针集合。
20.根据本发明一种典型的实施方式,提供一种构建多人群非外显子区snp探针集合的方法。该方法包括以下步骤:s1,对人类基因组数据库中收纳的snp位点的等位基因频率信息进行过滤,保留m个人群中等位基因频率均在一定范围内的snp位点,形成snp集合a,m≥1;s2,针对snp集合a中的snp进行位置过滤,排除涉及外显子的snp,形成snp集合b;s3,针对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在指定取值范围内的snp,形成snp集合c;s4,针对snp集合c中snp在m个人群中变异频率偏离的情况进行snp过滤,过滤存在异常值的snp,形成snp集合d;s5,利用指定人群的最小等位基因频率值对snp集合d中的snp位点进行过滤,形成snp集合e;s6,针对snp集合e中的snp位点进行捕获探针设计,获得snp集合f与安全探针集a;s7,利用常见snp的参考文件对安全探针集a进行过滤,若一条探针区间内包含3个或以上的常见snp,则舍去该探针及对应snp位点,过滤完成后获得snp集合g和安全探针集b;s8,对snp集合g中snp位点进行过滤,除去在wgs全基因组测序30x深度下无法稳定检测的snp位点及其对应的安全探针集b中的探针,过滤完成后获得snp集合h和安全探针集c;s9,过滤掉snp集合h中参考基因组坐标无法转换成hg38参考基因组坐标的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d;s10,将全基因组以n个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e;s11,可选择地,依托s10的方法从snp集合j和安全探针集合e中进一步挑选新的
snp集合及对应安全探针集合,成为较低密度梯度的新的snp集合j和新的安全探针集合e;s12,计算snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
21.可以理解的是,s11作为可选步骤,在s10完成的情况下由本领域技术人员根据实际情况选择是否需要执行。
22.应用本发明的技术方案,可以得到针对指定人种的非外显子高密度snp探针集合,其中的snp位点在基因组上分布均匀,snp基因型频率符合该指定人种应有的水平,经验证,该snp探针集合应用于同源重组缺陷检测分析时交现有其他探针集合有明显的提升。
23.在本发明中,人类基因组数据库为1000genomes人类基因组数据库,优选的,m=5,即包括五大人群的基因组数据,提高snp探针集合的普遍适用性。
24.在本发明一种典型的实施方式中,s1中,等位基因频率均在一定范围内是指等位基因频率均在0.05~0.95,由此提高检测的有效性。s2中,涉及外显子的snp为snp上下游200bp范围内触及外显子区域;为了保证良好的捕获效果,优选的,s3中,gc含量在指定取值范围内是指gc含量在25%~75%。
25.在本发明一种典型的实施方式中,特别是当人群多于3个时,s4中,存在异常值的snp判断方法为:利用该snp在m个人群中的af值,计算q1-1.5iqr和q3 1.5iqr,若m个人群中任意一人群af值小于q1-1.5iqr或大于q3 1.5iqr,则判定为存在异常。
26.s5中指定人群的类型本领域技术人员在本发明思想的教导下,能够根据实际情况进行选择,但同时该步骤的筛选条件也应在本发明思想的教导下进行调整。根据本发明一种典型的实施方式,s5中,指定人群包括但不限于中国人群,当以中国人群为指定人群时,过滤条件为最小等位基因频率取值范围为0.2~0.5,且去除了观测杂合度与期望杂合度差异较大的snp位点;优选的,s5中过滤条件为单个snp的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体sd的4倍。
27.在本发明一优选的实施方式中,s6中,捕获探针的设计方法为:以snp为中心预设计90~160bp,优选120bp探针,使用bowtie2和blast进行全基因组比验证;其中,bowtie2是以snp为中心,上下移动60bp,一共三条探针,比对结果要求一条探针的hits等于1,另外两条探针的hits小于100;blast则以snp为中心,要求比对结果的hits数目小于1000,两者阈值条件同时具备,保留该snp位点及对应探针。通过此方法涉及的探针特异性及捕获均一性均较好。
28.在本发明中,常见snp是指出现频率大于1%的snp。在本发明一优选的实施例中s8中,能被稳定检测的snp位点在wgs数据在gatk-3.8版本下计算的callable的bed区间之内;优选的,s9中,snp位点使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致;优选的,s10中,n取值应大于等于50k,优选为50k;s12中,连锁程度过高的snp通过snp连锁不平衡来判断,优选的,s12中,判断snp连锁不平衡的条件为:d
ab
=f(ab)-f(a)*f(b);r2=(d
ab
)2/(f(a)*f(a)*f(b)*f(b)),其中,r2表示相关系数,d
ab
表示度量观察到的单倍型频率与平衡状态下期望频率的偏差,f(a)、f(b)、f(a)、f(b)表示等位基因基因型频率,f(ab)表示ab单倍型频率;r2的阈值为0.2,r2高于该值,则被过滤。
29.根据本发明一种典型的实施方式,提供一种构建多人群非外显子区snp探针集合
的装置。该装置包括:等位基因频率信息过滤单元,设置为对人类基因组数据库中收纳的snp位点的等位基因频率信息进行过滤,保留m个人群中等位基因频率均在一定范围内的snp位点,形成snp集合a,m≥1;外显子排除单元,设置为对snp集合a中的snp进行位置过滤,排除涉及外显子的snp,形成snp集合b;gc含量过滤单元,设置为对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在指定取值范围内的snp,形成snp集合c;变异频率偏离过滤单元,设置为snp集合c中snp在m个人群中变异频率偏离的情况进行snp过滤,过滤存在异常值的snp,形成snp集合d;最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对snp集合d中的snp位点进行过滤,形成snp集合e;探针设计单元,设置为snp集合e中的snp位点进行捕获探针设计,获得snp集合f与安全探针集a;探针过滤单元a,设置为利用常见snp的参考文件对安全探针集a进行过滤,若一条探针区间内包含3个或以上的常见snp,则舍去该探针及对应snp位点,过滤完成后获得snp集合g和安全探针集b;探针过滤单元b,设置为snp集合g中snp位点进行过滤,除去在wgs全基因组测序30x深度下无法稳定检测的snp位点及其对应的安全探针集b中的探针,过滤完成后获得snp集合h和安全探针集c;参考基因组转化及过滤单元,设置为过滤掉snp集合h中参考基因组坐标无法转换成hg38参考基因组坐标的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d;snp优选单元,设置为将全基因组以n个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e;并且可以通过修改本单元参数,从snp集合j和安全探针集合e中得到较低密度的新的snp集合j和新的安全探针集合e;连锁不平衡计算及过滤单元,设置为snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
30.下面将结合实施例进一步说明本发明的有益效果。
31.实施例1
32.假设需对中国人群的非外显子区进行高密度snp捕获探针设计。
33.对此高密度snp捕获探针设计包含以下步骤:
34.s1,对1000genomes数据库中收纳的snp位点的等位基因频率信息进行过滤,保留数据库内五大人群中等位基因频率均0.05~0.95内的snp位点,形成snp集合a;
35.s2,针对snp集合a中的snp进行位置过滤,排除snp上下游200bp范围涉及外显子的snp,形成snp集合b;
36.s3,针对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在25%~75%内的snp,形成snp集合c;
37.s4,针对snp集合c中snp在五大人群中变异频率偏离的情况进行snp过滤,过滤五大人群中任意一人群af值不在q1-1.5iqr~q3 1.5iqr区间内的snp,形成snp集合d;
38.s5,保留snp集合d中中国人群的最小等位基因频率值在0.2~0.5内的snp,并去除单个snp的观测杂合度与期望杂合度的二维坐标距离整条染色体观测杂合度与期望杂合度拟合线的cooks.distance小于或者等于整体sd的4倍的位点,形成snp集合e;
39.s6,针对snp集合e中的snp位点进行捕获探针设计,以snp为中心预设计120bp探
针,使用bowtie2和blast进行全基因组比验证。其中bowtie2是以snp为中心,上下移动60bp,一共三条探针,比对结果要求一条hits等于1,另外两条hits小于100;blast则以snp为中心,要求比对结果的hits数目小于1000。两者阈值条件同时具备,保留该snp位点及对应探针,形成安全探针集合a;
40.s7,将dbsnp数据库的common vcf文件设常见snp参考文件对安全探针集a进行过滤,若一条探针区间内包含3个或以上的该参考文件中的位点,则舍去该探针及对应snp位点。过滤完成后获得snp集合g和安全探针集b;
41.s8,对snp集合g中snp位点进行过滤,除去不在wgs全基因组测序30x深度下用gatk-3.8版本计算的callable的bed区间内的snp位点及其对应的安全探针集b中的探针。过滤完成后获得snp集合h和安全探针集c;
42.s9,过滤掉snp集合h中用crossmap-0.3.9软件不能转换为hg38坐标,或坐标位置与hg38的avsnp147数据库中的坐标不一致的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d;
43.s10,将全基因组以50k个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e;
44.s11,可选择地,依托s10的方法在snp集合j和安全探针集合e中以300k为区间,挑选均匀分布的snp稳点,成为较低密度梯度的新的snp集合j和新的安全探针集合e;
45.s12,以d
ab
=f(ab)-f(a)*f(b);r2=(d
ab
)2/(f(a)*f(a)*f(b)*f(b))方法计算snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
46.依据上述步骤,最终snp集合k中包含约52k个snp位点及对应探针;若选择由s11步骤产生的新的snp集合j和新的安全探针集合e进行此步骤,则最终得到约9k个snp位点及对应探针。以上两种探针集合在实际应用中均能用于同源重组缺失评分及snp骨架的构建。例如,采用snp集合k对应的安全探针集合e对标准品进行检测,由于该探针集合具有目标位点密度大且分布均匀、目标位点突变频率贴合特定人群的特点,可更好地完成同源重组缺失评分及snp骨架的构建。经分析发现可达到与wgs相一致的hrd分析结果,并比wes更优。
47.实施例2
48.一种构建不同人群非外显子区高密度snp探针集合的装置,用于执行实施例1中的方法。该装置包括:等位基因频率信息过滤单元,设置为对1000genomes数据库中收纳的snp位点的等位基因频率信息进行过滤,保留数据库内五大人群中等位基因频率均在一定范围内的snp位点,形成snp集合a。外显子排除单元,设置为对snp集合a中的snp位置进行过滤,排除可能涉及外显子的snp,形成snp集合b。gc含量过滤单元,设置为对snp集合b中的snp,对以snp位点为中心的120bp范围内的序列的gc含量进行过滤,保留gc含量在指定取值范围内的snp,形成snp集合c。变异频率偏离过滤单元,设置为对snp集合c中snp在五大人群中变异频率偏离的情况进行snp过滤,过滤存在异常值的snp,形成snp集合d。最小等位基因频率过滤单元,设置为利用指定人群的最小等位基因频率值对snp集合d中的snp位点进行过滤,形成snp集合e。探针设计单元,设置为对snp集合e中的snp位点进行捕获探针设计单元,获
得snp集合f与安全探针集a;探针过滤单元a,设置为利用常见snp参考文件安全探针集a进行过滤,若一条探针区间内包含3个或以上的常见snp参考文件的snp位点,则舍去该探针及对应snp位点。过滤完成后获得snp集合g和安全探针集b。探针过滤单元b,设置为对snp集合g中snp位点进行过滤单元,除去在wgs全基因组测序30x深度下无法稳定检测的snp位点及其对应的安全探针集b中的探针。过滤完成后获得snp集合h和安全探针集c。参考基因组转化及过滤单元,设置为过滤掉snp集合h中参考基因组坐标无法转换成hg38参考基因组坐标的snp位点及其对应的安全探针集c中的探针,得到snp集合i和安全探针集d。snp优选单元,设置为将全基因组以n个碱基的长度为单位划分为多个区间,snp集合i和安全探针集d依据位置坐标分布于以上区间内,在每个区间内优先挑选靠近区间中心位置且指定人群在该位点maf值最接近0.5的snp位点及其对应的安全探针,得到snp集合j和安全探针集合e,并且可以通过修改本单元参数,从snp集合j和安全探针集合e中得到较低密度的新的snp集合j和新的安全探针集合e;连锁不平衡计算及过滤单元,设置为计算snp集合j中每一个snp与在该snp上下游1m bp范围内其他snp之间的连锁不平衡的关系,过滤掉连锁程度过高的snp及对应探针,最终得到snp集合k和安全探针集合f。
49.进一步地,等位基因频率信息过滤单元中,一定等位基因频率范围为0.05~0.95。
50.进一步地,外显子排除单元中,排除涉及外显子的方法为,该snp上下游200bp范围内不触及外显子区域。
51.进一步地,gc含量过滤单元中,gc含量的指定取值范围是25%~75%。
52.进一步地,变异频率偏离过滤单元中,变异频率偏离的异常值的判断方法为:利用该snp在五大人群中的af值,计算q1-1.5iqr和q3 1.5iqr,若五大人群中任意一af值小于q1-1.5iqr或大于q3 1.5iqr,则存在异常。
53.进一步地,最小等位基因频率过滤单元中,指定人群包括但不局限于中国人群,当以中国人群为指定人群时,最小等位基因频率取值范围为0.2~0.5,且应额外去除观测杂合度与期望杂合度差异较大的snp位点。
54.进一步地,探针设计单元中安全探针的设计方法为:以snp为中心预设计120bp探针,使用bowtie2和blast进行全基因组比验证。其中bowtie2是以snp为中心,上下移动60bp,一共三条探针,比对结果要求一条hits等于1,另外两条hits小于100;blast则以snp为中心,要求比对结果的hits数目小于1000。两者阈值条件同时具备,才可以保留该snp位点及对应探针。
55.进一步地,探针过滤单元a中的常见snp的参考文件设置为dbsnp数据库的common vcf文件。
56.进一步地,探针过滤单元b中要求能被稳定检测的snp位点在wgs数据在gatk-3.8版本下计算的callable的bed区间之内。
57.进一步地,参考基因组转化及过滤单元中要求snp位点可以使用crossmap-0.3.9软件转换为hg38坐标,且坐标位置与hg38的avsnp147数据库中的坐标一致。
58.进一步地,snp优选单元a中,n取值应大于等于50k,优选50k。
59.进一步地,snp优选单元b中,m取值应大于等于n。
60.进一步地,连锁不平衡计算及过滤单元中,判断snp连锁不平衡的条件为:dab=f(ab)-f(a)*f(b);r2=(dab)2/(f(a)*f(a)*f(b)*f(b));r2的阈值为0.2,r2高于该值,则被
过滤。
61.上述实施例1的方法可以通过实施例2中的装置执行。
62.从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:成功构建了不同人群非外显子区高密度snp探针集合,该集合可以应用于同源重组缺失评分及snp骨架的构建。
63.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献