一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种性别鉴定及其参数的确定方法、装置和系统与流程

2022-10-26 19:07:16 来源:中国专利 TAG:


1.本技术涉及性别鉴定领域,特别是一种性别鉴定及其参数的确定方法、装置和系统。


背景技术:

2.性别检测在现代遗传医学中具有重要作用,但传统的性别检测例如b超观察会需要依赖检测者的经验且当发育时间不够或发育不良时,容易导致误判,羊水穿刺等方法为有创检测并且羊水穿刺采用的性染色体观察法当遇到性染色体数据和结构发生变化时会出现误判。
3.因此,现有技术需要一种既安全方便又无需依赖检测者经验而准确度高的新的性别鉴定方法。


技术实现要素:

4.本技术实施例提供了一种性别鉴定及其参数的确定方法、装置和系统,以至少解决现有技术中缺乏既安全方便又无需依赖检测者经验而准确度高的性别鉴定方法的问题。
5.根据本技术的一个方面,提供一种性别鉴定参数的确定方法,包括:
6.以男性特有染色体区间的覆盖率和位点总数构成特征组合;
7.对多个所述特征组合所构成的数据集进行关于性别区分的决策树分类,获得所述特征组合中每个参数用于鉴定性别时的阈值;
8.其中,所述男性特有染色体区间包括:
9.第一染色体区间:chry2654896-2655782;
10.第二染色体区间:chry2653089-2658088;
11.第三染色体区间:chry2781536-26637971。
12.进一步的,所述多个所述特征组合所构成的数据集进行关于性别的决策树分类之前,还包括:
13.对多个所述特征组合所构成的数据集进行性别区分的机器学习,所述机器学习时采用多种二分类模型进行,并对每种分类结果进行性能评估。
14.进一步的,所述覆盖率和位点总数通过如下方法获得:
15.获得所述染色体区间的大小;
16.获得所述染色体区间的深度;
17.基于所述染色体区间的深度和所述染色体区间的大小获得所述覆盖率;
18.计算所述染色体区间在受检样本比对后的bam文件上满足比对质量值大于等于60的染色体的位点总数。
19.进一步的,所述特征组合中每个参数用于鉴定性别时的阈值如下:
20.第一染色体区间位点数>0.5;
21.第二染色体区间位点数>0.5;
22.第三染色体区间位点数>1390;
23.第一染色体区间覆盖率>9;
24.第二染色体区间覆盖率>3.5;
25.第三染色体区间覆盖率>259988.5;
26.同时满足上述阈值条件的鉴定为男性,否则为女性。
27.本技术的第二个方面,提供一种性别鉴定参数,包括如下参数及其阈值范围:
28.第一染色体区间位点数>0.5;
29.第二染色体区间位点数>0.5;
30.第三染色体区间位点数>1390;
31.第一染色体区间覆盖率>9;
32.第二染色体区间覆盖率>3.5;
33.第三染色体区间覆盖率>259988.5;
34.其中,
35.所述第一染色体区间:chry2654896-2655782;
36.所述第二染色体区间:chry2653089-2658088;
37.所述第三染色体区间:chry2781536-26637971;
38.同时满足上述阈值条件的鉴定为男性,否则为女性。
39.本技术的第三个方面,提供一种性别鉴定的方法,包括:
40.接收样本;
41.计算样本中男性特有染色体区间的覆盖率和位点总数,并按照上述每个参数的阈值进行比较,以判断性别;
42.其中,所述男性特有染色体区间包括:
43.第一染色体区间:chry2654896-2655782;
44.第二染色体区间:chry2653089-2658088;
45.第三染色体区间:chry2781536-26637971。
46.进一步的,所述覆盖率和位点总数通过如下方法获得:
47.获得所述染色体区间的大小;
48.获得所述染色体区间的深度;
49.基于所述染色体区间的深度和所述染色体区间的大小获得所述覆盖率;
50.计算所述染色体区间在受检样本比对后的bam文件上满足比对质量值大于等于60的染色体的位点总数。
51.进一步的,所述获得所述染色体区间的深度,采用samtools中的depth方法获得深度结果文件。
52.本技术的第四个方面,提供一种性别鉴定的装置,包括:
53.样品接收组件,用于接收样品;
54.判断组件,用于计算样本中男性特有染色体区间的覆盖率和位点总数,并与权利要求5中的每个参数的阈值进行比较,以判断性别;
55.其中,所述男性特有染色体区间包括:
56.第一染色体区间:chry2654896-2655782;
57.第二染色体区间:chry2653089-2658088;
58.第三染色体区间:chry2781536-26637971。
59.本技术的第五个方面,提供一种性别鉴定系统,包括存储器和处理器,所述储器中存储有计算机程序,所述处理器用于处理所述计算机程序执行上述性别鉴定方法。
60.有益效果:
61.本技术通过给出三个关于男性特有染色体区间的相关参数及其阈值,方便检测人员无需依赖经验判断性别,并且可以实现无创检测,且上述参数及其阈值是通过多种分类器检验的,准确度和精确度等各类指标均优良,有利于实现性别检测的高通量、高效率、高普适性的效果。
附图说明
62.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
63.图1是根据本技术实施例的一种性别鉴定参数的确定方法的流程示意图;
64.图2是根据本技术实施例中的svm的roc曲线图;
65.图3是根据本技术实施例中的knn的roc曲线图;
66.图4是根据本技术实施例中的决策树的roc曲线图;
67.图5是根据本技术实施例中的随机森林的roc曲线图;
68.图6是根据本技术实施例中的逻辑回归的roc曲线图;
69.图7是根据本技术实施例中决策树的可视化图。
具体实施方式
70.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
71.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
72.本技术的实施例提供一种性别鉴定参数的确定方法,包括以下步骤:
73.步骤s102、以男性特有染色体区间的覆盖率和位点总数构成特征组合;
74.步骤s104、对多个所述特征组合所构成的数据集进行关于性别区分的决策树分类,获得所述特征组合中每个参数用于鉴定性别时的阈值;
75.其中,所述男性特有染色体区间包括:
76.第一染色体区间:chry2654896-2655782;
77.第二染色体区间:chry2653089-2658088;
78.第三染色体区间:chry2781536-26637971。
79.人类体细胞中的染色体共有23对,分别是由22对男女共有的常染色体和1对性染色体组成,其中性染色体又可分为x染色体和y染色体两种,而y染色体又是男性所独有的,所以通过鉴别样本是否存在y染色体是区分性别的关键。另外,y染色体上有个男性特有的基因,叫sry基因,由于它是胚胎向男性发育的关键基因,所以往往也可直接通过检测受检
样本是否包含sry基因来判定其性别。事实上,在区分性别时,无论是通过判定样本是否存在y染色体还是通过判定是否存在sry基因,一般都可以将其映射到具体的y染色体区间上(称为男性特有的染色体区间)。首先,y染色体上某些特有区间(chry2781536-26637971,下文以chry_bed表示)才是区分样本性别的关键,而对于sry基因,其一般可对应为sry基因染色体区间1(chry:2654896-2655782,下文以sry_gene_bed表示),其次对sry基因染色体区间1的起始和终止位置分别往外扩2000bp左右便又可形成sry基因染色体区间2(chry:2653089-2658088,下文以sry_ext_gene_bed表示)。
80.上述3个染色体区间的覆盖率和位点总数总共形成6个特征,由于这3个男性特有的染色体区间对应的区间范围不同,故其所应用的场景也不同。以sry_gene_bed为例,其常常运用于的二代测序(next generation sequencing,ngs)中的全外显子组测序(whole exome sequencing,wes)样本的性别判定。其次,由于wes捕获到的受检样本区间往往是不固定的,当其捕获到的区间范围超过sry_gene_bed对应的区间范围时,则可通过扩展后的sry_ext_gene_bed来对受检样本的性别进行判定。另外,由于ngs中除了常见的wes测序以外,还包含拷贝数变异测序(copy number variation sequencing,cnvseq)以及个性化的panel捕获测序等。针对于这些特殊的测序检测项目,由于其往往无法捕获到sry基因,故只有通过捕获y染色体上特有区间(chry_bed)才能获知到受检样本具体的性别。由此可见,这3个男性特有的染色体区间各有利弊,本实施例通过同时采用这3个特有的染色体区间来进行性别判定,不仅能够互相弥补,使得其应用的检测场景更加广泛,而且相辅相成,使得鉴定出来的性别结果更加准确。在此基础上,采用决策树分类方法找到上述染色体区间的用于判定性别时的阈值,形成判定方法从而方便根据检测数值判断性别。
81.在本实施例中,为了确认上述6个特征的效果,在所述多个所述特征组合所构成的数据集进行关于性别的决策树分类之前,还包括:
82.对多个所述特征组合所构成的数据集进行性别区分的机器学习,所述机器学习时采用多种二分类模型进行,并对每种分类结果进行性能评估。
83.选用历史cnvseq样本作为实验数据,将实验数据按照一定的比例随机分成训练集和测试集,接着将获得的6个特征合并形成一个特征组合,利用svm、决策树、随机森林、knn、逻辑回归这5种经典的分类算法对这一特征组合在区分性别上的性能进行评估。
84.具体的,本实施例中基于421个样本的6个参数值构建成一个矩阵文件,矩阵中的内容为各个样本分别对应的6个参数数值以及样本的状态(以数字表示,男性样本用”0”表示,女性样本用”1”表示)。接着将这一矩阵文件依次进行svm、决策树、随机森林、knn和逻辑回归算法验证,验证方法为:将矩阵内的数据按照7比3的比例随机分成训练集和测试集,将训练集用于训练和构建二分类模型,将测试集用于对构建的二分类模型进行测试和验证,并最终以accuracy(准确率)、precision(精确度)、recall(召回率)、f1_score、auc(area under roc curve)这5个参数对特征组合区分性别的分类性能进行评估,其中这5个评价参数的值越大,表示该分类模型越好,其特征的分类性能也就越好。五种分类算法按照训练集和测试集分别会产生对应的评价参数值,具体的数值结果如下表所示:
[0085][0086][0087]
接着引入受试者工作特征曲线(receiver operating characteristic,roc曲线——1种呈现在二维平面上用于评价分类模型性能好坏的曲线)来更直观地反应出这一组合特征在5种不同分类算法下的分类效果,其中平面的横坐标是false positive rate(fpr,错误率),纵坐标是true positive rate(tpr,正确率),而roc曲线下方的区域面积大小即为auc值,auc值通常介于0.5-1.0之间,其中auc值越趋近于1表示该分类模型性能越好。五种分类模型具体的roc曲线图如图2至图6所示,可见,上述分类模型均能很好地基于本技术实施例提出的特征组合进行性别筛选。
[0088]
本实施例中,具体采用决策树算法(能基于基本特征对实例进行有效分类,并可视化地求得分类的最优阈值)获取组合特征在区分性别时的最佳中间阈值。具体的,首先将上述过程中构建的矩阵文件按照7比3的比例随机分成训练集和测试集,接着基于决策树算法在组合特征中的6个参数上分别构建出对应的决策树(一张可视化的树型图),并从决策树上获取到这个参数在区分性别时的最佳阈值,6个参数便对应6个可视化的决策树,具体的决策树可视化图如图7所示。
[0089]
因此,所述特征组合中每个参数用于鉴定性别时的阈值如下:
[0090]
第一染色体区间位点数>0.5;
[0091]
第二染色体区间位点数>0.5;
[0092]
第三染色体区间位点数>1390;
[0093]
第一染色体区间覆盖率>9;
[0094]
第二染色体区间覆盖率>3.5;
[0095]
第三染色体区间覆盖率>259988.5;
[0096]
同时满足上述阈值条件的鉴定为男性,否则为女性。
[0097]
因此,得到基于上述参数和阈值组成的一种性别鉴定参数,具体包括:
[0098]
第一染色体区间位点数>0.5;
[0099]
第二染色体区间位点数>0.5;
[0100]
第三染色体区间位点数>1390;
[0101]
第一染色体区间覆盖率>9;
[0102]
第二染色体区间覆盖率>3.5;
[0103]
第三染色体区间覆盖率>259988.5;
[0104]
其中,
[0105]
所述第一染色体区间:chry2654896-2655782;
[0106]
所述第二染色体区间:chry2653089-2658088;
[0107]
所述第三染色体区间:chry2781536-26637971;
[0108]
同时满足上述阈值条件的鉴定为男性,否则为女性。
[0109]
在具体鉴定时,通过接收样本,并计算样本中男性特有染色体区间的覆盖率和位点总数,并按照上述阈值范围对比样本中的参数是否符合阈值条件,依次判断样本的性别。
[0110]
其中,所述覆盖率和位点总数通过如下方法获得:
[0111]
步骤1、获得所述染色体区间的大小。
[0112]
具体的,包括如下过程:当获取到3个男性特有的染色体区间后,接着分别计算出这3个染色体区间的总大小(其中由于sry_gene_bed和sry_ext_gene_bed这2个区间内都只有一条y染色体,故这两个染色体区间大小的计算方式均为:“染色体终止位置-染色体起始位置 1”(以sry_gene_bed为例,其区间大小为:2655782-2654896 1=887),而chry_bed区间内有多条y染色体,故该区间大小的计算方式为:“先计算出每条y染色体上终止位置和起始位置的差值,然后再将每条y染色体上的区间差值进行累加求和,最终得到的和值即为该区间的总大小,在下文分别以sry_size、sry_ext_size、chry_size进行表示。
[0113]
步骤2、获得所述染色体区间的深度。
[0114]
基本方法是以男性特有的3个染色体区间和比对后的bam文件为基础,分别罗列出这3个特有染色体区间上被受检样本比对后的bam文件覆盖到的所有染色体位点信息和深度值,从而分别汇总形成这3个染色体区间对应的深度结果文件。具体的,利用samtools工具(一种能高效处理sam和bam文件的工具集)中的depth方法(用于计算特定染色体区间上被bam文件覆盖到的各个位点深度)来分别计算出sry_gene_bed、sry_ext_gene_bed和chry_bed这3个男性特有染色体区间上被受检样本比对后的bam文件覆盖到的每一个位点的深度值,并最终分别汇总形成这3个特有染色体区间各自对应的深度结果文件(下文分别以sry_depth、sry_ext_depth和chry_depth表示)。
[0115]
步骤3、基于所述染色体区间的深度和所述染色体区间的大小获得所述覆盖率。
[0116]
由于覆盖率的实质是男性3个特有染色体区间上各自被受检样本比对后的bam文件覆盖到的染色体位点数占各自整个染色体区间位点总数的比例。基本方法是以上述两步中获得的男性特有的3个染色体区间各自对应的区间总大小和深度结果文件为基础,分别计算出这3个染色体区间各自对应的覆盖率。通过计算公式:“染色体区间深度结果文件中染色体总数/染色体区间总大小*100“(示例:sry_depth_count/sry_size*100)来得到对应染色体区间上被受检样本比对后的bam文件覆盖到的染色体位点数占整个染色体区间位点总数的比例(即覆盖率)。无论是染色体总数还是染色体区间大小,其均代表的是这个染色体区间中包含的染色体位点总数。由于受检样本比对后的bam文件并不能完全覆盖到这3个男性特有染色体区间上的所有位点,所以即当覆盖率的值越高则代表该受检样本比对后的bam文件覆盖到的男性特有染色体区间上的位点数越多,即该受检样本为男性的可能性也就越大。因此,通过分别计算出这3个男性特有染色体区间各自对应的覆盖率并以此作为候选特征,能够准确高效直观地判定出受检样本的性别。通过上述公式计算,男性特有的3个
染色体区间最终分别得到了各自对应的覆盖率,依次对应为srycovbases、sryextcovbases以及chrycovbases。
[0117]
步骤4、计算所述染色体区间在受检样本比对后的bam文件上满足比对质量值大于等于60的染色体的位点总数。具体的,利用samtools工具中的view方法(一种查看bam或sam文件的方法)来分别统计出sry_gene_bed、sry_ext_gene_bed和chry_bed这3个男性特有染色体区间在受检样本比对后的bam文件上满足mapping quality值(比对质量值)大于等于60的位点的总数(下文分别以sry_count、sry_ext_count和chry_count表示)。
[0118]
只通过引入覆盖率这一个参数就能准确地判定出受检样本的性别是不够严谨的。因为受检样本比对后的bam文件往往会覆盖到染色体区间上同一个位点多次,这样尽管能使得覆盖到3个特有染色体区间上的染色体位点总数变多(即分子不变,分母变大,比例也就变大),从而造成各自对应的覆盖率变大,但是这种覆盖到的位点总数的可信度并不高,即高覆盖率并不可信。所以,为了排除这种可信度不高的情况发生,便需要引入另一个参数,即分别计算出这3个男性特有染色体区间在受检样本比对后的bam文件上满足mapping quality值(比对质量值)大于等于60的位点总数。mapping quality代表覆盖到的位点是否可信,如果覆盖到同一个染色体区间上同一个位点多次,往往该位点上的mapping quality值较低。因此当某个位点上的mapping quality值较高时,则表明该位点只被覆盖了一次。所以,当拥有较高mapping quality值的位点数更多时,则计算出的覆盖率也就更可信。由此可见,选择覆盖率与比对质量值大于等于60的位点总数这两个参数一起作为候选特征能够使得鉴定出的性别信息更加准确,流程上更加严谨可靠。
[0119]
本实施例的方法至少具有以下优点:
[0120]
1)高效性
[0121]
采用本实施例所设计的处理流程并基于挖掘出的指标参数(特征)以及对应的阈值,能够自动、快速、准确、高效地甄别出受检样本的性别。
[0122]
2)高通量
[0123]
本实施例所设计的处理流程,对服务器计算资源要求较低,一台普通的8核心64g内存的服务器,能够允许同时运行几十个目标基因的处理任务。
[0124]
3)高普适性
[0125]
本实施例的方法具有较高的普适性,对于无任何相关专业技术背景的人员也能进行准确地核查判定,对人员技术要求较低。
[0126]
4)分析流程简便,部署方便;
[0127]
本实施例的流程部署简单,使用操作方便,只需部署相关计算节点即可完成全流程分析。
[0128]
除上述方法外,在本实施例中,还提供一种性别鉴定参数的确定系统,包括存储器和处理器,所述储器中存储有计算机程序,所述处理器用于处理所述计算机程序执行上述的性别鉴定参数的确定方法。
[0129]
在本实施例中,还提供一种性别鉴定的方法,包括存储器和处理器,所述储器中存储有计算机程序,所述处理器用于处理所述计算机程序执行上述的性别鉴定的确定方法。
[0130]
上述实施例中涉及的计算机程序通过装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从
而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。例如,针对实现一种性别鉴定的方法的计算机程序,其对应的步骤可以通过以下模块的组合实现:
[0131]
样品接收组件,用于接收样品;
[0132]
判断组件,用于计算样本中男性特有染色体区间的覆盖率和位点总数,并与以下每个参数的阈值进行比较以判断性别:
[0133]
第一染色体区间位点数>0.5;
[0134]
第二染色体区间位点数>0.5;
[0135]
第三染色体区间位点数>1390;
[0136]
第一染色体区间覆盖率>9;
[0137]
第二染色体区间覆盖率>3.5;
[0138]
第三染色体区间覆盖率>259988.5;
[0139]
其中,所述男性特有染色体区间包括:
[0140]
第一染色体区间:chry2654896-2655782;
[0141]
第二染色体区间:chry2653089-2658088;
[0142]
第三染色体区间:chry2781536-26637971;
[0143]
同时满足上述阈值条件的鉴定为男性,否则为女性。
[0144]
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0145]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献