一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种局灶性癫痫遗传风险评估模型的建立方法与流程

2021-10-20 00:31:00 来源:中国专利 TAG:遗传 风险评估 癫痫 模型 建立


1.本发明遗传风险评估领域,具体涉及一种局灶性癫痫遗传风险评估模型的建立方法。


背景技术:

2.目前,在精准医学领域,癫痫的遗传分子学诊断主要依赖于二代测序(基因包、全外显子测序等)结合遗传变异解读,识别患病基因和变异。而该手段在局灶性癫痫患者中的诊断率有限。既往多项研究显示,仅极个别类型的局灶性癫痫可用单个基因/变异解释(参见文献pmid:30568546)。另一方面,多项gwas研究显示,常见类型局灶性癫痫与多态性位点的低效应量风险等位基因相关(参见文献pmid:24014518)。
3.多基因风险评分(polygenic risk scores,prs)是对受检者的低效应量风险等位基因进行加权累加获得,该加权累计值可用于个体的疾病遗传风险评估。其中,等位基因的权重依据既往相关疾病全基因组关联分析研究(gwas)结果获取。目前prs已被广泛应用于精神类疾病遗传风险评估。在癫痫领域,marie等学者(参见pmid:33090489)试图应用prs的思想评估局灶性癫痫的遗传异质性,以对局灶性癫痫的临床异质性进行解释。但目前并未有学者应用prs进行局灶性癫痫的风险分层和辅助诊断。
4.基于多基因风险评分,仅对患病的遗传因素进行评估,因此该方法的评估效力受疾病的遗传力限制。另一方面,计算prs时,风险位点的权重以既往gwas研究结果为前提,因此评估效力亦受现有gwas研究效力影响,如“赢者诅咒”和人群偏倚等。
5.有鉴于此,特提出本发明。


技术实现要素:

6.本发明的目的是提供一种局灶性癫痫遗传风险评估模型的建立方法,解决了目前没有应用prs进行局灶性癫痫的风险分层和辅助诊断的缺陷。
7.为了实现上述目的,本发明提供的一种局灶性癫痫遗传风险评估模型的建立方法,包括以下步骤:
8.(1)选择局灶性癫痫患者及未患病对照人群入组,采集入组人群样本并且对样本进行基因分型,然后基于全部样本分型结果进行质控,确定最终入组样本,建立研究队列,分为训练集和测试集;
9.(2)构建局灶性癫痫遗传风险位点数据库;
10.(3)基于步骤(2)中的局灶性癫痫遗传风险位点数据库,构建包含多变量的局灶性癫痫遗传风险评估模型。
11.优选地,步骤(1)中,所述入组人群样本包括病例组和对照组,所述病例组的入组标准为:依据国际癫痫联盟(ilae)制定的癫痫临床诊疗指南,经两名或以上神经内科医生诊断为局灶性癫痫;年龄大于2岁且小于90岁;无合并精神类并发症;无假性癫痫发作史;无烟酒滥用史;不存在精神性或全身性退行性病变;不与其他入组个体存在亲缘关系;
12.所述对照组的入组标准为:健康无精神类疾病;年龄大于2岁且小于90岁;种族与病例队列保持一致;无合并精神类并发症;无假性癫痫发作史;无烟酒滥用史;不存在精神性或全身性退行性病变;不与其他入组个体存在亲缘关系。
13.进一步地,步骤(1)中,对样本进行基因分型并且对分型结果进行质控,包括以下步骤:
14.a、对所述病例组和所述对照组全部的采集样本进行全基因测序,对原始测序数据质控,进行bwa软件序列比对、比对数据处理、gatk软件进行snp/indel变异检测分析,获取突变vcf文件,其中比对数据处理包括对基因进行排序和去除重复序列;
15.b、应用软件plink对步骤a vcf文件的结果进行数据质控,移除所述病例组和所述对照组中基因分型缺失率高于0.05的个体、高杂合度个体和存在亲缘关系的个体;
16.c、确定所述病例组和所述对照组中的入组样本,建立研究队列,将所有入组样本随机分为训练集和测试集,所述训练集和所述测试集中样本比例为7:3,将训练集和测试集样本基因分型分别合并为存储文件。
17.进一步地,步骤(2)中,使用国际抗癫痫联盟主导的癫痫大型gwas meta分析的summary文件,构建包含多个遗传相关位点信息及效应值的局灶性癫痫遗传风险位点数据库。
18.进一步地,步骤(3)中,构建局灶性癫痫遗传风险评估模型,包括以下步骤:
19.a、基于基因分型,选择模型的特征和统计所述特征的数量,生成所述训练集和所述测试集这两个队列数据集的特征矩阵;
20.b、假设参数多基因遗传风险评分,构建局灶性癫痫遗传风险评估模型并且进行模型训练。
21.本发明提供的一种局灶性癫痫遗传风险评估模型的建立方法,具有如下有益效果:
22.适用于中国人群的局灶性癫痫患病遗传风险评分模型,癫痫是临床表型及病因异质性均较强的疾病,本专利聚焦在遗传诊断率较低且具有较高遗传度的局灶性癫痫,进行遗传风险评估,提供遗传诊断。
附图说明
23.图1为本具体实施方式中局灶性癫痫遗传风险评估模型的建立方法的步骤流程图。
24.图2为本具体实施方式中局灶性癫痫遗传风险评估模型的建立方法的步骤1(3)a中对病例组和对照组全部的采集样本进行全基因测序的分析流程图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施方式对本发明作进一步的详细说明。
26.如图1所示,一种局灶性癫痫遗传风险评估模型的建立方法,包括以下步骤:
27.1、选择局灶性癫痫患者入组,采集患者样本并且对样本进行基因分型。
28.(1)选择局灶性癫痫患者入组,建立研究队列。
29.病例组,入组标准为a、依据国际癫痫联盟(ilae)制定的癫痫临床诊疗指南,经两名或以上神经内科医生诊断为局灶性癫痫;b、年龄大于2岁且小于90岁。排除标准为a、合并精神类并发症;b、假性癫痫发作史;c、烟酒滥用史;d、存在精神性或全身性退行性病变;e、与其他入组个体存在亲缘关系。
30.对照组,入组标准为a、健康无精神类疾病;b、年龄大于2岁且小于90岁;c、种族与病例队列保持一致。排除标准与病例组相同。
31.(2)整理入组对象的信息资料。
32.依据入组人员知情同意原则,对入组对象进行外周血样本采集和基本信息资料整理,选择入组病例组1300例,对照组1400例。
33.(3)基因分型并且对分型结果进行质控,确定最终的入组样本。
34.a、对病例组和对照组全部的采集样本进行全基因测序,对原始测序数据质控,进行bwa(burrow

wheeler aligner)软件序列比对、比对数据处理(排序和去除重复序列clean data等)、gatk软件进行snp/indel变异检测等分析,获取突变vcf文件。分析流程如图2所示。
35.b、应用软件plink 1.9对步骤a的vcf结果进行数据质控,移除基因分型缺失率高于0.05的个体、高杂合度个体和存在亲缘关系的个体。具体步骤如下:
36.基因分型缺失率质控:
37.plink
‑‑
vcf all.vcf.gz
‑‑
make

bed
‑‑
out genotypes
38.plink
‑‑
bfile genotypes
‑‑
geno 0.05
‑‑
make

bed
‑‑
out genotypes
39.移除高杂合度个体:
40.plink
‑‑
bfile genotypes
‑‑
exclude inversion.txt
‑‑
range
‑‑
indep

pairwise 50
41.5 0.2
‑‑
out indepsnp
42.plink
‑‑
bfile genotypes
‑‑
extract indepsnp.prune.in
‑‑
het
‑‑
out r_check
43.rscript
‑‑
no

save check_heterozygosity_rate.r
44.rscript
‑‑
no

save heterozygosity_outliers_list.r
45.sed's/"//g'fail

het

qc.txt|awk'{print$1,$2}'>het_fail_ind.txt
46.plink
‑‑
bfile genotypes
‑‑
remove het_fail_ind.txt
‑‑
make

bed
‑‑
out
47.genotypes
48.移除存在亲缘关系个体:
49.plink
‑‑
bfile genotypes
‑‑
extract indepsnp.prune.in
‑‑
genome
‑‑
min 0.2
50.‑‑
out pihat_min0.2
51.plink
‑‑
bfile genotypes
‑‑
extract indepsnp.prune.in
‑‑
genome
‑‑
min 0.2
52.‑‑
out pihat_min0.2_in_founders
53.plink
‑‑
bfile genotypes
‑‑
missing
54.c、将全部数据集(2247)随机分为训练集(1573),测试集(674),比例为7:3,将训练集和测试集样本基因分型分别合并为vcf存储格式文件。
55.plink
‑‑
bfile genotype
‑‑
export vcf
‑‑
out dataset_vcf
56.2、局灶性癫痫遗传风险位点加权数据库及风险评估模型构建
57.(1)下载国际抗癫痫联盟(the international league against epilepsy consortium on complex epilepsies,ilae consortium on complex epilepsies)主导的癫痫大型gwas meta分析的summary文件,构建包含4,833,539个遗传相关位点信息及效应值的风险位点数据库。构建过程如下:
58.wget http://www.epigad.org/gwas_ilae2018_16loci/focal_epilepsy_metal.gz
59.wget http://www.epigad.org/gwas_ilae2018_16loci/focal_lesion_negative_bolt

lmm_final.gz
60.awk'{if($15<1e

1)print$0}'focal_epilepsy_metal>fe.effect.snp
61.for i in`cat effect.snp`;do grep$i focal_lesion_negative_bolt

lmm_final>>fe.snp.effect.db;done
62.(2)基于上步中风险位点数据库

fe.snp.effect.db构建一个包含多变量的模型,模型的特征为(x1,x2,x3,...,xn)
63.n=4,833,539,代表特征的数量,即共计4,833,539个多态性位点;
64.模型如下:
65.x
i
代表第i个个体,是特征矩阵的第i行,是由4,862,783个特征效应量构成的向量;
66.代表第i个个体第j个特征(即snp基因分型)的效应量;当第i个体j位点分型包含0个拷贝的风险等位基因型时,当第i个体j位点分型包含1个拷贝的风险等位基因型时,当第i个体j位点分型包含2拷贝的风险等位基因型时,
67.因此基于基因分型,生成训练集和测试集这两个数据集的特征矩阵(dataset.risk.matrix),用于之后分析,矩阵格式如下:
68.x0x1x2...xny0.99964771.00072791.0007296...110.999295511.00146...1111.00072791...0.95874250..................
69.y为预测值,y=1,代表患病遗传高风险;y=0,代表患病遗传低风险。
70.(3)模型构建,假设参数prs(polygenic risk score,多基因遗传风险评分)。
71.prs(i)=θ0 θ1x1 θ2x2 ...θ
n
x
n
[0072][0073]
在模型训练过程中,y=1时,h(i)≈1,prs(i)>>0;y=0时,h(i)≈0,prs(i)<<0。模型训练引入逻辑回归代价函数:
[0074][0075]
实现过程如下:
[0076]
对全部2247例样本入组样本进行随机抽样,其中70%样本用于训练,30%样本用于测试。
[0077]
model=svmtrain(trainlabel,traindata,'

s 0

t 0

c 1.2');
[0078]
q=svmpredict(model,trainlabel)
[0079]
p=sv,predict(model,testlabel)
[0080]
training accuracy=mean(double(q==traindata))*100
[0081]
test accuracy=mean(double(p==testdata))*100。
[0082]
因现有大规模gwas研究人群大多为高加索人群,基于此构建的多基因风险评估体系在中国人群中的评估效能普遍较低,本技术建立的局灶性癫痫遗传风险评估模型,适用于中国人群的局灶性癫痫患病遗传风险评分模型,癫痫是临床表型及病因异质性均较强的疾病,本专利聚焦在遗传诊断率较低且具有较高遗传度的局灶性癫痫,进行遗传风险评估,旨在为遗传诊断提供另一种方法。
[0083]
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜