一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一组用于检测最差眼等效球镜的SNP标志物及其应用的制作方法

2022-06-11 13:13:56 来源:中国专利 TAG:

一组用于检测最差眼等效球镜的snp标志物及其应用
技术领域
1.本发明属于生物医学、基因检测技术领域,具体涉及一组用于检测最差眼等效球镜的snp标志物及其应用。


背景技术:

2.眼科疾病是指发生在眼部区域的疾病,常见眼科疾病有近视、散光、白内障、青光眼、中心浆液性视网膜病变、干眼症、交感性眼炎、夜盲症、弱视、沙眼、糖尿病视网膜病变、结膜炎、老花眼、色盲、视网膜色素变性、视网膜中央动脉阻塞、视网膜脱落、远视、针眼、雪盲症、霰粒肿、飞蚊症等。在调节放松的状态下,平行光线经眼球屈光系统后聚焦在视网膜之前,称为近视。
3.屈光度是指屈光不正状态下所产生的度数大小,当屈光度发生时,一般多代表近视、散光、远视或是弱视等临床表现,近视、远视通常为球镜(s),散光为柱镜(c),目前采用等效球镜度数(spherical equivalent refraction,se)评价屈光度,等效球镜度数=球镜度数 散光度数*1/2。屈光度≤-0.50d可作为近视诊断的循证共识阈值。更具体地,近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-0.5d的情况。高度近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-6.00d的情况。低度近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-0.5且》-6.00d的情况。
4.近视作为一种全球高发性疾病近年来受到国内外越来越多的关注,预计到2050年,近视将影响到全球近50%的人口,同时高度近视也将影响到全球近10%的人口。
5.同时,近视也是目前影响我国青少年人群视觉健康的主要眼病,其中高度近视是引起我国眼病患者眼盲和低视力的主要原因之一,将给患者及其家庭带来严重的经济负担。对于孩子视力问题,预防很重要,而早发现、早干预、早治疗,是防止近视度数加深的关键。少年儿童时期的眼病对视力发育危害极大,及早发现和诊断影响视力的非屈光不正性眼病非常重要,许多的眼病如果不能得到及时的发现和治疗,将造成眼睛的终生残疾。虽然通过药物、光学治疗和行为矫正可以部分减缓其加深速度,但我们距离能够逆转过去几十年的趋势还有很长的路要走。这使得近视及其相关并发症成为了研究的重中之重。高度近视的发生涉及多因素复杂过程,发病机制仍不清楚,当下的各种光学矫正手段以及手术治疗方法,如屈光手术和巩膜加固手术,不能从根本上阻止及延缓高度近视眼底病变的发展,可以说目前缺乏行之有效的高度近视的治疗措施。由此可见,寻找更有效的方法对高度近视患者和高危人群进行早期检测、风险预测和早期干预具有重要的临床意义。
6.单核苷酸多态性(single nucleotide polymorphisms,snp)是指在基因组水平上单个碱基的转换、颠换或由碱基的插入、缺失引起核苷酸变异导致的dna序列多态性,是人类可遗传的变异中最常见的一种,占所有已知多态性的80%以上,人群中变异频率高于1%,这也是区别于点突变的一个重要因素。在遗传学分析中,snps具有高频、稳定和易分析等特点。研究发现,snps与近视的发生发展具有较强的关联性。snps检测主要方法有时间飞行质谱(maldi-tofms)技术、荧光定量pcr技术、基因芯片技术、变形高效液相色谱等。
7.随着高通量snp检测技术方法的出现,作为数量最多且易于批量检测的多态标记,snp在连锁分析与基因定位,包括复杂疾病的基因定位、关联分析、个体和群体对环境致病因子与药物的研究中将发挥愈来愈重要的作用。随着技术的发展,snp检测费用也越来越经济,snp标志物将成为新一代分子标记。


技术实现要素:

8.本发明纳入大量6-18岁的受试人群,通过标准操作程序(sop)采集符合标准的口腔黏膜样本,提取dna,对单核苷酸多态性进行分型,筛选寻找到与最差眼等效球镜高度相关的高特异性和敏感性的snp,进一步可研制出相应便于临床应用的试剂盒,为判断受试者最差眼等效球镜提供数据支持,可在眼科问题发生早期进行干预,降低眼科疾病恶化的可能性,提高生活质量。
9.为实现本发明的技术目的,本发明提供以下技术方案:
10.第一方面,本发明提供了一组最差眼等效球镜相关的snp位点组合,所述snp位点组合包含以下任意一组:
11.(1)rs78587889、rs41303763、rs2303221;
12.(2)rs78587889、rs188480146、rs2292661、rs6894260、rs4957836、rs148474510、rs200506987、rs145293869、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs7157977、rs41303763、rs2303221、rs145438063、rs151309111、rs6076122、rs2183573、rs9981301、rs5756223(22个);
13.(3)rs3103778、rs2746342、rs78587889、rs140141416、rs17024525、rs2288182、rs188480146、rs6734083、rs75054661、rs12492484、rs2292661、rs55947930、rs16837029、rs149213974、rs6894260、rs45625534、rs4957836、rs147518598、rs1042044、rs12671595、rs186526946、rs138414411、rs3802064、rs75456709、rs76427362、rs2073793、rs140518317、rs2214098、rs148474510、rs876087、rs200506987、rs8178175、rs145293869、rs200021348_rs552590290、rs16909677、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs34630110、rs141296329、rs117520659、rs3750996、rs3847553、rs142908193、rs1042669、rs12811832、rs78692679、rs11551723、rs7157977、rs3759779、rs3742770、rs530110551、rs3742464、rs3736911、rs11849022、rs77481241、rs3212112、rs9282879、rs55958706、rs3212056、rs114770841、rs3742368、rs563363438、rs2738893、rs1132358、rs41303763、rs2303221、rs145438063、rs151309111、rs139271842、rs533816037、rs305974、rs407731、rs406968、rs388706、rs2302948、rs2547319、rs7258847、rs4815467、rs41275624、rs6057110、rs6076122、rs4911402、rs2183573、rs9981301、rs4624474、rs5756223、rs5845912(90个);
14.(4)rs3795289、rs17033266、rs61785839、rs77649572、rs202140107、rs2275365、rs77275487、rs6676052、rs3103778、rs3014246、rs3014240、rs35016075_rs59669671、rs28375469、rs116861599、rs2746342、rs2457829、rs10889315、rs148811681、rs41305862、rs1410871、rs61729628、rs17553619、rs78587889、rs140141416、rs17024525、rs149097658、rs822441、rs183812847、rs112946310、rs12568050、rs12564283、rs75401237、rs10749643、rs2288182、rs400917、rs201752014、rs75526749、rs17189743、
rs188480146、rs528123098、rs61748134、rs2228184、rs143686122、rs1434087、rs13002576、rs192688643、rs6734083、rs68104327、rs35996697、rs6437368、rs1077827、rs76657333、rs75054661、rs547922447、rs143654927、rs2286786、rs115250058、rs117336796、rs12492484、rs2292661、rs2276740、rs3774765、rs2245278、rs55947930、rs75144949、rs3732755、rs16837029、rs11732898、rs7696197、rs6841898、rs114264770、rs75058604、rs149213974、rs17001890、rs61732380、rs17029087、rs76996680、rs186309103、rs2303710、rs3749692、rs181303223、rs150821721、rs76381196、rs139298086_rs17839482、rs555615570、rs6894260、rs13189822、rs45625534、rs4957836、rs147518598、rs3829986、rs4608967、rs564109、rs150157174、rs2735059、rs4959012、rs757262、rs757259、rs117333063、rs185990098、rs41542812、rs11966699、rs4711571、rs4711572、rs2235868、rs1042044、rs3804502、rs2100375、rs118003870、rs75817012、rs17181352、rs35517174、rs17132399、rs2292498、rs3763384、rs12671595、rs186526946、rs138414411、rs13438494、rs3802064、rs75456709、rs76427362、rs2073793、rs140518317、rs2214098、rs79413133、rs2230156、rs148474510、rs41465145、rs876087、rs200506987、rs537284787、rs8178175、rs55991828、rs12549018、rs34961221、rs78240711、rs139669465、rs11144089、rs117169590、rs145293869、rs200021348_rs552590290、rs16909677、rs117175949、rs10481674、rs41276795、rs141549766、rs147026086、rs188197626、rs7038042、rs11849、rs2275161、rs10781513、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs7079747、rs34630110、rs148582275、rs4745933、rs111835023、rs185249748、rs117768118、rs141296329、rs117520659、rs45498396、rs3750996、rs183484、rs9937、rs2304733、rs147852038、rs139692587、rs10792769、rs2298573、rs4753069、rs3847553、rs2962118、rs142908193、rs1042669、rs11047401、rs12811832、rs11168338、rs2277373、rs1150057、rs1799986、rs1050395、rs78692679、rs3835190、rs201814780、rs11551723、rs7992732、rs7157977、rs10143899、rs3759779、rs7142098、rs118004333、rs3742770、rs3742768、rs3742767、rs143477571、rs530110551、rs3742464、rs3736911、rs11849022、rs77481241、rs3212112、rs9282879、rs55958706、rs3212056、rs34100926、rs114770841、rs3742368、rs4390564、rs72486624、rs7172888、rs563363438、rs12904657、rs4904、rs72546313、rs2745136、rs2738893、rs1054645、rs1132358、rs79763179、rs3743807、rs55969568、rs9941128、rs41303763、rs2303221、rs11859725、rs113276760、rs145438063、rs11550470、rs145797873、rs11556634、rs56126318、rs16954357、rs397718340_rs5819492、rs9899785、rs375644567、rs185576254、rs183898893、rs4986765、rs146684394、rs181969864、rs2242273、rs2170297、rs11081410、rs7233770、rs7235093、rs7236574、rs11659762、rs116067668、rs11538683、rs55646937、rs148018996、rs1143698、rs10412834、rs11260004、rs11882197、rs2288415、rs150461309、rs3746295、rs151309111、rs3810209、rs4808643、rs139271842、rs200222185、rs189120571、rs148003617、rs533816037、rs189041504、rs305968、rs305974、rs407731、rs406968、rs388706、rs2302948、rs182509214、rs198977、rs2547319、rs2547318、rs7258847、rs4815467、rs41275624、rs6057110、rs6076122、rs4911402、rs114985890、rs80158178、rs3746488、rs76747058、rs143199162、rs77432560、
rs116846998、rs2183573、rs1984748、rs9981301、rs4624474、rs2838379、rs4566449、rs915770、rs2870984、rs2073733、rs41281587、rs3747135、rs3747136、rs3747137、rs5756223、rs3747168、rs369859899、rs6006901、rs5845912、rs9628315、rs8137790(317个)。
15.在本发明中,snp(单核苷酸多态性)是指dna中的单个碱基位置,受试者可以是纯合的或杂合的。本发明的snp位点以“rs
‑”
方式命名,本领域技术人员能够根据上文的rs-命名,从适合的数据库和相关的信息系统如单核苷酸多态性数据库(dbsnp)中确定其确切的位置、核苷酸序列。
16.另一方面,本发明还提供了一种检测最差眼等效球镜的试剂盒,所述试剂盒中包括检测前述snp位点组合的试剂。
17.优选地,所述检测snp位点组合的试剂包括但不限于以下方法检测snp时所使用的试剂:taqman探针法、测序法、芯片法、飞行质谱仪(maldi-tofms)检测、限制性片段长度多态性法(pcr-rflp)、单链构象多态性法(pcr-sscp)、等位基因特异性pcr(as-pcr)、snapshot法、snplex法、变性高效液相色谱法(dhplc)、变性梯度凝胶电泳法(dgge)。本领域技术人员可选择任一种或几种方法来检测snp位点,只要可以实现snp位点的检测。
18.在一种实施方式中,所述检测snp位点组合的试剂是扩增前述snp位点组合的引物组和/或探针组。
19.在一种实施方式中,所述试剂盒还可以包括相应pcr技术所需要的常用试剂,如dntps,mgcl2,双蒸水,荧光探针等,这些常用试剂都是本领域技术人员熟知,另外还有标准品和对照(如基因型标准品和空白对照等)。
20.另一方面,本发明提供了使用以上snp位点组合构建检测最差眼等效球镜模型的方法。
21.优选地,所述方法使用的是逻辑回归的方法。
22.优选地,本发明还包括10倍交叉验证的步骤。所述“10倍交叉验证”具体指利用sklearn.model_selection函数,选择0到100中的10个随机数字作为随机种子,分别将样本划分为10组训练集和验证集,进行10倍交叉验证,取10次结果的平均数作为模型结果。
23.另一方面,本发明还提供了一种检测最差眼等效球镜的模型,所述模型根据前述snp位点组合的检测结果判断出受试者当下最差眼等效球镜。
24.优选地,所述模型是经前述方法所构建得到。
25.优选地,所述模型可以是公式、诺莫图、或其他方便受试者操作的方式;根据此模型,可以直接计算得到受试者当下的最差眼等效球镜。
26.优选地,本发明所述受试者是6-18岁的人(青少年)。
27.更具体的,是亚洲地区6-18岁的青少年。
28.另一方面,本发明提供了一种最差眼等效球镜的检测系统,所述检测系统包括使用上述snp位点组合的检测结果判断受试者最差眼等效球镜的计算装置。
29.优选地,所述检测系统还可以包括snp位点的检测装置,例如测序仪等。
30.优选地,所述检测系统还包括数据收集单元:对待受试者进行数据收集,所述数据包括snp数据。
31.优选地,所述检测系统还包括模型创建单元:按照前面所述的构建方法创建近视
诊断模型。
32.优选地,所述检测系统还包括模型优化单元:对所述近视诊断模型进行优化。
33.应当理解,本文使用的“系统”、“装置”、“单元”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
34.所属技术领域的技术人员知道,本发明可以实现为设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“单元”或“系统”。
35.另一方面,本发明提供了检测前述snp位点组合的试剂、上述试剂盒、系统、模型在制备检测最差眼等效球镜的产品中的应用。
36.优选地,所述检测上述snp位点组合的试剂包括但不限于以下方法检测snp时所使用的试剂:taqman探针法、测序法、芯片法、飞行质谱仪(maldi-tofms)检测、限制性片段长度多态性法(pcr-rflp)、单链构象多态性法(pcr-sscp)、等位基因特异性pcr(as-pcr)、snapshot法、snplex法、变性高效液相色谱法(dhplc)、变性梯度凝胶电泳法(dgge)。本领域技术人员可选择任一种或几种方法来检测snp位点,只要可以实现snp位点的检测。
37.具体地,所述试剂包括但不限于引物、探针、芯片等。
38.另一方面,本发明提供了检测最差眼等效球镜的方法,所述方法包括根据本发明所述snp位点组合的检测结果判断受试者最差眼等效球镜的步骤,
39.具体地,所述方法可以包括以下步骤:
40.1)收集受试者样本;
41.本文所用“样本”是指包含来自或衍生自人类患者的核酸(特别是dna)的任何样品,例如来自患者的体液(血液、唾液、尿液等)、活体组织切片、组织和/或废物。因此,组织活体组织切片、粪便、痰液、唾液、血液、淋巴液等可以容易地筛选snp,基本上任何含有适当核酸的目标组织都可以如此。在一个实施方案中,样本是口腔上皮细胞。这些样本通常由患者在知情同意之后通过标准医学实验室方法获取。样品可以为从患者直接取得的形式,或者可以至少部分地加工(纯化)以除去至少一些非核酸材料;
42.优选地,所述样本是口腔拭子(口腔黏膜样本);
43.2)对样本进行snp检测,优选地,所述检测还可以包括提取dna的步骤;
44.3)根据2)的检测结果,判断受试者的最差眼等效球镜。
45.所述判断可以是手动地、自动地、或它们组合地来执行或完成所选任务;可以根据检测结果手动计算结果,或输入前述系统自动地得到计算结果。
46.优选地,本发明所针对的受试者是6岁-18岁人群。所述最差眼等效球镜即两眼中,视力较差的眼的等效球镜。
47.本发明所述“等效球镜(spherical equivalent refraction,se)”等于球镜度数 散光度数*1/2。屈光度≤-0.50d可作为近视诊断的循证共识阈值。更具体地,近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-0.5d的情况。高度近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-6.00d的情况。低度近视的定义是当调节放松时,眼睛的等效球镜屈光不正≤-0.5且》-6.00d的情况。
48.本发明所述snp组合(snp位点组合)亦可理解为一种检测受试者最差眼等效球镜的分子标记,结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明通过用于检测最差眼等效球镜的分子标记物进行视力检测,该分子标记物具有敏感性强、特异性高的特点;基于分子标记物的试剂盒可以对为受试者视力情况及个体化预防、治疗提供依据。
附图说明
49.图1本发明的所筛选到的snp组合在不同阈值下判断最差眼等效球镜时的auc值变化曲线。
具体实施方式
50.下面结合实施例对本发明做进一步的说明,以下所述,仅是对本发明的较佳实施例而已,并非对本发明做其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更为同等变化的等效实施例。凡是未脱离本发明方案内容,依据本发明的技术实质对以下实施例所做的任何简单修改或等同变化,均落在本发明的保护范围内。
51.实施例1样本的收集、测序及数据分析
52.样本的纳入标准:
53.(1)最差眼的等效球镜小于等于-6.00d;
54.(2)年龄6岁-18岁;
55.(3)无其他眼部疾病、先天性遗传病、其他全身性疾病和身体异常;
56.(4)没有眼部手术史;
57.(5)中国人;
58.(6)自愿参加且签署知情同意书。
59.本发明是对2019年-2020年与温州医科大学附属眼视光医院与温州市政府合作开展的温州市全市中小学生近视筛查和干预项目的样本信息进行了整理,召集了符合上述纳入标准的10348(9852
‑‑
8961)样本进行全外显子组的测序,记录他们两眼的球镜(sph)、柱镜(cyl),并计算两眼的等效球镜(se=sph 0.5cyl)。同时,对这10348例高度近视患者进行全外显子组测序,获取全外显子组的snp,通过全外显子组关联分析获取性状相关的snp。
60.具体实验步骤如下:
61.实施例以标准操作程序(sop)采集符合标准的口腔黏膜样本,系统收集并随访符合纳入标准的病人,使用illumina novaseq6000测序系统,对全外显子进行测序,检测全外显子范围的snp,挖掘与高度近视人群等效球镜(se)相关的snp标志物及其组合,并构建预测等效球镜进展风险的模型。
62.1、采集口腔黏膜拭子:样本采集前半小时停止进食和饮水,以保证样本不受污染。采集后的口腔黏膜拭子放入灭菌的1.5ml ep管中,填好送检登记表常温运输到公司交于专业人员进行口腔黏膜拭子基因组dna提取。
63.2、dna提取:使用tianamp swab dna kit从口腔黏膜拭子当中提取得到基因组dna,具体步骤如下:
64.(1)将口腔黏膜拭子转置于2ml离心管中,用剪刀将棉签部分从其杆上剪下,加入
400μl缓冲液ga。
65.(2)加入20μl proteinase k溶液,涡旋10秒混匀,56℃放置60分钟,其间每15分钟涡旋混匀数次。
66.(3)加入400μl缓冲液gb,充分颠倒混匀,70℃放置10分钟。此时溶液应变清亮,简短离心以去除管盖内壁的液滴,然后挤压去除拭子,将尽可能多的裂解液转移至新的离心管中。
67.(4)加入200μl无水乙醇,充分颠倒混匀,简短离心以去除管盖内壁的液滴
68.(5)将上一步所得溶液和絮状沉淀都加入一个吸附柱cr2中(吸附柱cr2放入收集管中),12,000rpm(~13,400
×
g)离心30秒,倒掉收集管中的废液,将吸附柱cr2放回收集管中。
69.(6)向吸附柱cr2中加入500μl缓冲液gb(使用前请先确认是否已加入无水乙醇),12,000rpm(~13,400
×
g)离心30秒,倒掉收集管中的废液,将吸附柱cr2放回收集管中。
70.(7)向吸附柱cr2中加入700μl漂洗液pw(使用前请先确认是否已加入无水乙醇),12,000rpm(~13,400
×
g)离心30秒,倒掉收集管中的废液,将吸附柱cr2放回收集管中。
71.(8)重复操作步骤7。
72.(9)12,000rpm(~13,400
×
g)离心2分钟,倒掉废液,将吸附柱cr2室温放置数分钟,以彻底晾干吸附材料中残余的漂洗液。
73.(10)将吸附柱cr2转入一个干净的离心管中,向吸附膜中间位置悬空滴加20-50μl洗脱缓冲液tb,室温放置2-5分钟,12,000rpm(~13,400
×
g)离心2分钟。
74.(11)使用琼脂糖凝胶电泳和紫外分光光度计检测dna片段的浓度与纯度。dna在od260处有显著吸收峰,od260值为1相当于50μg/ml双链dna、40μg/ml单链dna。纯度(od 260/280)在1.7-1.9。单个样本通常可以得到0.5-3.5μg的dna。
75.3、构建预文库:使用酶学方法将50ng基因组dna打断为200bp左右的小片段,之后进行末端修复和3’端加a操作,随后dna片段连接含barcode序列的测序接头,选择回收约320bp的片段,经过pcr扩增后获得预文库。
76.4、液相杂交捕获操作:参照idt的xgen exome research panel v1.0(integrated dna technologies,san diego,usa)的标准流程,对预文库进行液相杂交捕获操作。
77.5、获得外显子文库:捕获产物洗脱回收后,进行pcr扩增和纯化即获得外显子文库。文库用qpcr方法进行定量,并使用agilent 2100对条带大小做检测。
78.6、illumina novaseq6000测序:使用illumina novaseq6000测序系统,对外显子文库进行150pe测序,原始图像使用casava v1.82软件进行碱基识别,生产原始测序数据。
79.7、比对人类参考基因组:使用burrows-wheeler aligner(bwa)工具将测序片段比对到人类参考基因组(ucsc hg19),使用picard v1.57去除pcr重复序列。采用软件gatk进行变异检测,并对测序深度、覆盖深度及均一性等进行统计。
80.8、数据质量控制
81.对于样本:删除口腔拭子取样量不足,检出率小于90%,平均覆盖度小于10,平均基因型存在概率小于65%,基因型杂合率平均值偏离
±
4标准差(sd),染色体异常、性别异常,具有亲缘关系和非东亚人群的样本。对于snp:将未通过vqsr质量控制的全外显子组检测结果,基因型检出率小于90%,哈代温伯格p值小于1e-06,变异allele数目(ac)为0的
snp。
82.9、统计分析方法
83.通过snptest中的贝叶斯检验(bayesian tests)开展高度近视全外显子组数量性状研究,鉴定潜在的与高度近视临床状态显著相关的snp和基因。数量性状的bayesian tests是通过使用期望基因型(-method expected)的线性模型的共轭先验公式进行的。对于加性模型,公式为:
84.yi=βgi ei,ei~n(0,σ2)。
85.其中yi是第i个个体的残差表型。残差表型是通过减去一个基线项和估计任何指定的协变量来计算的。gi为第i个个体的预期基因型的加性编码,野生纯合型=“0”,杂合型=“1”,突变纯合型=“2”。
86.σ2是模型的误差方差。并且σ2~ig(a,β),β~n(m
β
,v
β
σ2),默认的a=3,β=2,m
β
=0,v
β
=0.02。将年龄和性别作为协变量进行校正。
87.实验结果
88.1、snps选择:
89.利用snptest获取了8961个高度近视样本中共89095个常见变异与数量性状最差眼等效球镜的全基因组关联关系。
90.通过4种阈值分别筛选snps进行建模:log10(bf)》3;log10(bf)》2;log10(bf)》1.5;log10(bf)》1,共获得317个snps。
91.2、原始snps基因型谱获取:
92.利用python提取vcf中对应所需snps(共317个snps),选择加性模型(未突变设置为0,突变一个等位为1,突变两个等位为2),获取原始的snp基因型谱。
93.3、snps基因型谱补缺失:
94.计算原始snps基因型谱中每个样本中snps的缺失数目,如果缺失》5%(n_缺失/n_allsamples),去除对应的样本。对于缺失情况《5%的样本,利用人工神经网络进行补缺失。
95.人工神经网络共三层,包括输入层,隐藏层以及输出层:输入层节点数为len(label_data),也就是完全没有缺失的snp;隐藏层设置20个节点;输出层设置3个节点;设置学习率为0.003,训练迭代次数设置为20次。
96.4、分类模型:logistic regression
97.1)根据数量性状最差眼等效球镜,取不同阈值,分别建立模型,并考察auc值,取auc最大的模型的阈值作为最终分类模型的阈值。
98.规则如下:
99.①
遍历最差眼等效球镜的所有值,分别作为阈值将样本分为两组;
100.②
每组样本数量不得少于100
101.2)利用逻辑回归对样本进行分类,参数如下:
102.logisticregression(c=100,class_weight='balanced',dual=false,fit_intercept=true,intercept_scaling=1,max_iter=10,multi_class='ovr',n_jobs=1,penalty='l1',random_state=0,solver='liblinear',tol=0.0001,verbose=0,warm_start=false)
103.尽管它的名字是逻辑回归,但它是一种用于分类而不是回归的线性模型。
104.逻辑回归默认情况下会应用正则化。这才机器学习中很常见,其一个优点就是提高了数值的稳定性,没有正则化相当于把c设置为非常高的值。
105.作为一个优化问题,二进制类l2惩罚逻辑回归最小化以下成本函数:
[0106][0107]
相似的,l1正则化逻辑回归解决以下优化问题:
[0108][0109]
利用sklearn.model_selection函数,选择0到100中的10个随机数字作为随机种子,分别将样本划分为10组训练集和验证集,进行10倍交叉验证,取10次结果的平均数作为模型结果,以保证模型的客观性。
[0110]
各模型的cutoff值及其auc值如下:
[0111]
表1、各模型在不同cutoff值下的auc变化
[0112]
[0113][0114]
以logbf》3为标准筛选到的snp是以下3个:
[0115]
rs78587889、rs41303763、rs2303221。
[0116]
以logbf》2为标准筛选到的snp是以下22个:
[0117]
rs78587889、rs188480146、rs2292661、rs6894260、rs4957836、rs148474510、rs200506987、rs145293869、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs7157977、rs41303763、rs2303221、rs145438063、rs151309111、rs6076122、rs2183573、
rs9981301、rs5756223。
[0118]
以logbf》1.5为标准筛选到的snp是以下90个:
[0119]
rs3103778、rs2746342、rs78587889、rs140141416、rs17024525、rs2288182、rs188480146、rs6734083、rs75054661、rs12492484、rs2292661、rs55947930、rs16837029、rs149213974、rs6894260、rs45625534、rs4957836、rs147518598、rs1042044、rs12671595、rs186526946、rs138414411、rs3802064、rs75456709、rs76427362、rs2073793、rs140518317、rs2214098、rs148474510、rs876087、rs200506987、rs8178175、rs145293869、rs200021348_rs552590290、rs16909677、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs34630110、rs141296329、rs117520659、rs3750996、rs3847553、rs142908193、rs1042669、rs12811832、rs78692679、rs11551723、rs7157977、rs3759779、rs3742770、rs530110551、rs3742464、rs3736911、rs11849022、rs77481241、rs3212112、rs9282879、rs55958706、rs3212056、rs114770841、rs3742368、rs563363438、rs2738893、rs1132358、rs41303763、rs2303221、rs145438063、rs151309111、rs139271842、rs533816037、rs305974、rs407731、rs406968、rs388706、rs2302948、rs2547319、rs7258847、rs4815467、rs41275624、rs6057110、rs6076122、rs4911402、rs2183573、rs9981301、rs4624474、rs5756223、rs5845912。
[0120]
以logbf》1为标准筛选到的snp是以下317个:
[0121]
rs3795289、rs17033266、rs61785839、rs77649572、rs202140107、rs2275365、rs77275487、rs6676052、rs3103778、rs3014246、rs3014240、rs35016075_rs59669671、rs28375469、rs116861599、rs2746342、rs2457829、rs10889315、rs148811681、rs41305862、rs1410871、rs61729628、rs17553619、rs78587889、rs140141416、rs17024525、rs149097658、rs822441、rs183812847、rs112946310、rs12568050、rs12564283、rs75401237、rs10749643、rs2288182、rs400917、rs201752014、rs75526749、rs17189743、rs188480146、rs528123098、rs61748134、rs2228184、rs143686122、rs1434087、rs13002576、rs192688643、rs6734083、rs68104327、rs35996697、rs6437368、rs1077827、rs76657333、rs75054661、rs547922447、rs143654927、rs2286786、rs115250058、rs117336796、rs12492484、rs2292661、rs2276740、rs3774765、rs2245278、rs55947930、rs75144949、rs3732755、rs16837029、rs11732898、rs7696197、rs6841898、rs114264770、rs75058604、rs149213974、rs17001890、rs61732380、rs17029087、rs76996680、rs186309103、rs2303710、rs3749692、rs181303223、rs150821721、rs76381196、rs139298086_rs17839482、rs555615570、rs6894260、rs13189822、rs45625534、rs4957836、rs147518598、rs3829986、rs4608967、rs564109、rs150157174、rs2735059、rs4959012、rs757262、rs757259、rs117333063、rs185990098、rs41542812、rs11966699、rs4711571、rs4711572、rs2235868、rs1042044、rs3804502、rs2100375、rs118003870、rs75817012、rs17181352、rs35517174、rs17132399、rs2292498、rs3763384、rs12671595、rs186526946、rs138414411、rs13438494、rs3802064、rs75456709、rs76427362、rs2073793、rs140518317、rs2214098、rs79413133、rs2230156、rs148474510、rs41465145、rs876087、rs200506987、rs537284787、rs8178175、rs55991828、rs12549018、rs34961221、rs78240711、rs139669465、rs11144089、rs117169590、rs145293869、rs200021348_rs552590290、
rs16909677、rs117175949、rs10481674、rs41276795、rs141549766、rs147026086、rs188197626、rs7038042、rs11849、rs2275161、rs10781513、rs2248077、rs2811736、rs2297722、rs2297723、rs9987876、rs7079747、rs34630110、rs148582275、rs4745933、rs111835023、rs185249748、rs117768118、rs141296329、rs117520659、rs45498396、rs3750996、rs183484、rs9937、rs2304733、rs147852038、rs139692587、rs10792769、rs2298573、rs4753069、rs3847553、rs2962118、rs142908193、rs1042669、rs11047401、rs12811832、rs11168338、rs2277373、rs1150057、rs1799986、rs1050395、rs78692679、rs3835190、rs201814780、rs11551723、rs7992732、rs7157977、rs10143899、rs3759779、rs7142098、rs118004333、rs3742770、rs3742768、rs3742767、rs143477571、rs530110551、rs3742464、rs3736911、rs11849022、rs77481241、rs3212112、rs9282879、rs55958706、rs3212056、rs34100926、rs114770841、rs3742368、rs4390564、rs72486624、rs7172888、rs563363438、rs12904657、rs4904、rs72546313、rs2745136、rs2738893、rs1054645、rs1132358、rs79763179、rs3743807、rs55969568、rs9941128、rs41303763、rs2303221、rs11859725、rs113276760、rs145438063、rs11550470、rs145797873、rs11556634、rs56126318、rs16954357、rs397718340_rs5819492、rs9899785、rs375644567、rs185576254、rs183898893、rs4986765、rs146684394、rs181969864、rs2242273、rs2170297、rs11081410、rs7233770、rs7235093、rs7236574、rs11659762、rs116067668、rs11538683、rs55646937、rs148018996、rs1143698、rs10412834、rs11260004、rs11882197、rs2288415、rs150461309、rs3746295、rs151309111、rs3810209、rs4808643、rs139271842、rs200222185、rs189120571、rs148003617、rs533816037、rs189041504、rs305968、rs305974、rs407731、rs406968、rs388706、rs2302948、rs182509214、rs198977、rs2547319、rs2547318、rs7258847、rs4815467、rs41275624、rs6057110、rs6076122、rs4911402、rs114985890、rs80158178、rs3746488、rs76747058、rs143199162、rs77432560、rs116846998、rs2183573、rs1984748、rs9981301、rs4624474、rs2838379、rs4566449、rs915770、rs2870984、rs2073733、rs41281587、rs3747135、rs3747136、rs3747137、rs5756223、rs3747168、rs369859899、rs6006901、rs5845912、rs9628315、rs8137790。
[0122]
再将以上模型进行优化,筛选最佳阈值(cutoff)及比绘制roc曲线(如表2、图1所示)
[0123]
表2、各模型最佳阈值及其auc值
[0124]
模型阈值aucsnp数量模型1-11.3750.59以logbf》3为标准筛选到的3个模型2-11.8750.66以logbf》2为标准筛选到的22个模型3-11.50.77以logbf》1.5为标准筛选到的90个模型4-11.50.79以logbf》1为标准筛选到的317个
[0125]
也即,使用以logbf》3为标准筛选到的3个snp位点为标志物时,可有效判断受试者的最差眼等效球镜是否在-11.375之上;
[0126]
以logbf》2为标准筛选到的22个为标志物时,可有效判断受试者的最差眼等效球镜是否在-11.875之上;
[0127]
以logbf》1.5为标准筛选到的90个为标志物时,就可有效判断受试者的最差眼等
效球镜是否在-11.5之上;
[0128]
以logbf》1为标准筛选到的317个为标志物时,就可有效判断受试者的最差眼等效球镜是否在-11.5之上。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献