一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于人类表型特征的疾病排序方法和致病基因排序方法与流程

2022-07-10 15:13:18 来源:中国专利 TAG:


1.本发明属于生物信息技术领域,尤其涉及一种基于患者表型特征的疾病和致病基因排序方法。


背景技术:

2.人类表型标准用语集(human phenotype ontology,hpo)是描述人类疾病表型特征的标准词语集,其中每个术语描述一种异常表型。其中phenotype指表型,是生物体外在表现出来的形态与功能特征,是基因和环境共同作用的结果。hpo是基于从医学文献orphanet,decipher和omim数据库获得的信息进行开发,目前已经包含约11,000多项名词(仍在扩充)和115,000余项关于遗传性疾病的注释。此外,hpo数据库还提供了一套针对4000多种疾病的注释(annotations),并且仍然在不断完善中。
3.表型学是连接基因与疾病的重要纽带,通过表型来预测致病基因和疾病是生物医学领域一项具有应用价值的研究内容,可以帮助推荐可能出现的疾病,进一步推荐可能的致病基因,还可以帮助研究人员寻找疾病与特定表型之间的关系。
4.目前,在患者表型特征信息的利用方面,出现了一系列加快评估致病基因的自动基因排序工具,如phrank,phenolyzer等,这些工具以人类表型标准用语作为输入。phrank对每个由患者候选基因引起的疾病进行评分,以评估其解释患者表型特征的能力。评分越高,则认为基因或疾病可以更好地解释所提供的患者表型特征。phenolyzer将用户提供的疾病或表型术语解释为相关的疾病名称,用于查询预编译的数据库以查找和评分相关的种子基因。然后,通过种子基因排序和基因-基因关系,将这些不同类型的分数进行整合,生成排序后的候选基因列表,并进行详细解释。


技术实现要素:

5.本发明的目的是提供一种基于患者表型和疾病表型的疾病排序及致病基因排序的推荐方法,旨在解决或者至少部分解决上述背景技术存在的不足。通过本发明的方法计算患者表型特征与人类表型标准用语集(hpo)的相似度,获得了一种准确率和效率更高的疾病排序及致病基因排序的推荐方法。
6.本发明的一种实施例提供一种基于患者表型特征的疾病排序的推荐方法,包括:提供患者表型特征,计算患者表型特征与每个疾病的人类表型标准用语的相似度,按照相似度的高低得出疾病排序。
7.具体地,提供一种基于患者表型特征的疾病排序方法,包括:
8.提供患者表型特征集(集合a),提供多种疾病的人类表型标准用语集(集合bn);
9.计算患者表型特征集(集合a)与每种疾病的人类表型标准用语集(集合bm)的相似度:首先,分别计算集合a中的每一个hpoi和集合bm中的每一个mhpoj的相似度,即第一相似度;对于每一个hpoi,确定集合bm中第一相似度最高的一个mhpoj与该hpoi为关联组;对i个关联组的第一相似度计算平均值,得到集合a与集合bm的相似度,即第二相似度;
10.按照第二相似度的高低得出该患者表型特征集(集合a)对应的疾病排序。
11.在计算集合a中的每一个hpoi和集合bm中的每一个mhpoj的相似度(即第一相似度,similar)时,包括获得基于n-gram的语义相似度simi(n-gram)和根据点互信息得到的相关性pmi,然后采用式(1)、式(2)或式(3)计算得到:
12.similar=(simi(n-gram) pmi_disease)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
13.similar=(simi(n-gram) pmi_gene)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
14.similar=(simi(n-gram) pmi_gen pmi_disease)/3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
15.其中,simi(n-gram)为基于n-gram的语义相似度,pmi_disease为根据疾病和人类表型标准用语关系信息计算的相关性,pmi_gene为根据基因和人类表型标准用语关系信息计算的相关性。
16.在计算所述语义相似度simi(n-gram)时,采用如下公式计算:
[0017][0018]
其中,wn为不同长度gram的权重,pn为不同长度gram匹配的准确率。
[0019]
上述pn采用如下公式计算:
[0020][0021]
其中,c表示所有n-gram的集合,ngram表示n-gram集合中的一个,表示该ngram在患者症状对应的人类表型标准用语中的出现次数,表示该ngram在疾病对应的人类表型标准用语中出现的次数,最终计数取两者中较小的值。
[0022]
在计算所述相关性pmi时,采用如下公式计算:
[0023][0024]
其中,x和y为两个不同的hpoi,p(x)和p(y)为两个不同的hpoi分别在所有疾病中出现的概率,p(x,y)为两个不同的hpoi同时出现在一个疾病中的概率。
[0025]
本发明的另一种实施例提供一种致病基因排序方法,包括:
[0026]
根据上述疾病排序方法,获得患者表型特征集(集合a)对应的疾病排序;然后根据疾病和致病基因的对应关系,由疾病排序得到致病基因排序。
[0027]
本发明可以根据患者的一组人类表型标准用语得到其有可能患有的疾病及其致病基因的排序,准确率和效率更高。
具体实施方式
[0028]
下面结合实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0029]
本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等(如果
存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0030]
本发明的一种实施例提供一种基于患者表型特征的疾病排序的推荐方法,包括:提供患者表型特征,计算患者表型特征与每个疾病的人类表型标准用语的相似度,按照相似度的高低得出疾病排序。
[0031]
具体地,提供一种基于患者表型特征的疾病排序方法,包括:
[0032]
提供患者表型特征集(集合a),提供多种疾病的人类表型标准用语集(集合bn);
[0033]
计算患者表型特征集(集合a)与每种疾病的人类表型标准用语集(集合bm)的相似度:首先,分别计算集合a中的每一个hpoi和集合bm中的每一个mhpoj的相似度,即第一相似度;对于每一个hpoi,确定集合bm中第一相似度最高的一个mhpoj与该hpoi为关联组;对i个关联组的第一相似度计算平均值,得到集合a与集合bm的相似度,即第二相似度;
[0034]
按照第二相似度的高低得出该患者表型特征集(集合a)对应的疾病排序。
[0035]
对于患者而言,其本身可能会有多种症状,这些症状会分别对应不同的人类表型标准用语,而每种疾病也会对应多个人类表型标准用语,通过计算患者症状所对应的一组人类表型标准用语与每种疾病的一组人类表型标准用语的相似度,可以得出患者可能患有的疾病的排序。患者症状和每种疾病都对应多个人类表型标准用语,计算患者症状所对应的一组人类表型标准用语(即患者表型特征)与多种疾病的每一组人类表型标准用语(即疾病的人类表型标准用语)的相似度时,定义患者症状所对应的一组人类表型标准用语为患者表型特征集,即集合a,集合a中包含i个hpo i(hpo i表示患者症状所对应的i个人类表型标准用语,i可以取值从1到i)。对于每种疾病的人类表型标准用语集用集合bm表示,m表示第m种疾病,即集合bm表示第m种疾病的一组人类表型标准用语,集合b中包含j个mhpo j(表示第m种疾病对应的j个人类表型标准用语,j可以取值从1到j)。
[0036]
为了计算出m种疾病中每一种疾病的一组mhpo j和一组hpo i之间的相似度(即第二相似度),首先需要计算集合a中的每一个hpoi和集合bm中的每一个mhpoj的相似度,即第一相似度。对于患者的每一个hpoi,和疾病的每一个mhpoj计算相似度;对于每一个hpoi,取集合bm中第一相似度最大的一个mhpoj与该hpoi进行关联并形成关联组。按照上述关联关系,不同的hpoi可能关联到同样的mhpo j。最后,对i个关联组的第一相似度计算平均值,得到集合a与集合bm的相似度,即第二相似度。
[0037]
在计算集合a中的每一个hpoi和集合bm中的每一个mhpoj的相似度(即第一相似度,similar)时,包括获得基于n-gram的语义相似度simi(n-gram)和根据点互信息得到的相关性pmi两部分,然后采用式(1)、式(2)或式(3)计算得到第一相似度similar:
[0038]
similar=(simi(n-gram) pmi_disease)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0039]
similar=(simi(n-gram) pmi_gene)/2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0040]
similar=(simi(n-gram) pmi_gene pmi_disease)/3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0041]
其中,simi(n-gram)为基于n-gram的语义相似度,pmi_disease为根据疾病和人类表型标准用语关系信息计算的相关性,pmi_gene为根据基因和人类表型标准用语关系信息计算的相关性。
[0042]
语义相似度部分采用n-gram匹配方法,找出集合a中的每一个hpoi和集合bm中的每一个mhpoj中相同的n-gram,再计算相同n-gram在总n-gram中所占的比例。n-gram的思想是按照字节流对文本进行大小为n的滑动窗口操作,将原hpo切分为长度为n的片段序列,每
个片段被称为n-gram。
[0043]
计算所述语义相似度simi(n-gram)时,采用如下公式计算:
[0044][0045]
其中,wn为不同长度gram的权重,pn为不同长度gram匹配的准确率。
[0046]
限制每一个hpoi和每一个mhpoj中n-gram的匹配是一对一的,即每一个患者症状对应的人类表型标准用语中的一个n-gram与每个疾病对应的人类表型标准用语中的一个n-gram匹配后,限制患者症状中的该人类表型标准用语不能再与每个疾病对应人类表型标准用语中的其他n-gram匹配,反之亦然。
[0047]
上述pn采用如下公式计算:
[0048][0049]
其中,c表示所有n-gram的集合,ngram表示n-gram集合中的一个,表示该ngram在患者症状对应的人类表型标准用语中的出现次数,表示该ngram在疾病对应的人类表型标准用语中出现的次数,最终计数取两者中较小的值。
[0050]
由于人类表型标准用语内容比较短,本发明的实施例中n取值2,即只计算1gram和2gram。在另一些可实现的方式中,n也可以取3、4等其它值。
[0051]
计算所述相关性pmi时,采用如下公式计算:
[0052][0053]
其中,x和y为两个不同的hpoi,p(x)和p(y)为两个不同的hpoi分别在所有疾病中出现的概率,p(x,y)为两个不同的hpoi同时出现在一个疾病中的概率。
[0054]
比如,把p(x)、p(y)理解为hpo1、hpo2分别在所有疾病中出现的概率,p(x,y)为hpo1和hpo2同时出现在一个疾病中的概率。因此,可得
[0055][0056]
pmi(hpo1:hpo2)
disease
值越大,代表两个人类表型标准用语的相关性越大,越可能出现的同一个疾病中。类似的,可以根据人类表型标准用语在不同基因中出现的情况,得到pmi(hpo1;hpo2)
gene

[0057]
本发明的另一种实施例提供一种致病基因排序方法,包括:
[0058]
根据上述疾病排序方法,获得患者表型特征集(集合a)对应的疾病排序;然后根据
疾病和致病基因的对应关系,由疾病排序得到致病基因排序。
[0059]
以下结合一具体实施例作进一步详细描述。
[0060]
首先,提供某患者的一组人类表型标准用语hpo i(i取值为1,2,3
……
i,本实施例中i为4),如表1所示。
[0061]
表1、患者的人类表型标准用语
[0062]
hpo1hp:0001250hpo2hp:0011344hpo3hp:0001999hpo4hp:0000717
[0063]
提供多种疾病的人类表型标准用语mhpo j(m表示第m种疾病,m可以取值为1,2,3
……
m;j表示第m种疾病的包含j个人类表型标准用语,j可以取值为1,2,3
……
j;),具体如表2所示。
[0064]
表2、疾病的人类表型标准用语
[0065]
[0066][0067]
根据患者的人类表型标准用语及疾病的人类表型标准用语,可以按前述方式进行相似度计算。经过相似度计算后,可以得到疾病的排序:
[0068]
表3、疾病排序
[0069]
患者编号排序疾病编号概率20000027112098000.920000027122535900.56120000027133008520.55520000027143009230.55220000027153008020.515
……………………
[0070]
然后根据基因与致病疾病的对应关系,
[0071]
表4、致病基因与疾病的对应关系
[0072]
致病基因疾病编号
isg15616126agrn615120tnfrsf4615593b3galt6609465b3galt6271640chd8615032
…………
[0073]
最终得出致病基因排序。
[0074]
表5、基因排序
[0075]
患者编号排序致病基因概率2000002711chd80.92000002712tmlhe0.8822000002713chd20.8192000002714kmt2c0.7772000002715arf10.747
……………………
[0076]
本发明可以根据患者的一组人类表型标准用语得到其有可能患有的疾病及其致病基因的排序,准确率和效率更高。
[0077]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献