一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于获取和处理基因组信息以产生基因变体解释的筛选系统和方法与流程

2022-11-14 00:30:04 来源:中国专利 TAG:


1.本公开一般涉及与获取基因组数据和分析所获取的基因组数据有关的技术,例如以减少数据中存在的随机误差并提供数据的解释;更具体地说,涉及用于处理获取的基因组信息以提供相应基因变体解释的筛选系统和方法。


背景技术:

2.医学和计算技术的进步使生物样品的基因组测序和相应获得的测序基因组数据的分析得以实施。从生物样品中分离的遗传物质的分析涉及许多复杂的湿实验室(体外)和计算机模拟过程的组合,其中这些过程从获取给定个体的生物样品开始。当代测序技术,例如下一代测序(ngs),能够通过将长dna分子转化为更小的片段分子,以扩增形式对所述片段分子进行测序以生成对应的片段序列,并且然后将所述片段序列拼接在一起以生成长dna分子的dna读段来对长dna分子进行测序。然而,上述这些当代测序技术容易出现随机错误。
3.目前,由于当前技术、系统和方法的低效和不准确,患者的基因组数据分析存在大量不确定性。在当前用于执行基因组数据分析和解释的技术、系统和方法中,可能存在导致这种效率低下和不准确的若干技术问题。这种低效率和不准确的两个主要问题是数据错误(例如输入数据中的随机失真或噪声),以及输入数据本身的性质。此外,即使在dna读段中确定了遗传变异,在试图将遗传变异分类为良性(即无害)或致病(即导致给定病症)时,由于缺少信息、不清楚或相互冲突的信息,也会出现随机不确定性。
4.此外,数据质量对于任何涉及数据分析的任务都至关重要,尤其是在机器学习和知识发现领域,在这些领域需要处理大量固有地复杂的人类基因组数据。通常,用于dna测序的聚合酶链式反应(pcr)等技术经常会出现各种错误和模糊性,并且dna测序数据可能包含随机失真。此外,最近已经开发了几种计算工具,用于基因组数据分析和解释以获得见解。特别地,此类计算工具通常采用机器学习算法和人工智能模型来解释dna相关数据。然而,这样的计算工具需要使用标记和/或未标记的训练数据进行广泛的训练,以训练机器学习算法,这是一个耗时且资源密集的过程。此外,当与受试者的先前输入相关的新输入被馈送到此类传统人工智能或预测模型中时,此类传统人工智能模型(即预测模型)会经历完全再训练,这是不期望的。例如,与受试者相关的许多诊断测试结果和其他信息通常不能同时获得,并且通常随着和当进行此类诊断测试时以及当与患者相关的附加数据可用时达到。因此,在这种情况下,再训练不仅会在评估与受试者相关的基因组数据时产生时间滞后,而且还会增加基因组解释的不确定性,并带来相关的误解风险。例如,在对给定患者的血液样品进行测序和几年后可能会发现新的相关科学信息之间可能会出现时间滞后;例如,新的相关科学信息涉及特定基因在表达时做什么。由于时间滞后,给定患者的医疗记录可能会被标记为“未解决”,并且稍后当更多信息可用时不会重新访问给定患者的记录。
5.因此,鉴于上述讨论,需要克服与处理、分析或解释基因组数据的常规方法相关的
上述缺陷,以减少数据错误和随机噪声的影响。


技术实现要素:

6.本公开寻求提供一种用于处理基因组信息以进行基因变体解释的筛选系统。本公开还寻求提供一种用于处理基因组信息以提供基因变体解释的筛选方法。本公开寻求提供对与来自不同来源的基因组序列相关的数据中的随机失真或噪声的现有问题的解决方案,这些问题导致给定受试者的不连贯的基因变体解释。本公开的目的是提供一种至少部分地克服现有技术中遇到的问题的解决方案,并提供一种筛选系统,该系统有效地消除或至少减少从与基因组序列相关的各种来源采集的数据中的随机失真或噪声的影响,以实现对其进行更准确和连贯的分析。
7.在一个方面,本公开提供了一种筛选系统,其包括:
[0008]-控制电路,当操作时其:
[0009]-接收来自已经在测序装置中测序的受试者的至少一个生物样品的多个基因组片段的多个基因组序列,其中所述多个基因组序列包括随机误差和随机失真;
[0010]-将多个基因组序列与参考基因组比对以从比对的基因组序列生成代表受试者的编译基因组;
[0011]-基于参考基因组和代表受试者的编译基因组之间的差异,确定相对于参考基因组存在于代表受试者的编译基因组中的一种或多种基因变体,
[0012]-从对受试者的观察中获取表型信息,
[0013]
其特征在于所述控制电路进一步:
[0014]-生成多维数据结构,其包括:
[0015]-关于第一维度的所述一个或多个基因变体;
[0016]-关于第二维度的所述表型信息;和
[0017]-关于第三维度的一组数据样品,其中该组数据样品包括受试者的所述一个或多个基因变体及其相应的表型信息,以及其他受试者的相应历史数据样品,包括他们的一个或多个基因变体及其相应的生物学(例如,转录本(例如,表型))信息;
[0018]-使用相关性函数执行基因变体解释,以基于生成的多维数据结构识别一个或多个表型-基因变体关系,其中使用多维数据结构降低了基因变体解释受随机误差和随机失真影响的易感性。
[0019]
另一方面,本发明实施例提供了一种操作筛选系统的筛选方法(即操作筛选系统的方法),其特征在于所述方法包括:
[0020]
(i)使用控制电路接收来自已经在测序装置中测序的受试者的至少一个生物样品的多个基因组片段的多个基因组序列,其中所述多个基因组序列包括随机误差和随机失真;
[0021]
(ii)将多个基因组序列与参考基因组比对以从比对的基因组序列生成代表受试者的编译基因组;
[0022]
(iii)基于参考基因组和代表受试者的编译基因组之间的差异,确定相对于参考基因组存在于代表受试者的编译基因组中的一种或多种基因变体;
[0023]
(iv)从对受试者的观察中获取表型信息;
[0024]
(v)生成多维数据结构,其包括:
[0025]-关于第一维度的所述一个或多个基因变体;
[0026]-关于第二维度的所述表型信息;和
[0027]-关于第三维度的一组数据样品,其中该组数据样品包括代表受试者的所述一个或多个基因变体及其相应的表型信息,以及其他受试者的相应历史数据样品,包括他们的一个或多个基因变体及其相应的生物学(例如,表型)信息;
[0028]
(vi)使用相关性函数执行基因变体解释,以基于生成的多维数据结构发现一个或多个表型-基因变体关系,其中使用多维数据结构降低了基因变体解释受随机误差和随机失真影响的易感性。
[0029]
又另一方面,本公开的实施例提供了一种计算机程序产品,其包括其上存储有计算机可读指令的非暂时性计算机可读存储介质,所述计算机可读指令可由包括处理硬件的计算机化装置执行以上述方法。
[0030]
本公开的实施例基本上消除或至少部分解决了现有技术中的上述问题,并且能够生成第一多维数据结构以减少随机误差,提高基因变体解释的准确性,并减少提供协助医疗保健专业人员的决策支持的不确定性。
[0031]
本公开的另外的方面、优点、特征和目的将从附图和结合下面所附权利要求解释的说明性实施例的详细描述中变得显而易见。
[0032]
应当理解,本公开的特征易于以各种组合进行结合,而不背离由所附权利要求限定的本公开的范围。
附图说明
[0033]
当结合附图阅读时,将更好理解以上发明内容以及以下说明性实施例的具体描述。出于说明本公开的目的,在附图中示出了本公开的示例性构造。然而,本公开不限于本文所公开的具体方法和工具。此外,本领域的技术人员将理解附图并不是按比例绘制的。在可能的情况下,相似的元件已用相同的数字指示。
[0034]
现在将通过举例并且参考以下图来描述本公开的实施例,其中:
[0035]
图1是示出根据本公开的实施例的筛选系统的网络环境的框图;
[0036]
图1b是示出根据本公开的另一示例性实施例的筛选系统的网络环境的框图;
[0037]
图3是根据本公开的示例性实施例的用于实施用于处理基因组信息以产生基因变体解释的筛选系统的示例性场景的图示;
[0038]
图4是根据本公开的实施例的与筛选系统相关联的概率性地描绘表型-变异关系的矩阵的示意图;和
[0039]
图5是描绘根据本公开的实施例的用于处理基因组信息以产生基因变体解释的筛选方法的步骤的流程图。
[0040]
在附图中,带下划线的数字用来表示带下划线的数字所定位的项或与所述带下划线的数字相邻的项。未加下划线的数字涉及通过线所标识的项,所述线将未加下划线的数字与项连接。当数字未加下划线并带有相关联的箭头时,未加下划线的数字将用于标识箭头所指向的常规项。
具体实施方式
[0041]
以下详细描述说明了本公开的实施例以及可以实施所述实施例的方式。尽管已经公开了执行本公开的一些模式,但是本领域技术人员将认识到用于执行或实践本公开的其它实施例也是可能的。本公开的各种实施例提供了用于处理基因组信息以产生基因变体解释的系统和方法。
[0042]
在已知的常规系统和方法中,存在两个主要问题,即:
[0043]
(i)数据错误(例如输入数据中的随机失真或噪声);和
[0044]
(ii)设计和处理输入数据的方式,其导致基因变体的不准确性和误解。
[0045]
其他次要问题包括,因为以及当与受试者相关的新数据可用并输入到传统预测模型或系统中时,传统预测模型或系统的零星再训练问题。例如,使用人工智能(ai)工具对某些传统系统进行训练,以处理生物数据(例如基因组信息)。此类ai工具的区别在于其软件的操作在操作中通过ai工具处理的数据进行自适应修改;相比之下,传统的软件工具,即使通过控制参数可重新配置,使用的软件也不会被通过传统软件工具处理的数据自适应地修改。其中一些ai工具采用“黑盒”方法操作,其内部工作方式通常难以表征和审计;例如,当使用黑盒神经网络时。通常,ai工具会提供不可预测的结果,例如当ai工具使用稀疏数据进行训练时,即使此类ai工具的计算方式是可审计的。因此,这样的传统系统因此常常无法从来自不同来源的数据中提供连贯且有意义的分析,这增加了基因组解释的不确定性和误解的风险。关于与传统系统相关的这些缺点,遇到这种系统的潜在不可靠操作或不稳定操作,这是不希望的。
[0046]
此外,在某些情况下,出于分析目的,可能需要或可能有用于,或两者兼有,从一个系统或机构到另一个系统(或机构)共享基因组解释数据和学习。然而,由于给定患者的基因组和医学数据的机密性,共享这些数据和学习以进行分析和基因治疗、尊重各种国家当局/国际法规要求的患者机密性的问题越来越多。随后,需要对新的常规系统进行独立训练,以分析来自不同来源的相似类型的数据,这进一步增加了此类常规系统中使用的基于ai的工具的操作成本和训练时间,并导致训练这种常规系统所需的重复人类努力。关于与上述常规系统相关的这些缺点,遇到了基因变体解释成本的增加。
[0047]
与传统系统和方法相比,本公开的筛选系统和方法提供了一种平台,该平台使用多维数据结构(即改进的交叉相关输入数据结构)来提高准确性并降低基因变体误解的风险。多维数据结构包括一组数据样品,其中包括代表受试者的编译基因组序列,以及其他受试者的相应历史数据样品,包括其他受试者的相应表型信息及其一个或多个基因变体。这种多维数据结构降低了基因变体解释对随机误差和随机失真的敏感性,从而显著降低了基因变体误解的风险。
[0048]
此外,本公开的筛选系统降低了基因变体误解的风险,并使得基因变体解释中的不确定性能够逐步减少,以发现一种或多种表型-基因变体关系,例如,在获得与受试者相关的新输入时。本公开的所公开筛选系统进一步有效地消除了用于基因变体解释的输入数据中的随机失真或噪声的影响,从而显著降低了基因变体误解的风险。此外,使系统独立于批发再训练(即对所有以前的数据和新数据进行训练)通过显著提高其操作速度并减少出现错误训练的机会,进一步提高系统的计算效率,这可能对受试者具有实际的救命意义。换句话说,筛选系统使用的是增量训练的模型;在给定的一天训练模型,然后仅在随后添加的
新数据上调整模型(即再训练)。这种再训练有益地定期实施,即以“增量学习”的方式。
[0049]
此外,使系统独立于再训练也降低了筛选系统操作的数据存储需求。此外,本公开的所公开的筛选系统的计算机密集程度相对较低,并且在处理基因组数据时需要较少的数据存储空间。因此,随机存取存储器可用于执行其他任务。
[0050]
在整个本公开中,术语“筛选系统”是指用于处理和分析生物数据以从中获得见解的系统。筛选系统还可以指用于其操作并获得与生物数据相关的结果的控制仪器、控制电路和/或数据处理系统。值得注意的是,筛选系统在从生物学数据中确定见解时显著减少了随机误差和随机失真,并在从受试者的基因组序列(例如基因序列及其变体)的不同部分推断结果时提供了更高的准确度。
[0051]
筛选系统包括控制电路。控制电路是指可操作以响应和处理驱动筛选系统的指令的计算元件。任选地,控制电路包含但不限于微处理器、微控制器、复杂指令集计算(cisc)微处理器、精简指令集(risc)微处理器、超长指令字(vliw)微处理器或任何其它类型的处理电路。此外,术语“控制电路”可以指一个或多个单独的处理器、处理设备、人工智能(ai)系统的一部分以及与筛选系统相关联的各种元件。
[0052]
控制电路在操作时接收来自已经在测序装置中测序的受试者的至少一个生物样品的多个基因组片段的多个基因组序列,其中所述多个基因组序列包括随机误差和随机失真;任选地,测序装置被实施为专有测序装置,例如由corp.或corp.制造的。首先,从受试者中分离出至少一种生物样品。受试者的生物样品是指通过在受控环境下采样而采集的实验室样品,即,医学受试者的组织、液体或来源于受试者的其它材料的收集物质。生物样品的实例包含但不限于血液、咽拭子、痰、唾液、手术引流液、绒毛膜绒毛取样(cvs)、组织活检、羊水或胎儿样品,例如无细胞胎儿dna。胎儿样品用于识别产前检测的变化。例如,早期婴儿癫痫性脑病(eiee)的检测可以通过使用胎儿样品来进行。eiee是以癫痫为特征的罕见神经病症。观察到,在相当大比例的儿童中,癫痫被错误地鉴定为胃肠道病症并且作为胃肠道病症来治疗。
[0053]
根据一个实施例,使用湿实验室装置在体外处理生物样品以从生物样品中提取遗传物质,并准备好在测序装置中进行测序。如本文所用,术语“湿实验室装置”是指用于收集和处理生物样品以用于提取、扩增、富集和/或处理从生物样品中提取的遗传物质的设施、诊所和/或仪器设置。在此,仪器、设备和/或装置可以包括但不限于离心机、分光光度计、pcr、rt-pcr、高通量筛选(hts)系统、微阵列系统、超声和遗传分析仪。湿实验室装置处理生物样品并获得dna片段。具体而言,使用已知的测序技术对生物样品中存在的dna片段进行扩增和测序。
[0054]
在一个实例中,为了执行测序(例如,下一代测序),将受试者的输入样品(例如dna)与受试者的生物样品分离。例如,在对血液采样后,从采样的血液中分离出少量dna。分离的dna的数量不足以进行测序文库制备。因此,输入样品然后被分割成短区段。这些区段的长度任选地相同,例如,约300个碱基对,任选地在100个到250个碱基对的范围内。长度任选地还取决于所使用的测序机器的类型或要进行的实验的类型。在dna区段长度相对较长,例如,超过250个碱基对的一些情况下,片段与通用衔接子(即位于读段末端的小片段已知dna)连接并且使用衔接子粘接到载玻片(例如,在基于的测序中)。在一些情况下,例如在外显子组测序中分离出对应于功能性基因的编码区的mrna转录物。
[0055]
根据一个实施例,测序装置被配置为,即可操作,以执行多个基因组片段的测序。在一个实例中,多个基因组片段可能是多个互补脱氧核糖核酸(cdna)片段分子,它们在下一代测序(ngs)(即本领域已知的短读段测序)中同时测序以产生多个基因组序列。值得注意的是,测序(例如,dna测序)是确定给定dna区段中核苷酸序列的过程。此外,使用诸如聚合酶链式反应(pcr)和ngs等技术获得的多个基因组序列通常包含由扩增和测序过程导致的随机误差。有益地,本文所述的筛选系统提供了显著更准确的结果,尽管在多个基因组序列中存在随机误差。
[0056]
控制电路在操作时将多个基因组序列与参考基因组比对以从比对的基因组序列生成代表受试者的编译基因组。控制电路还被配置为,即可操作,以在比对中将多个基因组序列与参考基因组进行比较。在一个实例中,参考基因组可以是基因组构建组装(例如,grch38/hg38人类基因组构建组装)的最新版本。或者,如果受试者是相同物种(或属)的相同动物,则可以使用动物物种或属的参考基因组。因此,作为多个基因组序列的多个基因组片段的每个片段的序列读出数据被拼凑在一起以重新创建最终dna读出,其是代表受试者的编译基因组;当将序列读出数据拼凑在一起时,存在重叠和模糊性,这表现为最终dna读出数据中的测序不确定性。在一个实例中,通过具有高分辨率放大能力的图形用户界面执行比对,使得碱基对的比对是可验证的。例如,通过计算系统的图形用户界面手动地执行这种比对。
[0057]
控制电路在操作时,基于参考基因组和代表受试者的编译基因组之间的差异,确定相对于参考基因组存在于代表受试者的编译基因组中的一种或多种基因变体。应当理解,受试者的大部分dna在所有人类中都是相同的。差异可能表明导致受试者不同性状的多个基因变体。值得注意的是,多个基因变体中的一些也可能导致受试者中疾病的发生。参考基因组和代表受试者的编译基因组之间的差异使得能够鉴定个体的基因组序列中有意义的变异,以区分什么是健康的和什么是潜在病态的。确定的一种或多种基因变体的例子包括但不限于拷贝数变体(cnv)、插入缺失、单核苷酸变体(snv)和其他导致罕见遗传疾病的突变。换句话说,然后将给定受试者的最终dna读数(编译后)与参考基因组进行比较,参考基因组通常是许多dna读数的聚合,然后确定给定个体的最终dna读数与参考基因组之间的差异。与没有罕见疾病的健康个体相对应的参考基因组相比,正是在这些差异(即基因变体)中可能存在罕见疾病。
[0058]
可选地,筛选系统被配置为,即可操作,以在筛选系统的图形用户界面上生成比对的图形表示。控制电路还被配置为,即可操作,以确定每个确定的一个或多个基因变体的位置。任选地,确定的一种或多种基因变体或其他基因通过使用图形用户界面来注释(或标记)。注释是自动或半自动生成的(即,由用户辅助或允许用户输入进行编辑)。注释可通过图形用户界面进行编辑。注释的例子包括但不限于基因座、基因组序列的部分中编码区(例如外显子)的位置、基因的已知功能、或基因变体(检测到的cnv、snv、插入缺失等的注释),添加基因变体唯一标识符、基因变体名称、接合性信息、亲本信息、对从已知和可靠的文献来源(例如研究出版物)中检索到的基因或基因变体的理解,或与已知表型的关系。通常,此类注释是在一个或多个基因变体的位置(例如,附加数据点或字段)处使用解释性注释或备注进行的。
[0059]
任选地,代表受试者的编译基因组也与其他一种或多种已知遗传变体序列比对,
以进一步确定是否遗漏了任何序列,或微调确定的一种或多种基因变体,或两者兼有。例如,一种或多种已知的遗传变异序列可以获得自例如基因组数据库、公共科学数据库、研究组织的数据库(例如基因组变异数据库(dgv)、在线人类孟德尔遗传(omim)、morbid、decipher)、研究文献(例如pubmed文献)和其他支持信息等。任选地,有助于表型(例如疾病)的异质变体可能在代表受试者的编译基因组中被检测到。此外,控制电路被配置,即可操作,以检测镶嵌变异,以及突变是遗传突变还是从头突变。然后根据变异类型(即突变类型)在编译的基因组上的相应位点标记不同的基因变体,该基因组在参考基因组上比对并通过图形用户界面可视化。基于从与一个或多个已知遗传变体序列比对检测到附加基因变体,对应于这种检测的附加注释可以在图形用户界面上自动填充(或在某些情况下手动标记)。
[0060]
例如,基因名称(例如“bicd2”基因)和在线人类孟德尔遗传(omim)标识符(id)(例如

609797

)被分配给基因变体。omim包括大约15,000个基因的已知孟德尔疾病的公开信息,这些信息会定期更新并包含表型和基因型之间的关系。还分配了

morbid id

(例如615290)。

morbid id

表示疾病和与该疾病相关的基因的染色体位置的图表或图。omim知识库中提供了病态图,列出了染色体和映射到这些染色体上特定位点的基因。还注释了与该基因(例如bicd2)基因相关的已知病况(例如病况:具有常染色体显性遗传的近侧脊髓性肌萎缩)。因此,数据点

常染色体显性遗传

是制备上述多维数据结构(下文稍后描述)的条件的良好指标。可选地,hi分数(例如0.176)也被分配给每个基因,表明该基因的接合性。此外,基于各种类型的突变(例如错义变体、拷贝数变体等)的比较和确定,被确定并作为注释添加到基因序列数据点。还分配了基因型(例如杂合子、纯合子等)数据点。此外,除了与已知变体进行比较之外,精选变体也用于比较以确定变体的信息。其他辅助信息,例如,人类表型本体(hpo)术语也被分配,它提供了一种标准化的方式来表示人类疾病中遇到的表型异常。如果基因序列(例如bicd2)先前被报告为致病性,以及在这方面有哪些先前信息可用,它也会自动检索。此外,如果发现该基因是致病性的,那么还确定了基因变体对表型的贡献是什么。例如,基因变体的贡献是部分的、全部的、不确定的还是没有。因此,添加了各种其他数据点作为补充或支持信息,例如,在将代表受试者的编译基因组与相同基因的亲本基因序列比对时检测到,无论突变是遗传的还是从头的。
[0061]
控制电路在操作时从对受试者的观察中获取表型信息。例如,医疗保健专业人员可评估受试者的潜在疾病或区别性状。可以记录任何状况或障碍,并根据观察到的受试者特征分配表型代码。或者,分配icd代码(国际疾病分类)代码,然后从通常由医疗保健专业人员提供的icd代码导出表型代码。表型代码可以根据称为“monarch initiative”的公知数据库分配,该数据库集成了各种外部策划的数据源,其主要关注基因型-表型和疾病-表型关联。这种对应于观察到的受试者(例如患有某种疾病或紊乱的患者)特征的表型代码被称为表型信息,并存储在数据库中,从中获取表型信息以检查观察到的表型是筛选系统的任何基因变体的结果。
[0062]
控制电路在操作时进一步生成多维数据结构,其包括:
[0063]-关于第一维度的所述一个或多个基因变体;
[0064]-关于第二维度的所述表型信息;和
[0065]-关于第三维度的一组数据样品,其中该组数据样品包括受试者的所述一个或多
个基因变体及其相应的表型信息,以及其他受试者的相应历史数据样品,包括他们的一个或多个基因变体及其相应的生物学(例如,表型)信息。
[0066]
可选地,多维数据结构可以具有多于三个维度,例如数据样品集合的种族的附加维度、电离辐射暴露历史的附加维度等等。
[0067]
控制电路被配置,即可操作,以生成多维数据结构。控制电路还被配置为基于所确定的一个或多个基因变体、表型信息和数据样品集的组合生成第一多维数据结构。所确定的一种或多种基因变体是指编译基因组中代表受试者的基因变体,其基于以下一项或多项鉴定:受试者的编译基因组序列与参考基因组的比对,与公开可用的基因变体数据库的比对,和筛选系统的基因变体检测算法。表型信息是指获得的表型信息,其可以相对于第二维度并相对于确定的一种或多种基因变体进行存储,以有助于筛选系统在下游操作中发现一种或多种基因变体与获得的表型信息之间的模式或关系,例如基因变体解释(稍后讨论)。其他受试者的历史数据样品,包括其对应的其他受试者的表型信息及其一种或多种基因变体体,是指先前确定并验证的具有其他受试者的已知表型信息的基因变体。第一维、第二维和第三维三个维度中的数据元素以关系和通用的形式排列,从而能够高效、准确地分析多维数据结构中的多维数据元素。
[0068]
此外,并且可选地,来自不同来源的数据通常由于使用不同的术语、不同的重点和不同来源的不连贯输出而在性质上有所不同。随后,在多维数据结构中,第一维、第二维和第三维中的数据元素潜在地存储在多维阵列中,并转换为计算机可解析的通用机器可读格式,特别是基于人工智能(ai)的系统。有益地,通用格式的各种数据元素(即各种数据字段的数据值)的转换实现了数据元素的有效访问和修改。
[0069]
可选地,控制电路被配置,即可操作,以检测多维数据结构的数据元素中的偏差。如果多维数据结构的任何两个维度之间的数据元素不匹配,则可能检测到偏差。例如,所确定的基因变体的序列的边界可与从数据样品集中其他受试者的一个或多个基因变体的历史信息得到的序列的边界不一致。在一个实例中,孩子遗传疾病的风险可能更高,父母的基因导致相同的疾病。因此,当进行相关和关联时,一个数据元素可能补充或偏离另一数据元素。数据元素中的这种潜在偏差和初始相关性潜在地实现了错误或不一致数据点的自我校正(即,通过过滤或标记第一多维数据结构中的不一致数据点)。
[0070]
在一个实例中,可以确定在区域内发生突变的可能性、dna片段扩增和/或测序过程中出错的可能性,或受饮食、气候、接触化学品或电离辐射、疾病等因素影响的表型变化等等。在一个实例中,外部来源的某些信息,例如从怀孕期间执行的异常扫描接收到的信息,以确保胎儿的健康发育,可能表明遗传异常的表型或表现。当相关时,此类信息可以指示表型与基因变体的统计关系,并且还能够从多维角度检测数据元素的偏差。
[0071]
在另一个例子中,基因变体的黑名单和白名单被预先存储在筛选系统的数据库服务器中。基因变体的黑名单和白名单可能是数据样品集的一部分。无论应用任何过滤器,添加到黑名单的变异都不会在注释期间显示在基因变体表(或列表)中。这提供了一种机制,用于过滤掉感兴趣基因中已知的脱靶变体或已知的测序伪影(测序数据错误),从而有助于第一个多维数据结构的自校正特性。白名单精选列表包含先前精选的数据,并优先于黑名单。因此,当将基因组分配给受试者时,精选列表过滤器将专门应用于基因组定义的感兴趣区域中的基因。例如,如果基因位于感兴趣区域之外,则不会显示白名单基因。靶向基因测
序组是分析给定数据样品中特定突变的有用工具。重点基因组包含一组选定的基因或基因区域,这些基因或基因区域已知或怀疑与研究中的疾病或表型相关,因此如果该基因位于感兴趣的区域之外,则不会显示白名单基因。这节省了筛选系统的数据存储设备中的存储空间。
[0072]
可选地,还为确定的基因变体添加与变体效应预测器(vep)结果或基因变体类型相关的附加数据点或注释,作为多维数据结构中的注释。例如,各种基因变体的类型包括但不限于转录物消融、剪接供体变体、剪接受体变体、终止获得、移码变体、起始丢失、起始密码子变体、转录物扩增、框内插入、框内缺失、错义变体、蛋白质改变变体、剪接区变体、不完全末端密码子变体、同义变体、编码序列变体、成熟mirna变体、5prime utr变体、3prime utr变体、非编码转录物变体、内含子变体、上游基因变体、下游基因变体、转录因子(tf)结合位点变体、调节区消融、转录因子结合位点(tfbs)消融等。这些数据点是一种基因变体类型对表型有多大影响的指标。这进一步有助于确定基因变体在基因变体解释时对观察到的表型表现的影响强度。此外,在多维数据结构中还添加了人口数据(例如非洲人、南亚人、芬兰人、美国人、非裔美国人等)作为附加注释,这有助于对多维结构中的数据元素进行下游处理。
[0073]
根据一个实施例,筛选系统在操作时处理存在于相对于参考基因组代表受试者的编译基因组中的一个或多个基因变体,以减少由于以下至少一项引起的随机误差:插入缺失、拷贝数变异(cnv)、大量回文、错误识别或错误分类的表型。可选地,存储在多维数据结构中的不同数据点相互关联,共同增加了对代表受试者的编译基因组的理解,并减少了误解,从而消除了错误和不一致之处。此外,在使用多维数据结构的所有后续操作(例如,存储在多维数据结构中的多维数据元素)中,减少了多维数据结构中的随机误差和随机失真的潜在涟漪效应。有益地,从多维数据结构中去除错误和不一致性提高了多维数据结构对后续操作的可靠性,并进一步提高了通过采用这种多维数据结构产生的输出的可靠性。
[0074]
控制电路在操作时,使用相关性函数执行基因变体解释,以基于生成的多维数据结构发现一个或多个表型-基因变体关系,其中使用多维数据结构降低了基因变体解释对随机误差和随机失真的敏感性。控制电路被配置,即可操作,以基于第一多维数据结构中的数据元素的输入来执行基因变体解释。值得注意的是,“基因变体解释”是指解释获得的表型信息(观察到的受试者的特征)与表型信息中的至少一个表型的潜在遗传原因(例如基因变体)之间的模式或相关性的过程。相关性函数是在多维数据结构中找到随机变量(例如在这种情况下的数据元素)之间统计相关性的函数。确定的统计相关性可能是与多维数据结构相关的嵌入模型中的潜在变量的形式。与潜在变量相关的相关性函数的执行生成稍后描述的一个或多个贝叶斯映射。相关性函数的实例可以对应于一个或多个稍后描述的自适应人工智能(ai)或机器学习(ml)装置以生成一个或多个贝叶斯映射。作为一种选择,相关性函数还可以包括但不限于所描述的一个或多个矩阵分解算法。基于历史信息,例如其他受试者的历史数据样品,包括其对应的其他受试者的表型信息及其一个或多个基因变体,检查代表该受试者的表型信息的一个或多个表型代码是否由筛选系统预先确定并存储在多维数据结构中的一个或一组基因变体引起。相关性函数用于为受试者找到这样一种或多种表型-基因变体关系。另外地和可选地,基因变体解释还能够识别受试者的疾病易感性、受试者对给定药物的反应等。根据一个实施例,控制电路被配置,即可操作,以将基因变体解
释存储在数据库服务器中。数据库服务器可以是硬件、软件、固件和/或它们的任何组合。数据库服务器包括任何数据存储软件和系统,例如关系数据库。
[0075]
根据一个实施例,筛选系统被配置,即可操作,以生成一个或多个表型-基因变体关系的图形表示,用于图形用户界面上的用户编辑和调整,其中图形表示还提供相关性的强度。一种或多种表型-基因变体关系显示在图形用户界面上,并且这种图形表示是可编辑的。筛选系统为临床专家(即筛选系统的用户)提供一种或多种表型-基因变体关系的图形表示,以便可以进行验证,并且如果出现任何疑问,这些结果可以与历史报告交叉相关并且此类结果的输出基础可以通过图形用户界面进行跟踪和审核以进行确认。
[0076]
根据一个实施例,筛选系统生成一个或多个贝叶斯映射,其描述一个或多个表型-基因变体关系,该关系具有超过一个或多个阈值标准的概率。贝叶斯映射使用根据贝叶斯原理的统计规则(例如贝叶斯推理规则)来描述受试者的一种或多种表型-基因变体关系,其概率超过一个或多个阈值标准。阈值标准可以进一步指定或规定确定表型-基因变体关系的边界。预先指定一种或多种阈值标准以满足一种或多种表型-基因变体关系中的指定准确度要求。在一个实例中,一个或多个贝叶斯映射可以使用贝叶斯因子来描述一个或多个表型-基因变体关系。在另一个实例中,贝叶斯映射可以是与患者感兴趣的变体的表型类别(例如良性、可能良性、可能致病和致病)相关联的每个概率的组合表示。该组合表示可以是直方图或适合显示结果概率的其他图形表示的形式。在给定多维数据结构的情况下,概率可以类似地视为基因变体的表型类别的可能性。例如,由于在多维数据结构中确定了受试者中的基因变体,贝叶斯因子潜在地指示了受试者获得的表型信息中表型的可能性。很可能不是单个基因变体,而是两个或多个基因变体负责受试者中表现出的表型。贝叶斯映射可以指示两个或更多个基因变体的每个基因变体在受试者的表型表现中的影响强度。随着从数据元素中获得更多证据,例如多维数据结构(例如,其他受试者的历史数据样品,包括其他受试者的相应表型信息及其一个或多个基因变体)和/或新的数据元素,如并且当为受试者获得并存储在多维数据结构的相应维度中时,由于受试者中确定的一个或多个基因变体导致所获得的受试者表型信息中的表型原因的可能性增加。可选地,有向丙烯酸图(dag)可用于定义基因变体与相应表型之间的关联和相关性。根据一个实施例,筛选系统采用自适应人工智能(ai)或机器学习(ml)布置来生成一个或多个贝叶斯映射。值得注意的是,术语“自适应人工智能(ai)”或“机器学习装置”是指支持ai的电路或自适应软件,它们采用一个或多个神经网络模型或贝叶斯网络模型来生成输出,而无需为此明确编程。具体地,采用自适应人工智能或机器学习装置来获取信息和一组规则,该组规则用于处理从多维数据结构中获取的信息以产生输出。生成的输出进一步经过校正,以达到所需的可靠性和效率水平。通常,不同类型的神经网络模型或贝叶斯网络模型的实例包括但不限于:监督学习模型、无监督学习模型、半监督学习模型、条件概率和基于丙烯酸有向图的学习模型,以及强化机器学习模型。例如,基于训练阶段中每个输出的准确性在自适应人工智能装置的输出层计算误差。具体而言,术语“误差”是指生成的输出与期望的输出(预期的输出)的偏差。在示例实现中,误差以百分比来测量。因此,计算的误差被馈送到(即,反向传播)其,以训练自适应人工智能装置。有益的是,在训练的基础上学习了寻找基因变体-表型关系的贝叶斯映射。
[0077]
更具体地,对应于多维数据结构的数据点可以在自适应ai或ml布置的训练期间被
注释。也就是说,带注释的数据点(即变体注释)可以用于潜在变量的推导或生成。这些潜在变量与自适应ai或ml布置相关联,并对应于贝叶斯映射。潜在变量捕获了致病类别的抽象概念,可以确定对感兴趣基因的评估。
[0078]
此外,自适应人工智能布置可以采用各种类型的训练数据或带注释的数据或数据点。这些数据包括但不限于与患者id、患者表型、变体id、致病指标和辅助信息相关的数据集。患者id可以是每个患者的唯一标识符。患者表型是针对患者观察到的表型,可以表示为人类表型本体(hpo)术语。hpo术语的一个例子是hp:0000729,用于自闭症行为表型患者;另一个例子是hp:000986,用于肢体生长不足表型的患者。每个变体的变体id可能是唯一的。变体id可能会显示由下划线连接和分隔的特征。例如,变体id 2_1765342_c_t_nm_00193456唯一识别染色体2上的变体,从碱基对位置1765342开始,涉及转录本nm_00193456上的突变c>t。在这里,变体id 2_1765342_c_t_nm_00193456标识染色体、起始、参考等位基因、alt等位基因和转录物id。致病性度量可以由美国医学遗传学学院(acmg)定义的变体的致病性水平表示。例如,可能有一个致病性度量b表示良性,lb表示可能良性,lp表示可能致病,p表示致病,vus表示不确定性。这些可以是替代的训练标签,例如,适应矩阵分解算法。辅助信息可以呈现为在余弦相似度中使用的变体注释,或者以在监督学习框架中使用的任何合适的格式进行组织。
[0079]
训练数据或注释数据用于训练致病性模型以评估和计算基因变体的概率分布,从而评估变体对患者的致病性。具体而言,训练数据或注释数据可以以计算机可读格式组织,包括但不限于适用于以本文所述的一个或多个模型、框架、算法、技术和方法处理的实数、二进制、分类、标识符、列表和字符串格式。
[0080]
与训练数据类型相关的训练数据或注释数据的实际实例如下表1所示。该表还显示了与给定变体的辅助信息相关的特征。例如,一个特征可以是患者的最大等位基因频率;另一个特征可以是同一患者的功能性蛋白质结构域中的非同义氨基酸变化。每个特征(特征1到11)在表格中与患者id、患者表型、变体id和致病指标相关地呈现。训练数据的其他表示包括表1中的实例,但不限于此实例。训练数据可以与所应用的模型、框架、算法、技术或方法相关地呈现和组织。可以呈现训练数据以适应作为用于训练如本文所述的致病性模型的输入。
[0081]
表1
[0082][0083]
在另一个实例中,用于导出潜在变量的自适应ai或ml布置可以包括一个或多个矩阵分解算法,但不限于潜在dirichlet分配、非负矩阵分解、贝叶斯和非贝叶斯概率矩阵分解、主算法成分分析、神经网络矩阵分解等。这些算法可用于协作过滤和推荐系统应用程序等应用程序,其目的是对与这些应用程序关联的关系数据进行建模。其他自适应ai或ml布
置可包括“曲线拟合”算法,例如具有不同惩罚的线性回归(即lasso、ridge、elastic net)。
[0084]
根据一个实施例,控制电路被配置,即可操作,以将描述一种或多种表型-基因变体关系的一个或多个生成的贝叶斯映射与历史医学报告的二级数据库相关联,以识别在主题上与一个或多个生成的贝叶斯映射相关的一个或多个历史医学报告,并且将所识别的一个或多个历史医学报告呈现为图形用户界面上的图形列表。控制电路还被配置为控制图形用户界面在筛选系统的显示屏上的显示。在图形用户界面上显示被识别为与一种或多种表型-基因变体关系相关的受试者的所识别的一份或多份历史医学报告。在一个实例中,这允许将一个或多个表型-基因变体关系与也指示相同表型或遗传异常的实际医学报告联系起来并进行验证。
[0085]
根据一个实施例,筛选系统在操作时使用所识别的一个或多个生成的贝叶斯映射和所识别的一个或多个历史医学报告来提供关于受试者的决策支持信息。决策支持信息通过图形用户界面生成和显示。决策支持信息指示由于在受试者的编译基因组中检测到的特定基因变体而导致的表型(例如罕见疾病)的可能性。可选地,在选择决策支持模式时生成并显示决策支持信息。然后将受试者的决策支持信息和其他数据(例如,通过贝叶斯映射获得的一个或多个基因变体-表型关系)作为进一步的学习添加到筛选系统中,因此筛选系统随着时间的推移变得更加稳健。或者说,新个体的数据语料库随着时间的推移而增长,并且聚合减小了不确定性。
[0086]
任选地,控制电路被配置为呈现图形用户界面,该图形用户界面包括确定的基因变体-表型关系的结果(即,所识别的描述一种或多种基因变体-表型关系的一个或多个生成的贝叶斯映射)和证据(例如,一份或多份历史医学报告),其输出具有特定于受试者的置信度分数。置信度分数表示基因变体-表型关系的百分比概率(即大于预设阈值例如百分之x,例如90%的第一概率例如98%概率),其有助于医生方便地确定是否存在疾病(即表现的表型)。例如,控制电路还被配置为基于执行的基因变体解释生成指示确定的基因变体与表型相关联的概率的置信度分数。具体而言,置信度分数表征了关联的确定性,例如基因变体-表型关系,如上所述。可选地,置信度分数为数值、字母等级、等级、排名、百分比等。可选地,置信度分数被生成为矩阵。在实例中,指示概率的置信度分数被定义在
‘0′


100

之间。在这种情况下,
‘0’
表示关联

肯定不正确’,

100’表示关联

肯定正确’。
[0087]
根据一个实施例,导致决策支持信息的输出的事件序列与实际的定量和定性信息(例如,来自受试者的实际观察的医学报告和表型信息)相关联,以能够审查决策制定过程。随后,通过筛选系统控制决策过程的显示提高了筛选系统生成的输出的透明度(包括用于贝叶斯映射的人工智能或机器学习装置的操作)。有益地,显示决策制定过程允许系统的用户在逻辑上理解从输入开始、处理决策直到输出的行为。例如,从与受试者相关的多维数据结构的数据元素的输入到决策支持信息的输出,所有的事件逻辑序列都可能通过图形用户界面可视化。这增强了筛选系统的真实性和可信度,以便医生可以方便地将结果用于各种应用。
[0088]
根据一个实施例,控制电路被配置为,即可操作,以通过在筛选系统中新输入来增加多维数据结构中的数据元素的先前输入(例如,当新批次的数据从临床专家的进一步观察或数据样品集中其他受试者的基因测试或历史数据到达时)。新输入被视为补充输入以增加先前的输入,而不是完全新的输入。因此,筛选系统不需要再训练自适应人工智能或机
器学习装置。由于新输入被视为补充输入,因此更新每个基因变体-表型关系的似然值(即条件概率或贝叶斯因子)以减少不确定性并增加贝叶斯映射的确定性。这进一步提高了筛选系统的准确性,以便医生可以方便地将结果用于各种应用。
[0089]
或者,任选地,筛选系统进一步生成为受试者提供可操作评估的临床报告概要。临床报告概要总结或给出了对受试者编译基因组的分析,以便以一定水平确定性确认是否存在医疗状况(即,如贝叶斯映射所示的由于一个或多个基因变体引起的表型),以便采取适当的补救措施。换言之,当概率大于指定阈值以减少不确定性时,临床报告概要指示确认或否认受试者的医疗状况的存在。有益地,所公开的筛选系统输出临床报告概要,其能够以增加的确定性对受试者的评估的医疗状况采取行动。例如,以提高的确定性确认或否认受试者的医疗状况。因此,由筛选系统生成的临床报告概要也可以用于初级保健和/或二级保健以治疗受试者的医疗状况。
[0090]
例如,临床报告概要包括患者姓名、出生日期、实验室id、表型摘要、出生年份(用于未出生的孩子)、家庭、临床表现、评论、数据类型、hpo术语、决策支持的主要发现、决策支持的次要发现等。表型概要的决策支持信息提供确定的表型细节,例如,“小颌畸形、胎儿运动不能、非免疫性胎儿水肿、羊水过多”。例如,出生年份包括“20周扫描”,即在胎儿的情况下。例如,临床表现包括“在20周时检测到胎儿异常扫描,发现有羊水过多和挛缩,影响所有四肢并且没有胎儿运动。男胎在26周时死产,尸检显示小颌畸形、关节挛缩和多处翼状胬肉”。例如,评论包括“核型和染色体微阵列正常”。例如,数据类型包括外显子组测序。例如,hpo术语包括“hp 0000347

小颌畸形’、hp 0001561

羊水过多’、hp 0001989

胎儿运动不能序列’、hp 0001790

非免疫性胎儿水肿’、hp 0002803

先天性挛缩’。这些为用户的评估提供了增强的决策支持,并且在初级和二级保健中也很有用,以避免不必要的测试,以及与此类额外测试相关的成本,这些额外的测试可能已经被另外规定。
[0091]
此外,导致输出受试者临床报告概要的事件序列是可追溯的。这使医疗保健专业人员能够表征和审核临床报告概要的输出,这又增加了医疗保健专业人员使用输出的诊断信息来决定下一步医疗行动的信心,这可能对受试者具有实际的救命意义。
[0092]
可选地,控制电路被进一步配置,即进一步可操作,以基于临床报告概要生成推荐以补救受试者的医疗状况。可选地,可以基于临床报告概要推荐治疗计划。可选地,所生成的临床报告概要的推荐和决策过程被传送到一个或多个预先配置的外部电子设备(例如,医生的注册智能手机),用于在初级保健或二级保健中为受试者提供个性化的补救措施。应当理解,“一个或多个预先配置的外部电子设备”指的是例如用户设备。另外,可选地,一个或多个预配置的外部电子设备与初级保健的提供者或二级保健的提供者或两者相关联。应当理解,初级保健的提供者包括例如独立执业的医生,而二级保健的提供者包括例如地区医院、社区卫生中心(中心)等。
[0093]
可选地,控制电路还配置用于,即进一步可操作,以当筛选系统输出的决策支持信息或临床报告概要具有小于指定阈值的概率时,输出警报。具体而言,警报防止筛选系统的用户基于输出的决策支持信息(或临床报告概要)做出重大决策。此外,警报还可以提醒他们在多维数据结构中的信息不足。
[0094]
根据一个实施例,筛选系统在操作时添加受试者的一个或多个基因变体和表型信息的副本,以增加其他受试者的历史数据样品,包括其他受试者的相应表型信息和他们的
一个或更多基因变体。基于当前执行的发现一个或多个表型-基因变体关系的基因变体解释,这样的发现可用于未来对另一个受试者(例如新患者)的基因变体解释。因此,受试者的一种或多种基因变体和表型信息的副本被添加到其他受试者的历史数据样品的数据库中,包括其他受试者的相应表型信息和他们的一个或更多基因变体。受试者的一种或多种基因变体和表型信息的这种副本被添加为筛选系统中的进一步学习,因此筛选系统随着时间的推移变得更加稳健。或者说,新个体的数据语料库随着时间的推移而增长,聚合减小了不确定性,并提高了新受试者后续基因变体解释的准确性。
[0095]
根据一个实施例,筛选系统被配置,即可操作,以处理其他受试者的历史数据样品,包括其他受试者的相应表型信息及其一个或多个基因变体,以使历史数据样品能够被传达和与其他筛选系统共享,以允许共享数据以增加其他受试者的历史数据样品的总大小。上述筛选系统和上述方法提供了一种机制,该机制使得历史数据样品(即敏感医疗数据)能够与其他筛选系统进行通信,而不会损害其他受试者的安全性和机密性。第一位置处的筛选系统可能从位于相同或一个或多个其他位置的一个或多个其他筛选系统发送/接收此类历史数据样品。此外,历史数据样品通过数据通信网络与其他筛选系统共享。应当理解,数据通信网络可以是有线的或无线的,或两者的组合。数据通信网络的实例包括但不限于局域网(lan)、无线电接入网络(ran)、城域网(mans)、广域网(wan)、公共网络的全部或部分例如称为的全球计算机网络、专用网络、蜂窝网络以及一个或多个位置的任何其他通信系统或多个系统。
[0096]
根据一个实施例,筛选系统在操作时混淆其他受试者的历史数据样品,使得其他受试者的身份不可辨别,其中使用以下至少一项来执行混淆:数据外推以生成额外的合成受试者数据,或数据模糊。在实例中,筛选系统在与另一筛选系统以模糊形式共享之前模糊(即模糊)多维数据结构的数据点。有益的是,模糊数据点允许交换与不同受试者相关的信息相关的特征,而无需明确交换敏感信息或特定个人可识别信息。因此,防止显式交换信息可防止与此类关键数据相关的安全风险,并进一步交换与和不同受试者相关的信息相关的特征,大大减少了学习接收与历史数据样品相关的此类信息的其他筛选系统所需的时间和精力。此外,与历史数据样品相关的这种特征交换减少了在接收与历史数据样品相关的此类信息的其他筛选系统中基因变体解释的不确定性,并且还使得生成定义了新受试者的一个或多个基因变体-表型关系的贝叶斯映射的过程时间密集度较低,这在新受试者的严重健康状况下是有用的并且具有挽救生命的意义。此外,以模糊形式交换其他受试者的历史数据样品降低了在接收此类信息的其他筛选系统中为新受试者寻找新基因变体-表型关系的过程所需的计算能力,因为不需要从头开始再次训练。
[0097]
可选地,控制电路被配置为,即可操作,以应用数据外推来生成额外的合成受试者数据,以便混淆其他受试者的历史数据样品,使得其他受试者的身份不可辨别。通常,数据外推是指基于扩展已知值序列或已知事实来估计新值。换句话说,数据外推能够推断出未从历史数据样品的现有信息中明确说明的其他合成受试者数据。在这方面,在一个实例中,不是像在筛选系统的数据库服务器中那样存储不同受试者的每个受试者的实际基因变体-表型关系,而是在多维数据结构中将历史数据样品潜在地存储为附加的合成受试者数据点(由人类无法理解以识别受试者)。附加的合成受试者数据点,即使在审计期间通过回溯识别,也不能用于以任何方式确定受试者的身份。
[0098]
或者,可选地,历史数据样品中的数据点的插值可用于获得新的见解。例如,分析出在第一个基因位点原始基因

x’的基因变体

a’导致疾病“b”,而原始基因

x’的基因变体

b’也导致相同的疾病

b’。此外,发现,基因的某个示例片段,例如

aaaaataaaaat’(注:这是一个虚构实例,并不代表实际读段dna序列信息),当作为变体存在于基因的任何编码区时使该基因具有潜在的致病性(换句话说,重复元素

aaaaat’是人类受试者疾病表现的实际原因。因此,如果基因

x’的任何其他近似变异(即除了基因变体

a’和

b’之外)具有相同的基因片段(例如aaaaataaaaat),则对于任何新受试者它容易与疾病

b’相关联。在另一实例中,代替定义给定受试者的定量信息的实际数据点,定量信息的范围或数据点的接近值可能被用作插值的结果。通常,这些基因变体在基因组中的位置提供了这些基因变体是否更有可能表现出表型的指示。再者,在生命的某个时刻,有些基因不表达,而有些特定基因的表达量较高(即基因表达水平在某些时间点较多,或由于外部环境因素,或食物或睡眠习惯的变化)。因此,与其他数据点相关联的此类数据点可能很好地理解被解释的给定基因变体在未来随着受试者年龄的增加而显现为表型的可能性(即疾病或显现为疾病系统)。
[0099]
可选地,控制电路被配置,即可操作以应用数据模糊以便混淆其他受试者的历史数据样品,使得其他受试者的身份不可辨别。其他受试者的历史数据样品被屏蔽,从而使个人可识别数据变得模糊。个人可识别数据的实例包括但不限于:姓名、位置、患者id、年龄、性别、所患疾病、受试者的实际基因组序列等。可选地,控制电路使用散列函数对历史数据样品的数据进行散列,这是一种单向操作,其防止通过简单地分析散列值来“逆向工程”原始数据。有益的是,隐藏历史数据样品的数据允许交换与不同受试者相关的关键医疗数据,而不会妨碍关键数据的安全性,并进一步遵循数据传输、数据保护和机密性的若干标准化规范。
[0100]
可选地,接收其他受试者的模糊历史数据样品的其他筛选系统不能解密诸如任何受试者的身份、当前状态等信息。然而,其他受试者的模糊历史数据样品允许其他筛选系统更新其中存在的相应多维数据结构,以快速学习,例如,基因变体-表型关联的识别等。
[0101]
可选地,控制电路还被配置成将包括一组机器可读参数的控制指令连同其他受试者的模糊历史数据样品一起传送到其他筛选系统。在这点上,筛选系统使用接收到的机器可读参数组来传送控制指令,用于在其他筛选系统中学习相应的人工智能(ai)或机器学习(ml)布置。在示例实现中,包括机器可读参数的控制指令是机器学习算法,其中机器学习算法包括与其每个操作层相关联的权重。在另一示例实现中,包括机器可读参数的控制指令是用于对来自模糊数据点的信息进行解扰的解密密钥,其中解扰信息由其他筛选系统使用。
[0102]
可选地,由每个其他筛选系统操作的计算装置基于包括机器可读参数集的控制指令和其他受试者的模糊历史数据样品的组合来重新校准贝叶斯映射,其中该重新校准减少了随机误差和随机失真,并增加了新受试者基因变体解释的确定性。
[0103]
根据一个实施例,筛选系统包括用于用户选择其他受试者的历史数据样品的子集以测试一个或多个表型-基因变体关系对特定历史数据样品的敏感性或收敛性的功能。筛选系统允许选择子集或调整其他受试者的历史数据样品,而不是使用默认的其他受试者的历史数据样品集。在一个实施方式中,基于性别、从中分离遗传物质的输入生物样品、受试者的年龄等,在代表受试者的编译基因组序列与其他受试者的每个其他历史数据样品之间
的匹配,自动执行这种选择。在另一实施方式中,图形用户界面用于选择和取消选择(即选择加入或选择退出)多维数据结构的样品集中的某些历史数据样品。选择加入或退出某些历史数据样品是基于一种或多种表型-基因变体关系对特定历史数据样品的敏感性。例如,如果选择一个历史样品显著增加或减少了一种或多种表型-基因变体关系的数量和概率,则可能会重新评估此类历史数据样品是否存在任何错误,并因此选择加入或退出,因此,受试者基因变体的误解风险显著降低。
[0104]
应当理解,一种或多种基因变体可以产生为以下任何一种的表型:
[0105]
(i)良性;
[0106]
(ii)可能良性;
[0107]
(iii)未知(vus);
[0108]
(iv)可能致病;和
[0109]
(v)致病。
[0110]
在实践中,变体实际上要么对给定的表型致病,要么不致病。因此,实际上,中间的三个类别(ii)到(iv)是“错误”,因为它们不代表现实,而只是不确定性程度。因此,所采用的模型也能够减少这种“错误”的发生。
[0111]
根据一个实施例,筛选系统在操作时确定一种或多种表型-基因变体关系的收敛性作为子集选择的函数,以确定一种或多种表型-基因变体关系产生中收敛的渐近趋势。当执行子集的选择时,潜在地设置,即定义或调整阈值限制,并且在选择和取消选择期间,在一种或多种表型-基因变体关系的生成中确定收敛的渐近趋势。观察所确定的一种或多种表型-基因变体关系的变化是否是突然变化,还是基于渐近趋势。也就是说,渐近趋势解释了可能对基因变体解释结果产生不利影响的突然变化。实际上,收敛的渐近趋势对应于基因变体解释中不确定性的逐渐减少,以找到一种或多种表型-基因变体关系。进而,可以提高决策支持的准确性并为用户提供改进的帮助,例如,以减少对新受试者的医疗状况或疾病的诊断的不确定性。
[0112]
在示例性实施方式中,所公开的筛选系统使用多维数据结构来有效和高效地降低基因变体解释对输入数据中预先存在的随机误差和随机失真的敏感性,从而降低显著减少受试者的基因变体错误解释的风险。有利地,控制电路确定多维数据结构中稀疏数据点的敏感度,识别导致突然变化并对基因变体解释结果不利地影响的多个参数(例如软件故障或软件中定义的错误规则,并选择其他受试者的历史数据样品的子集,以测试一种或多种表型-基因变体关系对特定历史数据样品的敏感性或收敛性),并迭代地重新校准多个参数,使得在每次迭代中减小了对随机误差和失真的基因变体解释的敏感性。因此,所公开的筛选系统被改进以在每次迭代中以增加的准确性自动执行基因变体解释,因为在每次迭代中减小了基因变体解释对随机误差和失真的敏感性。此外,基因变体解释的重新执行提供了改进的基因变体-表型关系,这进一步降低了基因变体解释对随机误差和随机失真的敏感性(即几乎消除了随机误差和随机失真的不利影响)。上述筛选系统和上述筛选方法因此提供了改进的基因变体-表型关系,这是为临床专家提供帮助的中间结果,或在许多实际应用中充当临床专家的决策支持工具。此外,筛选系统能够对引起突然变化并对基因变体解释结果产生不利影响的多个参数(例如选择的历史数据样品的总数)进行迭代重新校准,以迭代地纠正筛选系统的已识别系统故障,进而提高决策支持的准确性,并为用户提供改进
的帮助,例如,减少新受试者的医疗状况或疾病诊断的不确定性。
[0113]
在一个实例中,术语“稀疏数据点”是指多维数据结构中稀疏分散的数据点,其中数据集中的某些预期值缺失或更少。由于多个参数而创建稀疏数据点,这些参数可以包括但不限于生成多维数据结构的不同数据源和数据格式。大约99.96%的多维数据结构可能是稀疏的或没有任何数据点。这可能至少是由于变体池的大小以及与每个变体相关的数据点的有限可用性。当馈送到筛选系统时,稀疏数据点通常导致对特定输入数据点的敏感度高于其他数据点。例如,选择的历史数据样品的数量在统计上不相关。敏感度级别可能被定义为较低级别、中等级别或较高级别的敏感度,具体取决于特定输入导致的生成结果的变化。例如,与其他数据点相比,贝叶斯映射生成的结果可能对患者的特定输入数据点(例如,数据样品集中的某个测量值或历史数据样品之一)表现出更高的敏感度,这可能导致筛选系统输出中的突然峰值或下降(例如,由于特定历史数据样品的变化导致的一种或多种表型-基因变体关系的变化)。识别此类数据点和对此类数据点的相关敏感性。因此,数据点的敏感度水平表明了筛选系统中的潜在故障。敏感性分析通常是计算密集型的。
[0114]
根据一个实施例,为了实现计算效率,包括存储在多维数据结构中的注释的多个数据点首先按照数据类型和信息接收时间进行分类。例如,从特定医疗设备的异常扫描中观察到的所有表型信息数据点都被分配到相同的类别。因此,在测试一个数据点的敏感性时,如果输出结果(例如,生成的置信度分数)在仅一个数据点发生变化时发生剧烈变化,则一个类别的所有数据点,例如从异常扫描中获得的数据点或注释,都被认为是高度敏感的并有待第二阶段的进一步分析。将相同数据类型分配给源自相同数据源、相同类型文件格式的一组数据点显著降低了筛选系统的计算负荷。在一个实例中,当发现高敏感度时,执行进一步的测试以确定高敏感度是由于数据错误还是由于筛选系统的系统故障。系统故障可能是编程故障、数据结构故障或定义第一基于人工智能的系统、第二基于人工智能的系统或贝叶斯映射布置或两者的规则的故障。
[0115]
可选地,控制电路进一步被配置,即进一步可操作,以识别导致突然变化并且不利地影响贝叶斯映射的基因变体解释结果的多个参数。多个参数对应于系统设置参数和多个定义的规则,该规则用于处理接收的输入,并最终生成包括一个或多个基因变体-表型关系的基因变体解释。如果从预期输出产生的输出存在差异,则确定对筛选系统的这种虚假输入/输出行为负责的多个参数。术语“突然变化”是指当第一多维结构中的特定数据点作为输入馈送到系统时,在从筛选系统输出的系统输出中高于指定阈值的百分比变化。例如,筛选系统在第一次迭代中生成的置信度分数是百分之

x

,并且阈值可以设置为10%。如果在第一多维结构中输入的新数据点将当前置信度分数(例如,其描述表型-基因变体关系的概率)增加或减少10%或超过10%(设置阈值),那么由于数据点输入而引起的这种变化被称为突然变化。但是,如果第一多维结构中输入的新数据点将当前置信度分数增加或减少10%以下,那么由于数据点输入引起的这种变化被称为非突然变化。应该理解,取决于用户的偏好,并且在一些实验之后,可以设置在1%至100%范围内的任何百分比代理10%作为阈值(例如,使用从预期输出生成的输出中的差异),可能定义适当的阈值水平。因此,识别所有参数,以供进一步使用,所述参数包括选择历史数据样品的子集,该子集导致突然变化并对多维数据结构的各个维度中的数据点(数据元素)的输入基因变体解释结果产生不利影响。
[0116]
可选地,控制电路还被配置为以迭代方式重新校准导致突然变化并不利地影响基因变体解释结果的多个参数,从而在每次迭代中降低基因变体解释对随机误差和失真的敏感性。一旦识别出导致突然变化和对基因变体解释结果产生不利影响的多个参数,就对识别出的参数进行调整。为了重新校准多个参数,检查从数据点的输入开始到每个层或处理阶段中处理该数据点的所有后续事件的事件序列,直到最终输出。事件序列中的事件到事件跟踪提供了对可能未针对此类数据点进行最佳校准的参数的详细了解。当与预期输出产生的输出差异最小或几乎为零时,认为实现了多个参数的重新校准,降低了基因变体解释对随机误差和失真的敏感性或该敏感性几乎无效。
[0117]
任选地,控制电路进一步被配置,即进一步可操作,以对具有重新校准的多个参数的受试者重新执行基因变体解释,其中基因变体解释包括更新的基因变体-表型关系,其中更新的基因变体-表型关系具有降低的基因变体解释对随机误差和扭曲的敏感性。如果发现与所识别的多个参数相关联的任何错误数据点,则该数据点可能在多个参数的重新校准的下一次迭代中被标记和忽略。或者,如果突然改变筛选系统输出的参数是定义基因变体-表型关系的规则,则规则的校准会自动去除错误的数据点,并在下一次迭代(例如第二次迭代)中更新多维数据结构。可选地,贝叶斯映射规则和基于可能与基因变体-表型关系相关的状况的先验知识在基因变体和表型之间发生关系的潜在多个概率被调整,直到预期输出之间的差异(基本事实)和生成的输出最小或为零。对导致突然变化和对基因变体解释结果产生不利影响的多个参数的识别和迭代性重新校准自动自我纠正了与虚假输入/输出行为相关的系统故障,这进而进一步提高筛选系统的准确性和使其准备好为新受试者执行基因组信息(基因组或外显子组)分析。如果在将代表个体dna的多个基因组序列与参考基因组比对期间发现过度敏感(例如,错配大于指定百分比),则在某些情况下,可能需要对给定个体的dna进行重新测序,并且相应地生成警报。
[0118]
本公开还涉及如上文所描述的方法。上文所公开的各种实施例和变体加以必要的变更应用于所述方法。
[0119]
根据一个实施例,该方法的特征在于该方法进一步包括使用筛选系统生成一个或多个表型-基因变体关系的图形表示,用于在图形用户界面上进行用户编辑和调整。
[0120]
根据一个实施例,该方法的特征在于该方法进一步使用筛选系统来生成一个或多个贝叶斯映射,其描述一个或多个表型-基因变体关系,该关系具有超过一个或多个阈值标准的概率。
[0121]
根据一个实施例,该方法的特征在于该方法还包括采用自适应人工智能或机器学习装置来帮助筛选系统生成一个或多个贝叶斯映射。
[0122]
根据一个实施例,该方法的特征在于该方法进一步包括使用控制电路将描述一种或多种表型-基因变体关系的一个或多个生成的贝叶斯映射与历史医学报告的二级数据库相关联,以识别在主题上与一个或多个生成的贝叶斯映射相关的一个或多个历史医学报告,并且将所识别的一个或多个历史医学报告呈现为图形用户界面上的图形列表。例如,医学报告有益地包括过去的基因变体分类。
[0123]
根据一个实施例,该方法的特征在于该方法还包括布置筛选系统在操作时使用所识别的一个或多个生成的贝叶斯映射和所识别的一个或多个历史医学报告来提供关于受试者的决策支持信息。
[0124]
根据一个实施例,该方法的特征在于该方法进一步包括布置筛选系统在操作时处理存在于相对于参考基因组代表受试者的编译基因组中的一个或多个基因变体,以减少由于以下至少一项引起的随机误差:插入缺失、拷贝数变异(cnv)、大量回文、错误识别或错误分类的表型。
[0125]
根据一个实施例,该方法的特征在于该方法还包括布置筛选系统在操作时添加受试者的一个或多个基因变体和表型信息的副本,以增加其他受试者的历史数据样品,包括其他受试者的相应表型信息和他们的一个或更多基因变体。
[0126]
根据一个实施例,该方法的特征在于该方法还包括布置筛选系统处理其他受试者的历史数据样品,包括其他受试者的相应表型信息及其一个或多个基因变体,以使历史数据样品能够被传达和与其他筛选系统共享,以允许共享数据以增加其他受试者的历史数据样品的总大小。
[0127]
根据一个实施例,该方法的特征在于该方法还包括布置筛选系统在操作时对其他受试者的历史样品进行模糊处理,使得其他受试者的身份不可辨别,其中使用以下至少一项来执行混淆:数据外推以生成额外的合成受试者数据,数据模糊。
[0128]
根据一个实施例,该方法的特征在于该方法还包括布置筛选系统以包括用于用户选择其他受试者的历史数据样品的子集以测试一个或多个表型-基因变体关系对特定历史数据样品的敏感性或收敛性的功能。
[0129]
根据一个实施方案,该方法的特征在于该方法进一步包括布置筛选系统,当操作时,确定一种或多种表型-基因变体关系的收敛性作为子集选择的函数,以确定一种或多种表型-基因变体关系产生中收敛的渐近趋势。
[0130]
附图详细描述
[0131]
参考图1a,示出了图解根据本公开的实施例的筛选系统102的网络环境100a的框图。筛选系统102包括控制电路104。测序装置106通信地耦合到筛选系统102。控制电路104,在操作时,接收来自已经在测序装置106中测序的受试者的至少一个生物样品的多个基因组片段的多个基因组序列。多个基因组序列潜在地包括随机误差和随机失真。控制电路104在操作时还将多个基因组序列与参考基因组比对以从比对的基因组序列生成代表受试者的编译基因组。控制电路104被进一步配置,即进一步可操作,以基于参考基因组和代表受试者的编译基因组之间的差异,确定相对于参考基因组存在于代表受试者的编译基因组中的一种或多种基因变体。控制电路104被进一步配置,即可操作,以从受试者的观察中获取表型信息;例如,由医生或护士进行所述观察。表型信息可能以表示疾病的表型代码的形式。
[0132]
控制电路104在操作时生成多维数据结构,其包括关于第一维的一个或多个基因变体;关于第二维度的表型信息;以及关于第三维度的一组数据样品,其中该组数据样品包括代表该受试者的编译基因组序列,以及其他受试者的相应历史数据样品,包括其对应的其他受试者的表型信息及其一个或更多的基因变体。控制电路104被配置为,即可操作,以使用相关性函数执行基因变体解释,以基于生成的多维数据结构找到一个或多个表型-基因变体关系。多维数据结构的使用降低了基因变体解释对随机误差和随机失真的敏感性。
[0133]
本领域的技术人员可以理解,仅为了清楚起见,图1a包括筛选系统102的简化图示,其不应过度限制本文权利要求的范围。本领域技术人员将认识到本公开的实施例的许
多变型、替代方案和修改。
[0134]
接下来参考图1b,示出了图解根据本公开的另一个实施例的包括多个筛选系统的网络环境100b的框图。结合来自图1a的元素描述图1b。网络环境100b包括筛选系统102和另一筛选系统110。进一步示出了筛选系统102中的控制电路104和机器学习装置108。筛选系统102采用机器学习(ml)装置108来生成描述一种或多种表型-基因变体关系的一种或多种贝叶斯映射。
[0135]
根据一个实施例,筛选系统102的控制电路104被配置为,即可操作,以处理包括其他受试者的相应表型信息及其一个或多个基因变体的其他受试者的历史数据样品。其他受试者的历史数据样品形成了存储在筛选系统102中的多维数据结构的一部分。处理其他受试者的历史数据样品以混淆历史数据样品,使得其他受试者的身份不可辨别。此后,混淆的历史数据样品与其他筛选系统(例如筛选系统110)进行通信(即共享),以允许共享数据以增加在基因变体解释中使用的其他受试者的历史数据样品的总大小。
[0136]
本领域的技术人员可以理解,为了清楚起见,图1b包括筛选系统102和110的简化图示,其不应过度限制本文权利要求的范围。本领域技术人员将认识到本公开的实施例的许多变型、替代方案和修改。
[0137]
参考图3,示出了根据本公开的示例性实施例的筛选系统300的示意图。如图所示,筛选系统300包括控制电路308。控制电路308在操作时生成多维数据结构310。多维数据结构310是基于由控制电路308确定的受试者的一个或多个基因变体302、从受试者的观察得到的获得的表型信息304和一组数据样品306生成的。多维数据结构310包括关于第一维的一个或多个基因变体302,关于第二维的表型信息304;以及关于第三维的数据样品集。数据样品集包括代表受试者的编译基因组序列,以及其他受试者的历史数据样品,包括其他受试者的相应表型信息及其一个或多个基因变体。
[0138]
控制电路308被进一步配置,即进一步可操作,以使用相关性函数来执行基因变体解释312,以基于所生成的多维数据结构310来识别,即发现一个或多个表型-基因变体关系。在一些实施例中,控制电路308被进一步配置,即进一步可操作,以输出置信度分数314,该置信度分数指示由表型(在一个或多个表型-基因变体关系中)表示的受试者的观察到的医学状况的至少一个致病因素是特定的基因变体(或两个或多个基因变体),其不能编码导致表型的功能性蛋白质。当置信度得分大于指定阈值时,置信度得分314指示特定基因变体(或两个或更多个基因变体)是所讨论表型的确认原因。
[0139]
接下来参考图4,示出了根据本公开的实施例的与筛选系统102相关联的以概率方式描绘表型-变体关系的示例性矩阵404的示意图。如图所示,矩阵404在第一轴(即关于第一维度)中描绘基因变体列表406和在第二轴(即关于第二维度)中描绘表型列表408。此外,矩阵404填充有数值410和412。筛选系统102在操作时使用相关性函数执行基因变体解释以找到一种或多种表型-基因变体关系。该组数据样品也用于基因变体解释(未显示)。在基因变体解释中,矩阵404生成数值410和412以定义概率并量化围绕它的确定性水平(即量化负责表型的基因变体的可能性)。此外,数值410和412指的是致病概率,其中接近
‘0’
的值表示零概率,接近

100’的值表示非常高的概率(例如,大于90的值可表示确认)。接近
‘0’


100’的数值410和412的这种升级能够减少发现受试者的表型-基因变体关系的不确定性。
[0140]
接下来参考图5,示出了流程图500的图示,该流程图描绘了根据本公开的实施例
的筛选方法的步骤。该方法被描绘为逻辑流程图中的步骤集合,其表示可以在硬件、软件或其组合中实现的步骤序列,例如如上所述。该方法在包括控制电路的筛选系统中实施。
[0141]
在步骤502,控制电路用于接收来自已经在测序装置例如或专有测序仪中测序的受试者的至少一个生物样品的多个基因组片段的多个基因组序列,其中所述多个基因组序列包括随机误差和随机失真。在步骤504,将多个基因组序列与参考基因组比对以从比对的基因组序列生成代表受试者的编译基因组。在步骤506,基于参考基因组和代表受试者的编译基因组之间的差异,确定相对于参考基因组存在于代表受试者的编译基因组中的一种或多种基因变体。在步骤508,从受试者的观察中获取表型信息。在步骤510,生成多维数据结构,其包括:
[0142]
(a)关于第一维度的所述一个或多个基因变体,
[0143]
(b)关于第二维度的所述表型信息,和
[0144]
(c)关于第三维的一组数据样品,其中该组数据样品包括从代表受试者的编译基因组序列确定的一个或多个基因变体,以及其他受试者的相应历史数据样品,包括其他受试者的其相应的表型信息及其一种或多种基因变体。
[0145]
在步骤512,使用相关性函数执行基因变体解释,以基于生成的多维数据结构识别即发现一个或多个表型-基因变体关系,其中使用多维数据结构降低了基因变体解释受随机误差和随机失真影响的易感性。
[0146]
步骤502至512仅为说明性的,并且在不脱离本文权利要求的范围的情况下,还可以提供其它替代方案,其中添加一个或多个步骤、删除一个或多个步骤或者以不同顺序提供一个或多个步骤。
[0147]
在上文中,可以理解,通过使用加密将一些数据字段转换为数字并安全地存储相应的加密密钥,使受试者的数据样品,即“患者数据”匿名。此外,应当理解,所生成的多维数据结构(模型)包括使用贝叶斯推理(即,采用先前已知的一些分类信息,然后推断出新出现的变体的类别)的致病性水平(分类)的统计测量。多维数据结构提供了一种模型,其可以减少错误的变体定义(特别是当实际上变体是良性的或致病的时候,前面提到的

vus’分类)。
[0148]
有利的是,多维数据结构(即模型)不断更新新的患者信息和新的科学信息,从而减少识别基因变体分类时的不确定性和潜在错误。在本公开的实施例中,在模型给出的致病性分类与之前的人为定义的分类(即错误去除)发生变化的情况下,鉴定遗传变体;有益地标记了受此类变化影响的过去未解决的病例(其中此类标记可能与分类为

未知意义的变体(vus)的受试者有关,以预测良性或致病性)。
[0149]
有益的是,该模型能够识别最有可能减少其变体分类错误(即最不可能被归类为vus)的患者资料,例如,经历某种表型的患者是男性等,并且是x%可能是可分类的。有益地,本公开的实施例组合来自使用类似结构但使用不同数据源创建的多个模型的预测以进一步减少误差或不确定性。
[0150]
在不脱离如所附权利要求所限定的本公开的范围的情况下,可以对之前描述的本公开的实施例进行修改。用于描述本公开并且要求保护本公开的表达,如“包含(including)”、“包括(comprising)”、“并入(incorporating)”、“具有(have)”、“是(is)”旨在以非排他性的方式进行解释,即允许也存在未明确描述的项、组分或元件。提及单数也应被解释为涉及复数。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献