一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

测序免疫组库的方法与流程

2022-03-01 23:07:43 来源:中国专利 TAG:
测序免疫组库的方法本技术是申请号为201480016198.0,申请日为2014年3月14日,申请人为血统生物科学公司,发明创造名称为“测序免疫组库的方法”的发明专利申请的分案申请。相关申请1.本技术要求于2013年3月28日提交的美国临时申请no.61/806143和2013年3月15日提交的美国临时申请no.61/801785的权益和优先权,其全部内容通过引用并入本文。
技术领域
:2.本发明涉及定量核酸分析领域。更具体地,本发明提供了使用高通量测序确定免疫组库的方法。
背景技术
::3.适应性免疫反应的特征是产生广泛多样性的结合分子的能力,如:t细胞抗原受体和抗体。各种分子机制可以用来产生最初的多样性,包括在多个位点的基因重组。初始(naive)b细胞和初始t细胞装备有结合部分的初始组库,它们在能与抗原接触的位置处循环。在暴露于抗原时,可以进行阳性选择处理,其中表达具有所期望的结合性质的免疫受体的细胞被扩增,并且可经历进一步的序列修饰,例如体细胞突变,以及额外的重组。还可以进行阴性选择处理,使其中表达具有不期望的结合性质(例如,自反应性)的免疫受体的细胞缺失。作为这些选择处理的结果,个体样品中具有结合特异性的组库可以提供过去的抗原暴露的历史,以及作为固有组库能力和限制的信息。4.感兴趣的适应性免疫受体包括免疫球蛋白或抗体。这个组库是高度适应性的并可被引导以产生具有广泛的化学多样性和高选择性的抗体。对可获得的潜在多样性以及这种多样性是如何产生的机理方面的问题还存在很好的认识。抗体由两种类型的链(重链和轻链)组成,每种类型都包含高度多样化的抗原结合结构域(可变)。抗体重链可变区基因的v、d和j基因片段通过一系列的重组事件以产生新的重链基因。抗体通过基因区段的重组,在这些片段的连接处序列多样化以及在整个基因点突变的混合来形成。对机制进行了综述,例如在mzizels(2005)annu.revu.genet.39:23-46;jones和gellert(2004)immunol.rev.200:233-248;winter和gearhart(1998)immunol.rev.162:89-96中。5.另一种感兴趣的适应性免疫受体是t细胞抗原受体(tcr),其是两个链的异源二聚体,其中每一个链是免疫球蛋白超家族的成员,具有n-末端可变(v)结构域和c端恒定结构域。tcr的α链和β链的可变结构域具有三个高可变或互补决定区(cdr)。β链具有通常不接触抗原的高可变性(hv4)的额外区域。用于产生tcr的多样性的工艺类似于针对免疫球蛋白所描述的工艺。tcrα链通过vj重组产生,而β链由v(d)j重组产生的。同样地,tcrγ链的产生涉及vj重组,而tcrδ链的产生通过v(d)j重组而发生。这些特定区域(α或γ链的v和j,β链或δ链的vd和j)的交叉点对应于cdr3区,cdr3区对抗原mhc识别是重要的。它是在这个区域中的段的以及回文结构的和无规的n-和p-核苷酸添加独特的组合,其导致tcr结合组库。6.虽然参考了结合特异性,以及实际上大量血清学分析基于抗原和受体之间的物理2011/140433和wo2012/083069中描述那些方法基于多重pcr。多重pcr有使其特别不适用于精确地确定所述免疫组库的许多局限性。(见图2)这些局限性包括捕获偏好性和由于pcr导致的扩增偏好性。测序免疫组库的多重pcr技术使用设计成引发已知v基因片段的所有框架区的引物。当突变发生在引发位时,捕获偏好性发生,而且有突变的基因扩增不足。由于各引物和具有相同的序列的pcr复制物的相对量导致基因扩增不均匀,从而产生pcr偏好性。因此,pcr偏好性可导致明显的克隆性或多样性缺乏。一般来说,观察到的组库是不准确的,或者其是实际组库的线性表示。22.为了消除捕获偏好性,本发明的方法利用5'race和通用pcr。pcr偏好性由分子标记消除。(图3)23.此外,测序免疫组库的先前方法需要特定免疫细胞(例如,t细胞或b细胞)群,并且需要空间隔离此类细胞成单个细胞和/或来源于这些细胞的核酸单个分子以形成菌落。而与之不同,本发明方法直接从细胞的异质群衍生的异构核酸混合物测序免疫组库。24.本发明的方法通常涉及下列步骤:获取来自受试者的外周血的全血样品,从外周全血样品或其成分(例如,外周血单核细胞)分离rna,使用免疫球蛋白重链或tcrβ链特异性引物逆转录分离的rna以产生免疫球蛋白(例如,重链或轻链)或tcr(例如,α、β、δ或γ链)的cdna的转录子。通过逆转录酶的固有属性添加短均聚物到cdna的末端。具有与均聚物互补的3'序列和包含通用序列和由无规的核苷酸组成的分子标记的5'旁侧序列寡核苷酸将要由逆转录酶使用作为模板。其结果是,每个cdna分子的端部用短均聚物、独特的分子标记和通用序列延伸。这允许基因特异性序列与mrna的5'端之间的未知序列的扩增。(图4-6)。因为每个cdna分子在扩增之前用独特标签标记,每个cdna分子的差异扩增可通过计算每一个独特的标签一次来校正,从而提供在组库中的每个物种的丰度的准确可靠的测量。用相同的分子标签确定的每个cdna分子的序列复制可以被用于构建共有序列,因此允许扩增和测序误差的校正。25.受试者26.本发明的方法使用来自受试者或个体的生物样品。受试者可以是患者,例如,具有自身免疫疾病、感染性疾病或癌症或移植受体的患者。受试者可以是人类或非人类哺乳动物。受试者可以是任何年龄的男性或女性受试者(例如,胎儿、婴儿、儿童或成人)。27.样品28.在所提供的发明的方法中使用样品可以包括,例如,来自受试者的体液,包括包围胎儿的羊水、水性体液、胆汁、血液和血浆、耳垢(耳屎)、考珀流体或预射精流体、乳糜、食糜、女性喷射液、间质液、淋巴液、月经、乳汁、黏液(包括鼻涕和痰)、胸膜液、脓、唾液、皮脂(皮肤油)、精液、血清、汗液、泪液、尿液、阴道润滑液、呕吐物、粪便,包括脑周围的脑脊液和脊髓、骨关节周围滑液,细胞内液(在细胞内的流体)、和玻璃体液(在眼球中的流体)的内部体液。29.在一个实施方式中,样品是血液样品,例如外围全血样品,或其部分。优选地,所述样品是未分离的全血。30.血液样品可以是约0.02、0.03、0.04、0.05、0.06、0.07、0.080.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、2.5、3.0、3.5、4.0、4.5或5.0毫升。31.样品可以通过卫生保健提供者获得,卫生保健提供者例如,医师、助理医师、护士、manual,第二版(1989))。可在逆转录反应中使用多聚腺苷酸(polya)引物、无规引物和/或基因特异性引物。42.在所提供的本发明的方法中可用于扩增的聚合酶包括,例如,taq聚合酶、accuprime聚合酶或pfu。使用的聚合酶的选择可以基于保真度或者效率是否是优选的。43.在扩增来自基因组的dna(或通过逆转录rna以cdna的形式扩增核酸)之后,直接测序扩增子。44.测序45.本领域技术人员已知的任何测序核酸的技术可以在所提供的本发明的方法中使用。dna测序技术包括在平板或毛细管中使用标记的终止子或引物和凝胶分离的经典双脱氧测序反应(sanger法),使用可逆封端标记的核苷酸的通过合成的测序,焦磷酸测序,454测序,等位基因特异性杂交到标记的寡核苷酸探针的文库,使用等位基因特异性杂交到标记的克隆的文库随后连接的通过合成的测序,在聚合步骤期间标记核苷酸掺入的实时监控,和solid测序。46.在某些实施方式中,在所提供的本发明的方法中使用的测序技术产生至少100阅读每次运行,至少200阅读每次运行,至少300阅读每次运行,至少400阅读每次运行,至少500阅读每次运行,至少600阅读每次运行,至少700阅读每次运行,至少800阅读每次运行,至少900阅读每次运行,至少1000阅读每次运行,至少5000阅读每次运行,至少10000阅读每次运行,至少50000阅读每次运行,至少100000阅读每次运行,至少500000阅读每次运行,至少1000000阅读每次运行,至少2000000阅读每次运行,至少3000000阅读每次运行,至少4000000阅读每次运行,至少5000000阅读每次运行,至少6000000阅读每次运行,至少7000000阅读每次运行,至少8000000阅读每次运行,至少9000000阅读每次运行,或至少10000000阅读每次运行。47.在一些实施方式中,每b细胞取样测序阅读的数量应当为取样的b细胞的数量的至少2倍,取样的b细胞的数量的至少3倍,取样的b细胞的数量的至少5倍,取样的b细胞的数量的至少6倍,取样的b细胞的数量的至少7倍,取样的b细胞的数量的至少8倍,取样的b细胞的数量的至少9倍,取样的b细胞的数量的至少10倍。阅读深度允许取样的b细胞的准确覆盖,有利于误差校正,并确保文库的测序已经饱和。48.在一些实施方式中,每取样的t-细胞的测序阅读的数量应当是取样的t细胞的数量的至少2倍,取样的t细胞的数量的至少3倍,取样的t细胞的数量的至少5倍,取样的t细胞的数量的至少6倍,取样的t细胞的数量的至少7倍,取样的t细胞的数量的至少8倍,取样的t细胞的数量的至少9倍,取样的t细胞的数量的至少10倍。阅读深度允许取样的t细胞的准确覆盖,有利于误差校正,并确保文库的测序已经饱和。49.在某些实施方式中,在所提供的本发明的方法中使用的测序技术可以产生每阅读约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、100bp、约110bp、约120bp、约150bp、约200bp、约250bp、约300bp、350bp、400bp、450bp、500bp、550bp、600bp、700bp、800bp、900bp、或每阅读约1000bp。例如,在所提供的本发明的方法中使用的测序技术能产生至少30、40、50、60、70、80、90、100、110、120、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、或1000通过每阅读。50.真单分子测序(truesinglemoleculesequencing)51.在所提供的本发明的方法中使用的测序技术包括,例如,helicos的真单分子测序(tsms)(harrist.d.等,(2008)science320:106-109)。在tsms技术中,dna样品被切割成约100至200个核苷酸的链,多聚腺苷酸序列被添加到每个dna链的3'端。每条链通过加入荧光标记的腺苷核苷酸被标记。然后dna链被杂交到流式细胞,流式细胞包含数以百万计的被固定到流式细胞表面的寡核苷酸-t的捕获位点。模板可以是在约100万模板/cm2的密度。然后将流式细胞装入工具,例如,heliscopetm测序仪,并激光照射流式细胞的表面,露出每个模板的位置。ccd照相机可以映射流式细胞表面上的模板的位置。然后模板荧光标签被切下并冲走。通过引入dna聚合酶和荧光标记的核苷酸开始测序反应。寡核苷酸-t核酸作为引物。聚合酶以模板引导的方式将标记的核苷酸结合到引物。除去聚合酶和未掺入的核苷酸。具有荧光标记的核苷酸的定向掺入的模板通过流动细胞表面成像来检测。成像之后,裂解步骤除去荧光标签,并用其它荧光标记的核苷酸重复该过程,直到达到所需的阅读长度。针对每个核苷酸添加步骤收集序列信息。52.454测序53.可以在所提供的本发明的方法中使用的dna测序技术的另一个示例是454测序(roche)(margulies,m等,2005,nature,437,376-380)。454测序涉及两个步骤。在第一步骤中,dna被剪切成约300-800个碱基对的片段,并且所述片段是钝端。然后寡核苷酸衔接子被连接到片段的末端。该衔接子充当用于扩增和测序该片段的引物。使用例如含有5'-生物素标记的衔接子b,所述片段可以连接到dna的捕获珠(例如,链霉亲和素包被的珠)。附连到珠的片段是pcr在油-水乳液的液滴内扩增的。其结果是每个珠上有克隆扩增的dna片段的多个拷贝。在第二步骤中,珠被捕获在孔(皮升大小)中。焦磷酸测序在各dna片段上并行进行。一个或多个核苷酸的添加产生由测序仪中的ccd照相机记录的光信号。信号强度与掺入的核苷酸的数目成比例。54.焦磷酸测序利用在核苷酸添加时被释放的焦磷酸(ppi)。ppi在腺苷5'硫酸磷的存在下通过atp硫酸化酶转化为atp。荧光素酶使用atp将萤光素转化为氧化萤光素,该反应产生被检测和分析的光。55.基因组测序仪flxtm56.可以在本发明的方法中使用的dna测序技术的另一个示例是基因组测序仪flx系统(roche/454)。基因组测序仪flx系统(如gsflx/flx ,gsjunior)提供每次运行100万以上的高品质的阅读和400个碱基的阅读长度。这些系统非常适合全基因组的从头测序和任何规模的转录,复杂样品的宏基因组表征,或重测序研究。57.solidtm测序58.可以在所提供的本发明的方法中使用的dna测序技术的另一个示例是solid技术(lifetechnologies公司)。在solid测序中,基因组dna被剪切成片段,衔接子被连接到片段的5'和3'端以产生片段文库。替代地,内部衔接子可以通过下列方式来引入:将衔接子连接到片段的5'和3'端,环化片段,消化环化片段以产生内部衔接子,以及将衔接子连接到所产生的片段的5'和3'端以产生配对文库。接着,在含有珠、引物、模板、和pcr组分的微反应器中制备克隆珠群。接着pcr,模板被变性,珠被富集以用扩展的模板分离珠。所选择的珠上的模板进行允许结合到载玻片的3'修饰。59.序列可通过连续杂交和部分地将无规寡核苷酸与通过特定荧光团标识的中心确定的碱基(或碱基对)连接来确定。在颜色被记录之后,连接的寡核苷酸被裂解和除去,然后重复该过程。60.离子torrenttm测序61.可以在所提供的本发明的方法中使用的dna测序技术的另一个示例是iontorrent系统(lifetechnologies公司)。离子torrent采用高密度阵列的微机械加工的孔,以大规模并行的方式执行该生物化学过程。每个孔容纳不同的dna模板。孔下方是离子敏感层和再下方是专有离子传感器。如果核苷酸(例如c)被加入到dna模板然后掺入到dna链中,则氢离子将被释放。来自该离子的电荷会改变该溶液的ph,其可以通过专有离子传感器检测。测序仪将调用碱基,从化学信息直接到数字信息。离子个人基因组机器(pgmtm)测序仪然后按顺序用一个又一个核苷酸冲洗芯片。如果冲洗芯片的下一个核苷酸不匹配,则没有电压变化会被记录下来,而且没有碱基会被调用。如果在dna链上有两个相同的碱基,则电压将是双倍的,并且芯片将记录调用的两个相同的碱基。因为这是直接检测-无扫描、无照相机、无光-所以每个核苷酸掺入在几秒内被记录。62.hiseqtm和miseqtm测序63.可以在本发明的方法中使用的测序技术的额外的示例包括来自illumina公司的hiseqtm系统(例如,hiseq2000tm和hiseq1000tm)和miseqtm系统。hiseqtm系统基于数百万片段的大规模并行测序,利用无规片段化的基因组dna与平坦的光学透明的表面的附接和固相扩增来产生具有数百万计的簇的高密度测序流式细胞,每簇含有每平方厘米约1000个拷贝的模板。这些模板使用四色dna通过合成的测序技术测序。miseqtm系统使用truseq,illumina的可逆的基于终止子的通过合成的测序。64.solexatm测序65.可以在本发明的方法中使用的测序技术的另一示例是solexa测序(illumina)。solexa测序基于使用折回pcr和锚定引物在固体表面上dna的扩增。基因组dna是片段化的,衔接子被添加到片段的5'和3'端。附着到流式细胞通道的表面的dna片段被延伸和桥扩增。片段成为双链的,并且双链分子被变性。固相扩增接着变性的多个循环可以在流式细胞中的每一个通道中产生相同的模板的单链dna分子的约1000个拷贝的几百万簇。引物,dna聚合酶和4个荧光团标记的、可逆终止核苷酸被用于执行顺序测序。核苷酸掺入后,使用激光来激发荧光团,并捕获图像,记录第一碱基的标识。来自每个掺入的碱基的3'终止子和荧光团被去除并且重复所述掺入,检测和识别步骤。66.smrttm测序67.可以在本发明的方法中使用的测序技术的另一示例包括pacificbiosciences的单分子、实时(smrttm)技术。在smrttm中,四个dna碱基中的每个附连到四种不同的荧光染料之一。这些染料是磷连接的。单个dna聚合酶用在零模式波导(zmw)底部的模板单链dna的单个分子固定。zmw是限制结构使得针对迅速扩散进出zmw(微秒)的荧光核苷酸的背景能够观察通过dna聚合酶的单核苷酸的掺入。需要若干毫秒的时间将核苷酸掺入到生长的链中。在此期间,荧光标签被激发,并产生荧光信号,并且所述荧光标记被切割掉。染料的相应荧光的检测表示哪种碱基被掺入。重复该过程。68.纳米孔测序69.可以在所提供的本发明的方法中使用的测序技术的另一个示例是纳米孔测序(sonigv和mellera.(2007)clinchem53:1996-2001)。纳米孔是直径为约纳米级的很小的洞。,将纳米孔浸入导电流体并在跨越该纳米孔施加电位,由于通过纳米孔的离子的传导性而导致轻微的电流。流动的电流的量对纳米孔的尺寸敏感。由于dna分子通过纳米孔,dna分子上的每个核苷酸堵塞纳米孔到不同的程度。因此,随着dna分子通过纳米孔而通过纳米孔的电流的变化表示dna序列的阅读。70.化学物敏感的场效应晶体管阵列测序71.可以在所提供的本发明的方法中使用的测序技术的另一个示例包括使用化学物敏感的场效应晶体管(chemfet)阵列以测序dna(例如,如在美国专利申请公开no.20090026082中所述)。在该技术的一个示例中,dna分子可以被放入反应室中,模板分子可以被杂交以测序结合到聚合酶的引物。可以通过chemfet按照电流的变化来检测一个或多个三磷酸在测序引物的3'端掺入到新的核酸链。阵列可以具有多个chemfet传感器。在另一示例中,单个核酸可以附着到珠,核酸可以在珠上被扩增,并且单个珠可以被转移到chemfet阵列上的各个反应室,每个室中具有chemfet传感器,并且核酸可以被测序。72.用电子显微镜测序73.可以在所提供的本发明的方法中使用的测序技术的另一个示例包括使用电子显微镜(moudrianakise.n.和beerm.procnatlacadsci美国1965年3月;53:564-71)。在该技术的一个示例中,单个dna分子使用金属标签来标记,该金属标签使用电子显微镜可区别。这些分子然后在平坦表面上被拉伸并用电子显微镜来成像以测量序列。74.本文所描述的测序技术中的任何一个都可以在本发明的方法中使用。75.数字计数及分析76.测序允许在异源生物样品中待检测和定量的多种免疫球蛋白基因的存在。77.高通量测序提供了非常大的数据集,然后将其进行分析以建立组库。78.高通量分析可以使用一个或多个生物信息学工具来实现,如allpaths(全基因组鸟枪汇编,其可以从短阅读产生高质量的组装),arachne(用于从全基因组鸟枪阅读组装基因组序列的工具,主要为通过测序克隆端获得的正向和反向对),baccardl(图形化工具,用于基因组组装验证,帮助基因组整理和基因组间比较),ccravat&qutie(允许操作在大规模病例对照中的罕见变异的分析和定量性状关联研究),cnv-seq(使用高通量测序检测拷贝数变异的方法),elvira(用于小基因组的高通量组装的工具/步骤的集合(例如,病毒)),glimmer(用于在微生物dna,尤其是细菌、古细菌和病毒的基因组中查找基因的系统),gnumap(设计以准确地映射来自新一代测序机器获得的序列数据的程序),goseq(r文库,其用于在校正选择偏误的rna-seq数据上执行基因本体和其他基于类别的测试),icatools(有用于中等到大规模的测序计划0的程序集),locas,组装第二代测序技术的短阅读的程序,maq(通过映射短阅读到参考序列来建立组装),meme(基序为基础的序列分析工具),ngsview(允许通过图形界面在台式机上同时对数以百万计的序列进行可视化和操作),oslay(未完成的组装的优化同线布局),perm(用定期完全敏感间隔接种高效映射短测序阅读),projector(自动重叠群映射用于缺口封闭目的),qpalma(对齐工具,目标调整通过如illumina、solexa、或454之类测序平台产生的叠接的阅读),razers(具有灵敏度控制的快速阅读映射),sharcgs(基于强大的重叠群扩展的短阅读组装器,用于基因组测序);dna组装程序(设计用于从头组装25-40mer输入片段和深序列覆盖率),tablet(下一代序列组装可视化),和velvet(针对很短的阅读的序列组装器)。79.图7的流程图总结了数据分析步骤的非限制性示例。80.分组具有相同的分子标记的阅读:首先基于相同的分子标记匹配序列。81.对每个组构建最小跨度森林:如果汉明距离大于5%,则聚簇到子组(发束)。82.对于每个子组(或树),针对在每次阅读中每个调用的碱基创建正确概率的总和的向量。83.用每个位置中最大总和从碱基创建共有阅读:共有阅读被用于突变分析和多样性测量。84.vdj谱系的多样性:vdj使用是通过观察的谱系落入给定阅读深度的每个vj、vdj、vjc、或vdjc(例如,vdj)组合的数量来列举的。85.vdj和独特序列丰度直方图:直方图是通过分箱vdj和独特序列的丰度成对数间隔的箱(丰度是聚簇的或已经进行谱系分析筛选和分组的)来绘制的。86.vj、vdj、vjc、或vdjc(例如,vdj)使用的三维表示:组库通过将v-、d-、j-、和/或c-段应用到三维图上的不同轴线来表示。使用丰度(通常阅读数量,其可以是偏好性标准化的)或观察的谱系多样性,各种尺寸的气泡被用在各v/d/j/c坐标来表示该组合的总使用量。87.突变与序列丰度图:在经历谱系分析后,独特序列通过阅读数量(或偏好性标准化的丰度)分箱成对数间隔的箱。对于给定的丰度箱,每个独特序列的突变的数量被平均化,得到突变对丰度的曲线。88.v、d、j、c、vj、vdj、vjc、vdjc、抗体重链、抗体轻链、cdr3、或t细胞受体使用的相关测量(pearson,kl趋异性):vj、vdj、vjc或vdjc(例如,vdj)的组合被视为具有由vdj组合的谱系多样性或丰度加权的索引分量v,,的向量。然后在指数上计算每对个体之间的pearson相关性、kl-趋异性。89.在本文中分析的结果可以被称为免疫组库的分析结果,其可以被表示为数据集,其包括序列信息,v、d、j、c、vj、vdj、vjc、vdjc、抗体重链、抗体轻链、cdr3、或t细胞受体使用的代表,v、d、j、c、vj、vdj、vjc、vdjc、抗体重链、抗体轻链、cdr3、或t-细胞受体和独特序列的丰度的代表;突变频率,vj、v、d、j、c、vj、vdj、vjc、vdjc、抗体重链、抗体轻链、cdr3、或t细胞受体使用的相关检测的代表,等等。然后这样的结果可以被输出或存储,例如在组库分析的数据库中,并且可以使用与测试结果、参考结果等进行比较。90.在获得来自实验的样本的免疫组库的分析结果后,组库可以与参照组库或对照组库进行比较,以做出诊断、预后、药物有效性分析或者其它所需的分析。参考组库或对照组库可以通过本发明的方法获得,并且将被选择与感兴趣的样品相关。测试组库结果可以与单个参考/对照组库结果相比较以获得关于从其获得样品的个体的免疫能力和/或历史的信息。替代地,所获得的组库结果可以与两个或更多个不同的参考/对照组库结果进行比较以获得关于测试样本的特性的更深入的信息。例如,所获得的组库结果可以与正和负参考组库结果进行比较以获得关于表型是感兴趣与否的确认信息。在另一示例中,两个“测试”组库还可彼此进行比较。在一些情况下,测试组库与参考样品进行比较,然后结果与第二测试组库和相同的参考样本之间的比较得到的结果相比较。91.差值(即,两个组库之间的差)的测定或分析可以使用任何常规方法进行,其中多种方法对本领域技术人员而言是已知的,例如通过比较组库输出的数字图像,通过比较使用数据的数据库等。92.然后可以进行统计分析步骤以获得序列流行的加权分布,如v,d、j、c、vj、vdj、vjc、vdjc、抗体重链、抗体轻链、cdr3、或t细胞受体使用,突变分析,等等。例如,可以应用如在tibshirani等人,(2002)p.n.a.s.99:6567-6572中描述的最近的缩小的质心分析以计算每个类别的质心,然后计算给定组库和每个质心之间的平均平方距离,由类别内标准偏差归一化。93.统计分析可以包括使用统计度量(例如,熵度量、生态度量、丰度度量的变化、物种丰度度量或物种的异质性的度量。),以便表征免疫受体集合的多样性。也可在本发明中使用用于表征生态物种多样的方法。参见,例如,peet,annurevecol.syst.5:285(1974)。统计度量也可以用来表征丰度或异质性的变化。表征异质性的方法的示例基于信息理论,特别是香农韦弗(shannon-weaver)熵,其概述在单一的数量的频率分布。参见,例如peet,annurevecol.syst.5:285(1974)。94.该分类可概率性定义,截止可以根据经验得出。在本发明的一个实施方式中,约0.4的概率可以用来区别暴露和未暴露于所关注的抗原的个体,更通常为约0.5的概率,并可以利用约0.6或更高的概率。“高”的概率可以是至少约0.75,至少约0.7,至少约0.6或至少约0.5。“低”的概率可以是不超过约0.25,不超过0.3,或不超过0.4。在许多实施方式中,上述获得的信息被用来预测宿主、受试者或患者是否应该用感兴趣的疗法来治疗,并优化其中的剂量。95.诊断和预后96.本发明应用于预防、治疗、检测、诊断、预后、或研究包括生物体的癌症、炎性疾病、自身免疫性疾病、过敏症和感染之类的任何病症或任何病症的症状。优选的生物体是人类受试者,但也可以来自于非人类受试者(例如,非人哺乳动物)。非人哺乳动物的示例包括(但不限于)非人类灵长类(例如,猿、猴、大猩猩)、啮齿动物(例如,小鼠、大鼠)、牛、猪、羊、马、狗、猫、或兔。97.癌症的示例包括前列腺、胰腺、结肠、脑,肺、乳腺、骨和皮肤癌。炎性病症的示例包括肠易激综合症,溃疡性结肠炎,阑尾炎,扁桃体炎,皮炎。特异反应性病症的示例包括过敏症、哮喘等。自体免疫疾病的示例包括胰岛素依赖型糖尿病(iddm)、类风湿性关节炎(ra)、多发性硬化症(ms)、系统性红斑狼疮(sle)、克罗恩氏病(crohn’sdisease)、格雷夫斯病(graves’sdisease)等。自身免疫疾病还包括celiac疾病和疱疹样皮炎。例如,对癌症抗原、自身抗原、致病抗原、疫苗抗原和类似物的免疫应答的确定是感兴趣的。98.在一些情况下,核酸(例如,基因组dna,mrna等)是在生物体已经受抗原(例如,接种疫苗)的激发之后从生物体获取的。在另一些情况下,核酸是在生物体受抗原(例如,接种疫苗)的激发之前从生物体获取的。将激发之前和之后存在的免疫受体的多样性进行比较,这可以协助分析生物体对该激发的响应。99.还提供了通过分析样品中的免疫组库,并基于该信息,选择对于刺激或抑制靶向的免疫应答同时最大限度地减少不希望的毒性是最佳的适当的疗法、剂量、治疗模式等来优化疗法的方法。通过选择最小化不希望的毒性同时提供有效的活性的治疗来最优化治疗。例如,针对与自身免疫疾病相关的免疫组库可评估患者,全身或靶向免疫抑制方案可以基于该信息来选择。100.病症的签名(signature)组库可以指能指示感兴趣的病症的存在的免疫组库结果。例如癌症病史(或特定类型的过敏)可被反映为与一种或多种癌抗原结合的免疫受体序列的存在。自身免疫性疾病的存在可以反映为与自身抗原结合的免疫受体序列的存在。签名可以从全部或一部分的数据集获得,通常签名将包括来自至少约100个不同的免疫受体序列,至少约102个不同的免疫受体序列,至少约103个不同的免疫受体序列,至少约104个不同的免疫受体序列,至少约105个不同的免疫受体序列,或者更多的组库信息。在使用数据集的子集的情况下,该子集可以包括,例如,α-tcr、β-tcr、mhc、igh、igl、或它们的组合。101.本文描述的分类方法是感兴趣的一种手段以检测沿着疾病途径的最早的变化(例如,致癌途径、炎症途径等),和/或监控各种治疗和预防性干预的功效。102.本文公开的方法也可用于分析试剂对免疫系统的细胞的影响。例如,在暴露于一种或多种测试化合物之后可以进行免疫组库的变化分析以分析测试化合物对个体的影响。这样的分析可以用于多种用途,例如在免疫抑制或免疫增强治疗的开发中。103.针对潜在治疗价值进行分析的试剂可以是适用于治疗用途的任何化合物、小分子、蛋白质、脂质、碳水化合物、核酸或其它药剂。优选地,测试在体内执行,例如使用动物模型,以确定对免疫组库的影响。104.用于筛选的感兴趣的试剂包括已知的和未知的化合物,其涵盖许多化学种类,主要是可包括有机金属分子、基因序列等的有机分子。本发明的一个重要方面是评估候选药物,包括毒性试验;等等。105.除了复杂的生物制剂,候选试剂包括含有对结构相互作用所必需的官能团特别是氢键合的有机分子,且通常包括至少胺、羰基、羟基或羧基基团,常常至少化学官能团中的两个。候选试剂可包含被一种或多种上述官能团取代的环状碳或杂环结构和/或芳族或多芳结构。候选试剂也可以在生物分子中找到,生物分子包括肽,多核苷酸、糖类、脂肪酸、类固醇、嘌呤、嘧啶、衍生物、结构类似物或其组合。在一些情况下,测试化合物可具有公知的功能(例如,减轻氧化应激),但也可以通过未知的机理起作用或作用于未知的靶标。包括的是药理学活性药物,基因活性分子等。感兴趣的化合物包括化疗剂、激素或激素拮抗剂,等。适用于本发明的示例性的药剂是下列文献中所述的那些药剂,“治疗的药理学基础(thepharmacologicalbasisoftherapeutics)”,goodman和gilman,mcgraw-hill,纽约,纽约,(1996年),第九版,在该节中:水、盐和离子;药物影响肾功能和电解质代谢;药物影响胃肠功能;微生物疾病的化疗;肿瘤疾病的化疗;药物作用于造血器官;激素和激素拮抗剂;维生素、皮肤病;和毒理学,所有以引用方式并入本文。此外,还包括毒素,生物和化学战争试剂,例如见somani,s.m.(主编),“chemicalwarfareagents,”academicpress,纽约,1992年)。106.测试化合物包括上述所有类别的分子,并且可以进一步包括具有未知内容物的样品。令人感兴趣的是来自如植物、真菌、细菌、原生生物或动物之类天然来源的天然存在的化合物的复杂混合物。虽然许多样品将包括在溶液中的化合物,但也可以检测可以溶解在合适的溶剂中的固体的样品。感兴趣的样品包括诸如地下水、海水、采矿废料之类环境样品,例如从作物、组织样品等制备的裂解物的生物样品;制造样品,例如在药物制备过程中的时间进程;以及用于分析制备的化合物库;等(例如,针对潜在的治疗价值而被评估的化合物,即,候选药物)。107.样品或化合物也可包括额外的组分,例如影响离子强度、ph、总蛋白浓度等的组分。此外,样品可以被处理以实现至少部分分馏或浓缩。如果注意减少化合物的降解,例如在氮气氛、冷冻、或它们的组合的情况下,则生物样品可被存储。所用的样品的体积为足以允许可测量检测,例如,从约0.1ml至1ml的生物样品可以是足够的。108.包括候选试剂的化合物从包括合成或天然化合物文库的各种各样的来源获得。例如,许多方法可用于无规和定向合成包括生物分子的多种有机化合物,包括无规化寡核苷酸和寡肽的表达。可替代地,细菌、真菌、植物和动物提取物形式的天然化合物的文库可购得或容易产生。此外,天然或合成产生的文库和化合物通过传统的化学、物理和生物化学方法被容易地修饰,并且可用于产生组合文库。已知的药理学试剂可以经历定向或无规化学修饰,例如酰化、烷基化、酯化、酰胺化等,以产生结构类似物。109.一些制剂不包括可能会对整个制剂有显著影响的额外的组分,例如防腐剂。因此,这样的制剂基本上由生物活性化合物和生理学可接受的载体(例如水、乙醇、dmso,等等)组成。然而,如果化合物是无溶剂的液体,则该制剂可以基本上由化合物本身组成。110.表达组库的数据库和数据分析111.还提供了免疫组库的数据库或免疫受体集合的数据库。这些数据库通常可包括来源于各种个体病症的组库结果,例如暴露于疫苗、癌症的个体,具有感兴趣的自身免疫性疾病的个体,感染有病原体的个体,和类似物。这种数据库还可以包括来自于合成文库或其他人工方法的免疫受体的序列。组库结果和其数据库可在各种介质中提供,以促进它们的使用来提供。“介质”是指包含本发明的表达组库的信息的制造品。本发明的数据库可以被记录在计算机可读介质中,例如可以由计算机阅读和直接访问的任何媒介。这样的介质包括,但不限于:磁性存储介质,如软盘,硬盘存储介质以及磁带;光学存储介质,诸如光盘;电存储介质,如ram和rom;和这些类别的混合物,如磁/光存储介质。本领域技术人员可以容易地理解任何目前已知的计算机可读介质如何可以被用于创建包括当前数据库的信息的记录的制造品。“记录的”是指使用如本领域已知的任何这样的方法在计算机可读介质上存储信息的过程。根据用于访问所存储的信息的方式,可选择任何方便的数据存储结构。各种数据处理器程序和格式可用于存储例如字处理文本文件、数据库格式等。112.如本文使用的“基于计算机的系统”是指用于分析本发明的信息的硬件装置、软件装置、和数据存储装置。本发明的基于计算机的系统的最小硬件包括中央处理单元(cpu)、输入装置、输出装置和数据存储装置。熟练技术人员可很容易理解,目前可用的基于计算机的系统中的任何一个都适用于本发明。数据存储装置可以包括任何包括上述存在信息的记录的制造品,或可以访问这样的制造品的存储器访问装置。113.输入和输出装置的多种结构格式可以用来输入和输出在本发明的基于计算机的系统中的信息。上述陈述提供给本领域技术人员相似性的等级,并确定包含在测试表达组库中的相似性的程度。114.数据分析也可以采取标度方法。例如,组库结果的pearson相关性可以提供反映各样品的签名的定量评分。相关性值越高,样品越类似于参考组库。负相关性值表示相反的行为。用于分类的阈值可以根据临床目标从零向上或向下移动。115.为了提供显著性排序,可以确定假发现率(fdr)。116.首先,产生相异值的零分布集合。在一个实施方式中,排列观察的组库的值,以产生从偶然性获得的相关性系数的分布的序列,从而产生适当相关性系数的零分布集合(见tusher等人(2001)pnas98,5118-21,其通过引用并入本文)。通过下列步骤获得零分布集合:针对所有可用的组库排列每个组库的值;针对所有组库结果计算成对的相关性系数;针对该排列计算相关性系数的概率密度函数;并重复该步骤n次,其中n是大数,通常为300。使用n次分布,我们计算相关性系数值的计数的适当的测量值(平均值、中值等),它们的值超过从在给定的显著性水平下实验观察到的相似性值的分布获得的(相似性的)值。117.fdr是预期的假显著相关性的数量(从大于在该无规化数据的集合中的选定pearson相关性的相关性估计的)与大于在经验数据(显著相关性)中选定pearson相关性的相关性的数量的比率。这个截止相关性值可被应用于实验组库之间的相关性。118.使用上述分布,针对显著性选择置信度水平。这被用来确定超过会通过偶然性获得的结果的相关系数的最低值。使用这种方法,可以得到正相关性、负相关性或两者的阈值。使用该阈值,用户可以过滤成对相关性系数的观测值,并消除那些不超过阈值的值。此外,假阳性率的估计值可以针对给定的阈值来获得。对于每个单独的“随机相关”分布,可以发现多少观测值落在阈值范围以外。该过程提供计数的序列。该序列的平均值和标准偏差提供潜在的假阳性的平均数目和其标准偏差。119.数据可以进行非监督分级聚簇以揭示组库之间的关系。例如,在pearson相关性被用作聚簇度量的情况下,可以执行分级簇。例如使用多维标度的相关性矩阵的聚簇增强功能同源性相似性和相异性的可视化。多维标度(mds)可以在一个、两个或三个维度上应用。120.该分析可以以硬件或软件,或两者的组合来实现。在发明的一种实施方式中,提供了一种机器可读存储介质,所述介质包括用机器可读的数据编码的数据存储材料,其中,当使用用于使用所述数据的指令编程的机器时,所述机器可读的数据能够显示本发明的任何的数据集和数据比较。这样的数据可以用于多种用途,如药物开发,细胞组分之间的相互作用的分析,等等。在一些实施方式中,本发明在可编程计算机上执行的计算机程序中实现,可编程计算机包括处理器,数据存储系统(包括易失性和非易失性存储器和/或存储元件),至少一个输入设备,以及至少一个输出装置。程序代码被应用于输入数据,以执行上述功能并产生输出信息。输出信息以已知的方式被应用于一个或多个输出设备。所述计算机可以是,例如,个人计算机、微型计算机、或常规设计的工作站。121.每个程序可以在以高级程序的或面向对象的编程语言实现以与计算机系统进行通信。然而,如果需要的话,程序可以以汇编或机器语言来实现。在任何情况下,语言可以是编译语言或解释语言。每个这样的计算机程序可以存储在由通用或专用可编程计算机可读的存储介质或者设备(例如,rom或软磁盘)上,当存储介质或设备被计算机阅读以执行本文所述的程序时用于配置和操作计算机。系统还可以被认为被实现为用计算机程序配置的计算机可读存储介质,其中,如此配置的存储介质使计算机以特定和预定的方式操作以执行这里描述的功能。多种结构格式的输入和输出装置可以用来输入和输出信息在本发明的基于计算机的系统中。用于输出的一种格式测试对值得信赖的组库具有不同程度的相似性的数据集。上述陈述提供给本领域技术人员相似性的等级,并确定包含在测试组库中的相似性的程度。122.存储和传输数据123.本文还提供通过计算机存储和/或发送序列和由本文公开的方法收集的其他数据的方法。包括但不限于软件和存储设备的任何计算机或计算机附件可被用于实施本发明。序列或其他数据(例如,免疫组库的分析结果)可以由用户直接或间接地输入到计算机中。此外,任何可用于测序dna或分析dna或分析免疫组库数据的设备也可以连接到计算机,以使得数据被转移到计算机和/或与计算机兼容的存储设备。数据可以存储在计算机或适当的存储设备(例如,光盘)上。数据也可以从计算机通过在本领域(例如,因特网、地面邮件、航空邮件)中公知的方法传送到另一台计算机或数据收集点。因此,通过本文描述的方法收集的数据可以在任何点或地理位置被收集并发送到任何其他地理位置。124.试剂和试剂盒125.还提供了用于实施一个或一个以上的上述方法的试剂和试剂盒。主题试剂和试剂盒可变化很大。感兴趣的试剂包括专为用于生产上述免疫组库分析而设计的试剂。例如,试剂可包括用于cdna合成、pcr扩增和/或用于一类或亚型的免疫受体的高通量测序的引物组。基因特异性引物和使用该基因特异性引物的方法在美国专利no.5994076中被描述,其公开内容通过引用并入本文。基因特异性引物集合可以仅包括用于免疫受体的引物,或它们可包括用于额外的基因(如,管家基因、控制等)的引物。126.主题发明的试剂盒可包括上述的基因特异性引物集合。所述试剂盒还可以包括用于统计分析的软件包,并且可包括用于计算2个组库之间的匹配的概率的参考数据库。所述试剂盒可以包括各种方法中使用的试剂,如用于产生靶核酸、dntp和/或rntp的引物,其可以是预混合或单独的,一个或多个独特标记的dntp和/或rntp,如生物素化的或cy3或cy5标记的dntp;具有不同散射光谱的金或银粒子;或其它合成后标记的试剂,例如荧光染料的化学活性衍生物;酶,如逆转录酶、dna聚合酶、rna聚合酶、和类似物;各种缓冲介质,如杂交和洗涤缓冲液;预制的探针阵列,标记的探针纯化试剂和组分,如旋转柱等;信号产生和检测试剂,例如链霉素-碱性磷酸酶结合物、化学荧光或化学发光底物,和类似物。127.除了上述组分,本发明试剂盒将进一步包括用于实施本发明方法的说明。这些说明可以各种形式存在于本发明试剂盒中,其中一个或多个可以存在于试剂盒中。其中这些说明可以存在的一种形式是作为在合适的介质或承印物上印刷的信息,例如,在其上印刷信息的一页或多页纸张,在试剂盒的包装中,在包装插入物中,等。而另一种工具是在其上信息已被记录下来的计算机可读介质,例如,软盘、cd等。还可以存在另一种工具是网站地址,其可通过因特网使用以访问在移除的站点处的信息。任何方便的工具可以存在于试剂盒中。128.上述的分析方法可以体现为由计算机执行以执行本发明的不同方面的指令的程序。任何上述的技术可以通过加载到计算机或其它信息装置或数字设备的软件组件的装置来执行。当如此启用时,计算机、装置或设备然后可以执行上述技术,以协助对与多个基因以上述方式相关联的值集合的分析,或用于比较此类相关性值。软件组件可以从固定的介质加载或通过诸如因特网或其他类型的计算机网络之类通信媒介访问。上述特征体现在一个或多个计算机程序可以通过运行这样的程序的一个或多个计算机来执行。129.软件产品(或组件)可以被有形地体现在机器可读介质中,并且包括可操作以使一个或多个数据处理装置执行下列操作的指令,操作包括:a)从多个免疫受体或其片段丛集序列数据;以及b)提供对所述序列数据的统计分析输出。本文还提供了有形地体现在机器可读介质的软件产品(或组件),并且可操作,其包括可操作以使一个或多个数据处理装置执行下列操作的指令,操作包括:存储超过102、103、104、105、106、107、108、109、1010、1011、或1012种免疫受体或超过102、103、104、105、106、107、108、109、1010、1011、或1012个序列阅读的序列数据。130.在一些实施例中,软件产品(或组件)包括用于分配序列数据到v、d、j、c、vj、vdj、vjc、vdjc,或vj/vdj谱系使用类别或用于在多维图中显示分析输出的指令。在一些情况下,多维图针对以下项中的一种列举所有可能值:v、d、j、或c(例如,三维图,其包括列举所有可能的v值的一个轴,列举所有可能的d值的第二轴,和列举所有可能的j值的第三轴)。在一些情况下,软件产品(或组件)包括用于从与条件相关的单个样品中识别一种或多种独特的模式的指令。软件产品(或组件)还可以包括用于针对扩增偏好性进行归一化的指令。在一些实施例中,软件产品(或组件)可以包括用于使用控制数据以针对测序误差进行归一化或用于使用聚簇过程以减少测序误差的指令。软件产品(或组件)还可以包括用于使用两个单独的引物集合或pcr筛选器来降低测序误差的指令。援引并入131.已在整个本公开中参照并引用如专利、专利申请、专利出版物、期刊、图书、报纸、网站的内容之类其他文件。所有这些文件其全部内容在此通过引用并入本文中用于所有目的。等价物132.本发明可以以其他具体形式而不脱离其精神或基本特征的情况下实施。因此前述实施方式在所有方面是说明性的而不是对本文描述的本发明加以限制。因此本发明的范围由所附的权利要求而不是由前述说明指出,并且因此在权利要求的含义和等效范围内的所有改变都旨在被包含在其中。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献