一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于模板序列和参考细胞的TCRβ高通量测序数据校正和标准化的方法

2022-06-08 10:14:36 来源:中国专利 TAG:

基于模板序列和参考细胞的tcr
β
高通量测序数据校正和标准化的方法
技术领域
1.本发明涉及生物技术领域,特别是涉及一种基于模板序列和参考细胞的tcrβ高通量测序数据校正和标准化的方法。


背景技术:

2.t细胞受体(t cell receptor,tcr)是t细胞表面的特异性受体,负责识别由主要组织相容性复合体(mhc)所递呈的抗原,并介导免疫应答。了解t细胞受体库的多样性组成,有助于我们对机体免疫状态的认识,进而弄清免疫性疾病发生发展的内在动因,为相关疫苗的研制、疾病的治疗提供帮助。t细胞受体β亚基上的互补决定区3(complementarities determining region 3,cdr3)是tcr受体上十分重要的区域,这一区域对抗原肽有着最强的结合能力,也是多样性最高的区域,最能代表tcr的多样性,因此,研究者们大多通过研究t细胞受体β链的cdr3(tcrβcdr3)的多样性来研究t细胞受体免疫组库的多样性。
3.对t细胞受体库的研究在技术上经历了三个主要发展阶段,是一个从粗略到精细的过程。最初的流式细胞术利用t细胞各亚家族的单克隆抗体仅能够对t细胞各亚家族的分布与缺失进行分析,得到比较粗略的结果。后来,研究者们根据tcr基因重排规则和tcr基因家族同源性的特点提出了免疫扫描谱系分析技术,相对于流式细胞术,该技术不仅能够分析t细胞各亚家族的分布情况,而且能够分析tcr库中cdr3长度的分布规律,但其还无法对具体的tcr序列进行分析。随着高通量测序技术的发展,研究者们开发了t细胞受体测序技术(tcr-seq),该技术能够对样品中所有的tcr进行测序分析,获得所有t细胞受体的遗传信息,全面揭示t细胞受体库的复杂性和多样性。但是t细胞受体库深度测序过程中,测序错误严重影响了对t细胞库多样性的估计。而且建库过程中需要对样本中的cdr3序列进行多重pcr扩增,多重引物相互之间的干扰以及扩增效率的不同,会产生扩增偏倚。由此可见,目前,t细胞受体库测序数据的校正问题还没有得到很好的解决,因此,需要建立有效的方法校正扩增偏倚、pcr和测序错误,以促进t细胞受体库的研究。


技术实现要素:

4.鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于模板序列和外参细胞的tcrβ高通量测序数据校正和标准化的方法,本发明通过模板序列和外参细胞的引入,开发了一种tcrβ库测序数据校正和标准化方法,建立了一种tcrβ库定量分析的方法。
5.为实现上述目的及其他相关目的,本发明提供一种基于模板序列和参考细胞的tcr高通量测序数据校正和标准化的方法,包括如下步骤:
6.(a)在样本中掺入固定数目的外参细胞和固定数目的合成模板,构建tcrβ的高通量测序文库,并使用高通量测序平台进行测序;
7.(b)利用加入的模板序列分析扩增偏倚规律;
8.(c)校正测序过程中产生的测序错误;
no.3-25所示的序列的比例依次为1∶2∶6∶6∶2∶2∶6∶2∶6∶6∶1∶2∶2∶6∶6∶6∶6∶1∶1∶2∶1∶2∶2。
31.可选地,多重pcr反应程序为:95℃预变性10min;95℃变性30s,59℃退火90s,72℃延伸90s,循环35次;最后72℃后延伸10min。
32.进一步,步骤(6)中,使用的高通量测序平台为ion pgm平台,但不局限于此平台,本领域技术人员可以根据需求选择不同的高通量测序平台。
33.进一步,步骤(a)中,所述外参细胞的t细胞受体序列与样本中t细胞受体序列不同;优选地,所述外参细胞为2b4杂交瘤细胞,但不限于2b4杂交瘤细胞,只要其tcr序列与样本中tcr序列不同,皆可用作于外参细胞;本发明实施例中使用的2b4杂交瘤细胞数目为200个,具体外参细胞数目可根据样本中t细胞数量多少进行调整。
34.进一步,步骤(a)中,所述模板有23条,序列如seq id no.26-48所示,所述模板序列由v基因(v gene)、3个长度为6的分子条形码(bc)、d基因(d gene)、j基因(j gene)和c基因(c gene)构成,体现了tcrβ的序列特点。具体的,在v基因和c基因中包含扩增引物结合的位点。由于有功能的v基因只有23个,因此本发明用不同的v基因设计合成了23条模板序列,该序列的长度为366bp。其中分子条形码的长度不局限于6个,本领域技术人员可以根据实际需要进行自行调整。
35.进一步,步骤(b)中,利用分子条形码统计含有不同v基因的模板序列的测序reads数目,利用模板数目考察在混入样本后模板序列的扩增偏倚规律,计算扩增偏倚指数,扩增偏倚指数计算公式如下:
[0036][0037]
i=1

23,n=23,count(vi)为测序得到的模板序列vi的数目;若n(s)为cdr3序列s的频数,vi为s的v基因类型,则其校正后的频数n

(s)=n(s)
×
abi(vi)。
[0038]
进一步,步骤(c)中,采用dayhoff方法构建替代矩阵,用于计算tcrβ的互补决定区3(complementarities determining region 3,cdr3)序列间的相似性,以校正测序过程中产生的序列错误,具体步骤为:将得到的替代矩阵作为双序列比对的参数,计算序列间的相似性得分,确定原始序列与错误序列间的相似性阈值,以此阈值为依据将低频错误序列合并到高频序列中,实现测序错误校正。
[0039]
进一步,步骤(d)中,利用外参细胞对样本测序数据进行数据标准化:假设加入外参细胞数目为n,测得的reads数目为m,而某一cdr3的reads数目为k,则标准化后,这一cdr3所对应的细胞的数目p为
[0040][0041]
如上所述,本发明的基于模板序列和参考细胞的tcrβ高通量测序数据校正和标准化的方法,具有以下有益效果:
[0042]
本发明以高通量测序的方式,采用标准化流程,通过扩增偏倚校正,测序错误校正,样本标准化,可以对tcr高通量测序数据的校正和标准化,最后获得精准而真实的t细胞受体库分布。
附图说明
[0043]
图1显示为本发明实施例提供的数据处理流程图。
[0044]
图2显示为本发明实施例提供的替代矩阵示意图。
[0045]
图3显示为本发明实施例提供的序列相似性阈值确定方法示意图。
[0046]
图4显示为本发明实施例提供的序列频数阈值确定方法示意图。
[0047]
图5显示为本发明实施例提供的测序错误校正方法示意图。
[0048]
图6显示为校正和标准化后的数据示例。
具体实施方式
[0049]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
[0050]
以下实施例以小鼠脾脏cd3 t细胞为例,进行文库构建、测序和数据分析。下面通过具体的实施例来对本发明进行详细地说明。
[0051]
实施例1
[0052]
小鼠脾脏cd3 t细胞的tcrβ文库构建、测序。
[0053]
1、rna提取
[0054]
分选1000,000个小鼠脾脏cd3 t细胞,加入800ul trizol(trizol reagent,invitrogen,15596018),吹打混匀,室温静置5min,加入200ul溶解有200个2b4杂交瘤细胞的trizol溶液;加入200ul氯仿,颠倒混匀30s,室温放置3min;4℃,12000g离心15min;吸取上层水相至另一ep管;按0.5ml异丙醇/ml trizol加入异丙醇,颠倒混匀,室温放置10min;4℃,12000g离心10min;按1ml 75%乙醇/ml trizol加入75%乙醇,温和震荡,悬浮沉淀;4℃,8000g离心5min,吸去上清;室温晾干5-10min;用合适体积的无rna酶水溶解,得小鼠总rna,并进行浓度测定和质控。
[0055]
将提取所得rna用epoch测定rna浓度和质量。检测结果显示,od260/od280在1.8~2.0左右。
[0056]
利用变性胶电泳检测28s,18s和5s。检测结果显示,条带明显,28s/18s在2.0左右。
[0057]
上述检测结果表明本实施例提取的rna质量满足建库需求,能够用于后续建库。
[0058]
2、逆转录
[0059]
将步骤1获得的总rna样本进行逆转录,逆转录时使用revertaid first strand cdna synthesis kit(thermo scientific,k1622),具体操作按试剂盒说明书进行。逆转录具体操作如下:
[0060]

取0.1ug rna,配制如表1所示的反应体系,然后于pcr仪中72℃孵育3min,迅速冰上5min。
[0061]
表1
[0062]
reagentvolume(ul)trbc primer(10um)1water11-x
rna0.1ug(xul)total12
[0063]
其中,trbc的序列为:actgtggacctccttgcca(seq id no.1)。
[0064]

将上述产物加入表2所示的反应体系中,然后于pcr仪中42℃孵育60min,70℃孵育10min,获得反转录产物cdna。
[0065]
表2
[0066]
reagenteach well v(ul)5x first strand buffer4dntps2rnase inhibitor1revertaid reverse transcriptase1total20
[0067]
3、多重pcr
[0068]
配制如表3所示的反应体系:
[0069]
表3
[0070]
reagentvolume(ul)mpcr premix25fw-primner mix5rw-primer5template mix1cdna5water9total volume50
[0071]
反向引物的序列如seq id no.2所示:
[0072]
ccatctcatccctgcgtgtctccgactcag<barcode>agaccttgggtggagtcac。
[0073]
表3中fw-primer mix组成及比例如表4所示:
[0074]
表4 fw-primer mix组成及比例
[0075][0076][0077]
表3中template mix组成如表5所示:
[0078]
表5 template mix组成
[0079]
[0080]
[0081][0082]
终浓度为200copies/template/ul。反应程序为:95℃预变性10min;95℃变性30s,59℃退火90s,72℃延伸90s,循环35次;最后72℃后延伸10min。
[0083]
4、胶回收(qi aquick gel extraction kit):
[0084]
配制3%tae琼脂糖凝胶(低熔点琼脂糖凝胶),在50v电压下,电泳3h;然后在紫外下,将含目的条带的凝胶切下来,放入1.5ml ep管中;加入1ml qg solubilization buffer,45℃水浴5-10min,直至胶块完全溶解后,再冰浴1-2min;将溶解好的溶胶液加入到吸附柱上,每次加入500μ1,13,000rpm离心1min,一次加不完,可分多次加入;离心后倒掉收
集管中的废液,将吸附柱放回收集管中,向吸附柱中加入300μl qg solubilization buffer,13,000rpm离心1min;倒掉收集管中的废液,将吸附柱放回收集管中,13,000rpm离心2min;n;将吸附柱放在一个新的1.5ml ep管中,向吸附柱中加入30ul超纯水,静置2min,最后,13,000rpm下离心2min。收集洗脱液,该洗脱液为建库样本。
[0085]
5、文库质控
[0086]
文库纯化结束后,利用qubit2.0测定不同样本的文库浓度,并用安捷伦fragment analyzer全自动毛细管电泳系统检测不同样本的文库的片段分布。
[0087]
6、测序
[0088]
将所得的文库通过ionpgm高通量测序平台进行测序。
[0089]
实施例2
[0090]
小鼠脾脏cd3 t细胞的tcrβ定量分析。
[0091]
通过评估外参细胞测得的tcr数目作为样本中t细胞数目的参考;通过模板序列进行测序错误的校正。利用“高频序列更可能是原始正确序列”这一假设,用逐步提取聚类(stepwise extraction clustering method)的方法来校正测序错误。使用模板序列中的分子条形码将模板序列从测序样本中分离出来,统计不同v模板序列的测序reads数目,考察在混入样本后,其扩增偏倚的规律,探寻校正扩增偏倚的方法,以校正由碱基突变偏倚引起的测序错误。
[0092]
本实施例基于小鼠脾脏cd3 t细胞测序数据(参见实施例1),以研究小鼠脾脏的tcrβ库特征。数据处理流程图如图1所示,具体处理过程如下:
[0093]
1、分离小鼠脾脏cd3 t细胞的tcrβ序列(即样本)、模板序列、外参细胞序列的测序数据。
[0094]
根据模板的标签序列从测序数据中分离出模板序列测序数据,根据2b4细胞cdr3序列从测序数据中分离出参考细胞2b4细胞序列测序数据,剩余的为小鼠脾脏tcr序列测序数据。
[0095]
2、计算扩增偏倚指数。
[0096]
根据模板序列标签将序列分配到23条模板序列上,统计各种模板序列的频数。计算扩增偏倚指数,扩增偏倚指数计算公式如下:
[0097][0098]
i=1

23,n=23,count(vi)为测序得到的模板序列vi的数目。
[0099]
3、计算替换矩阵。
[0100]
根据23条模板的真实序列及测序序列计算替换矩阵(图2),其步骤为:将错误序列和原始序列(是指测序得到的序列,即真实序列)用双序列比对方法对齐;计算碱基j的相对突变率mj(rnj是指j被其它碱基替换的次数);针对每个碱基对i和j,计算j被i替换的次数;替换次数除以相对突变率(mj);利用碱基出现的频度对j进行标准化;取常用对数,得到碱基替换矩阵。
[0101]
4、计算相似性阈值和频数比例阈值。
[0102]
将得到的替代矩阵作为双序列比对的参数,利用替换矩阵计算错误序列和真实序列之间的相似性得分,以95%的置信区间确定原始序列和错误序列之间的相似性阈值(图
3)。统计错误序列和真实序列的频数比例,用频数最高的错误序列确定频数比例阈值(图4)。
[0103]
以频数比例阈值为依据将低频错误序列合并到真实序列中,实现测序错误校正。
[0104]
5、识别小鼠脾脏cd3 t细胞tcrβ的cdr3序列。
[0105]
根据tcrβ链cdr3的v基因和j基因特征序列,识别出测序数据中的克隆序列,统计各cdr3序列的频数,对应的v基因、j基因、cdr3核苷酸序列和cdr3氨基酸序列。
[0106]
6、校正扩增偏倚。
[0107]
根据步骤2中的得到的扩增偏倚指数对步骤5得到的cdr3序列的扩增偏倚进行校正。具体为:若n(s)为cdr3序列s的频数,vi为cdr3序列s的v基因类型,则其校正后的频数n

(s)=n(s)
×
abi(vi)。
[0108]
7、校正测序错误。
[0109]
如图5所示,步骤如下:a)按照频数将cdr3序列从高到底排列,b)取频数最高的cdr3序列作为聚类中心,c)对于剩余的未被聚类的cdr3序列,将相似性得分大于相似性阈值、频数比小于比例阈值、且具有相同v基因和j基因的cdr3序列合并到该聚类中。d)重复b)c),直到所有的cdr3序列均已被聚类。
[0110]
8、利用参考细胞2b4对样本进行标准化。
[0111]
假设加入2b4细胞数目为n,测得的reads数目为m,而某一cdr3序列的reads数目为k,则标准化后,这一cdr3序列所对应的细胞的数目p为
[0112][0113]
9、输出校正和标准化后的数据。
[0114]
将上述得到的校正和标准化后的小鼠脾脏cd3 t细胞的tcrβ数据按照图6的csv格式进行保存,用于后续分析。
[0115]
表6分选细胞数与校正细胞数的比较图
[0116][0117]
综上所述,本发明通过加入外参细胞2b4杂交瘤细胞,可以对样本的总细胞数目进行有效的估计;通过使用优化了的多重pcr引物,可以更好地减少多重pcr引物相互之间的干扰和扩增偏倚;通过加入含有3个分子条码的模板序列,可以帮助tcr高通量测序数据的校正和标准化,最后获得精准而真实的t细胞受体库分布。
[0118]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献