一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于二代测序数据检测MHCII型肿瘤新生抗原的方法和装置与流程

2022-08-11 05:13:14 来源:中国专利 TAG:

技术特征:
1.一种基于二代测序数据检测mhc ii型肿瘤新生抗原的方法,其特征在于:包括以下步骤,肿瘤样本dna数据获取和比对步骤,包括获取肿瘤样本的dna测序数据,并将其比对到人全基因组参考序列,获得dna比对文件;肿瘤样本rna数据获取和比对步骤,包括获取肿瘤样本的rna测序数据,并将其比对到人全基因组参考序列,获得rna比对文件;肿瘤样本hla分型鉴别步骤,包括根据所述dna比对文件,分析鉴定肿瘤样本的hla分型;基因变异检测步骤,包括根据所述dna比对文件,检测dna数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;候选新生抗原突变肽翻译步骤,包括根据所述基因变异检测步骤的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;样本各基因的表达量值计算步骤,包括根据所述rna比对文件分析肿瘤样本各基因的表达量值tpm;mhc ii型肿瘤新生抗原预测步骤,包括根据所述hla分型和mhc ii型肿瘤新生抗原预测模型,从所述候选肿瘤新生抗原集中筛选表达量值tpm大于tpm阈值的氨基酸序列,作为mhc ii型肿瘤新生抗原;所述mhc ii型肿瘤新生抗原预测模型为采用基于蛋白质谱数据集的细胞表面蛋白质谱检测出的肽段序列数据集作为训练数据,训练获得的根据hla分型预测mhc ii型肿瘤新生抗原的模型;所述蛋白质谱数据集含有分离mhc ii型分子与多肽的复合物,将多肽从mhc分型上洗脱下来,再经由蛋白质谱测序获得肽段序列数据集。2.根据权利要求1所述的方法,其特征在于:还包括mhc ii型肿瘤新生抗原预测模型训练步骤,包括(1)获取蛋白质谱数据集,其含有分离mhc ii型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的ii型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的blosum50矩阵对新生抗原肽段进行编码转换成blosum50 matrix,使用编码氨基酸序列的blosum50矩阵对mhc分子进行编码转换成blosum50 matrix,将编码好的两个矩阵分别输入lstm模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得mhc ii型肿瘤新生抗原预测模型。3.根据权利要求2所述的方法,其特征在于:所述mhc ii型肿瘤新生抗原预测步骤中,采用mhc ii型肿瘤新生抗原预测模型进行mhc ii型肿瘤新生抗原预测,具体包括,(1)从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用所述mhc ii型肿瘤新生抗原预测模型对肽段数据集中的短肽进行预测,得到一个预测值数据集;(2)一个mhc ii型肿瘤新生抗原的预测结果值,用其在所述预测值数据集中处于前百分之多少来代表,即在所述预测值数据集中越靠前,则更有可能是高免疫源性的mhc ii型肿瘤新生抗原;优选的,将所述预测结果值小于5%判断为阳性,其对应的多肽即候选mhcii型肿瘤新生抗原,从中筛选表达量值tpm大于tpm阈值的氨基酸序列,即获得mhc ii型肿瘤新生抗原。4.根据权利要求1-3任一项所述的方法,其特征在于:所述tpm阈值为5。
5.一种基于二代测序数据检测mhc ii型肿瘤新生抗原的装置,其特征在于:包括肿瘤样本dna数据获取和比对模块、肿瘤样本rna数据获取和比对模块、肿瘤样本hla分型鉴别模块、基因变异检测模块、候选新生抗原突变肽翻译模块、样本各基因的表达量值计算模块、mhc ii型肿瘤新生抗原预测模型训练模块、mhc ii型肿瘤新生抗原预测模块;所述肿瘤样本dna数据获取和比对模块,包括用于获取肿瘤样本的dna测序数据,并将其比对到人全基因组参考序列,获得dna比对文件;所述肿瘤样本rna数据获取和比对模块,包括用于获取肿瘤样本的rna测序数据,并将其比对到人全基因组参考序列,获得rna比对文件;所述肿瘤样本hla分型鉴别模块,包括用于根据所述dna比对文件,分析鉴定肿瘤样本的hla分型;所述基因变异检测模块,包括用于根据所述dna比对文件,检测dna数据中相较于人全基因组参考序列所发生的基因变异,包括点突变和插入缺失突变;所述候选新生抗原突变肽翻译模块,包括用于根据所述基因变异检测模块的结果,将发生变异的基因翻译为氨基酸序列,将其作为候选肿瘤新生抗原集;所述样本各基因的表达量值计算模块,包括用于根据所述rna比对文件分析肿瘤样本各基因的表达量值tpm;所述mhc ii型肿瘤新生抗原预测模型训练模块,包括用于(1)获取蛋白质谱数据集,其含有分离mhc ii型分子与多肽的复合物,复合物中的多肽被洗脱下来,经由蛋白质谱测序即得到该多肽的氨基酸序列,由此获得细胞表达呈递的ii型抗原数据集,作为训练数据;(2)使用编码氨基酸序列的blosum50矩阵对新生抗原肽段进行编码转换成blosum50 matrix,使用编码氨基酸序列的blosum50矩阵对mhc分子进行编码转换成blosum50 matrix,将编码好的两个矩阵分别输入lstm模型中进行训练,训练至验证集的损失函数值不再明显改善,即获得mhc ii型肿瘤新生抗原预测模型;所述mhc ii型肿瘤新生抗原预测模块,包括用于根据所述hla分型和所述mhc ii型肿瘤新生抗原预测模型,从所述候选肿瘤新生抗原集中筛选表达量值tpm大于tpm阈值的氨基酸序列,作为mhc ii型肿瘤新生抗原。6.根据权利要求5所述的装置,其特征在于:所述mhc ii型肿瘤新生抗原预测模块中,采用mhc ii型肿瘤新生抗原预测模型进行mhc ii型肿瘤新生抗原预测,具体包括,(1)从人蛋白组数据集中随机截取长度为13-19长度的短肽,形成一个肽段数据集,使用所述mhc ii型肿瘤新生抗原预测模型对肽段数据集中的短肽进行预测,得到一个预测值数据集;(2)一个mhc ii型肿瘤新生抗原的预测结果值,用其在所述预测值数据集中处于前百分之多少来代表,即在所述预测值数据集中越靠前,则更有可能是高免疫源性的mhc ii型肿瘤新生抗原。7.根据权利要求6所述的装置,其特征在于:将所述预测结果值小于5%判断为阳性,其对应的多肽即候选mhc ii型肿瘤新生抗原,从中筛选表达量值tpm大于tpm阈值的氨基酸序列,即获得mhc ii型肿瘤新生抗原。8.根据权利要求5-7任一项所述的装置,其特征在于:所述tpm阈值为5。9.一种基于二代测序数据检测mhc ii型肿瘤新生抗原的装置,其特征在于:所述装置包括存储器和处理器;
所述存储器,包括用于存储程序;所述处理器,包括用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的基于二代测序数据检测mhc ii型肿瘤新生抗原的方法。10.一种计算机可读存储介质,其特征在于:所述存储介质中包括程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的基于二代测序数据检测mhc ii型肿瘤新生抗原的方法。

技术总结
本申请公开了一种基于二代测序数据检测MHC II型肿瘤新生抗原的方法和装置。本申请方法包括,分别获取肿瘤样本DNA和RNA测序数据,比对到人全基因组参考序列,分析鉴定肿瘤样本HLA分型,发生变异的基因,并将发生变异的基因翻译为氨基酸序列,将其作为候选集,分析各基因表达量值TPM,最后,根据HLA分型和MHC II型肿瘤新生抗原预测模型,从候选集中筛选表达量值TPM大于TPM阈值的氨基酸序列,作为MHC II型肿瘤新生抗原。本申请方法,直接通过二代测序数据预测MHC II型肿瘤新生抗原,解决了肿瘤免疫治疗中对II型新生抗原预测和筛选的迫切需求,为肿瘤免疫研究和针对新生抗原的免疫治疗提供了帮助。提供了帮助。提供了帮助。


技术研发人员:但旭 王佳茜
受保护的技术使用者:深圳裕泰抗原科技有限公司
技术研发日:2022.05.27
技术公布日:2022/8/9
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献