一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

肿瘤特异环状RNA的新抗原鉴定方法及装置、设备、介质与流程

2022-10-26 15:49:39 来源:中国专利 TAG:

肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
技术领域
1.本发明属于生物信息学技术领域,具体涉及一种肿瘤特异环状rna的新抗原鉴定方法及装置、电子设备、存储介质。


背景技术:

2.区别于传统认识,许多体内稳定存在的长非编码rna以共价闭合环形结构存在,其中大部分由反向剪接产生,被称为环状rna(circular rna,circrna)。近年来,随着转录组测序新技术的发展和应用,以及相应计算生物学分析流程的不断优化,科学家在真核生物中发现了多达数十万条的外显子反向剪接环状rna。
3.有研究发现,环状rna编码的蛋白质在调节癌细胞生长过程中具有重要作用。环状rna由于具有共价闭合的稳定结构,降解速度比mrna低,其编码新抗原在肿瘤细胞中存续时间长,更可能被t细胞识别。
4.但是,环状rna由于其大部分序列与正常的基因组序列完全一致,仅在反向剪接连接点附近才有所不同,且同一基因转录出的线性rna会干扰环状rna的检测,因此目前环状rna的检测结果假阳性居高不下,导致环状rna新抗原鉴定准确性较低。


技术实现要素:

5.本发明的目的在于提供一种肿瘤特异环状rna的新抗原鉴定方法及装置、设备、存储介质,可以提高环状rna的鉴定准确性,进而使得环状rna衍生的新抗原更具免疫原性。
6.本发明第一方面公开一种肿瘤特异环状rna的新抗原鉴定方法,包括:获取肿瘤组织样本的第一测序数据和癌旁组织样本的第二测序数据;
7.分别对所述第一测序数据和所述第二测序数据进行环状rna检测,获得多个候选环状rna;
8.对每个所述候选环状rna按照其序列顺序构建反向的bsj位点上下游各第一指定长度的伪参考序列;
9.将所述第一测序数据中具有所述bsj位点且所述bsj位点上下游各第二指定长度的序列与所述伪参考序列相匹配的reads确定为第一候选reads;以及,将所述第二测序数据中具有所述bsj位点且所述bsj位点上下游各第二指定长度的序列与所述伪参考序列相匹配的reads确定为第二候选reads;其中,所述第二指定长度小于或等于所述第一指定长度;
10.将具有所述第一候选reads支持的候选环状rna确定为从所述肿瘤组织样本中检测到的第一环状rna;以及,将具有所述第二候选reads支持的候选环状rna确定为从所述癌旁组织样本中检测到的第二环状rna;
11.从多个所述第一环状rna中滤除与所述第二环状rna相同的第一环状rna,获得多个肿瘤特异环状rna;
12.预测每个所述肿瘤特异环状rna的翻译能力分值;
13.获取多个所述肿瘤特异环状rna衍生的多个新抗原候选肽段;
14.根据所述肿瘤特异环状rna的翻译能力分值,对多个所述新抗原候选肽段分别进行免疫原性打分并排序;
15.将排序靠前的指定个数的新抗原候选肽段确定为新抗原目标肽段。
16.本发明第二方面公开一种肿瘤特异环状rna的新抗原鉴定装置,包括:数据获取单元,用于获取肿瘤组织样本的第一测序数据和癌旁组织样本的第二测序数据;
17.检测单元,用于分别对所述第一测序数据和所述第二测序数据进行环状rna检测,获得多个候选环状rna;
18.伪参考单元,用于对每个所述候选环状rna按照其序列顺序构建反向的bsj位点上下游各第一指定长度的伪参考序列;
19.比对单元,用于将所述第一测序数据中具有所述bsj位点且所述bsj位点上下游各第二指定长度的序列与所述伪参考序列相匹配的reads确定为第一候选reads;以及,将所述第二测序数据中具有所述bsj位点且所述bsj位点上下游各第二指定长度的序列与所述伪参考序列相匹配的reads确定为第二候选reads;其中,所述第二指定长度小于或等于所述第一指定长度;
20.第一确定单元,用于将具有所述第一候选reads支持的候选环状rna确定为从所述肿瘤组织样本中检测到的第一环状rna;以及,将具有所述第二候选reads支持的候选环状rna确定为从所述癌旁组织样本中检测到的第二环状rna;
21.滤除单元,用于从多个所述第一环状rna中滤除与所述第二环状rna相同的第一环状rna,获得多个肿瘤特异环状rna;
22.翻译预测单元,用于预测每个所述肿瘤特异环状rna的翻译能力分值;
23.肽段获取单元,用于获取多个所述肿瘤特异环状rna衍生的多个新抗原候选肽段;
24.打分单元,用于根据所述肿瘤特异环状rna的翻译能力分值,对多个所述新抗原候选肽段分别进行免疫原性打分并排序;
25.第二确定单元,用于将排序靠前的指定个数的新抗原候选肽段确定为新抗原目标肽段。
26.本发明第三方面公开一种电子设备,包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行第一方面公开的肿瘤特异环状rna的新抗原鉴定方法。
27.本发明第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行第一方面公开的肿瘤特异环状rna的新抗原鉴定方法。
28.本发明的有益效果在于,所提供的肿瘤特异环状rna的新抗原鉴定方法及装置、设备、存储介质,通过对检测出的候选环状rna构建用于重比对的伪参考序列,分别将肿瘤组织样本和癌旁组织样本的测序数据与伪参考序列进行比对,分别提取出比对上的第一候选reads和第二候选reads,将具有第一候选reads支持的候选环状rna确定为从肿瘤组织样本中检测到的第一环状rna,而具有第二候选reads支持的候选环状rna确定为从癌旁组织样本中检测到的第二环状rna,两者相融合可将同时存在于肿瘤组织样本和癌旁组织样本中的正常环状rna滤除,获得肿瘤特异环状rna,然后进一步预测肿瘤特异环状rna的翻译能力
分值,据此对其衍生的新抗原候选肽段进行免疫原性打分并排序,最终将排序靠前的确定为新抗原目标肽段,从而可以在增加肿瘤新抗原的来源、扩宽新抗原筛选范围的同时,提高环状rna的鉴定准确性,进而使得环状rna衍生的新抗原更具免疫原性。
附图说明
29.此处的附图,示出了本发明所述技术方案的具体实例,并与具体实施方式构成说明书的一部分,用于解释本发明的技术方案、原理及效果。
30.除非特别说明或另有定义,不同附图中,相同的附图标记代表相同或相似的技术特征,对于相同或相似的技术特征,也可能会采用不同的附图标记进行表示。
31.图1是一种肿瘤特异环状rna的新抗原鉴定方法的流程图;
32.图2是环状rna的反向各100bp伪参考序列的结构示意图;
33.图3是同一bsj位点形成的两个不同的环状rna序列的结构示意图;
34.图4是一种肿瘤特异环状rna的新抗原鉴定装置的结构示意图;
35.图5是本发明实施例公开的一种电子设备的结构示意图。
36.附图标记说明:
37.401、数据获取单元;402、检测单元;403、伪参考单元;404、比对单元;405、第一确定单元;406、滤除单元;407、翻译预测单元;408、肽段获取单元;409、打分单元;410、第二确定单元;501、存储器;502、处理器。
具体实施方式
38.为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。
39.除非特别说明或另有定义,本文所使用的所有技术和科学术语与所属技术领域的技术人员通常理解的含义相同。在结合本发明的技术方案以现实的场景的情况下,本文所使用的所有技术和科学术语也可以具有与实现本发明的技术方案的目的相对应的含义。本文所使用的“第一、第二
…”
仅仅是用于对名称的区分,不代表具体的数量或顺序。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
40.除非特别说明或另有定义,本文所使用的“所述”、“该”为相应位置之前所提及或描述的技术特征或技术内容,该技术特征或技术内容与其所提及的技术特征或技术内容可以是相同的,也可以是相似的。
41.毫无疑义,与本发明的目的相违背,或者明显矛盾的技术内容或技术特征,应被排除在外。
42.如图1所示,本发明实施例公开一种肿瘤特异环状rna的新抗原鉴定方法,包括以下步骤s1~s10:
43.s1、获取肿瘤组织样本的第一测序数据、癌旁组织样本的第二测序数据、以及肿瘤组织样本基于多核糖体分析的第三测序数据。
44.优选地,样本建库采用a tailing rnase r(li buffer)方法处理。有研究表明,该方法可以最大程度地消化线性rna,不仅有利于准确检测环状rna(circrna),对确定环状rna的全长序列也非常重要。
45.在本发明实施例中,样本包括肿瘤组织样本和癌旁组织样本,该步骤中第一测序数据、第二测序数据和第三测序数据均是二代高通量环状rna测序数据,且均可以是对下机的原始测序数据进行质控过滤后获得的高质量测序数据。
46.具体的在步骤s1中,针对下机的肿瘤组织样本、癌旁组织样本的原始测序(circleseq)数据、肿瘤组织样本基于多核糖体分析的原始测序(polysome profiling rnaseq)数据,均分别进行相同的质控过滤处理,从而获得第一测序数据、第二测序数据和第三测序数据。其中,质控过滤处理可以包括以下步骤s101~s102:
47.s101、获取下机的原始测序数据进行去adapter操作,并滤除低质量的reads,获得过滤后的reads。
48.该步骤中,对原始测序数据进行去adapter操作,以滤除adapter(接头)序列;同时滤除低质量的reads,具体以长度为10、步长为1的窗口在下机的原始数据上向右滑动,每滑动一次就计算窗口内10个碱基的平均测序质量,若平均测序质量《15,则判定该窗口序列及其右侧序列为低质量区域,将该窗口序列及其右侧序列所在的整条reads删除,然后进一步对删除后首次保留下来的reads进行长度判断,要求reads的序列长度》20bp,也即是说,若删除后首次保留下来的reads的序列长度《20bp,则认为该reads为低质量的reads,将整条reads删除,删除后最终保留的则为过滤后的reads。
49.s102、将过滤后的reads比对到人类核糖体rna序列,将未比对上的reads作为高质量测序数据。
50.其中,将过滤后的reads比对到人类核糖体rna序列,滤除比对上核糖体的reads,而将未比对上的reads保留为高质量测序数据用作后续分析,可以避免核糖体rna污染影响分析结果。
51.s2、分别对第一测序数据和第二测序数据进行环状rna检测,获得多个候选环状rna。
52.步骤s2中,针对肿瘤组织样本的第一测序数据和癌旁组织样本的第二测序数据进行相同的处理,从而进行环状rna检测。为了避免冗余的叙述,以下以肿瘤组织circleseq测序数据(即第一测序数据)进行举例,下面使用的tumor.circ.r1.fq和tumor.circ.r2.fq表示测序数据文件名。
53.优选的,分别使用检测算法circexplorer2和ciri2的标准算法流程检测肿瘤组织中的环状rna。其中,circexplorer2标准算法流程包括align、parse、annotate三个步骤,概述如下:
54.align步骤中使用比对软件star对第一测序数据进行比对,示例命令为:
55.star\
56.‑‑
chimsegmentmin 10\
57.‑‑
runthreadn 10\
58.‑‑
genomedir hg38_star_index\
59.‑‑
readfilesin tumor.circ.r1.fq tumor.circ.r2.fq
60.其中,
‑‑
chimsegmentmin指明嵌合比对中一端比对的碱基数至少为10bp;
61.‑‑
runthreadn指明运行的线程数;
‑‑
genomedir指明所使用的参考索引文件路径;
‑‑
readfilesin指明输入的测序数据。
62.parse步骤中使用circexplorer2 parse命令解析align步骤中输出的junction信息,示例命令为:
63.circexplorer2 parse\
[0064]-t star\
[0065]-b back_spliced_junction.bed\
[0066]
chimeric.out.junction
[0067]
其中,-t指明align步骤所使用的比对工具;-b指明输出的文件名;chimeric.out.junction表示输入文件名。
[0068]
annotate步骤中根据提供的基因注释文件来注释反向剪接位点,示例命令为:
[0069]
circexplorer2 annotate\
[0070]-r gtf\
[0071]-g hg38.fa\
[0072]-b back_spliced_junction.bed\
[0073]-o tumor_circrna.txt
[0074]
其中,-r指明基因注释文件;-g指明人类参考基因组文件;-b指明parse步骤输出的junction信息;-o指明输出文件名。
[0075]
另外一种检测算法ciri2的标准流程示例命令如下:
[0076]
perl ciri2.pl\
[0077]
‑‑
intumor.circ.sam\
[0078]
‑‑
ref_file hg38.fa\
[0079]
‑‑
anno gtf\
[0080]
‑‑
out outfile
[0081]
其中,
‑‑
in指明由sam格式文件,该文件由bwa-mem工具比对circrna测序数据生成;
‑‑
ref_file指明人类参考基因组文件;
‑‑
anno指明基因注释文件;
‑‑
out指明输出结果文件。
[0082]
最后汇总circexplorer2和ciri2两种检测算法分别针对第一测序数据和第二测序数据进行检测得到的所有候选环状rna。
[0083]
s3、对每个候选环状rna按照其序列顺序构建反向的bsj位点上下游各第一指定长度的伪参考序列。
[0084]
bsj位点指的是反向剪接连接点(backsplicing junction,bsj),第一指定长度可设置为100bp,因此步骤s3具体是对于每一个候选环状rna,按照环状rna的序列顺序构建反向的bsj位点上下游各100bp的伪参考序列及其索引信息,其中针对候选环状rna所构建的反向伪参考序列如图2所示。
[0085]
s4、将第一测序数据中具有bsj位点且bsj位点上下游各第二指定长度的序列与伪参考序列相匹配的reads确定为第一候选reads;以及,将第二测序数据中具有bsj位点且bsj位点上下游各第二指定长度的序列与伪参考序列相匹配的reads确定为第二候选reads。
[0086]
其中,第二指定长度小于或等于第一指定长度,如第二指定长度可以设置为3bp、5bp、或者10bp等,或者在其它一些可能的实施例中,第二指定长度也有可能设置等于第一
指定长度,但不应大于第二指定长度,即100bp。
[0087]
在本实施例中以第二指定长度设置为3bp为例进行阐述,在该步骤s4中,具体提取第一测序数据和第二测序数据中所有支持环状rna bsj位点的reads,根据索引信息重新比对到上一步骤s3中所构建的伪参考序列中,要求reads中bsj位点上下游各3bp序列与伪参考序列完全匹配,也即是说,当第一测序数据和第二测序数据中存在具有bsj位点且bsj位点上下游各3bp序列与伪参考序列完全匹配的reads,可分别确定为候选环状rna reads(即第一候选reads和第二候选reads)。
[0088]
为了进一步消除假阳性的reads,筛选出的候选环状rna reads可与人类正常基因组和转录组进行比对,滤除正常比对上的候选环状rna reads,即可获得真实的候选环状rna reads。
[0089]
s5、将具有第一候选reads支持的候选环状rna确定为从肿瘤组织样本中检测到的第一环状rna;以及,将具有第二候选reads支持的候选环状rna确定为从癌旁组织样本中检测到的第二环状rna。
[0090]
步骤s5中,在多个候选环状rna中,将具有这种bsj位点上下游各3bp序列与伪参考序列完全匹配的reads支持的候选环状rna,作为从肿瘤组织样本和癌旁组织样本中最终检测到的环状rna(即第一环状rna和第二环状rna)。
[0091]
s6、从多个第一环状rna中滤除与第二环状rna相同的第一环状rna,获得多个肿瘤特异环状rna。
[0092]
顾名思义,肿瘤特异环状rna是指只存在于肿瘤细胞中的环状rna。因此可以滤除癌旁组织样本中同样检测到的环状rna,这些环状rna属于细胞中正常存在的环状rna,因此需要滤除这些环状rna,也即滤除多个第一环状rna中与第二环状rna相同的第一环状rna。
[0093]
不过由于个体差异以及测序数据的局限性,癌旁组织样本中的环状rna不能代表所有正常的环状rna,因此还可以从已发表的circrna数据库中收集更多正常细胞的环状rna,将肿瘤组织样本中检测到的第一环状rna进一步与它们进行比较,来确定肿瘤组织特异的环状rna。其中,circrna数据库优选采用circbase、circpedia v2和circatlas中的一种或多种组合。
[0094]
因此步骤s6具体可以包括:从多个第一环状rna中滤除与第二环状rna相同的第一环状rna,以及从多个第一环状rna中滤除与指定circrna数据库中的正常细胞环状rna相同的第一环状rna,获得保留下来的第一环状rna作为最终获得的肿瘤特异环状rna。
[0095]
s7、预测每个肿瘤特异环状rna的翻译能力分值。
[0096]
在检测得到肿瘤特异环状rna之后,可以进一步评估肿瘤特异环状rna的翻译能力,即确定肿瘤特异环状rna的翻译潜能。具体实施方式包括以下步骤s701~s704:
[0097]
s701、将第三测序数据中具有bsj位点且bsj位点上下游各第二指定长度的序列与肿瘤特异环状rna的伪参考序列相匹配的reads确定为跨bsj位点的reads。
[0098]
由于第三测序数据已经是按照上述步骤s101~s102进行质控过滤处理后的高质量测序数据,此处可将第三测序数据直接与肿瘤特异环状rna的伪参考序列进行比对,根据比对结果,若第三测序数据中存在reads具有bsj位点且bsj位点上下游各第二指定长度(3bp)的序列与肿瘤特异环状rna的伪参考序列相匹配,确定为跨bsj位点的第三候选reads。
[0099]
s702、依次判断每个肿瘤特异环状rna跨bsj位点所在位置是否比对上第三候选reads。若是,执行步骤s703;否则,执行步骤s704。
[0100]
s703、将跨bsj位点所在位置比对上第三候选reads的肿瘤特异环状rna的翻译能力分值置为最大分值。
[0101]
多核糖体分析可以提取细胞中正在与核糖体结合翻译的rna,结合高通量rna测序能够准确地识别正在进行翻译的rna序列。也即是说,若任一个肿瘤特异环状rna的跨bsj位点所在位置比对上第三候选reads,说明该肿瘤特异环状rna正在与核糖体结合翻译,其翻译潜能可视为最大,那么对其翻译能力分值可置为最大分值,例如1。假设翻译能力分值的取值范围为[0,1],那么最小分值为0,最大分值为1。
[0102]
s704、对跨bsj位点所在位置没有比对上第三候选reads的肿瘤特异环状rna构建其第一全长序列,确定第一全长序列中的多个ires片段,计算每个ires片段的原始分数;将多个ires片段中的最大原始分数进行标准化,获得该肿瘤特异环状rna的翻译能力分值。
[0103]
大量研究证实,环状rna由于其自身闭合成环的特点缺乏与mrna类似的5’端加帽结构,采用一种具有特殊二级结构的内部核糖体进入位点序列(iternal ribosome entry site,ires)元件,募集核糖体启动翻译。因此可以通过分析环状rna序列中的内源性ires元件预测其翻译能力。在本实施例中,对于跨bsj位点所在位置没有比对上第三候选reads的肿瘤特异环状rna,则通过分析环状rna序列中的内源性ires元件预测其翻译能力。
[0104]
那么步骤704的具体实施方式是:对跨bsj位点所在位置没有比对上第三候选reads的所有肿瘤特异环状rna构建其全长序列作为第一全长序列,将多个指定六聚体核酸序列映射到第一全长序列中,确定第一全长序列中与指定六聚体核酸序列重叠的多个目标六聚体核酸序列,将位置相邻的目标六聚体核酸序列进行合并,合并后的序列视为一个ires片段,其中,在第一全长序列上有重叠(overlap)的目标六聚体核酸序列需要合并,但是在整条第一全长序列中合并后互相之间没有重叠的视为不同的ires片段,从而可获得第一全长序列中的多个ires片段。举例来说,假设指定六聚体核酸序列包括以下四种:
[0105]
aataaa,aaaaga,acaaaa,caaaaa;
[0106]
而第一全长序列为:aataaaagattggaggacaaaaaccgg。则标粗的部分为合并的两个ires片段。
[0107]
每个ires片段的原始分数等于该ires片段中所有目标六聚体核酸序列的z分值总和除以合并后的该ires片段的序列长度,最后对肿瘤特异环状rna中的多个ires片段中最大原始分数进行标准化,使其分布于指定的取值范围(如[0,1])中,从而得到该肿瘤特异环状rna的翻译能力分值。
[0108]
其中,指定六聚体核酸序列可以是预先收集的z score》7的六聚体核酸序列,这些ires类似功能的六聚体核酸序列短元件在环状rna中显著富集,以驱动环状rna翻译。
[0109]
s8、获取多个肿瘤特异环状rna衍生的多个新抗原候选肽段。
[0110]
步骤s8具体包括以下步骤s801~s804:
[0111]
s801、构建多个肿瘤特异环状rna的第二全长序列。
[0112]
环状rna是由前体rna分子异常的反向剪接形成的,细胞质中的环状rna主要由常规转录本的外显子形成。对于跨越多个外显子的环状rna,由于可变剪接可能形成完全不同的环状rna序列,如图3所示,同一bsj位点可形成两个不同的环状rna序列。因此,需要构建
肿瘤特异环状rna的全长序列。
[0113]
在构建过程中,首先使用samtools提取肿瘤特异环状rna所覆盖区间内的所有reads,由于样本建库的实验处理已经过滤了所有线性转录本的序列,这些reads可以用来确定环状rna的内部结构。然后统计肿瘤特异环状rna中所有可能外显子连接点的reads数,reads数≥3视为有效的连接点。最后根据区域内外显子连接点信息构建所有肿瘤特异环状rna的全长序列作为第二全长序列。
[0114]
s802、对第二全长序列按照三种读码框架进行预测,获得多个开放阅读框序列。
[0115]
非“atg”的起始密码子在ires介导的翻译过程中比较常见,因此在预测开放阅读框(open reading frame,orf)序列时考虑所有“ntg”作为其起始密码子,其中n表示a、c、t、g中任一碱基。
[0116]
对基于所有肿瘤特异环状rna构建的第二全长序列按照3种读码框架进行预测,以“ntg”作为起始密码子往后延伸,遇到终止密码子时停止。对于从起始密码子开始,且无终止密码子打断的一段碱基序列,确定为在dna序列中具有编码蛋白质潜能的orf序列。每个预测的orf序列长度至少为60bp,且必须跨域bsj位点。如果有较长的orf序列完全覆盖了较短的orf序列,则不再考虑短的orf序列。
[0117]
s803、按照密码子表将长度达到第三指定长度且跨域bsj位点的开放阅读框序列翻译成氨基酸序列。
[0118]
预测出多个orf序列之后,将符合标准(即长度至少为60bp且必须跨域bsj位点)的orf序列按照密码子表翻译成氨基酸序列,视为肿瘤特异环状rna衍生的全长蛋白质序列。
[0119]
s804、将氨基酸序列切分成多个肽段,并滤除人类正常蛋白质组中包含的肽段,获得多个新抗原候选肽段。
[0120]
由于环状rna分子的序列与其所来源的转录本序列一致性很高,蛋白质序列在很大程度上也非常相似。因此,在切分成多个肽段之后,还需要将这些肽段做进一步过滤,滤除人类正常蛋白质组中存在的肽段,以获得肿瘤特异环状rna新抗原候选肽段。
[0121]
s9、根据肿瘤特异环状rna的翻译能力分值,对多个新抗原候选肽段进行免疫原性打分并排序。
[0122]
其中,具体将翻译能力分值作为新抗原免疫原性打分模型的一个评分指标,然后利用新抗原免疫原性打分模型对各个新抗原候选肽段分别进行打分,然后排序。
[0123]
另外优选的,在执行上述步骤s6中的从多个第一环状rna中滤除与第二环状rna相同的第一环状rna获得多个肿瘤特异环状rna之后,还可以统计每个肿瘤特异环状rna比对上的第一候选reads数目,然后根据第一候选reads数目计算每个肿瘤特异环状rna的丰度,以每百万reads数(reads per million,rpm)表示,该丰度亦可作为新抗原免疫原性打分模型的一个评分指标。因此步骤s9具体为:根据肿瘤特异环状rna的翻译能力分值和丰度,对多个新抗原候选肽段分别进行免疫原性打分并排序。
[0124]
新抗原发挥免疫原性的过程比较复杂,包括蛋白酶体切割蛋白质序列获得肽段,肽段在内质网中的加工以及被mhc分子呈递到细胞表面,pmhc(peptide-mhc)复合物与t细胞受体(tcr)的结合启动免疫反应等等。
[0125]
本发明实施例进一步考虑到人类组织相容性抗原分子(human leukocyte antigen,hla)所识别呈递的肽段通常较短,其中i类hla主要识别长度范围在8-12aa的肽
段,ii类hla识别肽段的序列长度稍长,主要为15aa。
[0126]
因此在步骤s804中,可按照上述所说的hla主要识别的序列长度,将步骤s804中得到的全长蛋白质序列滑动切分成对应长度范围的肽段,从而将序列长度位于第一长度范围内的新抗原候选肽段确定为i类新抗原候选肽段;以及,将序列长度位于第二长度范围内的新抗原候选肽段确定为ii类新抗原候选肽段;其中,第二长度范围大于第一长度范围。
[0127]
其中,满足序列长度位于第一长度范围(如8-12aa)内的肽段则视为i类新抗原候选肽段,与hla i类分子结合;满足序列长度位于包括15aa在内的第二长度范围(如14-16aa)内的肽段则视为ii类新抗原候选肽段,优选的ii类新抗原候选肽段长度为15aa,与hla ii类分子结合。
[0128]
然后可分别预测i类新抗原候选肽段与肿瘤组织样本对应患者的hla i类分子之间的结合亲和力,以及ii类新抗原候选肽段与肿瘤组织样本对应患者hla ii类分子之间的结合亲和力,该结合亲和力亦可作为新抗原免疫原性打分模型的一个评分指标。那么步骤s9具体为:根据肿瘤特异环状rna的翻译能力分值和丰度、以及每个新抗原候选肽段与对应hla分子的结合亲和力,对多个新抗原候选肽段分别进行免疫原性打分并排序。
[0129]
除此之外,还可考虑新抗原候选肽段本身的物理化学性质,例如肽段被蛋白酶体切割产生的可能性,肽段中与t细胞结合残基的疏水性分值等等。
[0130]
最终优选的,新抗原免疫原性打分模型综合考虑了上述过程,针对新抗原候选肽段(简称肽段)所使用的评分指标至少包括:肽段所来源肿瘤特异环状rna的翻译能力分值、肽段所来源肿瘤特异环状rna的丰度、肽段与对应hla分子的结合亲和力、肽段被蛋白酶体切割产生的可能性、肽段中与t细胞结合残基的疏水性分值中的多项组合。
[0131]
优选的,新抗原免疫原性打分模型可设置为线性模型,通过将各个评分指标经标准化后赋予不同的权重并求和得到新抗原免疫原性分数。具体的,针对每个新抗原候选肽段,可将肽段所来源肿瘤特异环状rna的翻译能力分值、肽段所来源肿瘤特异环状rna的丰度、肽段与对应hla分子的结合亲和力、肽段被蛋白酶体切割产生的可能性、肽段中与t细胞结合残基的疏水性分值中的多项组合,分别与相应的权重系数进行加权计算,获得每个新抗原候选肽段的新抗原免疫原性分数,然后根据新抗原免疫原性分数从高到低进行排序。
[0132]
s10、将排序靠前的指定个数的新抗原候选肽段确定为新抗原目标肽段。
[0133]
最终,排序靠前的新抗原候选肽段可确定为环状rna衍生的新抗原目标肽段,可进一步通过实验验证其免疫原性,用于肿瘤患者临床免疫治疗中。
[0134]
可见实施本发明实施例,通过对检测出的候选环状rna构建用于重比对的环状rna伪参考序列,分别将肿瘤组织样本的第一测序数据和癌旁组织样本的第二测序数据与伪参考序列进行比对,提取出比对上伪参考序列的第一候选reads和第二候选reads,确定从肿瘤组织样本中检测到的第一环状rna和癌旁组织样本中检测到的第二环状rna,两者相融合将同时存在于肿瘤组织样本和癌旁组织样本中的正常环状rna滤除,获得肿瘤特异环状rna,然后验证每个肿瘤特异环状rna在对应伪参考序列中比对上的第一候选reads数目,根据第一候选reads数目评估计算每个新抗原候选肽段所来源肿瘤特异环状rna的丰度;以及对于具有跨bsj位点的肿瘤特异环状rna,其翻译能力分值置为最大分值;而对未具有跨bsj位点的肿瘤特异环状rna,则根据内源性ires元件预测其翻译能力分值,融合肽段所来源肿瘤特异环状rna的丰度、翻译能力分值以及肽段与对应hla分子的结合亲和力等评分指标,
对其衍生的新抗原候选肽段进行免疫原性打分并排序,最终将排序靠前的确定为新抗原目标肽段,从而可以在增加肿瘤新抗原的来源、扩宽新抗原筛选范围的同时,可以进一步提高环状rna的鉴定准确性,进而进一步使得环状rna衍生的新抗原更具免疫原性。
[0135]
相比主要集中在体细胞点突变(snv)和插入缺失变异(indel)所衍生的新抗原,本发明实施例提供了一种由计算机实现的基于二代测序数据探索将环状rna翻译的蛋白质作为肿瘤特异免疫治疗新抗原潜在来源,扩充了新抗原的筛选范围,对于低突变负荷的肿瘤类型尤其有益;并且综合考虑了肿瘤特异环状rna的翻译潜能,以及通过整合目前最先进的两种环状rna检测算法(circexplorer2,ciri2)的结果,构建用于重比对的环状rna伪参考序列,验证每个候选环状rna的在对应伪序列参考中的比对reads数,实现了更准确的环状rna鉴定,可更准确用于鉴定基于环状rna的免疫治疗新抗原。
[0136]
如图4所示,本发明实施例公开一种肿瘤特异环状rna的新抗原鉴定装置,可内嵌于计算机中,该装置包括数据获取单元401、检测单元402、伪参考单元403、比对单元404、第一确定单元405、滤除单元406、翻译预测单元407、肽段获取单元408、打分单元409和第二确定单元410,其中,
[0137]
数据获取单元401,用于获取肿瘤组织样本的第一测序数据和癌旁组织样本的第二测序数据;
[0138]
检测单元402,用于分别对第一测序数据和第二测序数据进行环状rna检测,获得多个候选环状rna;
[0139]
伪参考单元403,用于对每个候选环状rna按照其序列顺序构建反向的bsj位点上下游各第一指定长度的伪参考序列;
[0140]
比对单元404,用于将第一测序数据中具有bsj位点且bsj位点上下游各第二指定长度的序列与伪参考序列相匹配的reads确定为第一候选reads;以及,将第二测序数据中具有bsj位点且bsj位点上下游各第二指定长度的序列与伪参考序列相匹配的reads确定为第二候选reads;其中,第二指定长度小于或等于第一指定长度;
[0141]
第一确定单元405,用于将具有第一候选reads支持的候选环状rna确定为从肿瘤组织样本中检测到的第一环状rna;以及,将具有第二候选reads支持的候选环状rna确定为从癌旁组织样本中检测到的第二环状rna;
[0142]
滤除单元406,用于从多个第一环状rna中滤除与第二环状rna相同的第一环状rna,获得多个肿瘤特异环状rna;
[0143]
翻译预测单元407,用于预测每个肿瘤特异环状rna的翻译能力分值;
[0144]
肽段获取单元408,用于获取多个肿瘤特异环状rna衍生的多个新抗原候选肽段;
[0145]
打分单元409,用于根据肿瘤特异环状rna的翻译能力分值,对多个新抗原候选肽段分别进行免疫原性打分并排序;
[0146]
第二确定单元410,用于将排序靠前的指定个数的新抗原候选肽段确定为新抗原目标肽段。
[0147]
如图5所示,本发明实施例公开一种电子设备,包括存储有可执行程序代码的存储器501以及与存储器501耦合的处理器502;
[0148]
其中,处理器502调用存储器501中存储的可执行程序代码,执行上述各实施例中描述的肿瘤特异环状rna的新抗原鉴定方法。
[0149]
本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的肿瘤特异环状rna的新抗原鉴定方法。
[0150]
以上实施例的目的,是对本发明的技术方案进行示例性的再现与推导,并以此完整的描述本发明的技术方案、目的及效果,其目的是使公众对本发明的公开内容的理解更加透彻、全面,并不以此限定本发明的保护范围。
[0151]
以上实施例也并非是基于本发明的穷尽性列举,在此之外,还可以存在多个未列出的其他实施方式。在不违反本发明构思的基础上所作的任何替换与改进,均属本发明的保护范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献