一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

空间转录组芯片的测序数据的分析方法及装置与流程

2022-11-12 10:48:12 来源:中国专利 TAG:


1.本发明涉及生物信息技术领域,尤其涉及一种空间转录组芯片的测序数据的分析方法及装置。


背景技术:

2.组织中空间的原始位置上的基因表达模式,对于了解其中细胞的类型和功能非常重要。近些年来,空间转录组技术飞速发展,广泛应用于肿瘤、疾病、神经系统和器官发育等不同领域。
3.目前,空间转录组的主流分析技术为10x genomics visium技术,其条形码(barcode)固定在空间转录组芯片上,可以达到100μm的分辨率,芯片数据可以使用space ranger软件进行分析。
4.然而,百创空间转录组芯片的barcode结构不同于visium芯片,且将分辨率提高到5μm的亚细胞水平,因此现有的分析技术并不适合分析百创空间转录组芯片的芯片数据。


技术实现要素:

5.本发明提供一种空间转录组芯片的测序数据的分析方法及装置,用以解决现有技术中百创空间转录组芯片的barcode结构不同于visium芯片,且将分辨率提高到5μm的亚细胞水平,因此现有的分析技术并不适合分析百创空间转录组芯片的芯片数据的缺陷,实现对百创空间转录组芯片的测序数据进行分析的目的。
6.本发明提供一种空间转录组芯片的测序数据的分析方法,包括:针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
7.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,包括:将所述空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,所述固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;对所述测序序列的read1进行kmer识别,得到所述测序序列的多个kmer;
针对所述kmer库中每种条形码序列种类,若所述测序序列的多个kmer中存在至少预设数量的kmer,与所述条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将所述目标条形码子序列确定为所述测序序列的条形码子序列;若所述测序序列的所有条形码子序列对应的条形码序列种类为所述预设种类数量的条形码序列种类,则保留所述测序序列的所有条形码子序列。
8.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列,包括:基于所述测序序列的多个条形码子序列的识别位置,推断出所述测序序列的唯一分子标识符序列的位置;基于所述测序序列的唯一分子标识符序列的位置,获得所述测序序列的唯一分子标识符序列。
9.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点,包括:基于荧光解码文件,识别出所述空间转录组芯片上每个位置的条形码子序列;若所述空间转录组芯片上不同位置的条形码子序列相同,则去除所述不同位置的条形码子序列;将所述空间转录组芯片上剩余位置的各条形码子序列与所述测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;确定保留的条形码子序列在所述空间转录组芯片上的空间位点。
10.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果,包括:将所述测序序列的read2剪切为第一测序序列和第二测序序列;其中,所述第一测序序列为所述测序序列的read2的前设定长度的序列;将所述第一测序序列与参考基因组进行比对,若所述第一测序序列的比对位置与参考基因组的基因位置重叠,则将所述参考基因组的基因位置的基因结果确定为所述测序序列的基因结果。
11.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果,包括:基于所述基因表达矩阵,提取若干所述基因结果和若干所述基因结果对应的所述空间位点;将若干所述基因结果对应的所述空间位点进行分级聚类,得到不同分辨率下的所述基因结果;基于he染色图像,识别出组织在所述空间转录组芯片上的空间位点;将所述组织在所述空间转录组芯片上的空间位点对应的不同分辨率下的所述基因结果,确定为所述组织不同部位不同分辨率下的基因表达结果。
12.根据本发明提供的一种空间转录组芯片的测序数据的分析方法,所述方法还包括:基于所述空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网
页版分析报告。
13.本发明还提供一种空间转录组芯片的测序数据的分析装置,包括:识别模块,用于针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;确定模块,用于基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;比对模块,用于将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;生成模块,用于基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;获得模块,用于基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
14.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的空间转录组芯片的测序数据的分析方法的步骤。
15.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的空间转录组芯片的测序数据的分析方法的步骤。
16.本发明提供空间转录组芯片的测序数据的分析方法及装置,首先,由于百创空间转录组芯片的条形码没有固定在芯片上,针对空间转录组芯片的测序数据中的每条测序序列,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,并获得测序序列的唯一分子标识符序列;基于荧光解码文件,确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点;而后,将测序序列的read2与参考基因组进行比对,得到测序序列的基因结果;接着,基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及空间位点,生成基因表达矩阵;最后,由于百创空间转录组芯片将分辨率提高到5μm的亚细胞水平,可以基于基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果,可以对百创空间转录组芯片的测序数据进行分析。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1是本发明提供的空间转录组芯片的测序数据的分析方法的流程示意图;图2是本发明提供的分级聚类的示意图;图3是本发明提供的空间转录组芯片的测序数据的分析装置的结构示意图;图4是本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.下面结合图1至图4描述本发明的空间转录组芯片的测序数据的分析方法。
21.请参照图1,图1是本发明提供的空间转录组芯片的测序数据的分析方法的流程示意图。如图1所示,本发明提供的空间转录组芯片的测序数据的分析方法可以包括如下步骤:步骤101、针对空间转录组芯片的测序数据中的每条测序序列,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,并基于测序序列的多个条形码子序列的识别位置获得测序序列的唯一分子标识符序列;步骤102、基于荧光解码文件,确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点;步骤103、将测序序列的read2与参考基因组进行比对,得到测序序列的基因结果;步骤104、基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及所述空间位点,生成基因表达矩阵;步骤105、基于基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
22.在步骤101中,空间转录组芯片可以为百创s1000空间转录组芯片。
23.空间转录组芯片的测序数据中包括若干条测序序列,每条测序序列为bc1-link1-bc2-bc3-umi-polyt-cdna。其中,百创空间转录组芯片使用三段式条形码,即 bc1、bc2、bc3,百创空间转录组芯片的测序数据使用的条形码由17bp的bc1 19bp的bc2 19bp的bc3组成。
24.以测序序列为bc1-link1-bc2-bc3-umi-polyt-cdna为例,测序序列的read1包括bc1-link1-bc2-bc3-umi-polyt,测序序列的read2包括cdna(互补脱氧核糖核酸,complementary dna)。
25.在本步骤中,将空间转录组芯片的测序数据中的每条测序序列的read1进行kmer识别,得到该测序序列的多个条形码子序列。并且,由于测序序列的格式是固定的,可以基于该测序序列的多个条形码子序列的识别位置获得该测序序列的唯一分子标识符序列。
26.可选地,步骤101中,对测序序列的read1进行kmer识别,得到测序序列的多个条形码子序列,包括以下子步骤:步骤1011、将空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;步骤1012、对测序序列的read1进行kmer识别,得到测序序列的多个kmer;步骤1013、针对kmer库中每种条形码序列种类,若测序序列的多个kmer中存在至少预设数量的kmer,与该条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将目标条形码子序列确定为测序序列的条形码子序列;
步骤1014、若测序序列的所有条形码子序列对应的条形码序列种类为预设种类数量的条形码序列种类,则保留测序序列的所有条形码子序列。
27.在步骤1011中,固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列,以百创空间转录组芯片为例,固定条形码集合包括三种条形码序列种类(即barcode1、barcode2、barcode3)下的条形码子序列,每种条形码包括多个条形码子序列。
28.例如:barcode1可以包括:bc1_100(actacttcgttcatgag);bc1_101(atgttgaccttcacgtt);bc1_102(gcgcatgacttgcccaa);bc1_103(catgggaataaggcctt);bc1_104(caagtcgatctccggga);bc1_105(cagcttgttcagggcgt);等多个条形码子序列。
29.barcode2可以包括:bc2_100(aacgcgctgtgacgtttgg);bc2_101(gtgttgttacctccacgag);bc2_102(tgcatccgacatagtctca);bc2_103(tttcgaggtctcaccgtcg);bc2_104(cacttcgccagtagtctat);bc2_105(ataaagtcggatagccgag);等多个条形码子序列。
30.barcode3可以包括:bc3_100(aacggtaaagagccatgcc);bc3_101(gcacttattcatctcccgg);bc3_102(acctagcgcaaacagggct);bc3_103(tcagccctgatagagaaca);bc3_104(ttagggcgttccttctacg);bc3_105(caaccctagctactgtgtt);等多个条形码子序列。
31.将空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库。
32.以bc1_100(actacttcgttcatgag)为例,将其按照9bp长度的kmer进行遍历,可以得到以下kemer:actacttcgctacttcgttacttcgttacttcgttccttcgttcattcgttcat
tcgttcatgcgttcatgagttcatgag同理,将空间转录组芯片的固定条形码集合中的其他条形码子序列,按照9bp长度的kmer进行遍历,得到如表1所示的kmer库。
33.表1 kmer库需要说明的是,上述表1仅展示了kmer库中的一部分。
34.在步骤1012中,以测序序列为bc1-link1-bc2-bc3-umi-polyt-cdna为例,测序序列的read1包括bc1-link1-bc2-bc3-umi-polyt,将测序序列的read1,按照9bp长度的kmer进行遍历,可以得到测序序列的多个kmer。
35.在步骤1013中,下面以测序数据中的其中一条测序序列为例,确定该测序序列的条形码子序列。
36.针对kmer库中的barcode1,若测序序列的多个kmer中存在至少3个kmer,与barcode1中的bc1_201匹配,且位置偏差不超过5bp,则将bc1_201确定为测序序列的条形码子序列。如果位置偏差少于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode1对应的条形码子序列。
37.针对kmer库中的barcode2,若测序序列的多个kmer中存在至少3个kmer,与barcode2中的bc2_212匹配,且位置偏差不超过5bp,则将bc2_212确定为测序序列的条形码子序列。如果位置偏差小于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode2对应的条形码子序列。
38.针对kmer库中的barcode3,若测序序列的多个kmer中存在至少3个kmer,与barcode3中的bc3_326匹配,且位置偏差不超过5bp,则将bc3_326确定为测序序列的条形码子序列。如果位置偏差小于5bp的匹配kmer数量少于3个,测序序列的条形码子序列中不存在barcode3对应的条形码子序列。
39.同理,针对测序数据中的其他测序序列,采用相同的方式确定其他测序序列的条形码子序列。
40.在步骤1014中,针对测序数据中的每条测序序列,若测序序列的所有条形码子序列对应的条形码序列种类为3种条形码序列种类(即barcode1、barcode2、barcode3),则保留该测序序列的所有条形码子序列。若测序序列的所有条形码子序列对应的条形码序列种类低于三种条形码序列种类,则丢弃该测序序列的所有条形码子序列。
41.在本实施例中,仅保留条形码序列种类完整的测序序列的所有条形码子序列,也即丢弃条形码序列种类不完整的测序序列的所有条形码子序列。
42.可选地,步骤101中,基于测序序列的多个条形码子序列的识别位置获得测序序列的唯一分子标识符序列,包括:步骤1015、基于测序序列的多个条形码子序列的识别位置,推断出测序序列的唯一分子标识符序列的位置;步骤1016、基于测序序列的唯一分子标识符序列的位置,获得测序序列的唯一分子标识符序列。
43.在步骤1015中,由于测序序列的格式是固定的,可以基于该测序序列的多个条形码子序列的识别位置,推测出测序序列的唯一分子标识符序列的位置。
44.在步骤1016中,在得到测序序列的唯一分子标识符序列的位置后,从测序序列中获得该位置对应的序列,即测序序列的唯一分子标识符序列。
45.在本实施例中,可以基于该测序序列的多个条形码子序列的识别位置获得该测序序列的唯一分子标识符序列。
46.表2 多条测序序列的条形码子序列和唯一分子标识符序列
如表2所示,为识别到的测序数据中多条测序序列的多个条形码子序列和唯一分子标识符序列。可以看出,大多数测序序列都能找到完整条形码序列种类的条形码子序列,且条形码子序列的位置与参考位置的偏差不大。
47.在步骤102中,由于荧光解码文件包括空间转录组芯片的荧光图像中的各空间位点的荧光信息的编码信息,在获得测序序列的多个条形码子序列之后,结合荧光解码文件,可以确定测序序列的多个条形码子序列在空间转录组芯片上的空间位点。
48.可选地,步骤102包括以下子步骤:步骤1021、基于荧光解码文件,识别出空间转录组芯片上每个位置的条形码子序列;步骤1022、若空间转录组芯片上不同位置的条形码子序列相同,则去除不同位置的条形码子序列;步骤1023、将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;
步骤1024、确定保留的条形码子序列在空间转录组芯片上的空间位点。
49.在步骤1021中,由于荧光解码文件包括空间转录组芯片的荧光图像中的各空间位点的荧光信息的编码信息,将荧光解码文件识别为空间转录组芯片上每个位置的条形码子序列。
50.在步骤1022中,若识别到空间转录组芯片上不同位置的条形码子序列相同,则说明该不同位置的条形码子序列有误,可以去除不同位置的条形码子序列。
51.在步骤1023中,在去除不同位置的条形码子序列之后,将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,将两者同时识别出的条形码子序列进行保留,也即对未被两者同时识别出的条形码子序列进行剔除,可以对测序序列的多个条形码子序列进行纠错。
52.在步骤1024中,在对测序序列的多个条形码子序列进行纠错之后,如表3所示,获取保留的多条测序序列的条形码子序列在空间转录组芯片上的空间位点,可以提升条形码子序列在空间转录组芯片上的空间位点的准确性。
53.表3 条形码子序列在空间转录组芯片上的空间位点在本实施例中,若基于荧光解码文件识别到空间转录组芯片上不同位置的条形码子序列相同,则去除不同位置的条形码子序列,可以说去除有误的该不同位置的条形码子序列;将空间转录组芯片上剩余位置的各条形码子序列与测序序列的多个条形码子序列进行对比,将两者同时识别出的条形码子序列进行保留,也即对未被两者同时识别出的条形码子序列进行剔除,可以对测序序列的多个条形码子序列进行纠错;获取保留的多条测序序列的条形码子序列在空间转录组芯片上的空间位点,可以提升条形码子序列在空间转录组芯片上的空间位点的准确性。
54.在步骤103中,以测序序列为bc1-link1-bc2-bc3-umi-polyt-cdna为例,测序序列的read2包括cdna序列。将测序序列的cdna序列与参考基因组进行比对,将测序序列的cdna
序列定位到参考基因组中相应的基因上,得到测序序列的基因结果。
55.可选地,步骤103包括以下子步骤:步骤1031、将测序序列的read2剪切为第一测序序列和第二测序序列;其中,第一测序序列为测序序列的read2的前设定长度的序列;步骤1032、将第一测序序列与参考基因组进行比对,若第一测序序列的比对位置与参考基因组的基因位置重叠,则将参考基因组的基因位置的基因结果确定为测序序列的基因结果。
56.在步骤1031中,前设定长度可以为前90bp长度,第一测序序列为测序序列的read2的前90bp长度的序列。将测序序列的read2剪切为第一测序序列和第二测序序列,并保留前90bp长度的第一测序序列。
57.在步骤1032中,可以采用star算法,将第一测序序列与参考基因组进行比对,并判断第一测序序列的比对位置与参考基因组的基因位置的重叠情况。若重叠,则将参考基因组的基因位置的基因结果确定为测序序列的基因结果。如表4所示,为多条测序序列的基因结果。
58.表4 测序序列的基因结果在本实施例中,保留前设定长度的第一测序序列,将第一测序序列与参考基因组进行比对,可以减少数据处理量。
59.在步骤104中,基于测序数据中的多条测序序列的唯一分子标识符序列、基因结果以及空间位点,生成下所示的基因表达矩阵:,本实施例不限于此。
60.在步骤105中,将基因表达矩阵和he染色图像进行结合,可获得组织不同部位不同分辨率下的基因表达结果。
61.可选地,步骤105包括以下子步骤:步骤1051、基于基因表达矩阵,提取若干基因结果和若干基因结果对应的空间位点;步骤1052、将若干基因结果对应的空间位点进行分级聚类,得到不同分辨率下的基因结果;步骤1053、基于he(hematoxylin-eosin,苏木精-伊红)染色图像,识别出组织在空间转录组芯片上的空间位点;步骤1054、将组织在空间转录组芯片上的空间位点对应的不同分辨率下的基因结果,确定为组织不同部位不同分辨率下的基因表达结果。
62.在步骤1052中,如图2所示,将若干基因结果对应的空间位点按不同级别进行分级聚类,得到不同分辨率下的基因结果。其中,2表示超级斑点的水平为2级,3表示超级斑点的水平为3级,4表示超级斑点的水平为4级,5表示超级斑点的水平为5级,7表示超级斑点的水平为7级。
63.具体地,以一个空间位点为中心,对与其距离为1、2、3、4、5、6和12的空间位点分别合并为一个空间位点,以此得到不同分辨率下的基因结果。
64.在步骤1053中,基于he染色图像,识别出组织在空间转录组芯片上的空间位点。
65.在步骤1054中,将组织在空间转录组芯片上的空间位点与不同分辨率下的基因结果对应的空间位点进行匹配,将组织在空间转录组芯片上的空间位点匹配到的不同分辨率下的基因结果,确定为组织不同部位不同分辨率下的基因表达结果,最高分辨率可达到5
µ
m亚细胞水平。
66.在本实施例中,将若干基因结果对应的空间位点按不同级别进行分级聚类,可得到不同分辨率下的基因结果,基于组织在空间转录组芯片上的空间位点匹配到的不同分辨率下的基因结果,可确定组织不同部位不同分辨率下的基因表达结果,最高分辨率可达到5
µ
m亚细胞水平。
67.可选地,该方法还包括:基于空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
68.网页版分析报告的内容可以包括:通过上述任意一种空间转录组芯片的测序数据的分析方法的分析过程和分析数据,例如:测序数据统计结果、比对结果统计等。
69.在本实施例中,基于空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告,可以便于快速了解空间转录组芯片的测序数据的分析过程和分析数据。
70.下面对本发明提供的空间转录组芯片的测序数据的分析装置进行描述,下文描述的空间转录组芯片的测序数据的分析装置与上文描述的空间转录组芯片的测序数据的分析方法可相互对应参照。
71.请参照图3,图3是本发明提供的空间转录组芯片的测序数据的分析装置的结构示意图。如图3所示,本发明提供的空间转录组芯片的测序数据的分析装置可以包括:识别模块10,用于针对空间转录组芯片的测序数据中的每条测序序列,对所述测
序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;确定模块20,用于基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;比对模块30,用于将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;生成模块40,用于基于所述测序数据中的多条测序序列的多个条形码子序列、基因结果以及所述空间位点,生成基因表达矩阵;获得模块50,用于基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
72.可选地,所述识别模块10具体用于:将所述空间转录组芯片的固定条形码集合,按照预设长度的kmer进行遍历,构建kmer库;其中,所述固定条形码集合包括预设种类数量的条形码序列种类下的条形码子序列;对所述测序序列的read1进行kmer识别,得到所述测序序列的多个kmer;针对所述kmer库中每种条形码序列种类,若所述测序序列的多个kmer中存在至少预设数量的kmer,与所述条形码序列种类下的目标条形码子序列对应的kmer匹配,且位置偏差不超过预设偏差,则将所述目标条形码子序列确定为所述测序序列的条形码子序列;若所述测序序列的所有条形码子序列对应的条形码序列种类为所述预设种类数量的条形码序列种类,则保留所述测序序列的所有条形码子序列。
73.可选地,所述识别模块10具体用于:基于所述测序序列的多个条形码子序列的识别位置,推断出所述测序序列的唯一分子标识符序列的位置;基于所述测序序列的唯一分子标识符序列的位置,获得所述测序序列的唯一分子标识符序列。
74.可选地,所述确定模块20具体用于:基于荧光解码文件,识别出所述空间转录组芯片上每个位置的条形码子序列;若所述空间转录组芯片上不同位置的条形码子序列相同,则去除所述不同位置的条形码子序列;将所述空间转录组芯片上剩余位置的各条形码子序列与所述测序序列的多个条形码子序列进行对比,保留同时识别出的条形码子序列;确定保留的条形码子序列在所述空间转录组芯片上的空间位点。
75.可选地,所述比对模块30具体用于:将所述测序序列的read2剪切为第一测序序列和第二测序序列;其中,所述第一测序序列为所述测序序列的read2的前设定长度的序列;将所述第一测序序列与参考基因组进行比对,若所述第一测序序列的比对位置与参考基因组的基因位置重叠,则将所述参考基因组的基因位置的基因结果确定为所述测序序列的基因结果。
76.可选地,所述获得模块50具体用于:
基于所述基因表达矩阵,提取若干所述基因结果和若干所述基因结果对应的所述空间位点;将若干所述基因结果对应的所述空间位点进行分级聚类,得到不同分辨率下的所述基因结果;基于he染色图像,识别出组织在所述空间转录组芯片上的空间位点;将所述组织在所述空间转录组芯片上的空间位点对应的不同分辨率下的所述基因结果,确定为所述组织不同部位不同分辨率下的基因表达结果。
77.可选地,所述装置还包括:报告生成模块,所述报告生成模块具体用于:基于所述空间转录组芯片的测序数据的分析方法的分析过程和分析数据,生成网页版分析报告。
78.图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行空间转录组芯片的测序数据的分析方法,该方法包括:针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
79.此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
80.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的空间转录组芯片的测序数据的分析方法,该方法包括:针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码
子序列的识别位置获得所述测序序列的唯一分子标识符序列;基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
81.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的空间转录组芯片的测序数据的分析方法,该方法包括:针对空间转录组芯片的测序数据中的每条测序序列,对所述测序序列的read1进行kmer识别,得到所述测序序列的多个条形码子序列,并基于所述测序序列的多个条形码子序列的识别位置获得所述测序序列的唯一分子标识符序列;基于荧光解码文件,确定所述测序序列的多个条形码子序列在所述空间转录组芯片上的空间位点;将所述测序序列的read2与参考基因组进行比对,得到所述测序序列的基因结果;基于所述测序数据中的多条测序序列的所述唯一分子标识符序列、所述基因结果以及所述空间位点,生成基因表达矩阵;基于所述基因表达矩阵和he染色图像,获得组织不同部位不同分辨率下的基因表达结果。
82.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
83.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
84.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献