一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

H&E图像基因和细胞异质性预测方法、系统和存储介质

2022-11-16 08:43:56 来源:中国专利 TAG:

h&e图像基因和细胞异质性预测方法、系统和存储介质
技术领域
1.本发明属于图像处理技术领域,具体涉及一种h&e图像基因和细胞异质性预测方法、系统和存储介质。


背景技术:

2.肿瘤内异质性对癌症患者的准确诊断和建立个性化治疗策略带来了重大挑战。这种异质性可能是治疗耐药性、疾病进展和癌症复发的基础。如何便捷快速的确定肿瘤异质性目前是临床治疗中面临的难题。
3.组织病理学h&e染色(苏木精和伊红染色)图像是临床判断肿瘤进展的重要依据。h&e染色技术具有方便、快捷、以及经济适用等特点。医生可通过h&e染色呈现的图像可大致的识别样本的生物组织学区域,判断肿瘤的发展阶段。然而h&e图像包含着的丰富的分子生物信息却无法通过肉眼判断。目前国内外已建立了多个临床医学领域的数据库,其中包含着来源于不同病人,不同病种的h&e染色图像。例如tcga(癌症基因组图谱)数据库中就包含了33种癌症的20000多个样本数据。如果存在一种可以通过h&e图像判断肿瘤异质性的方法,这将极大的加深我们对肿瘤的理解,同时也有助于快速寻找潜在的治疗靶点,提升临床治疗效果。
4.单细胞及空间转录组技术的发展,使得这一设想成为现实。
5.肿瘤组织取样后,可通过单细胞转录组测序技术将组织分离成单个细胞,然后进行全基因组表达量的测定。通过分析每个细胞不同的基因表达状态,人们得以确定细胞的异质性。然而这一技术会导致空间信息的缺少,即无法判断这些异质性细胞的空间分布,以及它们在空间上的相互作用。作为承担生命活动机体的基本组成单元,细胞需要在特定的空间位置与自身的微环境协同,才能发挥其特有的生物学功能。所以细胞的空间信息对研究和理解细胞生物学、肿瘤生物学、发育生物学等学科的发展尤为重要。空间转录组技术的出现弥补了这一缺陷。
6.空间转录组学结合显微成像和测序技术,在获得基因表达数据的同时,最大程度的保留了样本的空间位置信息。空间转录组基于原位测序技术,每张测序玻片上排列着紧密的空间位点,每个空间位点上都含有带有位置信息编码的分子成像探针,这些探针捕捉组织的转录组并支持测序和成像。根据应用技术的不同,空间位点的直径大小也会有变化(10-100μm),但是最后的测序结果都记录在(空间位点x基因表达)的矩阵中。然而,空间转录组测序成本高,分子捕捉效率低下,测验结果存在大量的缺失值,也达不到单细胞级别的分辨率。因此,仅靠空间转录组信息无法达到分辨肿瘤细胞异质性的目的。
7.总之,目前上述现有技术或存在难以识别基因信息,或存在缺少空间信息无法进行异质性分析,或存在检测成本和存在缺失值的问题。因此,本领域亟需一种低成本且能够有效地对h&e图像基因表达的异质性进行分析的方法。


技术实现要素:

8.针对现有技术的问题,本发明提供一种h&e图像基因和细胞异质性预测方法、系统和存储介质,目的在于实现对h&e图像基因表达和细胞类型的预测,为基因表达异质性分析等临床应用提供新的手段。
9.一种h&e图像基因和细胞异质性预测方法,包括如下步骤:步骤1,输入h&e图像;步骤2,采用机器学习模型对h&e图像进行分析,得到h&e图像中每个像素块的基因表达和细胞类型的预测结果;步骤3,输出所述预测结果;其中,所述机器学习模型的训练过程中,以包含基因信息及细胞类型信息的空间转录组数据及其对应的h&e图像作为构成训练集的数据。
10.优选的,所述机器学习模型是基于densenet-121模型的cnn网络。
11.优选的,所述包含基因信息及细胞类型信息的空间转录组数据按照如下方法得到:步骤a,收集组织相同或采样样本相邻的单细胞转录组数据和原始空间转录组数据;步骤b,以单细胞转录组数据中的基因表达为参考,对所述原始空间转录组数据中基因表达的缺失值进行插补;步骤c,对单细胞转录组数据的细胞类型进行标注;步骤d,使用基于神经网络的迁移学习方法,以单细胞转录组数据为源领域,经过步骤b处理后的原始空间转录组数据为目标领域,通过半监督的学习方法预测空间转录组中每个空间位点的细胞类型,即得包含基因信息及细胞类型信息的空间转录组数据。
12.优选的,步骤b中,对所述缺失值进行插补的方法包括如下步骤:步骤b1,对所述原始空间转录组数据的表达矩阵按如下公式进行标准化处理:其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,代表某个空间位点中所有基因的平均表达量,为标准化后的第i个空间位点中第j个基因的表达量;步骤b2,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵的行对齐,填补空间转录组上缺失的基因表达量为0;步骤b3,将空间转录组基因表达矩阵的行与单细胞转录组基因表达矩阵合并,使列随机交叉混合,对空间转录组缺失基因的表达量进行预测。
13.优选的,步骤b中,所述插补采用stplus、spage、seurat、liger、gimvi、fist、gwnmf、spatial-nn或remap进行。
14.优选的,步骤c中,细胞类型的标注采用seurat、scater或scapy进行。
15.优选的,步骤d中,所述神经网络由一个输入层和两个全连接层组成,第一个全连接用于捕捉空间转录组与单细胞转录组的对齐特征,第二个全连接层用于预测细胞类型;来源于空间转录组的细胞通过余弦相似度预测细胞类型,来源于单细胞转录组的
细胞通过softmax分类器预测细胞类型。
16.优选的,步骤2中,通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。
17.本发明还提供一种h&e图像基因和细胞异质性预测系统,包括:输入模块,用于输入数据;单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;h&e图像与空间转录组的映射模块,用于按照上述预测方法对h&e图像中每个像素块的基因表达和细胞类型进行预测;输出模块,用于输出预测结果。
18.本发明还提供一种计算机可读存储介质,其上存储有用于实现上述预测方法的计算机程序。
19.本发明中所述“空间位点”代表着空间转录组测序玻片上的每一个空间位置。根据不同的技术,这个空间位点(空间位置)的直径大小不一致,其大小范围可在10-100μm。虽然测序技术不同,但最后的测序结果都记录在(空间位点x基因表达)的矩阵中。
20.本发明联合单细胞转录组和空间转录组构建了包含基因信息及细胞类型信息的空间转录组数据,利用该数据训练的机器学习模型,能够对h&e图像的基因表达和细胞类型进行预测。由此,本发明建立了完善的连接单细胞转录组、空间转录组、组织病理学h&e图像的联合分析系统,填补了空间转录组的缺失值,可辅助进行更高精度的基因分析和细胞类型估计。
21.本发明可从普通的组织病理学h&e图像中识别高变基因,并通过这些基因的位置分布和功能分析,筛选潜在的肿瘤治疗生物靶点;可帮助临床通过h&e图像识别肿瘤内异质性,结合其空间位置有助于加深肿瘤微环境的了解。可辅助临床治疗方案的制定,如病人是否适合免疫治疗,以及哪种免疫治疗法。因此,本发明的方法和系统具有很好的应用前景。
22.显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
23.以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
24.图1为本发明实施例1的流程示意图。
具体实施方式
25.需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
26.实施例1 h&e图像基因和细胞异质性的预测方法和系统本实施例的系统包括:输入模块,用于输入数据;
单细胞转录组与空间转录组的映射模块,用于根据单细胞转录组数据和原始空间转录组计算获得包含基因信息及细胞类型信息的空间转录组数据;h&e图像与空间转录组的映射模块,用于按照对h&e图像中每个像素块的基因表达和细胞类型进行预测;输出模块,用于输出预测结果。
27.采用上述系统进行h&e图像基因和细胞异质性的预测的方法流程如图1所示,具体包括如下步骤:s1,收集三种数据:原始空间转录组数据、单细胞转录组数据以及h&e图像。
28.其中,单细胞转录组样本与空间转录组样本互为相邻样本,或者两者来源于同一种组织。
29.h&e图像包括空间转录组中的h&e图像(用于训练模型),以及未做过空间转录组的普通组织病理学h&e图像(用于作为模型训练完成后的待预测数据)。
30.s2,构建包含基因信息及细胞类型信息的空间转录组数据。
31.具体步骤为:s2.1,原始空间转录组数据基因表达缺失值插补:对原始空间转录组数据的表达矩阵按公式1进行标准化处理:
ꢀꢀ
(1)其中,i表示所述原始空间转录组数据中的某个空间位点,j表示某个基因,g(ij)代表所述原始空间转录组数据中第i个空间位点中第j个基因的原始表达量,代表某个空间位点中所有基因的平均表达量,为标准化后的第i个空间位点中第j个基因的表达量。
32.然后,将空间转录组基因表达矩阵的行(基因)与单细胞转录组基因表达矩阵的行(基因)对齐,填补空间转录组上缺失的基因表达量为0;随后,将两个矩阵合并,使列(空间位点/细胞)随机交叉混合,使用stplus软件对空间转录组缺失基因的表达量进行预测。
33.s2.2,单细胞注释:使用现有的单细胞分析软件,如seurat,scater,scapy 等对单细胞转录组进行pca降维,knn聚类,然后计算每一类的特征基因,联合已知的各类细胞的标志基因对每个细胞的类型进行标注。
34.s2.3,利用已标注的单细胞转录组数据预测空间转录组的细胞类型:使用基于神经网络的迁移学习(transfer learning)方法,以单细胞转录组为源领域,原始空间转录组为目标领域,通过半监督的学习方法预测原始空间转录组中每个空间位点的细胞类型。
35.该神经网络由一个输入层两个全连接层组成。输入层为插补后与单细胞转录组具有相同基因维度的空间转录组表达矩阵,以及注释后带有细胞类型标签的单细胞转录组表达矩阵。第一个全连接层作为捕捉空间转录组与单细胞转录组对齐特征的joint embedding layer。第二个全连接层为prediction layer,其维度与单细胞注释的细胞类型种类数相等。来源于空间转录组的细胞通过余弦相似度,来源于单细胞转录组的细胞通过softmax分类器来预测细胞类型。
36.该神经网络的具体过程如下:
joint embedding layer的损失函数:(2)
ꢀꢀ
(3)为单个细胞(i)的基因表信息;为函数的系数;为细胞经过joint embedding layer的输出;为joint embedding layer中所有神经元的集合,d为神经元总数,j为d中单个的神经元;为所有细胞经过joint embedding layer中神经元j中后输出值的平均数;为在joint embedding layer中 每个细胞i与 神经元 j之间相关性的绝对值的和;n为数据组所包含的细胞数总数,n为n中的单个细胞;当细胞来源于单细胞转录组时,,此时joint embedding layer的损失函数为;当细胞来源于空间转录组时,,此时joint embedding layer的损失函数为。在训练时分别从单细胞转录组提取和空间转录组提取相同细胞数的小样本进行训练,即。
37.prediction layer的损失函数:当细胞来源于空间转录组时,每一个细胞将与单细胞转录组中的每个细胞进行比较,余弦相似度高的两者进行配对。
38.余弦相似度定义为:
ꢀꢀ
(4)代表空间转录组中待配对的细胞在joint embedding layer的输出;代表单细胞转录组中与空间转录组配对的细胞joint embedding layer的输出;“《 , 》”代表两个向量的点积;
ꢀ“ꢀ“”ꢀ
代表向量的长度(模);此时损失函数为:
ꢀꢀ
(5)代表来源于空间转录组的细胞;代表来源于单细胞转录组的细胞;与上相同为函数的系数;p为具有高余弦相似度的细胞总数。
39.当细胞来源于单细胞转录组时,因为细胞都已经过细胞注释,每个细胞的细胞类型为已知信息,我们将使用交叉熵损失函数进行有监督学习:
ꢀꢀ
(6)
ꢀꢀꢀ
(7) 代表着单细胞转录组的细胞在joint embedding layer的输出;函数代表着prediction layer的输出;代表着softmax转换后的概率向量;代表来源于单细胞转录组的细胞,单个细胞为i;t为已注释的细胞类型的总数,t为每个细胞类型;代表着来源于单细胞转录组的所有细胞交叉熵损失函数。
40.如上所示,该神经网络的最终损失函数为:
ꢀꢀ
(8)s3,利用步骤s2得到的包含基因信息及细胞类型信息的空间转录组数据及其对应的h&e图像构成训练数据,训练一个基于densenet-121模型的cnn网络。
41.在预测基因表达时,最后一层的全连接层的维度等于目标基因数。本实施例设目
标基因数等于非冗余的每种细胞类型的前100个标志基因的总和;在预测细胞类型时,最后一层全连接层的维度等于空间转录组的细胞类型数。通过softmax分类器以及交叉熵损失函数来预测基因表达或细胞类型。为了防止过拟合,采取丢弃正则化(dropout and regularization)的方法,在每次训练迭代中随机丢弃每个卷积层20%-50%的节点。
42.s4,模型训练完成后,即可输入待预测的h&e图像,得到h&e图像中每个像素块的基因表达和细胞类型的预测结果。
43.通过上述实施例可以看到,本发明可利用已公开的空间转录组信息进行训练,然后对相同组织的病理学h&e图像进行基因和细胞组成成分分析。例如目前已公开了23篇有关于乳腺癌的空间转录数据,通过使用这些数据进行训练,就可对任一一张独立的乳腺癌组织病理学h&e图像进行基因表达和细胞类型预测。本发明为基因表达的异质性分析提供了新的方法,具有很好的应用前景。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献