一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分析组织细胞成分的方法、装置及存储介质与流程

2023-02-06 10:21:21 来源:中国专利 TAG:


1.本文涉及细胞分析技术领域,尤其涉及一种分析组织细胞成分的方法、装置及存储介质。


背景技术:

2.分析组织的细胞成分对于认识组织的性质、判断组织的状态具有重要意义。目前解析组织细胞成分的方法有实验方法,例如流式细胞术、显微镜下分析统计细胞形态标记物等、单细胞测序。由于实验条件与技术的限制,某些组织样本可能无法通过现有的实验方法解析其细胞组成。除实验方法外,也可以用计算的方法获得组织的细胞组成。目前已有的计算方法包括打分、投影、反卷积三类算法。打分、投影的方法属于半定量的方法,而反卷积算法属于定量的方法。
3.反卷积旨在根据组织的特征信息,推测组织中各种细胞成分的占比。针对该问题,比较可靠的方法是基于单细胞特征的组织细胞成分反卷积。即,首先获取单细胞水平上,每个细胞的特征矩阵,再结合组织整体特征矩阵,以此计算出组织中每个细胞的含量。
4.通过本案发明人的研究发现,现有技术存在一些不足,例如,常规算法需要按照细胞特征先进行聚类,将单细胞的特征整合为细胞分类的特征,并按照细胞分类进行反卷积,因此只能够获得细胞类型层面的反卷积结果,不能反卷积出单细胞的占比,且结果的准确性严重依赖于细胞分类的准确性。
5.因此,现在亟需可以准确分析组织中单细胞成分占比的技术方案。


技术实现要素:

6.为解决现有技术中的问题,本文实施例提供了一种分析组织细胞成分的方法、装置及存储介质,解决现有技术中分析组织中细胞占比分辨率不高的问题。
7.本文实施例提供了一种分析组织细胞成分方法,包括,
8.获取单细胞的特征矩阵;
9.根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵;
10.训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵,其中所述损失函数包括了越相似的细胞其在组织中的含量也相似的特性。
11.作为本文实施例的一个方面,所述损失函数还包括:
12.计算组织特征与检测得到的组织特征之间的相似性:
13.根据所述相似性,得到第一损失函数;
14.根据越相似的细胞其在组织中的含量也相似的特性,针对所述细胞权重矩阵生成相似性惩罚项,将所述相似性惩罚项作为第二损失函数;
15.结合所述第一损失函数和第二损失函数,构成所述损失函数。
16.作为本文实施例的一个方面,所述相似性惩罚项包括:
17.l=∑
i,j∈i,i≠jri,j
f(βi,βj)
18.其中,i为所有细胞构成的至少部分集合;r
i,j
表示细胞i和细胞j特征的相似度;f(βi,βj)为细胞i与细胞j预测丰度之间的距离函数,βi和βj为细胞i,j的预测丰度。
19.作为本文实施例的一个方面,所述相似性惩罚项具体包括:
[0020][0021][0022]
其中,i1,i2表示组织中的任意两个细胞,表示细胞i1,i2的相似度,和为细胞i1,i2的预测丰度,为表示细胞i1,i2特征的皮尔逊相关系数,当大于0时表示细胞i1,i2具有相关性,当小于等于0时表示细胞i1,i2不具有相关性。
[0023]
作为本文实施例的一个方面,所述相似性惩罚项具体包括:
[0024][0025][0026]
其中,i1,i2表示组织中的任意两个细胞,表示细胞i1,i2的相似度,和为细胞i1,i2的预测丰度,为表示细胞i1,i2特征的spearman相关系数,当大于0时表示细胞i1,i2具有相关性,当小于等于0时表示细胞i1,i2不具有相关性。
[0027]
作为本文实施例的一个方面,根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵之后还包括,
[0028]
根据所述组织特征矩阵以及组织所发生的物质损失或污染,生成模拟组织特征矩阵;
[0029]
在训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数之中进一步包括,
[0030]
训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵。
[0031]
作为本文实施例的一个方面,根据所述组织特征矩阵以及组织所发生的物质损失或污染,生成模拟组织特征矩阵进一步包括,
[0032]
根据所述组织的数据获取环境,构建物质交换图;
[0033]
根据所述物质交换图中的物质交换率,计算所述组织的模拟组织特征矩阵。
[0034]
作为本文实施例的一个方面,所述物质交换图包括组织多个位置处的样本,根据所述物质交换图中每个位置的物质损失或污染,计算所述组织的模拟组织特征矩阵,其中进一步包括,
[0035]
计算每个位置流出物质矩阵bleed:
[0036]
bleed=y
·
sigmoid(b_ratio),
[0037]
其中,b_ratio为流出物质占比;
[0038]
计算每个位置流入物质矩阵received:
[0039]
received=a
×
[bleed
·
sigmoid(r_ratio)]
×
w,
[0040]
其中,r_ratio为流入物质占比,a为邻接矩阵,w为权重单位矩阵;
[0041]
根据流出物质矩阵bleed和流入物质矩阵received,计算所述组织的模拟组织特征矩阵,
[0042]
y'=y-bleed received,
[0043]
其中,y'为所述组织的模拟组织特征矩阵,y为所述组织的组织特征矩阵。
[0044]
作为本文实施例的一个方面,训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵进一步包括,
[0045]
计算所述模拟组织特征与检测得到的组织特征之间的相似性:
[0046]
根据所述相似性,得到所述第一损失函数;
[0047]
根据越相似的细胞其在组织中的含量也相似的特性,针对所述细胞权重矩阵生成相似性惩罚项,将所述相似性惩罚项作为第二损失函数;
[0048]
结合所述第一损失函数和第二损失函数,构成所述损失函数。
[0049]
作为本文实施例的一个方面,获取单细胞的特征矩阵之后还包括,
[0050]
对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵,以使该单细胞的模拟特征矩阵的分布特征与组织特征矩阵的分布特征吻合。
[0051]
作为本文实施例的一个方面,对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵,进一步包括,
[0052]
通过线性模型对所述单细胞的特征矩阵进行校正,得到所述单细胞的模拟特征矩阵,
[0053]
x'=relu(relu(w_sc)
·
x b_sc),
[0054]
其中,x'为对应于单细胞特征矩阵的模拟特征矩阵,x为单细胞特征矩阵,relu为线性整流激活函数,w_sc为权重项,b_sc为偏置项。
[0055]
作为本文实施例的一个方面,对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵进一步包括,
[0056]
通过聚合酶链式反应pcr模型对所述单细胞的特征矩阵进行校正,得到所述单细胞的模拟特征矩阵,
[0057][0058]
其中,x'为对应于单细胞特征矩阵的模拟特征矩阵,x为单细胞特征矩阵,sigmoid为s型生长曲线激活函数,ratio为pcr模型里的扩增率,n为pcr模型循环次数,drop为单细胞实验捕获的损失。
[0059]
作为本文实施例的一个方面,根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵进一步包括,
[0060]
y=relu(m)
×
x',
[0061]
其中,m为细胞权重矩阵,relu为线性整流激活函数,x'为对应于单细胞特征矩阵的模拟特征矩阵。
[0062]
作为本文实施例的一个方面,训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵进一步包括,
[0063]
计算每个细胞的模拟特征与获取到的相应细胞特征之间的相似性;
[0064]
根据所述相似性,得到第三损失函数;
[0065]
结合所述第一损失函数、第二损失函数以及第三损失函数,构成所述损失函数。
[0066]
作为本文实施例的一个方面,结合所述第一损失函数、第二损失函数以及第三损失函数,构成所述损失函数loss进一步包括,
[0067]
loss=α1loss1 α2loss2 α3loss3,
[0068]
其中,所述α1、α2和α3分别为第一损失函数loss1、第二损失函数loss2和第三损失函数loss3的权重项。
[0069]
本文实施例还提供了一种分析组织细胞成分装置,包括,
[0070]
单细胞特征矩阵获取单元,用于获取单细胞的特征矩阵;
[0071]
组织特征矩阵生成单元,用于根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵;
[0072]
损失函数训练单元,用于训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵,其中所述损失函数包括了越相似的细胞其在组织中的含量也相似的特性。
[0073]
本文实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
[0074]
本文实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述的方法。
[0075]
利用本文实施例,通过反应了组织和其中细胞生物学特征的损失函数进行反卷积计算,可以得到组织中单细胞的占比含量,提高反卷积计算的分辨率至单个细胞级别;反卷积算法的计算结果准确率提高,在基于空间转录组的数据显示中,明显高于现有技术中的算法;可以更好的反应样本的异质性(即样本本身的特性);此外,本说明书实施例的算法运算速度快,并行度高。
附图说明
[0076]
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0077]
图1所示为本文实施例一种分析组织细胞成分方法的流程图;
[0078]
图2所示为本文实施例一种分析组织细胞成分方法的流程图;
[0079]
图3所示为本说明书实施例计算过程的示意图;
[0080]
图4所示为本说明书实施例的模拟空间转录组表达矩阵y’示例图;
[0081]
图5所示为本说明书实施例位置与细胞权重矩阵m示例图;
[0082]
图6所示为本说明书实施例一种分析组织细胞成分装置的结构示意图;
[0083]
图7所示为本说明书实施例模拟空间转录表达谱与现有技术中其他模拟方法模拟空间转录表达谱的性能图;
[0084]
图8a所示为本说明书实施例分析组织细胞成分方法对组织中细胞周期素(b_
cycling)含量分析的结果示意图;
[0085]
图8b所示为本说明书实施例分析组织细胞成分方法对滤泡树突状细胞(fdc,follicular dendritic cells)含量分析的结果示意图;
[0086]
图9所示为本文实施例一种计算设备的结构示意图。
[0087]
【附图标记说明】
[0088]
601、单细胞特征矩阵获取单元;
[0089]
602、组织特征矩阵生成单元;
[0090]
603、损失函数训练单元;
[0091]
902、计算设备;
[0092]
904、处理设备;
[0093]
906、存储资源;
[0094]
908、驱动机构;
[0095]
910、输入/输出模块;
[0096]
912、输入设备;
[0097]
914、输出设备;
[0098]
916、呈现设备;
[0099]
918、图形用户接口;
[0100]
920、网络接口;
[0101]
922、通信链路;
[0102]
924、通信总线。
具体实施方式
[0103]
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
[0104]
细胞是生命的基本单元,单细胞分辨率的生物信息对于认识生命现象甚至包括医学诊断都有重要意义。目前单细胞测序能够提供单细胞分辨率的多种生物信息,但在很多场景下由于成本或者技术条件限制,无法获得单细胞的信息。目前基于单细胞测序数据的反卷积算法有cell2location、destvi、card等方法,都是针对空间转录组测序数据的反卷积问题提出了解决方案,但是都存在分辨率不佳的问题,除此以外,还存在诸多问题,例如,大部分算法由于算法本身的原因,只能实现几种或十几种细胞分类的反卷积,对于几十种甚至上百种细胞分类的反卷积,往往不能达到很好的性能;由于通过单细胞检测手段得到的单细胞特征与组织检测相关技术得到的特征之间存在差异,导致反卷积的结果不准确;对于组织中可能存在的污染、扩散等物质交换现象,现有算法难以很好的拟合。
[0105]
如图1所示为本文实施例一种分析组织细胞成分方法的流程图,在本图中描述了通过位置与细胞权重矩阵将单细胞特征矩阵生成组织特征矩阵,通过神经网络等方法训练组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,其中该损失函数考虑到了组织和其中细胞的生物学关系,即,越相似的细胞其在组织中的含量也相似,得到最终细胞权重
矩阵,从而可以通过位置与细胞权重矩阵获知组织中单细胞的占比,通过本说明书公开的上述方法可以得到单细胞在组织中的占比,在本说明书中所述的单细胞是指包括以单个细胞为样本的多个样本构成的集合,每个细胞由多个基因的染色质的开放程度、转录水平、甲基化水平等特征来刻画,构成该细胞的特征向量,多个细胞的特征向量构成单细胞特征矩阵。该方法具体包括:
[0106]
步骤101,获取单细胞的特征矩阵;
[0107]
步骤102,根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵;
[0108]
步骤103,训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵,其中所述损失函数包括了越相似的细胞其在组织中的含量也相似的特性。
[0109]
通过上述本说明书分析组织细胞成分的方法,通过反应了组织和其中细胞生物学特征的损失函数进行反卷积计算,可以得到组织中单细胞的占比含量,提高反卷积计算的分辨率至单个细胞级别;反卷积算法的计算结果准确率提高,在基于空间转录组的数据显示中,明显高于现有技术中的算法;可以更好的反应样本的异质性(即样本本身的特性);此外,本说明书实施例的算法运算速度快,并行度高。
[0110]
此外,本说明书实施例中的方法可以不基于图像的细胞识别(cell segmentation)就可以得到组织中单细胞的信息,空间转录组未来可能会使得病理学进入组学时代;并且在医学诊断方面也具有重大应用潜力,例如,对病人抽血或做穿刺进行bulk rna-seq时,可以依据本说明书实施例的方案以较低的成本进行单细胞分辨率的分析与诊断;适用于多种特征,包括但不限于转录组特征,甲基化特征等。
[0111]
作为本文实施例的一个方面,所述损失函数还包括:
[0112]
计算组织特征与检测得到的组织特征之间的相似性:
[0113]
根据所述相似性,得到所述第一损失函数;
[0114]
根据越相似的细胞其在组织中的含量也相似的特性,针对细胞权重矩阵生成相似性惩罚项,将所述相似性惩罚项作为第二损失函数;
[0115]
结合所述第一损失函数和第二损失函数,构成所述损失函数。
[0116]
在本实施例中,计算所述组织特征与检测得到的组织特征之间的相似性spot_simi=cosine_similarity(yi,y_obsi);其中,y_obsi为检测得到的组织中第i个位置的组织特征,yi为计算得到的第i个位置组织特征,cosine_similarity()为余弦相似度系数算法,计算两个向量之间的相似度,还可以采用欧几里得相关系数算法,皮尔森相关系数,斯皮尔曼相关系数等计算所述模拟组织特征与检测得到的组织特征之间的相似性;所述第一损失函数可以表示为:其中,n为组织位置的个数。其中,所述的特征是指细胞或者组织中的生化特性,例如包括基因表达,组蛋白修饰,甲基化等。
[0117]
作为本文实施例的一个方面,所述相似性惩罚项包括:
[0118]
l=∑
i,j∈i,i≠jri,j
f(βi,βj)
[0119]
其中,i为所有细胞构成的至少部分集合;r
i,j
表示细胞i和细胞j特征的相似度;βi和βj为细胞i,j的预测丰度;f(βi,βj)为细胞i与细胞j预测丰度之间的距离函数。
[0120]
在本实施例中,i为所有细胞构成的集合的子集或全集;r
i,j
表示细胞i和j特征的
相似度,在本实施例中的相似度计算包括但不限于皮尔逊相关系数、斯皮尔曼相关系数或余弦相似度等;f(βi,βj)为细胞i与细胞j预测丰度βi和βj之间的距离函数,例如f(βi,βj)可为f(βi,βj)=(β
i-βj)2、f(βi,βj)=|β
i-βj|等。
[0121]
其中,所述第二损失函数为:loss2=l。
[0122]
作为本文实施例的一个方面,所述相似性惩罚项具体为:
[0123][0124][0125]
其中,i1,i2表示任意两个单细胞,表示细胞i1,i2的相似度,和为细胞i1,i2的预测丰度,为表示细胞i1,i2特征的皮尔逊相关系数,当大于0时表示细胞i1,i2具有相关性,当小于等于0时表示细胞i1,i2不具有相关性。
[0126]
所述相似性惩罚项还可以为:
[0127][0128][0129]
其中,i1,i2表示组织中的任意两个细胞,表示细胞i1,i2的相似度,和为细胞i1,i2的预测丰度,为表示细胞i1,i2特征的spearman相关系数,当大于0时表示细胞i1,i2具有相关性,当小于等于0时表示细胞i1,i2不具有相关性。
[0130]
作为本文实施例的一个方面,根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵之后还包括,
[0131]
根据所述组织特征矩阵以及组织所发生的物质损失或污染,生成模拟组织特征矩阵;
[0132]
在所述训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数之中进一步包括,
[0133]
训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵。
[0134]
在本实施例中,在同一组织临近位置采样组织样本时,由于实验、操作或样本本身的原因,可能存在任意位置处有部分物质扩散,使得该物质漂移到别的位置或存在于多个位置之间的间区。对于该实验现象的模拟,有利于更精确地实现反卷积。
[0135]
上述实施例中的方法,根据细胞在单细胞技术与组织检测相关技术中特征上的差异,对组织物质交换的现象进行模拟,能够实现单细胞的占比计算并且使得单细胞占比计算结果更加准确。
[0136]
作为本文实施例的一个方面,根据所述组织特征矩阵以及组织所发生的物质损失或污染,生成模拟组织特征矩阵进一步包括,
[0137]
根据所述组织的数据获取环境,构建物质交换图;
[0138]
根据所述物质交换图中的物质交换率,计算所述组织的模拟组织特征矩阵。
[0139]
在本步骤中,所述组织的数据获取环境是指组织周围环境的物质交换,所述物质交换图用以表示某个位置的物质可能传播到的其他位置。其中,所述物质交换率包括该位置流入物质占比以及流出物质占比,根据所述流入物质占比以及流出物质占比以及组织特征矩阵计算该位置流入物质以及流出物质,通过单细胞特征矩阵生成的组织特征矩阵减去流出物质、累加流入物质得到所述模拟特征矩阵。
[0140]
作为本文实施例的一个方面,当所述物质交换图包括组织多个位置处的样本,根据所述物质交换图中的物质损失或污染,计算所述组织的模拟组织特征矩阵进一步包括,
[0141]
计算每个位置流出物质矩阵bleed:
[0142]
bleed=y
·
sigmoid(b_ratio),
[0143]
其中,b_ratio为流出物质占比;
[0144]
计算每个位置流入物质矩阵received:
[0145]
received=a
×
[bleed
·
sigmoid(r_ratio)]
×
w,
[0146]
其中,r_ratio为流入物质占比,a为邻接矩阵,w为权重单位矩阵;
[0147]
根据流出物质矩阵bleed和流入物质矩阵received,计算所述组织的模拟组织特征矩阵,
[0148]
y'=y-bleed received,
[0149]
其中,y'为所述组织的模拟组织特征矩阵,y为所述组织的组织特征矩阵。
[0150]
在本实施例中,b_ratio和r_ratio可通过神经网络等方法训练求出。所述的权重单位矩阵可以令组织不同位置之间的物质交换量与位置之间的距离平方成反比。
[0151]
其中,邻接矩阵a可以通过组织位置之间的距离确定,当两个组织位置之间的距离大于预定值时,则在标识所述两个组织位置关系的邻接矩阵a处置为0,当两个组织位置之间的距离小于等于预定值时,则在标识所述两个组织位置关系的邻接矩阵a的相应位置可以记为1。具体方法请参见后续说明书的描述。
[0152]
作为本文实施例的一个方面,当所述物质交换图只包括一个组织样本时,根据所述物质交换图中的物质损失或污染,计算所述组织的模拟组织特征矩阵进一步包括,
[0153]
计算该组织样本位置处流出物质矩阵bleed:
[0154]
bleed=y
·
sigmoid(b_ratio),
[0155]
其中,b_ratio为流出物质占比;
[0156]
计算该组织样本位置处流入物质矩阵received:
[0157]
received=a
×
[bleed
·
sigmoid(r_ratio)]
×
w,
[0158]
其中,r_ratio为流入物质占比,a为邻接矩阵,w为权重单位矩阵;
[0159]
根据流出物质矩阵bleed和流入物质矩阵received,计算该组织的模拟组织特征矩阵:
[0160]
y'=y-bleed received,
[0161]
其中,y'为所述组织的模拟组织特征矩阵,y为所述组织的组织特征矩阵。
[0162]
在本实施例中,当组织样本没有被分割为多个样本时,即只有一个样本时,该样本只有一个位置,考虑该样本与环境的物质交换(物质损失或污染),也就是说物质交换图退化为只有两个节点的情况(组织样本 环境),其中bleed代表组织样本物质损失、流失,
receive代表组织样本扩散、污染等情况,其中的邻接矩阵a和权重单位矩阵w只包括与一个组织样本相关联的环境因素。
[0163]
作为本文实施例的一个方面,训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵进一步包括,
[0164]
计算所述模拟组织特征与检测得到的组织特征之间的相似性:
[0165]
根据所述相似性,得到所述第一损失函数;
[0166]
根据越相似的细胞其在组织中的含量也相似的特性,针对细胞权重矩阵生成相似性惩罚项,将所述相似性惩罚项作为第二损失函数;
[0167]
结合所述第一损失函数和第二损失函数,构成所述损失函数。
[0168]
在本实施例中,计算所述模拟组织特征与检测得到的组织特征之间的相似性spot_simi=cosine_similarity(y
′i,y_obsi);其中,y_obsi为检测得到的组织中第i个位置的组织特征,yi'为计算得到的第i个位置的模拟组织特征,cosine_similarity()为余弦相似度系数算法,还可以采用欧几里得相关系数算法,皮尔森相关系数,斯皮尔曼相关系数等计算所述模拟组织特征与检测得到的组织特征之间的相似性;所述第一损失函数可以表示为:其中,n为组织位置的个数。
[0169]
作为本文实施例的一个方面,获取单细胞的特征矩阵之后还包括,
[0170]
对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵,该单细胞的模拟特征矩阵的分布特征与组织特征矩阵的分布特征吻合。
[0171]
在本实施例中,由于单细胞特征获取手段与组织特征获取手段不同,因此各自形成的特征矩阵的分布特征有所差异,通过对单细胞特征矩阵的分布特征进行校正可以得到与组织特征矩阵的分布特征趋于一致的单细胞的模拟特征矩阵。所述校正的手段有多种选择,本说明书的实施例并不限定使用哪种手段进行校正。
[0172]
作为本文实施例的一个方面,对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵进一步包括,
[0173]
通过线性模型对所述单细胞的特征矩阵进行校正,得到所述单细胞的模拟特征矩阵,
[0174]
x'=relu(relu(w_sc)
·
x b_sc),
[0175]
其中,x'为对应于单细胞特征矩阵的模拟特征矩阵,x为单细胞特征矩阵,relu为线性整流激活函数,w_sc为权重项,b_sc为偏置项。
[0176]
在本实施例中,所述relu起到对w_sc权重项约束作用,将参数都转换为正数;所述w_sc权重项与单细胞特征矩阵相匹配的矩阵,初始可以全部置零或者为随机数,所述b_sc偏置项令模拟特征矩阵x'的分布特征更加接近组织的分布特征,所述w_sc权重项与b_sc偏置项可以通过神经网络等方式训练求出。
[0177]
作为本文实施例的一个方面,对所述单细胞的特征矩阵进行校正,得到单细胞的模拟特征矩阵进一步包括,
[0178]
通过pcr模型(聚合酶链式反应)对所述单细胞的特征矩阵进行校正,得到所述单细胞的模拟特征矩阵,
[0179][0180]
其中,x'为对应于单细胞特征矩阵的模拟特征矩阵,x为单细胞特征矩阵,sigmoid为s型生长曲线激活函数,ratio为pcr实验里的扩增率,n为pcr循环次数,drop为单细胞实验捕获的损失。
[0181]
在本实施例中,所述的pcr模型是一种体外迅速扩增dna片段的技术,其中,参数ratio,drop,n可通过神经网络等方法训练求出。
[0182]
作为本文实施例的一个方面,根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵进一步包括,
[0183]
y=relu(m)
×
x',
[0184]
其中,m为细胞权重矩阵,relu为线性整流激活函数。
[0185]
在本实施例中,还可以采用其他的激活函数处理细胞权重矩阵m,在训练损失函数的过程中反复迭代调整所述细胞权重矩阵m,待损失函数值最小时对应的细胞权重矩阵m即为所述最终的细胞权重矩阵。
[0186]
作为本文实施例的一个方面,训练所述模拟组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵进一步包括,
[0187]
计算每个细胞的特征与模拟特征之间的相似性;
[0188]
根据所述相似性,得到第三损失函数;
[0189]
结合所述第一损失函数、第二损失函数以及第三损失函数,构成所述损失函数。
[0190]
在本实施例中,单细胞i通过检测得到的特征和上述通过计算得到的模拟特征分别为xi,x'i,共有m个单细胞,则单细胞特征的相似性cell_simi为:
[0191]
cell_simi=cosine_similarity(xi,x
′i),
[0192]
根据该单细胞特征相似性所构成的第三损失函数为:
[0193][0194]
作为本文实施例的一个方面,结合所述第一损失函数、第二损失函数以及第三损失函数,构成所述损失函数loss进一步包括,
[0195]
loss=α1loss1 α2loss2 α3loss3,
[0196]
其中,所述α1、α2和α3分别为第一损失函数、第二损失函数和第三损失函数的权重项,可以根据实际情况设置。
[0197]
通过本文实施例的上述方法,利用反应了组织和其中细胞生物学特征的损失函数进行反卷积计算,可以得到组织中单细胞的占比含量,提高反卷积计算的分辨率至单个细胞级别;反卷积算法的计算结果准确率提高,在基于空间转录组的数据显示中,明显高于现有技术中的算法;可以更好的反应样本的异质性(即样本本身的特性);此外,本说明书实施例的算法运算速度快,并行度高。
[0198]
此外,本说明书实施例中的方法可以不基于图像的细胞识别(cell segmentation)就可以得到组织中单细胞的信息,空间转录组未来可能会使得病理学进入组学时代;并且在医学诊断方面也具有重大应用潜力,例如,对病人抽血或做穿刺进行bulk rna-seq时,可以依据本说明书实施例的方案以较低的成本进行单细胞分辨率的分析与诊
断;适用于多种特征,包括但不限于转录组特征,甲基化特征等。
[0199]
如图2所示为本文实施例一种分析组织细胞成分方法的流程图,在本图中描述了具体的方法流程,目的是通过已知的组织中单细胞的特征矩阵和细胞权重矩阵计算得到组织特征矩阵,然后将该计算得到的组织特征矩阵与该组织通过检测得到的组织特征矩阵进行相似比较,根据体现出组织特征相似性的第一损失函数、体现出越相似的细胞其在组织中的含量也相似的特性的第二损失函数以及体现出单细胞特征相似性的第三损失函数构成的损失函数,反复迭代重复计算,期间不断的调整位置与细胞权重矩阵,在所述损失函数的值最小时,可以计算得到最终细胞权重矩阵,从而可以确定该组织中各单细胞的含量,该方法具体包括:
[0200]
步骤201,获取单细胞的特征矩阵x。
[0201]
在本步骤中,可以采用现有技术中的手段检测、获取单细胞的特征矩阵x。
[0202]
步骤202,将单细胞的特征矩阵生成单细胞的模拟特征矩阵x'。
[0203]
在本步骤中,组织和细胞的特征获取过程(检测)存在分布特征差异,在本步骤中通过对单细胞的特征矩阵x进行矫正后,得到单细胞的模拟特征矩阵x’,可以使得单细胞的模拟特征矩阵x’中的分布特征和组织特征矩阵中的分布特征吻合,其中,分布特征是指某一种特征的分布,可以参考图3所示为本说明书实施例计算过程的示意图中由实线表示的单细胞的特征矩阵x得到由虚线表示的单细胞的模拟特征矩阵x'。
[0204]
可以采用多种手段对单细胞的特征矩阵进行校正,在本实施例中例如采用线性模型的手段对单细胞的特征矩阵进行校正,得到所述单细胞的模拟特征矩阵,
[0205]
x'=relu(relu(w_sc)
·
x b_sc),
[0206]
其中,x'为对应于单细胞特征矩阵的模拟特征矩阵,x为单细胞特征矩阵,relu为线性整流激活函数,起到对w_sc权重项的约束作用,将参数都转换为正数,还可以使用其他激活函数来实现本说明书实施例中的约束作用,例如sigmoid、tanh等;权重项w_sc为与单细胞特征矩阵相匹配的矩阵,可以全部置零或者为随机数,偏置项b_sc可以令模拟特征矩阵x'的分布特征更加接近组织的分布特征。所述w_sc权重项与b_sc偏置项可以通过神经网络等方式训练求出。
[0207]
步骤203,通过单细胞的模拟特征矩阵x'与细胞权重矩阵的矩阵m乘法运算,生成组织特征矩阵y。
[0208]
在本步骤中,细胞权重矩阵的矩阵m可以是预先设定的矩阵,其表示了组织中各个位置单细胞的含量,随着反复迭代计算损失函数的值最小的过程中不断修正,从而可以得到组织中单细胞的含量。
[0209]
本步骤中的矩阵乘法可以为:y=relu(m)
×
x',其中,relu为线性激活函数,或者还可以为其他激活函数。
[0210]
可以参考如图3所示本说明书实施例计算方法示意图,通过单细胞的模拟特征矩阵x'和细胞权重矩阵m得到组织特征矩阵y的过程。
[0211]
步骤204,根据组织特征矩阵y以及空间位置矩阵得到组织的物质交换图。
[0212]
在本步骤中,如图3所示为本说明书实施例计算过程的示意图,在该图中根据计算得到的组织特征矩阵y与描述组织在各个位置处的坐标(空间位置矩阵)可以得到物质交换图,其中,组织特征矩阵y的行代表不同位置处的组织,列表示该位置处组织的特征,空间位
置矩阵的行表示不同位置处的组织,列表示该位置处组织的位置坐标,两者结合后就可以得到组织的物质交换图。
[0213]
在其他的实施例中,当只有一个组织样本时,即,组织样本位于一个位置,根据该场景得到的组织的物质交换图中仅有两个节点,即,组织样本节点和环境节点,后续如何根据组织交换图来得到模拟组织特征矩阵y’的方法同样可以参考后续步骤,只不过将其中的节点限定为2个节点。
[0214]
也就是说,在本说明书实施例中不限定将组织分割为多个位置处的样本,也同样可以不对组织进行分割,即,组织作为一个样本也是同样可行的。
[0215]
步骤205,从物质交换图中分析各个位置处组织之间的物质交换,从而得到所述组织的模拟组织特征矩阵y’。
[0216]
在本步骤中,所述物质交换图中各个位置处的组织物质交换包括物质损失或者污染,设空间中n个位置的空间坐标为[(x1,y1),(x2,y2)...,(xn,yn)],按照如下公式对空间坐标进行归一化处理,从而解决在不同的实验手段中测得的空间位置不统一的问题,通过归一化调整坐标系:
[0217][0218]
则任意位置i,j之间的空间距离d
i,j
为:
[0219][0220]
令预设物质交换半径阈值为r,则i与j的最终空间距离为:
[0221][0222]
根据构建的无向物质交换图g=《v,e》,其中顶点v为所有位置构成的集合,e为边集,若位置i与j之间的距离d
i,j
小于等于预设半径阈值r,则认为位置i与j之间存在边(就是i与j之间有物质交换),反之不存在。
[0223]
设a为物质交换图g的邻接矩阵,按照如下公式对邻接矩阵进行归一化:
[0224][0225]
令权重单位矩阵w为单位矩阵。
[0226]
设y为组织特征矩阵,y’为模拟污染、扩散之后的模拟组织特征矩阵,首先计算所有位置流出物质矩阵bleed:
[0227]
bleed=y
·
sigmoid(b_ratio),
[0228]
其中,b_ratio为流出物质占比。
[0229]
通过图卷积,计算所有位置的流入物质矩阵received:
[0230]
received=a
×
[bleed
·
sigmoid(r_ratio)]
×
w,
[0231]
其中,r_ratio为流入物质占比,a为邻接矩阵,w为权重矩阵。
[0232]
最终,结合bleed和received计算模拟组织特征矩阵y’:
[0233]
y'=y-bleed received,
[0234]
以上b_ratio和r_ratio可通过神经网络等方法训练求出。
[0235]
模拟组织特征矩阵y’的表现形式可以如图4所示为本说明书实施例的模拟空间转录组表达矩阵y’示例图,其中,行代表不同位置处的组织,列代表不同位置处组织的特征。
[0236]
步骤206,根据上述单细胞的模拟特征矩阵和模拟组织特征矩阵以及相似性惩罚项生成损失函数。
[0237]
在本步骤中,令检测得到的第i个位置处的组织特征为y_obsi,通过前述步骤得到的该位置处的模拟组织特征为y’i
,共有n个采样位置,则模拟污染组织和检测组织之间的相似性为:
[0238]
spot_simi=cosine_similarity(y
′i,y_obsi),
[0239]
其中的cosine_similarity()为余弦相似度系数算法计算所述模拟组织特征与检测得到的组织特征之间的相似性。
[0240]
则基于组织特征相似性的第一损失函数为:
[0241][0242]
按照前述方法,根据越相似的细胞其在组织中的含量也相似的特性,针对所述细胞权重矩阵生成相似性惩罚项l,例如可以根据越相似的细胞其在组织中的含量也相似的特性构建如下的相似性惩罚项l:
[0243][0244][0245]
其中,i1,i2表示组织中的任意两个细胞,表示细胞i1,i2的相似度,和为细胞i1,i2的预测丰度,为表示细胞i1,i2特征的皮尔逊相关系数,当大于0时表示细胞i1,i2具有相关性,当小于等于0时表示细胞i1,i2不具有相关性。
[0246]
在其他实施例中还有其他的相似性惩罚项l的表现形式,在此不做限制。
[0247]
利用上述相似性惩罚项得到第二损失函数,loss2=l。
[0248]
第i个单细胞检测得到的特征和模拟特征分别为xi,x’i
,共有m个单细胞,则单细胞特征的相似性cell_simi为:
[0249]
cell_simi=cosine_similarity(xi,x
′i),
[0250]
则基于单细胞特征相似性的第三损失函数为:
[0251][0252]
最终损失函数为:
[0253]
loss=α1loss1 α2loss2 α3loss3,
[0254]
其中α1,α2,α3为每个损失项的权重项,可结合实际情况设置权重。
[0255]
返回步骤203不断修改细胞权重矩阵m从而得到最终细胞权重矩阵,使得损失函数
最小。可以参考图5所示为本说明书实施例细胞权重矩阵m示例图,其中,行代表细胞的名称,列代表组织的名称。
[0256]
如图6所示为本说明书实施例一种分析组织细胞成分装置的结构示意图,在本图中描述了通过软件、计算机程序实现前述方法的模块结构示意图,这些模块、单元可以通过软件实现,也可以通过通用芯片的编程实现,该装置具体包括,单细胞特征矩阵获取单元601、组织特征矩阵生成单元602、损失函数训练单元603,
[0257]
其中,单细胞特征矩阵获取单元601,用于获取单细胞的特征矩阵;
[0258]
组织特征矩阵生成单元602,用于根据所述单细胞的特征矩阵以及细胞权重矩阵,生成组织特征矩阵;
[0259]
损失函数训练单元603,用于训练所述组织特征矩阵与检测得到的组织特征矩阵之间的损失函数,得到最终细胞权重矩阵,其中所述损失函数包括了越相似的细胞其在组织中的含量也相似的特性。
[0260]
通过上述本说明书分析组织细胞成分的装置,通过反应了组织和其中细胞生物学特征的损失函数进行反卷积计算,可以得到组织中单细胞的占比含量,提高反卷积计算的分辨率至单细胞个级别;反卷积算法的计算结果准确率提高,在基于空间转录组的数据显示中,明显高于现有技术中的算法;可以更好的反应样本的异质性(即样本本身的特性);此外,本说明书实施例的算法运算速度快,并行度高。
[0261]
通过上述本说明书实施例的方法和装置,可以明显的提高与观测表达谱的相似性,如图7所示为本说明书实施例模拟空间转录表达谱与现有技术中其他模拟方法模拟空间转录表达谱的性能图,其中通过模拟得到的模拟组织特征矩阵与观测得到的组织特征矩阵的余弦相似度接近于1,可以看出利用本说明书实施例的方法得到的模拟空间转录表达式与观测表达谱的相似相更高。如图8a所示为本说明书实施例分析组织细胞成分方法对组织中细胞周期素(b_cycling)含量分析的结果示意图,图8b所示为本说明书实施例分析组织细胞成分方法对滤泡树突状细胞(fdc,follicular dendritic cells)含量分析的结果示意图,图中灰色区域代表相应细胞的含量。
[0262]
如图9所示为本文实施例一种计算设备的结构示意图,上述实施例中的方法均可以运行于本实施例中的计算设备上,计算设备902可以包括一个或多个处理设备904,诸如一个或多个中央处理单元(cpu),每个处理单元可以实现一个或多个硬件线程。计算设备902还可以包括任何存储资源906,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源906可以包括以下任一项或多种组合:任何类型的ram,任何类型的rom,闪存设备,硬盘,光盘等。更一般地,任何存储资源都可以使用任何技术来存储信息。进一步地,任何存储资源可以提供信息的易失性或非易失性保留。进一步地,任何存储资源可以表示计算设备902的固定或可移除部件。在一种情况下,当处理设备904执行被存储在任何存储资源或存储资源的组合中的相关联的指令时,计算设备902可以执行相关联指令的任一操作。计算设备902还包括用于与任何存储资源交互的一个或多个驱动机构908,诸如硬盘驱动机构、光盘驱动机构等。
[0263]
计算设备902还可以包括输入/输出模块910(i/o),其用于接收各种输入(经由输入设备912)和用于提供各种输出(经由输出设备914))。一个具体输出机构可以包括呈现设备916和相关联的图形用户接口(gui)918。计算设备902还可以包括一个或多个网络接口
920,其用于经由一个或多个通信链路922与其他设备交换数据。一个或多个通信总线924将上文所描述的部件耦合在一起。
[0264]
通信链路922可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路922可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
[0265]
本文实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述步骤。
[0266]
本文实施例提供的计算机设备还可以实现本文前述实施例的方法。
[0267]
本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
[0268]
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如本文前述实施例的方法。
[0269]
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
[0270]
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0271]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
[0272]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0273]
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0274]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
[0275]
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0276]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0277]
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献