一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种单细胞转录组数据进行细胞分化预测方法与流程

2021-12-17 19:24:00 来源:中国专利 TAG:

1.本发明涉及单细胞生物信息技术领域,特别涉及一种单细胞转录组数据进行细胞分化预测方法。


背景技术:

2.在生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态之间会按照一定的时间顺序转换。最典型的比如细胞的分化过程,从不成熟的细胞逐渐分化为成熟细胞。此外,细胞在受到外界刺激或扰动时,细胞内基因的表达也可能发生一系列的变化,其中一些基因被沉默,而另一些则被新激活,从而呈现出一系列状态的转换。这些瞬态通常难以表征,因为从更稳定的端点状态之间纯化细胞几乎是不可能的,单细胞转录组则无需纯化即可查看这些状态。
3.基于单细胞测序数据具体研究不同细胞状态间的转换过程,就称作细胞轨迹(cell trajectory)的构建或拟时间序列(pseudotime)的构建,是根据细胞中基因的表达情况,将不同的细胞按照拟时间序列从开始状态、中间状态、终点状态来排列,沿着发育轨迹组织单个细胞已成为了解基因调控如何控制细胞命运决定的有力工具。从原理上讲,细胞轨迹分析可用于多种细胞过程(包括分化,增殖和致癌转化)的单细胞基因表达动力学。
4.单细胞测序数据让分析细胞轨迹成为可能,但同时也带来了巨大的计算量,对计算设备需求也更高。目前市面上的基于单细胞mrna测序数据推断细胞分化轨迹已有的技术主要包括monocle、scorpius、tscan等算法或者软件,然而,以上技术由于推断轨迹的方式决定了不能构建复杂拓扑结构,同时未解决单细胞mrna测序数据中的噪声对结果的影响,此外,判定细胞分化轨迹的方法过度依赖于计算机领域的方法,因此具有以下缺点:1、只能推断简单拓扑结构的细胞分化轨迹(如:线性,树状等),更为复杂的结构(如:闭合环状,分离的子轨迹等)则无法推断;2、对于噪声高的单细胞数据不具有鲁棒性;3、推断结果的准确性不高。


技术实现要素:

5.本发明的目的是提供一种单细胞转录组数据进行细胞分化预测方法,至少能够解决上述问题之一。
6.根据本发明的一个方面,提供了一种单细胞转录组数据进行细胞分化预测方法,包括以下步骤:
7.s1、数据输入;所述数据为单细胞转录组数据计数矩阵;
8.s2、数据预处理,配置为清理矩阵;
9.s3、数据降维/可视化,配置为提取主成分特征以及可视化;
10.s4、分化轨迹推断;
11.s5、假时间预测,配置为输出假时间向量对应于每个细胞;
12.s6、输出预测的细胞分化轨迹,所述细胞分化轨迹对应于每个细胞的细胞类别向
量和假时间向量。
13.由此,本发明提供了一种全新的单细胞转录组数据进行细胞分化预测方法,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,确保了可以构建(包括如闭合环状、分离的子轨迹等复杂拓扑结构)任何的拓扑结构。另外,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。本发明的方法可以用于研究例如癌症的发展阶段,其内部细胞的差异性,以及构建任意拓扑结构的细胞分化图等。
14.在一些实施方式中,在步骤s2中,数据预处理包括以下步骤:
15.s21、基因筛选:挑选方差最大的前k个基因(k为正整数);
16.s22、细胞筛选:去除含有基因总计数少于n的细胞(n为正整数);
17.s23、目标基因确定:如有提供n个基因,需要寻找k个目标基因;
18.s24、数据标准化:通过标准化公式进行计算。
19.在一些实施方式中在步骤s23中,所述目标基因确定可通过以下方法之一实现:
20.(1)通过找出与提供的基因含有最高相关系数的k个基因;
21.(2)对筛选后的数据集进行非负矩阵分解,并使用knn算法,基于分解后的w矩阵为每个提供的基因找出k/n个最邻近的基因;
22.所述knn算法的公式为:
23.v≈w
×
h
24.其中,v为原始数据矩阵,w为维度(g,m)的矩阵,h为维度(m,c) 的矩阵;g,c,m分别为基因数,细胞数,降维后的维度。
25.在一些实施方式中,在步骤s24中,所述标准化公式为:
26.其中,n
g,c
为基因g在细胞c中的计数,n
c
为每个细胞中的总基因计数,
[0027][0028]
scale factor为常数且单位为10^4。
[0029]
在步骤s3中,所述数据降维包括以下步骤:
[0030]
s31、主成分降维(pca):求出标准化后的mrna计数矩阵的协方差矩阵,并求出该协方差矩阵的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行即为提取的前k个特征并组成新的降维后的矩阵;
[0031]
s32、t随机临近嵌入法(tsne):基于步骤s3降维之后的矩阵,将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由学生t分布表示,并将kl散度作为损失函数并用梯度下降算法优化,形成二维的关于细胞的坐标矩阵。
[0032]
在一些实施方式中在步骤s4中,所述分化轨迹推断包括以下步骤:
[0033]
s41、细胞聚类:采用基于密度的聚类方法进行,用期望最大算法对于降维后的矩阵数据估计混合高斯分布模型,并结合二维核密度估计确定细胞类群,用最小方差决定算法重新拟合每一个类群;
[0034]
s42、统计模型拟合:采用最小协方差决定算法进行;
[0035]
s43、过渡期细胞预测:基于每一个类群的拟合模型:
[0036][0037]
其中,p
c,d1
,p
c,d2
为:细胞c属于d1,d2类群的概率,c
sum
,c
diff
为分类的阈值;
[0038]
满足上述拟合模型的细胞即为过渡细胞;
[0039]
s44、连接条件确定:过渡细胞的数量超过对应的细胞类群中细胞总数量的百分比阈值即判定对应的细胞类群存在分化关系;
[0040]
s45、轨迹生成:对于任意两个可以连接的细胞类群,主成分曲线为:
[0041]
f(s)=e(y|s
f
(v)=s);y=(y1,y2)
[0042]
其中,f(s)为概率分布y中所有映射索引sf(y)为s的点的期望值;
[0043]
然后迭代直到收敛:
[0044][0045][0046][0047]
其中,sfd(y)为通过细胞类群d的主成分曲线的点的映射索引,n为主成分曲线通过细胞类群的总数。
[0048]
由此,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,可以推断出任何拓扑结构的轨迹,更加真实的模拟细胞分化的过程;同时,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。
[0049]
在一些实施方式中,在步骤s5中,所述假时间预测包括以下步骤:
[0050]
s51、确定细胞初始分化群:人工设置初始细胞群;
[0051]
s52、分配假时间:基于细胞距离并通过以下公式进行:
[0052][0053][0054]
其中,n
d
为细胞类别d的总数,m为细胞类别的总数,c
m
为在m类别中的细胞c,d(p,q)为细胞p与细胞q的欧几里得距离。
[0055]
本发明的有益效果:
[0056]
本发明提供了一种全新的单细胞转录组数据进行细胞分化预测方法,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,确保了可以构建(包括如闭合环状、分离的子轨迹等复杂拓扑结构)任何的拓扑结构。另外,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。本发明的方法可以用于研究例如癌症的发展阶段,其内部细胞的差异性,以及构建细胞分化图谱等。
具体实施方式
[0057]
下面对本发明作进一步详细的说明。
[0058]
本发明的单细胞转录组数据进行细胞分化预测方法包括以下步骤:
[0059]
s1、数据输入;所述数据为单细胞转录组数据计数矩阵;
[0060]
s2、数据预处理,配置为清理矩阵;
[0061]
具体包括:
[0062]
s21、基因筛选:挑选方差最大的前k个基因(k为正整数);
[0063]
s22、细胞筛选:去除含有基因总计数少于n的细胞(n为正整数);
[0064]
s23、目标基因确定:如有提供n个基因,需要寻找k个目标基因;
[0065]
上述目标基因确定可通过以下方法之一实现:
[0066]
(1)通过找出与提供的基因含有最高相关系数的k个基因;
[0067]
(2)对筛选后的数据集进行非负矩阵分解,并使用knn算法,基于分解后的w矩阵为每个提供的基因找出k/n个最邻近的基因;
[0068]
所述knn算法的公式为:
[0069]
v≈≈w
×
h
[0070]
其中,v为原始数据矩阵,w为维度(g,m)的矩阵,h为维度(m,c) 的矩阵;g,c,m分别为基因数,细胞数,降维后的维度。
[0071]
s24、数据标准化:通过标准化公式进行计算。
[0072]
上述的标准化公式为:
[0073][0074]
其中,n
g,c
为基因g在细胞c中的计数,n
c
为每个细胞中的总基因计数, scale factor为常数且单位为10^4。
[0075]
s3、数据降维/可视化,配置为提取主成分特征以及可视化;
[0076]
具体包括以下步骤:
[0077]
s31、主成分降维(pca):求出标准化后的mrna计数矩阵的协方差矩阵,并求出该协方差矩阵的特征值及对应的特征向量,将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行即为提取的前k个特征并组成新的降维后的矩阵;
[0078]
s32、t随机临近嵌入法(tsne):基于步骤s3降维之后的矩阵,将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由学生t分布表示,并将kl散度作为损失函数并用梯度下降算法优化,形成二维的关于细胞的坐标矩阵。
[0079]
s4、分化轨迹推断;
[0080]
具体包括以下步骤:
[0081]
s41、细胞聚类:采用基于密度的聚类方法进行,用期望最大算法对于降维后的矩阵数据估计混合高斯分布模型,并结合二维核密度估计确定细胞类群,用最小方差决定算法重新拟合每一个类群;
[0082]
s42、统计模型拟合:采用最小协方差决定算法进行;
[0083]
s43、过渡期细胞预测:基于每一个类群的拟合模型:
[0084][0085]
其中,p
c,d1
,p
c,d2
为:细胞c属于d1,d2类群的概率,c
sum
,c
diff
为分类的阈值;
[0086]
满足上述拟合模型的细胞即为过渡细胞;
[0087]
s44、连接条件确定:过渡细胞的数量超过对应的细胞类群中细胞总数量的百分比阈值即判定对应的细胞类群存在分化关系;
[0088]
s45、轨迹生成:对于任意两个可以连接的细胞类群,主成分曲线为:
[0089]
f(s)=e(y|s
f
(y)=s);y=(y1,y2)
[0090]
其中,f(s)为概率分布y中所有映射索引sf(y)为s的点的期望值;
[0091]
然后迭代直到收敛:
[0092][0093][0094][0095]
其中,sfd(y)为通过细胞类群d的主成分曲线的点的映射索引,n为主成分曲线通过细胞类群的总数。
[0096]
由此,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,可以推断出任何拓扑结构的轨迹,更加真实的模拟细胞分化的过程;同时,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。
[0097]
s5、假时间预测,配置为输出假时间向量对应于每个细胞;
[0098]
具体包括以下步骤:
[0099]
s51、确定细胞初始分化群:人工设置初始细胞群;
[0100]
s52、分配假时间:基于细胞距离并通过以下公式进行:
[0101][0102][0103]
其中,n
d
为细胞类别d的总数,m为细胞类别的总数,c
m
为在m类别中的细胞c,d(p,q)为细胞p与细胞q的欧几里得距离。
[0104]
s6、输出预测的细胞分化轨迹,所述细胞分化轨迹对应于每个细胞的细胞类别向量和假时间向量。
[0105]
本发明提供了一种全新的单细胞转录组数据进行细胞分化预测方法,使用了寻找细胞集群中的过渡细胞并连接对应细胞类群的方法,确保了可以构建(包括如闭合环状、分离的子轨迹等复杂拓扑结构)任何的拓扑结构。另外,使用基于密度的方法,使用了细胞的相对分布而不是绝对位置作为信息,以此来减小噪声数据对于结果的影响。本发明的方法可以用于研究例如癌症的发展阶段,其内部细胞的差异性,以及构建构建任意拓扑结构的细胞分化图等。
[0106]
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献