一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法与流程

2022-02-19 12:32:46 来源：中国专利 TAG：

技术特征：
1.一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，包括以下步骤；1)调整批次效应与数据标准化预处理：选用从arrayexpress和geo数据库中下载的5个公开的真实单细胞rna
‑
seq数据集来对单细胞进行聚类，这5个公开数据集中的基因表达值取自于各种组织细胞，包括gse60361、gse65525、gse72056、gse76312和gse103322，读取原始的单细胞rna
‑
seq数据并对其进行批次效应调整和标准化预处理；2)数据重构与降噪：将经过对数标准化处理后的单细胞rna
‑
seq数据输入到深层降噪自编码器中，深层降噪自编码器使用零膨胀负二项分布来重构数据，重构出的数据能够较好地保存生物的原始特征；3)数据降维：深层降噪自编码器重构出的单细胞rna
‑
seq数据仍然是高维的，高维的单细胞rna
‑
seq数据给细胞亚型的鉴定带来了非常大的困难，使用快速独立成分分析的方法降低样本数据的维度，消除数据中的冗余部分，进一步避免因为数据中的冗余部分干扰癌症的早期发现和相关治疗；4)高斯混合聚类与数据可视化：得到低维低噪声的单细胞rna
‑
seq数据之后，使用高斯混合模型对细胞进行聚类并确定细胞类型，得到的细胞类型即为发现的潜在细胞亚型，采用t分布随机近邻嵌入方法可视化最终的聚类结果，并结合现有的细胞及癌症数据库上对聚类结果进行分析，帮助医生开展癌症的早期发现。2.根据权利要求1所述的一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，所述步骤1)中对单细胞rna
‑
seq数据调整批次效应和标准化预处理的步骤包括：首先使用层次贝叶斯模型来调整单细胞rna
‑
seq数据的批次效应，同时解决测量灵敏度带来的不确定性问题；接着筛选出基因表达量正常的细胞；然后，采用对数标准化方法对数据的测序深度和基因长度进行标准化。3.根据权利要求1所述的一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，所述步骤2)中所使用的深层降噪自编码器通过零膨胀负二项分布来重构单细胞rna
‑
seq数据，整个自编码器有三个输出，分别学习零膨胀负二项分布的零膨胀因子、均值和方差；所述的待分析单细胞rna
‑
seq数据使用x来表示，自编码器中编码阶段表示为h(x)＝σ
h
(wx b)，w表示编码过程中的权重矩阵，b则表示偏置项，而自编码器的解码阶段则和编码阶段相对应，将编码后的数据进行重构，自编码器的输入维度和用于训练的单细胞rna
‑
seq数据的维度一致，编码器和解码器各有五层网络，在负二项分布(nb)模型的基础上加入一个零膨胀因子，也可以理解为在零点处增加一个脉冲函数，即用零膨胀负二项分布(zero
‑
inflated negative binomial)来建模单细胞rna
‑
seq数据，公式化表示为zinb(x|π,μ,θ)＝πδ0(x) (1
‑
π)νβ(x|μ,θ)，如果y＝σ
o
(w
′
h(x) b
′
)表示解码器的最后一个隐层，在其后添加三个独立的全连接层，也就是说整个自编码器会有三个输出，分别学习零膨胀负二项分布的零膨胀因子、均值和方差，降噪自编码器的降噪部分的损失函数表示为l
d
＝
‑
log
(zinb(x|π,μ,θ))。4.根据权利要求1所述的一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，所述步骤3)中使用快速独立成分分析的方法降低单细胞rna
‑
seq数据的维度，独立成分分析假设所有数据的各部分彼此独立，并认为所有成分同等重要，将原始的数据分解成统计意义相互独立的非高斯数据成分的线性组合；假设重构后的单细胞rna
‑
seq数据服从模型x＝as，其中的s是具有独立分量的未知源数据，a是未知混合矩阵，s中的每个独立成分和a中的每个混合系数均是未知的，独立成分分析方法只通过x中每个观测到的信号数据来预估混合系数与独立分量，该方法会先对原始的数据进行中心化以及白化预处理，经过上述预处理后，采用快速独立成分分析的方法来处理样本数据，首先是初始化向量w，定义w＝a
‑1，w是w中的行向量。其次，令w

＝e{xg(w
t
x)}
‑
e{g
′
(w
t
x)}w，上式中的g是一个非线性标量函数，并令w＝w

/||w

||，如果上述过程没有收敛，则不断重复这一步骤，最后，使用快速独立成分分析方法对包含重要信息的几个独立分量进行估计，实现降低单细胞rna
‑
seq数据维度的目的。5.根据权利要求1所述的一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，所述步骤4)中使用高斯混合模型对细胞进行聚类并确定细胞类型，具体步骤包括：首先初始化高斯混合分布的模型参数，然后基于期望最大化算法反复迭代优化模型的参数；期望最大化算法中的e迭代步骤：基于第i个高斯混合分量计算出第i个样本数据的后验概率γ
ji
：：期望最大化算法中的m迭代步骤：反复迭代优化模型的其他参数μ
i
，∑
i
和α
i
，基于以下公式计算：算：当实验过程中达到最大的迭代次数时候停止迭代，如果不满足上述条件则继续迭代更新参数，最后，样本数据x
j
的聚类标签λ
j
使用λ
j
＝arg maxγ
ji
计算得到，使用t分布随机近邻嵌入方法对最终的聚类结果进行可视化，使聚类结果显示到二维坐标上。6.根据权利要求5所述的一种基于深层降噪自编码器的单细胞rna
‑
seq数据聚类方法，其特征在于，所述的使用高斯混合模型进行初始化过程中，采用k
‑
means 来解决质心初始化的问题，其方法是从输入的数据点集合中随机选择一个点作为第一个聚类中心；对与数据集中的每一个对象，计算它与最近聚类中心的相似性；选择一个新的数据点作为新的聚类中心，选择的原则是：相似性较大的点，被选取作为聚类中心的概率较大；重复上面的步骤直到k个聚类中心被选出，利用这k个初始的聚类中心来运行标准的k
‑
means算法。

技术总结
本发明公开了一种基于深层降噪自编码器的单细胞RNA

技术研发人员：王艺杰王文庆杨东胥冠军崔逸群毕玉冰刘超飞董夏昕刘迪肖力炀刘骁
受保护的技术使用者：西安热工研究院有限公司
技术研发日：2021.09.29
技术公布日：2022/1/4

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于睡眠特征的呼吸机调控方法及系统与流程

一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法与流程

相关文献

最热文献