一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

鉴定谱系树中分支点细胞命运决定的关键调控因子的方法

2022-11-19 14:29:40 来源:中国专利 TAG:


1.本发明属于生物技术领域,具体涉及一种鉴定谱系树中分支点细胞命运决定的关键调控因子的方法。


背景技术:

2.谱系树(cell lineage tree)是由细胞分化过程及其形成的各子代细胞之间的关系组成的一个树形结构。谱系树作为多细胞生物最重要的表型之一,为追踪细胞分裂分化及细胞状态的时序变化提供了高效的数据表示和分析框架;它不仅是解决生命科学中许多发育有关重大问题的关键,也为发展计算技术和信息学方法来研究生物发育提供了重要手段。其中,干细胞(stem cell)谱系树是研究发育和细胞命运决定的最为重要的工具。
3.干细胞是一类多能(pluripotent)细胞,可以分化为形态结构、功能特征各不相同的细胞类群,并进而形成人体组织、器官和系统。干细胞持续的自我更新和多谱系分化是组织器官形成和个体发育的基础。干细胞不但是发育生物学的重要研究对象,更在临床应用领域有着广阔的前景。干细胞如何决定其在分化过程中的命运及其背后的调控机制是干细胞发育与器官再生领域最为关键科的学问题之一。因此,全面、系统、科学地研究干细胞的命运决定机制,将有助于深入理解器官发生和个体发育的生物学过程,并为细胞工程、再生医学及其临床应用提供理论基础。
4.伴随着细胞谱系树测定技术日新月异的发展,特别是近年基因编辑技术与单细胞测序技术的联合应用,细胞谱系树的数据呈现出快速积累的态势,基于谱系树的细胞状态建模与动态转移分析尤为重要,因为它是研究细胞命运决定机制的关键,且与发育生物学研究及临床应用直接关联。多组学的高通量测序技术,尤其是近年来不断发展的单细胞测序技术,为利用信息技术来研究细胞分化和命运决定提供了宝贵的资源。
5.鉴于可变剪接在干细胞自我更新、定向分化中的重要作用,阐释其精准调控机制将有助于进一步揭示干细胞的命运决定,并为细胞和组织工程以及再生医学提供理论基础。表观遗传修饰为剪接模式提供了表观遗传记忆,使剪接模式在干细胞自我更新过程中能够得以传递;同时,当干细胞定向分化而需要新的剪接模式时,该记忆又可被修改而无需建立新的剪接规则,便可得到特异性的剪接结果。
6.研究谱系树中细胞分化命运决定机制的关键在于揭示决定其定向分化命运(分支选择)的关键调控因子。传统研究的细胞命运决定,多侧重于细胞在自我更新和定向分化之间的命运预测,但是这仅仅适用于简单的谱系树,针对复杂的海量的多组学的高通量测序数据,以及更复杂的谱系树,如何从高维的多组学数据中学习其低维空间的表示,并基于此来得到分支点细胞命运决定的关键调控因子成为需要解决的技术问题。


技术实现要素:

7.为了解决上述技术问题,本发明提供了一种鉴定谱系树中分支点细胞命运决定的关键调控因子的方法。
8.本发明的目的是提供一种鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,包括:
9.获取谱系树中所有细胞类型的高维数据,所述高维数据是细胞的高通量测序数据;
10.建立基于流形学习的计算模型refit,所述refit用于映射树形结构中多种细胞类型的高维数据到低维空间;
11.将高通量测序数据数据输入refit模型,鉴别谱系树中分支点细胞命运决定的关键调控因子。
12.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述refit用于得到由可变剪接事件为点构成的树状流形图,其中每一个点对应一个可变剪接事件,而空间位置则反映了其关键表观调控因子。
13.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,根据所述树状流形图,找到任意两亲子代细胞间的经过可变剪接事件的分化路径,并确定对细胞分化命运决定起关键作用的点(关键调控因子)。
14.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述谱系树为人类胚胎干细胞分化谱系树、造血干细胞分化谱系树或者诱导多能干细胞分化谱系树。
15.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述高通量测序数据包括基因组、转录组和表观遗传组的高通量测序数据。
16.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述高维数据是组蛋白修饰和rna序列的高通量测序数据。
17.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,将所述高通量测序数据先进行预处理,然后再建立计算模型refit。
18.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到转录组的rna-seq数据,使用rmats软件检测谱系树中每个细胞类型的可变剪接事件,记录每个可变剪接区域的剪入百分比(percent spliced in,psi),合并所有细胞类型鉴定的可变剪接事件,使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表。
19.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的chip-seq数据,使用macs2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰,针对每种组蛋白修饰,合并所有细胞类型中检测的信号峰,从而得到统一的一组组蛋白修饰信号峰列表;
20.基于信号峰与5’端剪接位点的距离d及峰的高度h,定义组蛋白修饰在可变剪接区间的强度为hm=h/d,对每一细胞类型的chip-seq数据进行相同处理后,将各自获得一个数据表,其中“行”表示可变剪接事件,“列”表示组蛋白修饰种类,“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。
21.优选的,上述鉴定谱系树中分支点细胞命运决定的关键调控因子的方法,所述高通量测序数据预处理方式如下:选取可变剪接位点及其上下游各150bp区间,然后从基因组
fasta文件中提取该区间的碱基序列,并使用独热编码方法将碱基序列转换成二进制的4
×
n的二维向量,其中n表示序列的长度。
22.与现有技术相比,本发明具有以下有益效果:
23.为了对干细胞多代分化过程进行完整刻画,考虑蕴藏于谱系树中的结构信息,本发明围绕人类胚胎干细胞谱系树、造血干细胞谱系树和ipsc分化成神经细胞的谱系树,充分考虑“树”的结构信息,开发系统的生物信息学计算方法,研究干细胞多代分化的谱系树中高维的多组学数据的低维空间的表示,并基于此来鉴定分支点细胞命运决定的关键调控因子,进而揭示关键节点上参与细胞命运决定的可变剪接调控机制。
24.我们提出以下假设:鉴于剪接模块及其调控密码在分化过程中的动态变化和谱系树结构,以及更重要的是这些信息都是以高维观测值来表示的,因此流行学习(manifold learning)可以用于将此类高维数据映射到低维空间但保留其内在几何约束关系,进而有利于鉴定参与命运决定的最关键的调控因子。
25.本发明重点考虑谱系树的拓扑结构及细胞间的代际关系,整合高通量多组学数据,将高维数据映射到低维空间但保留其内在几何约束关系,进而鉴定谱系树中分支点细胞命运决定的关键调控因子。
26.本发明针对干细胞命运决定的特殊性,尤其是分支点细胞命运决定,即细胞定向分化后会定向到哪一子代细胞类型的选择问题,创新性地将细胞类型表示成可变剪接事件在多种表观修饰和rna序列特征构成的高维空间中的点,然后借助于流形学习的降维作用,将高维空间表示的细胞分化过程映射为2维空间中的流形,且约束其流形结构尽可能地接近原始的谱系树结构。以树状结构为中心,构成了一个完整的生物信息分析框架,系统地研究复杂谱系树中干细胞分化的剪接表观遗传密码及命运决定机制。本发明提供一套完整的生物信息学分析框架,并为基于干细胞的再生医学及其临床应用提供理论基础。
附图说明
27.图1为谱系树示意图;
28.图2为造血干细胞(a)分化谱系树和诱导多能干细胞(b)的分化谱系树;
29.图2中,c表示造血干细胞的组蛋白修饰与可变剪接类型,d表示诱导多能干细胞的组蛋白修饰与可变剪接类型;
30.图3为原始数据及其预处理方法;
31.a,细胞分化谱系树,b,rna-seq数据,c,chip-seq数据,d,rna序列数据;
32.图4为常见可变剪接类型(a)与细胞命运决定(b);
33.图5为refit流形学习(a)与细胞命运决定关键因子鉴定(b)。
具体实施方式
34.为了使本领域技术人员更好地理解本发明的技术方案能予以实施,下面结合具体实施例和附图对本发明作进一步说明。
35.在本发明的描述中,如未特殊说明,所用试剂均为市售,所用方法均为本领域常规技术。
36.现有技术针对细胞命运决定的研究,仅仅适用于成对细胞在自我更新和定向分化
之间的命运预测。针对更复杂的多层细胞分化谱系树,以及海量的高维的多组学高通量测序数据,需要解决基于谱系树的多层分化及命运决定的预测,从而更系统的研究干细胞分化成不同组织细胞的剪接和表观遗传机制。因此,本发明拟解决的关键科学问题是提出新的计算方法来鉴定复杂谱系树上的分支点细胞命运决定的关键调控因子。具体方法如下:
37.1、实验数据及预处理
38.(1)细胞分化谱系树
39.细胞分化过程中各细胞类型及其相互关系表示为一棵树(tree),称为谱系树(cell lineage tree)。和传统树的定义一样,谱系树是一个有向无环图(directed acyclic graph,gad)。参见图1,谱系树记录了发育过程中每一特定时间分化产生的细胞,以及产生这些细胞的前体细胞;其中,树的每个节点(node)表示一种细胞类型,树的每一次分叉(fork)代表一次细胞分裂事件,树的每一分支(branch)则表示一次分化事件,而树的终端叶子节点(leaf node)代表的是成体生物的每一种终末分化细胞;对于某种生物一个完整的细胞谱系树,其根节点(root node)即表示受精卵(zygote);然而对于复杂的生物体(如人和小鼠等),我们还无法获得其整个发育过程及其谱系树的全貌;因此,通常所指的谱系树可能仅仅描述了生物完整发育过程的一小部分或阶段,即表示局部发育过程或阶段的一棵子树(如图1左侧虚线框中的分支);其根节点往往指某种具有分化潜能的细胞,比如干细胞或前体细胞(progenitor)。此外,谱系树的另一特点是,其并非一定是典型的二叉树(binary tree),即某些前体细胞可以分裂分化成两种以上的细胞类型(如图1右下分支)。
40.谱系树是本发明的输入数据之一,其定义为t(v,e);其中v表示树的节点(node),即细胞类型;e表示树的边(edge),即分化路径。除叶子节点(leaf,即终末分化细胞)以外,其它节点(即中间分化状态细胞)的出度≥1,出度表示某个节点其子节点(即下一级节点)的个数;除根节点的入度为0以外,其它节点的入度≥1,入度则为其父亲节点(即上一层节点)的个数。因此,某些前体细胞可以分裂分化成两种以上的子代细胞类型,某些分化细胞也可来自不同的亲代细胞类型(如图1或图2所示)。
41.本发明的实施例将使用人类胚胎干细胞(hesc)分化谱系树、造血干细胞(hsc)分化谱系树和诱导多能干细胞(ipsc)分化谱系树来进行后续计算方法的研究和验证(图2)。
42.(2)多组学数据及预处理
43.本发明使用谱系树中所有细胞类型的转录组、表观遗传组和基因组数据作为初始的数据源,经过适当的预处理后,用于后续的计算机模型构建和分析。
44.各数据的预处理方法概括如图3所示,具体如下:
45.1)rna-seq数据和可变剪接分析
46.获取谱系树中每种细胞类型的已比对到转录组的rna-seq数据,即bam/sam文件(包括生物学重复)。使用rmats软件检测谱系树中每个细胞类型的可变剪接事件,记录每个可变剪接区域(外显子或保留内含子)的剪入百分比(percent spliced in,psi)。合并所有细胞类型鉴定的可变剪接事件,使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表(图3a、图3b)。如图4a所示,可变剪接事件可以按其产生的原因分为7种类型。但为了简化描述,下文将以跳跃外显子(skipping exon,se)的可变剪接类型为例介绍研究方案。
47.2)组蛋白修饰(chip-seq)数据处理(表观遗传组数据)
48.获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的chip-seq数据,即bam/sam文件(包括生物学重复)。使用macs2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰(narrow peak)。针对每种组蛋白修饰,合并所有细胞类型中检测的信号峰,从而得到统一的一组组蛋白修饰信号峰列表。基于信号峰与5’端剪接位点(splice site,ss)的距离(d)及峰的高度(h),我们定义组蛋白修饰在可变剪接区间的强度为hm=h/d(图3c)。对每一细胞类型的chip-seq数据进行相同处理后,将各自获得一个数据表,其中“行”表示可变剪接事件,“列”表示组蛋白修饰种类,“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。
49.3)rna序列数据
50.为利用基因组序列信息,我们选取可变剪接位点及其上下游各150bp区间,然后从基因组fasta文件中提取该区间的碱基序列,并使用独热(one-hot)编码方法将碱基序列转换成二进制的4
×
n的二维向量,其中n表示序列的长度(图3d)。
51.2、基于流形学习鉴定谱系树中细胞命运决定的关键调控因子
52.现有技术的研究模型仍然很难锁定谱系树中细胞命运决定的某一具体的、关键的调控因子(即可变剪接事件 组蛋白修饰),而难以用于进一步的下游生物学实验验证。解决这一需求的关键科学问题就是数据降维。
53.鉴于干细胞分化谱系树不同于传统研究中的单一研究对象,它表示多个相互关联的细胞类型具有树形结构的相互关系,因此降维处理要能够同步应用到树中所有的细胞类型上。即,可以将每种细胞的数据看成是一个更大数据集中彼此相关的多个子数据。降维处理既要保留每个子数据集内部的几何关系,又要保留不同子集间的树形结构关系。在众多的降维方法中,流行学习(manifold learning)具有这样的特性,也因此被广泛用于基于单细胞测序的细胞分化轨迹(trajectory)推断中。
54.我们在此假设,具有树形结构关系的多种细胞类型的高维数据,在高维空间中的分布具有某种几何形状,即集中在某个低维的流形附近。因此,我们认为细胞分化过程中的可变剪接和表观遗传修饰数据存在且可以学习到一个与2维空间中树形结构对应的低维流形。基于此,我们提出基于流形学习的计算方法refit(regulatory factor identification on tree using manifold learning),来映射树形结构中多种细胞类型的高维数据到低维空间,并借此来发现对细胞命运决定起关键作用的可变剪接事件及其表观调控因子(图5)。
55.(1)refit流形学习的定义
56.谱系树中的每一种细胞类型(树的节点)被表示成一组若干可变剪接事件,这些可变剪接事件(数据点)分布在由组蛋白修饰(即组蛋白修饰的chip-seq数据,它的值表示某个组蛋白在特定位置的修饰的强弱)和rna序列组成的一个高维空间里(图5a左侧)。因此,针对此高维数据的流形学习(图5a中部),则是要找到一个由此高维空间到低维隐藏空间的映射,使得此低维空间中的点同样能表示每种细胞类型的内部属性(即可变剪接模式及其表观修饰)以及细胞间的关系(即树形结构定义的亲子关系)(图5a右侧)。
57.具体来讲,refit的目标是要学习高维输入数据的低维流形,即一组隐藏的点z={z1,...,zn}和一个连接这些点的无向图其中n表示可变剪接个数。在低维空间的隐藏点z对应于高维空间的输入数据低维空间的图由一组顶点v={v1,...,
vn}和加权的边构成,其中每一个定点vi对应低维空间的一个点zi。对于本项目研究的可变剪接及其表观遗传调控,数据xi是一个特征向量,对应第i个可变剪接事件的各组蛋白修饰和rna序列特征。令b
ij
表示边(vi,vj)的权重,b
ij
>0表明图中存在vi到vj的边,反之则不存在该边。我们定义为点zi到原始高维空间的反向映射函数,则学习和的过程就是优化以下目标函数,式(3):
[0058][0059]
其中gb表示一组可能的图结构,表示一组可以将低维空间的点反向映射到原始高维空间的函数。
[0060]
以上优化过程将学习一个低维空间的图然而并不能保证低维空间的隐藏点能够准确反映观测值在原始高维空间中的分布与关系。为了使得在低维空间学得的图能够反映原始数据在高维空间的分布,refit需要能够保证低维空间的隐藏点zi在经反向映射函数后尽可能的接近对应的原始数据点xi。为此,我们添加了约束项,使该优化过程表示为:
[0061][0062]
其中,λ是一个用以调整以上两项加和因式的权重参数。
[0063]
(2)基于refit流形鉴定细胞命运决定的关键调控因子
[0064]
经过refit流形学习,便可以得到由可变剪接事件为点构成的树状流形图(如图5b左侧所示),其中每一个点对应一个可变剪接事件,而空间位置则反映了其关键表观调控因子,即原始高维空间组蛋白修饰和rna序列特征的主成分。借助于此树状流形图,我们便很容找到任意两亲子代细胞间的经过这些可变剪接事件的分化路径(图5b右侧),并确定对分化命运决定起关键作用的点(即剪接事件及表观修饰)。同上,我们将应用refit到图2所示的人hsc谱系和ipsc诱导分化成神经细胞的谱系,最终分别鉴定1-2个细胞命运决定的关键调控因子。
[0065]
需要说明的是,本发明中涉及数值范围时,应理解为每个数值范围的两个端点以及两个端点之间任何一个数值均可选用,由于采用的步骤方法与实施例相同,为了防止赘述,本发明描述了优选的实施例。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
[0066]
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献