一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种染色体臂端粒长度估计方法及系统

2023-02-04 10:30:35 来源:中国专利 TAG:

技术特征:
1.一种染色体臂端粒长度估计方法,其特征在于,包括以下步骤:获取10x基因组测序数据;对于每一个分支,计算所述10x基因组测序数据中整个10xg分子之间的长度差异不重叠的端粒数,或计算10xg分子重叠的映射dna片段的端粒数,将所述端粒数概率成正比到其当前估计的染色体臂级端粒长度分数charmtl,并重复上述计算直至染色体臂端粒长度分数charmtl收敛,得到相应的染色体臂端粒长度tl。2.根据权利要求1所述的染色体臂端粒长度估计方法,其特征在于,计算所述染色体臂级端粒长度分数charmtl的步骤包括:计算所述10x基因组测序数据中10xg分子的平均长度la;对于每个染色体臂,计算该染色体臂端粒邻近部分重叠的10xg分子中,其重叠部分的平均长度lm;以所述平均长度la与所述平均长度lm的差值作为当前估计的染色体臂级端粒长度分数charmtl。3.根据权利要求2所述的染色体臂端粒长度估计方法,其特征在于,所述方法还包括以下步骤:更新当前估计的染色体臂端粒长度tl作为每个染色体臂分配的总端粒读数;重复上述计算直至所述染色体臂端粒长度tl的分数charmtl收敛,得到相应的染色体臂端粒长度tl。4.根据权利要求2所述的染色体臂端粒长度估计方法,其特征在于,所述方法还包括以下步骤:构建随机森林模型,其中,以所述分数charmtl作为随机森林模型的预测标签,以包含全基因组测序数据中重复读数的频率x作为模型输入;将全基因组测序端粒的读取频率,乘以10x基因组样品的总端粒读数和每个全基因组测序样品的总端粒读数的平均值的比率,然后将缩放的全基因组测序端粒频率进一步分位数归一化并转换为z分数后输入所述随机森林模型中进行训练,得到用于预测分数charmtl的随机森林模型。5.一种染色体臂端粒长度估计系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的染色体臂端粒长度估计方法的步骤。6.一种染色体臂端粒长度估计方法,其特征在于,包括以下步骤:获取10x基因组测序数据;将每个未映射的10xg分子分配到根据10x条码选择的具有可映射的染色体臂上;读取所有完成分配的10xg分子相应的10x条码,从具有相同10x条码的10xg分子中读取次reads,对reads求和后将其概率成正比到当前估计的染色体臂级端粒长度分数charmtl;重复上述计算直至染色体臂端粒长度分数charmtl收敛,得到相应的染色体臂端粒长度tl。7.根据权利要求6所述的染色体臂端粒长度估计方法,其特征在于,所述将每个未映射的10xg分子分配到根据10x条码选择的具有可映射的染色体臂上的步骤包括:计算分配到任一染色体臂的概率,将所述概率大于预设阈值时相应的染色体臂作为具有可映射的染色体臂;其中,分配到任一染色体臂的概率包括染色体臂的估计端粒长度占相同barcode选择的染色体臂估计端粒长度的和。
8.根据权利要求6所述的染色体臂端粒长度估计方法,其特征在于,所述方法还包括以下步骤:更新当前估计的染色体臂端粒长度tl作为每个染色体臂分配的总端粒读数;重复上述计算直至所述染色体臂端粒长度tl的分数charmtl收敛,得到相应的染色体臂端粒长度tl。9.根据权利要求6所述的染色体臂端粒长度估计方法,其特征在于,所述方法还包括以下步骤:构建随机森林模型,其中,以所述分数charmtl作为随机森林模型的预测标签,以包含全基因组测序数据中重复读数的频率x作为模型输入;将全基因组测序端粒的读取频率,乘以10x基因组样品的总端粒读数和每个全基因组测序样品的总端粒读数的平均值的比率,然后将缩放的全基因组测序端粒频率进一步分位数归一化并转换为z分数后输入所述随机森林模型中进行训练,得到用于预测分数charmtl的随机森林模型。10.一种染色体臂端粒长度估计系统,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求6至9中任一项所述的染色体臂端粒长度估计方法的步骤。

技术总结
本发明涉及一种染色体臂端粒长度估计方法及系统,其中:获取10X基因组测序数据;计算所述10X基因组测序数据中整个10XG分子之间的长度差异不重叠的端粒数,或计算10XG分子重叠的映射DNA片段的端粒数,将所述端粒数概率成正比到其当前估计的染色体臂级端粒长度分数chArmTL,并重复上述计算直至染色体臂端粒长度分数chArmTL收敛,得到相应的染色体臂端粒长度TL。或者,将每个未映射的10XG分子分配到根据10X条码选择的具有可映射的染色体臂上;读取所有完成分配的10XG分子相应的10X条码,从具有相同10X条码的10XG分子中读取次reads,对reads求和后将其概率成正比到当前估计的染色体臂级端粒长度分数chArmTL;重复上述计算直至染色体臂端粒长度分数chArmTL收敛,得到相应的染色体臂端粒长度TL。相应的染色体臂端粒长度TL。相应的染色体臂端粒长度TL。


技术研发人员:熊远妍 郭梦彪
受保护的技术使用者:中山大学
技术研发日:2022.10.25
技术公布日:2023/2/3
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献