染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质与流程

2022-02-20 05:52:42 来源：中国专利 TAG：

1.本发明涉及染色体分析技术领域，特别是涉及一种染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质。

背景技术：

2.染色体核型分析主要是将细胞分裂中期的染色体根据长度、着丝点位置、长短臂比例、随体的有无等特征按一定的规定配对、编号、比较分析、排列、判断变异情况的过程，是遗传变异检测的主要手段。传统核型分析主要依赖人工分析，一个病例需要耗费20个工作日，而目前的染色体核型分析工作站属于半自动化，分析一个病例还需30分钟。随着计算机视觉技术和图像处理技术的发展，通过计算机算法来实现染色体图像分割、分类等新技术被应用于g-带中期染色体核型的自动分析，降低了对专业人员的技术要求，节省了大量的时间成本。
3.但是，染色体核型自动分析对交叉、粘连染色体的分割和分类准确性不高，这是由于机器学习算法需要大量的数据进行训练优化，而染色体中期图像中交叉、粘连染色体比例较小，如图1所示，数据较少，因此参与训练的交叉重叠以及粘连染色体的数量非常少，造成模型普适性不佳。而采用人工标注的方式，对标注人员的技术要求高且任务繁重，进一步减少了可靠的训练数据的数量。针对上述问题，目前解决方案是构建模拟数据集，第一种方法是通过两条染色体的叠加，第二种方法是通过对抗网络进行生成单条染色体。但是，这些方法构建的数据集与真实的染色体数据差异较大，无法很好地用于机器学习模型的训练。

技术实现要素：

4.基于此，有必要提供一种与真实的染色体数据差异较小的染色体模拟数据集的构建方法。
5.一种染色体核型分析模拟数据集的构建方法，包括以下步骤：
6.步骤s1：获取真实的染色体核型图像；
7.步骤s2：对所述染色体核型图像进行轮廓检测，从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜；
8.步骤s3：根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集，并获取单条染色体图像的类别信息；
9.步骤s4：从所述单条染色体图像集中随机选取n张来源于同一张染色体核型图像的单条染色体图像作为待融合对象，从所述待融合对象中选择两张单条染色体图像按照如下步骤s41或步骤s42进行第一次图像融合处理，将得到的第一次融合图像与从余下的n-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，将得到的第二次融合图像与从余下的n-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合
……
依次处理，将得到的第k次融合图像与从余下
的n-k-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，直至n张单条染色体图像全部融合，n为≥2的正整数，k为≥1的正整数，对应的染色体掩膜做同样的融合处理；
10.步骤s41：当两张单条染色体图像中存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像；
11.步骤s42：当两张单条染色体图像中不存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
12.本发明通过有效利用已知类别且染色体轮廓明确的染色体核型图像来构建染色体交叉、粘连模拟数据，一方面构建的模拟数据能保留染色体的类别和掩膜信息，因而能够应用于多个任务的模型训练，如染色体分割、染色体分类以及染色体检测；另一方面，得益于染色体核型图像中的染色体编号可自动获取染色体的类别信息，不依赖专业人员手动标注，能够极大地减少对专家的需求，并且降低人工参与度；再一方面，由于染色体核型图像对于准确性要求严格，通常经过了多个技术员反复检查，因此准确率能得到极大保证。而且，本发明采用泊松融合的方式来构建多条交叉、粘连染色体图像，能够生成接近真实数据的交叉、粘连染色体图像，可信度高，不会产生“白边效应”，更趋向于真实的图像。因此，本发明的构建方法能够自动生成接近实际效果的交叉、粘连染色体图像，扩充机器学习模型训练的数据集，提高训练数据可靠性，从而对提高机器学习模型性能具有重要的意义，同时模拟数据能够应用于多个训练场景。
13.在其中一个实施例中，所述将得到的第k次融合图像与从余下的n-k-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合包括：
14.i)通过随机数设置该单条染色体图像的旋转的角度范围；
15.ii)将该单条染色体图像在所述角度范围内随机旋转、平移，直至该单条染色体图像仅与该第k次融合图像中的一条染色体有重合部分，并且该重合部分与该第k次融合图像中k 1条染色体的两两重合部分的交集均为空，对该第k次融合图像和该单条染色体图像采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
16.在其中一个实施例中，在所述步骤s3之后和所述步骤s4之前还包括步骤s31：去除所述单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号。
17.在其中一个实施例中，所述步骤s31包括以下步骤：
18.步骤s311：获取所述横向黑线和所述染色体编号的结构元素；
19.步骤s312：创建针对所述结构元素的形态学滤波器；
20.步骤s313：对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
21.在其中一个实施例中，所述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤：
22.步骤s411：通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围；
23.步骤s412：将该两张单条染色体图像在所述角度范围内随机旋转、平移，直至两张单条染色体图像相连但不存在重合部分，采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
24.在其中一个实施例中，所述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤：
25.步骤s421：通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围；
26.步骤s422：将该两张单条染色体图像在所述角度范围内随机旋转、平移，直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内，采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
27.在其中一个实施例中，所述染色体核型图像为人类染色体核型图像，所述小于预设长度的染色体为17号染色体、18号染色体、19号染色体、20号染色体、21号染色体、22号染色体或y染色体，所述预设面积范围为10～100像素，所述预设比例范围为大于0且小于50％。
28.在其中一个实施例中，还包括步骤s5：调整不同染色体参与图像融合的比例进行二次优化处理。
29.本发明还提供了一种染色体核型分析模拟数据的构建装置，包括：
30.核型图像获取模块，用于获取真实的染色体核型图像；
31.轮廓检测模块，用于对所述染色体核型图像进行轮廓检测，从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜；
32.图像集生成模块，用于根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集，并获取单条染色体图像的类别信息；
33.融合模块，包括第一融合单元和第二融合单元；所述融合模块用于从所述单条染色体图像集中随机选取n张来源于同一张染色体核型图像的单条染色体图像作为待融合对象，从所述待融合对象中选择两张单条染色体图像通过所述第一融合单元或所述第二融合单元进行第一次图像融合处理，所述融合模块还将得到的第一次融合图像与从余下的n-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，将得到的第二次融合图像与从余下的n-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合
……
依次处理，将得到的第k次融合图像与从余下的n-k-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，直至n张单条染色体图像全部融合，n为≥2的正整数，k为≥1的正整数，对应的染色体掩膜做同样处理；
34.所述第一融合单元用于当两张单条染色体图像中存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像；
35.所述第二融合单元用于当两张单条染色体图像中不存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
36.本发明还提供了一种计算机设备，其具有处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的构建方法的步骤。
37.本发明还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上所述的构建方法的步骤。
附图说明
38.图1为染色体中期图像的一个示例；
39.图2为真实的染色体核型图像的一个示例；
40.图3为本发明一实施例的以粘连的形式生成的第1次融合图像；
41.图4为本发明一实施例的以交叉的形式生成的第1次融合图像；
42.图5为传统的构建模拟数据的方法中存在的“白边问题”的一个示例；
43.图6为本发明得到的第2次融合图像的几个示例；
44.图7为本发明一实施例的去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号的示意图；
45.图8为真实的染色体交叉、粘连图像的几个示例。
具体实施方式
46.为了便于理解本发明，下面将对本发明进行更全面的描述，并给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
47.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
48.本发明一实施例的染色体核型分析模拟数据集的构建方法，包括以下步骤s1～s4：
49.步骤s1：获取真实的染色体核型图像。
50.可以理解，真实的染色体核型图像即来源于真实个体的全部染色体按一定方式排列起来构成的标准染色体核型图像，如图2所示。
51.步骤s2：对染色体核型图像进行轮廓检测，从染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜。
52.可以理解，根据个体的不同，从一张染色体核型图像从能够获取的单条染色体图像的数量也不同，例如从人类的染色体核型图像中能够获取得到46张单条染色体图像。
53.步骤s3：根据坐标和面积按照染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集，并获取单条染色体图像的类别信息。
54.可选地，单条染色体图像的类别信息可以根据需要进行记录，例如记录于图像文件名中或csv等文档中，方便后续处理以及后续模型训练过程从文件名或者文档中直接获得类别信息。
55.步骤s4：从单条染色体图像集中随机选取n张来源于同一张染色体核型图像的单条染色体图像作为待融合对象，从待融合对象中选择两张单条染色体图像按照如下步骤s41或步骤s42进行第一次图像融合处理，将得到的第一次融合图像与从余下的n-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，将得到的第二次融合图像与从余下的n-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合
……
依次处理，将得到的第k次融合图像与从余下的n-k-1
张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，直至n张单条染色体图像全部融合，n为≥2的正整数，k为≥1的正整数，对应的染色体掩膜做同样的融合处理。
56.可以理解，当n等于2时，则只需进行第一次图像融合处理得到第1次融合图像即可，具体n的数值可以根据所需的染色体核型分析模拟数据进行调整。
57.步骤s41：当两张单条染色体图像中存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像。
58.步骤s42：当两张单条染色体图像中不存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
59.可以理解，粘连即表示两张单条染色体图像相连但并不重合，如图3所示，交叉即表示两张单条染色体图像存在重合部分，如图4所示。
60.传统的构建模拟数据的方法一般是选取任意两条不同的染色体单体，各自旋转随机的角度后，将所得的图像进行像素灰度值的叠加，将位于上方的染色体图像的灰度值赋予重叠区域，生成双染色体重叠图像。但是，重叠的染色体没有类别标识，需要人工标注确定，应用有限；而且，会出现染色体过多区域被遮盖的问题，使得本身较短的染色体大部分被遮盖，无法准确判断该染色体的类别以及结构变异；同时，生成的双染色体重叠图像存在“白边效应”问题，如图5所示，即位于染色体重叠区域边缘所呈现出来的浅色不自然过渡，通过肉眼便能识别重叠染色体的边界。此外，利用生成对抗网络生成新的染色体数据的方法生成的新数据是单条染色体，且染色体条纹不明显，与真实的染色体差异也比较大。
61.本发明通过有效利用已知类别且染色体轮廓明确的染色体核型图像来构建染色体交叉、粘连模拟数据，一方面构建的模拟数据能保留染色体的类别和掩膜信息，因而能够应用于多个任务的模型训练，如染色体分割、染色体分类以及染色体检测；另一方面，得益于染色体核型图像中的染色体编号可自动获取染色体的类别信息，不依赖专业人员手动标注，能够极大地减少对专家的需求，并且降低人工参与度；再一方面，由于染色体核型图像对于准确性要求严格，通常经过了多个技术员反复检查，因此准确率能得到极大保证。而且，本发明采用泊松融合的方式来构建多条交叉、粘连染色体图像，能够生成接近真实数据的交叉、粘连染色体图像，可信度高，不会产生“白边效应”，更趋向于真实的图像。因此，本发明的构建方法能够自动生成接近实际效果的交叉、粘连染色体图像，扩充机器学习模型训练的数据集，提高训练数据可靠性，从而对提高机器学习模型性能具有重要的意义，同时模拟数据能够应用于多个训练场景。
62.在一个具体示例中，上述将得到的第k次融合图像与从余下的n-k-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合包括：
63.i)通过随机数设置该单条染色体图像的旋转的角度范围；
64.ii)将该单条染色体图像在上述角度范围内随机旋转、平移，直至该单条染色体图像仅与该第k次融合图像中的一条染色体有重合部分，并且该重合部分与该第k次融合图像中k 1条染色体的两两重合部分的交集均为空，对该第k次融合图像和该单条染色体图像采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
65.例如n等于3时，将得到的第1次融合图像与余下的1张单条染色体图像采用泊松融合的方式进行图像融合：
66.i)通过随机数设置该单条染色体图像的旋转的角度范围；
67.ii)将该单条染色体图像在上述角度范围内随机旋转、平移，直至该单条染色体图像仅与该第1次融合图像中的一条染色体有重合部分，并且该重合部分与该第1次融合图像中2条染色体的两两重合部分的交集均为空，对该第1次融合图像和该单条染色体图像采取泊松融合的方式进行合成，对应的染色体掩膜做同样处理。如此，即得到三条染色体融合的图像，例如图6所示。
68.在一个具体示例中，在步骤s3之后和步骤s4之前还包括步骤s31：去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号，如图7所示。可以理解，当不存在着丝点位置的横向黑线和覆盖染色体像素的染色体编号时不需要进行该步骤。
69.在一个具体示例中，步骤s31包括以下步骤：
70.步骤s311：获取横向黑线和所述染色体编号的结构元素；
71.步骤s312：创建针对结构元素的形态学滤波器；
72.步骤s313：对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
73.在一个具体示例中，上述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤：
74.步骤s411：通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围；
75.步骤s412：将该两张单条染色体图像在上述角度范围内随机旋转、平移，直至两张单条染色体图像相连但不存在重合部分，采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
76.在一个具体示例中，上述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤：
77.步骤s421：通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围；
78.步骤s422：将该两张单条染色体图像在上述角度范围内随机旋转、平移，直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内，采取泊松融合的方式进行图像融合，对应的染色体掩膜做同样的融合处理。
79.在一个具体示例中，染色体核型图像为人类染色体核型图像，小于预设长度的染色体为17号染色体、18号染色体、19号染色体、20号染色体、21号染色体、22号染色体或y染色体，预设面积范围为10～100像素，预设比例范围为大于0且小于50％。
80.在一个具体示例中，构建方法还包括步骤s5：在第一次图像融合处理之后重复进行一次泊松融合，调整不同染色体参与图像融合的比例以进行二次优化处理，使其更加符合真实情况。
81.基于与上述方法相同的思想，本发明还提供了一种染色体核型分析模拟数据的构建装置，其包括核型图像获取模块、轮廓检测模块、图像集生成模块和融合模块。
82.其中，核型图像获取模块用于获取真实的染色体核型图像；轮廓检测模块用于对染色体核型图像进行轮廓检测，从染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜；图像集生成模块用于根据坐标和面积按照染色体核型图
像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集，并获取单条染色体图像的类别信息；融合模块包括第一融合单元和第二融合单元，融合模块用于从单条染色体图像集中随机选取n张来源于同一张染色体核型图像的单条染色体图像作为待融合对象，从待融合对象中选择两张单条染色体图像通过第一融合单元或第二融合单元进行第一次图像融合处理，将得到的第一次融合图像与从余下的n-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，融合模块还将得到的第二次融合图像与从余下的n-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合
……
依次处理，将得到的第k次融合图像与从余下的n-k-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合，直至n张单条染色体图像全部融合，n为≥2的正整数，k为≥1的正整数，对应的染色体掩膜做同样处理。
83.第一融合单元用于当两张单条染色体图像中存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像；第二融合单元用于当两张单条染色体图像中不存在小于预设长度的染色体时，采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
84.在一个具体示例中，融合模块还包括第三随机单元和第三合成单元，第三随机单元用于通过随机数设置第k次融合图像和单条染色体图像的旋转的角度范围，第三合成单元用于将该第k次融合图像和该单条染色体图像在上述角度范围内随机旋转、平移，直至该单条染色体图像仅与该第k次融合图像中的一条染色体有重合部分，并且该重合部分与该第k次融合图像中k 1条染色体的两两重合部分的交集均为空，对该第k次融合图像和该单条染色体图像采取泊松融合的方式进行合成，对应的染色体掩膜做同样处理。
85.在一个具体示例中，构建装置还包括滤除模块，滤除模块用于去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号。
86.在一个具体示例中，滤除模块包括元素获取单元、创建单元和滤波单元，元素获取单元用于获取横向黑线和所述染色体编号的结构元素，创建单元用于创建针对结构元素的形态学滤波器，滤波单元用于对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
87.基于如上所述的实施例，本发明还提供了一种计算机设备，具有处理器和存储器，存储器上存储有计算机程序，处理器执行该计算机程序时实现上述任一实施例的构建方法的步骤。
88.本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
89.据此，本发明还提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被执行时实现上述任一实施例的构建方法的步骤。
90.如图8所示为真实的染色体交叉、粘连图像示例，通过比较可知，本发明的构建方
法利用染色体核型图像通过泊松融合的方式来构建多条交叉、粘连染色体图像，能够高效自动生成接近实际效果的交叉、粘连染色体图像，以扩充机器学习模型训练的数据集，从而提高训练数据可靠性，对提高机器学习模型性能具有重要的意义。
91.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
92.以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：应用程序的处理方法、装置、电子设备和可读存储介质与流程

染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质与流程

相关文献

最热文献