病变DNA识别方法、装置、电子设备及存储介质与流程

2022-02-25 23:38:36 来源：中国专利 TAG：

技术特征：
1.一种病变dna识别方法，其特征在于，所述方法包括：获取待测dna序列并对所述待测dna序列进行预处理以得到多个dna序列片段；针对每个dna序列片段，将其输入已训练的第一神经网络模型以输出与该dna序列片段对应的第一特征向量，所述第一特征向量包含所述dna序列片段中的不同部分之间的自相关信息；针对每个第一特征向量，将其输入已训练的第二神经网络模型以输出与该第一特征向量对应的第二特征向量，并将该第一特征向量和与其对应的第二特征向量相加，以得到合并特征向量，其中，所述第二特征向量包含所述第一特征向量中的不同部分之间的长短期依赖关系信息；将每个所述合并特征向量输入已训练的分类器以得到分类结果，所述分类结果指示输入的所述待测dna序列是否为病变dna。2.根据权利要求1所述的病变dna识别方法，其特征在于，所述针对每个dna序列片段，将其输入已训练的第一神经网络模型以输出与该dna序列片段对应的第一特征向量包括：对该dna序列片段进行嵌入编码处理以得到具有预设的固定维度的第一编码向量、第二编码向量、以及第三编码向量，所述第一编码向量包含该dna序列片段的内容编码信息，所述第二编码向量包含该dna序列片段的位置编码信息，所述第三编码向量包含分段编码信息；将所述第一编码向量、第二编码向量、以及第三编码向量相加以得到合并编码向量；对所述合并编码向量进行自注意力处理以得到对应的自注意力向量；对所述自注意力向量进行归一化以及残差处理以得到该dna序列片段对应的所述第一特征向量。3.根据权利要求1所述的病变dna识别方法，其特征在于，所述针对每个第一特征向量，将其输入已训练的第二神经网络模型以输出与该第一特征向量对应的第二特征向量包括：将该第一特征向量作为初始向量输入所述已训练的第二神经网络模型；所述已训练的第二神经网络模型中的每个神经单元执行如下操作：对接收到的所述初始向量或者上一级神经单元输出的向量按照预设规则进行过滤处理，以丢弃部分元素；对经过滤的向量进行增补处理，以按照预设规则挑选本单元中存储的信息替换所丢弃的元素；基于经增补的向量确定该神经单元的输出向量；其中，所述已训练的第二神经网络模型中的最后一级神经单元输出所述第二特征向量。4.根据权利要求1所述的病变dna识别方法，其特征在于，所述方法还包括：在获取待测dna序列之前对所述第一神经网络模型、所述第二神经网络模型以及所述分类器按照如下方式进行训练：收集用于训练的数据集，所述数据集包括已标注的病变dna序列和非病变dna序列；将所述数据集按照预设比例分为训练集和测试集，并分别利用所述训练集和所述测试集对所述第一神经网络模型、所述第二神经网络模型和所述分类器进行训练和测试；基于测试结果调整所述第一神经网络模型、所述第二神经网络模型和所述分类器的参
数，直至达到预设的精度要求，以得到所述已训练的第一神经网络模型、第二神经网络模型以及分类器。5.根据权利要求4所述的病变dna识别方法，其特征在于，在所述收集用于训练的数据集之前，所述方法还包括：获取预设dna序列，所述预设dna序列为已公开的全基因组dna序列；对所述预设dna序列进行预处理后得到多个dna序列片段；利用所述dna序列片段对所述第一神经网络模型进行预训练。6.根据权利要求5所述的病变dna识别方法，其特征在于，所述对所述预设dna序列进行预处理后得到多个dna序列片段包括：将所述预设dna序列中含有未知碱基的片段删除；以及将删除所述未知碱基后得到的dna序列按照预设长度切分成所述多个的dna序列片段。7.根据权利要求5所述的病变dna识别方法，其特征在于，所述利用所述dna序列片段对所述第一神经网络模型进行预训练包括：在对该dna序列片段进行嵌入编码处理之前，对该dna序列片段中的一部分碱基进行遮蔽处理，并且针对每个被遮蔽的碱基，基于该碱基的上下游序列预测该被遮蔽的碱基位置处的碱基，并用预测出的碱基替代所述被遮蔽的碱基。8.根据权利要求4所述的病变dna识别方法，其特征在于，所述对所述第一神经网络模型、所述第二神经网络模型以及所述分类器进行训练还包括：在训练所述第一神经网络模型、所述第二神经网络模型和所述分类器的过程中，通过梯度下降法和优化交叉熵损失函数训练所述第一神经网络模型、所述第二神经网络模型以及所述分类器，直至达到所述预设的精度要求。9.根据权利要求4所述的病变dna识别方法，其特征在于，所述得到所述已训练的第一神经网络模型、第二神经网络模型以及分类器之后，所述方法还包括：根据预设评价指标构建目标函数对所述第一神经网络模型、所述第二神经网络模型和所述分类器的训练结果进行评价；其中，所述与预设评价指标包括下列中的任意组合：精确率、召回率以及准确率。10.根据权利要求9所述的病变dna识别方法，其特征在于，根据下列各式计算所述精确率、召回率以及准确率：精确率：tp/(tp fp)；召回率：tp/(tp fn)；准确率：(tp tn)/(tp fp fn tn)；其中，fn表示被识别为非病变dna，但是事实上是病变dna；fp表示被识别为包含病变dna，但事实上非病变dna；tn表示被识别为非病变dna片段，事实上也是非病变dna；tp表示被识别为病变dna，事实上也是病变dna。11.根据权利要求1-10中任一项所述的病变dna识别方法，其特征在于，所述第一神经网络模型是基于转换器的双向编码表征模型，所述第二网络模型是长短期记忆网络模型。12.根据权利要求11所述的病变dna识别方法，其特征在于，所述基于转换器的双向编码表征模型是基于多头自注意力机制的神经网络模型，并且其具有12层网络结构，以及其隐藏层具有768维度。
13.一种病变dna识别装置，其特征在于，所述装置包括：预处理模块，用于获取待测dna序列并对所述待测dna序列进行预处理以得到多个dna序列片段；第一特征向量生成模块，用于针对每个dna序列片段，将其输入已训练的第一神经网络模型以输出与该dna序列片段对应的第一特征向量，所述第一特征向量包含所述dna序列片段中的不同部分之间的自相关信息；第二特征向量生成模块，用于针对每个第一特征向量，将其输入已训练的第二神经网络模型以输出与该第一特征向量对应的第二特征向量，并将该第一特征向量和与其对应的第二特征向量相加，以得到合并特征向量，其中，所述第二特征向量包含所述第一特征向量中的不同部分之间的长短期依赖关系信息；分类模块，用于将每个所述合并特征向量输入已训练的分类器以得到分类结果，所述分类结果指示输入的所述待测dna序列是否为病变dna。14.根据权利要求13所述的病变dna识别装置，其特征在于，所述装置还包括：训练模块，所述训练模块用于：收集用于训练的数据集，所述数据集包括已标注的病变dna序列和非病变dna序列；将所述数据集按照预设比例分为训练集和测试集，并分别利用所述训练集和所述测试集对所述第一神经网络模型、所述第二神经网络模型和所述分类器进行训练和测试；基于测试结果调整所述第一神经网络模型、所述第二神经网络模型和所述分类器的参数，直至达到预设的精度要求，以得到所述已训练的第一神经网络模型、第二神经网络模型以及分类器。15.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至12中任一项所述的病变dna识别方法。16.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的病变dna识别方法。

技术总结
本发明提供一种病变DNA识别方法、装置、电子设备及存储介质，所述方法包括：获取待测DNA序列并对所述待测DNA序列进行预处理以得到多个DNA序列片段；针对每个DNA序列片段，将其输入已训练的第一神经网络模型以输出与该DNA序列片段对应的第一特征向量；针对每个第一特征向量，将其输入已训练的第二神经网络模型以输出与该第一特征向量对应的第二特征向量，并将该第一特征向量和与其对应的第二特征向量相加，以得到合并特征向量；将每个所述合并特征向量输入已训练的分类器以得到分类结果，所述分类结果指示输入的所述待测DNA序列是否为病变DNA。本发明可提高病变DNA识别的准确率。本发明可提高病变DNA识别的准确率。本发明可提高病变DNA识别的准确率。

技术研发人员：陈澍宜
受保护的技术使用者：竹石生物科技（苏州）有限公司
技术研发日：2021.11.29
技术公布日：2022/2/24

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种内科临床用应急呼吸系统的制作方法

病变DNA识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献