一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用于对核酸样本进行分类的方法、设备和存储介质与流程

2023-03-06 05:14:06 来源:中国专利 TAG:


1.本发明涉及核酸样本检验或检测。更具体地,本发明涉及对核酸样本进行分类的方法、设备和存储介质。


背景技术:

2.核酸检测是一种通过检测患者呼吸道、血液或粪便等样本中是否存在外来入侵病毒的脱氧核糖核酸(dna)和核糖核酸(rna)来确定其是否感染病毒的技术,是诊断新型冠状(covid-19)病毒感染的一项重要标准。
3.目前最常见的新型冠状病毒检测方式为利用聚合酶链反应(pcr)技术的定量pcr(qpcr)核酸检测法,其通过促使dna迅速扩增,扩增到一定程度就便于检测微量的核酸物质。举例而言,可以通过在反应体系中引入荧光染料或探针,借助于荧光信号的变化来实时监测pcr扩增反应中每一个循环扩增产物量的变化,据此绘制pcr曲线以便对核酸样本进行定量分析。然而,pcr曲线目前严重依赖于人工判读,当核酸检测量较大时,人工判断效率低下,尤其在大规模核酸筛查时无法满足疫情防控的及时性需求。而且,有一些复杂的pcr曲线难以进行人工判读,仅通过检验人员的个人经验和主观判断可能难免发生检测结果误判的情况,无法保证高的检测准确性。总体而言,目前还没有对pcr曲线进行高效自动化判读的平台。
4.对于新型冠状病毒,核酸检测是精准防控的有效手段,可以尽早发现传染源并从源头上控制住疫情传播,防止因无法及时诊断、及时隔离给整个疫情防控带来巨大的挑战。在常态化疫情防控下,核酸检测能力和效率有着重大的战略意义和价值,而核酸检测数量急剧增大与检验人员低效人工判读之间的矛盾正是核酸检测的痛点所在,也是核酸检测领域中一直渴望解决的问题。在核酸检测数量超出检验人员判读能力的情况下,可能迟迟得不到核酸检验报告,或者检验人员在超负荷工作情况下容易出现纰漏,这不利于新冠疫情的有效防控。
5.因此,急需针对核酸检测结果进行自动化判读的技术,从而能够节约核酸检测结果判读的人力资源并且有效提高判读的准确性和效率。


技术实现要素:

6.根据本发明的一个方面,提供了一种用于对核酸样本进行分类的方法,包括:获得所述核酸样本的聚合酶链式反应pcr曲线数据,所述pcr曲线数据包括与pcr循环数对应的一系列信号采样值;将所述系列信号采样值作为一维向量输入到卷积神经网络;利用所述卷积神经网络提取所述pcr曲线数据的曲线趋势特征,并且根据所述曲线趋势特征确定所述pcr曲线数据的曲线类型;以及根据所述曲线类型提供所述核酸样本的分类结果。
7.在一些实施例中,所述卷积神经网络包括卷积层、池化层和全连接层,并且其中:所述卷积层通过卷积核的移动扫描来提取所述pcr曲线数据的每个部分的局部曲线趋势特征;所述池化层用于对所述局部曲线趋势特征进行下采样以滤除所述pcr曲线数据中的波
动;以及所述全连接层用于对下采样后的所述局部曲线趋势特征进行整合以提供所述曲线类型的分类结果。
8.在一些实施例中,所述卷积神经网络包括第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、池化层和全连接层,并且所述利用所述卷积神经网络包括:将所述一维向量传递到所述第一卷积层的输入;将所述第一卷积层的输出传递到所述第一激活函数层的输入;将所述第一激活函数层的输出传递到所述第二卷积层的输入;将所述第二卷积层的输出传递到所述第二激活函数层的输入;将所述第二激活函数层的输出传递到所述池化层的输入;将所述池化层的输出传递到所述全连接层的输入;以及将所述全连接层的输出作为所述曲线类型的分类结果。
9.在一些实施例中,所述卷积神经网络还包括批量归一化层,并且其中,所述将所述一维向量传递到所述第一卷积层的输入包括:将所述一维向量传递到所述批量归一化层的输入;以及将所述批量归一化层的输出传递到所述第一卷积层的输入。
10.在一些实施例中,所述曲线类型包括阳性趋势类型、阴性趋势类型和待复核趋势类型,所述核酸样本的分类结果包括阳性结果、阴性结果和待复核结果。所述待复核趋势类型进一步包括弱阳性趋势类型、弱阴性趋势类型和异常趋势类型,所述待复核结果进一步包括弱阳性结果、弱阴性结果和异常结果。
11.在一些实施例中,所述卷积神经网络是采用随机梯度下降算法基于训练数据样本集进行训练而得到的,所述训练数据样本集包括预定数量的阳性pcr曲线数据、阴性pcr曲线数据、弱阳性pcr曲线数据、弱阴性pcr曲线数据和异常pcr曲线数据。
12.在一些实施例中,所述方法还包括:确定所述训练数据样本集中不同类别的pcr曲线数据的数量是否平衡;当所述数量不平衡时,基于已有的少数类pcr曲线数据构建新的少数类pcr曲线数据并且更新所述训练数据样本集;以及基于更新后的所述训练数据样本集来训练所述卷积神经网络。
13.根据本发明的另一方面,提供了一种用于对核酸样本进行分类的设备,包括:存储有计算机指令的存储器和处理器。所述指令在由所述处理器运行时使得所述处理器执行一种用于对核酸样本进行分类的方法,包括:获得所述核酸样本的聚合酶链式反应pcr曲线数据,所述pcr曲线数据包括与pcr循环数对应的一系列信号采样值;将所述系列信号采样值作为一维向量输入到卷积神经网络;利用所述卷积神经网络提取所述pcr曲线数据的曲线趋势特征,并且根据所述曲线趋势特征确定所述pcr曲线数据的曲线类型;以及根据所述曲线类型提供所述核酸样本的分类结果。
14.根据本发明的再一方面,提供了一种存储指令的非暂时性计算机可读存储介质,所述指令使得处理器执行一种用于对核酸样本进行分类的方法,包括:获得所述核酸样本的聚合酶链式反应pcr曲线数据,所述pcr曲线数据包括与pcr循环数对应的一系列信号采样值;将所述系列信号采样值作为一维向量输入到卷积神经网络;利用所述卷积神经网络提取所述pcr曲线数据的曲线趋势特征,并且根据所述曲线趋势特征确定所述pcr曲线数据的曲线类型;以及根据所述曲线类型提供所述核酸样本的分类结果。
15.根据本发明提出的对核酸样本进行分类的方法、设备和存储介质等技术,能够通过卷积神经网络对核酸样本的pcr曲线数据进行自动化判读,有效降低核酸检测结果判读所需的人力资源,提高判读效率。另外,通过使卷积神经网络对各种常见类型的pcr曲线的
曲线趋势进行深度学习,本发明提出的技术能够从pcr曲线的本质形态的角度进行判别,以避免检验人员的主观因素或知识经验不足造成的误判,保证了核酸结果判别的准确性,并省去了数学推导计算或曲线拟合的需要。总而言之,本发明实施例的用于对核酸样本进行分类的技术能够在提高核酸结果判读准确率的基础上大幅降低核酸结果判读所需的人力资源,更进一步的缩短核酸检测的时间周期,从而尤其在大规模核酸筛查等场景中及时提供可靠的核酸结果,对于新冠疫情防控具有重大的战略意义和实用价值。
附图说明
16.从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:图1示出了阳性核酸样本的pcr曲线的示意图。
17.图2示出了阴性核酸样本的pcr曲线的示意图。
18.图3示出了弱阳性核酸样本的pcr曲线的示意图。
19.图4示出了弱阴性核酸样本的pcr曲线的示意图。
20.图5示出了异常核酸样本的pcr曲线的示意图。
21.图6示出了现有pcr曲线的人工判读方式的原理示意图。
22.图7示出了根据本发明实施例的对核酸样本进行分类的方法的流程图。
23.图8示出了根据本发明实施例的对核酸样本进行分类的方法中的卷积神经网络的结构的一个示例的示意图。
24.图9示出了根据本发明实施例的对核酸样本进行分类的方法中的卷积神经网络的结构的另一示例的示意图。
25.图10示出了根据本发明实施例的卷积神经网络的训练过程的示意图。
26.图11示出了根据本发明实施例的对核酸样本进行分类的方法中更新训练样本集的一个示例的示意图。
27.图12示出了根据本发明实施例的对核酸样本进行分类的方法中更新训练样本集的另一示例的示意图。
28.图13示出了根据本发明实施例的对核酸样本进行分类的方法中针对训练数据样本集的卷积神经网络模型准确率的示意图。
29.图14示出了根据本发明实施例的对核酸样本进行分类的方法中针对测试数据样本集的卷积神经网络模型准确率的示意图。
30.图15示出了根据本发明实施例的对核酸样本进行分类的设备的框图。
具体实施方式
31.为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。
32.首先,对本发明的针对核酸检测结果进行自动化判读的技术的基本背景和主要思想进行简要的概述。如前所述,在现有的基于扩增后得到的pcr曲线对核酸样本进行定量分析的检测方式中,检验过程严重依赖于pcr曲线的人工判读,而且有些pcr曲线难以人工判读,无法满足高效准确的检测需求。下面将结合图1-图5介绍几种类型的核酸样本的pcr曲
线的特点。
33.图1示出了阳性核酸样本的pcr曲线的示意图。如图1所示,横坐标表示pcr反应随着时间推移的循环数,纵坐标表示pcr反应中每个循环结束后的荧光信号强度采样值,其反映出每个循环结束后的病毒核酸含量。对于阳性核酸样本,可以看出,扩增后得到的pcr曲线呈现明显的s形扩增曲线。
34.图2示出了阴性核酸样本的pcr曲线的示意图。如图2所示,对于阴性核酸样本,其荧光信号强度采样值呈现出一条相对平稳的直线。
35.图3示出了弱阳性核酸样本的pcr曲线的示意图。如图3所示,对于弱阳性核酸样本,其荧光信号强度采样值呈现初步的s形扩增曲线。
36.图4示出了弱阴性核酸样本的pcr曲线的示意图。如图4所示,对于弱阴性核酸样本,其荧光信号强度采样值呈现出一条整体相对平稳的直线,但相比于阴性核酸样本而言,其存在一些上下起伏波动趋势。
37.图5示出了异常核酸样本的pcr曲线的示意图。可以理解,异常核酸样本可能是多种原因导致的,例如电压原因、试剂盒溶液配比、操作过程中引入污染物等,从而得到的pcr曲线出现异常状况。如图5所示,在一种示例性情况下,pcr反应的前几个循环处的曲线有异常的上扬趋势。
38.以上介绍了几种类型的核酸样本的pcr曲线的特点,下面将结合阳性核酸样本的pcr曲线介绍现有方法中对pcr曲线的定量分析方法。
39.图6示出了现有pcr曲线的人工判读方式的原理示意图。与图1类似,图6中pcr曲线的横坐标代表循环数,纵坐标代表一系列荧光强度信号采样值。如图6所示,反应开始时的最初数个循环中,荧光信号强度变化不大,接近一条直线,荧光信号随后呈现指数性增长,到达一定循环数之后,荧光信号强度不再增加,分别如图6中的基线期、指数扩增期和平台期所示。为进行pcr曲线的定量分析,需要以基线期的荧光信号强度标准偏差的10倍设定一个荧光阈值,且该荧光阈值线与pcr曲线产生交点,该交点所对应的横坐标即代表ct值,其代表荧光信号强度达到荧光阈值时所经历的扩增循环数。由于荧光信号强度到达荧光阈值所经历的循环数与待测样本的病毒核酸浓度有关,其中病毒核酸浓度越高,ct值越小,因此能够通过ct值的大小来判断核酸样本是否为阳性。
40.目前,还没有对核酸样本的pcr曲线进行自动判读的技术,判读工作需要由人工逐条曲线进行。具体而言,需要检验人员对各种类型核酸样本的pcr曲线有深入的了解或者经过严格的培训,并且根据pcr曲线是否呈现s形扩增曲线并且需要进一步结合其ct值进行人工判读。例如,当pcr曲线无s形扩增曲线且无ct值(即无交点)时,可以判断核酸样本为阴性;当pcr 的ct值小于等于检出限且呈现出s形扩增曲线,可以判断核酸样本为阳性;当pcr曲线呈现出初步的s形扩增曲线、ct值位于灰区或者其他不可忽略的曲线起伏波动等存疑情况下,可以判断核酸样本为需要复核的类型。因此,现有的pcr曲线人工判读的方法中,需要检验人员对几种常见类型曲线的丰富经验并且需要数学上的推导计算,存在主观因素并且人工检测效率低下。
41.虽然目前存在一些对数据曲线进行分析的方法,然而大多数方法并不适应于核酸样本pcr曲线的分析且准确率较低。例如,r语言是一种进行统计分析的工具包,其可以通过曲线拟合的方法判读pcr曲线阴阳性。然而,有些pcr曲线过于复杂难以进行准确恰当的拟
合或者根本无法进行拟合,且目前尚不存在针对pcr曲线设计的r语言程序包,因此采用r语言程序包对新冠病毒核酸检测的pcr曲线分类准确率仅为60%左右。另外,r语言仅是在数学上对pcr曲线进行拟合,以此得出每条曲线的数学方程表达式,而并未从pcr曲线应呈现何种趋势的本质进行学习和预测,导致其难以应用在复杂而且需要高度准确的新冠病毒核酸检测任务中。因此,在常态化核酸检测场景下,亟需一种对适于对核酸样本的pcr曲线进行高效、准确且自动化判读的技术,以弥补核酸检测领域内的空白。
42.综上所述,现有的根据pcr曲线进行核酸结果判读的方法存在诸多缺陷,包括但不限于:(1)人工判读pcr存在主观性,导致不同检验人员甚至对于同一个核酸样本给出不同的判读结果,使得核酸结果的可靠性和置信度无法满足期望标准。
43.(2)不同检测机构之间标准不统一,比如有的检测机构标准把握的非常严格而有的机构标准相对放松,导致不同机构给出的分类结果存在一定偏差。不仅如此,各检测结构需要花费大量时间和资金进行人员培训才能上岗。随着检测标准实时更新,又需要对检验人员进行再次培训,同时检验人员也可能在不同标准版本之间产生混淆,不利于工作的展开。
44.(3)核酸检测结果是通过检验人员人工判读pcr曲线后手动给出,存在结果录入错误或者甚至是检测报告被篡改的风险,这会给结果被录错的被检验人的生活带来不必要的麻烦,又或者不利于疫情形势的控制。
45.(4)在核酸检测样本巨大而检验人员紧缺的情况下,核酸样本的pcr曲线的人工低效判读工作非常容易造成积压,这导致被检验者无法及时获取到核酸检验报告,给出行、就医、购物等民生方面带来严重不便。
46.(5)现有判读方法中不仅需要肉眼观察pcr曲线的趋势,还要知晓其ct值,这是相当繁重的工作量和劳动负担,因此会有存在主观上故意或者意外地有些核酸样本未被判读就直接给出阴性结果的情况发生,若其中存在阳性患者的核酸检测样本而未被及时发现,极易造成疫情的扩散和防控局面失控。
47.可见,现有的依赖于pcr曲线人工判读的方法存在各种缺陷亟待解决。有鉴于此,本发明提出一种基于pcr曲线的趋势特征进行核酸结果的自动化判读的技术,其无需依赖于pcr曲线的数学推导计算和曲线拟合。以下将结合附图描述根据本发明实施例的对核酸样本进行分类的各个实施例。
48.实施例1图7示出了根据本发明实施例的对核酸样本进行分类的方法的流程图。如图7所示,该方法包括以下步骤:步骤s101,获得所述核酸样本的聚合酶链式反应pcr曲线数据,所述pcr曲线数据包括与pcr循环数对应的一系列信号采样值。在本发明实施例中,pcr曲线数据是通过随着pcr反应的每个循环数对荧光信号强度测量而得到的,作为一系列荧光信号强度采样值,其能够反映出每个扩增循环结束后的病毒核酸的有无及其含量的变化情况,据此能够提取出pcr曲线的趋势特征。几种常见类型的pcr曲线的特点如图1-图5所示,在此不予赘述。
49.步骤s102,将所述系列信号采样值作为一维向量输入到卷积神经网络。如上所述,有鉴于目前的pcr曲线人工判读方式效率低下且目前已有的r语言方法的适用性差等问题,
本发明提出基于卷积神经网络的方法进行pcr曲线的自动判读,通过多层的监督学习神经网络来学习各种类型的pcr曲线的本质形态并将其用于分类预测。相比于依赖ct值计算的人工判读方法以及依靠曲线拟合进行统计分析的方式,本发明采用的基于卷积神经网络的pcr曲线自动判读方法更能准确地学习和判别pcr曲线的本质形态,不易受到检验人员主观因素及经验不足、曲线复杂和存在离群点情况下难以拟合逼近等影响。在本发明实施例中,可以将随着pcr循环数的增长而记录的荧光信号强度采样值作为一维向量输入到一维卷积神经网络中,从而进行自动化判读。
50.可以理解,通过采用卷积神经网络进行特征提取,可以省去ct值计算并且省去pcr曲线的拟合过程,从而避免了数学计算过程易受数据噪声的影响和个体曲线可能存在差异性的影响。另外,本发明实施例中是将pcr反应中所得到的采样信号值作为一维向量输入到卷积神经网络,省去了pcr曲线的绘制过程,同时卷积神经网络所处理的数据对象是pcr曲线原始数据值而非绘制出的pcr曲线图像本身,也降低了卷积神经网络的数据运算量。
51.步骤s103,利用所述卷积神经网络提取所述pcr曲线数据的曲线趋势特征,并且根据所述曲线趋势特征确定所述pcr曲线数据的曲线类型。如前所述,卷积神经网络可以通过对各种pcr曲线进行训练以学习到每种类型的曲线应呈现何种趋势样貌的本质,因此对于待测pcr曲线,可以通过各神经网络层提取其曲线趋势特征,据此确定其曲线类型。在本发明实施例中,如以上结合图6所描述的人工判读方法类似的,曲线类型可以包括阳性趋势类型、阴性趋势类型和待复核趋势类型。
52.步骤s104,根据所述曲线类型提供所述核酸样本的分类结果。在该步骤中,代替于基于ct值大小或者拟合公式进行核酸检验,本发明中基于卷积神经网络所输出的曲线类型进行自动分类。在本发明实施例中,与步骤s103对应的,核酸样本的分类结果可以包括阳性结果、阴性结果和待复核结果。例如,本发明实施例的卷积神经网络可以给出pcr曲线分别被判别为阳性趋势类型、阴性趋势类型和待复核趋势类型的各个置信度值,使得能够根据置信度的相对高低来进行分类。例如,可以将置信度最高的曲线类型作为对应的判别结果提供,或者按照置信度由高到低的顺序提供各个判别结果及其置信度值以供参考。可以理解,本发明中可以采用多种方式提供核酸样本分类结果。举例而言,可以通过视频、音频或者文本等各种形式将分类结果告知给用户。例如,可以以卷积神经网络模型为基础实现可视化的交互,当用户输入待检测的pcr曲线数据时,可以通过以上所述各种方式呈现核酸检测结果。
53.需说明的是,如上描述的阳性、阴性和待复核三类结果是目前核酸检测实践中最常用的划分标准,其中:阳性结果需要进行紧急的隔离治疗处置,阴性结果予以放行,而待复核结果包括各种不确定和可疑因素,须再次进行采样检测才能确认。因此,为了满足当前实践中的划分标准,可以将核酸样本的分类结果设定成以上三类。然而,本发明实施例所能提供的分类情况不限于此,而是可以提供更细粒度的分类结果。例如,pcr曲线的待复核趋势类型可以包括弱阳性趋势类型、弱阴性趋势类型和异常趋势类型。相应的,核酸样本的待复核结果可以包括弱阳性结果、弱阴性结果和异常结果。
54.具体而言,考虑到新冠病毒样本采集和检测技术指南中的标准正在不断发展和更新,现有的三类分类标准有可能无法满足后续更细粒度的检测需求。另一方面,目前的检测过程中只要判断为待复核结果就进行再次采样,而并不进一步剖析其曲线趋势特征,导致
这些宝贵的核酸样本大数据的浪费,使得对这些类型曲线的理论研究相对欠缺,继而又会阻碍核酸检测实践的进步。有鉴于此,在本发明实施例中,可以提供阳性、阴性、弱阳性、弱阴性和异常五类分类结果,可以通过卷积神经网络学习并且预测进一步细化的曲线趋势形态,有助于医学工作者对各种pcr曲线进行深入的理论剖析,其进一步对核酸检测实践层面也有重要的指导意义。与此同时,通过对核酸样本进行更细粒度的划分,可以分别给不同类型的检测结果赋予不同的处置优先级,例如:阳性结果仍然作为第一处置优先级进行紧急处置,弱阳结果可以作为第二处置优先级在有余力的情况下优先处置,弱阴结果可以作为第三处置优先级,异常结果可以作为第四处置优先级,而阴性结果可以作为最末优先级或者无需处置,后三种情况可以视情况决定相应的处置方案。藉此,能够实现疫情处置的任务合理化分配调度,尤其在防疫人力和物质资源紧缺情况下将有限资源分配到最急迫需要的情形。
55.另需说明的是,经试验研究发现,三类分类结果可以满足当前实践操作的划分标准并且提供相对更高的分类准确度,而五类分类结果可以提供更细化的划分结果以供理论分析和实践指导。因此,本发明实施例可以在两种划分标准之间切换以满足期望的检测需求,例如当需要更高的检测准确度的情况下可以选择阳性、阴性和待复核三类划分结果。
56.以上描述了采用卷积神经网络来提取pcr曲线数据的曲线趋势特征并据此进行核酸样本分类的方法。下面将结合图8和图9对卷积神经网络的结构进行描述。需说明的是,图8和图9所示的卷积神经网络的结构仅为本发明实施例中采用的卷积神经网络的几个示意性举例,本发明不对其进行限制。
57.图8示出了根据本发明实施例的对核酸样本进行分类的方法中的卷积神经网络的结构的一个示例的示意图。如图8所示,本发明实施例的卷积神经网络为一维卷积神经网络,并且至少包括卷积层、池化层和全连接层。
58.具体地,可以将pcr曲线数据作为一维向量输入到卷积层,进而该卷积层通过卷积核的移动扫描来提取其每个部分的局部曲线趋势特征。正如人类对外界的认知是从局部到全局,本发明实施例的卷积层也是通过先对pcr曲线的局部有感知的认识,使得逐步在更高的全连接层对pcr曲线的整体有综合性认知,以便获得pcr曲线的整体曲线趋势特征。在本发明实施例中,卷积层可以通过将其产生的特征图作为局部曲线趋势特征提供给池化层。
59.然后,池化层可以对接收到的局部曲线趋势特征进行下采样,以滤除pcr曲线数据中的波动。可以理解,由于光学检测系统在荧光信号采样过程中可能无法避免地在pcr曲线中引入一些波动,或者由于其他原因而在pcr曲线中引入一些噪声,这些波动和噪声并不反映pcr的曲线的趋势特征,因此本发明实施例中可以利用池化层来去除这部分波动噪声,又不会消除pcr曲线中与pcr曲线类型紧密关联的波动趋势以使得重要信息损失。在本发明实施例中,可以采用平均池化层或最大池化层,其中优选为最大池化层以获得更佳的卷积神经网络模型性能。除此之外,通过设置池化层,还可以降低卷积神经网络需处理的数据量,并且能够提高卷积神经网络的泛化能力。
60.最后,全连接层可以对下采样后的局部曲线趋势特征进行整合,以提供曲线类型的分类结果。在本发明实施例中,全连接层在整个卷积神经网络中起到分类器的作用,即通过卷积、池化等深度网络后,再经过全连接层对结果进行识别分类。如前所述,全连接层在更高层对pcr曲线的整体有综合性认知,以便获得pcr曲线的整体分类结果。如前所述,卷积
神经网络所提供的分类结果可以采用三类划分标准或者五类划分标准。
61.图9示出了根据本发明实施例的对核酸样本进行分类的方法中的卷积神经网络的结构的另一示例的示意图。如图9所示,根据本发明实施例的卷积神经网络至少包括第一卷积层、第一激活函数层、第二卷积层、第二激活函数层、池化层和全连接层。需说明的是,虽然卷积神经网络在视觉图像处理、自然语言处理等领域中具有一定的应用,但这些已有的神经网络结构无法适用于核酸检测的pcr曲线数据,无法保证核酸检测的高准确需求。因此,本发明所提出的卷积神经网络结构是专门考虑到pcr曲线数据的特点而设计的,包括卷积神经网络内各网络层的数量、布置关系和各个网络层的参数。以下将对卷积神经网络的具体参数进行描述。
62.举例而言,通过对pcr曲线进行理论分析可知,通常几十个循环内的曲线趋势就能够判断其曲线类型。因此,可以结合上述pcr曲线趋势特点来设计卷积层的数量。例如,在本发明实施例中,每个pcr曲线可以仅包括30个荧光信号采样点以作为一维向量输入到卷积神经网络,以便从中提取出pcr曲线的整体趋势走向。因为一维向量的数据点相对较少,因此本发明实施例中不需过多的卷积层以尽量简化卷积神经网络的结构,优选的,可以设置两个卷积层来实现期望的模型检测性能。对于卷积神经网络结构中的其他参数,也可以通过模型调参过程实现最优参数确定,从而实现最优的模型分类预测性能。例如,对于卷积层,需要确定其合理的卷积核个数和尺寸以及步长等参数。下面将对模型调参过程进行详细描述。
63.通过结合pcr曲线特点以及模型性能分析,发现卷积神经网络中卷积层的个数及其卷积参数对模型性能有较大影响。相应的,本发明提出各种模型设计参数的组合,并且以pcr曲线数据为对象针对模型的性能进行评估。作为示意性举例,相应的结果如下:(1)卷积层层数为1,卷积核个数为5、尺寸为3、步长为3。
64.(2)卷积层层数为1,卷积核个数为10、尺寸为3、步长为3。
65.(3)卷积层层数为2,两个卷积层的卷积核个数分别为10和4,卷积核尺寸分别为3和3,步长分别为1和1。
66.(4)卷积层层数为2,两个卷积层的卷积核个数分别为10和10、卷积核尺寸分别为3和3,步长分别为1和1。
67.(5)卷积层层数为3,三个卷积层的卷积核个数分别为10、4、4,卷积核尺寸分别为3、3和3,步长分别为1、1和1。
68.通过测试评估,其中当在第(3)中模型参数下可以获得满意的性能,其初步判别准确率结果可以达到94%。
69.此外,通过结合pcr曲线特点以及模型性能分析,还发现卷积神经网络中池化层的类型与参数对模型性能也有较大影响。相应的,本发明实施例在不同的池化层参数下进行实验以对模型的性能进行评估。作为示意性举例,相应的结果如下:(1)池化层类型为平均池化,核大小设置为3,步长设置为2。
70.(2)池化层类型为平均池化,核大小设置为5,步长设置为2。
71.(3)池化层类型为最大池化,核大小设置为3,步长设置为2。
72.(4)池化层类型为最大池化,核大小设置为5,步长设置为2。
73.相应的,综合考虑池化层对数据波动噪声的滤除效果、对感兴趣的曲线波动趋势
的损失程度、以及卷积神经网络的泛化能力表现等角度,发现在第(3)中模型参数下可以获得满意的性能。
74.相应地,利用卷积神经网络的过程可以包括以下步骤。
75.首先,将pcr曲线数据作为一维向量传递到第一卷积层的输入。如上所述,作为优选示例,第一卷积层的卷积核的个数和尺寸可以设置为10和3,步长可以设置为1,但本发明不以此为限。举例而言,原始的pcr曲线数据的一维向量的维度可能相对较高且信息量往往很大,因此需要通过卷积层将所有信息中的关键趋势特征提出出来,然后再将化简后的特征传入到后续网络中进行判别。卷积核同样可以被看成是滤波器,其作为一维向量与原始一维向量的不同数据窗口进行卷积运算以得到新的特征图。在卷积神经网络中,卷积核可以对局部输入数据进行卷积计算。每计算完一个数据窗口内的局部数据后,数据窗口不断平移滑动,直到计算完所有数据,其中卷积核的个数决定了特征图的个数和输出的深度、而步长决定了滑动多少步可以到达数据边缘。
76.然后,将第一卷积层的输出传递到第一激活函数层的输入。作为示意性举例,第一激活函数层可以选择为修正线性单元(relu)激活函数。需说明 的是,为了增加卷积神经网络的非线性,需要向卷积神经网络的中添加激活层来加强拟合。激活函数的作用是用来加入非线性因素,将卷积层输出结果做非线性映射,这样卷积神经网络就可以应用到众多的非线性模型中。举例而言,relu函数是一种分段线性函数,将所有的负值都变为0,而正值不变,其具有计算简单、收敛速度快以及减少过拟合的优点。
77.此后,将第一激活函数层的输出传递到第二卷积层的输入。如上所述,作为优选示例,第二卷积层的卷积核个数和尺寸可以设置为4和3,步长可以设置为1,但本发明不以此为限。关于第二卷积层的滑动卷积计算可以参考第一卷积层的描述,在此不予赘述。
78.然而,将第二卷积层的输出传递到第二激活函数层的输入。作为示意性举例,第二激活函数层也可以选择为relu激活函数。关于第二激活函数层的细节可以参考第一激活函数层的描述,在此不予赘述。
79.此后,将第二激活函数层的输出传递到池化层的输入。如上所述,作为优选示例,最大池化层的核大小设置为3,步长设置为2,但本发明不以此为限。为了有效地减少计算量,可以采用池化层将将上一步的结果化简,而在去除不必要的干扰噪声的同时只保留重要信息,从而减少计算机的计算量,提高模型的运算速度。在池化操作中,可以根据池化层的核大小来设置一定的池化区域,进而按照一定的规则将该池化区域转换成相应的值,例如该池化区域内的最大值、平均值等,将其作为池化后的结果。优选的,在本发明实施例中,最大池化保留了每一池化区域内的最大值,相当于保留了这一区域的最佳的匹配结果,从而在化简和去噪的同时保留了重要信息。
80.接下来,将池化层的输出传递到全连接层的输入。作为示意性举例,可以在池化层后面设置3个全连接层来进行分类,其中前两层的全连接层的神经元个数可以分别为100和20,而最后一层的全连结层为3个神经元或5个神经元,这与pcr曲线趋势类型以及核酸样本分类的三类或五类划分标准相对应的。如前所述,卷积层所提取的是pcr曲线的局部曲线趋势特征,而全连接层的作用在于将之前的局部曲线趋势特征重新通过权值矩阵组装成全局特征以进行分类判别。例如,当需要给出阳性、阴性和待复核三类结果时,最后一层中可以设置3个神经元;而当需要给出阳性、阴性、弱阳性、弱阴性和异常五类分类结果时,最后一
层中可以设置5个神经元。
81.最后,将全连接层的输出作为曲线类型的分类结果。如前所述,可以根据pcr曲线分别被判定为各种类型曲线趋势的各个置信度值,来提供核酸样本的分类结果以供查看。例如,可以将置信度最高的曲线类型作为对应的判别结果,或者按照置信度由高到低的顺序提供各个判别结果及其置信度值以供参考。在一个示例中,曲线类型可以包括阳性趋势类型、阴性趋势类型和待复核趋势类型,相应的核酸样本的分类结果可以包括阳性结果、阴性结果和待复核结果。又例如,曲线类型可以包括阳性趋势类型、阴性趋势类型、弱阳性趋势类型、弱阴性趋势类型和异常趋势类型,相应的核酸样本的分类结果可以包括阳性结果、阴性结果、弱阳性结果、弱阴性结果和异常结果。
82.发明人注意到,考虑到每条pcr曲线的曲线数值范围大小差距过大,若直接将pcr曲线数据输入到卷积神经网络中,会导致模型准确度非常低。有鉴于此,本发明实施例中,在卷积神经网络的最开始加入批量归一化层(batch normalization)来进行归一化处理,从而提升模型判别的准确性。仍参照图9,根据本发明实施例的卷积神经网络还包括批量归一化层。相应的,将一维向量传递到第一卷积层的输入可以包括:将一维向量传递到批量归一化层的输入;以及将批量归一化层的输出传递到第一卷积层的输入。
83.作为示意性举例,可以计算输入一维向量的均值和标准差,然后将一维向量的每个元素减去均值后除以标准差作为批量归一化后的一维向量,以输入到后续的卷积层。以此方式,无论是各种原因导致的每条pcr曲线的曲线数值范围大小差距过大,卷积神经网络都可以实现期望的分类预测性能。
84.根据本发明提出的用于对核酸样本进行分类的方法,能够通过卷积神经网络对核酸样本的pcr曲线数据进行自动化判读,有效降低核酸检测结果判读所需的人力资源,提高判读效率。另外,本发明提出的用于对核酸样本进行分类的方法通过使卷积神经网络对各种常见类型的pcr曲线的趋势进行深度学习,能够从pcr曲线的本质形态的角度进行判别,以避免检验人员的主观因素或知识经验不足造成的误判,从而保证了核酸结果判别的准确性,并省去了数学推导计算或曲线拟合的需要。总而言之,本发明实施例的用于对核酸样本进行分类的方法能够在提高核酸结果判读准确率的基础上大幅降低核酸结果判读所需的人力资源,更进一步的缩短核酸检测的时间周期,从而尤其在大规模核酸筛查等场景中及时提供可靠的核酸结果。
85.举例而言,本发明所提出的对核酸样本的pcr曲线数据进行自动化判读的技术具有显著的有益技术效果,包括但不限于:(1)通过卷积神经网络进行自动化判读,使得检测结果客观公正,并且所给出的检测结果更能反映pcr曲线的趋势本质,而排除其他干扰噪声。
86.(2)通过卷积神经网络模型能够给出统一的判别标准,避免标准把握尺度不同导致的结果偏差,也省去了对检验人员理论知识和实操经验的需要。同时,在检验标准更新时,只需更新卷积神经网络的判别标准即可投入使用,避免了不同标准版本之间过长的过渡期。
87.(3)通过卷积神经网络对每条输入的核酸样本pcr曲线数据进行判读,使得每个核酸样本的检测有迹可循,通过溯源过程能避免检测结果录入错误或者检测结果被篡改的风险,同时这些样本又可以被拿来进行卷积神经网络的迭代训练,从而不断优化和完善卷积
神经网络的模型参数。
88.(4)通过卷积神经网络进行自动化判读,能够大幅提升检测效率,不会在判读流程中造成工作的积压,不会出现迟迟获得不到检测报告的问题,且有利于疫情形势的实时统计分析。
89.(5)通过卷积神经网络进行自动化判读,能够智能化地管理核酸检测流程,不会出现某条核酸样本被遗漏或者未判读就直接给出结果的情况,避免漏检或漏判的阳性患者导致的疫情扩散。
90.(6)通过卷积神经网络进行自动化判读,能够有助于核酸检测标准的行业内进行全国推广,有助于核酸结果在各个省份间彼此互认,也有助于从整个国家层面全局管理和分析核酸样本数据以及疫情形势。
91.实施例2以上描述了利用卷积神经网络进行核酸分类的过程。下面将结合图10-图14描述根据本发明实施例的卷积神经网络的训练过程。
92.图10示出了根据本发明实施例的卷积神经网络的训练过程的示意图。在本发明的一个实施例中,卷积神经网络是采用随机梯度下降算法基于训练数据样本集进行训练而得到的。如图10所示,可以将pcr曲线数据及其已知标签(例如,阳性、阴性、待复核等)输入到卷积神经网络,通过卷积神经神经网络对pcr曲线进行特征提取并进行分类预测,然后基于已知标签及预测结果进行损失计算,并据此更新卷积神经网络的参数。需说明的是,本发明不对卷积神经网络的损失的具体计算方式进行限制。例如,在卷积神经网络的训练过程中,可以通过以卷积神经网络的损失最小化作为目标来更新神经网络参数并确定最终使用的神经网络模型。可替代地,可以在完成预定次数的迭代后,完成卷积神经网络的训练以确定最终使用的神经网络模型。
93.具体地,该训练数据样本集包括预定数量的阳性pcr曲线数据、阴性pcr曲线数据、弱阳性pcr曲线数据、弱阴性pcr曲线数据和异常pcr曲线数据。例如,可以通过excel文件导入原始pcr曲线样本数据,其中:阳性625条、弱阳139条、阴性414条、弱阴4条、异常183条,总共1365条。
94.在一个示例中,为了提供能够输出阳性结果、阴性结果和待复核结果三类检测结果的卷积神经网络,可以将弱阳、弱阴、异常先归为待复核一大类,阳性、阴性各一类,共三种训练数据样本标签。然后,对于每个pcr曲线选择30个循环数对应的荧光采样点及其曲线类型作为pcr曲线数据和样本标签,再按照7:3的比例将原始pcr曲线样本数据划分为训练数据样本集和测试数据样本集。接下来,可以利用训练数据样本集的数据,通过采用梯度下降法最小化损失函数,对卷积神经网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。
95.然而,发明人注意到,由于训练数据样本集中的各类不同样本的数量彼此可能不平衡,例如,现实世界中阳性结果和阴性结果所对应的数据相对较多,而弱阴、弱阳和异常三类结果并不常见。在此情况下,若直接将这几类pcr曲线数据作为训练数据样本集进行卷积神经网络的训练,则导致训练得到的模型往往也是有偏的,即分类判别结果会偏向于多数类样本的那个分类,从而发生误判。有鉴于此,根据本发明实施例的方法中还包括更新训练样本集的处理。图11示出了根据本发明实施例的对核酸样本进行分类的方法中更新训练
样本集的一个示例的示意图。如图11所示,可以将弱阳、弱阴、异常先归为待复核一大类,但其数量仍然明显少于阳性样本或阴性样本的数量,为了获得良好的模型训练效果,可以对待复核这一少数类别pcr曲线样本进行分析,并将人工模拟构造出的新的待复核类pcr曲线样本添加到数据集中,进而使原始数据中的类别不再严重失衡。具体地,训练样本集的更新过程可以包括以下步骤。
96.首先,确定训练数据样本集中不同类别的pcr曲线数据的数量是否平衡。如图11的左侧所示,待复核类样本类型明显数量较少。
97.其次,当不同类别的pcr曲线数据的数量不平衡时,基于已有的少数类pcr曲线数据构建新的少数类pcr曲线数据并且更新训练数据样本集。在本发明实施例中,可以采用smote(synthetic minority over-sampling technique)方法进行平衡处理,例如通过k最近邻算法(knn)来构造新的少数类样本。具体构造新的少数类样本的处理在此不予赘述。另外,也可以对剩余的次少数类进行新的pcr曲线数据构建,使得所有类型的pcr曲线数据的数量均维持在相近的水平。如图11的右侧所示,经过平衡处理后,每类样本的数量可以大体相同或达到接近的数量水平。
98.最后,基于更新后的训练数据样本集来训练卷积神经网络。在本发明实施例中,卷积神经网络的训练采用随机梯度下降算法(sgd)。优选的,训练过程中的学习率设置为0.04,且动量(momentum)取0.9,损失函数可以采用交叉熵损失函数。
99.在另一个示例中,为了提供能够输出阳性结果、阴性结果、弱阳性结果、弱阴性结果和异常结果五类检测结果的卷积神经网络,可以分别将阳性、阴性、弱阳、弱阴、异常各自归为一类,共五种训练数据样本标签。然后,类似的,对于每个pcr曲线选择30个循环数对应的荧光采样点及其曲线类型作为pcr曲线数据和样本标签,再按照7:3的比例将原始pcr曲线样本数据划分为训练数据样本集和测试数据样本集。接下来,仍可以采用类似的方法进行训练,在此不予赘述。
100.同样的,在提供五类检测结果的示例中,不同类别的pcr曲线数据的数量不平衡的问题相对更加严重,因此在该示例中,同样可以进行更新训练样本集的处理。图12示出了根据本发明实施例的对核酸样本进行分类的方法中更新训练样本集的另一示例的示意图。如图12所示,为了获得良好的模型训练效果,可以对少数类别pcr曲线样本进行分析,并将人工模拟构造出的新的待复核类pcr曲线样本添加到数据集中,进而使原始数据中的类别不再失衡。具体过程可以参照图11所描述的处理,在此不予赘述。
101.接下来,参照图13和图14描述卷积神经网络的准确率的示意图。
102.图13示出了根据本发明实施例的对核酸样本进行分类的方法中针对训练数据样本集的卷积神经网络模型准确率的示意图。在本发明实施例中,可以当卷积神经网络训练大约500轮时结束卷积神经网络的训练,或者当卷积神经网络的预测性能或者损失函数值达到预定阈值时结束训练,作为训练好的模型参数。如图13所示,在本发明实施例中,当卷积神经网络训练结束时,该模型对于训练数据样本集的准确率约为98%。
103.图14示出了根据本发明实施例的对核酸样本进行分类的方法中针对测试数据样本集的卷积神经网络模型准确率的示意图。如上所述,可以按照7:3的比例将原始pcr曲线样本数据划分为训练数据样本集和测试数据样本集,并且在训练完成后基于测试数据样本集对模型性能进行测试验证。如图14所示,卷积神经网络对于测试数据样本集分类准确率
94%左右,仅24条曲线判错,其中:待复核判阴13条,阴判待复核6条,待复核判阳4条和阳判待复核1条,无阴判阳,阳判阴的情况。从试验结果来看,采用该卷积神经网络对核酸样本的pcr曲线进行分类预测,预测效果很好,基本满足了对阴性、阳性和需要待复核类别的高准确度预测,而且还可以根据需要对待复核类别进行细分。在本发明实施例中,通过卷积神经网络对核酸样本的pcr曲线数据进行自动化判读,其实现方案简单且分类预测精度高,能够满足核酸检测任务尤其是大规模核酸筛查的应用要求,具有广泛的应用推广价值。因此,在常态化核酸检测场景下,本发明提出的方法能够对核酸样本的pcr曲线进行高效、准确且自动化判读,弥补了核酸检测领域内的空白,对于新冠疫情防控具有重大的战略意义和实用价值,具有显著的技术效果。
104.实施例3根据本发明的另一方面,提供一种用于对核酸样本进行分类的设备。图15示出了根据本发明实施例的对核酸样本进行分类的设备的框图。如图15所示,设备1000包括处理器u1001和存储器u1002。
105.处理器u1001可以是能够实现本发明各实施例的功能的任何具有处理能力的装置,例如其可以是设计用于进行在此所述的功能的通用处理器、数字信号处理器(dsp)、asic、场可编程门阵列(fpga)或其他可编程逻辑器件(pld)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。
106.存储器u1002可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)和/或高速缓存存储器,也可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储器,例如硬盘驱动器、软盘、cd-rom、 dvd-rom或者其它光存储介质。
107.在本实施例中,存储器u1002中存储有计算机程序指令,并且处理器u1001可以运行存储器u1002中存储的指令。在所述计算机程序指令被所述处理器运行时,使得所述处理器执行本发明实施例的用于对核酸样本进行分类的方法。关于用于对核酸样本进行分类的方法与上文中针对图7-图9描述的基本相同,因此为了避免重复,不再赘述。作为设备的示例,可以包括计算机、服务端、工作站等等。
108.基于上述对核酸样本进行分类的设备,可以搭建covid-19病毒核酸自动化判读系统。具体地,该自动化判读系统主要以卷积神经网络模型为基础,并且可以配备相应的交互硬件装置,从而实现可视化的交互。当用户向系统输入待检测的pcr曲线数据时,通过卷积神经网络对pcr曲线进行曲线趋势特征提取和分类预测,该系统可以自动地输出pcr曲线的判读结果(例如,阳性、阴性、弱阳性、弱阴性、异常等),在此不予赘述。
109.实施例4根据本发明的对核酸样本进行分类的技术还可以通过提供包含实现所述方法或者设备的程序代码的计算机程序产品来实现,或者通过存储有这样的计算机程序产品的任意存储介质来实现。
110.以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。另外,来自一个实施例的特征可以与另一个或多个实施例的特征进行组合以获得更多的实施例。
111.本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
112.另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,以便例如“a、b或c的至少一个”的列举意味着a或b或c,或ab或ac或bc,或abc(即a和b和c)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
113.还需要指出的是,在本发明的装置和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
114.对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何部分,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现。所述硬件可以是利用被设计用于进行在此所述的功能的通用处理器、数字信号处理器(dsp)、asic、场可编程门阵列信号(fpga)或其他可编程逻辑器件(pld)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合。通用处理器可以是微处理器,但是作为替换,该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合,例如dsp和微处理器的组合,多个微处理器、与dsp核协作的一个或多个微处理器或任何其他这样的配置。所述软件可以存在于任何形式的计算机可读的有形存储介质中。通过例子而不是限制,这样的计算机可读的有形存储介质可以包括ram、rom、eeprom、cd-rom或其他光盘存储、磁盘存储或其他磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其他有形介质。如在此使用的,盘包括紧凑盘(cd)、激光盘、光盘、数字通用盘(dvd)、软盘和蓝光盘。
115.可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本发明的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
116.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
117.为了例示和描述的目的已经给出了以上描述。此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献