一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于小样本的儿童肺炎诊断系统

2022-12-19 23:46:02 来源:中国专利 TAG:


1.本发明属于医学人工智能领域,尤其是涉及一种基于小样本的儿童肺炎诊断系统。


背景技术:

2.肺炎是儿童最常见的疾病之一。对于大多数肺炎患者,胸片被认为是诊断的金标准,并且因其成本低且易获取在医院被广泛使用。不同的肺炎病例可涉及肺的不同位置,导致多个亚类,如小叶性肺炎、大叶性肺炎和间质性肺炎。亚类可能具有不同的特征或症状,导致类内的多样性,这进一步使肺炎的识别困难。儿科呼吸科面临的境况更为严峻。首先,儿童的器官还没有完全发育起来,即使是正常样本,不同的患者的肺也可能有非常不同的状态,大多数儿童的肺与成人的肺差别很大。第二,儿童表达自己的身体状况的能力有限,常用的假设-演绎推理方法并不是很有效,而胸片是最重要的诊断工具之一。因此,如何仅用胸片图像准确识别儿童肺炎是一项重要且具有挑战性的任务。
3.大多数计算机辅助诊断(cad)模型使用大规模数据进行训练,并为成人疾病设计。然而,由于近年来更严格的隐私政策和信息安全要求,医疗数据更加难以获取,尤其是儿科数据。由于儿科医生的极度短缺和昂贵的成本,即使相应的大规模成人数据集已经存在,标注大规模儿童数据集也是一个巨大的负担。因此,开发一个具有有限的小规模数据集的儿童计算机辅助诊断系统是一个挑战。
4.如公开号为cn111951246a的中国专利文献公开了一种基于深度学习的多方位x光胸片肺炎诊断方法,以提高神经网络模型在x光胸片上对肺炎诊断的性能。该发明通过:输入x光胸片数据,对数据进行清洗,过滤和图像增强;根据图像的成像方位对数据进行划分;使用迁移学习方法训练优化构建的多方位的深度卷积神经网络模型;将待诊断样本输入到模型中,得到x光胸片的分类结果,实现肺炎的分类检测。该发明可以对x光胸片图像数据进行高效的处理,过滤和图像增强,对参差不齐的医疗数据进行规范化、可训练化的治理。同时,通过输入多方位的x光胸片图像,可以提取患者更全的语义信息,有效提高模型对肺炎分类诊断的准确率,敏感值和特异值,为患者提供精准诊断。
5.众多学者基于大规模x光胸片训练人工智能模型,开展对成人肺炎的辅助诊断。但是,鉴于儿童肺炎诊断更为困难复杂(发育差别、患儿表达能力差等)和儿童肺炎患者数据获取困难(对儿童的隐私保护、儿童较成人数量较少、儿科医生稀少导致高质量标注数据稀少),利用人工智能方法,将成人大规模数据迁移到儿童数据解决以上问题的尚未有相关的研究和报道。


技术实现要素:

6.本发明提供了一种基于小样本的儿童肺炎诊断系统,将小规模的儿童数据与大规模的成人数据集相结合,标注的儿童数据作为成人和儿童空间之间的对齐锚点,从而提高诊断儿童肺炎的准确率。
7.一种基于小样本的儿童肺炎诊断系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存储有训练好的诊断识别模型,所述的诊断识别模型以深度神经网络为主干网络,并基于跨年龄活动域对齐框架进行训练;所述的跨年龄活动域对齐框架包含面向中心的锚点选择模块、中心驱动的域对齐模块和主动模型更新模块;
8.训练过程为:利用成人胸片图像构成的源域数据对诊断识别模型进行预训练;利用锚点选择模块从未标注的由儿童胸片图像构成的目标域数据中选择锚定样本,通过医生进行人工标注;利用域对齐模块将源域数据和目标域数据融合成一个混合域并进行域对齐操作,进一步对诊断识别模型进行训练;利用主动模型更新模块,采用迭代的方式结合锚点选择模块和域对齐模块,执行多阶段的锚点选择、域对齐操作和模型训练;
9.所述计算机处理器执行所述计算机程序实现以下步骤:
10.将待检测的儿童胸片图像输入训练好的诊断识别模型,得到儿童肺炎预测结果。
11.本发明中,为了充分利用大规模成人数据集和小规模数据集来训练诊断识别模型,关键是对齐两个特征空间,这可以通过两种方式来实现:对齐中心或边界。由于儿童样本数量极少和对边界分布知识的不足,围绕边界进行对齐将比中心需要更多的样本。因此,本发明通过寻找一些靠近中心的样本,并将它们作为锚点。同时,假设中心是样本更容易预测和选择的区域。在跨年龄活动域对齐框架中,通过多阶段的中心样本选择,可以逐步实现更好的对齐。
12.可选择地,所述的诊断识别模型以resnet50为主干网络。
13.训练过程中,跨年龄活动域对齐框架通过跨域联合训练来处理域相似度,通过锚点对齐来处理域差异。
14.训练过程中,锚点选择模块选择锚定样本的过程如下:使用前一阶段的诊断识别模型对未标注的目标域样本进行预测,锚点选择模块以置信度作为选择标准,随机选择高置信度样本作为锚定样本,并通过医生人工标注为监督对齐锚点。
15.利用域对齐模块将源域数据和目标域数据融合成一个混合域时,使用xs∈xs和ys∈ys表示源域图像和相应的标签,并使用x
t
∈x
t
和y
t
∈y
t
表示目标域图像和相应的标签;然后,混合域xm={xs,x
t
}和ym={ys,y
t
}由来自源域和目标域的数据组成;在混合域中,共有三种数据:带标签的源域数据、带标签的目标域锚点和不带标签的目标域数据。
16.训练过程中,进行域对齐操作时,使用源域的标注数据进行特征训练,目标域的标注锚点用于监督域对齐,目标域未标注数据用于无监督域对齐。
17.进一步对诊断识别模型进行训练时,总共有三次损失,对于源域标注的数据和目标域标注的锚定样本,损失和使用交叉熵损失如下:
[0018][0019]
其中,n为样本数,y
′i为预测分数,yi为真实值;此外,使用跨年龄活动域对齐损耗作为无监督域对准损失执行域区分,如下所示:
[0020][0021]ns
和n
t
为源域和目标域样本的数量,f是潜在的特性,g是分类器预测,d是鉴别器网络;最后,总体损失如下:
[0022][0023][0024]
主动模型更新模块在执行多阶段的域对齐操作和模型训练过程中,
[0025]
当目标域样本少于32个时,将所有标注的目标域数据和源域数据融合到混合域中,并进行一个阶段的域对齐操作和模型训练;
[0026]
当目标域样本大于或等于32个时,使用前一阶段的模型,并利用锚点选择模块从未标注的目标域数据中选出锚定样本;
[0027]
在每个阶段,选择与现有标注样本相同数量的锚定样本,所有选择的锚定样本都由人工手动标注,并用于下一阶段的训练。
[0028]
与现有技术相比,本发明具有以下有益效果:
[0029]
本发明的系统基于深度学习算法模型,一个多阶段的半监督框架,即跨年龄主动域对齐框架,将知识从成人转移到儿童。跨年龄主动域对齐由面向中心的锚点选择模块、中心驱动的域对齐模块和主动模型更新模块组成,可实现成人空间和儿童空间的多阶段空间中心对齐。将小规模的儿童数据与大规模的成人数据集相结合的算法模型,其性能在多种类型数据集上均具有明显优势,可以有效识别儿童肺炎。
附图说明
[0030]
图1为本发明一种基于小样本的儿童肺炎诊断系统的工作流程图。
具体实施方式
[0031]
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
[0032]
一种基于小样本的儿童肺炎诊断系统,包括计算机存储器、计算机处理器以及存储在计算机存储器中并可在计算机处理器上执行的计算机程序,计算机存储器中存储有训练好的诊断识别模型,诊断识别模型以深度神经网络为主干网络,并基于跨年龄活动域对齐框架进行训练;跨年龄活动域对齐框架包含面向中心的锚点选择模块、中心驱动的域对齐模块和主动模型更新模块。计算机处理器执行所述计算机程序实现以下步骤:
[0033]
将待检测的儿童胸片图像输入训练好的诊断识别模型,得到儿童肺炎预测结果。
[0034]
如图1所示,系统的整个工作过程为:利用成人胸片图像构成的源域数据对诊断识别模型进行预训练;利用锚点选择模块从未标注的由儿童胸片图像构成的目标域数据中选
择锚定样本,通过医生进行人工标注;利用域对齐模块将源域数据和目标域数据融合成一个混合域并进行域对齐操作,进一步对诊断识别模型进行训练;利用主动模型更新模块,采用迭代的方式结合锚点选择模块和域对齐模块,执行多阶段的锚点选择、域对齐操作和模型训练。
[0035]
在上述过程中,该框架通过跨域联合训练来处理域相似度,通过锚点对齐来处理域差异。该框架在公共和私有数据集上进行评估,并能获得与只有少量标注目标域样本的大规模标注数据集相当的性能。
[0036]
1、面向中心的锚点选择
[0037]
在面向中心的锚点选择中,使用前一阶段的模型对未标注的目标域样本进行预测,面向中心的锚点选择以置信度作为选择标准,随机选择高置信度样本,手动标注为监督对齐锚点。具体来说,在初始阶段(少于32个目标域样本),对源域数据进行预训练,该模型的骨干网络与中心驱动域对齐模块相同,用于选择初始目标域样本。在主动更新阶段,使用前一个阶段的模型。在每个阶段,选择相同数量的阴性和阳性样本,每个类别所选择的样本数用α表示。在实验中,小于32(2,4,8,16)的α在初始阶段模式下进行处理,其他α(32,64,128,256)在主动更新模式下进行训练。
[0038]
2、中心驱动的域对齐
[0039]
为了进行特征空间对齐,本发明定义了一个新的域-混合域,它将大规模源域数据和小规模目标域数据结合到一个空间中。本发明使用xs∈xs和ys∈ys表示源域图像和相应的标签,并使用x
t
∈x
t
和y
t
∈y
t
表示目标域图像和相应的标签。然后,混合域xm={xs,x
t
}和ym={ys,y
t
}由来自源域和目标域的数据组成。在混合域中,共有三种数据:带标签的源域数据、带标签的目标域锚点和不带标签的目标域数据。在中心驱动的域对齐训练过程中,使用源域标注数据进行特征训练,目标域标注锚点用于监督域对齐,目标域未标注数据用于无监督域对齐。
[0040]
对面向中心的锚点选择中选择的锚定样本进行手动标注,以实现小规模目标域训练。然后,利用混合域数据来训练深度神经网络(诊断识别模型)。总共有三次损失,对于源域标注的数据和目标域标注的锚定样本,损失和使用交叉熵损失如下:
[0041][0042]
其中n为样本数,y
′i为预测分数,yi为真实值。此外,还应用了无监督域对准损失在本专利中,我们使用跨年龄活动域对齐损耗作为执行域区分,如下所示:
[0043][0044]ns
和n
t
源域和目标域样本的数量,f是潜在的特性,g是分类器预测,d是鉴别器网络。最后,总体损失如下:
[0045]
[0046][0047]
由于源域数据、定位点样本和目标域数据融合到混合域中,因此α设置将极大地影响模型性能。较小的α表示需要较少的标注样本,而较大的α需要更多的标注,并且需要更多的金钱和精力。
[0048]
3、主动模型更新
[0049]
进一步的,模型更新为:迭代地执行面向中心的锚点选择和中心驱动的域对齐。在初始阶段,样本少于32个,这使得多阶段训练很难分割子集。因此,当样本少于32个时,将所有标注的目标域数据和源域数据融合到混合域中,并进行一个阶段的中心驱动的域对齐训练。否则,根据前一阶段的模型进行面向中心的锚点选择。在每个阶段,选择与现有标注样本相同数量的样本。所有选择的锚定样本都由人工手动标注,并用于下一阶段的训练。
[0050]
具体来说,本发明使用resnet50作为所有实验的骨干网络。在训练cdan、etd和afn时,根据作者发布的官方代码进行修改,并使用相同的训练策略。adam优化器用于优化网络。学习速率设置为0.0001,每个阶段训练10个epoch。为了保持混合域中锚点数据比例的稳定,避免比例变化影响性能,对锚点样本进行复制,确保锚点样本有256个。
[0051]
4、性能指标
[0052]
进一步的,性能指标为:为了评估所给出来的方法的性能,使用0.5作为阈值,并在测试集上的每个epoch上计算精度。众所周知,当在小规模数据集上训练模型时,存在过拟合或不稳定训练的风险非常高。因此,本发明以平均精度作为最终的度量,即epoch精度曲线下的面积。为了揭示训练的总体趋势,每10个epoch生成一次aacc,并将结果命名为第一阶段、第二阶段和第三阶段。因为在更新阶段只有10个epoch周期,所以在结果中只有第一阶段。同时,还提供了epoch-精度曲线来评估不同设置下的性能。
[0053]
本发明使用完整的成人数据、完整的儿童数据和完整的成人 儿童数据来训练诊断识别模型。仅使用成人数据的表现明显低于所有其他设置。这证明了成人和儿童数据之间的巨大差距。使用所有标注的儿童数据的训练模型比仅使用成人数据取得了更好的表现,而低于同时使用成人和儿童数据。作为一种最广泛使用的方法,本发明还通过对成人数据进行首次训练和对儿童数据进行微调来测试迁移学习的性能。对完整儿童数据的迁移学习表现优于训练诊断识别模型,且低于使用所有数据。我们认为这是因为成人数据和儿童数据之间的相似性。
[0054]
如下表1所示,为在公共儿科数据集上的一些基线方法的aacc评分。仅使用成人数据的性能明显低于使用儿童数据,但儿童数据需要对所有样本进行标注。
[0055]
表1
[0056][0057]
为了减少成人和儿童数据之间的差距,本发明实施例将所提出的方法与基线进行了比较。为了实现标注成本和性能之间的平衡,使用64个标注锚样本在混合领域对模型进
行训练,包括公共成人数据集、儿童锚样本和未标注儿童数据,并在公共和私人儿科数据集上进行测试。通过使用64个标注的锚点,这意味着执行2个主动更新(16

32,32

64)阶段。实验结果如下表2所示,为该方法在公共儿科数据集上的aacc评分。对于cdan、etd和afn,“full adult children”是指使用所有标注的成人数据和所有未标注的儿童数据。
[0058]
表2
[0059][0060]
在本发明中,将所提出的方法与两种监督基线和半监督域自适应基线进行了比较,其中所有成人样本都被标注,而所有儿童样本都没有被标注。在这两个数据集上,所提出的方法仅使用了64个标注样本,并取得了与监督分类方法相当的性能。与所有的领域自适应方法相比,该方法能够取得优越的性能和优于所有基线。在私人数据集上,我们的aacc评分比三个基线高出25%。在两个数据集上,所提出的方法的aacc评分也远远高于使用完整的儿童数据集。
[0061]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献