一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用具有混合质量的标记的医学数据对人工神经网络进行的约束训练的制作方法

2022-07-10 18:48:44 来源:中国专利 TAG:


1.本发明涉及用于使用具有混合质量的标记的医学图像对人工神经网络进行有监督的训练的计算机实施的方法、被配置为执行该方法的步骤的数据处理系统、包括用于使数据处理系统运行该方法的指令的计算机程序,以及存储这种计算机程序的计算机可读介质。


背景技术:

2.众所周知,对神经网络(特别是深度神经网络)的有监督的训练需要广泛的训练样本集。使用大小不足的训练集会导致在将经训练的神经网络应用于新的没见过的病例时产生高风险的泛化误差。虽然最近在合成数据或合成增强数据以及数据域传输技术方面取得了进展,但是训练数据中的足够广泛的可变性通常仍是神经网络具有良好泛化(generalizability)的先决条件,这在实践中意味着大量数据。
3.例如,在l.prechelt的文章“automatic early stopping using cross validation:quantifying the criteria”(neural networks 11(1998),第761-767页)中公开了对神经网络的有监督的训练。这篇文章还描述了如何通过在收敛前停止训练来避免过度拟合。这是通过以下操作来完成的:将训练数据分成训练集和交叉验证集,并且仅对训练集进行训练并偶尔评价验证集上的每样本误差。一旦交叉验证集上的误差高于上一次的误差,就会停止训练。
4.除了没有编号的训练样本以外,标签质量对于经训练的神经网络的预测准确度也起着重要作用。虽然能够容忍标签中的一定程度的误差并且这些误差甚至能够提高泛化性能,但是如果不准确或不完整标记的训练样本的数量太大,则经训练的神经网络的预测准确度就会大大降低。对于适用最高准确度、鲁棒性和可靠性准则的医学应用来说,尤其需要避免后一种情况。


技术实现要素:

5.准确标记医学图像需要大量资源,特别是医学专业知识、时间和金钱。因此,通常无法获得充足的高标签质量的训练样本。这尤其适用于在读者间和读者内具有高度变化性的任务,在这种任务中,必须在不同读者之间或者在相同读者但对同一图像的多种读取之间达成某种形式的共识。在大多数情况下,可用资源仅允许准确标记可用医学图像中的某些图像,而剩余的多得多的医学图像则不得不由经验较少的工作人员来标记,这通常会导致不准确且可能不完整的标签。
6.在这种情况下,在没有挑出具有高质量标签的训练样本的情况下在所有训练样本上训练神经网络会导致经训练的神经网络的预测准确度较差。通过在训练期间以更加平衡的方式从两个标签类别中抽取训练样本,可以在一定程度上规避这种问题。然而,后一种方法遇到了以下缺点:神经网络在具有高质量标签的训练样本上的性能无法得到明确控制。
7.因此,希望提供改进的用于训练人工神经网络的方法。特别地,该方法可以更好地利用具有混合标签质量的可用训练样本,从而明确控制在具有高质量标签的训练样本上的准确度。因此,可以提高经训练的神经网络的预测准确度。
8.独立权利要求的主题实现了这种希望,其中,在从属权利要求和以下描述中包含了进一步的实施例。应当注意,如下所述的计算机实施的方法的任何步骤、特征或方面等同地适用于如下所述的被配置为执行该方法的步骤的数据处理系统、计算机程序和计算机可读介质,并且反之亦然。
9.根据本公开内容的第一方面,提出了一种用于对人工神经网络进行有监督的训练的计算机实施的方法,其中,所述神经网络被配置用于医学图像分析。所述神经网络还被配置为基于指示医学图像的特征向量来预测标签。所述计算机实施的方法包括采集第一训练样本集和第二训练样本集,其中,所述训练样本包括特征向量和相关联的预定标签,所述特征向量指示医学图像,并且所述标签涉及解剖结构检测、对医学图像的语义分割、对医学图像的分类、计算机辅助的诊断、对生物标志物的检测和/或定位,或对医学图像的质量评估。此外,所述计算机实施的方法包括采集针对训练样本的第一子集的所述神经网络的平均预测性能的上限,所述第一子集是所述第二训练样本集的子集。此外,所述计算机实施的方法还包括通过减小代价函数来训练所述神经网络,其中,所述代价函数包括第一部分和第二部分,其中,所述代价函数的所述第一部分取决于所述第一训练样本集,并且其中,所述代价函数的所述第二部分取决于训练样本的所述第一子集以及针对训练样本的所述第一子集的所述神经网络的所述平均预测性能的所述上限。所述代价函数的所述第二部分被配置用于防止针对训练样本的所述第一子集的所述平均预测性能超过所述上限。
10.所述计算机实施的方法对于深度神经网络特别有益,所述深度神经网络包括许多要学习的参数。通常,所需的训练样本数量随着需要学习的参数数量而增加。可以用函数来描述神经网络,其中,x表示指示医学图像的特征向量,w表示权重向量,并且是由神经网络预测的标签。特征向量可以包括原始图像数据。额外地或替代地,特征向量可以包括根据原始图像数据导出的特征。通过权重向量w对神经网络进行参数化,可以通过训练神经网络来学习权重向量w。预测的标签可以是数字和/或字符串。替代地,预测的标签可以包括多个数字和/或字符串。数字和/或字符串可以对应于整幅医学图像或图像的部分。预测的标签也可以包括用于医学图像的像素的一个或多个数字和/或一个或多个字符串。特别地,预测的标签可以包括用于医学图像的每个像素的一个或多个数字和/或一个或多个字符串。
11.优选地,第一训练样本集和第二训练样本集的每个训练样本包括指示医学图像的特征向量x以及相关联的预定标签y。因此,每个训练样本可以是元组(x,y)。可以手动确定预定标签,并且可以将预定标签视为用于对神经网络的训练的实际情况。例如,可以通过从计算机可读存储介质中加载这些集合或通过从远程服务器下载这些集合来采集第一训练样本集和第二训练样本集。
12.针对所述第二训练样本集的所述预定标签的平均准确度或这些标签的置信度可以比针对所述第一训练样本集的所述预定标签的平均准确度或这些标签的置信度更好。因此,预定标签y的准确度是y偏离对应精确标签y
*
的偏离度量。额外地或替代地,可以认为:与第一训练样本集相比,对于第二训练样本集来说,准确的标签预测会更重要。例如,第二
训练样本集可以对应于示出病症(例如,出血或疾病)的图像,而第一训练样本集可以对应于未示出这种病症的图像。可以认为:假阴性率很小(即,未检测到现有疾病的概率很小)很重要。同时,假阳性可以不是关键性内容。因此,会希望具有准确的标签预测,特别是对于第二训练样本集。
13.可以通过关于神经网络的权重向量w减小代价函数来完成对神经网络的训练。因此,代价函数可以是神经网络的权重向量的函数,并且可以通过搜索使代价函数最小化的权重向量来训练神经网络。通过训练样本对代价函数进行参数化。代价函数可以是第一部分与第二部分的总和。
14.所述代价函数的所述第一部分取决于所述第一训练样本集。代价函数的第一部分可以基于第一标签预测误差度量可以针对第一训练样本集的训练样本来评价该第一标签预测误差度量。第一标签预测误差度量可以是训练样本的预定标签y与由神经网络基于训练样本的特征向量x预测的标签之间的偏差度量。例如,代价函数的第一部分可以是或者可以基于针对第一训练样本集的第一标签预测误差度量的平均值。因此,代价函数的第一部分可以基于针对第一训练样本集的平均预测性能,该平均预测性能是借助于第一标签预测误差度量来测量的。第一标签预测误差度量优选几乎在任何地方都是能区分的。此外,当f(x;w)强烈偏离y时,a1(y,f(x;w))关于w的梯度范数优选很大。
15.所述代价函数的所述第二部分取决于训练样本的所述第一子集。因此,第一子集包括训练样本(x,y),这些训练样本也被包括在第二训练样本集中。第一子集可以是第二训练样本集的适当子集,或者第一子集可以等于第二训练样本集。代价函数的第二部分可以基于第二标签预测误差度量可以针对训练样本的第一子集的训练样本来评价该第二标签预测误差度量。第二标签预测误差度量可以是训练样本的预定标签y与由神经网络基于训练样本的特征向量x预测的标签之间的偏差度量。例如,代价函数的第二部分可以是或者可以基于针对第一训练样本集的第二标签预测误差度量的平均值。因此,代价函数的第二部分可以基于针对第一训练样本集的平均预测性能,该平均预测性能是借助于第二标签预测误差度量来测量的。第二标签预测误差度量优选几乎在任何地方都是能区分的。此外,当f(x;w)强烈偏离y时,a2(y,f(x;w))关于w的梯度范数优选很大。
16.第一标签预测误差度量与第二标签预测误差度量可以是相同的,但是对于代价函数的第一部分和第二部分也可以使用不同的标签预测误差度量。例如,第一标签预测误差度量可以基于交叉熵函数(cross entropy function),而第二标签预测误差度量可以基于soft-dice损失函数(soft-dice loss function)。
17.针对训练样本的第一子集的神经网络的平均预测性能优选是针对训练样本的第一子集的标签预测误差度量的平均值。用户可以直观地确定针对训练样本的第一子集的神经网络的平均预测性能的上限。这是可能的,特别是当能够直观地解读第二标签预测误差度量的值时。替代地,针对训练样本的第一子集的平均预测性能的上限可以基于监管规范。此外,第二训练样本集可以基于监管规范。上限可以是用户
基于来自数据处理系统的请求而提供的输入,可以从计算机可读存储介质中加载该上限,也可以从远程服务器下载该上限。替代地,可以自动或半自动地确定针对训练样本的第一子集的神经网络的平均预测性能的上限。例如,可以使用预训练的训练样本集来预训练神经网络。经预训练的训练样本集可以是第二训练样本集的另一子集。优选地,经预训练的训练样本集和训练样本的第一子集是不相交的。然后,可以使用第二标签预测误差度量来确定针对训练样本的第一子集的经预训练的神经网络的平均预测性能。该平均预测性能可以是或者可以用于确定针对训练样本的第一子集的神经网络的平均预测性能的上限。
18.代价函数的第二部分取决于针对训练样本的第一子集的神经网络的平均预测性能的上限。代价函数的第二部分可以被配置为使得:当针对训练样本的第一子集的平均预测性能超过上限时,该第二部分会急剧增大。因此,代价函数的第二部分被配置用于防止针对训练样本的第一子集的平均预测性能超过上限。
19.此外,当针对训练样本的第一子集的神经网络的平均预测性能不超过上限时,代价函数的第二部分可以被设置为零。因此,代价函数的第二部分可以被配置为防止使代价函数最小化而导致神经网络的权重过度拟合到训练样本的第一子集的训练样本。
20.神经网络被配置用于医学图像分析。特别地,神经网络可以被配置用于解剖结构检测、对医学图像的语义分割、对医学图像的分类、计算机辅助诊断、对生物标志物检测和/或定位,或对医学图像的质量评估。
21.因此,在示例中,神经网络被配置用于计算机辅助诊断。特别地,神经网络可以被配置用于对计算机断层摄影(ct)图像中的肺结节进行检测和/或分类。可以根据胸部ct图像和从临床常规报告中提取的对应注释来构建第一训练样本集。可以通过仅考虑活检已经证实了放射科医生做出的肺结节检测和/或分类的情况来构建第二训练样本集。因此,与第一训练样本集的训练样本的标签相比,第二训练样本集的训练样本的标签可以更可靠。第二标签预测误差度量可以是所预测的结节界定框的soft-dice损失函数。然后,针对训练样本的第一子集的神经网络的平均预测性能的上限可以对应于已证实的肺结节的最大允许位置误差。
22.由于训练神经网络以用于例如对ct图像中的肺结节进行检测和/或分类会需要大量的训练样本,因此可以将已经训练的神经网络部署到诊所,并且可以通过结合来自诊所的报告的结节的注释在线学习由诊所内的放射科医生读取的图像来进一步提高神经网络。在传统的神经网络训练方法的情况下,在线学习承受着由于过度拟合而导致神经网络的预测性能连续降低的风险。为了减轻这种风险,可以应用根据本发明的方法。因此,当新的训练样本变得可用时,可以更新神经网络的权重向量。因此,第一训练样本集和/或第二训练样本集可以随时间扩展。训练样本的第一子集可以保持固定,并且用于训练神经网络的方法可以确保:当第一训练样本集和/或第二训练样本集扩展时,在训练样本的固定第一子集上的平均预测性能不会降低。因此,用于训练神经网络的方法可以允许明确控制针对训练样本的固定子集的平均预测性能,这优选包括准确的预定标签。
23.计算机辅助诊断通常是高度挑战性的,因为很难获得具有准确的预定标签的训练样本。例如,检测胸部x射线图像中的结核病对于放射科医生来说(特别是对于经验不足的放射科医生来说)能够具有挑战性。让多个读者注释同一图像集通常会导致注释中的读者
间高度变化,这使得很难使用它们来训练神经网络。在这种情形中,第二训练样本集可以包括多个或所有读者为其提供了一致的预定标签的训练样本。额外地或替代地,第二训练样本集可以包括由训练有素且经验丰富的专家提供的训练样本。第一训练样本集可以包括由经验不足的读者提供的训练样本。
24.在另一示例中,神经网络可以被配置用于对复杂解剖结构进行分割。生成用于训练神经网络以对医学图像进行语义分割的训练样本会是耗时且昂贵的,尤其是当不得不逐体素标记目标解剖结构时。出于以下原因,生成训练样本会很复杂、耗时且昂贵:首先,感兴趣解剖结构可能具有复杂的几何形状,该复杂的几何形状具有许多微小但重要的细节,这会阻碍对注释流程的自动辅助。针对这种解剖结构的示例是磁共振(mr)图像中的肠道,其中,注释肠道的所有弯曲和褶皱会相当费神。其次,除非人员经验丰富,否则会很难识别图像中的解剖结构。这种情形通常发生在x射线成像的背景下,其中,解剖结构在投影中交叠,例如,构成腕部的骨骼发生交叠。因此,需要很多经验和解剖结构知识来解构交叠的结构。可以通过应用传统的自动分割算法(例如,基于模型的分割)来获得第一训练样本集。可以通过手动注释或手动校正由传统的自动分割算法提供的训练样本来构建第二训练样本集。
25.在另一示例中,所述代价函数的所述第二部分取决于针对训练样本的所述第一子集的所述平均预测性能与针对训练样本的所述第一子集的所述平均预测性能的所述上限之间的差异。
26.因此,代价函数可以被表示为其中,c1(w)是代价函数的第一部分,是代价函数的第二部分,是针对训练样本的第一子集的平均预测性能,并且ε是针对训练样本的第一子集的平均预测性能的上限。特别地,可以是针对训练样本的第一子集的第二标签预测误差度量的平均值。
27.在简单的情况下,代价函数的第二部分可以被表示为:当时,时,否则,因此,可以对的值进行罚分,而的值可以被认为是不加批判的。通过选择足够大的ε,可以防止将神经网络过度拟合到训练样本的第一子集。
28.在另一示例中,所述代价函数的所述第二部分还取决于正权重。
29.例如,代价函数的第二部分可以被表示为:当时,否则,因此,λ是正权重。因此,代价函数可以对应于优化问题的拉格朗日,该优化问题使受到的约束的c1(w)最小化。
30.增大权重λ会引起对大于ε的的值的更强罚分。对于第一权重λ,最小化或减小代价函数会导致不可接受的大值。在这种情况下,可以使用第二权重λ来重复对代价函数的最小化或减小,该第二权重λ可以大于第一权重,并且可以得到较小的值。此外,可以迭代地增大权重λ,直到可以接受针对训练样本的第一子集的平均预测性能为止。例如,可以迭代地增大权重λ,直到针对训练样本的第一子集的平均预测性能优于阈值性能为止,该阈值性能可以是或者可以基于针对训练样本的第一子集的平均预测性能的上限ε。
31.在另一示例中,所述代价函数的所述第二部分取决于针对训练样本的所述第一子集的所述平均预测性能与针对训练样本的所述第一子集的所述平均预测性能的所述上限
之间的所述差异的幂,其中,所述幂可以严格大于一。
32.例如,代价函数的第二部分可以被表示为:当时,否则,因此,幂p可以严格大于一。通过选择严格大于一的幂p,可以减小针对小于的正值的罚分。由于针对训练样本的第一子集的平均预测性能的上限ε可以基于粗略估计,因此选择严格大于一的幂可以提供与对上限ε的不恰当选择相比提高的鲁棒性。同时,选择严格大于一的幂p使得增大对大于一的的值的罚分。因此,可以使用p》1的幂来防止的值的罚分。因此,可以使用p》1的幂来防止的大的正值。
33.在另一示例中,代价函数的第二部分包括针对训练样本的第一子集的平均预测性能与针对训练样本的第一子集的平均预测性能的上限之间的差异的多项式函数或分段多项式函数。例如,当时,代价函数的第二部分可以为零,并且当时,代价函数的第二部分可以包括针对训练样本的第一子集的平均预测性能与针对训练样本的第一子集的平均预测性能的上限之间的差异的线性项和二次项。因此,的小的正值和大的正值都会被强烈罚分。结果,可以在权重λ上使用几次迭代来实现可接受的值。因此,计算复杂度会降低,这会有助于较大深度的神经网络。优选地,代价函数的第二部分是针对训练样本的第一子集的平均预测性能与针对训练样本的第一子集的平均预测性能的上限之间的差异的正向半定函数。
34.在另一示例中,所述代价函数的所述第一部分基于第一标签预测误差度量,所述代价函数的所述第二部分基于第二标签预测误差度量,并且所述第一标签预测误差度量和所述第二标签预测误差度量不是彼此的仿射函数。
35.例如,第二标签预测误差度量可以被选择为使得能够直观地确定针对训练样本的第一子集的神经网络的平均预测性能的上限。例如,对于语义图像分割应用,第二标签预测误差度量可以基于soft-dice损失函数。
36.相比之下,第一标签预测误差度量可以被选择为使得用于训练神经网络的方法相对于第一训练样本集的预定标签中的大误差具有鲁棒性。额外地或替代地,第一标签预测误差度量可以被选择为使得能够以计算高效的方式评价代价函数的第一部分或其相对于权重向量w的梯度。例如,对于语义图像分割应用,第一标签预测误差度量可以基于交叉熵函数。
37.第一标签预测误差度量和第二标签预测误差度量不是彼此的仿射函数。特别地,第一标签预测误差度量和第二标签预测误差度量不是彼此的缩放版本。
38.在另一示例中,所述代价函数的所述第一部分还取决于来自所述第二训练样本集的训练样本的第二子集。
39.训练样本的第二子集可以是第二训练样本集的适当子集,或者第二子集可以与第二训练样本集完全相同。训练样本的第一子集和第二子集可以是不相交的,或者这些子集可以在一个或多个训练样本处相交。特别地,训练样本的第一子集和第二子集可以是完全相同的。代价函数的第一部分对训练样本的第二子集的依赖性可以是有益的,因为它可以提供针对第二训练样本集的训练样本的标签预测误差的罚分,即使当时(即,当针对训练样本的第一子集的平均预测性能小于上限ε时)也是如此。
40.在另一示例中,使用梯度下降算法来迭代地减小代价函数,其中,迭代包括从所述
第一训练样本集中抽取第一微型批次(first mini-batch)并且基于所述第一微型批次来计算所述代价函数的所述第一部分的近似梯度,并且/或者,其中,所述迭代包括从训练样本的所述第一子集中抽取第二微型批次并且基于所述第二微型批次来计算所述代价函数的所述第二部分的近似梯度。
41.训练样本集(尤其是第一训练样本集)的基数可以是巨大的。因此,应用梯度下降法、最陡下降法或牛顿法来关于权重向量w减小代价函数会导致负担不起的高计算复杂度。为了降低计算复杂度,可以应用随机优化法。例如,可以应用随机梯度下降法。因此,可以迭代地减小代价函数,每次迭代都提供对权重向量w的更新。在后续内容中,用于更新权重向量w的迭代也被称为优化步骤。
42.在每个优化步骤中,可以从第一训练样本集中抽取第一微型批次。在本文中,第一微型批次可以是来自第一训练样本集的小子集。可以从第一训练样本集中随机地且独立于先前的优化步骤的微型批次地抽取第一微型批次。替代地,可以根据先前的优化步骤的第一微型批次从第一训练样本集中抽取第一微型批次。
43.类似地,在每个优化步骤中从训练样本的第一子集中抽取第二微型批次。在本文中,第二微型批次可以是来自训练样本的第一子集的小子集。可以从训练样本的第一子集中随机地且独立于先前的优化步骤的微型批次地抽取第二微型批次。替代地,可以根据先前的优化步骤的第二微型批次从训练样本的第一子集中抽取第二微型批次。
44.第一微型批次和第二微型批次可以用于计算代价函数的第一部分和第二部分的近似梯度。可以将近似梯度求和以获得代价函数的近似梯度,该近似梯度可以用于搜索该函数的最小值。
45.在另一示例中,当针对所述第二微型批次的所述神经网络的平均预测性能小于或等于针对训练样本的所述第一子集的所述平均预测性能的所述上限时,所述代价函数的所述第二部分的所述近似梯度被设置为零。
46.如上面所解释的,当时(即,当针对训练样本的第一子集的神经网络的平均预测性能小于或等于上限ε时),代价函数的第二部分可以等于零。可以通过针对训练样本的第二微型批次的神经网络的平均预测性能来近似针对训练样本的第一子集的神经网络的平均预测性能。因此,当针对第二微型批次的神经网络的平均预测性能小于或等于针对训练样本的第一子集的平均预测性能的上限时,代价函数的近似第二部分及其关于w的梯度可以被设置为零。
47.在另一示例中,所述代价函数的所述第一部分还取决于来自所述第二训练样本集的训练样本的第二子集。在这种情况下,用于减小所述代价函数的所述迭代可以包括从所述训练样本的所述第二子集中抽取第三微型批次并且基于所述第三微型批次来计算所述代价函数的所述第一部分的近似梯度。此外,所述第三微型批次的基数除以训练样本的所述第二子集的基数所得的结果可以大于所述第一微型批次的基数除以所述第一训练样本集的基数所得的结果。
48.如上面所解释的,代价函数的第一部分可以取决于来自第二训练样本集的训练样本的第二子集。当使用随机优化法来降低代价函数时,可以在每个优化步骤中从训练样本的第二子集中抽取第三微型批次。第三微型批次可以是训练样本的第二子集的小子集。可以从训练样本的第二子集中随机地且独立于先前的优化步骤的微型批次地抽取第三微型
批次。此外,可以从训练样本的第二子集中独立于第二微型批次地抽取第三微型批次。替代地,可以根据先前的优化步骤的第二微型批次或第三微型批次从训练样本的第二子集中抽取第三微型批次。第二微型批次和第三微型批次也可能在一个或多个训练样本处相交。特别地,第二微型批次和第三微型批次可以完全相同。
49.第一训练样本集的基数可以比第二训练样本集的基数大得多。因此,第一训练样本集的基数也可以比训练样本的第二子集的基数大得多。为了防止代价函数的第一部分由来自第一训练样本集的贡献所主导,第三微型批次中的训练样本相对于训练样本的第二子集中的训练样本的数量的比例可以大于第一微型批次中的训练样本相对于第一训练样本集中的训练样本的数量的比例。换句话说,第三微型批次的基数除以训练样本的第二子集的基数所得的结果可以大于第一微型批次的基数除以第一训练样本集的基数所得的结果。例如,可以以平衡的方式分别从第一训练样本集和训练样本的第二子集中抽取第一微型批次和第三微型批次,即,第一微型批次和第三微型批次可以包含相同数量的训练样本。
50.在另一示例中,可以通过以下操作来增大所述第二训练样本集的基数:从所述第二训练样本集中选择训练样本,变换所选择的训练样本,并且将经变换的训练样本包括在所述第二训练样本集中。因此,变换所选择的训练样本包括:采集所选择的训练样本的图像,变换所采集的图像,生成指示经变换的图像的特征向量,并且根据所采集的图像的所述变换来调整所选择的训练样本的预定标签。
51.如上面所指出的,训练样本的特征向量可以包括原始图像数据。在这种情况下,变换所选择的训练样本可以包括变换图像以及根据图像的变换来调整所选择的训练样本的预定标签。经变换的训练样本可以包括作为特征向量的经变换的图像以及所调整的标签。
52.当训练样本的特征向量包括根据原始图像数据导出的特征时,变换所选择的训练样本可以包括采集原始图像数据。随后,可以变换图像,可以根据经变换的图像来导出特征向量,并且可以根据图像的变换来调整所选择的训练样本的预定标签。在这种情况下,经变换的训练样本可以包括根据经变换的图像导出的特征向量以及所调整的标签。
53.在这两种情况下,图像的变换都可以包括例如对在图像上描绘的一个或多个对象的旋转、平移和/或弹性形变。因此,这种变换可以用于增强第二训练样本集。
54.需要强调的是,在上文和下文中描述的发明并不涉及、包括或涵盖有创步骤,而有创步骤将表示对患者身体的实质性物理介入,这要求具有专业的医学专业知识,并且即使在具有所要求的专业护理和专业知识时也会产生实质性健康风险。特别地,本发明并不包括任何手术或治疗活动。相反,本发明适用于任何无创医学应用并且仅与数据处理方法有关。出于这种原因,在执行本发明时并不需要或暗示任何手术或治疗活动,特别是并不需要或暗示任何手术或治疗步骤。
55.根据本公开内容,还提出了一种数据处理系统。所述数据处理系统被配置为执行根据本发明的方法中的任一种方法的步骤。
56.数据处理系统可以包括用于存储第一训练样本集和第二训练样本集的存储介质。数据处理系统还可以包括处理器,例如,具有一个或多个处理器内核的微处理器。另外,数据处理系统可以包括图形处理单元,该图形处理单元可以用于高效计算用于训练神经网络的方法的一个或多个步骤。数据处理系统还可以包括通信手段,例如,lan、wlan或蜂窝通信调制解调器。数据处理系统可以被连接到一个或多个服务器,这一个或多个服务器可以存
储训练样本或者可以运行用于训练神经网络的方法的一个或多个步骤。此外,数据处理系统可以包括外围设备,例如,屏幕。
57.根据本公开内容,还提出了一种计算机程序,其中,所述计算机程序包括指令,当所述计算机程序在根据独立权利要求所述的数据处理系统上运行时,所述指令用于使所述数据处理系统运行根据本发明的方法中的任一种方法。
58.根据本公开内容,还提出了一种计算机可读介质,其中,所述计算机可读介质存储根据独立权利要求所述的计算机程序。
59.应当理解,用于对人工神经网络进行有监督的训练以用于医学图像分析的计算机实施的方法、被配置为执行该方法的步骤的数据处理系统、用于使该数据处理系统运行该方法的计算机程序,以及存储了这种计算机程序的计算机可读介质具有相似和/或相同的优选实施例,特别是在从属权利要求中定义的优选实施例。还应当理解,本发明的优选实施例也能够是从属权利要求与相应的独立权利要求的任何组合。
60.参考下文描述的实施,本发明的这些方面和其他方面将变得显而易见并且得到阐明。
附图说明
61.在下文中将参考附图来描述本发明的示例性实施例:
62.图1示出了用于训练人工神经网络以用于医学图像分析的计算机实施的方法的示例的基本步骤。
63.图2示出了用于减小代价函数的计算机实施的方法的示例的基本步骤。
具体实施方式
64.图1示出了用于训练人工神经网络以用于医学图像分析的计算机实施的方法100的示例的基本步骤。方法100包括以下步骤:
65.在第一步骤s1中,采集第一训练样本集和第二训练样本集。优选地,第一训练样本集和第二训练样本集的每个训练样本包括指示医学图像的特征向量x以及相关联的预定标签y。可以手动确定预定标签,并且可以将预定标签视为用于对神经网络的训练的实际情况。例如,可以通过从计算机可读存储介质中加载这些集合或通过从远程服务器下载这些集合来采集第一训练样本集和第二训练样本集。针对第二训练样本集的预定标签的平均准确度或这些标签的置信度比针对第一训练样本集的预定标签的平均准确度或这些标签的置信度更好。
66.在第二步骤s2中,采集针对训练样本的第一子集的神经网络的平均预测性能的上限,其中,训练样本的第一子集是第二训练样本集的子集。针对训练样本的第一子集的神经网络的平均预测性能优选是针对训练样本的第一子集的标签预测误差度量的平均值。用户可以直观地确定针对训练样本的第一子集的神经网络的平均预测性能的上限,也可以从监管规范中得到针对训练样本的第一子集的神经网络的平均预测性能的上限。例如,上限可以是用户基于来自数据处理系统的请求而提供的输入。替代地,可以从计算机可读存储介质中加载该上限,也可以从远程服务器下载该上限。也可以基于对神经网络的预训练和对针对训练样本的第一子集的预训练的神经网络的平均预测性能的后续评价来自
动或半自动地确定针对训练样本的第一子集的神经网络的平均预测性能的上限。
67.在第三步骤s3中,训练神经网络。对神经网络的训练可以包括减小或最小化代价函数c(w),其中,w表示要学习的神经网络的权重向量。通过训练样本对代价函数进行参数化,并且可以将代价函数表示为第一部分与第二部分之和。
68.代价函数的第一部分取决于第一训练样本集。代价函数的第一部分可以是或者可以基于针对第一训练样本集的神经网络的平均预测性能,该平均预测性能是借助于第一标签预测误差度量来测量的。因此,计算代价函数的第一部分可以包括评价针对第一训练样本集的训练样本的第一标签预测误差度量以及对结果求平均。
69.代价函数的第二部分取决于训练样本的第一子集。代价函数的第二部分可以是或者可以基于针对训练样本的第一子集的神经网络的平均预测性能,该平均预测性能是借助于第二标签预测误差度量来测量的。因此,计算代价函数的第二部分可以包括评价针对训练样本的第一子集的训练样本的第二标签预测误差度量以及对结果求平均。代价函数的第二部分还取决于针对训练样本的第一子集的神经网络的平均预测性能的上限。
70.步骤s3可以包括以下步骤:
71.在步骤s3a中,可以对训练参数(例如,权重λ)进行初始化。
72.在步骤s3b中,针对给定的权重λ,可以减小代价函数c(w)。
73.在步骤s3c中,可以确定针对训练样本的第一子集的神经网络的平均预测性能并且将其与阈值性能进行比较。阈值性能可以等于或者可以取决于针对训练样本的第一子集的神经网络的平均预测性能的上限ε。例如,阈值性能可以是上限ε的缩放版本。当针对训练样本的第一子集的神经网络的平均预测性能比阈值性能更差时,权重λ会增大,并且可以利用增大的权重λ来重复步骤s3b。因此,可以增大权重λ,直到针对训练样本的第一子集的神经网络的平均预测性能优于阈值性能为止。另一方面,当针对训练样本的第一子集的神经网络的平均预测性能优于阈值性能时,可以完成对神经网络的训练。
74.任选地,在第四步骤s4中,可以测试经训练的神经网络。因此,可以确定针对测试样本集的经训练的神经网络的平均预测性能。与训练样本相似,每个测试样本可以包括指示医学图像的特征向量x以及预定标签y。测试样本优选具有准确的预定标签y。例如,可以借助于第一标签预测误差度量或第二标签预测误差度量来确定针对测试样本集的经训练的神经网络的平均预测性能。
75.图2示出了用于减小代价函数的计算机实施的方法s3b的示例的基本步骤。
76.在步骤s31中,可以对参数进行初始化。特别地,可以对权重向量w进行初始化。此外,可以确定针对初始权重向量w的代价函数的值。
77.在步骤s32中,可以从第一训练样本集中抽取第一微型批次,可以从训练样本的第一子集中抽取第二微型批次,并且/或者可以从训练样本的第二子集中抽取第三微型批次,训练样本的第二子集是第二训练样本集的子集。
78.在步骤s33中,可以精确计算代价函数的梯度,也可以基于第一微型批次、第二微型批次和/或第三微型批次来近似计算代价函数的梯度。
79.在步骤s34中,可以确定步长。例如,可以借助于反向跟踪线搜索来确定步长。从文献中知晓许多用于确定步长的其他方法。在简单的方法中,步长可以是标量,可以随着权重向量w的每次更新而相继减少步长。
80.在步骤s35中,可以通过利用在步骤s34中确定的步长在梯度下降方向上执行一个步骤来更新权重向量w。
81.在步骤s36中,可以评价停止准则。例如,可以计算针对经更新的权重向量w的代价函数的值,并且可以将代价函数的这个值与针对先前的权重向量的代价函数的值进行比较。可以基于在步骤s32中确定的微型批量来近似确定在当前的优化步骤中对代价函数的减小。例如,当在当前的优化步骤中对代价函数的减小不超过预定阈值时,可以停止用于减小代价函数的方法。否则,可以继续利用步骤s32来执行另一优化步骤。特别地,优化步骤优选包括步骤s32、s33、s34、s35和s36,它们不一定是按照图2所描绘的顺序执行的。
82.必须指出,本发明的实施例是参考不同主题来描述的。然而,除非另有说明,本领域技术人员将从以上和以下的描述中推断出,除属于一种类型的主题的特征的任意组合之外,涉及不同主题的特征之间的任意组合也被认为在本技术中得到公开。然而,所有的特征都能够被组合来提供多于特征的简单加合的协同效应。
83.虽然已经在附图和前面的描述中详细图示和描述了本发明,但是这样的图示和描述应当被认为是图示性或示例性的,而非限制性的。本发明不限于所公开的实施例。本领域技术人员通过研究附图、公开内容以及权利要求,在实践请求保护的发明时能够理解并实现对所公开的实施例的其他变型。
84.在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。单个处理器或其他单元可以实现在权利要求中记载的若干项的功能。虽然某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。权利要求中的任何附图标记都不应被解释为对范围的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献