一种图像识别方法、装置、设备及存储介质与流程

2022-11-19 08:36:22 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，尤其涉及一种图像识别方法、装置、设备及存储介质。

背景技术：

2.目前，临床医师主要通过计算机断层扫描(ct，computed tomography)图像对肺部疾病进行诊断，ct图像可以显示出肺内部的类圆形病灶，即肺结节；对于一个毫无特征的肺结节，再高明的医师也难以对其病变进行判断，而对于一个特征详尽的肺结节，即使初学者也可以对其病变进行判断，因此，如何根据ct图像识别肺结节征象是人们迫切想要解决的问题。
3.在现有技术中，对肺结节的识别方法主要有：
4.(一)基于卷积神经网络(cnn，convolutional neural networks)和哈希检索对肺结节进行识别，该方法中卷积神经网络随着网络深度加深有网络退化问题，以及梯度消失和梯度爆炸的问题，且哈希检索需要和数据集图像进行对比，识别效率低，另外，该方法如果增加数据集需要重新编哈希码，后续进行模型的更新和改进会有较大难度和工作量；
5.(二)利用3dcnn对肺结节进行识别，该方法仅仅停留在对肺结节的良恶性识别，无法识别出肺结节征象，且不能体现肺结节与血管、肺界面等其他组织的联系，不能为医师提供更多的信息。

技术实现要素：

6.本公开提供了一种图像识别方法、装置、设备及存储介质，以至少解决现有技术中存在的以上技术问题。
7.根据本公开的第一方面，提供了一种图像识别方法，其特征在于，所述方法包括：获取待识别图像；根据分割模型，对所述待识别图像中的肺结节区域进行分割，得到肺结节原图，所述肺结节原图包括肺结节以及肺结节周围区域；根据所述肺结节原图，生成所述肺结节区域对应的肺结节张量；根据识别模型和所述肺结节张量，对所述待识别图像中的肺结节进行识别，得到图像识别结果，所述图像识别结果包括肺结节征象。
8.在一可实施方式中，所述根据所述肺结节原图，生成所述肺结节区域对应的肺结节张量，包括：对所述肺结节原图的hu值进行调整，得到肺结节肺窗图；对所述肺结节原图进行二值化处理，得到肺结节掩码图；对所述肺结节原图、所述肺结节肺窗图和所述肺结节掩码图进行连接，得到所述肺结节张量。
9.在一可实施方式中，所述对所述肺结节原图的hu值进行调整，得到肺结节肺窗图，包括：将所述肺结节原图中大于第一预设阈值的hu值调整为第一预设阈值，并将所述肺结节原图中小于第二预设阈值的hu值调整为第二预设阈值，得到初始肺窗图；对所述初始肺窗图进行归一化处理，得到所述肺结节肺窗图；根据以下公式对所述初始肺窗图进行归一
化处理：其中，n
img
为归一化后的hu值，img为所述初始肺窗图中像素的hu值，α为所述第一预设阈值，β为所述第二预设阈值。
10.在一可实施方式中，根据如下方式得到所述识别模型：获取训练样本集，所述训练样本集包括已经标注肺结节征象的样本肺结节张量；在深度学习模型的全连接层前添加自注意力机制编码器，得到初始模型；根据焦点损失函数和所述训练样本集，对所述初始模型进行训练，得到所述识别模型。
11.在一可实施方式中，所述焦点损失函数的公式如下：
12.l
fl
＝-(1-p
t
)
γ
log(p
t
)，其中，l
fl
为焦点损失，p
t
为评估参数，p
t
反应了该肺结节征象与真实肺结节征象的接近程度，γ为调节因子，γ大于0。
13.在一可实施方式中，所述深度学习模型包括残差网络模型，所述根据识别模型和所述肺结节张量，对所述待识别图像中的肺结节进行识别，得到图像识别结果，包括：根据所述残差网络模型，对所述肺结节张量进行特征提取，得到所述肺结节张量的第一特征图；对所述第一特征图进行自适应池化操作，得到第二特征图；根据所述自注意力机制编码器，对所述第二特征图进行特征提取，得到所述肺结节张量的特征信息；根据所述特征信息和所述全连接层，对所述肺结节张量进行识别，得到所述图像识别结果。
14.在一可实施方式中，所述根据所述残差网络模型，对所述肺结节张量进行特征提取，得到所述肺结节张量的第一特征图，包括：根据所述残差网络模型的卷积层，对所述肺结节张量进行卷积，得到初始特征图；根据所述残差网络模型的残差块，对所述初始特征图进行特征提取，得到所述第一特征图。
15.根据本公开的第二方面，提供了一种图像识别装置，其特征在于，所述装置包括：第一获取模块，用于获取待识别图像；分割模块，用于根据分割模型，对所述待识别图像中的肺结节区域进行分割，得到肺结节原图，所述肺结节原图包括肺结节以及肺结节周围区域；生成模块，用于根据所述肺结节原图，生成所述肺结节区域对应的肺结节张量；识别模块，用于根据识别模型和所述肺结节张量，对所述待识别图像中的肺结节进行识别，得到图像识别结果，所述图像识别结果包括肺结节征象。
16.根据本公开的第三方面，提供了一种电子设备，包括：
17.至少一个处理器；以及
18.与所述至少一个处理器通信连接的存储器；其中，
19.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开所述的方法。
20.根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开所述的方法。
21.本公开的一种图像识别方法、装置、设备及存储介质，根据分割模型，对待识别图像中的肺结节区域进行分割，得到肺结节原图，肺结节原图包括肺结节以及肺结节周围区域，可以体现出肺结节与血管、肺界面等其他组织的联系，之后根据肺结节原图，生成肺结节区域对应的肺结节张量，最后根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别，得到图像识别结果，图像识别结果包括肺结节征象。其中，识别模型可以包括残差网络模型和自注意力机制编码器，残差网络模型不会产生网络退化问题，自注意力机制编
码器可以有效提取肺结节张量中的潜在特征，从而提高识别准确率；其次，识别模型是端到端的方法，运行速度快，可以提高识别效率，而且识别模型整体结构比较简单，后续进行识别模型的更新和改进比较容易；另外，根据已经标注肺结节征象的样本肺结节张量对识别模型进行训练，可以保证识别模型能够识别出肺结节征象，以便医师更好的根据图像识别结果对肺结节进行判断。
22.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
24.在附图中，相同或对应的标号表示相同或对应的部分。
25.图1示出了本公开第一实施例的一种图像识别方法的流程示意图；
26.图2示出了本公开的肺结节征象示意图；
27.图3示出了本公开第二实施例的一种图像识别方法的流程示意图；
28.图4示出了本公开第二实施例的一种图像识别方法的应用场景示意图；
29.图5示出了本公开第四实施例的一种图像识别方法的流程示意图；
30.图6示出了本公开第五实施例的一种图像识别方法的流程示意图；
31.图7示出了本公开第五实施例的一种图像识别方法的应用场景示意图；
32.图8示出了本公开第七实施例的一种图像识别装置的结构示意图；
33.图9示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
34.为使本公开的目的、特征、优点能够更加的明显和易懂，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而非全部实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。
35.图1示出了本公开第一实施例的一种图像识别方法的流程示意图，如图1所示，该方法主要包括：
36.步骤s101，获取待识别图像。
37.在本实施例中，首先需要获取待识别图像，待识别图像包括肺部ct图像，ct图像可以显示出肺内部的类圆形病灶，即肺结节，肺结节通常指直径不超过3cm(厘米)的肺部类圆形病灶，其中，直径不超过2cm的肺结节称为小结节，直径不超过1cm的肺结节称为微结节。对于一个毫无特征的肺结节，再高明的医师也难以对其病变进行判断，而对于一个特征详尽的肺结节，即使初学者也可以对其病变进行判断，因此，需要对待识别图像中的肺结节征象进行识别，肺结节征象可以体现出肺结节形态特征以及肺结节与周围组织信息的联系，准确的肺结节征象可以有效帮助医师对肺结节进行诊断。
38.步骤s102，根据分割模型，对待识别图像中的肺结节区域进行分割，得到肺结节原
图，肺结节原图包括肺结节以及肺结节周围区域。
39.在本实施例中，获取待识别图像之后，需要根据分割模型，对待识别图像中的肺结节区域进行分割，得到肺结节原图，为了更好地体现出肺结节与周围血管、肺界面等其他组织的联系，肺结节原图包括肺结节以及肺结节周围区域。
40.在一可实施方式中，可以根据如下方式得到分割模型：获取样本集，样本集包括已经标注肺结节区域的肺部ct图像，然后将训练样本集输入深度学习模型中进行训练，从而得到分割模型。优选地，深度学习模型可以为特征金字塔网络(fpn，feature pyramid networks)模型。
41.在一可实施方式中，可以将待识别图像输入分割模型，从而对待识别图像中的肺结节进行识别，得到肺结节的矩形包围框，然后将矩形包围框扩大指定倍数，例如1.6倍，之后根据扩大之后的矩形包围框对肺结节区域进行分割，得到肺结节原图。其中，指定倍数可以根据实际情况自行设置，将肺结节的矩形包围框扩大指定倍数是为了使肺结节原图包含肺结节与肺结节周围的其他组织，从而体现出肺结节与周围血管、肺界面等其他组织的联系。
42.在一可实施方式中，得到肺结节原图之后，还可以对肺结节原图进行像素尺度变换，例如，将肺结节原图统一转换成(64，64，64)这样维度的张量；之后还可以对进行像素尺度变换后的肺结节原图进行归一化处理。具体地，可以根据如下公式对肺结节原图进行归一化处理：其中，n
img
为归一化后的肺结节原图中像素的hu值，img为归一化前的肺结节原图中像素的hu值，min(img)为归一化前的肺结节原图中最小的hu值，max(img)为归一化前的肺结节原图中最大的hu值。其中，hu值即ct值，反应了组织对x射线的吸收程度。
43.步骤s103，根据肺结节原图，生成肺结节区域对应的肺结节张量。
44.在本实施例中，得到肺结节原图之后，还需要根据肺结节原图，生成肺结节区域对应的肺结节张量，肺结节张量可以更好地体现出肺结节与肺结节周围组织的信息，后续根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别时，可以得到更加准确的图像识别结果。
45.在一可实施方式中，可以先对肺结节原图的hu值进行调整，得到肺结节肺窗图，然后对肺结节原图进行二值化处理，得到肺结节掩码图，最后将肺结节原图、肺结节肺窗图和肺结节掩码图进行连接，从而得到肺结节张量。
46.步骤s104，根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别，得到图像识别结果，图像识别结果包括肺结节征象。
47.在本实施例中，生成肺结节张量之后，可以根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别，得到图像识别结果，图像识别结果包括肺结节征象。肺结节征象的判断需要将肺结节自身的形态特征与肺结节周围的组织信息进行结合，且某些肺结节征象在临床上也非常少见，因此数据集稀少，这些都导致了肺结节征象的识别非常困难，本实施例中，识别模型由已经标注肺结节征象的训练样本集训练得到，因此根据识别模型，对肺结节张量进行识别，可以识别出肺结节征象。
48.图2示出了本公开的肺结节征象示意图，如图2所示，其中，肺结节征象可以包括血
管穿行2a、毛刺2b、分叶2c、胸膜牵拉/凹陷2d、空泡2e、晕征2f、血管聚集2g、支气管截断2h、空洞2i、胸膜粘连2j、边缘光滑2k、合并钙化2l和支气管穿行2m。需要强调的是，本公开的肺结节征象不仅限于上述十三类，还可以包括其他肺结节征象。
49.在一可实施方式中，识别模型可以先对肺结节张量进行特征提取，得到肺结节的特征信息，然后根据特征信息，对肺结节进行识别，得到图像识别结果。
50.在本公开第一实施例中，根据分割模型，对待识别图像中的肺结节区域进行分割，得到肺结节原图，肺结节原图包括肺结节以及肺结节周围区域，可以体现出肺结节与血管、肺界面等其他组织的联系；之后根据肺结节原图，生成肺结节区域对应的肺结节张量，肺结节张量可以更好地体现出肺结节与肺结节周围组织的信息，后续根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别时，可以得到更加准确的图像识别结果；最后根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别，得到图像识别结果，图像识别结果包括肺结节征象，便于医师更好地根据图像识别结果对肺结节进行判断。
51.图3示出了本公开第二实施例的一种图像识别方法的流程示意图，如图3所示，步骤s103主要包括：
52.步骤s201，对肺结节原图的hu值进行调整，得到肺结节肺窗图；
53.在本实施例中，首先需要对肺结节原图添加肺窗，即对肺结节原图的hu值进行调整，得到肺结节肺窗图，肺结节肺窗图可以突显出肺部信息，便于后续识别模型只专注于肺部信息，不需要关心与肺部无关的信息。
54.在一可实施方式中，可以将肺结节原图的hu值调整至指定区间，即将肺结节原图中大于指定区间最大值的hu值调整为指定区间最大值，将肺结节原图中小于指定区间最小值的hu值调整为指定区间最小值，肺结节原图中在指定区间内的hu值不变，从而得到肺结节肺窗图。
55.步骤s202，对肺结节原图进行二值化处理，得到肺结节掩码图；
56.在本实施例中，还需要对肺结节原图进行二值化处理，得到肺结节掩码图，肺结节掩码图中肺结节对应的像素值为1，除肺结节以外的其他区域对应的像素值为0，肺结节掩码图便于后续识别模型可以得到肺结节所处的具体位置。
57.在一可实施方式中，对肺结节原图进行二值化处理的方法可以为双峰法、最大类间方差法、最大熵阈值法和最佳阈值法等，本公开不对二值化处理方法进行限定。
58.步骤s203，对肺结节原图、肺结节肺窗图和肺结节掩码图进行连接，得到肺结节张量。
59.在本实施例中，得到肺结节肺窗图和肺结节掩码图之后，还需要对肺结节原图、肺结节肺窗图和肺结节掩码图进行连接，从而得到肺结节张量，肺结节张量包含了可以体现出肺结节形态特征的肺结节原图、可以突显出肺部信息的肺结节肺窗图和可以体现出肺结节具体位置的肺结节掩码图，因此，后续利用识别模型和肺结节张量对待处理图像的肺结节进行识别，可以提高图像识别结果的准确率。
60.图4示出了本公开第二实施例的一种图像识别方法的应用场景示意图，如图4所示，其中，4a为待识别图像，4b为肺结节原图，4c为肺结节肺窗图，4d为肺结节掩码图，将肺结节原图4b、肺结节肺窗图4c和肺结节掩码图4d连接在一起，即可得到肺结节张量。
61.在本公开第二实施例中，通过对肺结节原图的hu值进行调整，得到肺结节肺窗图，
以及对肺结节原图进行二值化处理，得到肺结节掩码图，并对肺结节原图、肺结节肺窗图和肺结节掩码图进行连接，得到肺结节张量，肺结节张量包含了可以体现出肺结节形态特征的肺结节原图、可以突显出肺部信息的肺结节肺窗图和可以体现出肺结节具体位置的肺结节掩码图，因此，后续利用识别模型和肺结节张量对待处理图像的肺结节进行识别，可以提高图像识别结果的准确率。
62.在本公开第三实施例中，步骤s201主要包括：将肺结节原图中大于第一预设阈值的hu值调整为第一预设阈值，并将肺结节原图中小于第二预设阈值的hu值调整为第二预设阈值，得到初始肺窗图；对初始肺窗图进行归一化处理，得到肺结节肺窗图；根据以下公式对初始肺窗图进行归一化处理：其中，n
img
为归一化后的hu值，img为初始肺窗图中像素的hu值，α为第一预设阈值，β为第二预设阈值。
63.在本实施例中，根据hu值对肺结节原图添加肺窗，将肺结节原图中大于第一预设阈值的hu值调整为第一预设阈值，并将肺结节原图中小于第二预设阈值的hu值调整为第二预设阈值，即将肺结节原图的hu值调整至第一预设阈值和第二预设阈值之间，从而得到初始肺窗图，其中，第二预设阈值小于第一预设阈值，然后对初始肺窗图进行归一化处理，从而得到肺结节肺窗图。
64.在一可实施方式中，可以根据以下公式对初始肺窗图进行归一化处理：其中，n
img
为归一化后的hu值，即肺结节肺窗图中像素的hu值，img为初始肺窗图中像素的hu值，α为第一预设阈值，β为第二预设阈值。
65.在一可实施方式中，若第一预设阈值为150，第二预设阈值为-1350，则将肺结节原图中hu值大于150的像素对应的hu值调整为150，将肺结节原图中hu值小于-1350的像素对应的hu值调整为-1350，肺结节原图中hu值位于-1350至150之间的像素对应的hu值不变，从而得到初始肺窗图，得到初始肺窗图之后，还可以对该初始肺窗图进行像素尺度变换，例如，将该初始肺窗图统一转换成(64，64，64)这样维度的张量，之后可以对进行像素尺度变换之后的初始肺窗图进行归一化，得到肺结节肺窗图，可以根据以下公式对该初始肺窗图进行归一化处理：其中，n
img
为归一化后的hu值，即肺结节肺窗图中像素的hu值，img为初始肺窗图中像素的hu值。
66.在本公开第三实施例中，根据hu值对肺结节原图添加肺窗后，即将肺结节原图的hu值调整至第一预设阈值和第二预设阈值之间后，得到初始肺窗图，然后利用初始肺窗图中肺窗的上下限，即第一预设阈值和第二预设阈值，代替初始肺窗图中hu值的最大值和最小值来进行归一化，这样可以使得肺结节肺窗图包含着相对真实的hu值，从而更好地突显出肺部信息。
67.图5示出了本公开第四实施例的一种图像识别方法的流程示意图，如图5所示，通过如下方式得到识别模型：
68.步骤s301，获取训练样本集，训练样本集包括已经标注肺结节征象的样本肺结节张量。
69.在本实施例中，首先需要获取训练样本集，训练样本集包括已经标注肺结节征象
的样本肺结节张量，标注的肺结节征象可以为如图2所示的血管穿行2a、毛刺2b、分叶2c、胸膜牵拉/凹陷2d、空泡2e、晕征2f、血管聚集2g、支气管截断2h、空洞2i、胸膜粘连2j、边缘光滑2k、合并钙化2l和支气管穿行2m，也可以为其他肺结节征象。需要强调的是，一个样本肺结节张量可能对应多种肺结节征象，在标注时可以将样本肺结节张量对应的多种肺结节征象全部标注。
70.步骤s302，在深度学习模型的全连接层前添加自注意力机制编码器，得到初始模型。
71.在本实施例中，需要对深度学习模型进行改造，即在深度学习模型的全连接层前添加自注意力机制编码器，从而得到初始模型。其中，自注意力机制是transformer模型的重要组成部分，该机制将一个序列不同部分联系起来以计算序列的表示，自注意力机制可以更好地捕捉全局信息，且模型复杂度低；自注意力机制编码器能够将输入压缩成潜在空间表征，学习潜在的特征。优选地，深度学习模型可以为残差网络模型。
72.步骤s303，根据焦点损失函数和训练样本集，对初始模型进行训练，得到识别模型。
73.在本实施例中，还需要根据焦点损失函数(focal loss)和训练样本集，对初始模型进行训练，从而得到识别模型。由于在训练过程中初始模型对有些肺结节征象难以学习，而且某些肺结节征象在临床中比较少见，导致训练样本不均衡，而焦点损失函数可以有效学习较难的肺结节征象，并解决训练样本不均衡的问题。
74.在一可实施方式中，焦点损失函数的公式如下：l
fl
＝-(1-p
t
)
γ
log(p
t
)，其中，l
fl
为焦点损失，p
t
为评估参数，p
t
反应了该肺结节征象与真实肺结节征象的接近程度，p
t
越大分类越准确，γ为调节因子，γ大于0。优选地，可以取γ＝2。一般的交叉熵损失函数(cross-entropy loss)的公式为：l
ce
＝-log(p
t
)，可见，焦点损失函数相比于一般的交叉熵损失函数多了一个调制因子(modulating factor)，即(1-p
t
)
γ
，对于分类准确的训练样本，其p
t
趋近于1，因此调制因子接近于0；对于分类不准确的训练样本，其1-p
t
趋近于1，因此调制因子接近于1，也就是说，相比于交叉熵损失函数，焦点损失函数对于分类不准确的训练样本，损失没有改变，对于分类准确的训练样本，损失会变小，相当于增加了分类不准确训练样本在损失函数中的权重，使得焦点损失函数倾向于难以学习的训练样本，从而提高对于难以学习的训练样本的识别准确率。
75.在本公开第四实施例中，在深度学习模型的全连接层前添加自注意力机制编码器作为初始模型，并利用焦点损失函数和训练样本集对初始模型进行训练，从而得到识别模型，识别模型是端到端的方法，运行速度快，可以提高识别效率，而且识别模型整体结构比较简单，后续进行识别模型的更新和改进比较容易；其次，引入的焦点损失函数倾向于难以学习的训练样本，从而提高对于难以学习的训练样本的识别准确率，因此，识别模型总体的准确率和召回率有很大提升；另外，根据已经标注肺结节征象的样本肺结节张量对识别模型进行训练，可以保证识别模型能够识别出肺结节征象，以便医师更好的根据图像识别结果对肺结节进行判断。
76.图6示出了本公开第五实施例的一种图像识别方法的流程示意图，如图6所示，步骤s302中的深度学习模型包括残差网络模型，步骤s104主要包括：
77.步骤s401，根据残差网络模型，对肺结节张量进行特征提取，得到肺结节张量的第
一特征图。
78.步骤s402，对第一特征图进行自适应池化操作，得到第二特征图。
79.在本实施例中，识别模型中的深度学习模型部分可以为残差网络模型，残差网络模型是一种卷积神经网络模型，其特点是容易优化，并且能够通过增加相当的深度来提高准确率，残差网络模型内部的残差块使用了跳跃连接，缓解了在深度神经网络模型中增加深度带来的梯度消失问题。优选地，残差网络模型可以为resnet18网络模型。
80.在一可实施方式中，将肺结节张量输入至识别模型中进行识别时，首先根据残差网络模型，对肺结节张量进行特征提取，得到肺结节张量的第一特征图，为了使第一特征图的维度和大小可以适应自注意力机制编码器的输入，还需要对第一特征图进行自适应池化操作，即对第一特征图的维度和大小进行调整，从而得到第二特征图。具体地，可以根据残差网络模型中的卷积层和残差块对肺结节张量进行特征提取，得到第一特征图。
81.步骤s403，根据自注意力机制编码器，对第二特征图进行特征提取，得到肺结节张量的特征信息。
82.在本实施例中，还需要根据自注意力机制编码器，对第二特征图进行特征提取，从而得到肺结节张量的特征信息，自注意力机制编码器的降维能力，能够学习第二特征图潜在的特征，更好地获取肺结节张量的全局信息。具体地，自注意力机制编码器的头数可以为1，并采用2层编码器块，其中，编码器块可以用于从第二特征图中提取肺结节张量的特征信息。
83.步骤s404，根据特征信息和全连接层，对肺结节张量进行识别，得到图像识别结果。
84.在本实施例中，提取到肺结节张量的特征信息之后，可以将特征信息输入至全连接层中进行识别，从而得到图像识别结果。具体地，全连接层可以根据肺结节张量的特征信息，对该肺结节张量对应的肺结节进行分类，从而确定该肺结节对应的肺结节征象。
85.图7示出了本公开第五实施例的一种图像识别方法的应用场景示意图，如图7所示，若识别模型中的深度学习模型部分为残差网络模型，则根据待识别图像得到肺结节区域对应的肺结节张量；然后将肺结节张量输入残差网络模型进行特征提取，得到第一特征图，并对第一特征图进行自适应池化操作，得到第二特征图；将第二特征图输入自注意力机制编码器，得到肺结节张量的特征信息，然后将特征信息输入全连接层进行识别，得到图像识别结果，图像识别结果包括肺结节征象。
86.在本公开第五实施例中，识别模型中的深度学习模型部分可以为残差网络模型，残差网络模型是一种卷积神经网络模型，其特点是容易优化，并且能够通过增加相当的深度来提高准确率，残差网络模型内部的残差块使用了跳跃连接，缓解了在深度神经网络模型中增加深度带来的梯度消失问题；而残差网络模型与能够学习肺结节张量全局信息的自注意力机制编码器结合，对待识别图像中的肺结节进行识别，可以提高识别效率和识别准确率。
87.在本公开第六实施例中，步骤s401主要包括：根据残差网络模型的卷积层，对肺结节张量进行卷积，得到初始特征图；根据残差网络模型的残差块，对初始特征图进行特征提取，得到第一特征图。
88.在本实施例中，输入至残差网络模型的肺结节张量首先经过一个卷积层，该卷积
层对肺结节张量进行卷积，可以得到初始特征图，初始特征图会经过残差网络模型的残差块，该残差块对初始特征图进行特征提取，得到第一特征图。
89.在一可实施方式中，若残差网络模型为resnet18模型，肺结节张量的维度是(3，64，64，64)，卷积层的3d卷积核尺寸是(7，7，7)，步长是(2，2，2)，则肺结节张量经过该卷积层之后得到的初始特征图的维度为(64，16，16，16)，之后初始特征图会经过残差网络模型的四个残差块，每个残差块包括两个(3，3，3)卷积层，经过四个残差块之后，得到的第一特征图的维度为(512，2，2，2)。具体地，残差网络模型的卷积层数和残差块数可以根据实际情况进行改变，且可以在resnet18模型中的卷积层后以及四个残差块之间添加批归一化层，从而防止梯度消失和梯度爆炸。
90.在一可实施方式中，若对识别模型进行训练时引入了如图2所示的血管穿行2a、毛刺2b、分叶2c、胸膜牵拉/凹陷2d、空泡2e、晕征2f、血管聚集2g、支气管截断2h、空洞2i、胸膜粘连2j、边缘光滑2k、合并钙化2l和支气管穿行2m共十三种肺结节征象，且自注意力机制编码器的输入为512维，则经过自注意力机制编码器和全连接层后会输出一个13维的向量，该向量显示了十三种肺结节征象是否在该肺结节中存在。优选地，十三种肺结节征象分类可以是13个二分类，即对于每一个肺结节征象，均判断该肺结节中是否存在该肺结节征象，这样可以有效降低训练难度，并显著提高识别准确率。
91.在本公开第六实施例中，根据残差网络的卷积层和残差块，对肺结节张量进行特征提取，从而得到第一特征图，残差网络模型内部的残差块使用了跳跃连接，缓解了在深度神经网络模型中增加深度带来的梯度消失问题。
92.图8示出了本公开第七实施例的一种图像识别装置的结构示意图，如图8所示，该装置主要包括：第一获取模块80，用于获取待识别图像；分割模块81，用于根据分割模型，对待识别图像中的肺结节区域进行分割，得到肺结节原图，肺结节原图包括肺结节以及肺结节周围区域；生成模块82，用于根据肺结节原图，生成肺结节区域对应的肺结节张量；识别模块83，用于根据识别模型和肺结节张量，对待识别图像中的肺结节进行识别，得到图像识别结果，图像识别结果包括肺结节征象。
93.在一可实施方式中，生成模块82主要包括：调整子模块，用于对肺结节原图的hu值进行调整，得到肺结节肺窗图；二值化处理子模块，用于对肺结节原图进行二值化处理，得到肺结节掩码图；连接子模块，用于对肺结节原图、肺结节肺窗图和肺结节掩码图进行连接，得到肺结节张量。
94.在一可实施方式中，调整子模块主要包括：调整单元，用于将肺结节原图中大于第一预设阈值的hu值调整为第一预设阈值，并将肺结节原图中小于第二预设阈值的hu值调整为第二预设阈值，得到初始肺窗图；归一化处理单元，用于对初始肺窗图进行归一化处理，得到肺结节肺窗图；归一化处理单元根据以下公式对初始肺窗图进行归一化处理：其中，n
img
为归一化后的hu值，img为初始肺窗图的hu值，α为第一预设阈值，β为第二预设阈值。
95.在一可实施方式中，该装置还包括：第二获取模块，用于获取训练样本集，训练样本集包括已经标注肺结节征象的样本肺结节张量；添加模块，用于在深度学习模型的全连接层前添加自注意力机制编码器，得到初始模型；训练模块，用于根据焦点损失函数和训练
样本集，对初始模型进行训练，得到识别模型，焦点损失函数的公式如下：l
fl
＝-(1-p
t
)
γ
log(p
t
)，其中，l
fl
为焦点损失，p
t
为评估参数，p
t
反应了该肺结节征象与真实肺结节征象的接近程度，γ为调节因子，γ大于0。
96.在一可实施方式中，深度学习模型包括残差网络模型，识别模块83主要包括：第一特征提取子模块，用于根据残差网络模型，对肺结节张量进行特征提取，得到肺结节张量的第一特征图；池化子模块，用于对第一特征图进行自适应池化操作，得到第二特征图；第二特征提取子模块，用于根据自注意力机制编码器，对第二特征图进行特征提取，得到肺结节张量的特征信息；识别子模块，用于根据特征信息和全连接层，对肺结节张量进行识别，得到图像识别结果。
97.在一可实施方式中，第一特征提取子模块主要包括：卷积单元，用于根据残差网络模型的卷积层，对肺结节张量进行卷积，得到初始特征图；特征提取单元，用于根据残差网络模型的残差块，对初始特征图进行特征提取，得到第一特征图。
98.根据本公开的实施例，本公开还提供了一种电子设备和一种可读存储介质。
99.图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
100.如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(rom)902中的计算机程序或者从存储单元908加载到随机访问存储器(ram)903中的计算机程序，来执行各种适当的动作和处理。在ram 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、rom 902以及ram 903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
101.设备900中的多个部件连接至i/o接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
102.计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如一种图像识别方法。例如，在一些实施例中，一种图像识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由rom902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到ram 903并由计算单元901执行时，可以执行上文描述的一种图像识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行一种图像识别方法。
103.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电
路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
104.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
105.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
106.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
107.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
108.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
109.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，
只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
110.此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
111.以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种钻完井数据库细粒度权限管理系统及方法与流程

一种图像识别方法、装置、设备及存储介质与流程

相关文献

最热文献