一种胃部图片识别方法及装置与流程

2021-12-04 02:27:00 来源：中国专利 TAG：

1.本发明涉及图像识别技术领域，尤其涉及一种胃部图片识别方法及装置。

背景技术：

2.在现有内窥镜检测中，需要根据内窥镜拍摄到的视频图像，判断该视频图像拍摄时所在的胃部部位。
3.虽然目前已经出现利用人工智能图像识别对胃镜图片进行分析的技术，但是大多部分都是单纯使用卷积神经网络对图片进行特征提取及分类处理，只考虑了单张图片所存在的局部特征信息来判断图片所属部位类别，导致识别结果的准确性较低。
4.因此，现在亟需一种胃部图片识别方法及装置来解决上述问题。

技术实现要素：

5.针对现有技术存在的问题，本发明提供一种胃部图片识别方法及装置。
6.本发明提供一种胃部图片识别方法，包括：根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
7.根据本发明提供的一种胃部图片识别方法，所述训练好的图片识别模型通过以下步骤得到：获取多个帧数相同的样本视频图像集合，并对每个样本视频图像集合中每一帧样本图片标记对应的第一样本标签，构建得到训练样本集，其中，所述第一样本标签为胃部部位类别标签；将所述训练样本集输入到卷积神经网络进行训练，输出得到每个样本视频图像集合中样本图片的第一图片特征，并得到预训练的卷积神经网络，按照每个样本视频图像集合中样本图片的视频帧顺序，将所述第一图片特征输入到transformer网络进行训练，输出得到第二图片特征，并得到预训练的transformer网络；将所述第二图片特征输入到全连接层进行训练，输出得到样本图片预测结果，并基于所述样本图片预测结果与对应的实际样本图片标记结果的误差进行反向传播，以对所述预训练的卷积神经网络和所述预训练的transformer网络进行梯度优化，得到训练好的图片识别模型。
8.根据本发明提供的一种胃部图片识别方法，在所述获取多个帧数相同的样本视频图像集合，并对每个样本视频图像集合中每一帧样本图片标记对应的第一样本标签之后，所述方法还包括：对图片像素或图像分辨率低于预设阈值的样本视频图像集合中每一帧样本图片
标记对应的第二样本标签；根据标记有第一样本标签的样本视频图像集合和标记有第二样本标签的样本视频图像集合，构建训练样本集。
9.根据本发明提供的一种胃部图片识别方法，所述胃部部位类别标签包括食管齿状线部位、胃底贲门部位、胃底体交界部位、胃体小弯部位、胃体大弯部位、胃体下部部位、胃角部位、胃窦幽门部位、十二指肠部位和体外。
10.根据本发明提供的一种胃部图片识别方法，所述卷积神经网络为shufflenetv2网络。
11.根据本发明提供的一种胃部图片识别方法，在所述获取多个帧数相同的样本视频图像集合之后，所述方法还包括：对每个样本视频图像集合中的样本图片进行图像增强处理，并根据图像增强处理后的样本图片构建训练样本集。
12.本发明还提供一种胃部图片识别装置，包括：视频图像采集模块，用于根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；部位识别模块，用于将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
13.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述胃部图片识别方法的步骤。
14.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述胃部图片识别方法的步骤。
15.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述胃部图片识别方法的步骤。
16.本发明提供的一种胃部图片识别方法及装置，通过结合卷积神经网络和transformer网络，使得在对胃部图片进行特征提取时，可获取得到图片特征具有时序性信息，从而结合局部图片信息和时序性信息，更准确的判断胃部图片类别。
附图说明
17.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本发明提供的胃部图片识别方法的流程示意图；图2为本发明提供的胃部图片识别装置的结构示意图；图3为本发明提供的电子设备的结构示意图。
具体实施方式
19.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
20.需要说明的是，本发明采集到的原始视频图像是通过胶囊胃镜拍摄得到的，胶囊胃镜的工作过程及特点主要包括：1、胶囊胃镜从口腔进入消化道后再自然排出体外；2、胶囊胃镜的电池续航力有限，其有效工作区间为口腔、食道、胃、十二指肠、小肠和大肠一部分；3、胶囊胃镜的每次活动都会产生域内检查图片和域外检查图片，其中，域内检查图片是通过对消化道某一段进行拍摄得到的，域外检查图片是指除了域内检查图片以外，胶囊胃镜顺便拍到的图片；4、每粒胶囊胃镜每次可以拍摄的原始图片的数量可以为2000~3000张，即胶囊胃镜获取到的图片集中的图片数量。
21.图1为本发明提供的胃部图片识别方法的流程示意图，如图1所示，本发明提供了一种胃部图片识别方法，包括：步骤101，根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合。
22.在本发明中，通过胶囊胃镜获取到胃部视频数据（jpg格式），该胃部视频数据可从医院信息系统中导出；然后，将胃部视频数据按视频帧顺序，划分为多段帧长度相等的小视频数据集（例如，连续十帧图片组成的视频），从而得到多个帧数相同的视频图像集合。
23.步骤102，将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
24.在本发明中，将上述实施例得到的多个视频图像集合，随机输入到训练好的图片识别模型中进行前向传播，具体地，训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建得到的，当视频图像集合经过卷积神经网络的特征提取后，由于视频图像集合中的图片是基于视频帧顺序，因此，提取得到的图片特征也按照视频帧顺序输入到transformer网络中，使图片识别过程时可以兼容前后帧图片信息，最终将transformer网络输出的具有时序性的图片特征输入分类全连接层，得到预测结果（prediction results）。重复上述过程，直至所有图片都预测完毕，打包输出该胃部视频数据的所有预测结果。
25.本发明提供的胃部图片识别方法，通过结合卷积神经网络和transformer网络，使得在对胃部图片进行特征提取时，可获取得到图片特征具有时序性信息，从而结合局部图片信息和时序性信息，更准确的判断胃部图片类别。
26.在上述实施例的基础上，所述训练好的图片识别模型通过以下步骤得到：步骤s1，获取多个帧数相同的样本视频图像集合，并对每个样本视频图像集合中每一帧样本图片标记对应的第一样本标签，构建得到训练样本集，其中，所述第一样本标签为胃部部位类别标签。
27.在本发明中，在对样本视频图像集合进行标注时，可通过人工标注的方式，对图片
数据的类型进行标注，并对标注好图片进行复检，在每一个样本视频数据中，只有当三名标注人员标注的类别一致百分比达到95%时，所标注样本图片才可通过复检，否则返回重标。然后，将每个样本视频数据按视频帧顺序，划分为多段长度相等的小视频数据集，即构建得到训练样本集（例如，连续的十帧样本图片）。需要说明的是，本发明对于标注标签和划分多段视频数据集的先后顺序不作具体限定，在另一实施例中，也可先将样本视频数据划分为多段视频数据集之后，再进行图片数据标注。
28.步骤s2，将所述训练样本集输入到卷积神经网络进行训练，输出得到每个样本视频图像集合中样本图片的第一图片特征，并得到预训练的卷积神经网络，步骤s3，按照每个样本视频图像集合中样本图片的视频帧顺序，将所述第一图片特征输入到transformer网络进行训练，输出得到第二图片特征，并得到预训练的transformer网络；步骤s4，将所述第二图片特征输入到全连接层进行训练，输出得到样本图片预测结果，并基于所述样本图片预测结果与对应的实际样本图片标记结果的误差进行反向传播，以对所述预训练的卷积神经网络和所述预训练的transformer网络进行梯度优化，得到训练好的图片识别模型。
29.在本发明中，将多个样本视频图像集合随机输入到卷积神经网络中进行前向传播，经过该卷积神经网络的特征提取后，将提取到的图片特征输入到transformer网络进行训练，以使得训练好的模型在后续测试和实际图片识别时，可以兼容前后帧图片信息；最终，将transformer网络在训练过程中输出的特征输入至分类全连接层，得到预测结果。进一步地，根据样本视频图像集合中的每张样本图片的实际标注结果labels和训练网络时对每张样本图片的预测结果，使用交叉熵损失函数对labels和预测结果pres进行损失值求取，从而基于实际值和预测值之间的误差对网络进行反向传播，并根据loss函数对网络进行梯度优化。重复步骤s2至步骤s4，直至loss值下降到设定预定值，从而完成网络训练，得到训练好的图片识别模型。
30.本发明通过添加transformer技术，将样本图片的时序信息也加入到网络训练中，使得在后续的模型测试和实际应用中，不只是单单考虑到当前帧图片信息，而是结合了前后帧多张图片信息来预测当前帧图片的类别，通过结合图片的时序性，使网络预测的识别结果更准确。
31.在上述实施例的基础上，在所述获取多个帧数相同的样本视频图像集合，并对每个样本视频图像集合中每一帧样本图片标记对应的第一样本标签之后，所述方法还包括：对图片像素或图像分辨率低于预设阈值的样本视频图像集合中每一帧样本图片标记对应的第二样本标签；根据标记有第一样本标签的样本视频图像集合和标记有第二样本标签的样本视频图像集合，构建训练样本集。
32.在本发明中，在对样本图片进行图片数据类别标记时，为了应对胶囊胃镜中的图片像素低和图片清晰度低（通过设置预设阈值，将低于该阈值的样本图片判断为图片像素较低或图片清晰度较低），将存在上述情况的样本图片作为低质量图片，并标记相应的第二样本标签，优选地，将存在漂浮物遮挡等情况也作为负样本进行标记。在本发明中，针对图片像素和图片清晰度较低，以及存在遮挡情况进一步分类，包括贴壁太近、皱缩厉害、胆汁
反流、气泡、过曝与过暗、漂浮物和浑浊模糊等7个细分类，这些标签作为负样本用于训练。在训练和测试时，会在正在训练的网络中将这几种图片归为一类，有效把这种干扰图片排除掉，提高后续胃部部位图片的判断识别。
33.在上述实施例的基础上，所述胃部部位类别标签包括食管齿状线部位、胃底贲门部位、胃底体交界部位、胃体小弯部位、胃体大弯部位、胃体下部部位、胃角部位、胃窦幽门部位、十二指肠部位和体外。
34.在本发明中，针对胃部不同的位置，为了使待训练的网络在训练时能够学习到更精细的图像特征，更好的学习到不同类别图片之间的区别，对样本图片进行标注时，在最终预测识别的胃部位置类型的标签分为10种类别结果，从而提升了模型的识别精度。
35.在上述实施例的基础上，所述卷积神经网络为shufflenetv2网络。
36.在本发明中，使用轻量级网络shufflenetv2，作为移动终端的分类网络的backbone，并对训练好的图片识别模型进行量化处理，使得网络算法在移动终端的测试和识别速度达到实时需求。
37.在上述实施例的基础上，在所述获取多个帧数相同的样本视频图像集合之后，所述方法还包括：对每个样本视频图像集合中的样本图片进行图像增强处理，并根据图像增强处理后的样本图片构建训练样本集。
38.在本发明中，模型在训练时，使用tta（test time augmentation），对同一张样本图片在进行多种不同的图片处理后，得到更多的样本图片用于训练。在模型测试阶段，根据这些增强处理后得到的样本图片对模型进行测试，对预测结果进行加权融合，作为网络的预测结果；再结合网络的集成算法（emseble learning）技术，对多个预测网络中得到的结果进行融合，得到最终的预测结果。这样得到的预测结果泛化能力更强，相比单个网络预测单张图片，准确率更高。
39.本发明针对现有技术在对胶囊胃镜采集到的胃部图片进行部位识别时，存在识别准确率较低问题，提出了一种结合卷积神经网络和transformer网络的方法，更好的对胃部图片进行部位识别。通过卷积神经网络，先对胃部图片进行单张图片的特征提取，结合连续多帧图片所提取得到的图片特征，输入到transformer网络，结合视频中的时序性，获取胃部整体全局特征，从而更好地判断各张图片所属部位类别。
40.图2为本发明提供的胃部图片识别装置的结构示意图，如图2所示，本发明提供了一种胃部图片识别装置，包括视频图像采集模块201和部位识别模块202，其中，视频图像采集模块201用于根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；部位识别模块202用于将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
41.本发明提供的胃部图片识别装置，通过结合卷积神经网络和transformer网络，使得在对胃部图片进行特征提取时，可获取得到图片特征具有时序性信息，从而结合局部图片信息和时序性信息，更准确的判断胃部图片类别。
42.在上述实施例的基础上，所述装置还包括：
训练集构建模块，用于获取多个帧数相同的样本视频图像集合，并对每个样本视频图像集合中每一帧样本图片标记对应的第一样本标签，构建得到训练样本集，其中，所述第一样本标签为胃部部位类别标签；第一训练模块，用于将所述训练样本集输入到卷积神经网络进行训练，输出得到每个样本视频图像集合中样本图片的第一图片特征，并得到预训练的卷积神经网络，第二训练模块，用于按照每个样本视频图像集合中样本图片的视频帧顺序，将所述第一图片特征输入到transformer网络进行训练，输出得到第二图片特征，并得到预训练的transformer网络；第三训练模块，用于将所述第二图片特征输入到全连接层进行训练，输出得到样本图片预测结果，并基于所述样本图片预测结果与对应的实际样本图片标记结果的误差进行反向传播，以对所述预训练的卷积神经网络和所述预训练的transformer网络进行梯度优化，得到训练好的图片识别模型。
43.在上述实施例的基础上，所述训练集构建模块还包括负样本生成单元和样本集构建单元，其中，负样本生成单元用于对图片像素或图像分辨率低于预设阈值的样本视频图像集合中每一帧样本图片标记对应的第二样本标签；样本集构建单元用于根据标记有第一样本标签的样本视频图像集合和标记有第二样本标签的样本视频图像集合，构建训练样本集。
44.在上述实施例的基础上，所述训练集构建模块还包括：图像增强模块，用于对每个样本视频图像集合中的样本图片进行图像增强处理，并根据图像增强处理后的样本图片构建训练样本集。
45.本发明提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。
46.图3为本发明提供的电子设备的结构示意图，如图3所示，该电子设备可以包括：处理器（processor）301、通信接口（communicationsinterface）302、存储器（memory）303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行胃部图片识别方法，该方法包括：根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
47.此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read
‑
onlymemory）、随机存取存储器（ram，randomaccessmemory）、磁碟或者光盘等各种可以存储程序代码的介质。
48.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在
非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的胃部图片识别方法，该方法包括：根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
49.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的胃部图片识别方法，该方法包括：根据视频帧顺序，将胃部视频数据划分为多个帧数相同的视频图像集合；将多个视频图像集合输入到训练好的图片识别模型中，得到所述胃部视频数据中每帧图片对应的胃部部位识别结果，其中，所述训练好的图片识别模型是由卷积神经网络、transformer网络和全连接层构建的，并通过标记有胃部部位类别标签的样本视频图像集合训练得到的。
50.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
51.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
52.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种胶囊胃镜轨迹跟踪方法及装置与流程

一种胃部图片识别方法及装置与流程

相关文献

最热文献