一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于位置坐标信息识别目标对象的方法和装置与流程

2022-04-16 14:50:00 来源:中国专利 TAG:


1.本发明涉及图像数据处理技术领域,尤其是医学图像处理,并且更具体地说,涉及一种基于位置坐标信息识别目标对象的方法和装置、以及存储介质和电子设备。此外本发明还涉及一种使用3d卷积神经网络识别图像关键点的算法,尤其是使用3d卷积神经网络由医学图像直接识别内外髁的算法。


背景技术:

2.随着现代社会的飞速发展,各行各业都开始与it行业产生密不可分的联系,医疗行业也是如此。要进行下肢相关的手术时,大部分情况下都要对力线与内外髁进行操作,例如膝关节置换术、全髋关节置换术等。同时内外髁的位置也是识别力线的关键。
3.为了识别定位内外髁,以往针对医学影像引入了各种数字技术,然而,如何能够高效并且准确地实现,依然有很大的提升空间。


技术实现要素:

4.为了解决上现有技术中的问题,本发明提供了一种能够直接测量出内外髁的基于3d卷积的神经网络,其能够对ct进行识别,在不进行重建的同时直接计算出双腿内外髁的坐标点并保存。
5.根据本发明实施例的一个方面,提供了一种基于位置坐标信息识别目标对象的方法,所述方法包括:
6.获取与目标对象相关联的待处理的图像组,并对所述待处理的图像组进行预处理以获得经过预处理的图像组;
7.获取所述经过预处理的图像组的三维矩阵数据;
8.将所述三维矩阵数据输入至预设卷积神经网络模型,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息;
9.根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,并根据所述位置坐标信息识别出所述目标对象。
10.优选地,其中所述待处理的图像组包括多个图像文件,其中每个图像文件具有图像区域并且图像区域中包含目标对象。
11.优选地,其中所述对所述待处理的图像组进行预处理以获得经过预处理的图像组,包括:
12.根据所述待处理的图像组的dicom序列,基于dicom协议剔除所述待处理的图像组中的骨骼之外的物质,以获取经过预处理的图像组。
13.优选地,其中所述获取所述经过预处理的图像组的三维矩阵数据,包括:
14.将所述经过预处理的图像组的dicom序列中处于预设hu值范围的数据按比例转换为像素值,并基于转换后的像素值获取所述经过预处理的图像组的三维矩阵数据;
15.其中,所述预设hu值范围的下限值和上限值对应的像素值分别为0和255。
16.优选地,其中所述基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
17.所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图;
18.分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,并将所述第一全连接结果和第二全连接结果进行拼接,获取拼接向量;
19.使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息。
20.优选地,其中所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图,包括:
21.基于所述三维矩阵数据进行一次conv3*3*3-64-2的三维卷积操作,步长为2,获取第一特征图,并利用mish激活函数对所述第一特征图进行激活,激活后使用批标准化bn进行数据归一化;
22.对经过归一化处理后的第一特征图进行一次conv3*3*3-64的三维卷积操作,再进行最大池化,获取第二特征图;
23.对所述第二特征图连续进行两次conv3*3*3-64的三维卷积操作,再进行三次conv1*1*1-64操作的三维卷积操作,之后进行最大池化,获取所述中间特征图。
24.优选地,其中所述分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,包括:
25.对于第一路分支,对所述中间特征图进行一次conv1*1*1-128-2的三维卷积操作,得到特征图之后再进行一次conv3*3*3-32-2的三维卷积操作,再进行两次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接操作,获取第一全连接结果;
26.对于第二路分支,对所述中间特征图进行一次conv3*3*3-128-2的三维卷积操作,再进行一次conv3*3*3-128-1的三维卷积操作,再进行一次conv3*3*3-32-2的三维卷积操作,得到一张特征图,之后一次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接操作,获取第二全连接结果。
27.优选地,其中所述使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
28.根据关键点的个数确定预设组数;
29.使用预设组数的全连接层按照sigmoid方式输出所述拼接向量,获取每个关键点在x、y、z三个坐标轴的输出值;
30.将每个轴的长度作为单位1,根据所述输出值确定每个关键点在x、y、z三个坐标轴的比例信息;
31.其中,所述根据关键点的个数确定预设组组数,包括:
32.k={n*3*512}sigmoid(k);
33.其中,k为神经网络最终提取到的特征;k为最终输出的结果坐标集合;n为关键点的个数。
34.优选地,其中所述根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,包括:
35.读取图像的坐标,根据所述坐标和每个关键点在x、y、z三个坐标轴的比例信息,确定用于表征所述目标对象所在位置的每个关键点的位置坐标信息。
36.根据本发明实施例的另一个方面,提供了一种基于位置坐标信息识别目标对象的装置,所述装置包括:
37.预处理模块,用于获取与目标对象相关联的待处理的图像组,并对所述待处理的图像组进行预处理以获得经过预处理的图像组;
38.三维矩阵数据获取模块,用于获取所述经过预处理的图像组的三维矩阵数据;
39.位置坐标信息确定模块,用于将所述三维矩阵数据输入至预设卷积神经网络模型,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息;
40.识别模块,用于根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,并根据所述位置坐标信息识别出所述目标对象。
41.根据本发明实施例的又一个方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述任一实施例所述的方法。
42.根据本发明实施例的又一个方面,提供了一种电子设备,所述电子设备包括:处理器和存储器;其中,
43.所述存储器,用于存储所述处理器可执行指令;
44.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一实施例所述的方法。
45.本发明提供了一种基于位置坐标信息识别目标对象的方法和系统,所述方法包括:获取与目标对象相关联的待处理的图像组,并进行预处理以获得经过预处理的图像组;获取所述经过预处理的图像组的三维矩阵数据;将所述三维矩阵数据输入至预设卷积神经网络模型,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息;根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,并根据所述位置坐标信息识别出所述目标对象。本发明的方法可以用于内外髁的识别,通过3d卷积的神经网络能够对ct进行识别,在不进行重建的同时直接计算出双腿内外髁的坐标点并保存。
46.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
47.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
48.图1为根据本发明一示例性实施例提供的基于位置坐标信息识别目标对象的方法的流程示意图;
49.图2为根据本发明一示例性实施例提供的卷积神经网络模型分析的示意图;
50.图3为根据本发明一示例性实施例提供的flatten展平操作的示意图;
51.图4为根据本发明一示例性实施例提供的识别出的双腿内外髁的示意图;
52.图5是本发明一示例性实施例提供的基于位置坐标信息识别目标对象的装置的结构示意图;
53.图6是本发明一示例性实施例提供的电子设备的结构示意图。
具体实施方式
54.下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
55.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
56.本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
57.还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
58.还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
59.另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
60.还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
61.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
62.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
63.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
64.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
65.本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
66.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计
算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
67.示例性方法
68.图1是本发明一示例性实施例提供的基于位置坐标信息识别目标对象的方法100的流程示意图。本实施例可应用在电子设备上,如图1所示,包括以下步骤:
69.步骤101,获取与目标对象相关联的待处理的图像组,并对所述待处理的图像组进行预处理以获得经过预处理的图像组。
70.优选地,其中所述待处理的图像组包括多个图像文件,其中每个图像文件具有图像区域并且图像区域中包含目标对象。
71.优选地,其中所述对所述待处理的图像组进行预处理以获得经过预处理的图像组,包括:
72.根据所述待处理的图像组的dicom序列,基于dicom协议剔除所述待处理的图像组中的骨骼之外的物质,以获取经过预处理的图像组。
73.本发明的实施例设计了一种新的神经网络,这是一种基于三维卷积并且使用关键点识别原理的神经网络,可应用在电子设备上,尤其可以应用于医学图像分析,例如用以对ct、磁共振等分层的医学图像序列进行识别。
74.关于其中的关键点识别网络,最常用的研究方向是在人脸识别方面,通过2d图像上识别出人脸关键点并且进行计算得到各个关键点在3d空间中的位置,这也给神经网络增加了限制,因为人像照片通常都是2d图片,而ct则全部都是3d图片,使用3d卷积则更好地提取到了每个关键点在三维空间中的位置信息,更加适合ct、磁共振等分层的医学图像序列。
75.本发明的主要任务为识别骨骼中的关键点,因此不需要软组织或超密度组织(如ct中的床板,患者曾经安装的各种材质的假体等)。因此,在本发明的实施例中,依据dicom协议将骨骼之外的物质进行预先剔除,完成数据的预处理,获取经过预处理的图像组。本发明的待处理的图像组包括多个图像文件,其中每个图像文件具有图像区域并且图像区域中包含目标对象,所述目标对象即为内外髁图像。
76.步骤102,获取所述经过预处理的图像组的三维矩阵数据。
77.优选地,其中所述获取所述经过预处理的图像组的三维矩阵数据,包括:
78.将所述经过预处理的图像组的dicom序列中处于预设hu值范围的数据按比例转换为像素值,并基于转换后的像素值获取所述经过预处理的图像组的三维矩阵数据;
79.其中,所述预设hu值范围的下限值和上限值对应的像素值分别为0和255。
80.以ct图像为例,本发明需要对整套ct图像的dicom序列进行处理,由于正常图像的像素值为0到255的256个像素值,并且彩色图片拥有红绿蓝3种色彩通道,而ct的hu值则拥有-1024到3071的4096个值,正常情况下人眼无法直接进行观测,而且大多数骨骼的hu值在400左右。
81.因此,经过多次调整,本发明的实施例最终将hu值确定在了25到475之间,以得到一种使骨质的能见度最高的结果,之后将25到475之间的hu值按照比例转换成为像素值;其中,在进行转换时,hu值25对应像素值0,hu值475对应像素值255)。通过像素值转换,能够读取到的每一套ct单独组成对应这一套图片的一个三维矩阵。另外,为了更加符合神经网络
的多层计算设计,需要将长宽高调整为2n,每张ct的长宽初始便是512*512,而一套ct的张数却不一定,所以此处将形状重置为512*512*512,对原图的改变非常小,并且更加易于推理,之后将三维矩阵输入预设卷积神经网络模型。
82.步骤103,将所述三维矩阵数据输入至预设卷积神经网络模型,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息。
83.优选地,其中所述基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
84.所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图;
85.分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,并将所述第一全连接结果和第二全连接结果进行拼接,获取拼接向量;
86.使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息。
87.优选地,其中所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图,包括:
88.基于所述三维矩阵数据进行一次conv3*3*3-64-2的三维卷积操作,步长为2,获取第一特征图,并利用mish激活函数对所述第一特征图进行激活,激活后使用批标准化bn进行数据归一化;
89.对经过归一化处理后的第一特征图进行一次conv3*3*3-64的三维卷积操作,再进行最大池化,获取第二特征图;
90.对所述第二特征图连续进行两次conv3*3*3-64的三维卷积操作,再进行三次conv1*1*1-64操作的三维卷积操作,之后进行最大池化,获取所述中间特征图。
91.优选地,其中所述分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,包括:
92.对于第一路分支,对所述中间特征图进行一次conv1*1*1-128-2的三维卷积操作,得到特征图之后再进行一次conv3*3*3-32-2的三维卷积操作,再进行两次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接操作,获取第一全连接结果;
93.对于第二路分支,对所述中间特征图进行一次conv3*3*3-128-2的三维卷积操作,再进行一次conv3*3*3-128-1的三维卷积操作,再进行一次conv3*3*3-32-2的三维卷积操作,得到一张特征图,之后一次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接操作,获取第二全连接结果。
94.优选地,其中所述所述使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
95.根据关键点的个数确定预设组数;
96.使用预设组数的全连接层按照sigmoid方式输出所述拼接向量,获取每个关键点在x、y、z三个坐标轴的输出值;
97.将每个轴的长度作为单位1,根据所述输出值确定每个关键点在x、y、z三个坐标轴的比例信息;
98.其中,所述根据关键点的个数确定预设组组数,包括:
99.k={n*3*512}sigmoid(k);
100.其中,k为神经网络最终提取到的特征;k为最终输出的结果坐标集合;n为关键点的个数。
101.结合图3所示,在本发明的实施例中,预设卷积神经网络模型,首先进行一次conv3*3*3-64-2,它的意思是进行一次3*3*3的三维卷积操作,使用64个卷积核,并且步长为2,形成一个64通道的输出特征图(即第一特征图),并且使用mish激活函数进行激活,以此来提升非线性,mish激活函数公式为mish(x)=x*tanh(log(1 e
x
)),激活结束使用bn再进行数据归一化。结束conv3*3*3-64-2之后得到了一张256*256*256*64的特征图,因为步长为2,所以即使不进行池化也能够将原图长宽高缩减到原先的二分之一,总数据量缩减到八分之一。
102.之后进行一次conv3*3*3-64,意义与之前相同,如无说明步长,则默认为1,之后进行最大池化,步长为2,得到一张128*128*128*64的特征图(即第二特征图)。
103.之后进行2次conv3*3*3-64操作,紧接着进行3次conv1*1*1-64操作,进行最大池化,得到一张64*64*64*64的特征图(即中间特征图),之后进行两条分支。
104.第一条分支为继续进行1*1卷积,使用conv1*1*1-128-2,得到32*32*32*128的特征图之后进行一次conv3*3*3-32-2后使用两次conv7*7*7-128,得到一个16*16*16*128的特征图,之后使用flatten展平操作,flatten展平操作的过程如图3所示。在展平之后进行一次2048的全连接操作。即,在此,进行了两次卷积、展平和全连接操作,得到了第一全连接结果。
105.第二条分支为首先使用conv3*3*3-128-2得到一张32*32*32*128的特征图,之后使用conv3*3*3-128-1操作进行卷积,再使用conv3*3*3-32-2操作,得到一张16*16*16*128的特征图,之后与第一条分支的末尾操作类似,进行相同的一次卷积、展平和全连接操作,即,在进行conv7*7*7-128后展平成一个向量后进行一次2048的全连接操作,得到了第二全连接结果。
106.然后,将两条分支的结果进行拼接,得到一个长度为4096的向量,接着使用若干组全连接层,每一组全连接为512*3的全连接层进行输出,全连接的组数取决于想要的关键点的个数n,其中,k={n*3*512}sigmoid(k),3代表空间坐标系中的x、y、z三个坐标轴的数值,输出方式使用sigmoid,sigmoid函数公式为通过sigmoid函数输出一个0-1之间的常数。此时将整个轴的长度看做1,通过输出结果可以确定表示这个关键点的坐标所在的位置(即比例信息)。例如,若第一个关键点的x轴输出为0.793,则表示这个关键点的x坐标在图片整体位置的79.3%处。一组3次输出便得到了此关键点的每一个坐标轴所在的位置。
107.在本发明的实施例中,展平操作为将所有的特征图按照长、宽、高、通道数的顺序把特征图重新转化为一个向量。通过展平把所有的特征重新组成一个向量,从而为后续运算作准备。在展平之前使用7*7*7卷积的目的是为了提升特征的感受野尺度,可以使得最终
结果变得更为准确。
108.考虑到本实施例中神经网络使用的是3d卷积,需要消耗的显存非常庞大,本发明中使用的卷积运算除了1*1卷积的瓶颈层以外,全部使用深度可分离卷积。
109.深度可分离卷积的设计初衷并不是为了解决3d卷积的目的,然而,本发明人通过将其应用于解决3d卷积显存消耗过大的问题,有效地提出了一种3d卷积在通常情况下由于显存消耗太大而不成立的技术方案。
110.以往,传统卷积运算是将卷积核放在输入图像中不断进行滑动,每次卷积运算的内容为原图中与卷积核重叠的部分数据与卷积核内数据进行点乘后将全部的数据相加得到新的特征图中的一个数据。
111.与传统卷积运算不同,深度可分离卷积的运算方式为将各个通道分别与卷积核进行运算,之后使用如下所例示的特殊的卷积核将结果进行整合。
112.在此以2d卷积举例(因为卷积过程中加入了通道数这一概念,所以实际维度应该比图片维度多一维,如使用3d举例则卷积过程中的通道数实际为四维数据,无法在空间中表示,故使用更加易懂的2d卷积来进行表示),正常卷积时一张5*5像素3通道的特征图进行3*3卷积时,一次卷积的运算量是3*3*4=27,而进行深度可分离卷积时,第一次卷积运算量只有1*1*3*4=12。转换到三维卷积则是呈几何倍数缩小运算量,使得运算量控制在正常gpu可以承受的范围内。
113.另外,所谓“1*1卷积”,是针对瓶颈层的一个统称,实际上它并不一定是1*1的二维卷积核,具体维度视情况而定,例如,如果网络中它的维度就是3,应该是1*1*1的卷积核,如果在四维卷积中则应该为1*1*1*1,在本发明中为简化说明统称为“1*1卷积”。
114.步骤104,根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,并根据所述位置坐标信息识别出所述目标对象。
115.优选地,其中所述根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,包括:
116.读取图像的坐标,根据所述坐标和每个关键点在x、y、z三个坐标轴的比例信息,确定用于表征所述目标对象所在位置的每个关键点的位置坐标信息。
117.在本发明的实施例中,使用vtk读取整张图片的坐标,直接在原图坐标中便可计算出每个关键点在世界坐标系中的位置,之后将关键点的坐标输入图像得到各个关键点与彼此之间的空间关系,便可得到内外髁在图像中的位置,并直接呈现在ct原图中,如图4所示。本发明通过将三维矩阵数据输入基于3d卷积神经网络模型,来获取所期望的图像的关键点的坐标值,并将所述图像关键点的坐标值输入原始图像得到各个关键点与彼此之间的空间关系。如此,便可得到关键点在原始图像中的位置,从而可直接呈现在原始图像中。
118.本发明通过使用vtk读取整张图片的坐标,直接在原图坐标中便可计算出每个关键点在世界坐标系中的位置,无需计算层厚与层距等数据,减小了计算量。
119.本发明的方法基于3d卷积进行关键点识别,可以通过ct原图直接定位内外髁所在的位置,在不进行重建的同时直接计算出双腿内外髁的坐标点并保存。
120.示例性装置
121.图5是本发明一示例性实施例提供的基于位置坐标信息识别目标对象的装置500的结构示意图。如图5所示,本实施例包括:预处理模块501、三维矩阵数据获取模块502、位
置坐标信息确定模块503和识别模块504。
122.优选地,所述预处理模块501,用于获取与目标对象相关联的待处理的图像组,并对所述待处理的图像组进行预处理以获得经过预处理的图像组。
123.优选地,其中在所述预处理模块501,所述待处理的图像组包括多个图像文件,其中每个图像文件具有图像区域并且图像区域中包含目标对象。
124.优选地,其中所述预处理模块501,对所述待处理的图像组进行预处理以获得经过预处理的图像组,包括:
125.根据所述待处理的图像组的dicom序列,基于dicom协议剔除所述待处理的图像组中的骨骼之外的物质,以获取经过预处理的图像组。
126.优选地,所述三维矩阵数据获取模块502,用于获取所述经过预处理的图像组的三维矩阵数据。
127.优选地,其中所述三维矩阵数据获取模块502,获取所述经过预处理的图像组的三维矩阵数据,包括:
128.将所述经过预处理的图像组的dicom序列中处于预设hu值范围的数据按比例转换为像素值,并基于转换后的像素值获取所述经过预处理的图像组的三维矩阵数据;
129.其中,所述预设hu值范围的下限值和上限值对应的像素值分别为0和255。
130.优选地,所述位置坐标信息确定模块503,用于将所述三维矩阵数据输入至预设卷积神经网络模型,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息。
131.优选地,所述识别模块504,用于根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,并根据所述位置坐标信息识别出所述目标对象。
132.优选地,其中所述位置坐标信息确定模块503,基于所述预设卷积神经网络模型进行图像识别,确定用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
133.所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图;
134.分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,并将所述第一全连接结果和第二全连接结果进行拼接,获取拼接向量;
135.使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息。
136.优选地,其中所述位置坐标信息确定模块503,所述预设卷积神经网络模型基于所述三维矩阵数据进行卷积和池化操作,获取中间特征图,包括:
137.基于所述三维矩阵数据进行一次conv3*3*3-64-2的三维卷积操作,步长为2,获取第一特征图,并利用mish激活函数对所述第一特征图进行激活,激活后使用批标准化bn进行数据归一化;
138.对经过归一化处理后的第一特征图进行一次conv3*3*3-64的三维卷积操作,再进行最大池化,获取第二特征图;
139.对所述第二特征图连续进行两次conv3*3*3-64的三维卷积操作,再进行三次conv1*1*1-64操作的三维卷积操作,之后进行最大池化,获取所述中间特征图。
140.优选地,其中所述位置坐标信息确定模块503,所述分别对所述中间特征图进行两路分支的卷积、展平和全连接操作,以获取第一全连接结果和第二全连接结果,包括:
141.对于第一路分支,对所述中间特征图进行一次conv1*1*1-128-2的三维卷积操作,得到特征图之后再进行一次conv3*3*3-32-2的三维卷积操作,再进行两次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接操作,获取第一全连接结果;
142.对于第二路分支,对所述中间特征图进行一次conv3*3*3-128-2的三维卷积操作,再进行一次conv3*3*3-128-1的三维卷积操作,再进行一次conv3*3*3-32-2的三维卷积操作,得到一张特征图,之后一次conv7*7*7-128的三维卷积操作,再进行flatten展平操作,在展平之后进行一次全连接(full connection)操作,获取第二全连接结果。
143.优选地,其中所述位置坐标信息确定模块503,所述使用预设组数的全连接层按照预设方式输出所述拼接向量,以获取用于表征所述目标对象所在位置的每个关键点的比例信息,包括:
144.根据关键点的个数确定预设组数;
145.使用预设组数的全连接层按照sigmoid方式输出所述拼接向量,获取每个关键点在x、y、z三个坐标轴的输出值;
146.将每个轴的长度作为单位1,根据所述输出值确定每个关键点在x、y、z三个坐标轴的比例信息;
147.其中,所述根据关键点的个数确定预设组组数,包括:
148.k={n*3*512}sigmoid(k);
149.其中,k为神经网络最终提取到的特征;k为最终输出的结果坐标集合;n为关键点的个数。
150.优选地,其中所述识别模块504,根据每个关键点的比例信息确定所述目标对象在图像中的位置坐标信息,包括:
151.读取图像的坐标,根据所述坐标和每个关键点在x、y、z三个坐标轴的比例信息,确定用于表征所述目标对象所在位置的每个关键点的位置坐标信息。
152.本发明的实施例的基于位置坐标信息识别目标对象的装置500与本发明的另一个实施例的基于位置坐标信息识别目标对象的方法100相对应,在此不再赘述。
153.示例性电子设备
154.图6是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图6图示了根据本公开实施例的电子设备的框图。如图6所示,电子设备60包括一个或多个处理器61和存储器62。
155.处理器61可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
156.存储器62可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存
储一个或多个计算机程序指令,处理器61可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的基于位置坐标信息识别目标对象的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置63和输出装置64,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
157.此外,该输入装置63还可以包括例如键盘、鼠标等等。
158.该输出装置64可以向外部输出各种信息。该输出装置64可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
159.当然,为了简化,图6中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
160.示例性计算机程序产品和计算机可读存储介质
161.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于位置坐标信息识别目标对象的方法中的步骤。
162.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
163.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于位置坐标信息识别目标对象的方法中的步骤。
164.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
165.以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
166.本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
167.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
168.可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
169.还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
170.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献