一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

三维医学图像的识别方法、装置、设备、存储介质及产品与流程

2022-06-05 03:05:00 来源:中国专利 TAG:


1.本技术实施例涉及人工智能领域,特别涉及一种三维医学图像的识别方法、装置、设备、存储介质及产品。


背景技术:

2.在医学领域中,利用计算机视觉技术对三维医学图像进行识别,有助于对疾病病情状态进行预测。
3.目前,在对三维医学图像进行识别过程中,可利用图像密集预测方法对三维医学图像进行图像分析,其中,密集预测方法是指对图像中每个像素进行预测的方法。相关技术中,在对三维医学图像进行密集预测时,将基于整体三维医学图像进行图像识别,得到图像识别结果。
4.然而,基于三维医学图像直接进行图像识别的方式计算量较大,识别效率较低,且还需大量数据进行预训练,方式较为复杂。


技术实现要素:

5.本技术实施例提供了一种三维医学图像的识别方法、装置、设备、存储介质及产品,可提高三维医学图像的识别效率,降低计算复杂度。所述技术方案如下:
6.一方面,本技术实施例提供了一种三维医学图像的识别方法,所述方法包括:
7.在第i轮特征提取过程中,对第i-1轮三维医学图像特征进行视角重排,得到二维图像特征,所述第i-1轮三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征,且不同二维图像特征是所述第i-1轮三维医学图像特征在不同视角下的特征;
8.对各个所述二维图像特征进行语义特征提取,得到不同视角下的图像语义特征;
9.对不同视角下的所述图像语义特征进行特征融合,得到第i轮三维医学图像特征;
10.基于第k轮特征提取得到的第k轮三维医学图像特征进行图像识别,得到所述三维医学图像的图像识别结果,k大于等于i。
11.另一方面,本技术实施例提供了一种三维医学图像的识别装置,所述装置包括:
12.视角重排模块,用于在第i轮特征提取过程中,对第i-1轮三维医学图像特征进行视角重排,得到二维图像特征,所述第i-1轮三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征,且不同二维图像特征是所述第i-1轮三维医学图像特征在不同视角下的特征;
13.特征提取模块,用于对各个所述二维图像特征进行语义特征提取,得到不同视角下的图像语义特征;
14.特征融合模块,用于对不同视角下的所述图像语义特征进行特征融合,得到第i轮三维医学图像特征;
15.图像识别模块,用于基于第k轮特征提取得到的第k轮三维医学图像特征进行图像识别,得到所述三维医学图像的图像识别结果,k大于等于i。
16.另一方面,本技术实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的三维医学图像的识别方法。
17.另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的三维医学图像的识别方法。
18.另一方面,本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的三维医学图像的识别方法。
19.本技术实施例提供的技术方案带来的有益效果至少包括:
20.本技术实施例中,在每个特征提取阶段中,首先对三维医学图像特征进行视角重排,从而将其划分为不同视角下的二维图像特征,并分别对二维图像特征进行特征提取,得到不同视角下的图像语义特征,从而对不同视角下的图像语义特征进行融合,得到特征提取后的三维图像语义特征。在该过程中,由于通过对不同视角下的二维图像特征进行特征提取,相较于直接提取三维图像特征的方式,可降低计算复杂度,即通过精简的局部计算单元进行不同视角的特征提取,从而提高三维医学图像的识别效率。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1示出了本技术实施例提供的三维医学图像识别方法的原理示意图;
23.图2示出了本技术一个示例性实施例提供的实施环境的示意图;
24.图3示出了本技术一个示例性实施例提供的三维医学图像的识别方法的流程图;
25.图4示出了本技术另一个示例性实施例提供的三维医学图像的识别方法的流程图;
26.图5示出了本技术一个示例性实施例提供的整体图像识别结构的结构示意图;
27.图6示出了本技术一个示例性实施例示出的空间特征提取过程的结构示意图;
28.图7示出了本技术一个示例性实施例示出的语义特征提取过程的结构示意图;
29.图8示出了本技术一个示例性实施例示出的特征融合过程的结构示意图;
30.图9示出了本技术一个示例性实施例示出的tr-mlp网络的结构示意图;
31.图10示出了本技术一个示例性实施例示出的跳连融合网络的结构示意图;
32.图11是本技术一个示例性实施例提供的三维医学图像的识别装置的结构框图;
33.图12示出了本技术一个示例性实施例提供的计算机设备的结构示意图。
具体实施方式
34.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
35.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
36.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
37.计算机视觉技术(computer vision,cv)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像分割、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。本技术实施例涉及的三维医学图像的识别方法,即计算机视觉技术在图像识别领域的应用,通过对不同视角下三维医学图像特征对应的二维图像特征分别进行特征提取,可降低计算复杂度,提高三维医学图像识别效率。
38.示意性的,如图1所示,在第i轮特征提取过程中,首先对第i-1轮特征提取得到的第i-1轮三维医学图像特征101进行视角重排,分别得到第一视角下的第一二维图像特征102、第二视角下的第二二维图像特征103以及第三视角下的第三二维图像特征104,分别对不同视角下的第一二维图像特征102、第二二维图像特征103以及第三二维图像特征104进行语义特征提取,得到第一图像语义特征105、第二图像语义特征106以及第三图像语义特征107,从而对三者进行融合得到第i轮三维图像语义特征108。
39.由于将三维医学图像特征分解为不同视角下的二维图像特征,从而对二维图像特征进行特征提取,因此,有助于降低计算量,从而提高三维医学图像的识别效率。
40.本技术实施例提高的方法,可应用于对任意三维医学图像的图像识别过程中。示意性的,可识别三维医学图像中各部位所属类别,从而有助于对病灶与器官的分析。
41.图2示出了本技术一个示例性实施例提供的实施环境的示意图。该实施环境中包括计算机设备210和服务器220。其中,计算机设备210与服务器220之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
42.计算机设备210是运行有三维医学图像识别程序的电子设备,该电子设备可以是智能手机、平板电脑或个人计算机等等,本实施例并此不作限定。当需要对三维医学图像进行识别时,可将三维医学图像输入计算机设备210的程序中,计算机设备将三维医学图像上
传至服务器220,由服务器220进行图像识别,并反馈识别结果。
43.服务器220可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
44.在一些实施例中,服务器220用于为计算机设备210中安装的应用程序提供图像识别服务。可选的,服务器220中设置有图像识别网络,用于对计算机设备210发送的三维医学图像进行分类。
45.当然,在其他可能的实施方式中,图像识别网络也可以部署在计算机设备210侧,由计算机设备210在本地实现图像识别,无需借助服务器220,相应的,图像识别网络可在计算机设备210侧完成训练,本实施例对此不作限定。为了方便表述,下述各个实施例以三维医学图像的识别方法由计算机设备执行为例进行说明。
46.请参考图3,其示出了本技术一个示例性实施例提供的三维医学图像方法的流程图,该方法包括如下步骤。
47.步骤301,在第i轮特征提取过程中,对第i-1轮三维医学图像特征进行视角重排,得到二维图像特征,第i-1轮三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征,且不同二维图像特征是第i-1轮三维医学图像特征在不同视角下的特征。
48.其中,三维医学图像特征是对待识别三维医学图像提取得到的特征。待识别三维医学图像可为计算机断层扫描(computed tomography,ct)图像、磁共振成像(magnetic resonance imaging,mri)或正电子发射断层成像(positron emission computed tomography,pet)等。
49.本技术实施例中,通过多轮特征提取过程,进行三维医学图像的识别。其中,每轮特征提取过程均采用相同的特征提取网络进行特征提取,且每轮特征提取过程中,特征提取网络的输入是根据上一轮特征提取网络的输出结果确定得到。即在第i轮特征提取过程中,是基于第i-1轮三维医学图像特征进行特征提取。
50.由于三维医学图像特征为3d数据,直接对整体三维医学图像特征进行特征提取时,计算量较大,过程较为复杂。因此,本技术实施例中,在每轮特征提取过程中,首先对三维医学图像特征进行划分。即在第i轮特征提取过程中,对第i-1轮特征提取得到的特征进行视角重排。其中,视角重排是将三维医学图像特征划分为不同视角下的二维图像特征,从而基于不同视角下的二维图像特征进行特征提取,降低计算复杂度。
51.在一种可能的实施方式中,对第i-1轮三维医学图像特征的(h,w,d)维度进行视角重排,得到包含(h,w),(h,d)以及(w,d)三个视角的二维图像特征,每个视角对应三维医学图像特征中的一个二维方向。不同二维图像特征即为不同二维图像切片对应的图像特征。
52.需要说明的是,在第i轮特征提取过程中,基于第i-1轮三维医学图像特征进行特征提取时,可能存在对第i-1轮三维医学图像特征进行上采样或下采样的过程,此时,将对上采样或下采样后的第i-1轮三维医学图像特征进行视角重排,得到二维图像特征。
53.步骤302,对各个二维图像特征进行语义特征提取,得到不同视角下的图像语义特征。
54.当得到各个二维图像特征后,将对二维图像特征进行语义特征提取,从而学习对
应二维图像切片中的图像信息。其中,对二维图像特征进行语义特征提取的过程包括对二维图像切换空间信息的学习以及基于对应视角的图像语义学习。
55.在对各个二维图像特征进行语义特征提取后,可得到不同视角下对应的图像语义特征。即得到(h,w),(h,d)以及(w,d)三个视角下分别对应的图像语义特征。
56.步骤303,对不同视角下的图像语义特征进行特征融合,得到第i轮三维医学图像特征。
57.在一种可能的实施方式中,当得到不同视角下的图像语义特征后,可将其进行融合,从而完成该轮特征提取过程,得到第i轮三维医学图像特征,再基于第i轮三维医学图像特征进行第i 1轮三维医学图像特征的特征提取过程。
58.即在本技术实施例中,通过对不同视角下的图像语义特征进行特征融合,实现全视角学习的丰富语义的聚合,从而完成三维医学图像特征的特征学习过程。
59.步骤304,基于第k轮特征提取得到的第k轮三维医学图像特征进行图像识别,得到三维医学图像的图像识别结果,k大于等于i。
60.通过多轮特征提取过程中,将结束特征提取过程,可选的,在第k轮特征提取过程结束后,基于第k轮三维医学图像特征进行图像识别。
61.综上所述,本技术实施例中,本技术实施例中,在每个特征提取阶段中,首先对三维医学图像特征进行视角重排,从而将其划分为不同视角下的二维图像特征,并分别对二维图像特征进行特征提取,得到不同视角下的图像语义特征,从而对不同视角下的图像语义特征进行融合,得到特征提取后的三维图像语义特征。在该过程中,由于通过对不同视角下的二维图像特征进行特征提取,相较于直接提取三维图像特征的方式,可降低计算复杂度,即通过精简的局部计算单元进行不同视角的特征提取,从而提高三维医学图像的识别效率。
62.在一种可能的实施方式中,对不同视角下的二维图像特征进行特征提取过程中,将对各个二维图像特征进行划分,从而进行局部窗口对应特征的学习,以及对各个二维图像特征对应切片的上下文特征进行学习,从而得到不同视角下的图像语义特征,下面将以示例性实施例进行说明。
63.请参考图4,其示出了本技术一个示例性实施例提供的三维医学图像方法的流程图,该方法包括如下步骤。
64.步骤401,在第i轮特征提取过程中,对第i-1轮三维医学图像特征进行视角重排,得到二维图像特征。
65.当获取到三维医学图像后,首先对三维医学图像进行初始嵌入处理(patchembedding),可选的,可利用convolutionalstem结构进行初步嵌入,得到初始三维医学图像特征,并之后以初始三维医学图像特征为起点,进行多轮特征提取过程。
66.本技术实施例中,特征提取过程包括特征编码过程以及特征解码过程,其中,特征编码过程包括对三维医学图像特征的下采样过程,而特征解码过程包含对三维医学图像特征的上采样过程,其中,下采样过程使用kernel size为3,stride为2的3d卷积,每次降采样两倍,而上采样过程使用kernel size为2,stride为2的3d转置卷积,每次上采样两倍。进行多轮特征编码以及特征解码后,利用得到的三维医学图像特征进行医学图像的识别。其中,每轮特征提取过程均采用相同的transformer-mlp(tr-mlp)结构进行。
67.示意性的,如图5所示,输入大小为ci×h×w×
d的三维医学图像,首先进行初始嵌入处理(patch embedding)501,其中,patch大小为2
×
2,得到c
×
h/4
×
w/4
×
d/4的三维医学图像特征,将其输入第一个tr-mlp block中进行第1轮特征提取,在第1轮特征提取结束后,将得到的第1轮三维医学图像特征进行下采样,得到2c
×
h/8
×
w/8
×
d/8的三维医学图像特征,并将其输入第二个tr-mlp block中进行第2轮特征提取,得到第2轮三维医学图像特征,之后,直接将第2轮三维医学图像特征输入第三个tr-mlp block中进行第3轮特征提取,第3轮结束后再次进行下采样,直至到下采样至8c
×
h/32
×
w/32
×
d/32,再继续进行上采样过程。其中,下采样过程的特征编码过程,即在tr-mlp block502中进行的特征提取过程以及之前tr-mlp block中特征提取过程为特征编码过程,而之后则为特征解码过程。
68.步骤402,对二维图像特征进行空间特征提取,得到二维图像空间特征。
69.在得到各个视角对应的二维图像特征后,首先对二维图像特征进行空间特征提取,其中,空间特征提取过程即为对各个对应二维图像切片特征学习的过程。其中,基于三个视角进行空间特征提取的过程中,网络参数共享,即网络参数相同。该过程可包括步骤402a-步骤402c(图中未示出):
70.步骤402a,对二维图像特征进行窗口划分,得到n个窗口对应的局部二维图像特征,n个窗口互不重叠。
71.在该过程中,主要利用基于窗口的多头自注意力(window-multi-head self-attention,w-msa)网络结构对二维图像切片中长距离与局部空间语义信息进行建模。其中,在利用w-msa网络结构对二维图像特征进行处理时,首先对二维图像特征z进行窗口划分,将其划分为n个互不重叠的窗口对应的局部二维图像特征zi。划分过程可如下所示:
72.z={z1,z2,...,zn},n=hw/m273.其中,m是w-msa设置的窗口大小,hw是指二维图像特征的尺寸大小,其为(h,w)视角下切分得到的二维图像尺寸大小。
74.之后,基于窗口进行多头自注意力计算,得到输出结果。
75.步骤402b,对n个局部二维图像特征进行特征提取,得到二维图像窗口特征。
76.当得到n个互不重叠的窗口对应的局部二维图像特征zi后,对各个局部二维图像特征进行特征提取,得到n个二维图像窗口特征。其中,该方式包括如下步骤:
77.步骤一、对n个局部二维图像特征进行自注意力处理,得到n个局部二维图像特征的自注意力特征。
78.首先分别对每个局部二维图像特征进行自注意力处理,其中,自注意力处理过程为多头自注意力处理。每个局部二维图像特征对应多个自注意力头。
79.可选的,基于所述二维图像特征对应的查询项q、健项k以及值项v进行自注意力处理,得到n个所述二维图像窗口特征的自注意力特征。
80.其中,第k个自注意力头对应的查询项(query,q)、键项(key,k)以及值项(value,v)分别为和则第i个窗口对应的局部二维图像特征zi的第k个自注意力特征计算方式如下:
81.[0082][0083]
其中,rpe为相对位置编码信息,为窗口位置编码,表示窗口可感知的空间位置信息。
[0084]
则第k个自注意力头对应的自注意力特征包含n个窗口所对应的特征,即:
[0085][0086]
步骤二、对n个局部二维图像特征的自注意力特征进行特征融合,得到第一图像窗口内部特征。
[0087]
当得到各个窗口对应的各个自注意力头对应的自注意力特征后,将所有自注意力头进行合并,且通过参数矩阵进行线性映射,得到对应的第一图像窗口内部特征。方式如下:
[0088]
w-msa(z)=concat[h1,h2,

,hk]wh[0089]
其中,wh即为参数矩阵。
[0090]
其中,在基于w-msa结构进行自注意力处理之前,首先需对来自视角v的特征进行归一化处理,可选的,归一化处理可采用批量归一化(batch normalization,bn)方式进行。其中,视角v即为视角(h,w),(h,d)以及(w,d)中的其中一种。归一化处理后,将其输入w-msa结构中进行自注意力处理。
[0091]
示意性的,如图6所示,首先将进行bn处理,之后,再输入至w-msa中进行自注意力处理,且w-msa包含残差结构,即将w-msa输出结果与原始输入特征进行融合,得到第一图像窗口内部特征。即:
[0092][0093]
v={1,2,3}
[0094]
步骤三、对第一图像窗口内部特征进行卷积处理,得到第一图像窗口交互特征。
[0095]
其中,利用w-msa结构是对划分的各个局部二维图像特征的特征学习,而为进一步加强对二维图像特征的学习,在一种可能的实施方式中,将利用kernelsize为5的dwconv2d的结构进行卷积处理,从而增加空间相邻窗口间局部性的学习。在一种可能的实施方式中,将第一图像窗口内部特征输入dwconv2d网络中进行卷积处理,得到第一图像窗口交互特征。
[0096]
其中,dwconv2d同样包含残差结构,即将卷积处理后的特征与第一图像窗口内部特征进行融合,得到第一图像窗口交互特征。即:
[0097][0098]
示意性的,如图6所示,将第一图像窗口内部特征输入dwconv2d进行卷积处理,并将卷积处理后的特征与进行融合,得到第一图像窗口交互特征
[0099]
步骤四、利用多层感知机mlp对第一图像窗口交互特征进行特征提取,得到二维图像窗口特征。
[0100]
之后,为进一步加强在对应视角下二维图像切换的学习,对卷积处理后的第一图
像窗口交互特征利用bn进行归一化处理,且使用多层感知机(multilayer perceptron,mlp)学习通道特征,即对应视角下的切片特征,从而得到二维图像窗口特征。
[0101][0102]
步骤402c,对n个窗口进行窗口重排,以及对窗口重排后的n个窗口对应的二维图像窗口特征进行特征提取,得到二维图像空间特征,窗口重排用于改变n个窗口的空间位置。
[0103]
在利用w-msa结构进行窗口自注意力学习后,还需学习跨窗口间的图像特征信息。因此,在一种可能的实施方式中,对n个窗口进行窗口重排,从而再次对窗口重排后的二维图像窗口特征进行学习。
[0104]
可选的,可利用洗牌操作(shuffle)进行窗口重排,从而对空间信息进行打乱,增强跨窗口信息间的交互。窗口重排后,对n个窗口对应的二维图像窗口特征进行学习,得到最终的二维图像空间特征。其中,该方式可包括如下步骤:
[0105]
步骤一、对窗口重排后的n个二维图像窗口特征进行自注意力处理,得到n个二维图像窗口特征的自注意力特征。
[0106]
首先对窗口重排后的n个窗口各自对应的二维图像窗口特征进行自注意力处理,得到自注意力特征。其中,方式可参考上述步骤,在此不再赘述。
[0107]
步骤二、对n个自注意力特征进行特征融合,得到第二图像窗口内部特征。
[0108]
其中,特征融合得到第二图像窗口内部特征的过程可参考融合得到第一图像窗口内部特征的过程,在此不再赘述。
[0109]
步骤三、对第二图像窗口内部特征进行位置翻转,以及对位置翻转后的第二图像窗口内部特征进行卷积处理,得到第二图像窗口交互特征。
[0110]
即重新对窗口进行位置打乱,从而再利用w-msa结构进行一次窗口自注意力学习,增强跨窗口间信息学习,之后,再对第二图像窗口内部特征进行位置翻转,即恢复各个窗口对应的位置信息,将其恢复至原始位置。
[0111]
示意性的,如图6所示,首先对二维图像窗口特征进行bn归一化处理,之后,进行窗口重排操作(transpose),并基于w-msa结构对窗口重排后n个窗口对应特征进行特征学习,得到第二图像窗口交互特征,并再次对n个窗口进行位置翻转,恢复各个窗口对应的位置信息。即:
[0112][0113]
其中,即为对第二图像窗口交互特征进行位置翻转后的特征。
[0114]
而在进行位置翻转后,再次利用dwconv2d进行卷积处理,得到第二图像窗口交互特征,该过程可参考上述步骤中卷积处理得到第一图像窗口交互特征的过程,在此不再赘述。
[0115]
示意性的,如图6所示,将输入dwconv2d结构进行卷积处理,得到第二图像窗口交互特征
[0116]
[0117]
步骤四、利用mlp对所述第二图像窗口交互特征进行特征提取,得到所述二维图像空间特征。
[0118]
相应的,卷积处理过程后,再次利用mlp进行通道学习,得到最终的二维图像空间特征。
[0119]
示意性的,如图6所示,首先将第二图像窗口交互特征进行归一化处理,并将其输入mlp中进行特征提取,得到最终的二维图像空间特征
[0120][0121]
对二维图像特征进行空间特征提取,得到二维图像空间特征是一次全视角切片空间洗牌块(full-view slice spatial shuffle block,fvsssb)过程,其整体过程如图6所示,从而充分学习二维图像特征。
[0122]
步骤403,基于主视角以及辅视角对二维图像空间特征进行语义特征提取,得到图像语义特征,主视角是二维图像特征对应视角,辅视角是三维视角中与主视角不同的视角。
[0123]
由于二维图像空间特征仅表示对应二维视角的特征,因此,在对各个二维图像特征进行空间特征提取,得到二维图像空间特征后,将捕获剩余第三视角的剩余语义信息,从而进行信息的补充学习。其中,对二维图像空间特征进行语义特征提取,得到图像语义特征的过程是切片可感知的上下文混合(slice-aware volume context mixing,savcm)过程,其中,各个视角下savcm网络的网络参数共享,即网络参数相同。该过程可包括如下步骤:
[0124]
步骤403a,对二维图像空间特征与位置编码特征进行特征融合,得到第一图像语义特征,位置编码特征用于指示二维图像特征对应的位置信息。
[0125]
在一种可能的实施方式中,首先对每个二维图像空间特征添加绝对位置编码ape,用于表示对应二维图像特征的空间位置信息,即对应二维图像切片的空间位置信息,是可自动学习的参数,从而将二维图像切片的位置信息注入至二维图像空间特征内,实现切片位置感知学习。
[0126]
示意性的,如图7所示,将二维图像空间特征与位置编码特征进行特征融合,得到第一图像语义特征即:
[0127][0128]
其中,apes即为对应二维图像特征的空间位置编码。
[0129]
步骤403b,在主视角下利用mlp对第一图像语义特征进行语义特征提取,得到主图像语义特征。
[0130]
在一种可能的实施方式中,将分别在主视角与辅视角下进行语义特征提取。其中,主视角是指二维图像特征对应视角,辅视角是除主视角外剩余视角。比如,是对(h,w)视角下的二维图像特征提取得到的二维图像空间特征,则主视角为(h,w),辅视角则为剩余d视角。
[0131]
可选的,利用残差axial-mlp沿在主视角下对第一图像语义特征进行语义特征提取,得到主图像语义特征如图7所示,首先对第一图像语义特征(b,sp,c,
th)进行位置重排得到(b,sp,th,c),之后,利用mlp沿通道c方向提取,其中,先升维为4c,提取后重新恢复为原始通道数c,再对提取得到的主图像语义特征进行位置恢复,恢复为(b,sp,c,th),其中,sp表示主视角下的空间维度。
[0132]
步骤403c,在辅视角下利用mlp对第一图像语义特征进行语义特征提取,得到辅图像语义特征。
[0133]
在基于主视角进行语义特征提取的同时,基于辅视角利用mlp对第一图像语义特征进行语义特征提取,得到辅图像语义特征如图7所示,对第一图像语义特征沿辅视角进行特征提取,其中,先升维为为4th,提取后,恢复为原始维度th,其中,th表示辅视角下的空间维度。
[0134]
步骤403d,对主图像语义特征与辅图像语义特征进行特征融合,得到图像语义特征。
[0135]
得到主图像语义特征与辅图像语义特征后,将对二者进行特征融合,从而得到图像语义特征,在一种可能的实施方式中,如图7所示,将以及以及原始特征在通道上进行合并,合并后,再利用mlp将合并特征进行映射,恢复为原始通道数,得到图像语义特征该过程通过融合第三视角下的图像特征信息,从而可感知二维图像切片的上下文信息,提高特征学习准确性。即:
[0136][0137][0138]
步骤404,对图像语义特征与视角特征进行融合,得到视角图像语义特征。
[0139]
在进行特征融合的过程中,首先对每个视角的特征上添加ape,由于对全视角学习的丰富语义进行聚合时是在通道上处理,因此ape加在全视角特征的通道上,实现聚合时的视角可感知。其中,ape是通道对应的编码,即指示对应视角,比如,(h,w)视角。即:
[0140][0141]
步骤405,对各个视角图像语义特征进行特征融合,得到第i轮三维医学图像特征。
[0142]
接着对全视角特征进行合并,通道数
×
3,再对合并特征使用ln做归一化,在最后使用mlp视角聚合器mlp
va
将特征映射回原始通道数,得到mlp-transformer当前块的医学体特征输出z
l 1
,即第i轮三维医学图像特征。即:
[0143][0144]
如图8所示,首先对各个图像语义特征与ape编码进行融合,再对三个视角进行拼接,得到最终的三维医学图像特征。
[0145]
步骤406,在上采样达到原始尺寸的情况下,将提取得到的三维医学图像特征确定为第k轮特征提取得到的第k轮三维医学图像特征。
[0146]
在一种可能的实施方式中,当上采样到三维医学图像原始尺寸时,则确定为第k轮
特征提取过程。示意性的,如图5所示,当达到c
′o×h×w×
d时,将对应的结果确定为第k轮三维医学图像特征,利用第k轮三维医学图像特征进行目标预测503,得到图像识别结果。而为进一步加强图像识别准确性,将对目标预测结果与初始输入的三维医学图像对应特征进行融合,从而基于融合后的特征进行图像识别。如图5所示,首先对输入三维医学图像ci×h×w×
d进行卷积得到初始图像的特征c
′i×h×w×
d,将c
′o×h×w×
d与c
′i×h×w×
d进行融合并进行卷积,得到最后的输出结果。
[0147]
步骤407,基于第k轮三维医学图像特征进行图像识别,得到图像识别结果。
[0148]
最终基于第k轮三维医学图像特征进行图像识别,从而后续可对三维医学图像进行图像配准、分类等。
[0149]
在一种可能的实施方式中,tr-mlp网络结构可如图9所示,首先对当前块输入的三维医学图像特征z
l
的(h,w,d)维度进行视角重排,重排为(h,w),(h,d),(w,d)包含三个视角的二维空间切片,每个视角对应3d中的一个二维切片方向;对重排后的全视角2d空间切片使用fvssb充分学习2d切片信息;接着使用切片可感知的医学体上下文混合savcm捕获沿着第三视角上的剩余图像语义信息;最后使用视角可感知的聚合器对全视角学习的丰富语义进行聚合,得到最终这一个transformer-mlp块的三维医学图像特征输出z
l 1
,并作为下一个transformer-mlp块的输入特征。其中,三个视角并行计算,并且全视角切片空间洗牌块网络和切片可感知的医学体上下文混合块网络在各个视角中都是参数共享的。即分别利用相同网络参数对应的特征提取网络,对各个视角下的二维图像特征进行语义特征提取,得到不同视角下的图像语义特征。
[0150]
本实施例中,通过先学习全视角2d空间信息,再学习第三维度语义,之后对全视角进行融合实现了三维医学图像特征的上下文可感知能力,并大幅增强了归纳偏置能力,可提高三维医学图像识别准确性,且通过精简的局部视觉transformer-mlp计算单元取代了计算量大的3d cnn和纯视觉transformer,降低了计算复杂度,提高识别效率。
[0151]
其中,特征提取过程中包含特征编码过程以及特征解码过程,在提取过程中,包含自注意力处理过程,其中,自注意力处理过程中基于q,k,v进行自注意力的计算。在一种可能的实施方式中,为融合多尺度的视觉特征,将编码器与解码器的特征进行融合,得到特征解码过程中的q,k,v值。
[0152]
可选的,第t轮特征解码过程中k值、v值基于第t-1轮特征解码中k值、v值与对应特征编码过程中k值、v值融合得到,第k轮解码过程中q值为第t-1轮特征解码中的q值。
[0153]
在一种可能的实施方式中,第t轮特征解码输入特征与其对应编码过程的输出特征分辨率相同,即对分辨率相同的图像特征进行跳连融合。示意性的,如图5所示,第2轮特征解码过程对应的分辨率为4c
×
h/16
×
w/16
×
d/16,其对应跳连融合的特征编码过程为分辨率同样为4c
×
h/16
×
w/16
×
d/16的最后1轮编码过程,在进行跳连融合时,对第2轮特征解码输入的特征(即对第1轮特征解码输出特征进行上采样后的特征)与最后一轮特征编码过程的输出特征进行跳连融合。
[0154]
以第t轮特征解码对应特征编码过程输出特征为ev,第t轮特征解码输入特征为dv为例进行说明,其中,v是指视角v对应的特征,即分别在不同视角下进行跳连融合。首先对ev、dv用kernel size为1的pwconv2d进行卷积。其中,特征解码过程中,q值仅来自于上一轮特征解码过程,而对于编码器与解码器的跳连融合,仅对k值、v值进行融合。因此,如图10所
示,利用pwconv2d将编码器特征ev的原始通道数分为两份,得到编码器ev的k值以及v值即:
[0155][0156]
如图10所示,而利用pwconv2d将解码器特征dv的原始通道数分为3份,得到q值k值以及v值即:
[0157][0158]
之后,对来自编码器的与来自解码器的进行融合,以及对来自编码器的与来自解码器的进行融合。即:
[0159][0160]
其中,即为第t轮特征解码过程中对应的k值,即为第t轮特征解码过程中对应d值,而第t轮特征解码过程中对应q值即为其中,三者用于第t轮特征解码过程中的w-msa的学习。即:
[0161][0162]
本实施例中,引入跳连融合网络,将编码器与解码器对应的特征进行跳连融合,从而融合多尺度信息,丰富图像特征语义学习。
[0163]
图11是本技术一个示例性实施例提供的三维医学图像的识别装置的结构框图,如图11所示,该装置包括:
[0164]
视角重排模块1101,用于在第i轮特征提取过程中,对第i-1轮三维医学图像特征进行视角重排,得到二维图像特征,所述第i-1轮三维医学图像特征是对三维医学图像进行第i-1轮特征提取得到的特征,且不同二维图像特征是所述第i-1轮三维医学图像特征在不同视角下的特征;
[0165]
特征提取模块1102,用于对各个所述二维图像特征进行语义特征提取,得到不同视角下的图像语义特征;
[0166]
特征融合模块1103,用于对不同视角下的所述图像语义特征进行特征融合,得到第i轮三维医学图像特征;
[0167]
图像识别模块1104,用于基于第k轮特征提取得到的第k轮三维医学图像特征进行图像识别,得到所述三维医学图像的图像识别结果,k大于等于i。
[0168]
可选的,所述特征提取模块1102,包括:
[0169]
第一提取单元,用于对所述二维图像特征进行空间特征提取,得到二维图像空间特征;
[0170]
第二提取单元,用于基于主视角以及辅视角对所述二维图像空间特征进行语义特征提取,得到所述图像语义特征,所述主视角是所述二维图像特征对应视角,所述辅视角是三维视角中与所述主视角不同的视角。
[0171]
可选的,所述第一提取单元,还用于:
[0172]
对所述二维图像特征进行窗口划分,得到n个窗口对应的局部二维图像特征,所述n个窗口互不重叠;
[0173]
对n个所述局部二维图像特征进行特征提取,得到二维图像窗口特征;
[0174]
对所述n个窗口进行窗口重排,以及对窗口重排后的n个窗口对应的所述二维图像窗口特征进行特征提取,得到二维图像空间特征,所述窗口重排用于改变n个窗口的空间位置。
[0175]
可选的,所述第一提取单元,还用于:
[0176]
对所述n个所述局部二维图像特征进行自注意力处理,得到n个所述局部二维图像特征的自注意力特征;
[0177]
对n个所述局部二维图像特征的自注意力特征进行特征融合,得到第一图像窗口内部特征;
[0178]
对所述第一图像窗口内部特征进行卷积处理,得到第一图像窗口交互特征;
[0179]
利用多层感知机mlp对所述第一图像窗口交互特征进行特征提取,得到所述二维图像窗口特征。
[0180]
可选的,所述第一提取单元,还用于:
[0181]
对窗口重排后的n个窗口对应的所述二维图像窗口特征进行自注意力处理,得到n个窗口对应的自注意力特征;
[0182]
对n个所述自注意力特征进行特征融合,得到第二图像窗口内部特征;
[0183]
对所述第二图像窗口内部特征进行位置翻转,以及对位置翻转后的所述第二图像窗口内部特征进行卷积处理,得到第二图像窗口交互特征;
[0184]
利用mlp对所述第二图像窗口交互特征进行特征提取,得到所述二维图像空间特征。
[0185]
可选的,所述第一提取单元,还用于:
[0186]
基于所述二维图像特征对应的查询项q、键项k以及值项v进行自注意力处理,得到n个所述二维图像窗口特征的自注意力特征。
[0187]
可选的,所述特征提取过程包括特征编码过程与特征解码过程,第t轮特征解码过程中所述k值、v值基于第t-1轮特征解码中k值、v值与对应特征编码过程中k值、v值融合得到,所述第k轮解码过程中所述q值为所述第t-1轮特征解码中的所述q值。
[0188]
可选的,所述第二提取单元,还用于:
[0189]
对所述二维图像空间特征与位置编码特征进行特征融合,得到第一图像语义特征,所述位置编码特征用于指示所述二维图像特征对应的位置信息;
[0190]
在主视角下利用mlp对所述第一图像语义特征进行语义特征提取,得到主图像语义特征;
[0191]
在辅视角下利用所述mlp对所述第一图像语义特征进行语义特征提取,得到辅图像语义特征;
[0192]
对所述主图像语义特征与所述辅图像语义特征进行特征融合,得到所述图像语义特征。
[0193]
可选的,所述特征融合模块1103,还包括:
[0194]
第一融合单元,用于对所述图像语义特征与视角特征进行融合,得到视角图像语义特征;
[0195]
第二融合单元,用于对各个所述视角图像语义特征进行特征融合,得到所述第i轮三维医学图像特征。
[0196]
可选的,所述特征提取模块1102,还用于:
[0197]
分别利用相同网络参数对应的特征提取网络,对各个视角下的所述二维图像特征进行语义特征提取,得到不同视角下的所述图像语义特征。
[0198]
可选的,所述特征提取过程包括特征编码过程与特征解码过程,所述特征编码过程包括对三维医学图像特征的下采样过程,所述特征解码过程包括对三维医学图像特征的上采样过程。
[0199]
所述图像识别模块1104,还包括:
[0200]
确定单元,用于在所述上采样达到原始尺寸的情况下,将提取得到的所述三维医学图像特征确定为所述第k轮特征提取得到的第k轮三维医学图像特征;
[0201]
识别单元,用于基于所述第k轮三维医学图像特征进行图像识别,得到所述图像识别结果。
[0202]
可选的,三维医学图像是ct图像、mri图像或pet图像。
[0203]
综上所述,本技术实施例中,在每个特征提取阶段中,首先对三维医学图像特征进行视角重排,从而将其划分为不同视角下的二维图像特征,并分别对二维图像特征进行特征提取,得到不同视角下的图像语义特征,从而对不同视角下的图像语义特征进行融合,得到特征提取后的三维图像语义特征。在该过程中,由于通过对不同视角下的二维图像特征进行特征提取,相较于直接提取三维图像特征的方式,可降低计算复杂度,即通过精简的局部计算单元进行不同视角的特征提取,从而提高三维医学图像的识别效率。
[0204]
需要说明的是:上述实施例提供的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其实现过程详见方法实施例,这里不再赘述。
[0205]
请参考图12,其示出了本技术一个示例性实施例提供的计算机设备的结构示意图。具体来讲:所述计算机设备1200包括中央处理单元(central processingunit,cpu)1201、包括随机存取存储器1202和只读存储器1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(input/output,i/o系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
[0206]
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
[0207]
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示
出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。
[0208]
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(ram,random access memory)、只读存储器(rom,read only memory)、闪存或其他固态存储其技术,只读光盘(compact disc read-only memory,cd-rom)、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
[0209]
存储器存储有一个或多个程序,一个或多个程序被配置成由一个或多个中央处理单元1201执行,一个或多个程序包含用于实现上述方法的指令,中央处理单元1201执行该一个或多个程序实现上述各个方法实施例提供的方法。
[0210]
根据本技术的各种实施例,所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
[0211]
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,所述一个或者一个以上程序包含用于进行本技术实施例提供的方法中由计算机设备所执行的步骤。
[0212]
本技术实施例还提供一种计算机可读存储介质,该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的三维医学图像的识别方法。
[0213]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面提供的三维医学图像的识别方法。
[0214]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的三维医学图像的识别方法。
[0215]
可选地,该计算机可读存储介质可以包括:rom、ram、固态硬盘(ssd,solid state drives)或光盘等。其中,ram可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0216]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0217]
以上所述仅为本技术的可选的实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献