一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于视频的病灶分类方法、装置、电子设备及介质与流程

2022-06-25 04:56:03 来源:中国专利 TAG:


1.本公开涉及医学影像处理领域,尤其涉及一种基于视频的病灶分类方法、装置、电子设备及介质。


背景技术:

2.目前,在医学病灶分类方法中,主要基于对应的模型,通过超声视频或静态超声图像对病灶进行分类训练,静态超声图像相比于超声视频而言,更加容易获得大量的样本,但是基于超声视频对病灶分类模型进行分类训练,相比于基于静态超声图像而言,能够提供更丰富的特征信息,因此,训练出的病灶分类模型对病灶分类的准确性较高。由于超声视频样本的收集过程相比于静态图像而言更为困难,且对视频的特征标注过程也较为复杂,因此现有的病灶分类方法采用基于少量的超声视频训练得到的病灶分类模型,对病灶的分类准确性较差。


技术实现要素:

3.本公开提供了一种基于视频的病灶分类方法、装置、电子设备及介质,以至少解决现有技术中存在的以上技术问题。
4.根据本公开的第一方面,提供了一种基于视频的病灶分类方法,所述方法包括:采集病灶的多个样本超声视频和多个样本超声图像,从所述多个样本超声视频中获取视频片段集合,从所述多个样本超声图像中获取图像集合;对所述视频片段集合和所述图像集合分别进行多层特征提取,得到相应的训练视频特征图集和训练图像特征图集,所述训练视频特征图集包括多个特征图,所述训练图像特征图集包括多个特征图;对所述训练视频特征图集和所述训练图像特征图集分别进行全局平均池化操作,得到视频分支特征和图像分支特征;基于所述视频分支特征和所述图像分支特征进行训练,得到病灶分类模型;对待识别病灶的超声视频进行所述多层特征提取,得到待识别病灶的特征图集;对所述待识别病灶的特征图集进行全局平均池化操作,得到待识别的视频特征;通过所述病灶分类模型对所述待识别的视频特征进行识别,得到待识别病灶的分类结果。
5.在一可实施方式中,所述从所述多个样本超声视频中获取视频片段集合,包括:每次从任一所述样本超声视频中随机抽取指定帧数的图像,得到视频片段;重复多次随机抽取所述视频片段,得到视频片段集合。
6.在一可实施方式中,所述多层特征提取包括:第一层特征提取过程包括:通过一层卷积层进行卷积操作;第二层特征提取过程包括:通过一层最大池化层进行池化操作;第三层特征提取过程依次包括三个瓶颈层:bottleneck1、bottleneck2和bottleneck2;第四层特征提取过程包括:通过一层最大池化层进行池化操作;第五层特征提取过程依次包括四个瓶颈层:bottleneck1、bottleneck2、bottleneck2和bottleneck2;第六层特征提取过程依次包括六个瓶颈层:bottleneck1、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2;第七层特征提取过程依次包括三个瓶颈层:bottleneck1、
bottleneck2和bottleneck2。
7.在一可实施方式中,所述对所述视频片段集合和所述待识别病灶的超声视频进行的多层特征提取中,所述池化操作为三维池化;对所述图像集合进行的多层特征提取中,所述池化操作为二维池化;所述视频片段集合进行的多层特征提取与所述图像集合的多层特征提取中的卷积操作的卷积参数相同。
8.在一可实施方式中,所述所述基于所述视频分支特征和所述图像分支特征进行训练,得到病灶分类模型,包括:分别对所述视频分支特征和所述图像分支特征进行分类预测,得到视频特征加权值和图像特征加权值;基于所述视频特征加权值和所述图像特征加权值,确定每一病灶分类级别对应的视频分支概率数据和图像分支概率数据;基于所述视频分支概率数据和所述图像分支概率数据,计算交叉熵损失,得到视频分支损失值和图像分支损失值;
9.对所述视频分支损失值和所述图像分支损失值进行加权计算,得到最终损失值;对所述最终损失值进行求导,得到梯度;基于梯度进行反向传播,更新模型参数,得到病灶分类模型;其中,所述视频片段集合进行的多层特征提取与所述图像集合的多层特征提取中的卷积操作中的卷积参数同步更新。
10.在一可实施方式中,所述所述对所述视频分支损失值和所述图像分支损失值进行加权计算,得到最终损失值,包括:所述视频分支损失值对应的权重值大于所述图像分支损失值对应的权重值。
11.在一可实施方式中,所述通过所述病灶分类模型对待识别的视频特征进行识别,得到待识别病灶的分类结果,包括:对待识别的视频特征进行分类预测,得到特征加权值;基于特征加权值,得到每一病灶分类级别对应的概率数据;基于概率数据,选取所有分级的最大概率值对应的分级作为所述待识别病灶的分类结果。
12.根据本公开的第二方面,提供了一种基于视频的病灶分类装置,所述装置包括:采集模块,用于采集病灶的多个样本超声视频和多个样本超声图像,从所述多个样本超声视频中获取视频片段集合,从所述多个样本超声图像中获取图像集合;其中,所述视频片段集合中包括若干视频片段;特征提取计算模块,用于对所述视频片段集合和所述图像集合分别进行多层特征提取,得到相应的训练视频特征图集和训练图像特征图集,所述训练视频特征图集包括多个特征图,所述训练图像特征图集包括多个特征图;对所述训练视频特征图集和所述训练图像特征图集分别进行全局平均池化操作,得到视频分支特征和图像分支特征;对待识别病灶的超声视频进行所述多层特征提取,得到待识别病灶的特征图集;对所述待识别病灶的特征图集进行全局平均池化操作,得到待识别的视频特征;训练模块,用于基于所述视频分支特征和所述图像分支特征进行训练,得到病灶分类模型;分类预测模块,用于通过所述病灶分类模型对所述待识别的视频特征进行识别,得到待识别病灶的分类结果。
13.根据本公开的第三方面,提供了一种电子设备,包括:
14.至少一个处理器;以及
15.与所述至少一个处理器通信连接的存储器;其中,
16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
17.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
18.本公开的基于视频的病灶分类方法、装置、设备及存储介质,通过少量的样本超声视频和大量的样本超声图像同时对病灶分类模型进行训练,并在特征提取过程中的卷积操作实现参数共享,使得样本超声视频和样本超声图像均通过同一卷积参数进行卷积,对处理好的视频特征图集和图像特征图集分别进行分类预测,分别得到视频分支概率值和图像分支概率值,然后分别计算视频分支损失值和图像分支的损失值,通过加权计算得到模型的最终损失值,基于损失值得到梯度并进行反向传播,对病灶分类模型进行参数更新,其中,对样本超声视频和样本超声图像实现参数共享的卷积参数进行同步更新。通过使用少量样本超声视频和大量的样本超声图像进行特征分类训练,使得病灶分类模型在少量样本超声视频训练的基础上,能够保证模型训练的效果,同时又能通过大量的样本超声图像保证足够的训练样本,能够使训练出的病灶分类模型对待识别病灶实现较好的分类预测效果。
19.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
21.在附图中,相同或对应的标号表示相同或对应的部分。
22.图1示出了本公开实施例病灶分类方法的实现流程示意图一;
23.图2示出了本公开实施例病灶分类方法的实现流程示意图二;
24.图3示出了本公开实施例病灶分类方法的实现流程示意图三;
25.图4示出了本公开实施例病灶分类方法的实现流程示意图四;
26.图5示出了本公开实施例病灶分类方法的实现流程示意图五;
27.图6示出了本公开实施例病灶分类装置的组成结构示意图;
28.图7示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
29.为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
30.为了提高对病灶分类的准确性,如图1所示,本公开的实施例提供一种基于视频的病灶分类方法,该方法包括:
31.步骤101,采集病灶的多个样本超声视频和多个样本超声图像,从多个样本超声视频中获取视频片段集合,从多个样本超声图像中获取图像集合。
32.在每个样本超声视频中,均包括若干帧含有病灶特征的连续图像。例如,当该病灶
分类方法用于对乳腺病灶进行分类时,样本超声视频内即包含乳腺病灶特征。同样,在采集的多个样本超声图像中,每一样本超声图像内均包含病灶的图像特征。
33.视频片段集合中包括若干组从多个样本超声视频中获取的视频片段,每一视频片段对应一样本超声视频,一样本超声视频可对应多个视频片段。
34.在获取到视频片段和样本超声图像后,将每一视频片段和每一样本超声图像均缩放至合适的尺寸。
35.在一个示例中,在采集的多个样本超声视频中,每次从任一样本超声视频中随机抽取指定帧数的图像,将这些图像组成一个视频片段,其中,从该样本超声视频中随机选取其中一帧作为视频片段的第一帧,重复多次随机抽取视频片段,得到视频片段集合。
36.例如,在抽取视频片段时,随机从任一样本超声视频中选取其中一帧作为第一帧,根据第一帧沿时间信息抽取16帧图像,每帧之间间隔1帧抽取,组成一个视频片段。本公开对抽取的指定帧数和每帧之间间隔的帧数不做限制,在本实施例中,以上述数据为例进行解释说明。
37.在一个示例中,可从获取的若干样本超声图像中选取病灶特征较为清楚的超声图像组成图像集合,也可选取所获得的所有样本超声图像组成图像集合。
38.在一示例中,样本超声图像可从样本超声视频中截取,但不限于从样本超声视频中获得,也可直接从诊断疾病过程中留存在报告系统中采集静态超声图像作为训练用的样本超声图像。
39.步骤102,对视频片段集合和图像集合分别进行多层特征提取,得到相应的训练视频特征图集和训练图像特征图集。每层特征提取包括视频特征提取和图像特征提取,将当前层视频特征提取结果和图像特征提取结果分别作为下一层视频特征提取和图像特征提取的输入,将最后一层视频特征提取结果作为训练视频特征图集,将最后一层图像特征提取结果作为训练图像特征图集。
40.其中,视频特征提取和图像特征提取均包括卷积操作和池化操作,对同一层视频特征提取和图像特征提取中的卷积操作均共享同一卷积参数;视频特征提取中的池化操作为三维池化,图像特征提取中的池化操作为二维池化;每一层视频特征提取结果和图像特征提取结果分别为特征图的集合。
41.在本公开的一个示例中,对视频片段集合和图像集合分别进行多层特征提取均依次包括:
42.第一层特征提取过程包括:通过一层卷积层进行卷积操作;
43.第二层特征提取过程包括:通过一层最大池化层进行池化操作;
44.第三层特征提取过程依次包括三个瓶颈层(bottleneck layer):bottleneck1、bottleneck2和bottleneck2;
45.第四层特征提取过程包括:通过一层最大池化层进行池化操作;
46.第五层特征提取过程依次包括四个瓶颈层:bottleneck1、bottleneck2、bottleneck2和bottleneck2;
47.第六层特征提取过程依次包括六个瓶颈层:bottleneck1、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2;
48.第七层特征提取过程依次包括三个瓶颈层:bottleneck1、bottleneck2和
bottleneck2。
49.下面通过图2来具体说明该多层特征提取的过程:
50.1、第一层(conv1)包括视频特征提取和图像特征提取,在该层中,通过同一层卷积层分别对视频片段集合和图像集合进行特征提取,得到第一视频特征图集和第一图像特征图集。
51.其中,卷积层依次包括:2d卷积核、bn和relu激活函数。因为每一视频片段均由若干帧图像组成,所以视频片段和样本超声图像可以使用同一个2d卷积来提取空间特征。首先通过2d卷积核进行卷积操作,提取输入图像的空间维度特征,然后通过bn进行归一化处理,最后通过relu激活函数进行激活。
52.1.1、conv1视频特征提取:输入为视频片段集合,对视频片段集合中每一视频片段分别通过该层卷积层进行特征提取,得到对应的特征图,每个视频片段对应的特征图组成第一层视频特征图集。
53.1.2、conv1图像特征提取:输入为图像集合,对图像集合中每一样本超声图像分别通过该层卷积层进行特征提取,得到对应的特征图,每个样本超声图像对应的特征图组成第一层图像特征图集。
54.在该层中,采用同一层卷积层对视频片段集合和图像集合进行2d卷积,因此,在对视频片段集合和图像集合执行卷积操作时的卷积参数均相同,即卷积核内的权重值、卷积核的大小、步长和输出的通道数均相同。
55.2、第二层(pool1)包括视频特征提取和图像特征提取,在该层中,通过最大池化层分别对第一层视频特征图集和第一层图像特征图集执行最大池化操作。
56.2.1、pool1视频特征提取:输入为第一层视频特征图集,对第一层视频特征图集执行最大池化操作,得到第二层视频特征图集。其中,在该层中,对第一层视频特征图集执行的池化为三维池化。
57.2.2、pool1图像特征提取:输入为第一层图像特征图集,对第一层图像特征图集执行最大池化操作,得到第二层图像特征图集。其中,在该层中,对第一层图像特征图集执行的池化为二维池化。
58.3、第三层(res2)包括视频特征提取和图像特征提取,在该层中,经过三个瓶颈层(bottleneck layer)分别对第二层视频特征图集和第二层图像特征图集进行特征提取。
59.3.1、res2视频特征提取:输入为第二层视频特征图集,将第二层视频特征图集经过三个瓶颈层进行特征提取。
60.其中,瓶颈层结构分为两种:
61.(1)bottleneck2:输入特征图与输出特征图通道数相同。
62.例如,形状为(c,w,w)的输入特征图,其中,c为通道数,w为特征图的宽或高。将该输入特征图依次经过3个卷积层进行处理:
63.第一层卷积层包括:步长为1的1*1卷积核、bn和relu,对输入的(c,w,w)的输入特征图处理,得到的特征图形状为(c/4,w,w),输入第二层卷积层;
64.第二层卷积层包括:步长为1的3*3卷积核、bn和relu,对输入的(c/4,w,w)的输入特征图处理,得到的特征图的形状为(c/4,w,w),输入第三层卷积层;
65.第三层卷积层包括:步长为1的1*1卷积核、bn和relu,对输入的(c/4,w,w)的输入
特征图处理,得到的特征图形状为(c,w,w)。
66.最后将经过三个卷积层处理得到的特征图与输入特征图相加后再经过1个relu激活函数,就得到了bottleneck2的输出特征图,输出特征图的形状仍为(c,w,w)。
67.(2)bottleneck1:输入特征图与输出特征图通道数不同。
68.与bottleneck2相比多了位于另一条处理分支的一个卷积层。例如,形状为(c,w,w)的输入特征图,在第一条处理分支中,依次经过3个卷积层处理:
69.第一层卷积层依次包括:步长为s的1*1卷积核、bn和relu,对输入的(c,w,w)的输入特征图处理,得到的特征图的形状为(c1,w/s,w/s),输入第二层卷积层;
70.第二层卷积层依次包括:步长为1的3*3卷积核、bn和relu,对输入的(c1,w/s,w/s)的输入特征图处理,得到的特征图的形状为(c1,w/s,w/s),输入第三层卷积层;
71.第三层卷积层依次包括:步长为1的1*1卷积核、bn和relu,对输入的(c1,w/s,w/s)的输入特征图处理,得到的特征图的形状为(c1*4,w/s,w/s)。
72.在第二条处理分支,输入特征图(c,w,w)经过一层卷积层进行处理,该层卷积层包括:步长为s的1*1卷积核和bn,得到的特征图形状为(c1*4,w/s,w/s)。
73.将第一条处理分支得到的特征图(c1*4,w/s,w/s)与第二条处理分支得到的特征图(c1*4,w/s,w/s)相加后再经过1个relu激活函数,就得到了bottleneck1的输出特征图,形状为(c1*4,w/s,w/s)。
74.该示例中,第三层(res2)的视频特征提取所采用的三个瓶颈层依次为bottleneck1(s=1,c1=c)、bottleneck2和bottleneck2,得到第三层视频特征图集。
75.3.2、res2图像特征提取:输入为第二层图像特征图集,采用与res2视频特征提取相同的三个瓶颈层对第二层图像特征图集进行特征提取,三个瓶颈层依次为bottleneck1(s=1,c1=c)、bottleneck2和bottleneck2,得到第三层图像特征图集。
76.在第三层(res2)中,对第二层视频特征图集和第二层图像特征图集特征提取的参数共享,即使用同一参数分别对第二层视频特征图集和第二层图像特征图集进行特征提取。
77.4、第四层(pool2)包括视频特征提取和图像特征提取。在该层中,通过最大池化层分别对第三层视频特征图集和第三层图像特征图集执行最大池化操作。
78.4.1、pool2视频特征提取:输入为第三层视频特征图集,对第三层视频特征图集执行最大池化操作,得到第四层视频特征图集。其中,在该层中,对第三层视频特征图集执行的池化为三维池化。
79.4.2、pool2图像特征提取:输入为第三层图像特征图集,对第三层图像特征图集执行最大池化操作,得到第四层图像特征图集。其中,在该层中,对第三层图像特征图集执行的池化为二维池化。
80.5、第五层(res3)包括视频特征提取和图像特征提取,在该层中,经过四个瓶颈层(bottleneck layer)分别对第四层视频特征图集和第四层图像特征图集进行特征提取。
81.5.1、res3视频特征提取:输入为第四层视频特征图集,将第四层视频特征图集经过四个瓶颈层进行特征提取。采用的四个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2和bottleneck2,得到第五层视频特征图集。
82.5.2、res3图像特征提取:输入为第四层图像特征图集,采用与res3视频特征提取
相同的四个瓶颈层对第四层图像特征图集进行特征提取,四个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2和bottleneck2,得到第五层图像特征图集。
83.在第五层(res3)中,对第四层视频特征图集和第四层图像特征图集特征提取的参数共享,即使用同一参数分别对第四层视频特征图集和第四层图像特征图集进行特征提取。
84.6、第六层(res4)包括视频特征提取和图像特征提取,在该层中,经过六个瓶颈层(bottleneck layer)分别对第五层视频特征图集和第五层图像特征图集进行特征提取。
85.6.1、res4视频特征提取:输入为第五层视频特征图集,将第五层视频特征图集经过六个瓶颈层进行特征提取。采用的六个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2,得到第六层视频特征图集。
86.6.2、res4图像特征提取:输入为第五层图像特征图集,采用与res4视频特征提取相同的六个瓶颈层对第五层图像特征图集进行特征提取,六个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2,得到第六层图像特征图集。
87.在第六层(res4)中,对第五层视频特征图集和第五层图像特征图集特征提取的参数共享,即使用同一参数分别对第五层视频特征图集和第五层图像特征图集进行特征提取。
88.7、第七层(res5)包括视频特征提取和图像特征提取,在该层中,经过三个瓶颈层(bottleneck layer)分别对第六层视频特征图集和第六层图像特征图集进行特征提取。
89.7.1、res5视频特征提取:输入为第六层视频特征图集,将第六层视频特征图集经过三个瓶颈层进行特征提取。采用的三个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2和bottleneck2,得到第七层视频特征图集。
90.7.2、res5图像特征提取:输入为第六层图像特征图集,采用与res5视频特征提取相同的三个瓶颈层对第六层图像特征图集进行特征提取,三个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2和bottleneck2,得到第七层图像特征图集。
91.在第七层(res5)中,对第六层视频特征图集和第六层图像特征图集特征提取的参数共享,即使用同一参数分别对第六层视频特征图集和第六层图像特征图集进行特征提取。
92.经过上述七层的特征提取,将第七层视频特征图集作为训练视频特征图集,将第七层图像特征图集作为训练图像特征图集。
93.步骤103,对训练视频特征图集和训练图像特征图集分别进行全局平均池化操作,得到视频分支特征和图像分支特征。
94.将第七层视频特征图集和第七层图像特征图集分别输入一层全局平均池化层中进行全局平均池化。全局平均池化层对输入的每一张特征图计算该特征图内所有像素点的均值,输出一个数据值,所有数据值组成特征。
95.例如,第七层图像特征图集的维度为(b,c,h,w),其中,b为样本数量(batch-size),c为特征图通道数,h和w分别为特征图的高和宽。第七层图像特征图集的其中一张特征图(h,w)经过全局平均池化后,输出为一个1*1的数据值;特征图的所有通道(c,h,w)经过
全局平均池化后,输出为c*1的数据;将第七层图像特征图集(b,c,h,w)经过全局平均池化后,输出为b*c*1的图像分支特征。
96.通过对训练视频特征图集和训练图像特征图集分别进行全局平均池化,对训练视频特征图集和训练图像特征图集内的特征图进行降维,同时,减少了全连接层和模型整体的参数量,防止病灶分类模型过拟合。
97.步骤104,基于视频分支特征和图像分支特征进行训练,得到病灶分类模型。
98.在一示例中,基于视频分支特征和图像分支特征进行训练,如图3所示,包括:
99.步骤1041,分别对视频分支特征和图像分支特征进行分类预测,得到视频特征加权值和图像特征加权值。
100.在一示例中,对视频分支特征和图像分支特征均采用全连接层进行分类预测,将视频分支特征和图像分支特征分别输入指定层数的全连接层处理,得到视频分支特征对应的视频特征加权值和图像分支特征对应的图像特征加权值。在一可实施方式中,全连接层的层数设置为一层。
101.步骤1042,基于视频特征加权值和图像特征加权值,计算得到每一病灶分类级别对应的视频分支概率数据和图像分支概率数据。
102.在一示例中,将视频特征加权值和图像特征加权值分别通过softmax函数进行概率分布计算,得到视频分支概率数据和图像分支概率数据其中i为样本序号。针对不同疾病的病灶分类,可采用相应的的病灶分类级别,例如,基于乳腺病灶bi-rads分级,主要分类为六级。概率数据中包括每一分级对应的概率值,即为针对样本超声视频中的病灶信息,预测该病灶属于每一分级的概率值。其中,视频分支概率数据p
vid
包括基于bi-rads分级每一级对应的视频分支概率值同样,图像分支概率数据包括基于bi-rads分级每一级对应的图像分支概率值其中,c为针对bi-rads分级在训练时对应的类别标签。
103.步骤1043,基于视频分支概率数据和图像分支概率数据,结合金标准标签计算交叉熵损失,得到视频分支损失值和图像分支损失值。
104.其中,bi-rads与金标准标签y一一对应为:{2∶0、3∶1、4a∶2、4b∶3、4c∶4、5∶5},其中,2、3、4a、4b、4c、5是bi-rads分级,0、1、2、3、4、5是训练时对应的类别标签。
105.对视频分支损失值loss
vid
和图像分支损失值loss
img
的计算公式如下:
[0106][0107][0108]
其中,n代表样本个数,c代表要预测的类别数,在本公开中,c={0,1,2,3

5},分别代表视频和图像的bi-rads金标准标签,为视频分支概率数据,为视频分支概率值,为图像分支概率数据,为图像分支概率值。
[0109]
步骤1044,对视频分支损失值loss
vid
和图像分支损失值loss
img
进行加权计算,得到最终损失值loss。
[0110]
对视频分支损失值loss
vid
和图像分支损失值loss
img
的加权计算通过以下公式进行计算:
[0111]
loss=αloss
img
βloss
vid
[0112]
α β=1
[0113]
其中,α、β为预先设置的权重值,α为图像分支权重值,β为视频分支权重值。
[0114]
在一示例中,视频分支损失值对应的视频分支权重值β大于图像分支损失值对应的图像分支权重值α,例如,α的权重值设置为0.3,β的权重值设置为0.7。
[0115]
步骤1045,对最终损失值进行求导,得到梯度;对梯度进行反向传播,并结合梯度优化算法adam更新模型参数,得到病灶分类模型。其中,adam算法即自适应时刻估计方法(adaptive moment estimation),用于计算每个参数的自适应学习率,通过使用动量和自适应学习率来加快模型的收敛速度。其中,视频片段集合进行的多层特征提取与图像集合的多层特征提取中的卷积操作中的卷积参数同步更新。
[0116]
需要指出的是,这里所更新的参考包括步骤102中多层特征提取方案中模型的参数,也包括步骤104中分类模型的参数。其中,对步骤102中第一层(conv1)、第三层(res2)、第五层(res3)、第六层(res4)和第七层(res5)中的卷积参数进行同步更新,即在参数更新完成之后,步骤102中第一层(conv1)、第三层(res2)、第五层(res3)、第六层(res4)和第七层(res5)中的卷积参数同样保持一致。
[0117]
参数更新之后,重新执行步骤101-104,直至模型收敛。
[0118]
步骤105,对待识别病灶的超声视频进行多层视频特征提取,得到视频特征图集。
[0119]
本公开示例中,对待识别病灶的超声视频进行多层视频特征提取时,可先从待识别病灶的超声视频中获取视频片段,此时第一层视频特征提取的输入为该视频片段,也可将完整的待识别病灶的超声视频直接进行第一层的视频特征提取,本实施例在此不做限制。将当前层视频特征提取结果作为下一层视频特征提取的输入;视频特征提取结果为视频特征图的集合。
[0120]
而这里的多层视频特征提取模型与上述步骤102中的多层视频特征提取模型相同。第一层的输入为待识别病灶的超声视频或从待识别病灶的超声视频中获取的视频片段集合,其他层的输入均为上一层输出的视频特征图集,如图4所示,该多层视频特征提取过程包括:
[0121]
步骤1051,在第一层(conv1)中,通过一层卷积层对超声视频或视频片段集合进行特征提取,得到第一视频特征图集。
[0122]
其中,卷积层依次包括:2d卷积核、bn和relu激活函数。
[0123]
超声视频或视频片段集合通过该层卷积层进行特征提取,得到若干对应的特征图,所有特征图组成第一层视频特征图集。
[0124]
步骤1052,在第二层(pool1)中,输入为第一层视频特征图集,对第一层视频特征图集执行最大池化操作,得到第二层视频特征图集。其中,在该层中,对第一层视频特征图集执行的池化为三维池化。
[0125]
步骤1053,在第三层(res2)中,输入为第二层视频特征图集,将第二层视频特征图
集经过三个瓶颈层进行特征提取。第三层(res2)的视频特征提取所采用的三个瓶颈层依次为bottleneck1(s=1,c1=c)、bottleneck2和bottleneck2,得到第三层视频特征图集。
[0126]
步骤1054,在第四层(pool2)中,输入为第三层视频特征图集,对第三层视频特征图集执行最大池化操作,得到第四层视频特征图集。其中,在该层中,对第三层视频特征图集执行的池化为三维池化。
[0127]
步骤1055,在第五层(res3)中,输入为第四层视频特征图集,将第四层视频特征图集经过四个瓶颈层进行特征提取。采用的四个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2和bottleneck2,得到第五层视频特征图集。
[0128]
步骤1056,在第六层(res4)中,输入为第五层视频特征图集,将第五层视频特征图集经过六个瓶颈层进行特征提取。采用的六个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2,得到第六层视频特征图集。
[0129]
步骤1057,在第七层(res5)中,输入为第六层视频特征图集,将第六层视频特征图集经过三个瓶颈层进行特征提取。采用的三个瓶颈层依次为bottleneck1(s=2,c1=c/2)、bottleneck2和bottleneck2,得到第七层视频特征图集。
[0130]
将最后一层输出的视频特征图集作为待识别病灶的特征图集,在本实施例中,将第七层视频特征图集作为待识别病灶的特征图集。
[0131]
步骤106,对待识别病灶的特征图集进行全局平均池化(global average pooling)操作,得到待识别的视频特征。
[0132]
将待识别病灶的特征图集输入一层全局平均池化层中进行全局平均池化,得到待识别的视频特征。全局平均池化层对输入的每一张特征图计算该特征图内所有像素点的均值,输出一个数据值,所有特征图对应的数据值组成待识别的视频特征。
[0133]
步骤107,通过病灶分类模型对待识别的视频特征进行识别,得到待识别病灶的分类结果。
[0134]
在一示例中,通过所述病灶分类模型对所述待识别的视频特征进行识别,如图5所示,包括:
[0135]
步骤1071,对待识别的视频特征进行分类预测,得到特征加权值。
[0136]
在一示例中,对待识别的视频特征的分类预测采用全连接层,将待识别的视频特征输入指定层数的全连接层处理,得到特征加权值。
[0137]
步骤1072,基于特征加权值,得到每一病灶分类级别对应的概率数据。
[0138]
在一示例中,将特征加权值使用softmax函数进行概率分布计算,得到概率数据p。
[0139]
步骤1073,基于概率数据,选取概率数据中最大概率值对应的分级作为待识别病灶的分类结果。
[0140]
根据本公开的实施例,本公开还提供了一种基于视频的病灶分类装置,如图6所示,装置包括:
[0141]
采集模块,用于采集病灶的多个样本超声视频和多个样本超声图像,从多个样本超声视频中获取视频片段集合,从多个样本超声图像中获取图像集合;其中,视频片段集合中包括若干视频片段;
[0142]
特征提取计算模块,用于对视频片段集合和图像集合分别进行多层特征提取,得
到相应的训练视频特征图集和训练图像特征图集,训练视频特征图集包括多个特征图,训练图像特征图集包括多个特征图;对训练视频特征图集和训练图像特征图集分别进行全局平均池化操作,得到视频分支特征和图像分支特征;对待识别病灶的超声视频进行多层特征提取,得到待识别病灶的特征图集;对待识别病灶的特征图集进行全局平均池化操作,得到待识别的视频特征;
[0143]
训练模块,用于基于视频分支特征和图像分支特征进行训练,得到病灶分类模型;
[0144]
分类预测模块,用于通过病灶分类模型对待识别的视频特征进行识别,得到待识别病灶的分类结果。
[0145]
在一实施例中,采集模块,还用于每次从任一样本超声视频中随机抽取指定帧数的图像,得到视频片段;重复多次随机抽取视频片段,得到视频片段集合。
[0146]
在一实施例中,特征提取计算模块中,多层特征提取包括:
[0147]
第一层特征提取过程包括:通过一层卷积层进行卷积操作;
[0148]
第二层特征提取过程包括:通过一层最大池化层进行池化操作;
[0149]
第三层特征提取过程依次包括三个瓶颈层:bottleneck1、bottleneck2和bottleneck2;
[0150]
第四层特征提取过程包括:通过一层最大池化层进行池化操作;
[0151]
第五层特征提取过程依次包括四个瓶颈层:bottleneck1、bottleneck2、bottleneck2和bottleneck2;
[0152]
第六层特征提取过程依次包括六个瓶颈层:bottleneck1、bottleneck2、bottleneck2、bottleneck2、bottleneck2和bottleneck2;
[0153]
第七层特征提取过程依次包括三个瓶颈层:bottleneck1、bottleneck2和bottleneck2。
[0154]
在一实施例中,特征提取模块,对视频片段集合和待识别病灶的超声视频进行的多层特征提取中,池化操作为三维池化;对图像集合进行的多层特征提取中,池化操作为二维池化;视频片段集合进行的多层特征提取与图像集合的多层特征提取中的卷积操作的卷积参数相同。
[0155]
在一实施例中,分类预测模块,还用于对特征进行分类预测,得到特征加权值;基于特征加权值,得到每一病灶分类级别对应的概率数据;基于概率数据,选取所有分级的最大概率值对应的分级作为待识别病灶的分类结果。
[0156]
在一实施例中,训练模块,还用于分别对视频分支特征和图像分支特征进行分类预测,得到视频特征加权值和图像特征加权值;基于视频特征加权值和图像特征加权值,计算得到每一病灶分类级别对应的视频分支概率数据和图像分支概率数据;基于视频分支概率数据和图像分支概率数据,结合金标准标签计算交叉熵损失,得到视频分支损失值和图像分支损失值;对最终损失值进行求导,得到梯度;基于梯度进行反向传播,同步更新视频片段集合进行的多层特征提取与图像集合的多层特征提取中的卷积操作中的卷积参数,得到病灶分类模型。
[0157]
在一实施例中,训练模块,还用于视频分支损失值对应的权重值大于图像分支损失值对应的权重值。
[0158]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0159]
图7示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0160]
如图7所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0161]
设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0162]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如病灶分类方法。例如,在一些实施例中,基于视频的病灶分类方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的病灶分类方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行病灶分类方法。
[0163]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0164]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0165]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供
指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0166]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0167]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0168]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0169]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0170]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0171]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献