一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型训练方法及神经网络模型、图片分类方法及系统与流程

2022-08-14 00:21:46 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种模型训练方法及神经网络模型、图片分类方法及系统。


背景技术:

2.深度学习是从数据中学习的一种技术,目前在业界得到广泛的应用,基于深度学习的图片分类具有较高的准确率。
3.深度学习之所以强大,是因为其可以从数据中能够学习到特征,从而挖掘新的规律,深度学习模型越复杂,则学习能力越强,这是深度学习的优点也是深度学习的缺点,当模型越来越复杂时候,其训练成本以及计算成本也会越来越高,反而导致其应用的准确性。
4.虽然说在复杂模型中,也有一些优化的办法,比如采用dropout等降低训练成本,也可以采用知识蒸馏的方法来优化模型的复杂度。但在复杂的模型中,比如在诸如包含老师网络和学生网路构成的复杂模型中,中间特征层形状不一样,传统方法无法对中间特征层进行蒸馏,从而难以起到优化的效果。


技术实现要素:

5.本发明为解决现有技术中存在的技术问题,提出一种模型训练方法,包括步骤:
6.s1:构建训练模型,所述训练模型包括第一神经网路和第二神经网路;
7.s2:分别将训练信息输入至第一神经网路和第二神经网路:
8.s3:将第一神经网路的特征注意力进行集成处理;
9.s4:将第一神经网络的注意力机制迁移至第二神经网路;
10.s5:分别对第一神经网络、第二神经网络进行更新。
11.进一步地,s3:将第一神经网路的特征注意力进行集成处理包括:
12.所述第一神经网络包括若干个特征层,对当前特征层的通道进行压缩处理;
13.对当前特征层压缩后的通道进行还原处理;
14.将还原得到的特征映射到0-1之间,得到当前特征层的加权特征;
15.将当前特征层的加权特征作为下一特征层的输入;
16.将当前特征层进行降采样处理,并与下一特征层进行压缩处理后得到的特征进行拼接;
17.将拼接得到的特征进行还原处理并映射到0-1之间,得到下一特征层的加权特征。
18.进一步地,将还原得到的特征或者拼接得到的特征映射到0-1之间,使用的映射函数为sigmoid函数。
19.进一步地,s4:将第一神经网络的注意力机制迁移至第二神经网路包括:
20.将第一神经网络和第二神经网络设置相同的的特征层数;
21.将第一神经网路的各个特征层的输出通道进行压缩或者提升处理,得到与第二神经网络的对应特征层的特征通道数相同;
22.第一神经网路的特征层和对应第二神经网络的特征层之间均采用l2损失函数进行计算。
23.进一步地,s5:分别对第一神经网络、第二神经网络进行更新包括:
24.将第一神经网络中各个特征层的损失进行相加,进行误差反向传播,并更新参数;
25.将第二神经网络中各个特征层的损失进行相加,进行误差反向传播,并更新参数。
26.本发明还公开一种神经网络模型,包括第一神经网路和第二神经网路、迁移模块,其中:
27.第一神经网路、第二神经网络分别用以对输入的信息进行特征提取;
28.迁移模块用以将第一神经网络的知识传递给第二神经网络;
29.所述神经网络模型的训练方法为所述模型训练方法。
30.本发明还提供一种图片分类方法,包括步骤:
31.接收输入的图片;
32.神经网络模型对图片进行分析并分类;
33.返回输出结果,
34.所述神经网络为所述模型训练方法得到的神经网络模型。
35.本发明还提供一种图片分类系统,包括交互单元、处理模块,其中:
36.交互单元用以接收输入的图片;
37.处理模块用以对输入的图片进行处理并向交互单元返回分类结果,
38.所述神经网络为所述模型训练方法得到的神经网络模型。
39.本发明还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行所述的图片分类方法。
40.本发明还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以所述的图片分类方法。
41.本发明公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
42.由此可见,本发明可以将一个神经网络的知识传递给另一神经网络,既能够优化模型,又能提高训练的效率。
43.为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
44.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例的模型训练方法流程示意图。
具体实施方式
46.本技术提供一种模型训练方法,包括步骤:
47.s1:构建训练模型,所述训练模型包括第一神经网路和第二神经网路;
48.s2:分别将训练信息输入至第一神经网路和第二神经网路:
49.s3:将第一神经网路的特征注意力进行集成处理;
50.s4:将第一神经网络的注意力机制迁移至第二神经网路;
51.s5:分别对第一神经网络、第二神经网络进行更新。
52.本技术以训练信息为图片作为例子,结合各种优选的实施方式进行详细说明本技术的技术方案。
53.对于复杂的申请网络模型,有可能构建包含有多个神经网络模块,分别用提取不同的特征,本技术实施例中,第一神经网络和第二神经网络均包括若干个特征层,为了更好地将第一神经网络的知识传递给第二神经网络,在传递知识给第二神经网络之前,需要对第一神经网路的特征注意力进行集成处理,具体包括:
54.对当前特征层的通道进行压缩处理;
55.对当前特征层压缩后的通道进行还原处理;
56.将还原得到的特征映射到0-1之间,得到当前特征层的加权特征,映射所使用的映射函数为sigmoid函数,也可以使用softmax函数等来进行。
57.将当前特征层的加权特征作为下一特征层的输入;
58.将当前特征层进行降采样处理,并与下一特征层进行压缩处理后得到的特征进行拼接;
59.将拼接得到的特征进行还原处理并映射到0-1之间,得到下一特征层的加权特征,映射所使用的映射函数为sigmoid函数,也可以使用softmax函数或者其他的函数。
60.进一步地,s4:将第一神经网络的注意力机制迁移至第二神经网路包括:
61.将第一神经网络和第二神经网络设置相同的的特征层数;
62.将第一神经网路的各个特征层的输出通道进行压缩或者提升处理,得到与第二神经网络的对应特征层的特征通道数相同,在进行压缩或者提升处理的过程中,均使用大小为3x3的卷积核来实现。
63.第一神经网路的特征层和对应第二神经网络的特征层之间均采用l2损失函数进行计算。
64.进一步地,s5:分别对第一神经网络、第二神经网络进行更新包括:
65.将第一神经网络中各个特征层的损失进行相加,进行误差反向传播,并更新参数;
66.将第二神经网络中各个特征层的损失进行相加,进行误差反向传播,并更新参数。
67.本发明还公开一种神经网络模型,包括第一神经网路和第二神经网路、迁移模块,其中:
68.第一神经网路、第二神经网络分别用以对输入的信息进行特征提取;
69.迁移模块用以将第一神经网络的知识传递给第二神经网络;
70.所述神经网络模型的训练方法为所述模型训练方法。
71.基于上述实施例,本技术还提供一种图片分类方法,包括步骤:
72.接收输入的图片;
73.神经网络模型对图片进行分析并分类;
74.返回输出结果。
75.所述神经网络为上述实施例模型训练方法得到的神经网络模型。
76.相应地,基于上述实施例,本技术还提供一种图片分类系统,包括交互单元、处理模块,其中:
77.交互单元用以接收输入的图片;
78.处理模块用以对输入的图片进行处理并向交互单元返回分类结果,
79.所述处理模块为上述实施例模型训练方法得到的神经网络模型。
80.本技术实施例还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行如上述的图片分类方法。本技术实施例还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述任一所述的图片分类方法。
81.需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
82.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献