一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种神经网络搜索方法及相关设备与流程

2021-11-17 23:46:00 来源:中国专利 TAG:

技术特征:
1.一种神经网络搜索方法,其特征在于,所述方法包括:获取多个候选神经网络;其中,所述多个候选神经网络中的至少一个候选神经网络包括目标transformer层,所述目标transformer层包括目标注意力头head,所述目标注意力head包括多个算子,且所述多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;基于所述多个候选神经网络的性能,从所述多个候选神经网络中选择目标神经网络。2.根据权利要求1所述的方法,其特征在于,所述目标注意力head为基于所述多个算子以及所述多个算子之间的排列关系构建的,所述多个算子之间的排列关系为基于采样的方式确定的。3.根据权利要求1或2所述的方法,其特征在于,所述目标注意力head还包括第一线性变换层,所述第一线性变换层用于通过目标变换矩阵对所述目标注意力head的输入向量进行处理,所述多个算子用于对所述第一线性变换层的数据处理结果进行运算。4.根据权利要求3所述的方法,其特征在于,所述目标变换矩阵仅包括x个变换矩阵,所述x为小于或等于4的正整数,且所述x的数量为基于采样的方式确定的。5.根据权利要求1至4任一所述的方法,其特征在于,所述目标注意力head的输入向量和所述目标注意力head的输出向量的尺寸大小一致。6.根据权利要求1至5任一所述的方法,其特征在于,所述目标注意力head包括的算子的数量小于预设值。7.根据权利要求1至6任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层,所述目标transformer层在所述多个网络层中的位置为基于采样的方式确定的。8.根据权利要求1至7任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层以及目标网络层,所述目标网络层包括卷积层。9.根据权利要求8所述的方法,其特征在于,所述目标网络层在所述多个网络层中的位置为基于采样的方式确定的。10.根据权利要求8或9所述的方法,其特征在于,所述卷积层中的卷积核为对第二搜索空间中包括的多个尺寸的卷积核进行采样得到的。11.根据权利要求1至10任一所述的方法,其特征在于,所述多个候选神经网络包括目标候选神经网络;所述获取多个候选神经网络,具体包括:构建所述目标候选神经网络中的目标注意力head;所述构建所述目标候选神经网络中的目标注意力head,包括:获取第一神经网络,其中,所述第一神经网络包括第一transformer层,所述第一transformer层包括第一注意力head,所述第一注意力head包括的多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;根据所述第一搜索空间中的m个候选算子替换所述第一注意力head中的目标算子时,对所述第一神经网络性能的正向影响,从所述m个候选算子中确定替换算子,并将所述第一注意力head中的所述目标算子替换为所述替换算子,以得到所述目标注意力head,所述m为正整数。
12.根据权利要求11所述的方法,其特征在于,所述目标算子位于所述第二神经网络的目标算子位置;所述方法还包括:根据每个所述多个训练后的第二神经网络中位于所述目标算子位置的算子以及所述多个训练后的第二神经网络的性能,和/或,每个所述训练后的第二神经网络中位于所述目标算子位置的算子的出现频次,确定所述第一搜索空间中的m个候选算子替换所述第一注意力head中的所述目标算子时,对所述第一神经网络性能的正向影响。13.根据权利要求11或12所述的方法,其特征在于,所述方法还包括:根据所述第一神经网络,对所述目标候选神经网络进行参数初始化,以得到初始化后的所述目标候选神经网络;其中,所述初始化后的所述目标候选神经网络中的可更新参数为对所述第一神经网络中相同的位置的可更新参数进行参数共享得到的;对进行参数初始化的所述目标候选神经网络进行训练,以得到所述目标候选神经网络的性能。14.一种模型提供方法,其特征在于,所述方法包括:接收端侧发送的性能要求,所述性能要求用于指示神经网络的性能要求;根据所述性能要求,从多个候选神经网络中获取满足所述性能要求的目标神经网络,其中,所述多个候选神经网络中的至少一个候选神经网络包括目标transformer层,所述目标transformer层包括目标注意力头head,所述目标注意力head包括多个算子,且所述多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;向所述端侧发送所述目标神经网络。15.根据权利要求14所述的方法,在一种可能的实现中,所述性能要求包括如下的至少一种:数据处理精度、模型大小以及实现的任务类型。16.根据权利要求14或15所述的方法,其特征在于,所述目标注意力head为基于所述多个算子以及所述多个算子之间的排列关系构建的,所述多个算子之间的排列关系为基于采样的方式确定的。17.根据权利要求14至16任一所述的方法,其特征在于,所述目标注意力head还包括第一线性变换层,所述第一线性变换层用于通过目标变换矩阵对所述目标注意力head的输入向量进行处理,所述多个算子用于对所述第一线性变换层的数据处理结果进行运算;其中,所述目标变换矩阵仅包括x个变换矩阵,所述x为小于或等于4的正整数,且所述x的数量为基于采样的方式确定的。18.根据权利要求14至17任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层,所述目标transformer层在所述多个网络层中的位置为基于采样的方式确定的。19.根据权利要求14至18任一所述的方法,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层以及目标网络层,所述目标网络层包括卷积层。20.根据权利要求19所述的方法,其特征在于,所述目标网络层在所述多个网络层中的位置为基于采样的方式确定的。21.根据权利要求19或20所述的方法,其特征在于,所述卷积层中的卷积核为对第二搜索空间中包括的多个尺寸的卷积核进行采样得到的。
22.一种神经网络搜索装置,其特征在于,所述装置包括:获取模块,用于获取多个候选神经网络;其中,所述多个候选神经网络中的至少一个候选神经网络包括目标transformer层,所述目标transformer层包括目标注意力头head,所述目标注意力head包括多个算子,且所述多个算子为对第一搜索空间包括的多个候选算子进行采样得到的;模型选择模块,用于基于所述多个候选神经网络的性能,从所述多个候选神经网络中选择目标神经网络。23.根据权利要求22所述的装置,其特征在于,所述目标注意力head为基于所述多个算子以及所述多个算子之间的排列关系构建的,所述多个算子之间的排列关系为基于采样的方式确定的。24.根据权利要求22或23所述的装置,其特征在于,所述目标注意力head还包括第一线性变换层,所述第一线性变换层用于通过目标变换矩阵对所述目标注意力head的输入向量进行处理,所述多个算子用于对所述第一线性变换层的数据处理结果进行运算。25.根据权利要求24所述的装置,其特征在于,所述目标变换矩阵仅包括x个变换矩阵,所述x为小于或等于4的正整数,且所述x的数量为基于采样的方式确定的。26.根据权利要求22至25任一所述的装置,其特征在于,所述目标注意力head的输入向量和所述目标注意力head的输出向量的尺寸大小一致。27.根据权利要求22至26任一所述的装置,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层,所述目标transformer层在所述多个网络层中的位置为基于采样的方式确定的。28.根据权利要求22至27任一所述的装置,其特征在于,所述至少一个候选神经网络包括串联连接的多个网络层,所述多个网络层包括所述目标transformer层以及目标网络层,所述目标网络层包括卷积层。29.根据权利要求28所述的装置,其特征在于,所述目标网络层在所述多个网络层中的位置为基于采样的方式确定的。30.根据权利要求28或29所述的装置,其特征在于,所述卷积层中的卷积核为对第二搜索空间中包括的多个尺寸的卷积核进行采样得到的。31.一种神经网络搜索装置,其特征在于,所述装置包括存储器和处理器;所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行如权利要求1至21任一所述的方法。32.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机设备上运行时,使得所述计算机设备执行权利要求1至21任一项所述的方法。33.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1至21任一所述的方法。

技术总结
本申请涉及人工智能领域,公开了一种神经网络搜索方法以及相关装置,其中神经网络搜索方法包括:在进行模型搜索时,通过对多个候选算子进行采样的方式来构建transformer层中的注意力头head,以此构建多个候选神经网络,并对多个候选神经网络进行性能比较,来选择性能较高的目标神经网络。本申请结合模型搜索来构建transformer模型,能生成相比原自注意力机制性能更优的新型注意力结构,在广泛的下游任务的效果提升明显。务的效果提升明显。务的效果提升明显。


技术研发人员:徐航 任晓哲 尹伊淳 钱莉 李震国 蒋欣 高佳慧
受保护的技术使用者:华为技术有限公司
技术研发日:2021.07.15
技术公布日:2021/11/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献