一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

AI模型生成方法、电子设备及存储介质与流程

2022-06-11 15:36:06 来源:中国专利 TAG:
ai模型生成方法、电子设备及存储介质
技术领域
:1.本技术涉及人工智能
技术领域
:,尤其涉及一种ai模型生成方法、电子设备和存储介质。
背景技术
::2.人工智能(artificialintelligence,ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,近年来,人们对人工智能的需求与日俱增,ai技术已经被广泛应用于多种场景,如、分类、检测、语音识别等。3.不同场景下所需应用到的ai模型不同,ai模型的设计和训练需要应用到不同的数据,并且在ai模型最终定型过程中,需要针对不同的数据、场景等需求,反复调试数据、网络结构、超参数等,费时费力,且需要对应的专业技术人员参与,方可实现,不利于ai低门槛落地。技术实现要素:4.本技术提供了一种ai模型生成方法、电子设备和存储介质,旨在实现ai模型低门槛落地。5.第一方面,本技术实施例提供了一种ai模型生成方法,包括:6.获取目标ai模型对应的业务需求;7.根据所述业务需求确定所述目标ai模型对应的初始模型及模型生成模式,其中,所述模型生成模式表征用于训练所述初始模型的途径;8.基于所述模型生成模式,利用训练数据对所述初始模型进行训练,以生成所述目标ai模型。9.第二方面,本技术实施例提供了一种电子设备,包括存储器和处理器;10.所述存储器用于存储计算机程序;11.所述处理器,用于执行所述计算机程序并在执行所述计算机程序时,实现上述的ai模型生成方法。12.第三方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现上述的ai模型生成方法。13.本技术实施例提供了一种ai模型生成方法、电子设备和存储介质,获取目标ai模型对应的业务需求;根据所述业务需求确定所述目标ai模型对应的初始模型及模型生成模式,其中,所述模型生成模式表征用于训练所述初始模型的途径;基于所述模型生成模式,利用训练数据对所述初始模型进行训练,以生成所述目标ai模型。本技术所提供的ai模型生成方法可以通过不同的模式确定业务需求对应的模型和超参数配置,不同的模式具有不同的特点,不同模式之间相互耦合,基于以上模式的ai模型生成方法可以实现系统化、低门槛化的降本增效,推动ai规模化落地。14.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。附图说明15.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。16.图1是本技术实施例提供的一种ai模型生成方法的流程示意图;17.图2是ai模型生成方法应用场景的示意图;18.图3是本技术实施例提供的一种ai模型生成方法的模型生成模式步骤的流程示意图;19.图4是automl系统的有向无环图的示意图;20.图5是本技术实施例提供的一种ai模型生成方法的基础数据库构建流的程示意图;21.图6a-6c是本技术实施例提供的神经网络结构搜索的示意图;22.图7是automl系统的预制层的有向无环图的示意图;23.图8是一实施方式中automl系统的定制层的有向无环图的示意图;24.图9是另一实施方式中automl系统的定制层的有向无环图的示意图;25.图10是一实施方式中automl系统底层框架的示意图;26.图11是本技术实施例提供的一种电子设备的示意性框图。具体实施方式27.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。28.需要说明的是,在本技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。29.附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。30.人工智能(artificialintelligence,ai)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学,近年来,人们对人工智能的需求与日俱增,ai技术已经被广泛应用于多种场景,如、分类、检测、语音识别等。31.不同场景下所需应用到的ai模型不同,ai模型的设计和训练需要应用到不同的数据,并且在ai模型最终定型过程中,需要针对不同的数据、场景等需求,反复调试数据、网络结构、超参数等,费时费力,且需要对应的专业技术人员参与,方可实现,不利于ai低门槛落地。32.因此,如何实现ai模型自动化生成,是本领域技术人员正在研究的热门课题。33.请参阅图1,图1是本技术实施例提供的一种ai模型生成方法的流程示意图。34.ai模型生成方法可以应用在电子设备,如终端设备、服务器或云服务器中,用于生成ai模型等过程;其中,终端设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;服务器可以为独立的服务器,也可以为服务器集群。35.示例性的,如图2所示,ai模型生成方法应用在服务器时的场景示意图。服务器可以从终端设备获取业务需求,执行ai模型生成方法生成目标ai模型,还可以将生成的目标ai模型发送给终端设备,以便终端设备进行模型测试或部署等操作。36.如图1所示,本技术实施例的ai模型生成方法包括步骤s11至步骤s13。37.步骤s11、获取目标ai模型对应的业务需求。38.示例性的,在终端设备的显示装置显示需求获取界面,用户可以通过与终端设备通信连接的输入装置在对应的界面输入业务需求。可以理解的,目标ai模型表示用户需要的ai模型,输入装置包括但不限于键盘、鼠标、触控屏。39.在一些实施方式中,所述业务需求包括以下至少一种:任务类型、终端类型、应用场景、算力需求。40.其中,任务类型表示用户需要的目标ai模型的实用场景,如该目标ai模型需要处理的任务,如分类、检测、视频、自然语言处理等。终端类型表示目标ai模型的部署环境,如部署该目标ai模型的终端的型号、终端的处理器类型、型号等。例如,终端的处理器类型可以包括cpu(centralprocessingunit)和/或gpu(graphicsprocessingunit)。应用场景可以包括以下至少一种:小样本检测、小物体检测、非均衡样本检测等。41.步骤s12、根据所述业务需求确定所述目标ai模型对应的初始模型及模型生成模式,其中,所述模型生成模式表征用于训练所述初始模型的途径。42.示例性地,不同的业务需求对ai模型所要适配的初始模型、任务类型、终端类型、应用场景中至少一者不同,同时,对ai模型训练所需的时间、模型识别精度也可能不同,ai模型训练所需要初始模型、初始模型的训练时间、模型识别精度与终端的算力对应,因此,根据业务需求确定所述目标ai模型对应的初始模型及模型生成模式可以满足不同用户的定制化需求。43.不同的模型生成模式表征用于训练所述初始模型的途径,即,ai模型所生成的流程不同,也即模型生成的速度存在差异、生成目标ai模型的算力消耗不同,和/或目标ai模型的规模、准确度不同。44.根据对应的业务需求确定对应目标ai模型的初始模型及模型生成模式,并利用对应的模型生成模式训练对应的初始模型从而获取对应的目标ai模型,从而实现为对应的客户提供定制化服务。45.步骤s13、基于所述模型生成模式,利用训练数据对所述初始模型进行训练,以生成所述目标ai模型。46.对应不同的生成模式获取对应的训练数据,并利用获取的训练数据训练对应的初始模型,从而获得与客户业务需求对应的目标ai模型。47.请参阅图3,在一些实施方式中,所述模型生成模式包括第一生成模式、第二生成模式、第三生成模式中的至少一种,步骤s13具体包括步骤s131-步骤s134。48.其中,步骤s131、若确定所述模型生成模式为所述第一生成模式,根据所述业务需求在基础数据库中确定对应的初始模型,并确定初始模型对应的目标超参数配置信息。在一些实施方式中,所述ai模型生成方法可以用于automl系统,该automl系统可以部署在服务器、云服务器或终端设备。49.示例性的,所述automl系统可以包括基础层、预制层和定制层。其中,基础层用于以第一生成模式生成模型,预制层用于以第二生成模式生成模型,定制层用于以第三生成模式生成模型。50.第一生成模式的模型生成速度比第二生成模式快,第二生成模式的模型生成速度比第三生成模式快;或者第一生成模式生成的模型的准确度比第二生成模式低,第二生成模式生成的模型的准确度比第三生成模式低。即,第一生成模式可以称为基础生成模式,第二生成模式可以称为预制生成模式,第一生成模式可以称为定制生成模式。51.其中,模型生成模式的确定方式可以是,在终端设备的显示装置显示多种生成模式,以及根据用户的模式选择操作确定所述模型生成模式。或根据获取的业务需求确定所述模型生成模式。52.在一些实施方式中,automl系统的基础数据库包括不同业务需求,如不同任务(分类、检测、视频处理、自然语言处理等)的标准数据模块、模型选择模块、超参数配置模块等,可以理解为模型的模型仓库模块。53.以分类任务为例,其中,标准数据模块可以包括多种用于执行数据扩充算法的数据扩充单元,数据扩充算法比如包括翻转、剪裁、旋转等;模型选择模块可以包括主流的神经网络模型架构,包括但不限于卷积网络、残差网络。如,vgg(visualgeometrygroup)、resnet(residualnetwork)、densenet(denselyconnectedconvolutionalnetworks)、inception等;超参数配置可以包括多种超参数,包括但不限于权值衰减(weightsdecay)、学习率、dropout等。54.示例性的,可以根据业务需求确定初始模型为vgg架构,以及确定至少一项超参数的配置信息,即目标超参数配置信息。55.在一些实施方式中,automl系统的基础层还可以包括训练模块,训练模块用于根据确定的训练策略对模型进行训练。训练模块可以包含多种训练策略设置,包括但不限于梯度下降算法、强化学习算法,比如梯度下降算法包括sgd(stochasticgradientdescent,随机梯度下降)、adam(adaptivemomentestimation,适应性矩估计)等。56.在一些实施方式中,automl系统的基础层还可以包括部署模块,部署模块用于将训练好的模型转化为云端或者芯片端可使用的场景任务中,对模型进行封装、部署到对应的设备。57.在一些实施方式中,所述automl系统的基础层包括有向无环图(directedacyclicgraph,dag),该有向无环图用于描述所述automl系统的基础层的自动化工作流,实现自动化工作流的架构封装。58.示例性的,如图4所示为automl系统的基础层的有向无环图的示意图。其中,实线表示已经激活的工作流,虚线表示没有激活的工作流,在以第一生成模式生成模型时,执行实线表示的工作流。59.在一些实施方式中,所述有向无环图包括所述基础数据库中多个ai模型的标识和多个超参数配置信息的标识。60.示例性的,如图4中的vgg、resnet、densenet、inception为目前主流的ai模型,又可称为神经网络模型架构的名称标识。图4中的dropout、weightsdecay、学习率为可选的超参数,即超参数配置信息的标识。61.在一些实施方式中,步骤s131中,根据所述业务需求在基础数据库中确定对应的初始模型,并确定初始模型对应的目标超参数配置信息,具体包括:根据所述业务需求在所述有向无环图中确定至少一个ai模型的标识为所述初始模型的标识,及确定至少一个超参数配置信息的标识为所述目标超参数配置信息的标识。62.示例性的,如图4所示,确定其中的vgg架构为初始模型;dropout、weightsdecay、学习率为超参数。63.在一些实施方式中,还可以在automl系统的有向无环图中确定训练策略,如确定训练策略为sgd。64.如图4所示,若确定所述模型生成模式为所述第一生成模式,根据所述业务需求在基础数据库中确定对应的初始模型,并确定初始模型对应的目标超参数配置信息,包括:通过翻转、裁剪、旋转处理对训练数据进行数据扩充,根据扩充后的数据和确定的目标超参数配置信息,对确定的初始模型进行训练,训练时使用sgd的训练策略,训练完毕后得到目标ai模型,之后可以将目标ai模型进行部署。从而,基于automl系统可以实现一键自动化训练模型。65.具体地,有向无环图可以以配置表的接口形式展示出来,配置表可以对接软件前端或者web前端等,也可以对接命令行操作。66.如图3所示,在一些实施例中,在根据所述业务需求在基础数据库中确定对应的初始模型之前,所述方法还包括:67.步骤s130:构建基础数据库,所述基础数据库存储有基准模型。68.示例性地,基础数据库中存储有一个或多个基准模型,其中,基准模型是经过初步预训练所获取,且模型性能优于初始构建模型的ai模型。该基准模型的功能包括但不限于分类、检测、视频处理、自然语言处理。69.步骤s130可以在步骤s11、s12任一者之前,也可以在步骤s131之前,本实施例中,以步骤s130在s12之后并在步骤s131之前为例进行说明,但不局限于步骤s130仅可以在s12之后并在步骤s131之前。70.如图5所示,在一些实施例中,步骤s130包括步骤s1301-步骤s1305。71.其中,步骤s1301:获取对应的候选网络结构。72.在构建基础数据库时,若基础数据库中的基准模型性能不佳,则基于基准模型进行模型参数调整更新时所需的时间成本增加,因此,在构建基础数据库时需确保数据库中的基准模型性能优于对应的预设神经网络模型。73.因此,先确定对应的预设神经网络模型,该预设神经网络模型可以是在网络中搜索获取的模型或经过预训练获取的对应模型,在此不做限定。74.通过预设神经网络模型确定对应网络模型的初始架构,如预设神经网络模型的节点信息。再通过网络结构搜索以配置该初始网络架构,从而获取对应的候选网络结构,在候选网络结构优于预设神经网络模型对应的网络结构时,将该候选网络结构对应的模型作为基准模型构建该基础数据库。75.在一些实施例中,获取对应的候选网络结构,包括:76.确定待进行网络结构搜索的预设神经网络模型;77.根据所述预设神经网络模型确定待进行网络结构搜索的搜索空间,78.从所述搜索空间获取对应的候选网络结构。79.示例性地,根据ai模型的应用需求确定待进行网络结构搜索的预设神经网络模型,根据预设神经网络模型确定对应的初始网络架构和待进行网络结构搜索的搜索空间。搜索空间定义了网络结构搜索的范围,该搜索空间可以是预先构建的、其包含多种网络结构单元的搜索空间。其中,网络结构单元可以是构建神经网络模型的基本单元,具体可以是单个网络层,例如单个卷积层或全连接层;或者可以是由多个网络层组合形成的结构单元,例如由卷积层、批量归一化层(batchnormalization)、非线性层(如relu)组合形成的块结构(block),在此不做限定。80.每个网络结构单元对应设置有一个编码,通过对应编码从搜索空间中搜索出对应的网络结构单元。通过输入对应的编码序列即可从搜索空间中搜索出对应的候选网络结构。81.如图6a所示,根据预设神经网络模型获知预设神经网络模型确定对应的初始网络架构包括4个节点(node),分别为节点0、1、2与3,但节点之间的操作未知,也即如图中问号“?”所表示。82.神经网络模型中的节点可以理解为神经网络模型中的特征层。例如,在图6a中,预设神经网络模型包括一个输入特征层,两个中间特征层,一个输出特征层。其中,节点0表示输入特征层,节点1和节点2表示中间特征层,节点3表示输出特征层。应理解,节点0上包括输入特征层上的特征数据(特征向量或特征矩阵,如下类似),节点1上包括第一个中间特征层上的特征数据,节点2上包括第二个中间特征层上的特征数据,节点3上包括输出特征层上的特征数据。两个节点之间的操作指的是,其中一个节点上的特征数据交换为另一个节点上的特征数据所需的操作。本实施例中提及的操作可以为卷积操作、池化操作、或全连接操作等其他神经网络操作。可以认为两个节点之间的操作构成这两个节点之间的操作层。通常,两个节点之间的操作层上具有多个可供搜索的操作,即具有多个候选操作。网络结构搜索的目的就是在每个操作层上确定一个操作。83.网络结构搜索可以从搜索空间中可以确定节点0、1、2与3之间的操作,节点0、1、2与3之间的操作的不同组合对应不同的网络结构。因此,通过网络结构搜索可以获取到对应的候选网络结构。84.在一些实施例中,所述从所述搜索空间获取对应的候选网络结构,包括:85.利用基于梯度信息的优化算法在所述搜索空间中对所述预设神经网络模型进行网络结构搜索,以获取对应的候选网络结构。86.如图6b所示,示例性地,搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作。搜索空间为每个操作层定义了3个操作,不同虚线分别表示操作1、操作2和操作3。如操作1是卷积操作、操作2是池化操作、操作3是全连接操作。对于神经网络的一个操作层,网络结构搜索的目的就是从3个操作中选择一个操作作为该操作层的操作。87.利用基于梯度信息的优化算法,在搜索空间中对神经网络模型进行网络结构搜索,以为神经网络模型的每个操作层上的多种操作配置结构参数,并获得优化后的结构参数,从而根据优化后的结构参数确定到对应的候选网络结构。如图6c所示,通过网络结构搜索,获得最终的神经网络模型对应的模型架构作为候选网络结构。88.在一些实施例中,所述从所述搜索空间获取对应的候选网络结构,包括:89.利用基于强化学习的优化算法在所述搜索空间中对所述预设神经网络模型进行网络结构搜索,以获取对应的候选网络结构。90.示例性地,搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作,利用基于强化学习的优化算法,在搜索空间中对神经网络模型进行网络结构搜索,以为神经网络模型的每个操作层上的多种操作配置结构参数,并获得优化后的结构参数,从而根据优化后的结构参数确定到对应的候选网络结构。91.在一些实施例中,所述从所述搜索空间获取对应的候选网络结构,包括:92.利用基于强化学习的优化算法及基于梯度信息的优化算法在所述搜索空间中对所述预设神经网络模型进行网络结构搜索,以获取对应的候选网络结构。93.示例性地,搜索空间定义了神经网络模型中每两个节点之间的操作层上的多种操作,利用基于强化学习的优化算法和基于梯度信息的优化算法,在搜索空间中对神经网络模型进行网络结构搜索,以为神经网络模型的每个操作层上的多种操作配置结构参数,并获得优化后的结构参数,从而根据优化后的结构参数确定到对应的候选网络结构,通过基于强化学习的优化算法和基于梯度信息的优化算法至少两种优化算法共同在在搜索空间中对神经网络模型进行网络结构搜索,从而可以更为高效获取对应的候选网络结构,且使得获取的对应候选网络结构对应的候选网络模型性能优于预设神经网络模型的概率更高。94.步骤s1302:训练所述候选网络结构,并获取训练完成的候选网络结构对应的候选神经网络模型的性能信息。95.根据目标ai模型需要处理的任务,如分类、检测、视频、自然语言处理等,确定候选神经网络模型的训练数据集和测试数据集,并利用对应的训练数据集训练候选网络结构对应的候选神经网络模型,利用对应的测试数据集测试候选神经网络模型。96.在一些实施例中,训练所述候选网络结构,并获取训练完成的候选网络结构对应的候选神经网络模型的性能信息,包括:97.确定所述候选神经网络模型的训练数据集和测试数据集;98.根据所述训练数据集训练所述候选网络结构,以获取训练完成的候选网络结构对应的候选神经网络模型;99.根据测试数据集测试所述候选神经网络模型,以获取所述候选神经网络模型的性能信息。100.示例性地,目标ai模型需要处理的任务为对猫进行识别时,确定候选神经网络模型的训练数据集为猫类识别训练图像,测试数据集为猫类识别测试图像。并利用对应的训练数据集训练候选网络结构对应的候选神经网络模型,利用对应的测试数据集测试候选神经网络模型,从而获得候选神经网络模型的性能信息,该性能信息包括但不限于识别准确率。101.步骤s1303:根据所述性能信息判断所述候选神经网络模型是否优于所述预设神经网络模型。102.目标ai模型为物体分类模型时,若候选神经网络模型的分类识别准确率高于预设神经网络模型的分类识别准确率时,表明候选神经网络模型的模型性能优于预设神经网络模型。103.步骤s1304:当所述候选神经网络模型优于所述预设神经网络模型时,基于所述候选神经网络模型构建所述基础数据库。104.当候选神经网络模型的模型性能优于预设神经网络模型的模型性能时,利用候选神经网络模型替换对应的预设神经网络模型,以构建基础数据库。105.步骤s1305:当所述候选神经网络模型次于所述预设神经网络模型时,重新执行获取对应的候选网络结构的步骤。106.通过网络架构搜索获取到全局最优的候选网络结构,当候选网络结构对应的候选神经网络模型的模型性能优于预设神经网络模型的模型性能时,利用候选神经网络模型替换对应的预设神经网络模型,以构建基础数据库,从而确保基础数据库中所存储的模型对应的模型性能较优,以降低后续模型训练所需的时间成本。107.在一些实施例中,所述构建基础数据库,包括:108.获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;109.从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;110.获取多个基于开源数据训练的主流网络模型;111.将每个所述目标子网络模型作为第一主干网络与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络与第二分支网络拼接得到多个第二拼接网络;112.对多个所述第一拼接网络和所述第二拼接网络进行微调并测试以确定目标网络模型;113.对所述目标网络模型进行迁移学习,得到需要的候选神经网络模型;114.判断所述候选神经网络模型是否优于预设神经网络模型;115.当所述候选神经网络模型优于所述预设神经网络模型时,基于所述候选神经网络模型构建所述基础数据库;116.当所述候选神经网络模型次于所述预设神经网络模型时,重新执行获取预先训练好的超网络模型的步骤。117.示例性地,训练完成的超网络模型包括预设数量的子网络模型,预设数量比如为100个或更多个,在此不作限定。118.根据采样算法对超网络模型进行采样,再根据预设模型约束条件筛选出满足预设模型约束条件的子网络模型,作为目标子网络模型。不断采集子网络模型直至满足预设值为止,从而确定多个目标子网络模型,预设值比如为m个,m可以用户根据实际进行设定,比如设定m可以等于20个。其中,所述预设采样算法包括:随机采样算法、基于进化算法的采样算法(evolutionaryalgorithm)和基于梯度的采样算法(gradient-basedmethod)中的至少一种。119.主流网络模型是基于开源数据训练得到的,可以从开源网站中获取已经训练好且被用户使用频率较高的网络模型,作为主流网络模型。本实施例中,获取的多个主流网络模型的模型复杂度不同。其中,所述模型复杂度至少包括模型运算量和模型参数量中的一种。通过选取不同模型复杂度的主流网络模型,可以提高网络结构搜索的准确率,进而提高最后用户需要的模型的准确率。120.将通过超网络模型确定的多个目标子网络模型都分别作为第一主干网络,并与第一分支网络拼接,得到多个第一拼接网络,以及将基于开源数据训练的多个主流网络模型都分别作为第二主干网络与第二分支网络拼接,得到多个第二拼接网络。121.在获得第一拼接网络和第二拼接网络后,分别对第一拼接网络和第二拼接网络进行微调(fine-tune)并进行测试,根据测试评估结果确定目标网络模型,用于将所述目标网络模型进行迁移学习,以获取对应的候选神经网络模型。122.在获取到对应的候选神经网络模型后,利用测试数据集测试候选神经网络模型,以获取候选神经网络模型的性能信息,其中,性能信息包括但不限于识别准确率。123.根据性能信息判断当前的候选神经网络模型是否优于预设神经网络模型,当候选神经网络模型优于预设神经网络模型时,基于候选神经网络模型构建基础数据库;当候选神经网络模型次于预设神经网络模型时,重新执行获取预先训练好的超网络模型的步骤。124.通过预设超网络模型获取到对应的候选网络结构,当候选网络结构对应的候选神经网络模型的模型性能优于预设神经网络模型的模型性能时,利用候选神经网络模型替换对应的预设神经网络模型,以构建基础数据库,从而确保基础数据库中所存储的模型对应的模型性能较优,以降低后续模型训练所需的时间成本。125.步骤s132、若确定所述模型生成模式为所述第二生成模式,根据所述业务需求和预设的专家经验逻辑确定对应的预训练模型为初始模型,以及确定目标超参数配置信息。126.具体的,专家经验逻辑可以包括专家、专业工程师在场景任务数据上沉淀的经验逻辑,例如面向不同终端、场景,所对应的预制的预训练(pretrain)模型、超参配置等。127.示例性的,可以根据预设的专家经验逻辑确定所述业务需求对应的预训练模型为初始模型,以及确定目标超参数配置信息,例如可以得到在场景上可以落地的预训练的主流模型和适合的超参数、预训练的自研手工设计的模型和适合的超参数、预训练的automl搜索出的模型和适合的超参数。128.示例性的,场景任务的需求可以梳理为3个需求:终端型号、应用场景和算力需求。129.以cpu和gpu上运行的分类场景为例子,若用户选择使用分类场景为cpu且没有算力约束,由于depthwise-separatable算子对cpu的友好性,可以启动预训练的mobilenet模型,在场景数据上微调(fine-tune)即可。其中,mobilenet模型是指轻量级的深度神经网络模型。若用户选择使用分类场景为gpu且没有算力约束,由于conv33算子对gpu的友好性,可以启动预制的resnet-50模型,在场景数据上微调即可。如果用户选择cpu且业务需要模型要求在3兆(m)参数量以下,由于mobilenet模型为4.2兆参数量不满足要求,则可以启动专家预制压缩后的预训练mobilenet模型(例如为2m参数),在场景上微调即可。130.示例性的,预制层封装的专家经验逻辑可以包括多种芯片型号(可以细化到对应的型号)、算力需求、应用场景(比如小样本检测、小物体检测、非均衡样本检测、任务类型),以及对应的预训练模型和目标超参数配置信息。131.示例性的,如图7中的模型1、模型2、模型3、模型4为预训练模型的标识,超参数配置表1、超参数配置表2、超参数配置表3为可选的超参数,即超参数配置信息的标识,训练策略1、训练策略2是可选的训练策略的标识。132.在一些实施方式中,预制层基于automl系统的基础层的有向无环图封装自动化工作流,封装形式如图7所示,也是基于有向无环图的封装。可以体现业务需求对应的业务逻辑和对应的自动化训练、部署封装。其中预制层的逻辑封装一部分是基于automl系统的基础层的封装进行的二次封装,另一部分是适配场景的定制化研发结果封装。133.示例性的,如图7所示,确定其中的模型1为初始模型,确定超参数配置表1为超参数。134.在一些实施方式中,还可以在预制层的有向无环图中确定训练策略,如确定训练策略为训练策略1。135.如图7所示,若确定所述模型生成模式为所述第二生成模式,根据所述业务需求和预设的专家经验逻辑确定对应的预训练模型为初始模型,以及确定目标超参数配置信息,包括:根据终端型号、应用场景和算力需求确定模型1为初始模型,根据确定的目标超参数配置信息,对确定的初始模型进行训练,训练时使用训练策略1,训练完毕后得到目标ai模型,之后可以将目标ai模型进行部署。从而,基于预制层可以实现一键自动化训练模型。136.步骤s133、若确定所述模型生成模式为所述第三生成模式,根据所述业务需求和网络结构搜索逻辑在网络结构向量空间中确定初始模型,根据所述业务需求和超参数搜索逻辑确定目标超参数配置信息。137.示例性的,网络结构向量空间可以为各个不同网络模型的并集,网络模型可以用一个向量描述,该向量至少可以描述网络模型的宽度、深度、激活函数、损失函数等。138.具体的,以第三生成模式生成模型时,具有较高的自由度,可以从头开始进行网络结构、超参设置、数据处理等自动化搜索流程。是一种基于automl算法的数据、场景、算力驱动的定制化ai落地服务,虽然搜索耗时较长,但是全定制化,例如生成的模型的准确度更高,更适用于特定的场景。139.示例性的,可以基于automl算法搜索确定初始模型和目标超参数配置信息,既满足耗时小,又满足定制化。140.示例性的,如图8所示,可以高自由度定制模型,以1m计算量和网络性能作为优化目标,寻求满足1m参数下性能最高的模型。141.在一些实施方式中,所述ai模型生成方法还包括:根据所述业务需求确定所述训练数据的数据增强策略;基于所述基础数据库中与所述数据增强策略对应的数据增强处理单元,对所述训练数据进行增强处理,以提高训练数据的信息量,训练得到的模型可以更准确。142.示例性的,所述数据增强策略包括以下至少一种:数据清洗、数据预处理、数据扩充,其中数据扩充可以包括翻转、剪裁、旋转等。143.示例性的,若确定所述模型生成模式为所述第三生成模式,可以:根据终端型号、应用场景和算力需求执行网络结构搜索、数据增强策略的自动化搜索和超参数自动化搜索,以确定初始模型、数据增强策略和目标超参数配置信息,对确定的初始模型进行训练,训练时使用训练策略1,训练完毕后得到目标ai模型,之后可以将目标ai模型进行部署。从而,基于定制层可以实现一键自动化训练模型。144.在一些实施方式中,所述根据所述业务需求和网络结构搜索逻辑在网络结构向量空间中确定初始模型,包括:根据所述第一生成模式对应的初始模型或者所述第二生成模式对应的预训练模型确定搜索初始化状态;以及,根据所述业务需求和网络结构搜索逻辑,以所述搜索初始化状态在网络结构向量空间中进行网络结构搜索,得到初始模型。145.为了高效的完成搜索过程,automl系统的基础层、预制层可以作为初始化网络模型结构和超参数配置,以用于网络结构、超参、数据等自动化搜索。基于automl算法的数据、场景、算力约束驱动的定制化ai落地服务。基于automl系统的基础层公开模型作为搜索初始化状态,开始automl搜索,或者基于预制层的自研模型,作为搜索初始化状态开始automl搜索,基于automl系统的基础层公开模型或者预制层专家自研的模型,可以实现模型的半定制化,较好的初始化搜索状态,可以使得搜索耗时较短,加速搜索过程收敛。146.示例性的,如果用户选择cpu且业务需要模型在1m参数量,而由于mobilenet模型为4.2m参数量不满足要求,专家预制压缩后的pretrainmobilenet模型为2m参数,也不满足要求,则可以在定制层启动自动化压缩算法,将预制的2m参数量的pretrianmobilenet模型作为初始化状态,从2m开始自动化网络压缩至1m参数量,然后将压缩后的预制模型在场景数据上fine-tune即可。147.示例性的,如图9所示,可以根据所述终端型号、应用场景和算力需求等业务需求和预设的专家经验逻辑确定对应的预训练模型,如预制模型1为初始模型,以该预训练模型确定搜索初始化状态,根据该搜索初始化状态在网络结构向量空间中进行网络结构搜索,得到初始模型,以及执行数据增强策略的自动化搜索和超参数自动化搜索,以确定数据增强策略和目标超参数配置信息;之后对确定的初始模型进行训练,训练时使用训练策略1,训练完毕后得到目标ai模型,之后可以将目标ai模型进行部署。从而,基于定制层可以实现一键自动化训练模型。148.可以理解的,所述定制层的功能包括:对内提供基于所述automl系统的基础层和预制层的自动化automl算法,实现所述automl系统的基础层和预制层的自动化调用;对外提供基于高阶的automl研发工具化能力。149.步骤s134、根据所述目标超参数配置信息配置所述初始模型,及根据所述训练数据对所述初始模型进行训练,以生成所述目标ai模型。150.在一些实施方式中,若确定所述模型生成模式为所述第一生成模式,可以根据automl系统的基础层自动化工作流配置所述初始模型及根据训练数据对所述初始模型进行训练;若确定所述模型生成模式为所述第二生成模式,可以根据预制层的自动化工作流配置所述初始模型及根据训练数据对所述初始模型进行训练;若确定所述模型生成模式为所述第三生成模式,可以根据定制层的自动化工作流配置所述初始模型及根据训练数据对所述初始模型进行训练。151.在一些实施方式中,automl系统的基础层可以包括训练模块,训练模块用于根据确定的训练策略对模型进行训练。训练模块可以包含多种训练策略设置,比如sgd、adam等。示例性的,预制层和定制层训练阶段的自动化工作流也可以由automl系统的基础层训练模块执行,以简化automl系统。152.示例性的,在步骤s132根据所述业务需求和预设的专家经验逻辑确定对应的预训练模型为初始模型,以及确定目标超参数配置信息时,所述方法还包括:将确定为初始模型的预训练模型存储在所述基础数据库中,在所述有向无环图中增加所述预训练模型的标识;以及将确定的目标超参数配置信息存储在所述基础数据库中,在所述有向无环图中增加确定的目标超参数配置信息的标识。153.可以理解的,在步骤s132中根据专家经验逻辑确定的初始模型、数据增强策略和目标超参数配置信息可以自动的拉入automl系统的基础层工作流,在automl系统的基础层进行训练。154.在一些实施方式中,步骤s134中所述根据所述目标超参数配置信息配置所述初始模型,及根据训练数据对所述初始模型进行训练,以生成目标ai模型,包括:在所述automl系统的基础层的有向无环图中确定工作流路径,基于所述工作流路径,根据所述训练数据对所述初始模型进行训练,以生成目标ai模型。155.其中,所述有向无环图用于描述所述automl系统的基础层的自动化工作流,所述工作流路径包括所述初始模型的标识、所述目标超参数配置信息的标识、训练策略的标识,以及所述初始模型的标识和所述目标超参数配置信息的标识之间的路径、所述目标超参数配置信息的标识和所述训练策略的标识之间的路径,具体可以参照图4至图10。156.示例性的,在步骤s133根据所述业务需求和网络结构搜索逻辑在网络结构向量空间中确定初始模型,根据所述业务需求和超参数搜索逻辑确定目标超参数配置信息时,所述方法还包括:将确定的初始模型存储在所述基础数据库中,在所述有向无环图中增加所述初始模型的标识;以及将确定的目标超参数配置信息存储在所述基础数据库中,在所述有向无环图中增加确定的目标超参数配置信息的标识。157.可以理解的,在步骤s133通过搜索确定的初始模型、数据增强策略和目标超参数配置信息可以自动的拉入automl系统的基础层工作流,在automl系统的基础层进行训练。158.在一些实施方式中,automl系统的基础层可以包括部署模块,部署模块用于将训练好的模型转化为云端或者芯片端可使用的场景任务中,对模型进行封装、部署到对应的设备。159.在一些实施方式中,所述ai模型生成方法还包括:将所述目标ai模型部署到目标设备和/或将所述目标ai模型发布到模型交易平台。160.在一些实施方式中,如图10所示,automl系统可以以tensorflow、pytorch、caffe、mxnet开源框架等(并不限于此)做为底层框架。161.示例性的,通过底层框架输出依次进入nncf框架、onnx框架、tnn框架,迭代后用于arm、gpu或cpu芯片。162.具体地,通过上述主流开源框架,例如,tensorflow可无缝转接tf-lite,然后可打通众多芯片,如mtk-apu、cpu等。tensorflow、pytorch、caffe、mxnet框架输出可依次进入nncf框架、onnx框架、tnn框架,无缝打通到arm、gpu、cpu等众多芯片。163.进一步地,automl系统可以链接至ai模型交易平台,用于提供所述ai系统的saas服务模式,在产品的web界面上设置模型的对外发布按钮,并将按钮对应链接至交易平台,以实现自动化生产的模型的对外发布。164.具体地,本实施例提供了所述automl系统产品化后的saas形态,其中,saas为软件即服务,用于模型自动化生产完成后的对外发布,在web界面上设置交易平台按钮,并将其链接至ai交易平台。165.本技术实施例提供的ai模型生成方法,通过根据所述目标超参数配置信息配置所述初始模型,及根据所述训练数据对所述初始模型进行训练,以生成所述目标ai模型。本技术所提供的ai模型生成方法可以通过不同的模式确定业务需求对应的模型和超参数配置,不同的模式具有不同的特点,不同模式之间相互耦合,基于以上模式的ai模型生成方法可以实现系统化、低门槛化的降本增效,推动ai规模化落地。166.请参阅图11,图11是本技术实施例提供的一种电子设备的示意性框图。该电子设备包括但不限于服务器及终端设备。167.如图11所示,该电子设备30包括处理器301和存储器302,处理器301和存储器302通过总线连接,该总线比如为i2c(inter-integratedcircuit)总线。168.具体地,处理器301可以是微控制单元(micro-controllerunit,mcu)、中央处理单元(centralprocessingunit,cpu)或数字信号处理器(digitalsignalprocessor,dsp)等。169.具体地,存储器302可以是flash芯片、只读存储器(rom,read-onlymemory)磁盘、光盘、u盘或移动硬盘等。170.其中,所述处理器用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时,实现本技术实施例提供的任意一种所述的ai模型生成方法。171.示例性的,处理器301用于运行存储在存储器中的计算机程序,并在执行所述计算机程序时实现如下步骤:172.获取目标ai模型对应的业务需求;173.根据所述业务需求确定所述目标ai模型对应的初始模型及模型生成模式,其中,所述模型生成模式表征用于训练所述初始模型的途径;174.基于所述模型生成模式,利用训练数据对所述初始模型进行训练,以生成所述目标ai模型。175.在一些实施例中,所述模型生成模式包括第一生成模式、第二生成模式、第三生成模式中的至少一种,处理器301基于所述模型生成模式,利用训练数据对所述初始模型进行训练,以生成所述目标ai模型,包括:176.若确定所述模型生成模式为所述第一生成模式,根据所述业务需求在基础数据库中确定对应的初始模型,并确定初始模型对应的目标超参数配置信息;177.若确定所述模型生成模式为所述第二生成模式,根据所述业务需求和预设的专家经验逻辑确定对应的预训练模型为初始模型,以及确定目标超参数配置信息;178.若确定所述模型生成模式为所述第三生成模式,根据所述业务需求和网络结构搜索逻辑在网络结构向量空间中确定初始模型,根据所述业务需求和超参数搜索逻辑确定目标超参数配置信息;179.根据所述目标超参数配置信息配置所述初始模型,及根据所述训练数据对所述初始模型进行训练,以生成所述目标ai模型。180.在一些实施例中,在根据所述业务需求在基础数据库中确定对应的初始模型之前,处理器301还用于执行:181.构建基础数据库,所述基础数据库存储有基准模型。182.在一些实施例中,处理器301在构建基础数据库时,包括:183.获取对应的候选网络结构;184.训练所述候选网络结构,并获取训练完成的候选网络结构对应的候选神经网络模型的性能信息;185.根据所述性能信息判断所述候选神经网络模型是否优于所述预设神经网络模型;186.当所述候选神经网络模型优于所述预设神经网络模型时,基于所述候选神经网络模型构建所述基础数据库;187.当所述候选神经网络模型次于所述预设神经网络模型时,重新执行获取对应的候选网络结构的步骤。188.在一些实施例中,处理器301在构建基础数据库时,包括:189.获取预先训练好的超网络模型,所述超网络模型包括预设数量的子网络模型;190.从所述超网络模型的预设数量的子网络模型中,确定多个目标子网络模型;191.获取多个基于开源数据训练的主流网络模型;192.将每个所述目标子网络模型作为第一主干网络与第一分支网络拼接,得到多个第一拼接网络,以及将每个所述主流网络模型作为第二主干网络与第二分支网络拼接得到多个第二拼接网络;193.对多个所述第一拼接网络和所述第二拼接网络进行微调并测试以确定目标网络模型;194.对所述目标网络模型进行迁移学习,得到需要的候选神经网络模型;195.判断所述候选神经网络模型是否优于预设神经网络模型;196.当所述候选神经网络模型优于所述预设神经网络模型时,基于所述候选神经网络模型构建所述基础数据库;197.当所述候选神经网络模型次于所述预设神经网络模型时,重新执行获取预先训练好的超网络模型的步骤。在一些实施例中,处理器301在获取对应的候选网络结构时,包括:198.确定待进行网络结构搜索的预设神经网络模型;199.根据所述预设神经网络模型确定待进行网络结构搜索的搜索空间,200.从所述搜索空间获取对应的候选网络结构。201.在一些实施例中,处理器301从所述搜索空间获取对应的候选网络结构,包括:202.利用基于梯度信息的优化算法在所述搜索空间中对所述预设神经网络模型进行网络结构搜索,以获取对应的候选网络结构。203.在一些实施例中,处理器301从所述搜索空间获取对应的候选网络结构,包括:204.利用基于强化学习的优化算法在所述搜索空间中对所述预设神经网络模型进行网络结构搜索,以获取对应的候选网络结构。205.在一些实施例中,处理器301训练所述候选网络结构,并获取训练完成的候选网络结构对应的候选神经网络模型的性能信息,包括:206.确定所述候选神经网络模型的训练数据集和测试数据集;207.根据所述训练数据集训练所述候选网络结构,以获取训练完成的候选网络结构对应的候选神经网络模型;208.根据测试数据集测试所述候选神经网络模型,以获取所述候选神经网络模型的性能信息。209.本技术的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括ai模型生成程序指令,所述处理器执行所述ai模型生成程序指令,实现上述实施例提供的任一种所述的ai模型生成方法的步骤。210.其中,所述计算机可读存储介质可以是前述任一实施例所述的电子设备的内部存储单元,例如所述电子设备的存储器或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。211.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
:,均同理包括在本技术的专利保护范围内。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献