一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

多模态模型的训练方法、装置、计算机设备及存储介质与流程

2022-11-30 16:10:35 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,特别是涉及到一种多模态模型的训练方法、装置、计算机设备及存储介质。


背景技术:

2.文本摘要是指通过各种技术,对文本或者是文本集合,抽取、总结或是精炼其中的要点信息,用以概括和展示原始文本(集合)的主要内容或大意。作为文本生成任务的主要方向之一,从本质上而言,这是一种信息压缩技术。
3.在医疗、金融领域中文献中的摘要,常通过传统的摘要生成技术生成文献摘要。传统的摘要生成技术一般是单模态摘要,即纯文本摘要。为获取多模型摘要,常使用两个不同的编码器对文本和图像分别进行编码,然后将各自的特征进行拼接并输入解码器中解码,进而生成图文摘要。由于生成图文结合的摘要是使用不同的编码器分别对文本和图片进行处理,使得生成的图文摘要匹配度不高。因此,优化图文摘要的生成技术,获取高匹配度的图文摘要是目前需要解决的问题。


技术实现要素:

4.本技术的主要目的为提供一种多模态模型的训练方法、装置、计算机设备及存储介质,旨在优化图文摘要的生成技术,进而得到高匹配度的图文摘要。
5.为了实现上述发明目的,本技术提出一种多模态模型的训练方法,所述方法包括:获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
6.进一步地,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括:读取图片训练集中的图片;切分所述图片,获取多张子图片;对每一张所述子图片进行位置编码,得到图片位置编码向量;将多张所述子图片输入全连接神经网络,获取图片子特征向量;依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
7.进一步地,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括:读取文本训练集中的文本信息;
拆分所述文本信息,得到多个文字分词;对每一个所述文字分词进行位置编码,得到文字位置编码向量;将多个所述文字分词输入全连接神经网络,获取文本子特征向量;依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
8.进一步地,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括:在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
9.进一步地,所述损失函数为;其中,表示图片损失函数;表示文本损失函数。
10.进一步地,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括:通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;将所述第一损失值和所述第二损失值相加,得到损失值;判断所述损失值是否小于预设损失阈值;若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
11.进一步地,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括:获取待处理文本及待处理图片;将所述待处理文本和所述待处理图片输入所述多模态模型;基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
12.本技术还提供一种多模态模型的训练装置,所述装置包括:第一获取模块,用于获取第一特征向量,所述第一特征向量为图片特征向量;第二获取模块,用于获取第二特征向量,所述第二特征向量为文本特征向量;输入模块,用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;编码模块,用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;解码模块,用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;
训练模型,用于通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
13.本技术还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的多模态模型的训练方法的步骤。
14.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的多模态模型的训练方法的步骤。
15.本技术例提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
附图说明
16.图1为本技术多模态模型的训练方法的一实施例流程示意图;图2为本技术多模态模型的训练方法的另一实施例流程示意图;图3为本技术多模态模型的训练方法的另一实施例流程示意图;图4为本技术多模态模型的训练方法的另一实施例流程示意图;图5为本技术多模态模型的训练方法的另一实施例流程示意图;图6为本技术多模态模型的训练方法的另一实施例流程示意图;图7为本技术多模态模型的训练装置的一实施例结构示意图;图8为本技术计算机设备的一实施例结构示意框图。
17.本技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
18.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
19.参照图1,本技术实施例提供一种多模态模型的训练方法,包括步骤s10-s60,对于所述测试用例增强方法的各个步骤的详细阐述如下。
20.s10、获取第一特征向量,所述第一特征向量为图片特征向量。
21.本实施例用于金融、医疗等领域的图文摘要生成。读取图片训练集中的图片,所述图片训练集为预先构建,所述图片为与将要生成图文结合的摘要文本相关联的图片,将所述图片进行切分,得到获取多张子图片,对每一张所述子图片进行位置编码,得到图片位置编码向量;同时,将多张所述子图片输入全连接神经网络,以获取图片子特征向量;将所述
图片位置编码向量和所述图片子特征向量相加,得到图片特征向量即第一特征向量。获取图片特征向量为后续获取第一编码特征向量提供有效依据。
22.s20、获取第二特征向量,所述第二特征向量为文本特征向量。
23.本实施例中,读取文本训练集中的文本信息,所述文本训练集为预先构建,所述文本信息为与将要生成图文结合的摘要文本相关联的文本;将所述文本信息进行拆分,得到多个文字分词,对每一个所述文字分词进行位置编码,得到文字位置编码向量;同时,将多个所述文字分词输入全连接神经网络,以获取文本子特征向量;将所述文字位置编码向量和所述文本子特征向量相加,得到文本特征向量即第二特征向量。获取第二特征向量为后续获取第二编码特征向量提供有效依据。
24.s30、将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层。
25.本实施例中,待训练多模态模型为transformer模型,所述transformer模型主要分为两个部分,分别是编码层和解码层,编码层负责把自然语言序列映射至隐藏层(含有自然语言序列的数学表达),解码层把隐藏层中映射的自然语言序列进行解码。在获取第一特征向量和第二特征向量之后,将所述第一特征向量和所述第二特征向量输入待训练多模态模型,使得所述第一特征向量和所述第二特征向量训练编码层的编码性能,和训练解码层的解码性能,进而得到具备生成图文结合摘要文本的多模态模型。
26.s40、通过所述编码层获取对应的第一编码特征向量和第二编码特征向量。
27.本实施例中,在将所述第一特征向量和所述第二特征向量输入待训练多模态模型之后,通过所述编码层获取对应的第一编码特征向量和第二编码特征向量。具体的,在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。所述第一编码特征向量和所述第二编码特征向量的生成为后续生成图文摘要提供有效依据。
28.s50、将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要。
29.本实施例中,通过所述编码层获取对应的第一编码特征向量和第二编码特征向量之后,将所述第一编码特征向量和所述第二编码特征向量输出至解码层,通过所述解码层分别对所述一编码特征向量和所述第二编码特征向量进行解码,得到对应的第一解码信息和第二解码信息,将所述第一解码信息和所述第二解码信息进行结合,得到图文结合的图文摘要。
30.s60、通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
31.本实施例中,通过解码层解码一编码特征向量和第二编码特征向量并生成图文摘要之后,通过预设的损失函数对所述待训练多模态模型进行训练,所述损失函数为;其中,表示图片损失函数;表示文本损失函数;通过所述图片损失函数计算所述图文摘要中的预测图片与实际选定的标注图片之间的第一损失值;通过所述文本损失函数计算所述图文摘要中的预测文本与实际选定的标注文本之间的第二
损失值;将所述第一损失值和所述第二损失值相加,得到损失值;判断所述损失值是否小于预设损失阈值;若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型,实现对图文摘要技术的优化。
32.本实施例提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
33.参照图2,在一个实施例中,所述获取第一特征向量,所述第一特征向量为图片特征向量,包括以下步骤s11-s15:s11、读取图片训练集中的图片;s12、切分所述图片,得到多张子图片;s13、对每一张所述子图片进行位置编码,得到图片位置编码向量;s14、将多张所述子图片输入全连接神经网络,获取图片子特征向量;s15、依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
34.本实施例中,预先通过摄像头采集多张图片,或是爬取公开网站上的多张图片,所述图片为医疗领域和/或金融领域文献中与文献内容相关的图片,根据获取的多张图片构建图片训练数据集并保存至后台。当进行模型训练时,直接读取所述图片训练集中的图片,并将所述图片进行切分,使得每一张图片均被切分为多张小块图片,即得到多张子图片,优选的,将每一张图片切分为9张小块图片,将切分之后的图片按照图片原始形态进行序号标记,得到带有序号信息的多张子图片,将具有序号标记的多张子图片进行位置编码,其中,所述位置编码使用sin函数和cos函数进行编码,即即其中,pos表示子图片的序号,从0开始计算;i表示位置编码特征向量中的维度序号,比如i=0时,2i=0是偶数位置,使用sin函数,2i 1=1是奇数位置,使用cos函数,所以位置编码向量中的第0个位置是sin函数计算后的值,第1个位置是cos函数计算后的值;d
model
表示位置编码向量维度,比如512维,则使用这个位置编码能够分别对这512维的数字赋值。通过sin函数和cos函数计算之后,可确定多张子图片的位置编码,依据所述位置编码生成图片位置编码向量;同时,将所述多张子图片输入全连接神经网络,获取图片子特征向量;将所述图片位置编码向量和所述子特征向量相加,即可得到图片特征向量。获取图片特征向量为后续获取第一编码特征向量提供有效依据。
35.参照图3,在一个实施例中,所述获取第二特征向量,所述第二特征向量为文本特征向量,包括以下步骤s21-s25:
s21、读取文本训练集中的文本信息;s22、拆分所述文本信息,得到多个文字分词;s23、对每一个所述文字分词进行位置编码,得到文字位置编码向量;s24、将多个所述文字分词输入全连接神经网络,获取文本子特征向量;s25、依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
36.本实施例中,读取预先构建的文本训练集中的文本信息,所述文本训练集包括多个文本信息,所述文本信息为医疗领域和/或金融领域的文献内容,将所述文本信息进行拆分,以获取多个文字分词,所述文字分词包括关键词组、常见词组、单个字等形式,并对所述文字分词进行序号标记,所述序号标记为按照原始文本中的顺序依次进行序号标记;将所述文字分词进行位置编码,其中,所述位置编码使用sin函数和cos函数进行编码,即即其中,pos表示文字分词的序号,从0开始计算;i表示位置编码特征向量中的维度序号,比如i=0时,2i=0是偶数位置,使用sin函数,2i 1=1是奇数位置,使用cos函数,所以位置编码向量中的第0个位置是sin函数计算后的值,第1个位置是cos函数计算后的值;d
model
是位置编码向量维度,基于sin函数和cos函数计算之后,确定多个文字分词的位置编码,依据所述位置编码生成文字位置编码向量;同时,将多个所述文字分词输入全连接神经网络,获取文本子特征向量,将所述文字位置编码向量和所述文本子特征向量相加,得到文本特征向量。获取文本特征向量为后续生成第二编码特征向量提供有效依据。
37.参照图4,在一个实施例中,所述通过所述编码层获取对应的第一编码特征向量和第二编码特征向量,包括以下步骤s41-s43:s41、在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;s42、基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;s43、基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
38.本实施例中,将第一特征向量和第二特征向量输入待训练多模态模型,在所述待训练多模态模型的编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据,所述第一分析数据包括与所述第一特征向量具有关联性和依赖性的隐藏数据;所述第二分析数据包括与所述第二特征向量具有关联性和依赖性的隐藏数据;将所述第一特征向量和所述第一分析数据进行结合,得到第一编码特征向量;将所述第二特征向量和所述第二分析数据进行结合,得到第二编码特征向量。通过编码层获取对应的第一编码特征向量和第二编码特征向量,为后续生成图片摘要提供有效依据。
39.在一个实施例中,所述损失函数为;其中,表示图片损失函数;表示文本损失函数。
40.本实施例中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值y
的不一致程度,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。损失函数为预先构建,所述损失函数为为;其中,表示图片损失函数;表示文本损失函数;所述图片损失函数为;其中m表示人工批注的图片,yi表示模型计算值;表示伪标签值;所述伪标签值通过计算获取,具体的,计算每个样本中人工标注的文本摘要与样本里每张图片的相似度,选择相似度最高的那张图片作为文本摘要和图片对应的伪标签。计算相似度的方法使用cosine,得分最高的图片作为伪标签,伪标签值为1,其余图片为0。所述文本损失函数为,其中,所述y表示人工标注的文本摘要,yj表示文本摘要中的一个词,d表示输入样本的整篇文章文本,i表示样本中的所有图片。预先构建损失函数,为后续依据所述损失函数进行模型训练提供有效依据。
41.参照图5,在一个实施例中,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,包括以下步骤s61-s65:s61、通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;s62、通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;s63、将所述第一损失值和所述第二损失值相加,得到损失值;s64、判断所述损失值是否小于预设损失阈值;s65、若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
42.本实施例中,通过所述图片损失函数计算预测图片与标注图片之间的第一损失值,所述预测图片为经过解码层解码生成的图片,所述批注图片为预先选定的图片,将所述第一损失值与预设的第一阈值进行比较,若所述第一损失值大于所述第一阈值,则对待训练多模态模型进行参数调整,使得所述待训练多模态模型的解码层可解码出所述第一损失值小于所述第一阈值的预测图片;若所述第一损失值小于所述第一阈值,则将所述第一损失值对应的训练参数记为第一参数;通过所述文本损失函数计算预测文本与标注文本之间的第二损失值,所述预测文本为经过解码层解码生成的文本,所述标注文本为预先选定的文本,将所述第二损失值与预设的第二阈值进行比较,若所述第二损失值大于所述第二阈值,则对待训练多模态模型进行参数调整,使得所述待训练多模态模型的解码层可解码出所述第二损失值小于所述第二阈值的预测文本;若所述第二损失值小于所述第二阈值,则将所述第二损失值对应的训练参数记为第二参数;将所述第一损失值和所述第二损失值相加,得到损失值,将所述损失值与预设阈值进行比较,若所述损失值小于所述预设阈值,则判定待训练多模态模型完成训练,其输出的图文结合摘要符合预设要求,将所述第一参数
和所述第二参数设置为所述待训练多模态模型的固定参数,得到多模态模型;若所述损失值大于所述预设阈值,则判定所述待训练多模态模型仍需进行训练,直至损失值小于所述预设阈值。通过预设的损失函数对待训练多模态模型进行训练,得到多模态模型,实现了图文摘要技术的优化。
43.参照图6,在一个实施例中,所述通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型之后,还包括以下步骤s651-s653:s651、获取待处理文本及待处理图片;s652、将所述待处理文本和所述待处理图片输入所述多模态模型;s653、基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
44.本实施例中,获取待处理文本及待处理图片,将所述待处理文本和所述待处理图片输入多模态模型中,在所述多模态模型的编码层中分别将所述待处理文本和所述待处理图片进行编码,得到对应的第一编码特征向量和第二编码特征向量,在解码层分别对所述第一编码特征向量和所述第二编码特征向量进行解码,得到对应的预测图片和预测文本,将所述预测图片和所述预测文本进行结合,得到图文结合的摘要文本,所述图文结合的摘要文本的生成有利于用户在解读医疗领域、金融领域的文献内容时,直观解读所述文献内容,实现对所述文献内容的全面把握。
45.参照图7,本技术提供一种多模态模型的训练装置,所述装置包括:第一获取模块10,用于获取第一特征向量,所述第一特征向量为图片特征向量;第二获取模块20,用于获取第二特征向量,所述第二特征向量为文本特征向量;输入模块30,用于将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;编码模块40,用于通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;解码模块50,用于将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;训练模型60,用于通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。
46.如上所述,可以理解地,本技术中提出的所述的多模态模型的训练装置的各组成部分可以实现如上所述的多模态模型的训练方法任一项的功能。
47.在一个实施例中,所述第一获取模块10还用于执行:读取图片训练集中的图片;切分所述图片,获取多张子图片;对每一张所述子图片进行位置编码,得到图片位置编码向量;将多张所述子图片输入全连接神经网络,获取图片子特征向量;依据所述图片位置编码向量和所述图片子特征向量生成图片特征向量。
48.在一个实施例中,所述第二获取模块20还用于执行:
读取文本训练集中的文本信息;拆分所述文本信息,得到多个文字分词;对每一个所述文字分词进行位置编码,得到文字位置编码向量;将多个所述文字分词输入全连接神经网络,获取文本子特征向量;依据所述文字位置编码向量和所述文本子特征向量生成文本特征向量。
49.在一个实施例中,所述编码模块40还用于执行:在所述编码层中根据不同权重数据分别对所述第一特征向量和所述第二特征向量进行分析,得到第一分析数据和第二分析数据;基于所述第一特征向量结合所述第一分析数据生成第一编码特征向量;基于所述第二特征向量结合所述第二分析数据生成第二编码特征向量。
50.在一个实施例中,所述训练模型60还用于执行:损失函数为;其中,表示图片损失函数;表示文本损失函数。
51.在一个实施例中,所述训练模型60还用于执行:通过所述图片损失函数计算预测图片与标注图片之间的第一损失值;通过所述文本损失函数计算预测文本与标注文本之间的第二损失值;将所述第一损失值和所述第二损失值相加,得到损失值;判断所述损失值是否小于预设损失阈值;若所述损失值小于所述预设损失阈值,则判定所述待训练多模态模型完成训练,得到多模态模型。
52.在一个实施例中,所述训练模型60还用于执行:获取待处理文本及待处理图片;将所述待处理文本和所述待处理图片输入所述多模态模型;基于所述多模态模型对所述待处理文本和所述待处理图片进行处理,得到图文结合的摘要文本。
53.参照图8本技术实施例中还提供一种计算机设备,该计算机设备的内部结构可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中,该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的显示装置用于显示交互页面。该计算机设备的输入装置用于接收用户的输入。该计算机设备设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质。该非易失性存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放原始数据。该计算机程序被处理器执行时以实现一种多模态模型的训练方法。
54.上述处理器执行上述的多模态模型的训练方法,包括:获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括
编码层和解码层;通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。所述计算机提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
55.本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被所述处理器执行时实现一种多模态模型的训练方法,包括步骤:获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型。所述计算机可读存储介质提供了一种多模态模型的训练方法,通过获取第一特征向量,所述第一特征向量为图片特征向量;获取第二特征向量,所述第二特征向量为文本特征向量;将所述第一特征向量和所述第二特征向量输入待训练多模态模型,所述待训练多模态模型包括编码层和解码层;通过所述编码层对所述第一特征向量和所述第二特征向量进行编码,获取对应的第一编码特征向量和第二编码特征向量;将所述第一编码特征向量和所述第二编码特征向量输出至所述解码层,通过所述解码层解码所述第一编码特征向量和所述第二编码特征向量并生成图文摘要;通过预设的损失函数对所述待训练多模态模型进行训练,直至所述待训练多模态模型中的参数收敛,得到多模态模型,实现对图文摘要的技术的优化,进而得到高匹配度的图文摘要。
56.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram
(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
57.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
58.以上所述仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献