一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

融合文本和图片特征的多模态机器翻译方法与流程

2022-03-02 01:26:53 来源:中国专利 TAG:


1.本发明涉及融合文本和图片特征的多模态机器翻译方法,属于自然语言处理技术领域。


背景技术:

2.多模态神经机器翻译(mmt)的目的是在存在图像输入的情况下将源句子转换为目标句子,这在过去几年中引起了很多关注。基本的假设是视觉信息可以帮助改善纯文本的机器翻译。最近的工作集中在具有图像-文本对和不同语言描述的multi30k数据集上。
3.许多研究试图通过弥合文本形式与视觉形式之间的间隙来解决这个问题,设计更好的翻译模型以将图像特征有效地整合到文本翻译处理中是mmt的主要挑战,许多的多模态融合方法已经成为mmt的主要挑战,最近被广泛探索。ive et al.(2019)提出了一种基于解码和细化策略的两级解码器,以通过审议网络融合图像特征;calixto et al.(2019)提出了一种新颖的潜在变量mmt体系结构,将视觉和文本功能都投映到公共潜在空间中,然后合并图像信息的不同视图以增强文本机器翻译;yao and wan(2020)构建多模态transformer,以提取最相关的图像信息的一部分,以提高机器翻译性能;与上述直接特征融合方法不同,yin et al.(2020)提出了利用多模态语义关系的文本图像图,并提出了基于图的mmt多模态节点表示;lin et al.(2020)提出了一种动态的上下文指导胶囊网络,以对mmt的模态之间的语义交互进行充分建模。以上现有的多模态特征融合方法主要集中在设计特征融合体系结构上,以将文本特征和视觉特征都投映到公共特征空间中,或者通过注意力机制过滤不相关的特征。
4.实际上,特征表示是深度学习的基石,因此,有一个合理的假设,即直接为图像和文本构建多模态特征表示可能有助于提高mmt的机器翻译性能,多模态特征表示和融合应该同时解决。


技术实现要素:

5.本发明提供了融合文本和图片特征的多模态机器翻译方法,以用于提高多模态机器翻译的性能,改善了多模态机器翻译的性能,提高了文本特征和视觉特征的潜在空间对齐。
6.本发明的技术方案是:融合文本和图片特征的多模态机器翻译方法,所述方法的具体步骤如下:
7.step1、对multi30k数据进行预处理,将处理好的文本特征和视觉特征采用multimodelmixup融合,再把被混合的特征作为q矩阵,文本特征作为k和v矩阵,然后采用注意力机制获得丰富的多模态特征;
8.step2、基于transformer,在encoder不同的层上采用layermixup不断抽取图片中和文本的相关信息,在encoder的最后一层被融合的特征被送入到decoder端进行解码。
9.作为本发明的进一步方案,所述step1的步骤如下:
10.step1.1、采用multi30k数据集,并划分训练集、验证集、测试集;
11.step1.2、数据集中文本数据采用bpe分词预处理,通过resnet-101提取视觉特征,空间特征是7
×7×
2048维向量,具有图像的49个局部空间区域特征;然后将预处理好的文本进行词嵌入和位置嵌入,获取文本特征和视觉特征
12.step1.3、对于任何给定的图像-文本对数据集是通过以下混合策略生成的,具体如下:
[0013][0014]
其中,α是混合超参数,用于平衡视觉特征和文本特征,并且是标量,服从beta分布,是第k个被混合的多模态特征,g(*)是线性变换函数,是文本特征,是视觉特征;
[0015]
然后采用两种定向的多模态混合策略,包括视觉到文本的混合和文本到视觉的混合,具体如下:
[0016][0017][0018]
其中,i

t表示视觉特征融入到文本特征中;t表示视觉特征融入到文本特征中;t

i表示文本特征融入到视觉特征;最后,将混合特征与原始文本和视觉特征连接起来,将多模态特征表示如下:
[0019][0020][0021]
其中,||表示拼接操作,另外,multimodelmixup融合方式仅在解码器第一层中使用,使文本特征和视觉特征潜在空间更好地对齐;
[0022]
step1.4、采用具有512维隐藏状态的6层编码器和解码器;用多头自我注意力机制计算被混合的特征和文本特征之间的相互表达,表示如下:
[0023][0024]
其中,表示被混合的特征,multihead(*)是一个self-attention层,l={0,1,

,5}是transformer层指数,多头自我注意力机制具体计算如下:
[0025][0026]
其中是文本特征和混合特征的点积注意力,α
ij
的权重系数由softmax函数计算:
[0027][0028]
其中和是参数矩阵,d是文本特征的最后一维,大小为512。
[0029]
作为本发明的进一步方案,所述step1中还包括如下:
[0030]
采用自我注意力机制生成文本特征和混合特征的相互连接,这里混合特征是来自multimodelmixup混合得到的,作为一个q矩阵,文本特征作为k和v矩阵,
[0031][0032][0033]
作为本发明的进一步方案,所述step2包括:
[0034]
step2.1、连续抽取transformer不同层上图片的隐藏状态,采用如下两种方法融合多模态特征;
[0035]
1、视觉特征融入到文本特征:
[0036][0037][0038]
其中,是经过自我注意力机制的文本特征,每一次采用layermixup都重新抽取了图片信息中的隐藏状态来指导文本的翻译;
[0039]
2、文本特征融入到视觉特征:
[0040][0041][0042]
其中,表示伪视觉特征,值得注意的是一直是视觉特征;
[0043]
step2.2、采用多头自注意层对每个单词从表示中引入了所有的混合特征,混合特征作为q矩阵,文本特征作为k/v矩阵;
[0044]
step2.3、最终,采用位置前馈网络ffn,后混合策略post mixup如下所示:
[0045][0046][0047]
同样,在先混合策略pre-mixup中也使用了位置前馈网络;
[0048]
step2.4、在编码的最后一层,或者作为k和v矩阵被送入到解码器解码。
[0049]
作为本发明的进一步方案,所述先混合策略pre-mixup和后混合策略post mixup分别如下:
[0050]
后混合策略post mixup:在编码端的不同层上采用multimodelmixup融合策略作为layermixup;post mixup策略先执行多头自我注意力机制,然后采用layermixup抽取图片中的有用信息,并且为了防止梯度消失在中间添加了残差连接;
[0051]
先混合策略pre-mixup:在执行多头自我注意力机制之前采用layermixup,考虑到梯度消失和网络退化,还添加了混合特征的残差连接。
[0052]
本发明的有益效果是:
[0053]
1.本发明提出的一种新颖的机器翻译模型-multimodelmixed-mmt来解决多模态
机器翻译问题,这是对多模态器翻译采用混合策略的首次尝试。
[0054]
2.提出了一种基于multimodelmixup的新型多模态编码器网络,通过将视觉特征和文本特征投映到共同的多模态空间中来获得多模态特征表示。
[0055]
3.multi30k英语-德语和英语-法语数据集上的实验结果表明,本发明提出的方法显著提高了机器翻译性能,并获得了最新的(sota)bleu和meteor评分。
[0056]
4.与多模态机器学习方法不同,本发明提出了一种基于transformer的联合多模态特征表示和模态融合框架方法,以通过mixup直接学习多模态特征表示。在transformer编码器上,首先采用标准的transformer嵌入层和预训练resnet-101网络分别初始化文本特征和视觉特征,然后采用多模态特征混合策略来混淆多模态特征,多模态transformer用于完全融合视觉特征和文本特征。此外,采用特征一致性约束机制来进一步确保两个特征都可以对齐到多模态公共特征空间中。本发明的模型学习了更好的多模态表示,因此有利于改进多模态机器翻译。
附图说明
[0057]
图1为本发明中的详细的多模态混合multimodelmixup融合方法流程图;
[0058]
图2为本发明中后混合(post mixup)策略结构图;
[0059]
图3为本发明中先混合(pre-mixup)策略结构图;
[0060]
图4为本发明融合文本和图片特征的多模态机器翻译方法对应的翻译模型结构示意图。
具体实施方式
[0061]
实施例1:如图1-图4所示,融合文本和图片特征的多模态机器翻译方法,所述方法的具体步骤如下:
[0062]
step1、对multi30k数据进行预处理,将处理好的文本特征和视觉特征采用multimodelmixup融合,再把被混合的特征作为q矩阵,文本特征作为k和v矩阵,然后采用注意力机制获得丰富的多模态特征;
[0063]
作为本发明的进一步方案,所述step1的步骤如下:
[0064]
step1.1、通过国际翻译大赛wmt2018:mltimodel-task1下载multi30k数据集,其中训练集、验证集和测试集分别包含29000、1014和1000个文本图像对;
[0065]
step1.2、数据集中文本数据采用bpe分词预处理,通过resnet-101提取视觉特征,空间特征是7
×7×
2048维向量,具有图像的49个局部空间区域特征;然后将预处理好的文本进行词嵌入和位置嵌入,获取文本特征和视觉特征文本特征和视觉特征具体计算如下:
[0066][0067][0068]
其中,是文本嵌入层包含词嵌入和位置嵌入,是resnet-101视觉特征提取层;
[0069]
step1.3、与cv和nlp任务中提出的混合策略相似,尝试在通用的多头特征空间中
直接混合跨模态特征,这是在多头融合任务中首次使用混合策略的尝试,详细的multimodelmixup融合方法如图1所示;对于任何给定的图像-文本对数据集是通过以下混合策略生成的,具体如下:
[0070][0071]
其中,α是混合超参数,用于平衡视觉特征和文本特征,并且是标量,服从beta分布,是第k个被混合的多模态特征,g(*)是线性变换函数,是文本特征,是视觉特征;
[0072]
然后采用两种定向的多模态混合策略,包括视觉到文本的混合和文本到视觉的混合,具体如下:
[0073][0074][0075]
其中,i

t表示视觉特征融入到文本特征中;t表示视觉特征融入到文本特征中;t

i表示文本特征融入到视觉特征;最后,将混合特征与原始文本和视觉特征连接起来,将多模态特征表示如下:
[0076][0077][0078]
其中,||表示拼接操作,另外,multimodelmixup融合方式仅在解码器第一层中使用,使文本特征和视觉特征潜在空间更好地对齐;
[0079]
step1.4、采用具有512维隐藏状态的6层编码器和解码器;用多头自我注意力机制(multi-model self-attention)计算被混合的特征和文本特征之间的相互表达,表示如下:
[0080][0081]
其中,表示被混合的特征,multihead(*)是一个self-attention层,l={0,1,

,5}是transformer层指数,多头自我注意力机制具体计算如下:
[0082][0083]
其中是文本特征和混合特征的点积注意力,α
ij
的权重系数由softmax函数计算:
[0084][0085]
其中和是参数矩阵,d是文本特征的最后一维,大小为512。
[0086]
作为本发明的进一步方案,所述step1中还包括如下:
[0087]
采用自我注意力机制生成文本特征和混合特征的相互连接,这里混合特征是来自
mixup类似,提出两种融合方法:视觉到文本混合和文本到视觉混合。
[0110]
为了说明本发明的效果,设置了4组对比实验,其中前面三组是英德翻译任务。第一组主实验结果,在这个领域比较和一些以前的结果。第二组实验pre-mixup策略在不同层上的结果比较。第三组实验post mixup策略在不同层上的结果比较。第四组实验验证模型的泛化性能。
[0111]
(1)主实验结果
[0112]
将机器翻译性能与其他mmt方法进行了比较,评价模型用英德翻译任务,并采用了三个测试集:1)测试集中包含1000个句子的测试集multi30k,2)带有1,000个实例的wmt2017测试集,3)mscoco测试集包含461个含歧义动词的句子。参数设置如下表1所示。
[0113]
表1模型的参数设置
[0114][0115]
最终,将最后10个模型的检查点取平均值作为本发明的模型,并使用指标bleu和meteor来评估本发明模型翻译的性能。在训练过程中,如果blue得分连续15次不能提高模型翻译的验证数据,停止训练模型。实验结果如表2所示。
[0116]
表2:multi30k数据集的en

de转换任务的比较结果
[0117][0118][0119]
分析表2可知,与大多数以前的模型相比,本发明的模型优于大多数现有模型,并且在三个测试集上获得了更具竞争力的结果。比较基线模型,发现以下结论:
[0120]
1)与test2016中的multimodal transformer相比,如果没有回译数据增加数据量,仅multimodal transformer模型在test2016中的bleu得分为38.7,而本发明的模型得
分超过3.1bleu。从形式上讲,与yao and wan(2020)简单地将两个模态的文本和图像拼接起来不同,本发明随机选择一些文本/图像特征以减少图像引入的噪声,然后使用multimodelmixup从图像中提取相关信息。然后将文本特征、视觉特征和混合特征连接起来。结果证明了所提出的模型的有效性。
[0121]
2)本发明的模型也明显优于graph-based mmt,bleu和meteor评估标准在这三个测试集上均获得了出色的结果。graph-based mmt首先会分别采用文本特征和视觉特征的自注意,以便从相同模态的邻居生成上下文表示。然后通过交叉模态选通方法将这两种模态连接起来,以突出显示文本特征。但是,仅使用选通方法来对齐文本和视觉特征,空间对齐就相对较差。然而本发明的模型首先通过multimodelmixup在潜在空间上对齐源语言和视觉特征,然后通过自注意力计算源语言和视觉特征之间的关系,空间对齐得到了很大的改善。
[0122]
3)与表2中的doubly-att(rnn)和soft-att(rnn)等相比,这些模型仅使用注意力机制来利用图像信息,文本和图像的潜在空间对齐不足。
[0123]
(2)pre-mixup策略实验
[0124]
采用pre-mixup策略在transformer不同层上实验,英语到德语的翻译性能由bleu评估。实验结果如表3所示。
[0125]
表3 pre-mixup策略在transformer不同层上的实验结果
[0126][0127][0128]
(3)post mixup策略实验
[0129]
采用post mixup策略在transformer不同层上实验,英语到德语的翻译性能由bleu评估。实验结果如表4所示。
[0130]
表4 post mixup策略在transformer不同层上的实验结果
[0131]
[0132]
比较pre-mixup和post mixup实验结果,可以得出以下结论:
[0133]
1)比较视觉融入文本特征,在编码器的下层采用layermixup,视觉特征和文本特征的融合更充分。此外,比较文本融入视觉特征,在不同的层上采用layermixup,实验结果相差不大。
[0134]
2)视觉融入文本特征也明显优于文本到视觉的混合。因为文本融入到视觉特征会保留所有图像信息,其中包含许多不相关的信息。另外,总体而言,由于模型的编码器充分对齐了文本和图像的潜在空间,因此本发明的模型性能取得了显著的改进。
[0135]
(4)模型泛化性实验
[0136]
为了探索本发明的模型的通用性,本发明还使用两个测试集bleu和meteor对英法翻译任务进行了实验,结果记录在表5中。
[0137]
表5英法翻译任务实验结果
[0138][0139][0140]
分析表5,正如所看到的,与大多数以前的模型性能相比,本发明的模型仍实现了显著的改进。这些结果再次有力地表明,发明的模型对于多模态神经机器翻译(mmt)上的不同语言对是通用且有效的。
[0141]
通过以上数据证明了本发明multimodelmixed-mmt模型能够有效的提升多模态机器翻译的性能。实验结果表明,发明的多模态融合模型对于对齐多模态特征非常有用。受益于对齐的多模态特征,本发明的模型优于以前模型性能。
[0142]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献