基于知识注入的双注意力网络的多模态讽刺意图识别方法

2022-11-30 10:05:56 来源：中国专利 TAG：

1.本发明涉及一种基于知识注入的双注意力网络的多模态讽刺意图识别方法，属于多模态信息识别技术领域。

背景技术：

2.基于多模态信息的讽刺表达是通过使用与图片中比喻场景相反的文本来达到含蓄表达强烈情感的目的。当前，基于文本和图片的讽刺表达在微博、推特等社交平台上普遍存在。由于讽刺表达能翻转文本中情感或观点的极性，因此，自动检测多模态讽刺意图在客户服务、意见挖掘以及各种需要了解人们真实情感的任务中具有重要意义。
3.实际中的多模态讽刺意图检测十分复杂。用户输入信息的语义表达不仅受到显性内容，还有隐性上下文的影响。显性内容是指输入的文本或图片中可观察到的场景内容，隐性上下文是指输入信息中不可见的关于场景的推理知识，包括涉及场景发展的过程和场景中人物的意图。基于文本和图片的完整语义表示，识别讽刺意图需要精准定位多模态信息中描述讽刺的部分并判别它们的语义差异。然而，现有多模态讽刺检测方法仅从输入文本和图片中学习特征，忽略了对内容背后隐性上下文的建模。同时，它们基于文本和图片未处理的全量信息去建模多模态信息间的语义差异，容易引入噪音，导致讽刺意图识别的准确率下降，模型的实际应用受到影响。如何将隐性上下文信息注入到多模态输入来获取更好的特征表示，并基于这些信息精准定位讽刺描述区域进行语义差异识别是亟待解决的问题。

技术实现要素：

4.针对上述问题，本发明提出的基于知识注入的双注意力网络的多模态讽刺意图识别方法，利用知识增强的多维度注意力模块将隐性上下文知识注入到多模态输入表示中，根据人类的推理方式将隐性上下文知识划分为两个角度，即场景状态和情感状态，来构建多模态信息的完整语义表示。同时，使用双注意力网络基于联合记忆向量来协作执行图片和文本注意力模块，该联合记忆向量将先前的注意结果集合起来，以捕获文本和图片中涉及讽刺的共享语义。最后，基于联合嵌入空间，采用多维度跨模态匹配层从多维度区分多模态之间的差异。这有助于提高讽刺识别的整体性能，并对预测结果提供可解释性，方便模型的实际应用。
5.本发明的技术内容包括：
6.一种基于知识注入的双注意力网络的多模态讽刺意图识别方法，所述方法包括：
7.获取待识别数据内容，所述待识别数据内容包括：若干《文本、图片》对，所述文本包含若干个单词i，所述图片涉及多个对象j；
8.分别对所述文本中的单词i与所述图片中的对象j进行编码，得到单词原始表示与对象原始表示
9.基于所述待识别数据内容的隐性上下文信息，对所述单词原始表示与所述对
象原始表示进行扩展，得到单词上下文感知表示与对象上下文感知表示
10.使用双注意力网络分别对所述单词原始表示所述对象原始表示以及所述单词上下文感知表示所述对象上下文感知表示进行注意力计算，获取原始表示与上下文感知表示的注意力计算结果；
11.针对原始表示与上下文感知表示的注意力计算结果，通过比对文本和图片间的差异，得到原始跨模态对比表示和上下文感知跨模态对比表示；
12.基于所述原始跨模态对比表示和所述上下文感知跨模态对比表示，计算所述待识别数据内容的讽刺意图识别结果。
13.进一步地，所述对所述图片中的对象j进行编码，得到对象原始表示包括：
14.对于每张图片，使用预训练的目标检测器从图片中检测出对象j的区域，并将多类分类层之前的池化特征作为对象j的视觉特征表示rj；
15.将所述视觉特征表示rj投影到文本表示的空间中；
16.通过计算文本中每个单词i与对象j的相关性，获取特定于对象j的文本表示
17.基于所述文本表示与视觉特征表示rj，计算对象j带有与文本相关性的表示
18.将视觉特征表示rj组成的对象序列输入双向门控循环神经网络，并将所述表示作为计算权重，从而得到每一对象j的对象原始表示
19.进一步地，所述基于所述待识别的数据内容的隐性上下文信息，对所述单词原始表示与所述对象原始表示进行扩展，得到单词上下文感知表示与对象上下文感知表示包括：
20.针对每一图片或文本中的事件描述，生成不同类型的推理知识并计算所述推理知识的常识推理表示h
m,r
，其中，w
l
标示推理知识中的单词，1≤l≤l，l表示推理知识的长度，关系类型r∈{before,after,intent}，before表示事件前关系类型，ofter表示事件后关系类型，intent表示场景中人物意图关系类型，模态m表示文本模态或图片模态；
21.基于所述单词原始表示组成的文本特征映射h
t
、所述对象原始表示组成的图片特征映射hi、以及所述常识推理表示h
m,r
，计算所述待识别数据内容与所述推理知识之间的关联矩阵cm；
22.基于所述关联矩阵cm，获取所述单词原始表示与所述对象原始表示的文本带有隐性上下文信息的表示和图片带有隐性上下文信息的表示
23.通过为每一所述推理知识学习一个相关权重，计算所述表示与所述表示的增强表示与增强表示
24.基于所述增强表示与所述增强表示计算单词上下文感知表示与对象
上下文感知表示其中，所述单词感知向量表示包括：单词的场景状态上下文感知表示和情感状态上下文感知表示所述对象上下文感知向量表示包括：对象的场景状态上下文感知表示和情感状态上下文感知表示
25.进一步地，所述基于所述关联矩阵cm，获取所述单词原始表示与所述对象原始表示的文本带有隐性上下文信息的表示和图片带有隐性上下文信息的表示包括：
26.基于所述关联矩阵cm与所述常识推理表示h
m,r
，使用注意力机制形成推理知识的词级表示与对象级表示
27.在所述单词原始表示与所述对象原始表示分别相加所述词级表示与所述对象级表示得到表示与表示
28.进一步地，所述基于所述增强表示计算单词上下文感知表示包括：
29.将所述增强表示具体为事件前关系类型的增强表示事件后关系类型的增强表示意图关系类型的增强表示
30.根据所述增强表示所述单词原始表示与所述增强表示计算单词场景状态上下文感知表示
31.根据所属增强表示得到单词情感状态上下文感知表示
32.进一步地，使用双注意力网络分别对所述单词原始表示所述对象原始表示进行注意力计算，获取原始表示的注意力计算结果，包括：
33.对各单词原始表示进行求和，得到文本完整表示u
(0)
；
34.对图片中的各对象原始表示进行求和，得到图片完整表示v
(0)
；
35.根据所述表示u
(0)
与所述表示v
(0)
，计算联合记忆向量m
(0)
；
36.基于进行迭代计算，并在迭代结束后，得到联合记忆向量m
(k)
，其中，k表示迭代总次数，i
(k)
表示第k次迭代的文本完整表示，v
(k)
表示第k次迭代的图片完整表示，是元素乘积；
37.基于所述联合记忆向量m
(k)
，并利用双注意力网络进行注意力计算，分别得到文本完整表示u
(k 1)
与图片完整表示v
(k 1)
；
38.将文本完整表示u
(k 1)
与图片完整表示v
(k 1)
作为原始表示的注意力计算结果。
39.进一步地，所述基于所述联合记忆向量m
(k)
，计算文本完整表示u
(k 1)
，包括：
40.根据所述联合记忆向量m
(k)
与所述单词原始表示计算所述双注意力网络中前馈神经网络的输出
41.将所述输出代入softmax函数，得到注意力权重
42.基于所述注意力权重对所述单词原始表示加权求和，得到文本完整表示u
(k 1)
。
43.进一步地，所述针对原始表示的注意力计算结果，通过比对文本和图片间的差异，得到原始跨模态对比表示，包括：
44.原始跨模态对比表示其中，表示可训练权重矩阵，||是元素差的绝对值，；表示连接操作
45.进一步地，所述基于所述原始跨模态对比表示和所述上下文感知跨模态对比表示，计算所述待识别数据内容的讽刺意图识别结果，包括：
46.连接所述原始跨模态对比表示和所述上下文感知跨模态对比表示；
47.将连接结果输入全连接层，并使用sigmoid函数进行二元讽刺分类，以得到所述待识别数据内容的讽刺意图识别结果。
48.一种电子装置，所述电子装置包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行，以实现上述任一所述方法。
49.本发明与现有技术相比的优势在于：
50.(1)方法采用visualcomet为文本和图片模态信息提供隐性上下文信息，即场景状态上下文和情感状态上下文，采用知识增强的多维度注意力模块将隐性上下文注入到多模态输入中，生成上下文感知的文本和图片表示，从而帮助多模态信息构建完整的语义上下文。
51.(2)设计的双注意力网络，可以通过多次迭代利用文本和图片注意力机制精准定位多模态信息中描述讽刺的区域。同时，双注意力从网络分别应用在原始表示和上下文感知表示上，捕获多个角度的多模态信息表示。基于多维度的共享表示空间，采用多维度跨模态模块来区分文本和图片的语义差异，从而准确识别讽刺意图。
52.(3)本发明相比较于已有的方法具有更高的性能，同时双注意力模块结合注入的知识可以为预测的结构提供可解释性。
附图说明
53.图1本发明系统模型流程图。
54.图2本发明系统模型架构图。
具体实施方式
55.下面将结合附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明特定实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。
56.本发明的技术解决问题：提出一种基于知识注入的双注意力网络的多模态讽刺意图识别方法，针对多模态讽刺意图识别问题，一方面采用知识增强的多维度注意力模型来构建多模态信息的完整语义表示，另一方面采用双注意力机制来维护一个共享向量，通过文本和图片注意力模块来抽取多模态信息中涉及讽刺的共享语义，并通过多维度跨模态匹
配层对包含隐性上下文的多模态场景的差异进行建模，有助于提高讽刺识别的整体性能，而且对预测结果也提供了一定的可解释性。
57.本发明的技术解决方案：基于知识注入的双注意力网络的多模态讽刺意图识别方法，将隐性上下文知识注入多模态表示中来构建多模态信息的完整语义，并利用双注意力网络来捕获多模态中描述讽刺的区域从而进行多维度语义对比。模型中，先将文本和图片输入编码为向量表示，并利用注意力机制对齐文本和图片中的对象，从而过滤掉图片中不相关的信息；然后，为了补充文本和图片所缺乏的隐性上下文信息，利用事件知识图谱为文本和图片生成场景上下文和情感上下文，并通过知识增强的多维度注意力模块将获取的知识注入多模态输入中构建多模态信息的完整语义编码；为了关注文本和图片中描述讽刺的区域，提出了一个协作执行文本和图片的双注意力模块，通过维持联合记忆向量在多模态信息原始编码和完整语义编码中捕获跨多个模态的共享语义；基于联合嵌入空间，采用多维度跨模态匹配来区分多个维度上的多模态差异；最后，多个对比结果连接起来输入分类从用于多模态讽刺检测。
58.图1为本发明系统模型流程图，如图1所示，本发明系统包括：输入编码模块、知识注入模块、双注意力交互模块、多维度跨模态匹配模块、分类预测模块五大部分。
59.首先，在编码模块中，对于单词预处理，使用nltk工具包分离文本句子获取单词，单词嵌入使用glove算法生成的200维向量作为初始化；对于图片预处理，使用faster-rcnn来提取图片对象及其特征，并在训练阶段进行修复。bi-gru的隐藏大小为512维。
60.在知识注入模块中，对于事件推理知识，利用visualcomet事件推理生成器为文本和图片生成三类关系“before”、“after”、“intent”的推理知识。例如，输入文本为“这就是我想成为妈妈的原因”，图片描述“一个拿着扫帚的女人站在屋内”。visualcomet为文本生成的三类关系的推理为：before：[be in a family roo、put on her school uniform、
…
]，after：[play games with friends、tell them wrong、
…
]，intent：[stay at home cozy、make her mom happy、
…
]；为图片生成的三类关系推理为：before：[put on an apron、be from a school、
…
]，after：[clean the room、finish her housework、
…
]，intent：[cleaning the room with a broom、play games with friends、
…
]。在实际应用过程中，为文本和图片在每个关系类型上的推理知识保持15个候选项。随后，利用知识注入模块获得隐性上下文知识增强的多模态信息表示，构建文本和图片的完整语义信息。
[0061]
在双注意力交互模块中，文本和图片注意力机制通过3次交互式迭代获得文本和图片关注于描述讽刺区域的表示。
[0062]
在多维度跨模态匹配模块中，文本和图片在原始表示、场景状态上下文感知表示、情感状态上下文感知表示方面进行对比。
[0063]
在分类模块中，将三个维度的多模态信息对比结果连接，并输入到由双层全连接网络和softmax构成的输出层进行讽刺意图分类。在训练时，批大小为32，模型训练学习率为0.0005，adam用作优化器。
[0064]
图2为本发明的系统模型架构图，如图2所示：
[0065]
·
输入编码模块
[0066]
对输入的文本和图片模态信息进行特征抽取，并编码到统一向量空间。其输入为包含一系列单词的句子和包含多个对象的图片；输出为经过下述操作的向量表示。输入编
码模块包含以下两部分：
[0067]
(1)文本编码模块：
[0068]
给定一个文本单词序列{w1,w2,
…
,wn}，为获取句子语义信息，采用双向门控循环神经网络(bi-gru)学习文本中单词的序列语义信息表示，并编码为向量形式：
[0069][0070]
其中，是bi-gru单元输出的第i个单词的隐藏状态表示，n为句子中词的个数，即句子长度。单词序列经bi-gru编码后原始表示为
[0071]
(2)图片编码模块
[0072]
图片中涉及多个对象，为了过滤图片中不相关信息以及避免等分切割图片造成的对象语义不完整的问题，直接抽取图片中与文本相关的对象并进行特征表示。
[0073]
对于每张图片i，使用预训练的目标检测器——faseter r-cnn从图片中检测出d个显著对象，并将多类分类层之前的池化特征作为对象的特征表示。随后将抽取对象的视觉特征投影到文本表示的空间中。
[0074]rj
＝relu(w
vrj
bv)，
[0075]
其中，rj是第j个检测对象的视觉特征表示，wv是权重矩阵，bv是偏差参数。
[0076]
图片作为输入文本的背景信息，文本仅涉及图片中的部分目标物。为了抑制图片中无关信息产生的负面影响，采用门控注意机制通过计算单词和区域级别的相关性来对齐文本和图片。对于图片中的每个对象，门控注意机制使用软注意机制计算文本中每个词与该对象的相关性并形成特定于该对象的文本表示然后将与视觉特征表示rj执行元素相乘获得每个目标物带有与文本相关性的表示：
[0077][0078][0079][0080]
由于图片区域缺少自然的顺序，通过双向门控循环神经网络bi-gru将图片中的零散的信息串联成完整的语义表达，
[0081][0082]
图片中的对象经bi-gru编码后的原始表示为
[0083][0084]
其中，d为图片中经过目标检测器识别的对象个数。
[0085]
·
知识注入模块
[0086]
为了构建文本和图片的完整语义表示，利用隐性上下文信息对多模态信息进行自然地扩展，从而形成多视图知识丰富的多模态特征表示。知识注入模块包含以下两部分：
[0087]
(1)知识获取模块：
[0088]
利用视觉-文本事件推理器visualcomet为输入的文本和图片提供场景状态上下文和情感状态上下文两个维度的常识知识推理。visualcomet使用预训练的自回归语言模型gpt-2作为生成模型，给定一个图片或者事件的描述，可生成出关于before、after和
intent三个关系类型的推理知识，即事件前后(场景状态上下文)以及场景中人物的意图(情感状态上下文)。常识知识推理通常是由一系列单词的短句组成，关于不同模态的推理知识定义为其中r代表三个关系类型，r∈{before,after,intent}，m代表文本和图片模态，m∈{t,i}。
[0089]
采用双向门控循环网络(bi-gru)处理短句，获得他们的表示，l为推理知识的句子长度。
[0090]
(2)多维度知识注入模块：
[0091]
基于不同视角的常识知识推理，设计知识感知注意层，形成多维度知识感知多模态表示。首先利用每个知识推理查询文本或者图片中每个元素并计算其相关性，将文本或图片中的元素与知识推理对齐。具体地说，给定多模态特征表示hm(文本特征映射或图片特征映射)和常识推理表示计算输入与推理知识间的相关性，即关联矩阵cm：
[0092]cm
＝tanh(hmwm(h
m,r
)
t
)
[0093]
其中，wm是权重矩阵。
[0094]
随后使用注意力机制形成关于输入特征的推理知识的词级表示，并与输入特征原始表示相加获得文本带有隐性上下文信息的表示和图片带有隐性上下文信息的表示
[0095][0096][0097]
由于事件推理器visualcomet会为文本和图片生成多个候选推理知识。为了关注于与输入场景更为相关的推理，为每个知识推理学习一个相关权重，并对它们加权求和生成多模态信息知识增强的表示：
[0098][0099][0100]
其中，wm
,r
是权重矩阵，q是候选的推理知识数量。
[0101]
场景状态上下文由场景前、场景中、场景后组成，因此，对三种状态取平均得到输入的场景状态上下文感知的单词向量表示：
[0102][0103]
相应地，场景状态上下文感知的图片向量表示为同理，本发明可以获取情感状态上下文感知的文本表示和图片表示
[0104]
·
双注意力模块
[0105]
为了定位文本和图片中描述讽刺的部分，创建一个联合记忆向量，通过多次迭代执行文本注意力和图片注意力机制，来收集两种模态中涉及讽刺的共享信息。基于双注意机制，我们可以获得聚焦于特定区域的文本和图片的表示。双重注意机制在多模态的原始表示和上下文感知表示三个方面执行。为简化表达，在下述描述中省略关系类型的描述，即简化为ui，简化为vj。
[0106]
双注意力模块包含以下三个子模块：
[0107]
(1)共享向量
[0108]
识别多模态信息中的讽刺关键是找到描述同一事物的联合空间，即描述讽刺的区域。为此，设计了一个联合记忆向量，以在文本和图片中收集在k次迭代中已识别的信息：
[0109][0110]
其中，v
(k)
和u
(k)
是图片和文本完整表示，初始记忆表示m
(0)
被定义为v
(0)
和u
(0)
的元素向量乘机。
[0111][0112][0113]
(2)文本注意力机制
[0114]
文本注意力机制识别描述讽刺的区域，是通过计算文本中每个单词与联合记忆向量的注意权重来衡量文本中每部分涉及讽刺的相关性。具体而言，注意力权重由两层前馈神经网络和softmax函数计算得到：
[0115][0116][0117]
其中，和是模型参数，和是偏置参数。
[0118]
最后，文本的完整表示通过加权求和得到：
[0119][0120]
(3)图片注意力机制
[0121]
与文本注意力机制的计算过程相同。首先利用两层前馈神经网络和softmax函数计算图片中与联合记忆向量(即k次迭代后已识别的涉及讽刺的共享语义)相关的区域，并通过加权求和获得图片的完整表示：
[0122][0123][0124]
[0125]
其中，和是模型参数，和是偏置参数。
[0126]
双注意力模块经过k次迭代将获得文本和图片中突出显示描述讽刺部分的表示，定义为u和v。
[0127]
·
多维度跨模态匹配模块
[0128]
为了捕获文本和图片间的语义差异，利用如下的深度比较注意力机制在多模态原始表示和上下文感知表示方面对文本和图片间的差异进行对比。该模块实现方式如下：
[0129][0130]
其中，是元素乘机，||是元素差的绝对值，；是连接操作，是可训练权重矩阵。
[0131]
·
预测模块
[0132]
将上述多维度的跨模态对比表示(z
raw
,z
sc
,z
en
)连接起来输入到全连接层，并使用sigmoid函数进行二元讽刺分类。
[0133]
h＝fc([z
raw
；z
sc
；z
em
])，
[0134]
y＝sigmoid(h)。
[0135]
以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

基于知识注入的双注意力网络的多模态讽刺意图识别方法

相关文献

最热文献