视频问答方法、装置、系统及存储介质与流程

2022-11-28 10:57:45 来源：中国专利 TAG：

1.本公开实施例涉及但不限于自然语言处理技术领域，尤指一种视频问答方法、装置、系统及存储介质。

背景技术：

2.在当前的移动互联网、大数据时代，网络上的视频数据呈现爆发式增长，作为日益丰富的信息承载媒介，对视频的语义进行理解是诸多视频智能应用的技术，具有重要的研究意义和实际应用价值。视频问答(video qa)是给定一个视频片段和问题，从候选集合中推断出正确答案的任务，随着计算机视觉和自然语言处理的进步，视频问答在视频检索、智能问答系统、辅助驾驶系统和自动驾驶等方面的广泛应用受到越来越广泛的关注。

技术实现要素：

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.本公开实施例提供了一种视频问答方法，包括：
5.针对输入的视频提取视频特征向量，针对问题文本与候选答案文本提取文本特征向量，其中，所述问题文本用于描述问题，所述候选答案文本用于提供多个候选答案；将所述视频特征向量与所述文本特征向量进行拼接，得到拼接特征向量，将所述拼接特征向量输入第一预训练模型，所述第一预训练模型通过自注意力机制，学习所述视频特征向量和所述文本特征向量之间的跨模态信息，得到编码后的第二拼接特征向量；
6.将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量；将所述第二视频特征向量和第二文本特征向量输入模态融合模型，所述模态融合模型通过互注意力机制，对所述第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量；
7.将所述融合特征向量输入解码层，以预测正确的候选答案。
8.在示例性实施例中，所述针对输入的视频提取视频特征向量，包括：
9.以预设速度对输入的视频进行抽帧，采用第二预训练模型对抽取出的帧提取视频特征向量。
10.在示例性实施例中，所述针对问题文本与候选答案文本提取文本特征向量，包括：
11.根据所述问题文本与候选答案文本生成序列串，所述序列串包括多个序列，所述问题文本与候选答案文本中的每个单词或字符对应一个或多个序列；
12.将所述序列串输入所述第一预训练模型，得到文本特征向量。
13.在示例性实施例中，所述方法之前还包括：
14.构建所述第一预训练模型并进行初始化；
15.通过多个自监督任务对所述第一预训练模型进行预训练，多个所述自监督任务包括标签分类任务、掩码语言模任务和掩码帧模任务，所述标签分类任务用于对视频进行多
标签分类，所述掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词，所述掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧；
16.通过多个所述自监督任务的损失加权和，计算所述第一预训练模型的损失。
17.在示例性实施例中，基于二元交叉熵计算所述标签分类任务和掩码语言模任务的损失，基于噪声对比估计计算所述掩码帧模任务的损失。
18.在示例性实施例中，所述第一预训练模型为24层的深度transformer编码器级联神经网络，隐藏层维度为1024，注意力头数为16，通过来自transformers的双向编码器表示bert预训练出的参数对所述第一预训练模型进行初始化。
19.在示例性实施例中，所述通过互注意力机制，对所述第二视频特征向量和第二文本特征向量进行处理，包括：
20.将所述第二视频特征向量作为查询向量，将所述第二文本特征向量作为键向量和值向量，进行多头注意力；
21.将所述第二文本特征向量作为查询向量，将所述第二视频特征向量作为键向量和值向量，进行多头注意力。
22.在示例性实施例中，所述方法之前还包括：
23.接收用户的语音输入；
24.通过语音识别，将所述语音输入转换为所述问题文本。
25.在示例性实施例中，所述方法之前还包括：
26.获取所述问题文本；
27.根据所述问题文本，生成与所述问题文本对应的所述候选答案文本。
28.在示例性实施例中，所述根据所述问题文本，生成与所述问题文本对应的所述候选答案文本，包括：
29.通过关键词匹配或注意力机制模型，从常识知识图谱中查询与所述问题文本匹配的三元组；
30.根据匹配的所述三元组，生成与所述问题文本对应的所述候选答案文本。
31.在示例性实施例中，所述方法还包括：
32.对所述视频特征向量和/或所述文本特征向量进行处理，以使得在将所述视频特征向量与所述文本特征向量进行拼接时，所述视频特征向量的维度和所述文本特征向量的维度相同。
33.本公开实施例还提供了一种视频问答装置，包括存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如本公开任一实施例所述的视频问答方法的步骤。
34.本公开实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一实施例所述的视频问答方法。
35.本公开实施例还提供了一种视频问答系统，包括视频问答装置、监控系统、语音识别装置、语音输入装置和知识库，其中：
36.所述监控系统，被配置为获取一个或多个监控视频，根据指令文本对所述监控视频进行处理，并将所述监控视频输出至所述视频问答装置；
37.所述语音输入装置，被配置为接收语音输入，并输出至语音识别装置；
38.所述语音识别装置，被配置为通过语音识别，将语音输入转换为指令文本或问题文本，将所述指令文本输入所述监控系统，将所述问题文本输入所述视频问答装置；
39.所述知识库，被配置为存储常识知识图谱；
40.所述视频问答装置，被配置为接收问题文本和监控视频，根据所述问题文本生成候选答案文本，其中，所述问题文本用于描述问题，所述候选答案文本用于提供多个候选答案；还被配置为对接收的监控视频提取视频特征向量，针对所述问题文本与候选答案文本提取文本特征向量，将所述视频特征向量与文本特征向量进行拼接，得到拼接特征向量，将所述拼接特征向量输入第一预训练模型，所述第一预训练模型通过自注意力机制，学习所述视频特征向量和所述文本特征向量之间的跨模态信息，得到编码后的第二拼接特征向量；将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量；将所述第二视频特征向量和第二文本特征向量输入模态融合模型，所述模态融合模型采用互注意力机制，对第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量；将所述融合特征向量输入解码层，以预测正确的候选答案。
41.在阅读理解了附图和详细描述后，可以明白其他方面。
附图说明
42.附图用来提供对本公开技术方案的理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开的技术方案，并不构成对本公开技术方案的限制。
43.图1为本公开示例性实施例的一种视频问答方法的流程示意图；
44.图2为本公开实施例创建的视觉语言跨模态模型的结构示意图；
45.图3为本公开示例性实施例创建的模态融合模型的结构示意图；
46.图4为本公开示例性实施例的一种交通事故常识知识图谱的结构示意图；
47.图5为本公开示例性实施例的一种视频问答装置的结构示意图；
48.图6为本公开示例性实施例的一种视频问答系统的结构示意图。
具体实施方式
49.下面将结合附图对本公开的实施例进行详细说明。实施方式可以以多个不同形式来实施。所属技术领域的普通技术人员可以很容易地理解一个事实，就是方式和内容可以在不脱离本公开的宗旨及其范围的条件下被变换为一种或多种形式。因此，本公开不应该被解释为仅限定在下面的实施方式所记载的内容中。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互任意组合。
50.在附图中，有时为了明确起见，夸大表示了一个或多个构成要素的大小、层的厚度或区域。因此，本公开的一个方式并不一定限定于该尺寸，附图中多个部件的形状和大小不反映真实比例。此外，附图示意性地示出了理想的例子，本公开的一个方式不局限于附图所示的形状或数值等。
51.本公开中的“第一”、“第二”、“第三”等序数词是为了避免构成要素的混同而设置，而不是为了在数量方面上进行限定的。本公开中的“多个”表示两个或两个以上的数量。
52.计算机视觉(cv)和自然语言处理(nlp)是人工智能的两大分支，它们专注于在视
觉和语言上模拟人类智能。在过去的十年中，深度学习极大地推进了单模态学习在这两个领域的发展。一些视觉问答技术，通过一个图像编码器编码输入图像，通过一个问题编码器编码输入问题，将编码后的图像和问题特征进行点积合并，然后通过全连通层来预测候选答案的概率。但是，这些视频问答技术，仅仅考虑到了单方面的模态信息，缺乏语义理解能力。而现实世界的问题往往是涉及多模态的。例如，自动驾驶汽车应该做到能够处理人类的命令(语言)、交通信号(视觉)、道路状况(视觉和声音)。
53.如图1所示，本公开实施例提供了一种视频问答方法，包括如下步骤：
54.步骤101：针对输入的视频提取视频特征向量，针对问题文本与候选答案文本提取文本特征向量，其中，问题文本用于描述问题，候选答案文本用于提供多个候选答案；将视频特征向量与文本特征向量进行拼接，得到拼接特征向量，将拼接特征向量输入第一预训练模型，第一预训练模型通过自注意力机制，学习视频特征向量和文本特征向量之间的跨模态信息，得到编码后的第二拼接特征向量；
55.步骤102：将第二拼接特征向量分成第二视频特征向量和第二文本特征向量；将第二视频特征向量和第二文本特征向量输入模态融合模型，模态融合模型通过互注意力机制，对第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量；
56.步骤103：将融合特征向量输入解码层，以预测正确的候选答案。
57.本公开实施例的视频问答方法，通过将视频特征向量与文本特征向量进行拼接后输入第一预训练模型，利用视觉-语言跨模态信息提升视频问答语义表征能力，并利用互注意力机制对视频和文本选项对进行更深层次的语义交互，有望更深入的对视频内容进行语义理解，从而提升模型推理效果。本公开实施例的视频问答方法，可以适用于视频检索、智能问答系统、辅助驾驶系统和自动驾驶等诸多应用领域。
58.在一些示例性实施方式中，在步骤101之前，该方法之前还包括：
59.构建第一预训练模型并进行初始化；
60.通过多个自监督任务对所述第一预训练模型进行预训练，多个自监督任务包括标签分类任务、掩码语言模任务和掩码帧模任务，标签分类任务用于对视频进行多标签分类，掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词，掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧；
61.通过自监督任务的损失加权和，计算第一预训练模型的损失。
62.图2为本公开实施例创建的视觉语言跨模态模型的结构示意图。如图2所示，该视觉语言跨模态模型包括级联的第一预训练模型、模态融合模型和解码层。
63.在一些示例性实施方式中，第一预训练模型可以为24层的深度transformer编码器级联神经网络，隐藏层维度为1024，注意力头数为16，通过bert预训练出的参数对第一预训练模型进行初始化。
64.transformer模型由编码器和解码器组成，编码器和解码器分别包括多个网络块，每个编码器的网络块由一个多头注意力(attention)子层和一个前馈神经网络子层组成。解码器的结构类似于编码器的结构，只是解码器的每个网络块中多了一个多头注意力层。
65.来自transformer的双向编码器表示(bert)是transformer的一个成功应用，它利用transformer编码器并引入了双向屏蔽技术，允许每个语言标记双向关注其他标记。
66.本公开实施例的第一预训练模型采用多层transformer编码器级联结构。示例性的，第一预训练模型可以为24层的深度transformer编码器级联神经网络，隐藏层维度为1024，注意力头数为16，此时，第一预训练模型的网络结构与bert large(谷歌google提出的一种自然语言预训练模型)一致，因此可以直接用bert等自然语言预训练模型的预训练结果对本公开实施例的第一预训练模型进行初始化。
67.在一些示例性实施方式中，针对输入的视频提取视频特征向量，包括：
68.以预设速度对输入的视频进行抽帧，采用第二预训练模型对抽取出的帧提取视频特征向量。
69.视频问答的输入是视频片段、问题以及候选答案集合，与图像的处理不同，连续的视频流可以理解成一组快速播放的图片，其中每一幅图片定义为帧(frame)。对于视频信息，我们以预设速度(示例性的，1帧每秒(fps)的速度)对输入的视频进行抽帧，每个视频最高抽取n帧(示例性的，n可以为30)，利用计算机视觉领域(cv)的预训练模型efficientnetb3提取视频特征向量(visual features)。可选的，本公开实施例也可以用mobilenet或者resnet101等预训练模型对输入的视频提取视频特征向量。
70.在一些示例性实施方式中，针对问题文本与候选答案文本提取文本特征向量，包括：
71.根据问题文本与候选答案文本生成序列串，序列串包括多个序列，问题文本与候选答案文本中的每个单词或字符对应一个或多个序列；
72.将序列串输入第一预训练模型，得到文本特征向量。
73.本公开实施例中，对问题文本与候选答案文本，我们先用大小为n_vocab的词表对其进行序列表标记，将每个单词或字符转化为一个或多个序列，问题文本与候选答案文本中的所有单词和/或字符组成一个序列串，其中，该序列可以为数值id。示例性的，数值id可以在0至n_vocab-1之间。例如，将“当前是什么道路类型小道高速公路马路街道”转化为“2560 2013 1300 100 567
……”
这样的序列串。将该序列串输入第一预训练模型(此处的第一预训练模型可以为初始化后的第一预训练模型)，得到n_word*1024的文本特征向量，其中，n_word为所述序列串中的序列数量，1024为每个文本特征向量的维数。
74.本公开实施例中，将视频特征向量和文本特征向量进行拼接输入第一预训练模型时，拼接特征向量的输入形式可以为[cls]video_frame[sep]question-answer[sep]，其中，video_frame为视频特征向量，question-answer为文本特征向量，[cls]标志为拼接特征向量的首位标志，[sep]标志用于分开视频特征向量和文本特征向量，且在第一预训练模型的输入中加入与bert相同的位置嵌入向量和段嵌入向量，其中，位置嵌入向量用于指定序列中的位置，段嵌入向量用于指定所属的帧分段。
[0075]
在一些示例性实施方式中，在将视频特征向量与文本特征向量进行拼接之前，所述方法还包括：对视频特征向量和/或文本特征向量进行处理，以使得在将视频特征向量与文本特征向量进行拼接时，视频特征向量的维度和文本特征向量的维度相同。
[0076]
本公开实施例中，当预训练模型efficientnetb3提取的视频特征向量为1536维的特征向量时，将该1536维的特征向量通过一个全连接层进行降维，将特征维度降到1024维，与文本特征向量的维度相同。
[0077]
本公开实施例中，对视觉语言跨模态模型的训练包括两个阶段：对第一预训练模
型进行预训练阶段以及对视觉语言跨模态模型进行微调阶段。
[0078]
在对第一预训练模型进行预训练阶段，我们采用标签分类(tag classify，tc)，掩码语言模(mask language model，mlm)，掩码帧模(mask frame model，mfm)三个任务对第一预训练模型进行预训练。其中，标签分类任务用于对视频进行多标签分类，掩码语言模任务用于对文本进行随机屏蔽并预测屏蔽词，掩码帧模任务用于对视频帧进行随机屏蔽并预测屏蔽帧。
[0079]
示例性的，在标签分类任务中，可以采用出现频率较高的前100类的tag做多标签分类任务，其中，tag为人工标注的视频标签，例如，是否发生事故、事故原因、事故发生地点、车辆类型、天气状况、时间信息等。取bert最后一层的[cls]对应向量接全连接层得到tag的预测标签，与真实标签计算二元交叉熵损失(binary cross entropy loss，bce loss)。
[0080]
在掩码语言模任务中，对随机15％的文本进行掩模(mask)，预测mask文本。多模态场景下，结合视频的信息预测mask词，可以有效融合多模态信息。
[0081]
在掩码帧模任务中，对随机15％的视频帧进行mask，mask的视频帧采用全0的向量填充。因为视频特征向量是连续的实值向量，没有分词(token)，难以类似于掩码语言模任务做分类任务。由于希望mask的预测帧在整个批处理(batch)内的所有帧范围内与被mask的帧尽可能相似，因此，本公开实施例基于噪声对比估计(nce，noise contrastive estimation)计算掩码帧模任务的损失(loss)，最大化mask帧和预测帧的互信息。
[0082]
采用多任务联合训练，总的预训练任务的损失采用了上述三个预训练任务损失的加权和，loss＝loss(tc)*a loss(mlm)*b loss(mfm)*c，其中，a、b、c分别为三个预训练任务损失的权重。
[0083]
本公开实施例的视频问答方法，通过第一预训练模型来表征视频和文本两个模态的信息，将视频对应的视频特征向量和问题文本与候选答案文本对应的文本特征向量进行拼接，输入第一预训练模型，得到编码后的第二拼接特征向量。根据第二拼接特征向量中的标志位，可以将第二拼接特征向量分成第二视频特征向量和第二文本特征向量。
[0084]
假设v＝[v1,v2,
…
vm]，q＝[q1,q2,
…
,q3]，a＝[a1,a2,
…
,a3]分别为视频、问题和答案，其中，vi，qi，ai分别为对应的序列，用vlp(
·
)表示vlp模型(即第一预训练模型)，则将[cls]v[sep]q a[sep]输入vlp模型得到的编码表征e可以表示为：
[0085][0086]
其中，e＝[e1,e2,
…
,e(m n k)]，将编码得到的视频帧和问题选项向量分成两部分可得到第二视频特征向量和第二文本特征向量，和
[0087]
接下来，将预训练好的第一预训练模型与模态融合模型以及解码层相连接，以对视觉语言跨模态模型整体进行微调。第一预训练模型的处理过程与前述过程相同，此处不再赘述。将第二视频特征向量和第二文本特征向量输入模态融合模型，模态融合模型通过互注意力机制，对第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量。
[0088]
图3为本公开实施例创建的模态融合模型的结构示意图。如图3所示，在模态融合模型中，查询向量(query)来自一个模态，而键向量(key)和值向量(value)来自另一个模态。本公开实施例的视频问答方法，通过引入互注意力机制，进一步将语言与图像在语义上进行对齐和融合。
[0089]
在一些示例性实施方式中，通过互注意力机制，对第二视频特征向量和第二文本特征向量进行处理，包括：
[0090]
将第二视频特征向量作为查询向量，将第二文本特征向量作为键向量和值向量，进行多头注意力(multi head attention)；
[0091]
将第二文本特征向量作为查询向量，将第二视频特征向量作为键向量和值向量，进行多头注意力。
[0092]
本公开实施例中，模态融合模型用第二视频特征向量作为query，第二文本特征向量作为key和value，进行多头注意力，同时，用第二文本特征向量作为query，第二视频特征向量作为key和value，进行多头注意力，这样互换的注意力是一层，在一些示例性实施方式中，可以进行多层串联。然后将表示视频帧序列的视频表达式进行池化(pooling)，以及表示问题选项序列的文本表达式进行池化，再融合(fuse)两个池化后的向量，得到融合特征向量。然后将融合特征向量输入解码层，预测每个候选项是正确的候选答案的概率。
[0093]
上述过程用公式表示为：
[0094][0095][0096]
mha(ev，e
qa
，e
qa
)＝concat(head1，...headh)；
[0097]
mha1＝mha(ev，e
qa
，e
qa
)；
[0098]
mha2＝mha(e
qa
，ev，ev)；
[0099]
duma(ev，e
qa
)＝fuse(mha1，mha2)；
[0100]
其中，参数矩阵，mha(
·
)为多头注意力机制，duma(
·
)为双向多头共注意力网络，fuse(
·
)表示对duma输出的结果进行平均池化并融合，示例性的，可以采用拼接的方式进行融合。
[0101]
对于每一个《v，q，ai》三元组，经过duma网络的输出为：
[0102][0103]
网络的loss函数为：
[0104][0105]
其中，w
t
为参数矩阵，s为候选答案个数。
[0106]
在一些示例性实施方式中，所述方法还包括：
[0107]
接收用户的语音输入；
[0108]
通过语音识别，将语音输入转换为问题文本。
[0109]
在一些示例性实施方式中，所述方法还包括：
[0110]
接收用户的语音输入；
[0111]
通过语音识别，将语音输入转换为语音指令和/或问题文本。
[0112]
示例性的，语音指令可以为“帮我切换到xxxx道路的监控视频”等等，系统根据接收的语音指令进行相应的响应操作，例如，将显示屏切换到xxxx道路的监控视频。示例性的，问题文本可以为“当前路段是否有事故发生”、“事故发生的原因是什么？”等等，系统根据接收的问题文本，生成候选答案文本，再通过本公开实施例的视频问答方法预测正确的候选答案。
[0113]
在一些示例性实施方式中，所述方法还包括：
[0114]
通过语音合成，将预测的正确的候选答案通过语音形式进行播报。
[0115]
本公开实施例中，可以直接在显示屏上显示预测的正确的候选答案，也可以通过语音形式播报预测的正确的候选答案。
[0116]
在一些示例性实施方式中，所述方法还包括：
[0117]
获取问题文本；
[0118]
根据问题文本，生成与问题文本对应的候选答案文本。
[0119]
在一些示例性实施方式中，根据问题文本，生成与问题文本对应的候选答案文本，包括：
[0120]
通过关键词匹配或注意力机制模型，从知识图谱中查询与问题文本匹配的三元组；
[0121]
根据匹配的三元组，生成与问题文本对应的候选答案文本。
[0122]
随着知识的膨胀增长，知识图谱这一概念应用的越发普遍。知识图谱可以通过关系层使用合适的知识表示方法来挖掘数据之间的联系，使得知识更易于在计算机之间进行流通和协作加工。知识图谱是以图的数据结构来表示实体之间的关系，相比于单纯的文本信息，图的表示方法更加的易于理解和接受。知识图谱由“实体-关系-实体”或“实体-属性-属性值”的关系连边构成，重在表示实体之间或实体与属性之间的关系。基于知识图谱的关系搜索广泛应用在各行各业的实体匹配和问答系统中，它可以对已知的知识进行加工和存储，能够快速进行知识的匹配和答案的搜索。
[0123]
知识图谱的基本组成为三元组(s，p，o)。其中，s和o为知识图谱中的节点，表示实体。s具体表示主体，o具体表示客体。p为知识图谱中连接两个实体(s和o)的边，表示两个实体之间具有的关系。例如，在交通事故常识知识图谱中，一个三元组可以为(追尾事故，事故类型，交通事故)等。
[0124]
示例性的，本公开实施例的视频问答方法可用于视频监控系统中，例如，在智慧交通多屏监控系统中，可以通过语音控制对大屏进行调度以及交互问答，将出现事故的监控切换到主屏进行事故分析，如相应交互指令可以为“帮我切换到xxxx道路的监控视频”；“当前路段是否有事故发生”；“事故发生的原因是什么？”，具体实施过程中，会涉及交通事故相关常识知识，可以通过引入知识库方式实现，如可以在知识库中构建如图4所示的交通事故常识知识图谱，通过关键词匹配或注意力机制从交通事故常识知识图谱中查询与问题文本匹配的三元组，作为显示语义信息对应的常识知识(即候选答案)，例如，根据图4的交通事故常识知识图谱，对于用户的问题“事故发生的原因是什么？”，自动生成候选答案：天气、道路、驾驶员、车况不佳。
[0125]
本公开实施例还提供了一种视频问答装置，包括存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如本公开任一实施例所述的视频问答方法的步骤。
[0126]
如图5所示，在一个示例中，该视频问答装置可包括：处理器510、存储器520和总线系统530，其中，处理器510和存储器520通过总线系统530相连，存储器520用于存储指令，处理器510用于执行存储器520存储的指令，以针对输入的视频提取视频特征向量，针对问题文本与候选答案文本提取文本特征向量，其中，所述问题文本用于描述问题，所述候选答案文本用于提供多个候选答案；将所述视频特征向量与所述文本特征向量进行拼接，得到拼接特征向量，将所述拼接特征向量输入第一预训练模型，所述第一预训练模型通过自注意力机制，学习所述视频特征向量和所述文本特征向量之间的跨模态信息，得到编码后的第二拼接特征向量；将所述第二拼接特征向量分成第二视频特征向量和第二文本特征向量；将所述第二视频特征向量和第二文本特征向量输入模态融合模型，所述模态融合模型通过互注意力机制，对所述第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量；将所述融合特征向量输入解码层，以预测正确的候选答案。
[0127]
应理解，处理器510可以是中央处理单元(central processing unit，cpu)，处理器510还可以是其他通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0128]
存储器520可以包括只读存储器和随机存取存储器，并向处理器510提供指令和数据。存储器520的一部分还可以包括非易失性随机存取存储器。例如，存储器520还可以存储设备类型的信息。
[0129]
总线系统530除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图5中将各种总线都标为总线系统530。
[0130]
在实现过程中，处理设备所执行的处理可以通过处理器510中的硬件的集成逻辑电路或者软件形式的指令完成。即本公开实施例的方法步骤可以体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等存储介质中。该存储介质位于存储器520，处理器510读取存储器520中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。
[0131]
如图6所示，本公开实施例还提供了一种视频问答系统，包括如本公开任一实施例所述的视频问答装置，还包括监控系统、语音识别装置、语音输入装置和知识库，其中：
[0132]
监控系统，被配置为获取一个或多个监控视频，根据指令文本对监控视频进行处理，并将监控视频输出至视频问答装置；
[0133]
语音输入装置，被配置为接收语音输入，并输出至语音识别装置；
[0134]
语音识别装置，被配置为通过语音识别，将语音输入转换为指令文本或问题文本，将指令文本输入监控系统，将问题文本输入视频问答装置；
[0135]
知识库，被配置为存储知识图谱；
[0136]
视频问答装置，被配置为接收问题文本和监控视频，根据问题文本生成候选答案
文本，其中，问题文本用于描述问题，候选答案文本用于提供多个候选答案；还被配置为对接收的监控视频提取视频特征向量，针对问题文本与候选答案文本提取文本特征向量，将视频特征向量与文本特征向量进行拼接，得到拼接特征向量，将拼接特征向量输入第一预训练模型，第一预训练模型通过自注意力机制，学习视频特征向量和所述文本特征向量之间的跨模态信息，得到编码后的第二拼接特征向量；将第二拼接特征向量分成第二视频特征向量和第二文本特征向量；将第二视频特征向量和第二文本特征向量输入模态融合模型，模态融合模型采用互注意力机制，对第二视频特征向量和第二文本特征向量进行处理，得到视频表达式和文本表达式，并对视频表达式和文本表达式分别进行池化并融合，得到融合特征向量；将融合特征向量输入解码层，以预测正确的候选答案。
[0137]
在一些示例性实施方式中，该视频问答系统还包括语音合成输出装置，其中：
[0138]
语音合成输出装置，用于通过语音合成，将预测的正确的候选答案通过语音形式进行播报。
[0139]
本公开实施例的视频问答系统由图6所示的几个模块组成，其中，语音指令或问题通过语音输入装置由用户端给出，语音识别装置将自然语言转成文本，语音合成输出装置将系统反馈的答案用语音的形式播报出来，视频问答装置则根据用户传入的问题或者指令结合监控系统和知识库进行语义理解和多模态交互推理给出相应的答案。
[0140]
本公开实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开任一实施例所述的视频问答方法。
[0141]
在一些可能的实施方式中，本技术提供的视频问答方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的视频问答方法中的步骤，例如，所述计算机设备可以执行本技术实施例所记载的视频问答方法。
[0142]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0143]
本公开中的附图只涉及本公开涉及到的结构，其他结构可参考通常设计。在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
[0144]
本领域的普通技术人员应当理解，可以对本公开的技术方案进行修改或者等同替换，而不脱离本公开技术方案的精神和范围，均应涵盖在本公开的权利要求的范围当中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于属性传递的流程一致性检验方法与系统与流程

视频问答方法、装置、系统及存储介质与流程

相关文献

最热文献