多媒体信息识别方法、装置、电子设备及存储介质与流程

2021-11-26 22:48:00 来源：中国专利 TAG：

1.本发明涉及信息处理技术，尤其涉及多媒体信息识别方法、装置、电子设备及存储介质。

背景技术：

2.传统技术中，各类资讯推荐系统向用户推荐相应的资讯过程中可以对所要推荐的多媒体信息进行识别，以新闻短文为例，对于新闻短文分类，可以仅使用新闻短文中的文本模态信息来进行分类，例如通过cnn系模型(textcnn、dpcnn)或rnn系模型(textrnn、textrcnn)来对新闻短文中的向量化文本进行内容特征提取，并基于所提取的内容特征信息来对新闻短文进行分类。但是使用新闻短文中的文本模态信息来进行分类，并未考虑短文中有用的图像模态信息，并且所提取的新闻短文内容特征信息可能包含一些错误和冗余的信息，干扰信息分类的准确性。

技术实现要素：

3.有鉴于此，本发明实施例提供一种多媒体信息识别方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：
4.本发明提供了一种多媒体信息识别方法，所述方法包括：
5.获取待识别的多媒体信息，其中所述待识别的多媒体信息包括文本与图像；
6.对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；
7.通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；
8.对所述文本特征向量和所述图像特征向量分别进行过滤处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果；
9.通过对所述文本特征向量过滤处理的结果和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；
10.基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。
11.本发明实施例还提供了一种多媒体信息识别装置，所述装置包括：
12.信息传输模块，用于获取待识别的多媒体信息，其中所述待识别的多媒体信息包括文本与图像；
13.信息处理模块，用于对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；
14.所述信息处理模块，用于通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；
15.所述信息处理模块，用于对所述文本特征向量和所述图像特征向量分别进行过滤
处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果；
16.所述信息处理模块，用于通过对所述文本特征向量过滤处理的结果和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；
17.所述信息处理模块，用于基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。
18.上述方案中，
19.所述信息处理模块，用于通过多媒体信息识别模型的文字信息处理网络，提取与所述多媒体信息的文本内容相匹配的特征向量；
20.所述信息处理模块，用于通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的语句向量；
21.所述信息处理模块，用于通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量；
22.所述信息处理模块，用于通过所述文字信息处理网络，根据所述至少一个词语级的隐变量以及与所述文本内容所对应的语句向量，确定与所述多媒体信息相匹配的文本特征向量。
23.上述方案中，
24.所述信息处理模块，用于根据所述多媒体信息的文本内容所包括的文本种类参数，触发相应的分词库；
25.所述信息处理模块，用于通过所触发的所述分词库单词词典对所述多媒体信息的文本内容进行分词处理，形成不同的词语级特征向量；
26.所述信息处理模块，用于对所述不同的词语级特征向量进行除噪处理，形成与所述多媒体信息的文本内容相匹配的特征向量的集合。
27.上述方案中，
28.所述信息处理模块，用于确定与多媒体信息识别模型的使用环境相匹配的动态噪声阈值；
29.所述信息处理模块，用于根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；
30.所述信息处理模块，用于根据与所述动态噪声阈值相匹配的动态分词策略，对所述多媒体信息的文本内容进行分词处理，形成相对应的动态词语级特征向量集合。
31.上述方案中，
32.所述信息处理模块，用于确定与多媒体信息识别模型的使用环境相对应的固定噪声阈值；
33.所述信息处理模块，用于根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；
34.所述信息处理模块，用于根据与所述固定噪声阈值相匹配的固定分词策略，对所述多媒体信息的目标文本进行分词处理，形成相对应的固定词语级特征向量集合。
35.上述方案中，
36.所述信息处理模块，用于根据所述待识别的多媒体信息的类型，确定所述词语级的隐变量的数量；
37.所述信息处理模块，用于通过所述文字信息处理网络中所述语句向量进行高维特征提取；
38.所述信息处理模块，用于基于所述词语级的隐变量的数量，通过所述文字信息处理网络中对高维特征提取的语句向量进行特征融合，获得与所述多媒体信息相匹配的文本特征向量。
39.上述方案中，
40.所述信息处理模块，用于通过所述图像信息处理网络的预处理子网络对所述多媒体信息的图像进行单一化提取；
41.所述信息处理模块，用于通过所述图像信息处理网络对经过单一化处理的多媒体信息的图像进行降噪处理；
42.所述信息处理模块，用于通过所述图像信息处理网络对经过降噪处理的多媒体信息的图像进行交叉降采样处理，得到所述多媒体信息的图像的降采样结果，并对所述降采样结果进行归一化处理，确定与所述多媒体信息的图像相匹配的图像特征向量。
43.上述方案中，
44.所述信息处理模块，用于根据所述待识别的多媒体信息的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值；或者
45.所述信息处理模块，用于根据所述多媒体信息的图像的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值；
46.根据所述动态噪声阈值通过所述图像信息处理网络对所述多媒体信息的图像进行降噪处理，以形成与所述动态噪声阈值相匹配的多媒体信息的图像。
47.上述方案中，
48.所述信息处理模块，用于确定所述文本特征向量词语列表长度和所述图像特征向量对应的图像数量；
49.所述信息处理模块，用于响应于所述词语列表长度和图像数量，通过所述多媒体信息识别模型对应的激活函数，获取所述多媒体信息识别模型相匹配的过滤矩阵；
50.所述信息处理模块，用于通过所述过滤矩阵分别对所述文本特征向量和所述图像特征向量进行过滤处理，删除冗余特征和错误特征，获得所述文本特征向量的过滤处理结果和所述图像特征向量的过滤处理结果。
51.本发明实施例还提供了一种电子设备，所述电子设备包括：
52.存储器，用于存储可执行指令；
53.处理器，用于运行所述存储器存储的可执行指令时，实现前序的多媒体信息识别方法。
54.本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现前序的多媒体信息识别方法。
55.本发明实施例具有以下有益效果：
56.本发明获取待识别的多媒体信息，对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；对所述文本特征向量和所述图像特征向量分别进行过滤处理；通过所述多媒体信息识别模型中的特征融合网络，对所述文
classification)。
73.4)模型训练，对图像数据集进行多分类学习。该模型可采用tensor flow、torch等深度学习框架进行构建，使用cnn等神经网络层的多层结合组成多分类模型。模型的输入为图像经过opencv等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。
74.5)神经网络(neural network，nn)：人工神经网络(artificial neural network，ann)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。
75.6)编码器
‑
解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。
76.7)分词：使用中文分词工具切分中文文本，得到细粒度词的集合。停用词：对于文本的语义没有贡献或者贡献可以不计的字或词。
77.8)token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。
78.9)softmax：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的k维向量“压缩”到另一个k维实向量中，使得每一个元素的范围都在[0，1]之间，并且所有元素的和为1。
[0079]
图1为本发明实施例提供的多媒体信息识别方法的使用场景示意图，参见图1，终端(包括终端10
‑
1和终端10
‑
2)上设置有能够显示相应不同多媒体信息的软件的客户端，例如视频播放的客户端或插件，用户通过相应的客户端可以获得不同多媒体信息并进行展示，例如不同的带有文本的视频、同时包括文字和图片的新闻报道、可以是微信朋友圈中的图文组合的广告信息、可以是短视频产品中文案与视频封面图像组成的短视频推荐；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。
[0080]
作为一个示例，服务器200用于布设相应的多媒体信息识别模型以实现本发明所提供的多媒体信息识别方法，或者布设多媒体信息识别装置，以实现多媒体信息识别方法，具体的，通过多媒体信息识别处理包括：获取待识别的多媒体信息，其中所述多媒体信息包括文本与图像；对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；通过所述多媒体信息识别模型中的图像信息处理网络对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；通过所述多媒体信息识别模型中的特征过滤网络对所述文本特征向量和所述图像特征向量分别进行过滤处理；通过所述多媒体信息识别模型中的特征融合网络，对所述文本特征向量和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。进一步地还能够根据识别结果向用户推荐不同的多媒体信息，或者对待推荐的多媒体信息进行排序调整并通过终端(终端10
‑
1和/或终端10
‑
2)展示输出与所述目标用户相匹配的待
推荐多媒体信息。以带有文案的视频多媒体信息为例，本发明所提供的多媒体信息识别模型可以应用于视频播放，在视频播放中通常会对不同数据来源的不同多媒体信息进行处理，最终在用户界面(ui user interface)上呈现出与相应的不同多媒体信息以及相应的与相应视频推荐进程相对应的待推荐视频，不同多媒体信息相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与所述不同多媒体信息相匹配的文本信息还可以供其他应用程序调用，当然，与相应的用户行为特征相匹配的多媒体信息识别模型也可以迁移至不同的视频推荐进程(例如网页视频推荐进程、小程序视频推荐进程或者短视频客户端的视频推荐进程)。
[0081]
下面对本发明实施例的多媒体信息识别装置的结构做详细说明，多媒体信息识别装置可以各种形式来实施，如带有多媒体信息识别处理功能的专用终端，也可以为设置有多媒体信息识别装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的多媒体信息识别装置的组成结构示意图，可以理解，图2仅仅示出了多媒体信息识别装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。
[0082]
本发明实施例提供的多媒体信息识别装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。多媒体信息识别装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。
[0083]
其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
[0084]
可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10
‑
1)的操作。这些数据的示例包括：用于在终端(如10
‑
1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
[0085]
在一些实施例中，本发明实施例提供的多媒体信息识别装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的多媒体信息识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频信息处理模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field
‑
programmable gate array)或其他电子元件。
[0086]
作为本发明实施例提供的多媒体信息识别装置采用软硬件结合实施的示例，本发明实施例所提供的多媒体信息识别装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频信息处理模型的训练方法。
[0087]
作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分
立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。
[0088]
作为本发明实施例提供的多媒体信息识别装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field
‑
programmable gate array)或其他电子元件执行实现本发明实施例提供的视频信息处理模型的训练方法。
[0089]
本发明实施例中的存储器202用于存储各种类型的数据以支持多媒体信息识别装置的操作。这些数据的示例包括：用于在多媒体信息识别装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频信息处理模型的训练方法的程序可以包含在可执行指令中。
[0090]
在另一些实施例中，本发明实施例提供的多媒体信息识别装置可以采用软件方式实现，图2示出了存储在存储器202中的多媒体信息识别装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括多媒体信息识别装置，多媒体信息识别装置中包括以下的软件模块：
[0091]
信息传输模块2081和信息处理模块2082。当多媒体信息识别装置中的软件模块被处理器201读取到ram中并执行时，将实现本发明实施例提供的视频信息处理模型的训练方法，其中，多媒体信息识别装置中各个软件模块的功能，包括：
[0092]
信息传输模块2081，用于获取待识别的多媒体信息，待识别的多媒体信息包括文本与图像。
[0093]
信息处理模块2082，用于对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量。
[0094]
所述信息处理模块2082，用于通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量。
[0095]
所述信息处理模块2082，用于通过对所述文本特征向量和所述图像特征向量分别进行过滤处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果。
[0096]
所述信息处理模块2082，用于通过所述多媒体信息识别模型中的特征融合网络，对所述文本特征向量和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量。
[0097]
所述信息处理模块2082，用于基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。
[0098]
根据图2所示的电子设备，在本技术的一个方面中，本技术还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述多媒体信息识别方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
[0099]
结合图2示出的多媒体信息识别装置说明本发明实施例提供的多媒体信息识别方法，参见图3，图3为本发明实施例提供的多媒体信息识别方法一个可选的流程示意图，可以
理解地，图3所示的步骤可以由运行多媒体信息识别装置的各种电子设备执行，例如可以是如带有多媒体信息识别装置的专用终端、服务器或者服务器集群，其中，带有多媒体信息识别装置的专用终端可以为前序图2所示的实施例中带有多媒体信息识别装置的电子设备。下面针对图3示出的步骤进行说明。
[0100]
步骤301：多媒体信息识别装置获取待识别的多媒体信息。
[0101]
其中，所获取的多媒体信息包括文本与图像，例如不同的带有文本的视频、同时包括文字和图片的新闻报道、可以是微信朋友圈中的图文组合的广告信息、可以是短视频产品中文案与视频封面图像组成的待推荐短视频。
[0102]
步骤302：多媒体信息识别装置对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量。
[0103]
参考图4，图4为本发明实施例提供的多媒体信息识别方法一个可选的模型结构示意图，以多媒体信息为新闻短文为例，从新闻短文的文本和配图两种模态进行内容特征信息提取，并基于m
‑
gate机制对两种模态的特征信息进行过滤以获取干净有用的新闻短文多模态内容特征信息。文本模态经过量化后传入长短时记忆网络(lstm long short
‑
term memory)中进行文本上下文特征信息提取；图像模态需先传入resnet50中进行单一图像特征提取，随后传入另一个lstm中进行图像上下文特征信息提取。随后将所提取的两种特征向量传入m
‑
gate模块中进行错误冗余特征的过滤，最后对过滤的两种特征向量进行融合并进行新闻短文识别，下面对图4所示的不同结构分别进行说明。
[0104]
在本发明的一些实施例中，对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量可以通过以下方式实现：
[0105]
通过文字信息处理网络，提取与所述多媒体信息的文本内容相匹配的特征向量；通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的语句向量；通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量；通过所述文字信息处理网络，根据所述至少一个词语级的隐变量以及与所述文本内容所对应的语句向量，确定与所述多媒体信息相匹配的文本特征向量。具体来说，可以根据所述待识别的多媒体信息的类型，确定所述词语级的隐变量的数量；通过所述文字信息处理网络中所述语句向量进行高维特征提取；基于所述词语级的隐变量的数量，通过所述文字信息处理网络中对高维特征提取的语句向量进行特征融合，获得与所述多媒体信息相匹配的文本特征向量。
[0106]
在本发明的一些实施例中，在形成文本特征向量的过程中，需要根据所述资讯信息的文本内容所包括的文本种类参数，触发相应的分词库；通过所触发的所述分词库单词词典对所述多媒体信息的文本内容进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述多媒体信息的文本内容相匹配的特征向量的集合。其中，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的文本处理模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(term)；本技术中即使用分词对象
这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，通过分词处理，可以有效去除无意义的词语向量，减少文本体积节省终端的计算量。
[0107]
在本发明的一些实施例中，由于目标文本的类型不同，因此文本处理的领域也不相同，不同领域中的文本信息的内容差别巨大，因此，为了实现提升处理速度还可以定与多媒体信息识别模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述多媒体信息的文本内容进行分词处理，形成相对应的动态词语级特征向量集合。例如，学术翻译的使用环境中，终端所显示的文本信息仅包括了学术论文的文本信息与所述文本信息处理模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的阅读环境中的动态噪声阈值。
[0108]
在本发明的一些实施例中，还可以确定与多媒体信息识别模型的使用环境相对应的固定噪声阈值；根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；根据与所述固定噪声阈值相匹配的固定分词策略，对所述多媒体信息的目标文本进行分词处理，形成相对应的固定词语级特征向量集合。使用环境为专业术语文本信息(或者某一领域的文本信息)时，由于噪声较为单一，通过固定文本信息处理模型相对应的固定噪声阈值，能够有效提升文本信息处理模型的处理速度，减少用户的等待时间，提升用户的使用体验。进一步地，由于文本信息处理模型所处理的文本不仅包括单一语种的文本信息还可能是多语种的复杂文本信息(例如作为文本信息的中英文混合学术论文)，其中，与英文直接将空格作为词之间的间隔不同，对于中文文本，相应的需要对中文文本进行分词，因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具jieba对中文文本进行分词。另外，相应的需要对分词后的关键词集合去停用词处理，因为类似“是的”，“可以”这类词语对于相应的摘要文本测评是没有信息帮助。比如对于文本“是的，我喜欢做实验”，分词，去停用词得到“喜欢/做实验”(使用/作为分隔符，以下相同)两个关键词组成的集合，由此，能够有效提升文本信息处理模型的处理速度。
[0109]
步骤303：多媒体信息识别装置通过所述多媒体信息识别模型中的图像信息处理网络对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量。
[0110]
继续结合图4示出的多媒体信息识别模型结构继续说明本发明实施例提供的多媒体信息识别方法，参见图5，图5为本发明实施例提供的多媒体信息识别方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行多媒体信息识别装置的各种电子设备执行，例如可以是如带有多媒体信息识别功能的专用终端、服务器或者服务器集群。下面针对图5示出的步骤进行说明。
[0111]
步骤501：通过所述图像信息处理网络的预处理子网络对所述多媒体信息的图像进行单一化提取。
[0112]
在本发明的一些实施例中，由于即时通讯客户端中的图文组合的广告信息、和短视频产品中文案与视频封面图像组成的短视频推荐信息的图像分别率不同，为了更加精确
地识别图像内容，可以根据待识别的多媒体信息的类型，确定的多媒体信息的图像的目标分辨率；基于所述目标分辨率，通过所述图像处理网络对所述多媒体信息的图像进行分辨率增强处理，并获取相应的图像特征向量，以实现所述图像特征向量与所述多媒体信息的分辨率相适配。
[0113]
步骤502：通过所述图像信息处理网络对经过单一化处理的多媒体信息的图像进行降噪处理。
[0114]
步骤503：根据所述待识别的多媒体信息的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值；或者根据所述多媒体信息的图像的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值。
[0115]
步骤504：根据所述动态噪声阈值通过所述图像信息处理网络对所述多媒体信息的图像进行降噪处理，以形成与所述动态噪声阈值相匹配的多媒体信息的图像。
[0116]
步骤505：通过所述图像信息处理网络对经过降噪处理的多媒体信息的图像进行交叉降采样处理，得到所述多媒体信息的图像的降采样结果，并对所述降采样结果进行归一化处理，确定与所述多媒体信息的图像相匹配的图像特征向量。
[0117]
结合图4，在对包括文本与图像的多媒体信息进行识别的过程中，其中，wi为词，wvi为对应的词向量，vi为新闻配图，fvi为单一图像特征。在文本特征提取时，对于文本模态，首先对文本内容进行分词形成词列表，然后以谷歌预训练词向量word2vec对词进行向量化处理，最后将向量化后的文本内容传入一个lstm网络中以提取新闻文本的内容特征信息tvec。对于图像模态，首先对图像进行一系列的预处理操作(resize统一大小、去噪等)，然后传入resnet50网络中进行单一图像的特征提取，最后将多张提取的单一图像特征传入另一个lstm中以提取新闻图像的内容特征信息ivec。
[0118]
继续参考图3，执行步骤304。
[0119]
步骤304：多媒体信息识别装置通过所述多媒体信息识别模型中的特征过滤网络对所述文本特征向量和所述图像特征向量分别进行过滤处理。
[0120]
在本发明的一些实施例中，处理新闻短文时，文字部分有正文、标题、标签等各类型的文字内容，因此可以确定所述文本特征向量词语列表长度和所述图像特征向量对应的图像数量；响应于所述词语列表长度和图像数量，通过所述多媒体信息识别模型对应的激活函数，获取所述多媒体信息识别模型相匹配的过滤矩阵；通过所述过滤矩阵分别对所述文本特征向量和所述图像特征向量进行过滤处理，删除冗余特征和错误特征，获得所述文本特征向量的过滤处理结果和所述图像特征向量的过滤处理结果。其中，基于深度残差resnet50的预训练卷积神经网络进行特征抽取，把视频的封面图信息提取为128维特征向量。resnet在图片特征提取中是目前广泛的提取网络，有利于封面图信息的表示。
[0121]
结合图4，在进行过滤处理时，将基于两种模态所提取的内容特征信息传入m
‑
gate机制中，该机制会根据文本和图像两种模态信息(tvec、ivec)通过sigmoid函数生成一个过滤矩阵g，使用过滤矩阵g分别对两种特征向量进行错误冗余信息过滤，从而获取正确有用的文本特征信息ctvec和图像特征信息civec，由此可以降低由于冗余信息和错误信息所造成的识别错误率。
[0122]
结合图4，通过m
‑
gate模块对特征进行过滤后获取过滤后的正确有用的文本特征信息ctvec和图像特征信息civec，将两种模态的特征信息相加获取包含文本和图像特征信
息的多模态内容特征信息mvec，基于经过融合的多模态内容特征信息mvec，可以实现对多媒体信息的准确识别，提升对多媒体信息识别的准确性。
[0123]
结合图6，图6为本发明实施例中过滤处理的过程示意图，其中，基于m
‑
gate特征过滤处理中，需要对所提取的文本特征向量tvec和图像特征向量ivec进行特征过滤。其中tvec＝[ht1，ht2，
…
，htn]表示通过lstm网络所提取的文本特征信息，n为词列表长度。ivec＝[hv1，hv2，
…
，hvm]表示通过lstm网络所提取的图像特征信息，m为图像的数量。基于文本特征向量tvec和图像特征向量ivec通过一个sigmoid函数来获取过滤矩阵g，如公式1所示。过滤矩阵g中的元素趋向于0和1，再将过滤矩阵g分别和文本模态tvec和图像模态ivec进行相乘得到过滤后的特征ctvec和civec，其中元素1保证了正确有用的特征保留，元素0保证了错误冗余特征的丢弃。
[0124]
g ＝ s(tvec * wt ivec * wi b) 公式1
[0125]
其中，s(.)表示sigmoid函数操作，wt和wi表示训练参数，b表示偏置。
[0126]
通过图6所示的过滤处理过程，不但实现了对文本特征向量和图像特征向量进行过滤，减少冗余信息和错误信息，同时，有效减少了需要进行特征融合处理的特征向量的数量，提升了多媒体信息识别模型的处理速率，使得多媒体信息识别模型能够实现对更多的多媒体信息进行识别。
[0127]
步骤305：多媒体信息识别装置通过所述多媒体信息识别模型中的特征融合网络，对所述文本特征向量和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量。
[0128]
步骤306：多媒体信息识别装置基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。
[0129]
融合阶段参考图7和图8，图7为本发明实施例中多模态特征融合处理的示意图，图8为本发明实施例中全连接层处理过程示意图，将拼接后的长向量输入全连接层，全连接层对输入的文本特征向量和图像特征向量进行非线性变换即：y＝f(wx b)，并想全连接层(fc层)输出。其中f为全连接层的网络节点，x为激活函数，w为权重矩阵，b为偏置常量。最后经过逻辑回归函数softmax的处理，softmax层网络将全连接层的输出结果转化为各个待识别多媒体信息类别的概率，计算方法如公式2所示。其中z
j
＝wx
j
b，x
j
为全连接层输出，其中，w、b为该层待训练参数。
[0130][0131]
下面以待识别的多媒体信息为包括文本与图像的广告信息为例，对本发明实施例所提供的多媒体信息识别方法进行说明，其中，结合图1所示的广告信息识别方法的应用环境示意图，终端(包括终端130
‑
1和终端130
‑
2)上设置有能够显示相应广告信息的软件的客户端，例如广告信息播放小程序或者呈现不同广告新闻客户端或插件，用户通过相应的客户端可以获得不同的广告信息，在向用户推荐广告的过程中，需要对待识别的广告信息进行识别，通过识别结果获得更好的广告推荐结果，图9为本发明实施例所提供的多媒体信息识别方法的工作过程示意图，具体包括以下步骤：
[0132]
步骤901：训练多媒体信息识别模型，确定多媒体信息识别模型的网络参数。
[0133]
步骤902：将经过训练的多媒体信息识别模型部署在服务器中。
[0134]
步骤903：通过多媒体信息识别模型对数据源中待识别的广告信息中的文本进行文本提取处理，确定文本特征向量，同时对广告信息进行图像提取处理，确定图像特征向量。
[0135]
步骤904：对文本特征向量和图像特征向量进行过滤与融合处理，获得融合特征向量。
[0136]
步骤905：基于融合特征向量，对待识别的广告信息进行识别，确定广告信息的识别结果。
[0137]
进一步地，为了更加直观的广告信息的识别结果，图10为本技术中广告识别示意图，如图10所示，可以确定通过融合特征向量，对待识别的广告信息进行识别可以将数据源中的广告信息进行精确分类，形成(1)科技广告、(2)体育广告、(3)汽车广告、(4)文艺广告、(5)公益广告，其中每一种广告都包括了文本信息和图像，用户能够获得更加丰富的广告浏览体验。
[0138]
步骤906：基于广告信息的识别结果，向不同的用户推荐不同的广告信息。
[0139]
有益技术效果：
[0140]
本发明获取待识别的多媒体信息，其中所述多媒体信息包括文本与图像；对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；通过所述多媒体信息识别模型中的图像信息处理网络对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；通过所述多媒体信息识别模型中的特征过滤网络对所述文本特征向量和所述图像特征向量分别进行过滤处理；通过所述多媒体信息识别模型中的特征融合网络，对所述文本特征向量和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果，该方案不但可以对多媒体信息所包括的文本特征向量和图像特征向量进行过滤，减少冗余信息和错误信息，同时可以通过对经过过滤的文本特征向量和图像特征向量进行融合形成融合特征向量，基于融合特征向量实现对多媒体信息的准确识别，提升对多媒体信息识别的准确性，降低由于冗余信息和错误信息所造成的识别错误率。
[0141]
以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

多媒体信息识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献