多媒体信息识别方法、装置、电子设备及存储介质与流程

2021-11-26 22:48:00 来源：中国专利 TAG：

技术特征：
1.一种多媒体信息识别方法，其特征在于，所述方法包括：获取待识别的多媒体信息，其中所述待识别的多媒体信息包括文本与图像；对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；对所述文本特征向量和所述图像特征向量分别进行过滤处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果；通过对所述文本特征向量过滤处理的结果和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。2.根据权利要求1所述的方法，其特征在于，所述对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量包括：通过多媒体信息识别模型的文字信息处理网络，提取与所述多媒体信息的文本内容相匹配的特征向量；通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的语句向量；通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量；通过所述文字信息处理网络，根据所述至少一个词语级的隐变量以及与所述文本内容所对应的语句向量，确定与所述多媒体信息相匹配的文本特征向量。3.根据权利要求2所述的方法，其特征在于，所述通过文字信息处理网络，提取与所述多媒体信息的文本内容相匹配的特征向量，包括：根据所述多媒体信息的文本内容所包括的文本种类参数，触发相应的分词库；通过所触发的所述分词库单词词典对所述多媒体信息的文本内容进行分词处理，形成不同的词语级特征向量；对所述不同的词语级特征向量进行除噪处理，形成与所述多媒体信息的文本内容相匹配的特征向量的集合。4.根据权利要求3所述的方法，其特征在于，所述对所述不同的词语级特征向量进行除噪处理，形成与所述多媒体信息的文本内容相匹配的特征向量的集合，包括：确定与多媒体信息识别模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述多媒体信息的文本内容进行分词处理，形成相对应的动态词语级特征向量集合。5.根据权利要求3所述的方法，其特征在于，所述对所述不同的词语级特征向量进行除噪处理，形成与所述多媒体信息的文本内容相匹配的特征向量的集合，包括：确定与多媒体信息识别模型的使用环境相对应的固定噪声阈值；
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理，并触发与所述固定噪声阈值相匹配的固定分词策略；根据与所述固定噪声阈值相匹配的固定分词策略，对所述多媒体信息的目标文本进行分词处理，形成相对应的固定词语级特征向量集合。6.根据权利要求2所述的方法，其特征在于，所述通过所述文字信息处理网络，根据所述至少一个词语级的隐变量以及与所述文本内容所对应的语句向量，确定与所述多媒体信息相匹配的文本特征向量，包括：根据所述待识别的多媒体信息的类型，确定所述词语级的隐变量的数量；通过所述文字信息处理网络中所述语句向量进行高维特征提取；基于所述词语级的隐变量的数量，通过所述文字信息处理网络中对高维特征提取的语句向量进行特征融合，获得与所述多媒体信息相匹配的文本特征向量。7.根据权利要求1所述的方法，其特征在于，所述通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量，包括：通过多媒体信息识别模型的图像信息处理网络中的预处理子网络，对所述多媒体信息的图像进行单一化提取；通过所述图像信息处理网络对经过单一化处理的多媒体信息的图像进行降噪处理；通过所述图像信息处理网络对经过降噪处理的多媒体信息的图像进行交叉降采样处理，得到所述多媒体信息的图像的降采样结果，并对所述降采样结果进行归一化处理，确定与所述多媒体信息的图像相匹配的图像特征向量。8.根据权利要求7所述的方法，其特征在于，所述通过所述图像信息处理网络对所述多媒体信息的图像进行降噪处理，包括：根据所述待识别的多媒体信息的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值；或者根据所述多媒体信息的图像的类型，确定与所述多媒体信息识别模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值通过所述图像信息处理网络对所述多媒体信息的图像进行降噪处理，以形成与所述动态噪声阈值相匹配的多媒体信息的图像。9.根据权利要求1所述的方法，其特征在于，所述对所述文本特征向量和所述图像特征向量分别进行过滤处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果，包括：确定所述文本特征向量词语列表长度和所述图像特征向量对应的图像数量；响应于所述词语列表长度和图像数量，通过所述多媒体信息识别模型对应的激活函数，获取所述多媒体信息识别模型相匹配的过滤矩阵；通过所述过滤矩阵分别对所述文本特征向量和所述图像特征向量进行过滤处理，删除冗余特征和错误特征，获得所述文本特征向量的过滤处理结果和所述图像特征向量的过滤处理结果。10.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述待识别的多媒体信息的类型，确定的多媒体信息的图像的目标分辨率；基于所述目标分辨率，通过多媒体信息识别模型的图像处理网络对所述多媒体信息的
图像进行分辨率增强处理，并获取相应的图像特征向量，以实现所述图像特征向量与所述多媒体信息的分辨率相适配。11.一种多媒体信息识别装置，其特征在于，所述装置包括：信息传输模块，用于获取待识别的多媒体信息，其中所述待识别的多媒体信息包括文本与图像；信息处理模块，用于对所述待识别的多媒体信息中的文本进行文本提取处理，确定与所述多媒体信息相匹配的文本特征向量；所述信息处理模块，用于通过对所述多媒体信息进行图像提取处理，确定与所述多媒体信息相匹配的图像特征向量；所述信息处理模块，用于对所述文本特征向量和所述图像特征向量分别进行过滤处理，获得文本特征向量过滤处理的结果和图像特征向量的过滤处理结果；所述信息处理模块，用于通过对所述文本特征向量过滤处理的结果和所述图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；所述信息处理模块，用于基于所述融合特征向量，对所述待识别的多媒体信息进行识别，获得所述多媒体信息的识别结果。12.根据权利要求11所述的装置，其特征在于，所述信息处理模块，用于通过多媒体信息识别模型的文字信息处理网络，提取与所述多媒体信息的文本内容相匹配的特征向量；所述信息处理模块，用于通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的语句向量；所述信息处理模块，用于通过所述文字信息处理网络，根据所述特征向量确定与所述文本内容所对应的至少一个词语级的隐变量；所述信息处理模块，用于通过所述文字信息处理网络，根据所述至少一个词语级的隐变量以及与所述文本内容所对应的语句向量，确定与所述多媒体信息相匹配的文本特征向量。13.根据权利要求11所述的装置，其特征在于，所述信息处理模块，用于通过多媒体信息识别模型的图像信息处理网络中的预处理子网络，对所述多媒体信息的图像进行单一化提取；所述信息处理模块，用于通过所述图像信息处理网络对经过单一化处理的多媒体信息的图像进行降噪处理；所述信息处理模块，用于通过所述图像信息处理网络对经过降噪处理的多媒体信息的图像进行交叉降采样处理，得到所述多媒体信息的图像的降采样结果，并对所述降采样结果进行归一化处理，确定与所述多媒体信息的图像相匹配的图像特征向量。14.一种电子设备，其特征在于，所述电子设备包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至10任一项所述的多媒体信息识别方法。15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至10任一项所述的多媒体信息识别方法。

技术总结
本发明提供了一种多媒体信息识别方法，包括：本发明对待识别的多媒体信息中的文本进行文本提取处理，确定与多媒体信息相匹配的文本特征向量；对多媒体信息进行图像提取处理，确定与多媒体信息相匹配的图像特征向量；对文本特征向量和所述图像特征向量分别进行过滤处理；对文本特征向量和图像特征向量的过滤处理结果进行特征融合处理，确定相应的融合特征向量；基于所述融合特征向量，对待识别的多媒体信息进行识别，获得多媒体信息的识别结果，由此，不但通过文本信息和图像信息的结合实现对多媒体信息的识别，同时通过特征信息的过滤处理使得冗余信息和错误信息更少，提升了识别结果的准确性，减少由于错误识别造成的用户的体验感下降。验感下降。验感下降。

技术研发人员：梁涛张晗马连洋
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.04.09
技术公布日：2021/11/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

多媒体信息识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献