多模态数据处理方法及装置、电子装置及存储介质与流程

2022-07-10 05:14:06 来源：中国专利 TAG：

1.本发明涉及数据处理领域，具体涉及一种多模态数据处理方法及装置、电子装置及存储介质。

背景技术：

2.目前的多模态数据处理方法需要采用多个神经网络模型，每个神经网络模型对应一模态的数据。如此，由于需要多个神经网络模型，在训练多个所述神经网络模型时将会需要收集多个模态的大量数据，将会增加收集多模态的数据的时间，同时多个神经网络模型之间相互独立，无法交换信息，将使得它们在训练时的学习无法相互交换，可能会造成重复的学习，造成资源的浪费。

技术实现要素：

3.鉴于此，有必要提供一种多模态数据处理方法及装置、电子装置及计算机可读存储介质，可无需多个神经网络模型。
4.本技术的第一方面提供一种多模态数据处理方法，所述多模态数据处理方法包括：
5.获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层；
6.载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
7.较佳地，所述载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果包括：
8.载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来通过所述输出层输出原始测试结果；
9.对所述原始测试结果进行后处理来输出所述测试结果。
10.较佳地，所述多模态数据处理方法还包括：
11.建立所述神经网络模型，所述神经网络模型包括所述输入层、所述神经网络骨干及所述输出层，所述输入层用于接收多模态的样本，所述多模态的样本包括多模态的训练样本及多模态的测试样本；所述神经网络骨干用于接收所述输入层的输入，并对输入的所述多模态的样本进行特征提取；每个输出层用于将所述特征组合，每个输出层对应一模态。
12.较佳地，所述神经网络骨干包括深度残差网络的残差块、inception网络的inception模块及自编码器的编码器及解码器。
13.较佳地，每个输出层包括卷积层或全连接层。
14.较佳地，所述多模态数据处理方法还包括：
15.获取多模态的训练样本；
16.将所述多模态的训练样本输入至所述神经网络模型中进行训练来产生所述神经网络模型的训练权重。
17.较佳地，所述多模态数据处理方法还包括：
18.建立一个损失函数组，所述损失函数组包括多个不同的损失函数，每个损失函数与一输出层连接，每个损失函数对应一模态，所述损失函数组与所述输入层及所述神经网络骨干连接；
19.所述将所述多模态的训练样本输入至所述神经网络模型中进行训练来产生所述神经网络模型的训练权重包括：
20.将所述多模态的训练样本输入至所述神经网络模型中进行训练来通过每个输出层产生训练结果；
21.将每个训练结果输入至对应的损失函数来利用所述损失函数调整所述神经网络模型的权重直至完成所述神经网络模型的训练来产生所述神经网络模型的训练权重。
22.本技术的第二方面提供一种多模态数据处理装置，所述多模态数据处理装置包括：
23.训练权重获取模块，用于获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层；
24.测试模块，用于载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
25.本技术的第三方面提供一种电子装置，所述电子装置包括一个或多个处理器及存储器，所述处理器用于执行所述存储器中存储的至少一个指令时实现如上任意一项所述的多模态数据处理方法。
26.本技术的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行以实现如上任意一项所述的多模态数据处理方法。
27.本案通过获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层；载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果，可无需多个神经网络模型。
附图说明
28.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
29.图1是本发明实施例一提供的多模态数据处理装置的方框图。
30.图2是本发明实施例二提供的多模态数据处理装置的方框图。
31.图3是本发明实施例三提供的多模态数据处理方法的流程图。
32.图4是本发明的神经网络模型的示意图。
33.图5是本发明实施例四提供的多模态数据处理方法的流程图。
34.图6是本发明实施例四提供的多模态数据处理方法中将所述多模态的训练样本输入至所述神经网络模型中进行训练时的示意图。
35.图7是本发明实施例五提供的电子装置的方框图。
36.如下具体实施方式将结合上述附图进一步说明本发明。
37.主要元件符号说明
38.多模态数据处理装置
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
10，20
39.训练权重获取模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
101，203
40.测试模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
102，204
41.训练样本获取模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
201
42.训练模块
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
202
43.电子装置
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ744.存储器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
71
45.处理器
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
72
46.计算机程序
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
73
47.如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
48.为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本技术的实施例及实施例中的特征可以相互组合。
49.在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。
51.图1是本发明实施例一提供的多模态数据处理装置的方框图。所述多模态数据处理装置10应用于电子装置上。所述电子装置可为智能手机、桌上电脑、平板电脑等。所述多模态数据处理装置10包括训练权重获取模块101及测试模块102。所述训练权重获取模块101用于获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层。所述测试模块102用于载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
52.图2是本发明实施例二提供的多模态数据处理装置的方框图。所述多模态数据处理装置20应用于电子装置上。所述电子装置可为智能手机、桌上电脑、平板电脑等。所述多模态数据处理装置20包括训练样本获取模块201、训练模块202、训练权重获取模块203及测试模块204。所述训练样本获取模块201用于获取多模态的训练样本。所述训练模块202用于将所述多模态的训练样本输入至所述神经网络模型中进行训练来产生所述神经网络模型的训练权重。所述训练权重获取模块203用于获取利用多模态的训练样本训练神经网络模
型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层。所述测试模块204用于载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
53.以下将结合一种多模态数据处理方法的流程图来详细描述模块101～102及模块201～204的具体功能。
54.图3是本发明实施例三提供的多模态数据处理方法的流程图。所述多模态数据处理方法可包括以下步骤：
55.s31：获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层。
56.所述多模态的训练样本为通过不同的方法或视角收集到的待描述事物(目标、场景等)的样本。所述方法还包括：建立所述神经网络模型。如图4所示，所述神经网络模型包括所述输入层、所述神经网络骨干及所述输出层。所述输入层用于接收多模态的样本，所述多模态的样本包括多模态的训练样本及多模态的测试样本。所述神经网络骨干用于接收所述输入层的输入，并对输入的所述多模态的样本进行特征提取。在图4中，多个所述输出层包括输出层1，输出层2，
…
，输出层n-1及输出层n。每个输出层用于将所述特征组合，每个输出层对应一模态。所述神经网络骨干包括深度残差网络的残差块、inception网络的inception模块及自编码器的编码器及解码器等。所述神经网络骨干包括多个互连的神经节点，从而所述神经网络骨干内的信息是共享的。每个输出层包括卷积层或全连接层等。
57.s32：载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
58.在本实施例中，在所述载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果之前，所述方法还包括：
59.获取产品上的传感器感测的多模态的测试样本。
60.所述载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果包括：
61.a1：载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来通过所述输出层输出原始测试结果。
62.a2：对所述原始测试结果进行后处理来输出所述测试结果。
63.在本实施例中，所述对所述原始测试结果进行后处理来输出所述测试结果包括将每个原始测试结果输入至对应的后处理函数来以文字或图像的形式输出所述测试结果，其中，每个后处理函数与一输出层连接，且每个后处理函数对应一模态。
64.在本实施例中，所述方法还包括：显示所述测试结果或根据所述测试结果控制所述产品的行为。
65.实施例三通过获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层，载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。从而，本案可通过一个神经
网络模型来对多模态的测试样本进行测试，无需多个神经网络模型，则在训练时无需收集多个模态的大量数据，且所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层，由于所述神经网络骨干在多个模态之间是共享的，则它们的学习是共享的，避免了资源的浪费。
66.图5是本发明实施例四提供的多模态数据处理方法的流程图。所述多模态数据处理方法可包括以下步骤：
67.s51：获取多模态的训练样本。
68.所述获取多模态的训练样本包括：
69.b1：以预设的周期获取产品上的传感器感测的多模态的样本。所述预设的周期可为固定的周期或不固定的周期。
70.b2：根据获取的所述多模态的样本建立包括多模态的训练样本的数据库。
71.s52：将所述多模态的训练样本输入至神经网络模型中进行训练来产生所述神经网络模型的训练权重。
72.在本实施例中，所述方法还包括：
73.建立一个损失函数组。如图6所示，所述损失函数组包括多个不同的损失函数，每个损失函数与一输出层连接，每个损失函数对应一模态，所述损失函数组与所述输入层及所述神经网络骨干连接。在图6中，多个所述损失函数包括损失函数1，损失函数2，
…
，损失函数n-1及损失函数n。在本实施例中，所述输出层的输出的维度与所述损失函数的维度相同。
74.所述将所述多模态的训练样本输入至所述神经网络模型中进行训练来产生所述神经网络模型的训练权重包括：
75.c1：将所述多模态的训练样本输入至所述神经网络模型中进行训练来通过每个输出层产生训练结果。
76.c2：将每个训练结果输入至对应的损失函数来利用所述损失函数调整所述神经网络模型的权重直至完成所述神经网络模型的训练来产生所述神经网络模型的训练权重。
77.s53：获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层。
78.本实施例的步骤s53与实施例三的步骤s31相似，具体请参阅实施例三中对步骤s31的详细描述，在此不进行赘述。
79.s54：载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出测试结果。
80.本实施例的步骤s54与实施例三的步骤s32相似，具体请参阅实施例三中对步骤s32的详细描述，在此不进行赘述。
81.实施例四通过获取多模态的训练样本，将所述多模态的训练样本输入至所述神经网络模型中进行训练来产生所述神经网络模型的训练权重，获取利用多模态的训练样本训练神经网络模型时得到的训练权重，所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层，载入所述训练权重至所述神经网络模型中以通过所述神经网络模型对多模态的测试样本进行测试来输出
测试结果。从而，本案可通过对一个神经网络模型进行训练来产生所述训练权重，由于所述神经网络模型包括多个与所述神经网络骨干连接的不同的输出层，则每个输出层可学习对应的功能，可通过一个输入层、一个神经网络骨干及多个输出层对应于多个现有的神经网络。本案还通过一个神经网络模型来对多模态的测试样本进行测试，无需多个神经网络模型，且所述神经网络模型包括一个输入层、一个与所述输入层连接的神经网络骨干及多个与所述神经网络骨干连接的不同的输出层，由于所述神经网络骨干在多个模态之间是共享的，则它们的学习是共享的，避免了资源的浪费。
82.图7是本发明实施例五提供的电子装置的方框图。所述电子装置7包括：存储器71、至少一个处理器72、及存储在所述存储器71中并可在所述至少一个处理器72上运行的计算机程序73。所述至少一个处理器72执行所述计算机程序73时实现上述方法实施例中的步骤。或者，所述至少一个处理器72执行所述计算机程序73时实现上述装置实施例中的各模块的功能。
83.示例性的，所述计算机程序73可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器71中，并由所述至少一个处理器72执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序73在所述电子装置7中的执行过程。例如，所述计算机程序73可以被分割成图1所示的模块或图2所示的模块，各模块具体功能参见实施例一或实施例二。
84.所述电子装置7可以为任何一种电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(personal digital assistant，pda)等。本领域技术人员可以理解，所述示意图7仅是电子装置7的示例，并不构成对电子装置7的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子装置7还可以包括总线等。
85.所述至少一个处理器72可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器72可以是微处理器或者该处理器72也可以是任何常规的处理器等，所述处理器72是所述电子装置7的控制中心，利用各种接口和线路连接整个电子装置7的各个部分。
86.所述存储器71可用于存储所述计算机程序73和/或模块/单元，所述处理器72通过运行或执行存储在所述存储器71内的计算机可读指令和/或模块/单元，以及调用存储在存储器71内的数据，实现所述电子装置7的各种功能。所述存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子装置7的使用所创建的数据(比如音频数据等)等。此外，存储器71可以包括非易失性计算机可读存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
87.所述电子装置7集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实
现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)等。
88.最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、设备、介质和程序产品与流程

多模态数据处理方法及装置、电子装置及存储介质与流程

相关文献

最热文献