一种数据增强方法、装置、设备及存储介质与流程

2023-02-19 12:37:40 来源：中国专利 TAG：

1.本发明实施例涉及人工智能技术领域，尤其涉及一种数据增强方法、装置、设备及存储介质。

背景技术：

2.随着人工智能技术的发展，各类神经网络模型的性能越来越高，相应地，用于训练神经网络模型的样本规模也越来越大。有些模型的训练样本不再是单模态(纯文本、纯图像等)的数据集，而是由多个单模态数据构建的多模态(样本同时包含文本和图像等模态)的数据集。
3.相比于构建大量单模态的数据集而言，构建大量多模态的数据集无疑要困难的多。相关技术在对于多模态数据集进行增强时，采用人工方式挑选符合要求的多模态数据，从而扩大多模态数据集的规模。
4.然而，上述人工挑选多模态数据的方法，其准确性和效率较低。

技术实现要素：

5.本技术实施例提供了一种数据增强方法、装置、设备及存储介质，用于提高多模态数据增强的准确性和效率。
6.一方面，本技术实施例提供了一种数据增强方法，该方法包括：
7.将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，所述第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据；
8.针对各个第一综合模态数据，分别执行以下步骤：
9.确定一个第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度；
10.基于获得的各个相似度，从所述各个目标单模态数据各自对应的单模态数据集合中，分别确定所述各个目标单模态数据各自对应的候选单模态数据集合；
11.对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，所述至少一个第二综合模态数据用于训练神经网络模型。
12.一方面，本技术实施例提供了一种数据增强装置，该装置包括：
13.分组模块，用于将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，所述第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据；
14.处理模块，用于针对各个第一综合模态数据，分别执行以下步骤：
15.确定一个第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度；
16.基于获得的各个相似度，从所述各个目标单模态数据各自对应的单模态数据集合
中，分别确定所述各个目标单模态数据各自对应的候选单模态数据集合；
17.对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，所述至少一个第二综合模态数据用于训练神经网络模型。
18.可选地，所述处理模块包括匹配模块；
19.所述匹配模块具体用于：
20.针对所述各个目标单模态数据，分别执行以下步骤：
21.针对一个目标单模态数据，提取所述一个目标单模态数据对应的单模态数据集合中各个单模态数据各自对应的特征信息；
22.基于所述一个目标单模态数据的特征信息和对应的单模态数据集合中其他各个单模态数据各自对应的特征信息，确定所述一个目标单模态数据分别与所述其他各个单模态数据的相似度。
23.可选地，所述处理模块包括筛选模块；
24.所述筛选模块具体用于：
25.针对所述各个目标单模态数据，分别执行以下步骤：
26.针对一个目标单模态数据，将所述一个目标单模态数据对应的单模态数据集合中，与所述一个目标单模态数据的相似度大于预设阈值的至少一个其他单模态数据，作为所述一个目标单模态数据对应的候选单模态数据集合。
27.可选地，所述筛选模块具体用于：
28.针对所述至少一个第二综合模态数据中的各个第二综合模态数据，分别执行以下步骤：
29.分别从所述各个候选单模态数据集合选取一个候选单模态数据；
30.将选择的各个候选单模态数据组合，获得一个第二综合模态数据。
31.可选地，所述一个目标单模态数据为目标文本模态数据，所述一个目标单模态数据对应的单模态数据集合为目标文本模态数据集合；
32.所述匹配模块具体用于：
33.针对所述目标文本模态数据集合中的各个文本模态数据，分别执行以下步骤：
34.针对一个文本模态数据，对所述一个文本模态数据进行分词，获得所述一个文本模态数据对应的分词序列；
35.分别提取所述分词序列中各个分词的分词特征，并基于所述各个分词的分词特征，确定所述一个文本模态数据的文本特征信息。
36.可选地，所述匹配模块具体用于：
37.将所述目标文本模态数据的文本特征信息，分别与所述目标文本模态数据集合中的其他各个文本模态数据各自对应的文本特征信息相乘，获得所述目标文本模态数据分别与所述其他各个文本模态数据的相似度。
38.可选地，所述一个目标单模态数据为目标图像模态数据，所述一个目标单模态数据对应的单模态数据集合为目标图像模态数据集合；
39.所述匹配模块具体用于：
40.针对所述目标图像模态数据集合中的各个图像模态数据，分别执行以下步骤：
41.针对一个图像模态数据，对所述一个图像模态数据进行特征提取，获得所述一个
图像模态数据的图像特征信息。
42.可选地，所述匹配模块具体用于：
43.将所述目标图像模态数据的图像特征信息，分别与所述目标图像模态数据集合中的其他各个图像模态数据各自对应的图像特征信息相乘，获得所述目标图像模态数据分别与所述其他各个图像模态数据的相似度。
44.一方面，本技术实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据增强方法的步骤。
45.一方面，本技术实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述数据增强方法的步骤。
46.本技术实施例中，将已有的综合模态数据集合划分为至少两个不同模态的单模态数据集合，然后基于单模态数据集合中各个单模态数据的相似度，确定每个单模态数据对应的候选单模态数据集合，通过将各个候选单模态数据集合中的单模态数据进行共享，获得新综合模态数据，实现了对少量已有的综合模态数据的数据增强，提高了扩充综合模态数据的效率和准确性，进而也提高了模型开发的效率和成本。
附图说明
47.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
48.图1为本技术实施例提供的一种系统架构示意图；
49.图2为本技术实施例提供的一种图像增强方法的流程示意图；
50.图3为本技术实施例提供的一种评论数据的示意图；
51.图4为本技术实施例提供的一种评论数据的示意图；
52.图5为本技术实施例提供的一种综合模态数据集合分组的示意图；
53.图6为本技术实施例提供的一种综合模态数据集合分组的示意图；
54.图7为本技术实施例提供的一种构建文本模态相似语义矩阵的流程示意图；
55.图8为本技术实施例提供的一种构建图像模态相似语义矩阵的流程示意图；
56.图9为本技术实施例提供的一种构建语音模态相似语义矩阵的流程示意图；
57.图10为本技术实施例提供的一种图像增强方法的流程示意图；
58.图11为本技术实施例提供的一种图像增强装置的结构示意图；
59.图12为本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
60.为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
61.为了方便理解，下面对本发明实施例中涉及的名词进行解释。
62.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
63.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本技术实施例中的数据增强方法可用于扩充人工智能技术中的模型训练所需的训练样本，从而提高模型开发的效率。
64.模态：信息的来源与形态具有多样性，每种数据形态都称为一种模态，比如文本模态、图像模态、语音模态等。
65.单模态数据：具备单一模态的数据称之为单模态数据。比如包含纯文本的文本模态数据、包含纯图像的图像模态数据、包含纯语音的语音模态数据等。
66.综合模态数据：具备多种模态的数据称之为综合模态数据或者多模态数据。比如，包含文本模态和图像模态的综合模态数据、包含文本模态和语音模态的综合模态数据、包含图像模态和语音模态的综合模态数据、包含文本模态、语音模态和图像模态的综合模态数据等。
67.数据增强技术：指以现有数据作为基础，采用一定的数据增强算法，将现有数据进行扩充的一种方法，根据数据算法的设计不同，可以有多种扩充方法。
68.下面对本技术实施例的设计思想进行介绍。
69.随着人工智能技术的发展，有些模型的训练样本不再是单模态(纯文本、纯图像等)的数据集，而是由多个单模态数据构建的多模态(样本同时包含文本和图像等模态)的数据集。比如，在基于用户画像定向推荐内容的场景中，可以结合用户的评论文本数据和评论图像数据确定用户画像，进而基于用户画像向用户推荐相关的内容，故在训练相关推荐模型时，需要获取包含文本模态和图像模态的综合模态数据作为训练样本。
70.相比于构建大量单模态的数据集而言，构建大量多模态的数据集无疑要困难的多。相关技术在对于多模态数据集进行增强时，采用人工方式挑选符合要求的多模态数据，从而扩大多模态数据集的规模。然而，上述人工挑选多模态数据的方法，其准确性和效率较低。
71.通过分析发现，一个综合模态数据是由多个单模态数据组成的，若将该综合模态数据中的至少一个单模态数据替换为其他相似的单模态数据，则可以获得一个与该综合模态数据相似的新的综合模态数据，从而实现对综合模态数据的扩充。
72.鉴于此，本技术实施例提供了一种数据增强方法，在该方法中，先将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据。然后针对各个第一综合模态数据，分别执行以下步骤：
73.确定第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度。然后基于获得的各个相似度，从各个目标单模态数据各自对应的单模态数据集合中，分别确定各个目标单模态数据各自对应的候选单模态数据集合。再对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，其中，至少一个第二综合模态数据可用于训练神经网络模型。
74.举例来说，设定在第一综合模态数据集合d中包括m个第一综合模态数据，分别为{d_1，d_2，....，d_m}，每个第一综合模态数据d_i包括文本模态数据text_i和图像模态数据img_i，其中，1≤i≤m。将第一综合模态数据集合d划分为文本模态数据集合t＝{text_1，text_2，....，text_m}和图像模态数据集合i＝{img_1，img_2，....，img_m}。
75.针对第一综合模态数据d_1，先确定文本模态数据text_1分别与文本模态数据集合t中其他各个文本模态数据{text_2，....，text_m}之间的文本相似度，然后基于获得的文本相似度，从其他各个文本模态数据{text_2，....，text_m}中获取文本模态数据text_1的候选文本模态数据集合text_1_x。
76.确定图像模态数据img_1分别与图像模态数据集合t中其他各个图像模态数据{img_2，....，img_m}之间的图像相似度，然后基于获得的图像相似度，从其他各个图像模态数据{img_2，....，img_m}中获取图像模态数据img_1的候选图像模态数据集合img_1_x。
77.将候选文本模态数据集合text_1_x中的文本模态数据，与候选图像模态数据集合img_1_x中的图像模态数据进行共享，获得第一综合模态数据d_1对应的第二综合模态数据集合。
78.后续可以将第一综合模态数据集合d以及扩充的第二综合模态数据集合作为训练样本训练神经网络模型，具体可以应用于内容推荐模型、情感分析模型、智能问答模型等需要综合模态数据作为训练样本的模型。
79.本技术实施例中，将已有的综合模态数据集合划分为至少两个不同模态的单模态数据集合，然后基于单模态数据集合中各个单模态数据的相似度，确定每个单模态数据对应的候选单模态数据集合，通过将各个候选单模态数据集合中的单模态数据进行共享，获得新综合模态数据，实现了对少量已有的综合模态数据的数据增强，提高了扩充综合模态数据的效率和准确性，进而也提高了模型开发的效率和成本。
80.参考图1，其为本技术实施例提供的数据增强方法的系统架构图。该架构至少包括终端设备101以及服务器102。
81.终端设备101中可以安装具备数据增强功能的目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。
82.服务器102可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。
83.本技术实施例中的数据增强方法可以是终端设备101执行，也可以是服务器102执
行。
84.实施方式一，数据增强方法可以是终端设备101执行。
85.用户在终端设备101上提交第一综合模态数据集合，终端设备101将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据。然后针对各个第一综合模态数据，分别执行以下步骤：
86.确定第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度。然后基于获得的各个相似度，从各个目标单模态数据各自对应的单模态数据集合中，分别确定各个目标单模态数据各自对应的候选单模态数据集合。再对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，其中，至少一个第二综合模态数据可用于训练神经网络模型。
87.实施方式二，数据增强方法可以是服务器102执行。
88.用户在终端设备101上提交第一综合模态数据集合，终端设备101将第一综合模态数据集合发送至服务器102。服务器102将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据。然后针对各个第一综合模态数据，分别执行以下步骤：
89.确定第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度。然后基于获得的各个相似度，从各个目标单模态数据各自对应的单模态数据集合中，分别确定各个目标单模态数据各自对应的候选单模态数据集合。再对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，其中，至少一个第二综合模态数据可用于训练神经网络模型。服务器102将获得的第二综合模态数据集合发送至终端设备101。
90.基于图1所示的系统架构图，本技术实施例提供了一种数据增强方法的流程，如图2所示，该方法的流程可以由图1所示的终端设备101或服务器102执行，包括以下步骤：
91.步骤s201，将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合。
92.其中，第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据，其中，单模态数据可以是包含纯文本的文本模态数据、包含纯图像的图像模态数据、包含纯语音的语音模态数据等。
93.第一综合模态数据可以是包含文本模态和图像模态的综合模态数据、包含文本模态和语音模态的综合模态数据、包含图像模态和语音模态的综合模态数据、包含文本模态、语音模态和图像模态的综合模态数据等。
94.举例来说，如图3所示，评论数据集合中包括三条综合模态评论数据，分别为综合模态评论数据a、综合模态评论数据b和综合模态评论数据c，每条综合模态评论数据包括文本模态和图像模态两种形式。具体地，综合模态评论数据a中包括评论文本a_1＝{这家餐厅环境很好，非常干净整洁，食物色香味俱全}和评论图像a_2；综合模态评论数据b中包括评论文本b_1＝{今天点的食物非常美味可口，我以后还会再次团购}和评论图像b_2；综合模态评论数据c中包括评论文本c_1＝{食物造型很漂亮，味道好，点赞}和评论图像c_2。
95.在第一综合模态数据集合中，各个第一综合模态数据中包含的模态类型可以是完
全相同的，也可以是不完全相同的。
96.示例性地，图3所示的评论数据集合中，各个综合模态评论数据包含的模态类型是完全相同的，均包含文本模态和图像模态两种模态类型。
97.示例性地，如图4所示，评论数据集合中包括三条综合模态评论数据，分别为综合模态评论数据a、综合模态评论数据b和综合模态评论数据c，其中，综合模态评论数据a中包括评论文本a_1＝{这家餐厅环境很好，非常干净整洁，食物色香味俱全}和评论图像a_2，即评论数据a中包含文本模态和图像模态两种模态类型；
98.综合模态评论数据b中包括评论文本b_1＝{今天点的食物非常美味可口，我以后还会再次团购}和评论视频b_3，其中，评论视频b_3包括评论语音b_3_x和评论图像b_3_y，即评论数据b中包含文本模态、图像模态和语音模态三种模态类型；
99.综合模态评论数据c中包括评论文本c_1＝{食物造型很漂亮，味道好，点赞}和评论图像c_2，即评论数据c中包含文本模态和图像模态两种模态类型。
100.可选地，基于将相同模态的单模态数据划分至一个集合的原则，将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合。
101.示例性地，如图5所示，将图3所示的评论数据集合划分为2个单模态数据集合，分别为文本模态数据集合t和图像模态数据集合i，其中，文本模态数据集合t＝{a_1，b_1，c_1}，图像模态数据集合i＝{a_2，b_2，c_2}。
102.示例性地，如图6所示，将图4所示的评论数据集合划分为3个单模态数据集合，分别为文本模态数据集合t、图像模态数据集合i和语音模态数据集合v，其中，文本模态数据集合t＝{a_1，b_1，c_1}，图像模态数据集合i＝{a_2，b_3_y，c_2}，语音模态数据集合t＝{b_3_x}。
103.步骤s202，确定第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度。
104.具体地，各个目标单模态数据可以是第一综合模态数据中的所有单模态数据，也可以是第一综合模态数据中的部分单模态数据。比如，第一综合模态数据中包括文本模态数据、图像模态数据和语音模态数据，则可以是将文本模态数据和图像模态数据作为目标单模态数据，也可将文本模态数据、图像模态数据和语音模态数据都作为目标单模态数据。
105.步骤s203，基于获得的各个相似度，从各个目标单模态数据各自对应的单模态数据集合中，分别确定各个目标单模态数据各自对应的候选单模态数据集合。
106.具体地，候选单模态数据集合中包括一个或多个候选单模态数据，候选单模态数据为单模态数据集合中与目标单模态数据的相似度满足预设条件的单模态数据。
107.步骤s204，对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据。
108.在一种可能的实施方式中，将获得的各个候选单模态数据集合合并为一个总集合，然后从总集合中随机选取至少两个不同模态的候选单模态数据，组成一个第二综合模态数据。经过多次选取，可以获取多个不同的第二综合模态数据。
109.在另一种可能的实施方式中，分别从各个候选单模态数据集合选取一个候选单模态数据，然后将选择的各个候选单模态数据组合，获得一个第二综合模态数据。经过多次选取，可以获取多个不同的第二综合模态数据。
110.依次对第一综合模态数据集合中的每个第一综合模态数据执行上述步骤s202至步骤s204，获得每个第一综合模态数据对应的至少一个第二综合模态数据。另外，在获得至少一个第二综合模态数据之后，可以采用至少一个第二综合模态数据训练神经网络模型，从而实现训练样本的自动扩充，其中，神经网络模型可以是内容推荐模型、情感分析模型、智能问答模型等需要综合模态数据作为训练样本的模型。
111.举例来说，评论数据集合中包括三条综合模态评论数据，分别为综合模态评论数据a、综合模态评论数据b和综合模态评论数据c，每条综合模态评论数据包括文本模态和图像模态两种形式。具体地，综合模态评论数据a中包括评论文本a_1＝{这家餐厅环境很好，非常干净整洁，食物色香味俱全}和评论图像a_2；综合模态评论数据b中包括评论文本b_1＝{今天点的食物非常美味可口，我以后还会再次团购}和评论图像b_2；综合模态评论数据c中包括评论文本c_1＝{食物造型很漂亮，味道好，点赞}和评论图像c_2。
112.将评论数据集合划分为2个单模态数据集合，分别为文本模态数据集合t和图像模态数据集合i，其中，文本模态数据集合t＝{a_1，b_1，c_1}，图像模态数据集合i＝{a_2，b_2，c_2}。
113.针对综合模态评论数据a，确定评论文本a_1与评论文本b_1之间的相似度s1，以及评论文本a_1与评论文本c_1之间的相似度s2，由于相似度s2满足预设条件，则将评论文本c_1作为评论文本a_1的候选文本模态数据。
114.确定评论图像a_2与评论图像b_2之间的相似度s3，以及评论图像a_2与评论图像c_2之间的相似度s4，由于相似度s3满足预设条件，则将评论图像b_2作为评论图像a_2的候选图像模态数据。将评论文本c_1和评论图像a_2进行组合，获得与综合模态评论数据a语义相近的综合模态评论数据d。
115.本技术实施例中，将已有的综合模态数据集合划分为至少两个不同模态的单模态数据集合，然后基于单模态数据集合中各个单模态数据的相似度，确定每个单模态数据对应的候选单模态数据集合，通过将各个候选单模态数据集合中的单模态数据进行共享，获得新综合模态数据，实现了对少量已有的综合模态数据的数据增强，提高了扩充综合模态数据的效率和准确性，进而也提高了模型开发的效率和成本。
116.可选地，在上述步骤s202中，针对各个目标单模态数据，分别执行以下步骤：
117.针对一个目标单模态数据，提取一个目标单模态数据对应的单模态数据集合中各个单模态数据各自对应的特征信息。然后基于一个目标单模态数据的特征信息和对应的单模态数据集合中其他各个单模态数据各自对应的特征信息，确定一个目标单模态数据分别与其他各个单模态数据的相似度。
118.具体地，确定一个目标单模态数据与其他单模态数据的相似度的方法至少包括：计算目标单模态数据的特征信息与其他单模态数据的特征信息之间的欧式距离、曼哈顿距离、切比雪夫距离、余弦相似度等，也可以直接将目标单模态数据的特征信息与其他单模态数据的特征信息相乘。
119.可选地，在基于获得的相似度筛选目标单模态数据对应的候选单模态数据集合时，本技术实施例至少提供以下几种实施方式：
120.实施方式一，针对一个目标单模态数据，将一个目标单模态数据对应的单模态数据集合中，与一个目标单模态数据的相似度大于预设阈值的至少一个其他单模态数据，作
transformers)模型等。再计算分词向量序列中各个分词特征的平均值，获得文本模态数据的文本特征信息。
131.将目标文本模态数据的文本特征信息，分别与目标文本模态数据集合中的其他各个文本模态数据各自对应的文本特征信息相乘，获得目标文本模态数据分别与其他各个文本模态数据的相似度。然后将相似度大于预设阈值的其他文本模态数据，作为目标文本模态数据的候选文本模态数据。
132.举例来说，如图7所示，目标文本模态数据集合t1包括m条评论文本{text_1，text_2，....，text_m}，针对每条评论文本text_i，其中，1≤i≤m，对评论文本text_i进行分词，获得分词序列text_i＝{wi_1，wi_2，...，wi_n}。然后采用word2vec模型提取分词序列中各个分词的分词特征，获得分词向量序列text_v_i＝{wi_v_1，wi_v_2，...，wi_v_n}。再对分词向量序列中各个分词向量进行加和平均，获得评论文本text_i对应的文本特征信息text_vec_i。
133.依次对目标文本模态数据集合中的m条评论文本进行特征提取获得相应的文本特征信息，基于m条评论文本分别对应的文本特征信息，构建文本特征信息矩阵t。然后将文本特征信息矩阵t与对应的转置矩阵t
′
相乘，获得文本模态相似语义矩阵st。文本模态相似语义矩阵st中的第i行表示评论文本text_i与目标文本模态数据集合t1中其他各个评论文本之间的语义相似度。将文本模态相似语义矩阵st的第i行中相似度大于文本相似度阈值t_thresh的评论文本，作为评论文本text_i的候选评论文本集合。
134.实施方式二、一个目标单模态数据为目标图像模态数据，该目标单模态数据对应的单模态数据集合为目标图像模态数据集合。
135.针对目标图像模态数据集合中的各个图像模态数据，分别执行以下步骤：
136.针对一个图像模态数据，对一个图像模态数据进行特征提取，获得一个图像模态数据的图像特征信息。
137.具体地，可以先用预先训练好的残差(resnet)网络、卷积神经网络(convolutional neural networks，简称cnn)、深度神经网络(deep neural networks，简称dnn)等网络，对图像模态数据进行特征提取，获得图像模态数据的图像特征信息。
138.将目标图像模态数据的图像特征信息，分别与目标图像模态数据集合中的其他各个图像模态数据各自对应的图像特征信息相乘，获得目标图像模态数据分别与其他各个图像模态数据的相似度。然后将相似度大于预设阈值的其他图像模态数据，作为目标图像模态数据的候选图像模态数据。
139.举例来说，如图8所示，目标图像模态数据集合i1包括m个评论图像{img_1，img_2，....，img_m}，针对每条评论图像img_i，其中，1≤i≤m。采用resnet网络对评论图像img_i进行特性提取，获得评论图像img_i对应的图像特征信息img_vec_i。
140.依次对目标图像模态数据集合中的m个评论图像进行特征提取获得相应的图像特征信息，基于m条评论图像分别对应的图像特征信息，构建图像特征信息矩阵i。然后将图像特征信息矩阵i与对应的转置矩阵i
′
相乘，获得图像模态相似语义矩阵si。图像模态相似语义矩阵si中的第i行表示评论图像img_i与目标图像模态数据集合i1中其他各个评论图像之间的语义相似度。
141.进一步地，将图像模态相似语义矩阵si的第i行中相似度大于图像相似度阈值i_
thresh的评论图像，作为评论图像img_i的候选评论图像集合。
142.实施方式三、一个目标单模态数据为目标语音模态数据，该目标单模态数据对应的单模态数据集合为目标语音模态数据集合。
143.针对目标语音模态数据集合中的各个语音模态数据，分别执行以下步骤：
144.针对一个语音模态数据，对一个语音模态数据进行特征提取，获得一个语音模态数据的语音特征信息。
145.具体地，通过对语音模态数据进行分帧、加窗以及语音特征提取等操作，获得语音模态数据的语音特征信息。将目标语音模态数据的语音特征信息，分别与目标语音模态数据集合中的其他各个语音模态数据各自对应的语音特征信息相乘，获得目标语音模态数据分别与其他各个语音模态数据的相似度。然后将相似度大于预设阈值的其他语音模态数据，作为目标语音模态数据的候选语音模态数据。
146.举例来说，如图9所示，目标语音模态数据集合v1包括m个评论语音{voice_1，voice_2，....，voice_m}，针对每条评论语音voice_i，其中，1≤i≤m。对评论语音voice_i进行特性提取，获得评论语音voice_i对应的语音特征信息voice_vec_i。
147.依次对目标语音模态数据集合中的m个评论语音进行特征提取获得相应的语音特征信息，基于m条评论语音分别对应的语音特征信息，构建语音特征信息矩阵v。然后将语音特征信息矩阵v与对应的转置矩阵v
′
相乘，获得语音模态相似语义矩阵sv。语音模态相似语义矩阵sv中的第i行表示评论语音voice_i与目标语音模态数据集合v1中其他各个评论语音之间的相似度。
148.进一步地，将语音模态相似语义矩阵sv的第i行中相似度大于语音相似度阈值v_thresh的评论语音，作为评论语音voice_i的候选评论语音集合。
149.本技术实施例中，基于文本模态数据集合中各个文本模态数据的相似度，确定每个文本模态数据对应的候选文本模态数据集合。基于图像模态数据集合中各图像模态数据的相似度，确定每个图像模态数据对应的候选图像模态数据集合。基于语音模态数据集合中各个语音模态数据的相似度，确定每个语音模态数据对应的候选语音模态数据集合，故后续可以按照需要将各个候选单模态数据集合中的单模态数据进行组合，获得新增综合模态数据，从而达到对多模态数据集进行增强的目的，提高多模态数据增强的效率和准确性。
150.为了更好地解释本技术实施例，下面以具体实施场景为例，介绍本技术实施例提供的一种数据增强方法，如图10所示，设定已有的综合模态评论数据集合d1中包括m个综合模态评论数据，分别为{review_1，review_2，
…
，review_m}，每个综合模态评论数据review_i包括评论文本text_i和评论图像img_i。将综合模态评论数据集合d1划分为文本模态数据集合t1＝{text_1，text_2，.....，text_m}和图像模态数据集合i1＝{img_1，img_2，....，img_m}。
151.构建文本模态相似语义矩阵：
152.针对每条评论文本text_i，其中，1≤i≤m，对评论文本text_i进行分词，获得分词序列text_i＝{wi_1，wi_2，...，wi_n}。然后采用word2vec模型提取分词序列中各个分词的分词特征，获得分词向量序列text_v_i＝{wi_v_1，wi_v_2，...，wi_v_n}。再对分词向量序列中各个分词向量进行加和平均，获得评论文本text_i对应的文本特征信息text_vec_i。
153.依次对目标文本模态数据集合中的m条评论文本进行特征提取获得相应的文本特
征信息，基于m条评论文本分别对应的文本特征信息，构建文本特征信息矩阵t。然后将文本特征信息矩阵t与对应的转置矩阵t
′
相乘，获得文本模态相似语义矩阵st。文本模态相似语义矩阵st中的第i行表示评论文本text_i与目标文本模态数据集合t1中其他各个评论文本之间的语义相似度。
154.构建图像模态相似语义矩阵：
155.针对每条评论图像img_i，其中，1≤i≤m。采用resnet网络对评论图像img_i进行特性提取，获得评论图像img_i对应的图像特征信息img_vec_i。
156.依次对目标图像模态数据集合中的m个评论图像进行特征提取获得相应的图像特征信息，基于m条评论图像分别对应的图像特征信息，构建图像特征信息矩阵i。然后将图像特征信息矩阵i与对应的转置矩阵i
′
相乘，获得图像模态相似语义矩阵si。图像模态相似语义矩阵si中的第i行表示评论图像img_i与目标图像模态数据集合i1中其他各个评论图像之间的语义相似度。
157.共享相似语义综合模态评论数据合成：
158.针对文本模态相似语义矩阵st中的每一行，执行以下操作：
159.将文本模态相似语义矩阵st的第i行中相似度大于文本相似度阈值t_thresh的评论文本，作为评论文本text_i的候选评论文本集合text_i_c。
160.针对图像模态相似语义矩阵si中的每一行，执行以下操作：
161.将图像模态相似语义矩阵si的第i行中相似度大于图像相似度阈值i_thresh的评论图像，作为评论图像img_i的候选评论图像集合img_i_c。
162.针对候选评论文本集合text_i_c和候选评论图像集合img_i_c，随机从候选评论文本集合text_i_c中选取评论文本text_*，以及随机从候选评论图像集合img_i_c中选取评论图像img_*，然后采用评论文本text_*和评论图像img_*组合成一个新综合模态评论数据。采用相同的方式对候选评论文本集合text_i_c和候选评论图像集合img_i_c中的其他评论文本和评论图像进行组合，获得多个的新综合模态评论数据。
163.本技术实施例中，将共享相似语义的思想引入多模态数据增强中，基于已有的少量多模态评论数据集，分别在文本模态和图像模态中构建文本模态相似语义矩阵和图像模态相似语义矩阵，然后将两个相似语义矩阵进行多模态相似语义共享，生成多模态评论数据，从而达到对多模态评论数据集进行增强的目的，提升模型开发效率，降低模型开发成本。
164.基于相同的技术构思，本技术实施例提供了一种数据增强装置的结构示意图，如图11所示，该装置1100包括：
165.分组模块1101，用于将第一综合模态数据集合划分为至少两个不同模态的单模态数据集合，其中，所述第一综合模态数据集合中的每个第一综合模态数据包括至少两个不同模态的单模态数据；
166.处理模块1102，用于针对各个第一综合模态数据，分别执行以下步骤：
167.确定一个第一综合模态数据中的各个目标单模态数据，分别与对应的单模态数据集合中其他各个单模态数据的相似度；
168.基于获得的各个相似度，从所述各个目标单模态数据各自对应的单模态数据集合中，分别确定所述各个目标单模态数据各自对应的候选单模态数据集合；
169.对获得的各个候选单模态数据集合中的候选单模态数据进行共享，生成至少一个第二综合模态数据，所述至少一个第二综合模态数据用于训练神经网络模型。
170.可选地，所述处理模块1102包括匹配模块1103；
171.所述匹配模块1103具体用于：
172.针对所述各个目标单模态数据，分别执行以下步骤：
173.针对一个目标单模态数据，提取所述一个目标单模态数据对应的单模态数据集合中各个单模态数据各自对应的特征信息；
174.基于所述一个目标单模态数据的特征信息和对应的单模态数据集合中其他各个单模态数据各自对应的特征信息，确定所述一个目标单模态数据分别与所述其他各个单模态数据的相似度。
175.可选地，所述处理模块1102包括筛选模块1104；
176.所述筛选模块1104具体用于：
177.针对所述各个目标单模态数据，分别执行以下步骤：
178.针对一个目标单模态数据，将所述一个目标单模态数据对应的单模态数据集合中，与所述一个目标单模态数据的相似度大于预设阈值的至少一个其他单模态数据，作为所述一个目标单模态数据对应的候选单模态数据集合。
179.可选地，所述筛选模块1104具体用于：
180.针对所述至少一个第二综合模态数据中的各个第二综合模态数据，分别执行以下步骤：
181.分别从所述各个候选单模态数据集合选取一个候选单模态数据；
182.将选择的各个候选单模态数据组合，获得一个第二综合模态数据。
183.可选地，所述一个目标单模态数据为目标文本模态数据，所述一个目标单模态数据对应的单模态数据集合为目标文本模态数据集合；
184.所述匹配模块1103具体用于：
185.针对所述目标文本模态数据集合中的各个文本模态数据，分别执行以下步骤：
186.针对一个文本模态数据，对所述一个文本模态数据进行分词，获得所述一个文本模态数据对应的分词序列；
187.分别提取所述分词序列中各个分词的分词特征，并基于所述各个分词的分词特征，确定所述一个文本模态数据的文本特征信息。
188.可选地，所述匹配模块1103具体用于：
189.将所述目标文本模态数据的文本特征信息，分别与所述目标文本模态数据集合中的其他各个文本模态数据各自对应的文本特征信息相乘，获得所述目标文本模态数据分别与所述其他各个文本模态数据的相似度。
190.可选地，所述一个目标单模态数据为目标图像模态数据，所述一个目标单模态数据对应的单模态数据集合为目标图像模态数据集合；
191.所述匹配模块1103具体用于：
192.针对所述目标图像模态数据集合中的各个图像模态数据，分别执行以下步骤：
193.针对一个图像模态数据，对所述一个图像模态数据进行特征提取，获得所述一个图像模态数据的图像特征信息。
194.可选地，所述匹配模块1103具体用于：
195.将所述目标图像模态数据的图像特征信息，分别与所述目标图像模态数据集合中的其他各个图像模态数据各自对应的图像特征信息相乘，获得所述目标图像模态数据分别与所述其他各个图像模态数据的相似度。
196.本技术实施例中，将已有的综合模态数据集合划分为至少两个不同模态的单模态数据集合，然后基于单模态数据集合中各个单模态数据的相似度，确定每个单模态数据对应的候选单模态数据集合，通过将各个候选单模态数据集合中的单模态数据进行共享，获得新综合模态数据，实现了对少量已有的综合模态数据的数据增强，提高了扩充综合模态数据的效率和准确性，进而也提高了模型开发的效率和成本。
197.基于相同的技术构思，本技术实施例提供了一种计算机设备，如图12所示，包括至少一个处理器1201，以及与至少一个处理器连接的存储器1202，本技术实施例中不限定处理器1201与存储器1202之间的具体连接介质，图12中处理器1201和存储器1202之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
198.在本技术实施例中，存储器1202存储有可被至少一个处理器1201执行的指令，至少一个处理器1201通过执行存储器1202存储的指令，可以执行前述数据增强方法中所包括的步骤。
199.其中，处理器1201是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1202内的指令以及调用存储在存储器1202内的数据，从而进行多模态数据增强。可选的，处理器1201可包括一个或多个处理单元，处理器1201可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1201中。在一些实施例中，处理器1201和存储器1202可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
200.处理器1201可以是通用处理器，例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。
201.存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1202可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory，ram)、静态随机访问存储器(static random access memory，sram)、可编程只读存储器(programmable read only memory，prom)、只读存储器(read only memory，rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、磁性存储器、磁盘、光盘等等。存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本技术实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。
202.基于同一发明构思，本技术实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述数据增强方法的步骤。
203.本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
204.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
205.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
206.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
207.尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
208.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

一种数据增强方法、装置、设备及存储介质与流程

相关文献

最热文献