一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据处理方法、装置及电子设备与流程

2021-06-22 17:08:00 来源:中国专利 TAG:数据处理 电子设备 装置 申请 方法
一种数据处理方法、装置及电子设备与流程

本申请涉及数据处理技术领域,更具体的说是涉及一种数据处理方法、装置及电子设备。



背景技术:

随着人工智能的迅速发展,深度学习被广泛应用于人们工作和生活中。深度学习性能随着训练数据的数量级线性增加,但是,用于深度学习的数据通常会存在收集困难的问题,尤其是小样本数据收集难度较大。例如,对音频数据进行深度学习的过程中,若需要对方言音频数据进行学习,由于方言音频数据存在地域特殊性,会存在收集周期长、时间成本较高的问题,会造成由于样本数量较少利用深度学习对方言语音视频的不准确的问题。



技术实现要素:

有鉴于此,本申请提供如下技术方案:

一种数据处理方法,包括:

获取第一音频数据;

将所述第一音频数据进行转换,获得第一音频图像;

基于所述第一音频图像,生成第二音频图像;

对所述第二音频图像对应的音频特征信息进行处理,获得第二音频数据,所述第一音频数据和所述第二音频数据具有相同的语义,且所述第一音频数据和所述第二音频数据的音频属性特征不同。

可选地,所述基于所述第一音频图像,生成第二音频图像,包括:

基于图像转换模型对所述第一音频图像进行处理,获得第二音频图像;

所述图像转换模型用于提取所述第一音频图像中所述待转换的音频特征,并基于所述音频特征生成所述第二音频图像,所述第二音频图像与所述第一音频图像具有不同的图像特征。

可选地,所述方法还包括:

获取第一样本集,所述第一样本集包括若干具有第一音频图像的图像特征的第一图像以及若干具有第二音频图像的图像特征的第二图像;

利用所述第一样本集对初始神经网络模型进行无监督训练,获得图像转换模型。

可选地,所述图像转换模型包括循环生成对抗网络,所述循环生成对抗网络包括第一生成对抗网络和第二生成对抗网络,其中,

所述第一生成对抗网络,用于提取所述第一音频图像中待转换的音频特征,并基于所述音频特征生成第二音频图像;

所述第二生成对抗网络,用于检测针对所述第二音频图像进行还原后的图像是否与所述第一音频图像一致。

可选地,所述方法还包括:

获取第二样本集,所述第二样本集包括若干组图像样本,每一组图像样本包括具有第一音频图像的图像特征的第三图像,以及与所述第三图像对应的具有第二音频图像的图像特征的第四图像;

基于所述第二样本集对初始神经网络模型进行有监督训练,获得图像转换模型。

可选地,所述方法还包括:

基于所述第一音频数据以及所述第二音频数据,生成音频数据训练样本;

基于所述音频数据训练样本进行模型训练,获得音频识别模型,所述音频识别模型用于识别具有不同音频属性特征的音频数据。

可选地,所述方法还包括:

获取待识别的音频数据;

将所述待识别的音频数据输入至所述音频识别模型,得到音频识别结果,所述音频识别结果包括音频识别内容以及音频属性特征。

可选地,所述方法还包括:

若所述音频识别内容不唯一,基于所述音频识别特征,在所述音频识别内容中确定目标音频识别内容。

一种数据处理装置,包括:

获取单元,用于获取第一音频数据;

转换单元,用于将所述第一音频数据进行转换,获得第一音频图像;

生成单元,用于基于所述第一音频图像,生成第二音频图像;

处理单元,用于对所述第二音频图像对应的音频特征信息进行处理,获得第二音频数据,所述第一音频数据和所述第二音频数据具有相同的语义,且所述第一音频数据和所述第二音频数据的音频属性特征不同。

一种电子设备,所述电子设备包括:

存储器,用于存储应用程序和所述应用程序运行所产生的数据;

处理器,用于执行所述应用程序,以实现:

获取第一音频数据;

将所述第一音频数据进行转换,获得第一音频图像;

基于所述第一音频图像,生成第二音频图像;

对所述第二音频图像对应的音频特征信息进行处理,获得第二音频数据,所述第一音频数据和所述第二音频数据具有相同的语义,且所述第一音频数据和所述第二音频数据的音频属性特征不同。

经由上述的技术方案可知,本申请公开了一种数据处理方法、装置及电子设备,包括获取第一音频数据,将第一音频数据进行转换,获得第一音频图像;基于第一音频图像,生成第二音频图像;对第二音频图像对应的音频特征信息进行处理,获得第二音频数据。通过音频图像的转换方式,实现了通过已有音频数据生成与之具有相同的语义,且不同音频属性特征的音频数据的目的,降低了数据收集的时间成本及难度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的流程示意图;

图2为本申请实施例提供的一种循环式生成对抗网络的结构示意图;

图3为本申请实施例提供的循环生成对抗网络单向生成式对抗网络结构的示意图;

图4为本申请实施例提供的一种语料扩增应用场景的示意图;

图5为本申请实施例提供的一种数据处理装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供了一种数据处理方法,该数据处理方法主要是针对音频数据进行处理,可以是针对已有的音频数据进行处理,也可以是针对实时采集到的音频数据进行处理。对应的,该数据处理方法运行于电子设备上,该电子设备可以是终端或者服务器,使得其能够对待处理的音频数据转换为与之对应的目标音频数据。

参见图1,其示出了本申请实施例提供的一种数据处理方法的流程示意图,该方法可以包括以下步骤:

s101、获取第一音频数据。

该第一音频数据为待处理的音频数据,可以是已存储在本地或云端的一段音频,也可以是用户通过具有录音功能的终端录制的音频,又或者是通过网络传输实时获取到的音频。第一音频数据可以是一段音频,也可以是需要进行处理的音频集合,即包括多个音频片段,每一个音频片段均可以为第一音频数据,也可以将该音频集合作为第一音频数据。

s102、将第一音频数据进行转换,获得第一音频图像。

第一音频图像可以是第一音频数据对应的声波图,也可以是其对应的频谱图,以频谱图为例,可以将时域的第一音频数据转换为频域的频谱图。即待处理的第一音频数据属于时域音频信号,然后可以对该时域音频信号对应的音频帧进行傅里叶变化,得到频域音频信号,再调用对应的滤波器可以得到频谱图,如嗲用梅尔滤波器对音频信号进行滤波处理得到梅尔频谱图。本申请对音频数据转换为音频图像的具体处理方式不做限制,只要转换成的音频图像能够表征对应的音频数据即可。

s103、基于第一音频图像,生成第二音频图像。

第一音频图像和第二音频图像的图像特征不同,该图像特征主要是标识音频图像的图像风格不同,即第一音频图像和第二音频图像表示的音频的属性不同,如第一音频图像对应的音频数据可以是具有普通话属性的音频,第二音频图像对应的音频数据可以是具有粤语属性的音频。

在本申请的一种实施方式中,可以提取第一音频图像中的图像特征,然后将提取到的图像特征进行对应属性的转换,然后得到转换后的图像特征,再依据转换后的图像特征进行处理,得到第二音频图像。在另一种方式中,也可以基于预先训练的神经网络模型实现对第一音频图像转换为第二音频图像的处理。具体的实施过程在本申请后续的实施例中会进行说明,在此处不进行详述。

s104、对第二音频图像对应的音频特征进行处理,获得第二音频数据。

第二音频图像可以是声波图也可以是频谱图,可以获取第二音频图像中能够处理得到音频数据的音频特征,然后对音频特征进行处理得到音频数据。可以采用数字音频编辑器将频谱图转换为音频数据。其中,音频特征对应于不同的音频图像可以是不同的信息,如波形图中的能量点,频谱图中的强度信息和相位信息等。

在本申请实施例中第一音频数据和第二音频数据具有相同的语义,且第一音频数据和第二音频数据的音频属性特征不同。相同的语义是指第一音频数据和第二音频数据表达的内容是一致的,音频属性特征是指音频的表现风格不同,如音调、音色或者语言类型不同。例如,第一音频数据和第二音频数据对应的内容均是“你好”,第一音频数据对应的是普通话,其发音对应“nǐhǎo”第二音频数据对应的是粤语,其发音可能是“leihou”。

通过上述步骤可以生成与已有的第一音频数据对应的第二音频数据,这样可以在原有的数据基础上,实现不同音频属性特征的数据的转换,便于数据的扩充和处理。

在本申请实施例中提供的数据处理方法,获取第一音频数据,将第一音频数据进行转换,获得第一音频图像;基于第一音频图像,生成第二音频图像;对第二音频图像对应的音频特征信息进行处理,获得第二音频数据。通过音频图像的转换方式,实现了通过已有音频数据生成与之具有相同的语义,且不同音频属性特征的音频数据的目的,降低了数据收集的时间成本及难度。

在本申请实施例的一种实施方式中可以基于图像转换模型实现将第一音频图像转换为第二音频图像。该图像转换模型用于提取第一音频图像中待转换的音频特征,并基于待转换的音频特征生成第二音频图像,其中第二音频图像与第一音频图像具有不同的图像特征。

该图像转换模型为神经网络模型,在本申请实施例中创建该图像转换模型可以是对神经网络模型进行有监督的训练,也可以进行无监督的训练。

在一种实施方式中,生成图像转换模型包括:

获取第一样本集,所述第一样本集包括若干具有第一音频图像的图像特征的第一图像以及若干具有第二音频图像的图像特征的第二图像;

利用所述第一样本集对初始神经网络模型进行无监督训练,获得图像转换模型。

即该实施方式对应于对初始神经网络模型进行无监督训练,此时利用的训练样本只要包括若干个具有第一音频图像的图像特征的第一图像以及若干个具有第二音频图像的图像特征的第二图像,即第一图像和第二图像可以不是一一对应的关系。若第一音频图像的图像特征表示普通话频谱图对应的图像特征,第二音频图像的图像特征表示上海话频谱图对应的图像特征,则第一图像为多个普通话的频谱图,第二图像为多个上海话的频谱图。

具体的,进行无监督训练也可以无监督学习,可以有种训练方式和模型进行选择,在本申请实施例中以生成式对抗网络为例,图像转换模型可以生成式对抗网络(generativeadersarialnetwork,gan)模型,即所述图像转换模型包括循环生成对抗网络,所述循环生成对抗网络包括第一生成对抗网络和第二生成对抗网络,其中,所述第一生成对抗网络,用于提取所述第一音频图像中待转换的音频特征,并基于所述音频特征生成第二音频图像;所述第二生成对抗网络,用于检测针对所述第二音频图像进行还原后的图像是否与所述第一音频图像一致。其中,待转换的音频特征是指能够表征音频属性的音频特征,如音调特征、音色特征在图像中对应的特征。

具体的,生成式对抗网络模型由两部分组成:判别器和生成器,其中判别器用来学习辨别真假样本。生成器用来捕获真实样本的潜在分布,并生成和真实样本难以区分的伪样本。循环式生成对抗网络(cyclegan)利用循环一致性损失将输入与转化图像的关键信息保存,实现了数据不配对情况下的图像风格迁移。

以循环式生成对抗网络为例,参见图2,其示出了本申请实施例提供的一种循环式生成对抗网络的结构示意图。在图2中(a)x,y对应两个不同的图像风格,即x和y具有不同的图像特征,期望将x中的图像转换为y中的图像。g,f分别对应正向和逆向生成式对抗网络(gan)中的两个生成器,即g将x中的图像x转换为y中的图片g(x),然后用判别器dy判别是否属于y中的图像,以此构成生成对抗网络,即gan的基本结构。图2中的(b)相较于(a)增加了部分结构,即要求g(x)再经过逆向gan中的生成器f生成f(g(x)),使之与原输入x尽可能接近,即循环一致性损失(cycle-consistencyloss)尽量小,由此即可解决gan无法针对性地输出对应图片的问题。(b)过程x->g(x)->f(g(x))≈x,将之称为正向循环一致性。为了提高训练效果,类似地,又训练从y领域到x领域的转换,如图(c)过程y->f(y)->g(f(y))≈y,称之为反向循环一致性。

参见图3,其示出了循环生成对抗网络单向生成式对抗网络结构的示意图,首先将域a真实图片通过生成器g转换为域b的虚假图片,然后通过生成器g进行图片重构,使原始图片信息得以保存。同时,虚假图片与域b中真实图片要通过判别器dy判别真伪,最后得到完整的单向gan。在图3中,希望能够把domaina的图片转换为domainb的图片。因此,需要两个生成器gab和gba分别把domaina和domainb的图片进行转换。domaina的图片经过生成器gab表示为domainb中的伪图片,用gab(a)表示,而gab(a)经过生成器gba表示为domaina的重建图片,用gba(gab(a))表示。最后为了训练这个单向gan需要两个损失函数(loss),分别是生成器的重建loss和判别器的判别loss。判别器db是用来判断输入的图片是否是真实的domainb图片,生成器用来重建图片a,目的是希望生成的图片gba(gab(a))和原图尽可能的相似。

上述为通过循环生成式对抗网络对第一样本集进行训练得到图像转换模型的过程进行了说明,使得生成的图像转换模型可以实现对第一音频图像转换为第二音频图像的处理。

在另一种可能的实施方式中,也可以是基于有监督的训练方式生成图像转换模型。在该实施方式中需要训练样本中的图像是具有对应关系的,即转换前的图像和转换后的图像是一一匹配存储的。具体的,有监督的训练方式生成图像转换模型可以包括以下步骤:

获取第二样本集,所述第二样本集包括若干组图像样本,每一组图像样本包括具有第一音频图像的图像特征的第三图像,以及与所述第三图像对应的具有第二音频图像的图像特征的第四图像;

基于所述第二样本集对初始神经网络模型进行有监督训练,获得图像转换模型。

在训练过程中,需要学习具有第一音频图像的图像特征的第三图像的相关图像特征,以及与之对应的第四图像的图像特征。通过对这些特征的学习,构建预测模型,使得通过这个预测模型能够预测出输入对应的输出,即通过第三图像作为输出得到对应的输出图像与第四图像进行比较,反复调整该预测模型的参数,使得其输出的预测图像与第四图像相似。

需要说明的是,在本申请实施例中并不对初始神经网络模型进行限定,只要能够满足对应的训练过程即可。

通过本申请实施例的数据处理方法可以实现对已有数据进行不同属性的转换,例如对不同发音形式的音频进行转换,实现了对音频数据的扩增,同样也可以是对其他类型数据的扩增。通过该方法可以解决数据收集难度大、收集周期长、时间成本高的问题。如方言、特定语言的音频数据的采集。

在本申请实施例中可以基于第一音频数据获取与之具有相同语义,但是音频属性特征不同的第二音频数据,进一步这些音频数据可以用作对应的音频应用模型的训练样本,以解决神经网络模型训练过程中样本数据少,或者样本收集难度大的问题。下面以音频应用模型为音频识别模型为例对本申请的数据处理方法的应用场景进行说明。

基于第一音频数据以及第二音频数据,生成音频数据训练样本;基于音频训练样本进行模型训练,获得音频识别模型。其中,音频识别模型用于识别具有不同音频属性特征的音频数据。

在该实施例中利用通过音频图像转换得到的图像生成的第二音频数据来补充训练样本,然后对该训练样本进行深度学习,在学习过程中不断调整模型参数,获得音频识别模型。该音频识别模型可以是文本识别模型,即将识别到的音频数据转换对应的文本,也可以是翻译模型,即将识别到的音频翻译为对应的音频或文本进行输出。

可以将待识别的音频数据输入至音频识别模型,得到音频识别结果,所述音频识别结果包括音频识别内容以及音频属性特征。其中,音频属性特征可以表示当前音频对应的属性,如属于那类语种,该语种主要是指由于不同的地理区域产生的不同音调,例如,对某一音频基于音频识别模型进行识别,可以得到其具体的内容,并且输出的识别结果是基于音频属性特征输出的,如,上海话“侬好”,普通话“你好”。在实际应用中会基于对应的音频属性特征进行对应内容输出,如待识别的音频内容是“侬好”,输出的识别结果是“您好”。

对应的,若音频识别内容不唯一,基于所述音频属性特征在所述音频识别内容中确定目标音频识别内容。例如,音频识别内容是类似“nonghao”的发音,对应的音频识别内容可以是“侬好”,也可以是“弄好”,若音频属性特征为普通话,则输出的音频识别内容为“弄好”,若音频属性特征为上海话,则输出的识别内容可以是“侬好”,或者是翻译为“你好”。

下面以基于小样本音频库中的中文普通话音频进行粤语音频预料的扩充,并进行相关音频识别应用为例。即对应的第一音频数据为普通话音频,第二音频数据为粤语音频。参见图4,其示出了本申请实施例提供的一种语料扩增应用场景的示意图。

首先基于中文普通话音频语料对应的频谱图和粤语音频语料对应的频谱图构建频谱图数据集,根据普通话频谱图数据集(mandarintrainingdatasetx)和粤语频谱图数据集(cantonesetrainingdatasety),训练图像风格迁移模型,即获得音频频谱图转换模型。利用训练好的模型生成给定普通话频谱图对应的粤语频谱图,然后利用语言翻译工具生成给定普通话对应的粤语。即通过上述处理过程完成了粤语的数据扩充任务,例如,对应的给定的普通话为“就是打个比方来说,是不是?”通过上述处理方式后,得到的粤语为“就系打个比方嚟讲,係咪?”可以将扩充的数据用于相关算法(如transformer等并行算法)进行端到端的语音识别训练,能够有效扩充预料,并节省人力成本和时间成本。

基于本申请实施例中提供的数据处理方法,对于语音识别的训练语料问题,将语音的数据扩充转化为图像数据的扩充,即采用图像风格迁移处理方式用于音频的频谱图的处理,达到语料扩充目的。可以应用于数据收集难度大、收集周期较长,时间成本较高的小样本数据如方言,特定人语言等,节省了大量人力、物力和时间成本。

参见图5,其示出了本申请实施例提供的一种数据处理装置的结构示意图,本实施例的技术方案主要应用于降低了数据收集的时间成本及难度,该种数据处理装置包括:

获取单元10,用于获取第一音频数据;

转换单元20,用于将所述第一音频数据进行转换,获得第一音频图像;

生成单元30,用于基于所述第一音频图像,生成第二音频图像;

处理单元40,用于对所述第二音频图像对应的音频特征信息进行处理,获得第二音频数据,所述第一音频数据和所述第二音频数据具有相同的语义,且所述第一音频数据和所述第二音频数据的音频属性特征不同。

可选地,所述生成单元包括:

第一处理子单元,用于基于图像转换模型对所述第一音频图像进行处理,获得第二音频图像;

所述图像转换模型用于提取所述第一音频图像中所述待转换的音频特征,并基于所述音频特征生成所述第二音频图像,所述第二音频图像与所述第一音频图像具有不同的图像特征。

可选地,所述装置还包括:第一训练子单元,所述第一训练子单元用于:

获取第一样本集,所述第一样本集包括若干具有第一音频图像的图像特征的第一图像以及若干具有第二音频图像的图像特征的第二图像;

利用所述第一样本集对初始神经网络模型进行无监督训练,获得图像转换模型。

进一步地,所述图像转换模型包括循环生成对抗网络,所述循环生成对抗网络包括第一生成对抗网络和第二生成对抗网络,其中,

所述第一生成对抗网络,用于提取所述第一音频图像中待转换的音频特征,并基于所述音频特征生成第二音频图像;

所述第二生成对抗网络,用于检测针对所述第二音频图像进行还原后的图像是否与所述第一音频图像一致。

可选地,所述装置还包括:第二训练子单元,所述第二训练子单元用于:

获取第二样本集,所述第二样本集包括若干组图像样本,每一组图像样本包括具有第一音频图像的图像特征的第三图像,以及与所述第三图像对应的具有第二音频图像的图像特征的第四图像;

基于所述第二样本集对初始神经网络模型进行有监督训练,获得图像转换模型。

可选地,所述装置还包括:

样本生成单元,用于基于所述第一音频数据以及所述第二音频数据,生成音频数据训练样本;

模型训练单元,用于基于所述音频数据训练样本进行模型训练,获得音频识别模型,所述音频识别模型用于识别具有不同音频属性特征的音频数据。

进一步地,所述装置还包括:

音频获取单元,用于获取待识别的音频数据;

识别单元,用于将所述待识别的音频数据输入至所述音频识别模型,得到音频识别结果,所述音频识别结果包括音频识别内容以及音频属性特征。

可选地,所述装置还包括:

确定单元,用于若所述音频识别内容不唯一,基于所述音频识别特征,在所述音频识别内容中确定目标音频识别内容。

需要说明的是,本实施例中各单元的具体实现可以参考前文中的相应内容,此处不再详述。

参见图6,为本申请实施例提供的一种电子设备的结构示意图,本实施例的技术方案主要用于降低了数据收集的时间成本及难度。具体的,本实施例中的电子设备可以包括以下结构:

存储器601,用于存储应用程序和所述应用程序运行所产生的数据;

处理器602,用于执行所述应用程序,以实现:

获取第一音频数据;

将所述第一音频数据进行转换,获得第一音频图像;

基于所述第一音频图像,生成第二音频图像;

对所述第二音频图像对应的音频特征信息进行处理,获得第二音频数据,所述第一音频数据和所述第二音频数据具有相同的语义,且所述第一音频数据和所述第二音频数据的音频属性特征不同。

从上述技术方案可以看出,本申请实施例提供的一种电子设备中,获取第一音频数据,将第一音频数据进行转换,获得第一音频图像;基于第一音频图像,生成第二音频图像;对第二音频图像对应的音频特征信息进行处理,获得第二音频数据。通过音频图像的转换方式,实现了通过已有音频数据生成与之具有相同的语义,且不同音频属性特征的音频数据的目的,降低了数据收集的时间成本及难度。

需要说明的是,本实施例中处理器的具体实现可以参考前文中的相应内容,此处不再详述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜