一种语音样本混淆方法及装置

2022-12-20 21:32:11 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，尤其涉及一种语音样本混淆方法及装置。

背景技术：

2.在语音识别、语音唤醒、声纹识别等语音相关训练任务中，模型需要处理海量语音样本以供训练，而海量语音样本一般分散存储于多个语音数据源中，对语音样本进行充分混淆，有利于使模型稳定收敛。
3.现有技术中语音样本混淆的方法为：首先，加载一个语音数据源的部分语音样本，然后，将该部分语音样本划分成多个批量语音样本，最后，将多个批量语音样本进行混淆以供训练。
4.然而，经过研究发现，采用该现有技术所进行的语音样本混淆，一次只能加载一个语音数据源的部分语音样本，组成多个批量语音样本混淆，仅能实现语音样本的局部混淆，混淆不充分影响模型训练过程的稳定性。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种语音样本混淆方法及装置，旨在实现语音样本的充分混淆，提高模型训练过程的稳定性。
6.第一方面，本技术实施例提供了一种语音样本混淆方法，所述方法包括：
7.获取多个语音样本对应的多个样本索引，所述多个语音样本属于多个语音数据源；
8.按照预设块大小对所述多个样本索引进行分块，获得多个块索引，每个块索引包括至少两个样本索引；
9.对所述多个块索引进行混淆，获得混淆后的多个块索引；
10.从所述混淆后的多个块索引中选取预设数量的块索引，获得多个待处理块索引；
11.将所述多个待处理块索引包括的样本索引划分成多个批量索引，每个批量索引包括至少两个样本索引，所述多个批量索引的数量大于所述多个待处理块索引的数量；
12.对所述多个批量索引进行混淆，获得混淆后的多个批量索引；
13.根据所述混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。
14.可选地，所述获取多个语音样本对应的多个样本索引，包括：
15.获取所述多个语音数据源对应的多个描述文件；
16.根据所述多个描述文件，获取所述多个语音样本对应的多个样本索引，描述文件包括所述多个语音样本对应的多个样本索引。
17.可选地，每个描述文件还包括：
18.每个语音数据源包括的语音样本的数量以及所述多个样本索引对应的多个语音样本的样本帧长。
19.可选地，所述按照预设块大小对所述多个样本索引进行分块，获得多个块索引，包
括：
20.在按照预设块大小对所述多个样本索引进行分块的过程中，若所述语音数据源中分块剩余的样本索引的数量不足所述预设块大小时，将分块剩余的样本索引单独成块获得所述块索引，或利用重复所述分块剩余的样本索引补足至所述预设块大小获得所述块索引，或将所述分块剩余的样本索引丢弃。
21.可选地，所述方法还包括：
22.对所述预设数量进行更新，获得更新后的预设数量；
23.所述从所述混淆后的多个块索引中选取预设数量的块索引，获得多个待处理块索引，具体为：
24.从所述混淆后的多个块索引中选取更新后的预设数量的块索引，获得所述多个待处理块索引。
25.可选地，所述方法还包括：
26.将所述多个待处理语音样本输入至语音模型进行训练。
27.可选地，所述将所述多个待处理块索引包括的样本索引划分成多个批量索引，包括：
28.获取所述多个待处理块索引包括的样本索引对应的语音样本的样本帧长；
29.根据所述样本帧长对所述多个待处理块索引包括的样本索引进行排序，获得排序后的样本索引；
30.根据预设拼接方式将所述排序后的样本索引拼接成所述多个批量索引。
31.可选地，所述根据所述样本帧长对所述多个待处理块索引包括的样本索引进行排序，获得排序后的样本索引，具体为：
32.根据所述样本帧长对所述多个待处理块索引包括的样本索引进行降序排序或升序排序，获得所述排序后的样本索引。
33.第二方面，本技术实施例提供了一种语音样本混淆装置，所述装置包括：
34.第一获取模块，用于获取多个语音样本对应的多个样本索引，所述多个语音样本属于多个语音数据源；
35.分块模块，用于按照预设块大小对所述多个样本索引进行分块，获得多个块索引，每个块索引包括至少两个样本索引；
36.第一混淆模块，用于对所述多个块索引进行混淆，获得混淆后的多个块索引；
37.选取模块，用于从所述混淆后的多个块索引中选取预设数量的块索引，获得多个待处理块索引；
38.划分模块，用于将所述多个待处理块索引包括的样本索引划分成多个批量索引，每个批量索引包括至少两个样本索引，所述多个批量索引的数量大于所述多个待处理块索引的数量；
39.第二混淆模块，用于对所述多个批量索引进行混淆，获得混淆后的多个批量索引；
40.第二获取模块，用于根据所述混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。
41.第三方面，本技术实施例提供了一种语音数据混淆设备，所述设备包括：
42.存储器，用于存储计算机程序；
43.处理器，用于执行所述计算机程序，以使所述设备执行前述第一方面所述的语音样本混淆方法。
44.第四方面，本技术实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当所述计算机程序被运行时，运行所述计算机程序的设备实现前述第一方面所述的语音样本混淆方法。
45.相较于现有技术，本技术实施例具有以下有益效果：
46.本技术实施例提供了一种语音样本混淆方法，获取属于多个语音数据源的多个语音样本对应的多个样本索引；按照预设块大小对多个样本索引分块得到多个块索引；混淆多个块索引得到混淆后的多个块索引，实现多个语音数据源粒度的语音样本混淆；从混淆后的多个块索引中选取预设数量的块索引作为多个待处理块索引；将多个待处理块索引包括的样本索引划分成多个批量索引；混淆多个批量索引得到混淆后的多个批量索引，实现多个批量语音样本粒度的语音样本混淆；通过混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。可见，该方法既能实现多个语音数据源粒度的语音样本混淆，又能实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆，后续将多个待处理语音样本输入至语音模型进行训练，能够提高模型训练过程的稳定性。
附图说明
47.为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
48.图1为本技术实施例提供的一种语音样本混淆方法的应用场景；
49.图2为本技术实施例提供的一种语音样本混淆方法的流程图；
50.图3为本技术实施例提供的一种块索引划分成多个批量索引的方法流程图；
51.图4为本技术实施例提供的一种具体的语音样本混淆的示意图；
52.图5为本技术实施例提供的一种语音样本混淆的装置的示意图。
具体实施方式
53.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
54.目前，已有的语音样本混淆方法为：首先，加载一个语音数据源的部分语音样本，然后，将该部分语音样本划分成多个批量语音样本，最后，将多个批量语音样本进行混淆以供训练。然而，经过研究发现，采用该现有技术所进行的语音样本混淆，一次只能加载一个语音数据源的部分语音样本，组成多个批量语音样本混淆，仅能实现语音样本的局部混淆，混淆不充分影响模型训练过程的稳定性。
55.基于此，为了解决上述问题，提高模型训练过程的稳定性，本技术实施例提供了一种语音样本混淆方法及装置，获取属于多个语音数据源的多个语音样本对应的多个样本索
引；按照预设块大小对多个样本索引分块得到多个块索引；混淆多个块索引得到混淆后的多个块索引，实现多个语音数据源粒度的语音样本混淆；从混淆后的多个块索引中选取预设数量的块索引作为多个待处理块索引；将多个待处理块索引包括的样本索引划分成多个批量索引；混淆多个批量索引得到混淆后的多个批量索引，实现多个批量语音样本粒度的语音样本混淆；通过混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。可见，该方法既能实现多个语音数据源粒度的语音样本混淆，又能实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆，后续将多个待处理语音样本输入至语音模型进行训练，能够提高模型训练过程的稳定性。
56.举例来说，本技术实施例的场景之一，可以是应用到如图1所示的场景中。该场景包括数据库101和服务器102，其中，数据库101包括多个语音数据源，服务器102采用本技术实施例提供的实施方式，从数据库101获取多个待处理语音样本。
57.首先，在上述应用场景中，虽然将本技术实施例提供的实施方式的动作描述由服务器102执行；但是，本技术实施例在执行主体方面不受限制，只要执行了本技术实施例提供的实施方式所公开的动作即可。
58.其次，上述场景仅是本技术实施例提供的一个场景示例，本技术实施例并不限于此场景。
59.下面结合附图，通过实施例来详细说明本技术实施例中语音样本混淆方法及装置的具体实现方式。
60.参见图2，该图为本技术实施例提供的一种语音样本混淆方法的流程图，结合图2所示，具体可以包括：
61.s201：获取多个语音样本对应的多个样本索引，多个语音样本属于多个语音数据源。
62.一般情况下，有多个语音数据源，每个语音数据源包括多个语音样本，可以预先对属于多个语音数据源的多个语音样本设置对应的多个样本索引，其中，样本索引是用于快速找到对应的语音样本，基于获取的样本索引进行后续步骤，不需要读取具体的语音样本信息，减少了占用的内存。
63.其中，本技术实施例可不具体限定多个样本索引的获取过程，为了便于理解，下面结合一种可能的实施方式进行说明。
64.在一种可能的实施方式中，在预先对属于多个语音数据源的多个语音样本设置对应的多个样本索引的基础上，还可以对多个语音数据源预先设置对应的多个描述文件，可以先获取语音数据源对应的描述文件，再根据描述文件获取多个语音样本的样本索引。因此，s201具体可以包括：获取多个语音数据源对应的多个描述文件；根据多个描述文件，获取多个语音样本对应的多个样本索引，描述文件包括多个语音样本对应的多个样本索引。其中，每个描述文件还包括每个语音数据源包括的语音样本的数量以及多个样本索引对应的多个语音样本的样本帧长，样本帧长可以用于对语音样本进行排序。
65.举例来说，将多个语音数据源记为filei，i∈{1，
…
，nf}，nf表示语音数据源的个数；一个语音数据源中包含多个语音样本，将与多个语音样本对应的多个样本索引记为s
ij
，i∈{1，
…
，nf}，j∈{1，
…
，ni}，i表示第i个语音数据源filei，j表示一个语音数据源的第j个语音样本，则s
ij
表示第i个语音数据源filei的第j个语音样本，ni表示第i个语音数据源
filei包括的语音样本的数量。将第i个语音数据源filei对应的描述文件记为desci，描述文件desci包括第i个语音数据源包括的语音样本的数量ni、第i个语音数据源的语音样本对应的样本索引s
ij
、以及第i个语音数据源的语音样本的样本帧长等，将样本帧长记为f
ij
。所以，根据描述文件可以获得多个语音样本对应的多个样本索引。
66.其中，描述文件desci的描述格式可以包括json格式，具体为：
[0067][0068]“source”项表示第i个语音数据源filei的具体存储路径，“lengths”项存储一个整型数字列表，用于表示第i个语音数据源filei的语音样本的样本帧长(第j个数字表示第i个语音数据源filei的第j个语音样本s
ij
的样本帧长f
ij
)，“size”项表示第i个语音数据源filei包括的语音样本的数量。当然，也可以采用其他方式，并不影响本技术实施例的实现。
[0069]
s202：按照预设块大小对多个样本索引进行分块，获得多个块索引，每个块索引包括至少两个样本索引。
[0070]
按照预设每一块包括的具体样本索引的数量，对获得的多个样本索引进行分块，获得分好的多个块索引，每个块索引至少包括两个样本索引。其中，预设块大小是指预先设置好每个块索引包括的样本索引的数量。
[0071]
其中，本技术实施例可不具体限定按照预设块大小对多个样本索引进行分块的过程，为了便于理解，下面结合一种可能的实施方式进行说明。
[0072]
一般情况下，语音数据源的语音样本的数量不定，按照预设块大小对语音样本对应的样本索引进行分块时，可能会出现分块剩余的样本索引的数量不足以分成一个索引块，此时可以将分块剩余的样本索引按如下方式进行处理：可以将分块剩余的样本索引单独分成一块获得块索引，也可以利用重复分块剩余的样本索引补足至预设块大小获得块索引，还可以将分块剩余的样本索引丢弃。
[0073]
因此，在一种可能的实施方式中，s202具体可以包括：在按照预设块大小对多个样本索引进行分块的过程中，若语音数据源中分块剩余的样本索引的数量不足预设块大小时，将分块剩余的样本索引单独成块获得块索引，或利用重复分块剩余的样本索引补足至
预设块大小获得块索引，或将分块剩余的样本索引丢弃。当然，也可以采用其他方式，并不影响本技术实施例的实现。
[0074]
s203：对多个块索引进行混淆，获得混淆后的多个块索引。
[0075]
对分好的多个块索引进行混淆，打乱其原有顺序，使同一个语音数据源包括的块索引分散开，实现多个语音数据源粒度的语音样本混淆，使后续在选取部分块索引时可以包括属于不同语音数据源的语音样本的样本索引，以便后续的语音样本的混淆更加充分。
[0076]
s204：从混淆后的多个块索引中选取预设数量的块索引，获得多个待处理块索引。
[0077]
获得的多个待处理块索引中包括属于不同语音数据源的语音样本的样本索引。
[0078]
另外，可能需要多次从混淆后的多个块索引中选取块索引，以多次进行语音样本混淆，而每次选取块索引的预定数量可能会根据语音模型训练实际需求的语音样本数量而改变，所以，在每次选取块索引前，可以对选取的预设数量进行更新。因此，在本技术可选实施例中，方法还可以包括s1：对预设数量进行更新，获得更新后的预设数量；相应地，s204具体可以为：从混淆后的多个块索引中选取更新后的预设数量的块索引，获得多个待处理块索引。其中，可对每次选取的块索引数量进行更新，实现后续对批量索引混淆的动态控制。每次根据更新后的预设数量从混淆后的多个块索引中选取块索引，可以实现语音样本混淆数量范围的动态控制，满足语音模型训练实际需求。
[0079]
s205：将多个待处理块索引包括的样本索引划分成多个批量索引，每个批量索引包括至少两个样本索引，多个批量索引的数量大于多个待处理块索引的数量。
[0080]
对多个待处理块索引包括的样本索引进一步划分成多个批量索引，所以划分好的多个批量索引数量大于多个待处理块索引的数量。其中，批量索引包括一批样本索引，一批样本索引至少为两个样本索引。
[0081]
对于块索引划分成多个批量索引的具体实现方式，本技术实施例可不做具体限定，为了便于理解，下面结合一种可能的实施方式进行说明。技术详情请参见下文所做的介绍。
[0082]
s206：对多个批量索引进行混淆，获得混淆后的多个批量索引。
[0083]
对划分好的多个批量索引进行混淆，在对块索引进行混淆后的基础上，既实现多个语音数据源粒度的语音样本混淆，又实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆。
[0084]
s207：根据混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。
[0085]
根据混淆后的多个批量索引包括的样本索引即可获取多个语音样本，作为多个待处理语音样本用于模型训练。在语音样本混淆过程中，使用的均是样本索引、块索引以及批量索引，不涉及具体语音样本信息的读取，因此，占用的内存空间较小，可以较容易的满足海量数据的混淆需求。
[0086]
另外，在本技术可选实施例中，方法还可以包括s2：将多个待处理语音样本输入至语音模型进行训练。其中，将经过充分、全局混淆的多个待处理语音样本输入至语音模型进行训练，提高了模型训练过程的稳定性。
[0087]
基于上述s201-s207的相关内容可知，本技术实施例中，获取属于多个语音数据源的多个语音样本对应的多个样本索引；按照预设块大小对多个样本索引分块得到多个块索引；混淆多个块索引得到混淆后的多个块索引，实现多个语音数据源粒度的语音样本混淆；
从混淆后的多个块索引中选取预设数量的块索引作为多个待处理块索引；将多个待处理块索引包括的样本索引划分成多个批量索引；混淆多个批量索引得到混淆后的多个批量索引，实现多个批量语音样本粒度的语音样本混淆；通过混淆后的多个批量索引包括的样本索引，获取多个待处理语音样本。可见，该方法既能实现多个语音数据源粒度的语音样本混淆，又能实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆，后续将多个待处理语音样本输入至语音模型进行训练，能够提高模型训练过程的稳定性。
[0088]
参见图3，该图为本技术实施例提供的一种块索引划分成多个批量索引的方法流程图，结合图3所示，具体可以包括：
[0089]
s301：获取多个待处理块索引包括的样本索引对应的语音样本的样本帧长。
[0090]
根据语音样本所属语音数据源对应的描述文件中的样本索引，获取对应的样本帧长，以对样本索引进行排序。
[0091]
s302：根据样本帧长对多个待处理块索引包括的样本索引进行排序，获得排序后的样本索引。
[0092]
根据样本帧长的大小，按照预先设定的排序方式对多个待处理块索引包括的样本索引进行排序。其中，排序方式可以有很多种。举例来说，可以包括根据样本帧长对多个待处理块索引包括的样本索引进行降序排序或升序排序，获得排序后的样本索引。
[0093]
s303：根据预设拼接方式将排序后的样本索引拼接成多个批量索引。
[0094]
其中，预设拼接方式是指预先设定好的对排序后的样本索引进行拼接的方式。举例来说，可以提前设置为每个批量索引所包含的多个样本索引对应的样本帧长总和为固定值，或者每个批量索引所包含的多个样本索引的数量相同，当然也可以采用其他拼接方式，并不影响本技术实施例的实现。
[0095]
模型通常只能处理等长的批量语音样本，同一批语音样本的样本帧长差别较大时，需要进行补零操作。而此时，无论采用何种拼接方式，划分而成的批量索引所包括的多个样本索引的样本帧长是降序或升序排列的，其样本帧长差别较小，将根据混淆后的多个批量索引包括的样本索引，获取的多个待处理语音样本输入至语音模型进行训练前，减少了补零操作。
[0096]
基于上述s301-s303的相关内容可知，本技术实施例中，如此划分成的批量索引所包括的多个样本索引的样本帧长差别较小，将根据混淆后的多个批量索引包括的样本索引，获取的多个待处理语音样本输入至语音模型前，减少了补零操作，进一步提高训练效率，使模型稳定收敛。
[0097]
为便于理解，下面对本技术实施例提供的语音样本混淆方法进行详细描述，参见图4，该图为本技术实施例提供的一种具体的语音样本混淆的示意图，在该实施例中，一共有3个语音数据源，file1包含20000个语音样本，20000个语音样本对应20000个样本索引，file2包含37695条样本索引，37695个语音样本对应37695个样本索引，file3包含19228条样本索引，19228个语音样本对应19228个样本索引。该具体的语音样本混淆的步骤可以包括：
[0098]
s401：根据3个语音数据源对应的3个描述文件，获取76923个语音样本对应的76923个样本索引。其中，file1对应的描述文件desc1包括20000个语音样本对应的20000个样本索引，file2对应的描述文件desc2包括37695个语音样本对应的37695个样本索引，
file3对应的描述文件desc3包括19228个语音样本对应的19228个样本索引。
[0099]
s402：按照一块包含10000条样本索引对属于3个语音数据源的76923个语音样本对应的76923个样本索引进行分块，其中，file1的20000条样本索引被分为两块，获得2个块索引，file2的30000条样本索引被分为3块，剩余的7695条样本索引可以单独成一块，获得4个块索引，file3的10000条样本索引被分为1块，剩余的9228条样本索引可以单独成一块，获得2个块索引，最终一共获得9个块索引。
[0100]
s403：对9个块索引进行混淆，打乱其顺序，使属于同一语音数据源的块索引分散开，获得混淆后的9个块索引。
[0101]
s404：从混淆后的9个块索引中选取3个块索引，获得3个分别属于不同语音数据源的待处理块索引。
[0102]
s405：根据待处理的3个块索引属于的3个语音数据源对应的3个描述文件，获取3个待处理块索引包括的样本索引对应的语音样本的样本帧长。
[0103]
s406：根据样本帧长对3个待处理块索引包括的样本索引进行升序排序，获得排序后的样本索引。
[0104]
s407：根据每个批量索引包括的样本索引对应的语音样本的样本帧长总和为固定帧长的方式，将排序后的样本索引拼接成5个批量索引。
[0105]
s408：对5个批量索引进行混淆，获得混淆后的5个批量索引；
[0106]
s409：根据混淆后的5个批量索引包括的样本索引，获取多个待处理语音样本。
[0107]
s410：将多个待处理语音样本输入至语音模型进行训练。
[0108]
基于上述s401-s410的相关内容可知，本技术实施例中，既能实现多个语音数据源粒度的语音样本混淆，又能实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆，后续将多个待处理语音样本输入至语音模型进行训练，提高了模型训练过程的稳定性。
[0109]
以上为本技术实施例提供语音样本混淆方法的一些具体实现方式，基于此，本技术还提供了对应的装置。下面将从功能模块化的角度对本技术实施例提供的装置进行介绍。
[0110]
参见图5，该图为本技术实施例提供的一种语音样本混淆装置的示意图，该装置可以包括：
[0111]
第一获取模块501，用于获取多个语音样本对应的多个样本索引，多个语音样本属于多个语音数据源；
[0112]
分块模块502，用于按照预设块大小对多个样本索引进行分块，获得多个块索引，每个块索引包括至少两个样本索引；
[0113]
第一混淆模块503，用于对多个块索引进行混淆，获得混淆后的多个块索引；
[0114]
选取模块504，用于从混淆后的多个块索引中选取预设数量的块索引，获得多个待处理块索引；
[0115]
划分模块505，用于将多个待处理块索引包括的样本索引划分成多个批量索引，每个批量索引包括至少两个样本索引，多个批量索引的数量大于多个待处理块索引的数量；
[0116]
第二混淆模块506，用于对多个批量索引进行混淆，获得混淆后的多个批量索引；
[0117]
第二获取模块507，用于根据混淆后的多个批量索引包括的样本索引，获取多个待
处理语音样本。
[0118]
在本技术实施例中，通过第一获取模块501、分块模块502、第一混淆模块503、选取模块504、划分模块505、第二混淆模块506，以及第二获取模块507这七个模块的配合，对语音样本进行混淆，既能实现多个语音数据源粒度的语音样本混淆，又能实现多个批量语音样本粒度的语音样本混淆，从而实现对海量语音样本的充分、全局混淆，后续将多个待处理语音样本输入至语音模型进行训练，提高了模型训练过程的稳定性。
[0119]
作为一种实施方式，第一获取模块501，具体可以包括：
[0120]
第一获取单元，用于获取多个语音数据源对应的多个描述文件；
[0121]
第二获取单元，用于根据多个描述文件，获取多个语音样本对应的多个样本索引，描述文件包括多个语音样本对应的多个样本索引。
[0122]
作为一种实施方式，第一获取单元的每个描述文件还包括每个语音数据源包括的语音样本的数量以及所述多个样本索引对应的多个语音样本的样本帧长。
[0123]
作为一种实施方式，分块模块502，具体可以用于：
[0124]
在按照预设块大小对多个样本索引进行分块的过程中，若语音数据源中分块剩余的样本索引的数量不足预设块大小时，将分块剩余的样本索引单独成块获得块索引，或利用重复分块剩余的样本索引补足至预设块大小获得块索引，或将分块剩余的样本索引丢弃。
[0125]
作为一种实施方式，该语音样本混淆装置还可以包括：
[0126]
更新模块，用于对预设数量进行更新，获得更新后的预设数量。
[0127]
相应地，选取模块504，具体可以用于：
[0128]
从混淆后的多个块索引中选取更新后的预设数量的块索引，获得多个待处理块索引。
[0129]
作为一种实施方式，该语音样本混淆装置，还可以包括：
[0130]
输入模块，用于将多个待处理语音样本输入至语音模型进行训练。
[0131]
作为一种实施方式，划分模块505，具体可以包括：
[0132]
第三获取单元，用于获取多个待处理块索引包括的样本索引对应的语音样本的样本帧长；
[0133]
排序单元，用于根据样本帧长对多个待处理块索引包括的样本索引进行排序，获得排序后的样本索引；
[0134]
拼接单元，用于根据预设拼接方式将排序后的样本索引拼接成多个批量索引。
[0135]
作为一种实施方式，排序单元，具体可以用于：
[0136]
根据样本帧长对多个待处理块索引包括的样本索引进行降序排序或升序排序，获得排序后的样本索引。
[0137]
本技术实施例还提供了对应的设备以及计算机存储介质，用于实现本技术实施例提供的方案。
[0138]
其中，所述设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以使所述设备执行本技术任一实施例所述的语音样本混淆方法。
[0139]
所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备
实现本技术任一实施例所述的语音样本混淆方法。
[0140]
本技术实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。
[0141]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，rom)/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0142]
需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元提示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0143]
以上所述，仅为本技术的一种具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应该以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于可穿戴设备的挥杆检测方法及装置、可穿戴设备与流程

一种语音样本混淆方法及装置

相关文献

最热文献