语音加密、语音解密、模型训练、语音通信方法及装置与流程

2021-09-14 23:58:00 来源：中国专利 TAG：语音解密加密装置模型

1.本发明涉及语音技术领域，尤其涉及一种语音加密、语音解密、模型训练、语音通信方法及装置。

背景技术：

2.随着通信技术的不断发展，信息传输和存储成本越来越低，语音逐渐成为重要的数据媒介。随着人们对数据安全性的重视，在语音传输、存储等过程中往往需要对语音进行加密。然而，现有技术中往往是基于秘钥对语音进行加密，这种加密方式通常具有一定规律性，容易被破解，此外，这种加密方式往往涉及秘钥传输，容易造成秘钥被盗取，进而导致加密语音的泄露。可见，现有的基于秘钥的语音加密方式存在安全性较低的问题。

技术实现要素：

3.本发明实施例提供一种语音加密、语音解密、模型训练、语音通信方法及装置，以解决现有的基于秘钥的语音加密方式安全性较低的问题。
4.为了解决上述技术问题，本发明是这样实现的：
5.第一方面，本发明实施例提供了一种语音加密方法。该方法包括：
6.将语音数据进行分片，得到n个语音片段，n为大于1的整数；
7.提取每个所述语音片段的声谱特征；
8.将每个所述语音片段的声谱特征输入预先训练的语音加密神经网络，得到每个所述语音片段对应的语音加密特征；
9.按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据。
10.第二方面，本发明实施例提供了一种语音解密方法。该方法包括：
11.获取目标语音加密数据，其中，所述目标语音加密数据为根据上述的语音加密方法加密得到的语音加密数据；
12.将所述目标语音加密数据进行分片，得到s个语音加密特征，其中，s为大于1的整数；
13.分别将每个所述语音加密特征输入预先训练的语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征；
14.根据每个所述语音加密特征对应的预测语音声谱特征确定语音解密数据。
15.第三方面，本发明实施例提供了一种模型训练方法。该方法包括：
16.获取p个语音样本，其中，p为大于1的整数；
17.根据所述p个语音样本对语音加密神经网络和语音解密神经网络进行迭代训练，直至第一语音声谱特征和第二语音声谱特征之间的损失值最小化；
18.其中，所述第一语音声谱特征为所述语音加密神经网络输入的语音样本的声谱特征，所述第二语音声谱特征为所述语音解密神经网络输出的预测语音声谱特征，所述语音解密神经网络的输入为所述语音加密神经网络的输出。
19.第四方面，本发明实施例提供了一种语音通信方法，应用于第一网络设备，该方法包括：
20.从第一终端接收语音数据流；
21.从所述语音数据流中截取第一语音片段；
22.提取所述第一语音片段的声谱特征；
23.将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征；
24.向第二网络设备发送第一语音加密数据，所述第一语音加密数据包括所述第一语音加密特征。
25.第五方面，本发明实施例提供了一种语音通信方法，应用于第二网络设备，该方法包括：
26.从第一网络设备接收第一语音加密数据；
27.将所述第一语音加密数据中的第一语音加密特征输入预先训练的语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征；
28.根据所述第一预测语音声谱特征确定第一语音解密数据；
29.向第二终端发送所述第一语音解密数据。
30.第六方面，本发明实施例还提供一种语音加密装置。该语音加密装置包括：
31.第一分片模块，用于将语音数据进行分片，得到n个语音片段，n为大于1的整数；
32.第一提取模块，用于提取每个所述语音片段的声谱特征；
33.第一输入模块，用于将每个所述语音片段的声谱特征输入预先训练的语音加密神经网络，得到每个所述语音片段对应的语音加密特征；
34.第一拼接模块，用于按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据。
35.第七方面，本发明实施例还提供一种语音解密装置。该语音解密装置包括：
36.第一获取模块，用于获取目标语音加密数据，其中，所述目标语音加密数据为根据上述的语音加密方法加密得到的语音加密数据；
37.第二分片模块，用于将所述目标语音加密数据进行分片，得到s个语音加密特征，其中，s为大于1的整数；
38.第二输入模块，用于分别将每个所述语音加密特征输入预先训练的语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征；
39.确定模块，用于根据每个所述语音加密特征对应的预测语音声谱特征确定语音解密数据。
40.第八方面，本发明实施例还提供一种模型训练装置。该模型训练装置包括：
41.第二获取模块，用于获取p个语音样本，其中，p为大于1的整数；
42.训练模块，用于根据所述p个语音样本对语音加密神经网络和语音解密神经网络进行迭代训练，直至第一语音声谱特征和第二语音声谱特征之间的损失值最小化；
43.其中，所述第一语音声谱特征为所述语音加密神经网络输入的语音样本的声谱特征，所述第二语音声谱特征为所述语音解密神经网络输出的预测语音声谱特征，所述语音解密神经网络的输入为所述语音加密神经网络的输出。
44.第九方面，本发明实施例还提供一种语音通信装置。该语音通信装置包括：
45.第一接收模块，用于从第一终端接收语音数据流；
46.截取模块，用于从所述语音数据流中截取第一语音片段；
47.第二提取模块，用于提取所述第一语音片段的声谱特征；
48.第三输入模块，用于将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征；
49.第一发送模块，用于向第二网络设备发送第一语音加密数据，所述第一语音加密数据包括所述第一语音加密特征。
50.第十方面，本发明实施例还提供一种语音通信装置。该语音通信装置包括：
51.第二接收模块，用于从第一网络设备接收第一语音加密数据；
52.第四输入模块，用于将所述第一语音加密数据的第一语音加密特征输入预先训练的语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征；
53.确定模块，用于根据所述第一预测语音声谱特征确定第一语音解密数据；
54.第二发送模块，用于向第二终端发送所述第一语音解密数据。
55.第十一方面，本发明实施例还提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述第一方面提供的语音加密方法的步骤，或者实现上述第二方面提供的语音解密方法的步骤，或者实现上述第三方面提供的模型训练方法的步骤，或者实现上述第四方面提供的语音通信方法的步骤，或者实现上述第五方面提供的语音通信方法的步骤。
56.第十二方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面提供的语音加密方法的步骤，或者实现上述第二方面提供的语音解密方法的步骤，或者实现上述第三方面提供的模型训练方法的步骤，或者实现上述第四方面提供的语音通信方法的步骤，或者实现上述第五方面提供的语音通信方法的步骤。
57.本发明实施例中，基于预先训练的语音加密神经网络对语音数据进行加密，得到的是语音特征表示的语音加密数据，不能直接播放且不具备规律性，这样上述语音加密数据被盗取后难以被破解，语音数据加密的安全性较高，此外，上述语音加密数据不依赖秘钥进行解密，这样可以减少因秘钥被盗取导致的语音数据泄露，进一步提高语音数据加密的安全性。
附图说明
58.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
59.图1是本发明实施例提供的语音加密方法的流程图；
60.图2a是本发明实施例提供的语音加密网络和语音解密网络的示意图之一；
61.图2b是本发明实施例提供的加密特征学习子网络的示意图；
62.图2c是本发明实施例提供的解密特征学习子网络的示意图；
63.图2d是本发明实施例提供的语音加密网络和语音解密网络的示意图之二；
64.图3是本发明实施例提供的语音解密方法的流程图；
65.图4是本发明实施例提供的模型训练方法的流程图；
66.图5是本发明实施例提供的语音通信方法可应用的一种无线通信系统的示意图；
67.图6是本发明实施例提供的语音通信方法的流程图；
68.图7是本发明又一实施例提供的语音通信方法的流程图；
69.图8是本发明实施例提供的全双工通信网络通信的示意图；
70.图9是本发明实施例提供的语音加密装置的结构图；
71.图10是本发明实施例提供的语音解密装置的结构图；
72.图11是本发明实施例提供的模型训练装置的结构图；
73.图12是本发明实施例提供的语音通信装置的结构图；
74.图13是本发明又一实施例提供的语音通信装置的结构图；
75.图14是本发明实施例提供的电子设备的结构图。
具体实施方式
76.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
77.本发明实施例提供一种语音加密方法。参见图1，图1是本发明实施例提供的语音加密方法的流程图，如图1所示，包括以下步骤：
78.步骤101、将语音数据进行分片，得到n个语音片段，n为大于1的整数。
79.本实施例中，上述语音数据可以为单声道的脉冲编码调制(pulse code modulation，pcm)格式的语音数据。上述n个语音片段的长度可以均相同，上述n个语音片段的长度也可以至少部分不相同。例如，可以按照第一预设长度对语音数据进行等分，得到n个长度相同的语音片段，其中，上述第一预设长度可以根据实际需求进行合理设置，例如，0.2秒、1秒或2秒等；也可以将语音数据分为n个长度不同的语音片段。
80.可选地，在对语音数据进行切分之前，可以先对语音数据进行预处理，例如，将语音数据的语音格式转化为pcm格式，将语音数据的目标参数转换为与语音样本的目标参数一致，其中，上述语音样本为语音加密神经网络的训练样本，上述目标参数可以包括但不限于采样率、采样字长和声道数等。在对语音数据进行预处理之后，将预处理之后的语音数据进行分片，得到n个语音片段。
81.步骤102、提取每个所述语音片段的声谱特征。
82.本实施例中，上述声谱特征可以包括但不限于线性谱特征、梅尔频谱特征或梅尔倒谱系数(mel
‑
frequency cepstral coefficients，mfcc)特征等。
83.步骤103、将每个所述语音片段的声谱特征输入预先训练的语音加密神经网络，得到每个所述语音片段对应的语音加密特征。
84.本实施例中，上述语音加密神经网络可以与语音解密网络联合训练得到，也即上述语音加密神经网络和语音解密网络为一起训练得到，其中，上述语音解密网络用于对上
述语音加密神经网络加密得到的语音加密数据进行解密。例如，上述语音加密神经网络和语音解密网络可以是通过如下方式训练得到的：依据多个语音样本对语音加密神经网络和语音解密网络进行迭代训练，直至所述语音加密神经网络输入的语音样本的声谱特征和所述语音解密神经网络输出的预测语音声谱特征之间的损失值最小化，在训练阶段上述语音解密神经网络的输入为所述语音加密神经网络的输出。
85.具体地，上述语音加密神经网络可以对语音片段进行特征学习，得到可以表示上述语音片段的高维度语音特征。需要说明的是，上述语音加密神经网络的结构可以根据实际需求进行合理设置，例如，上述语音加密神经网络可以包括用于时序特征学习的深层循环神经网络和用于频域特征学习的卷积网络。
86.步骤104、按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据。
87.本实施例中，若每个所述语音片段对应的语音加密特征的时长均相同，可以直接按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据；若每个所述语音片段对应的语音加密特征的时长至少部分不同，则可以获取每个所述语音片段对应的语音加密特征的时间信息，并将每个所述语音片段对应的语音加密特征及其时间信息拼接，再将各个语音片段对应的拼接特征按序拼接，得到语音压缩数据，也可以直接按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据，并按序存储每个所述语音片段对应的语音加密特征的时间信息，这样基于按序存储的时间信息可以从语音加密数据准确截取各个语音加密特征，所述时间信息包括语音片段的时长、起始时间、结束时间等。
88.本发明实施例提供的语音加密方法，基于预先训练的语音加密神经网络对语音数据进行加密，得到的是语音特征表示的语音加密数据，不能直接播放且不具备规律性，这样上述语音加密数据被盗取后难以被破解，语音数据加密的安全性较高。由于上述语音加密数据不依赖秘钥进行解密，这样可以减少因秘钥被盗取导致的语音数据泄露，进一步提高语音数据加密的安全性。此外，上述语音加密神经网络可以分别对语音数据的各个语音片段进行加密，这样可以实现语音片段的流式加密，还可以实现语音的并行加密，提高语音加密效率。
89.可选地，所述语音加密神经网络包括依次串联连接的第一深层循环神经子网络、k个加密特征学习子网络和前向连接层，k为正整数；
90.其中，所述第一深层循环神经子网络对所述语音片段的声谱特征进行时序特征学习并输出第一语音特征，所述k个加密特征学习子网络对所述第一语音特征进行加密特征学习并输出第二语音特征，所述前向连接层对所述第二语音特征进行维度变换并输出所述语音加密特征。
91.本实施例中，上述第一深层循环神经子网络可以包括双向门控循环单元(bidirectional gating recurrent unit，bigru)层或双向长短期记忆(bidirectional long short
‑
term memory，bilstm)层等。其中，该第一深层循环神经子网络用于对语音片段的声谱特征进行时序特征学习，输出该语音片段对应的时序特征，也可以称为时序表示，第一语音特征可以为双向长短期记忆层对声谱特征进行时序特征学习后输出的时序特征。
92.对于上述k个加密特征学习子网络，若k为1，该加密特征学习子网络的输入为上述第一深层循环神经子网络输出的第一语音特征，输出为第二语音特征；若k大于1，上述k个
加密特征学习子网络之间串联，上述k个加密特征学习子网络中第一个加密特征学习子网络的输入为上述第一深层循环神经子网络输出的第一语音特征，上述k个加密特征学习子网络中目标加密特征学习子网络的输入为其前一个加密特征学习子网络的输出，所述目标加密特征学习子网络为上述k个加密特征学习子网络中除第一个加密特征学习子网络之外的加密特征学习子网络，上述k个加密特征学习子网络中最后一个加密特征学习子网络的输出为第二语音特征。需要说明的是，上述k的取值可以根据实际需求进行合理设置，例如，上述k的取值为5或6等。
93.可选地，上述每个加密特征学习子网络均可以包括带残差的卷积层或者带注意力机制的卷积层等。第二语音特征是为k个加密特征学习子网络对第一语音特征进行频域学习后的语音特征。
94.上述前向连接层(即forward层)，可以对k个加密特征学习子网络输出的第二语音特征进行维度变换，以得到适合语音解密网络学习的特征维度。具体的，上述forward层可以对第二语音特征进行全连接映射，以将第二语音特征映射到适合语音解密网络学习的特征维度。
95.本发明实施例中，由于在语音加密神经网络中通过第一深层循环神经子网络对语音片段进行时序特征学习及通过k个加密特征学习子网络对第一深层循环神经子网络输出的第一语音特征进行频域特征学习后得到的语音加密特征；对语音片段分别进行时序特征的提取及频域特征的提取使得到的语音加密特征可以更为准确的表示上述语音片段，这样基于上述语音加密特征进行解密，可以提高加密语音解密后的语音效果，此外，基于前向连接层可以使得语音加密特征的维度更为适合语音解密网络学习，进一步可以提高加密语音解密后的语音效果。
96.可选地，每个所述加密特征学习子网络均包括第一残差网络层和第二残差网络层；
97.所述第一残差网络层包括第一多头注意力层和第一求和归一化层，所述第一求和归一化层用于对所述第一多头注意力层的输入和所述第一多头注意力层的输出进行求和以及归一化处理；
98.所述第二残差网络层包括卷积层和第二求和归一化层，所述第二求和归一化层用于对所述卷积层的输入和所述卷积层的输出进行求和以及归一化处理，所述卷积层的输入为所述第一求和归一化层的输出。
99.本实施例中，上述第一多头注意力(即multiattention)层用于对输入所述第一多头注意力层的语音特征从多个维度进行加权，从而可以加强多个维度的语音特征的学习，使得学习到的语音特征可以更为准确的表示上述语音片段。其中，上述第一多头注意力层的头数可以根据实际需求进行合理设置，例如，可以为3。
100.上述第一求和归一化层对第一多头注意力层的输入和第一多头注意力层的输出进行求和以及归一化处理并输出到卷积层，可以减少语音特征信息的丢失，进而可以使得卷积层可以提取更为丰富的语音特征。
101.上述卷积层可以对上述第一求和归一化层输出的语音特征进行卷积处理。其中，该卷积层的参数，例如，卷积核维数、卷积核大小、隐层数等，可以根据实际需求进行合理设置，例如，上述卷积层的卷积核维数可以为1维(即1d)，卷积核大小为3，隐层数为768。
102.上述第二求和归一化层用于对所述卷积层的输入和所述卷积层的输出进行求和以及归一化处理，可以减少语音特征信息的丢失。
103.需要说明的是，在k为1的情况下，上述第一多头注意力层的输入为第一语音特征，上述第二求和归一化层的输出为第二语音特征；在k大于1的情况下，上述k个加密特征学习子网络中第一个加密特征学习子网络的第一多头注意力层的输入为第一语音特征，上述k个加密特征学习子网络中目标加密特征学习子网络的第一多头注意力层的输入为其前一个加密特征学习子网络的第二求和归一化层的输出，上述k个加密特征学习子网络中最后一个加密特征学习子网络的第一多头注意力层的输出为第二语音特征，其中，所述目标加密特征学习子网络为上述k个加密特征学习子网络中除第一个加密特征学习子网络之外的加密特征学习子网络。
104.以下结合附图进行举例说明：
105.如图2a所示，语音加密网络包括依次串联的第一双向长短期记忆层(bilstm层)、6个加密特征学习子网络11和前向连接层。上述第一bilstm层用于时序特征学习，其隐层大小可以为512，可以将每个输入第一bilstm层的语音特征转化为维度为768的语音特征。如图2b所示，每个加密特征学习子网络11均可以包括第一多头注意力层、第一求和归一化层、卷积层和第二求和归一化层，其中，上述第一多头注意力层的多头数可以为3，上述卷积层可以为一维(即1d)卷积层，其卷积核大小可以为3，上述第一多头注意力层和上述卷积层的隐层大小均可以为768。上述前向连接层可以将每个时序表示输出(即上述6个加密特征学习子网络11输出的语音特征)映射到便于语音解密网络处理的维度，其隐层大小可以为512。其中，图2d示出了语音加密网络包括1个加密特征学习子网络11时加密特征学习子网络包括的各个网络层与第一bilstm层以及前向连接层之间的串联连接关系。
106.本发明实施例中，每个所述加密特征学习子网络均包括第一残差网络层和第二残差网络层；所述第一残差网络层包括第一多头注意力层和第一求和归一化层，所述第一求和归一化层用于对所述第一多头注意力层的输入和所述第一多头注意力层的输出进行求和以及归一化处理；所述第二残差网络层包括卷积层和第二求和归一化层，所述第二求和归一化层用于对所述卷积层的输入和所述卷积层的输出进行求和以及归一化处理，所述卷积层的输入为所述第一求和归一化层的输出。通过上述第一残差网络层可以加强多个维度的语音特征的关联学习，通过上述第二残差网络层可以进一步进行语音特征的学习，从而可以使得学习到的语音特征可以更为准确的表示上述语音片段。
107.可选地，所述第一深层循环神经子网络包括m个bilstm层，m为正整数。
108.本实施例中，m的取值可以根据实际需求进行合理设置，例如，m可以为1或2等。上述bilstm层可以双向地学习语音片段的时序特征，从而可以提取到更为丰富和准确的时序特征。
109.可选地，所述按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据，包括：
110.获取每个所述语音片段对应的语音加密特征的时间信息；
111.按序将每个所述语音片段对应的语音加密片段拼接，得到语音加密数据，其中，所述语音加密片段包括所述语音加密特征和所述语音加密特征的时间信息。
112.本实施例中，上述语音加密片段可以是语音加密特征和该语音加密特征的时间信
息拼接得到，例如，可以通过两个字节的无符号整数型的数值表示语音加密特征的时间信息，并将该两个字节无符号整数型的数值表示的时间信息拼接在语音加密特征的起始位置之前，得到上述语音加密片段，这样在解密的过程中可以依据各个语音加密特征的起始位置的时间信息从语音解密数据中截取各个语音加密特征。
113.本发明实施例通过分别获取每个所述语音片段对应的语音加密特征的时间信息，并按序将每个所述语音片段对应的语音加密片段拼接，得到语音加密数据，其中，所述语音加密片段包括所述语音加密特征和所述语音加密特征的时间信息，这样可以支持不同时长的语音片段加密，不仅可以提高语音加密的灵活性，还可以增加加密语音被破解的难度，提高语音加密的安全性。
114.可选地，在所述按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据之后，还可以基于现有技术中的语音加密方式对所述语音加密数据进行加密，例如，基于秘钥的加密方式对所述语音加密数据进行加密，以进一步提高语音数据加密的安全性。
115.可选地，在所述预先训练的语音加密神经网络包括至少两个不同的语音加密神经网络的情况下，所述将每个所述语音片段的声谱特征输入预先训练的语音加密神经网络，得到每个所述语音片段对应的语音加密特征，包括：
116.从所述至少两个不同的语音加密神经网络中随机选择一个语音加密神经网络；
117.分别将每个所述语音片段的声谱特征输入所选择的语音加密神经网络，得到每个所述语音片段对应的语音加密数据。
118.本实施例中，上述至少两个不同的语音加密神经网络可以是网络结构不同，例如，第一语音加密神经网络包括第一深层循环神经子网络、6个加密特征学习子网络和前向连接层，第二语音加密神经网络包括第一深层循环神经子网络、7个加密特征学习子网络和前向连接层；或者上述至少两个不同的语音加密神经网络也可以是网络结构相同但网络参数不同，分别利用不同的训练集对相同的网络结构进行训练得到网络参数不同的多个语音加密神经网络。
119.实际应用中，上述多个语音加密神经网络和多个语音解密神经网络之间可以是一一对应的，且由某一语音加密神经网络加密得到的语音加密数据，仅能通过该语音加密神经网络对应的语音解密网络进行解密。因此，为了方便语音加密数据的解密，可以在上述语音加密数据中携带第一指示信息，所述第一指示信息用于指示该语音加密数据对应的语音加密神经网络，例如，可以在语音加密数据的起始位置携带上述第一指示信息，或者，可以直接向解密端发送第一指示信息，这样解密端可以基于上述第一指示信息确定语音解密神经网络。
120.本实施例通过从多个不同的语音加密神经网络中随机选择一个语音加密神经网络进行语音加密，可以进一步提高语音加密的安全性。
121.本发明实施例提供一种语音解密方法。参见图3，图3是本发明实施例提供的语音解密方法的流程图，如图3所示，包括以下步骤：
122.步骤301、获取目标语音加密数据，其中，所述目标语音加密数据为根据上述的语音加密方法加密得到的语音加密数据。
123.本实施例中，上述目标语音加密数据可以是任意基于上述任一语音加密方法加密
得到的语音加密数据。
124.步骤302、将所述目标语音加密数据进行分片，得到s个语音加密特征，其中，s为大于1的整数。
125.本实施例中，若各个语音片段加密后得到的语音加密特征的大小相同，例如，各个语音片段的声谱特征输入语音加密网络处理后输出的语音加密特征的维度均为1942x512，则可以根据语音加密特征大小对目标语音加密数据进行等分，得到s个语音加密特征；若各个语音片段加密后得到的语音加密特征的大小不同，则可以依据各个语音加密特征的长度信息对目标语音加密数据进行分片，得到s个语音加密特征，其中，上述各个语音加密特征的长度信息可以包含于上述目标语音加密数据中，也可以额外存储，例如，上述各个语音加密特征的时间信息可以额外按序存储。
126.步骤303、将每个所述语音加密特征输入预先训练的语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征。
127.本实施例中，上述语音解密神经网络可以是与上述语音加密网络联合训练得到的，也即上述语音解密神经网络和语音加密网络为一起训练得到的。例如，上述语音加密神经网络和语音解密网络可以是通过如下方式训练得到的：依据多个语音样本对语音加密神经网络和语音解密网络进行迭代训练，直至所述语音加密神经网络输入的语音样本的声谱特征和所述语音解密神经网络输出的预测语音声谱特征之间的损失值最小化，在训练阶段上述语音解密神经网络的输入为所述语音加密神经网络的输出。
128.其中，上述语音样本的声谱特征的类型与上述预测语音声谱特征的类型可以相同，例如，上述语音样本的声谱特征可以为线性谱特征，上述预测语音声谱特征可以为预测语音线性谱特征；或者上述语音样本的声谱特征可以为梅尔谱特征，上述预测语音声谱特征可以为预测语音梅尔谱特征。
129.具体地，上述语音解密神经网络可以对语音加密特征进行特征学习，以预测上述语音加密特征对应的语音声谱特征，例如，语音线性谱特征。需要说明的是，上述语音解密神经网络的结构可以根据实际需求进行合理设置，例如，上述语音解密神经网络可以包括用于时序特征学习的深层循环神经网络、用于频域特征学习的膨胀卷积网络和用于对语音特征进行线性映射的线性层(linear层)等。
130.步骤304、根据每个所述语音加密特征对应的预测语音声谱特征确定语音解密数据。
131.例如，可以在得到每个所述语音加密特征对应的预测语音声谱特征之后，分别将每个所述语音加密特征对应的预测语音声谱特征转换为wav格式(即wavform格式)语音特征，并将每个所述语音加密特征对应的wav格式语音特征按序拼接，得到wav格式语音数据，也即语音解密数据；或者可以在得到每个所述语音加密特征对应的预测语音声谱特征之后，分别将每个所述语音加密特征对应的预测语音声谱特征按序拼接，并将拼接得到的语音线性谱数据转换为wav格式语音数据，也即语音解密数据；或者可以分别将每个所述语音加密特征对应的预测语音声谱特征进行反向频谱变换得到pcm格式的语音特征，并将每个所述语音加密特征对应的pcm格式语音特征按序拼接，得到pcm语音数据，也即语音解密数据，或者可以在得到每个所述语音加密特征对应的预测语音声谱特征之后，分别将每个所述语音加密特征对应的预测语音声谱特征按序拼接，并将拼接得到的语音线性谱数据进行
反向频谱变换，得到pcm语音数据，也即语音解密数据。
132.可选地，上述将预测语音声谱特征转换为wav格式语音特征可以是通过griffin
‑
lim算法将预测语音声谱特征转换为wav格式语音特征。
133.需要说明的是，在得到wav格式语音数据之后，可以进一步将wav格式语音数据进行参数转换，使得转换得到的wav格式语音数据与语音样本具有相同的采样率、采样字长、声道数等参数。
134.本发明实施例提供的语音解密方法，基于预先训练的语音解密神经网络对每个语音加密片段的语音加密特征进行解密，而不依赖秘钥进行解密，这样可以减少因秘钥被盗取导致的语音数据泄露，提高语音数据加密的安全性。此外，上述语音解密神经网络可以分别对语音加密数据的各个语音加密片段进行解密，这样可以实现语音解密片段的流式解密，还可以实现语音的并行解密，提高语音解密效率。
135.可选地，所述语音解密神经网络包括r个解密特征学习子网络、第二深层循环神经子网络和线性层，r为正整数；
136.其中，所述r个解密特征学习子网络对所述语音加密特征进行解密特征学习并输出第三语音特征，所述第二深层循环神经子网络对所述第三语音特征进行时序特征学习并输出第四语音特征，所述线性层对所述第四语音特征进行线性映射并输出所述预测语音声谱特征。
137.对于上述r个解密特征学习子网络，若r为1，该解密特征学习子网络的输入为语音加密特征，输出为第三语音特征；若r大于1，上述r个解密特征学习子网络之间串联，上述r个解密特征学习子网络中第一个解密特征学习子网络的输入为语音加密特征，上述r个解密特征学习子网络中目标解密特征学习子网络的输入为其前一个解密特征学习子网络的输出，所述目标解密特征学习子网络为上述r个解密特征学习子网络中除第一个解密特征学习子网络之外的解密特征学习子网络，上述r个解密特征学习子网络中最后一个解密特征学习子网络的输出为第三语音特征。需要说明的是，上述r的取值可以根据实际需求进行合理设置，例如，上述r的取值为6或7等。可选地，上述r的取值可以大于或等于k的取值，这样语音解密网络可以学习到更为丰富的语音特征，进而可以提高语音加密数据解密后的语音效果。
138.可选地，上述每个加密特征学习子网络均可以包括带残差的膨胀卷积层或者带注意力机制的膨胀卷积层等。
139.上述第二深层循环神经子网络可以包括bigru层或bilstm层等。其中，该第二深层循环神经子网络用于对r个解密特征学习子网络输出的第三语音特征进行时序特征学习，输出第四语音特征。
140.上述线性层可以对所述第四语音特征进行线性映射并输出预测的语音声谱特征，也即预测语音声谱特征。
141.本发明实施例中，由于语音解密神经网络可以对各个语音片段对应的语音加密特征进行时序特征学习和频域特征学习以进行语音预测，从而可以使得到的预测语音声谱特征可以更为接近上述语音片段，可以提高语音解密数据的语音效果。
142.可选地，每个所述解密特征学习子网络均包括第三残差网络层和第四残差网络层；
143.所述第三残差网络层包括第二多头注意力层和第三求和归一化层，所述第三求和归一化层用于对所述第二多头注意力层的输入和所述第二多头注意力层的输出进行求和以及归一化处理；
144.所述第四残差网络层包括膨胀卷积层和第四求和归一化层，所述第四求和归一化层用于对所述膨胀卷积层的输入和所述膨胀卷积层的输出进行求和以及归一化处理，所述膨胀卷积层的输入为所述第三求和归一化层的输出。
145.本实施例中，上述第二多头注意力层用于对输入所述第二多头注意力层的语音特征从多个维度进行加权，从而可以加强多个维度的语音特征的学习，使得学习到的语音特征更为接近上述语音片段。其中，上述第二多头注意力层的头数可以根据实际需求进行合理设置，例如，可以为3。
146.上述第三求和归一化层对第二多头注意力层的输入和第二多头注意力层的输出进行求和以及归一化处理并输出到膨胀卷积层，可以减少语音特征信息的丢失，进而可以使得膨胀卷积层可以提取更为丰富的语音特征。
147.上述膨胀卷积层可以对上述第一求和归一化层输出的语音特征进行膨胀卷积处理。其中，该膨胀卷积层的参数，例如，卷积核维数、卷积核大小、隐层数等，可以根据实际需求进行合理设置，例如，上述卷积层的卷积核维数可以为1维(即1d)，卷积核大小为3，隐层数为512。
148.上述第四求和归一化层用于对所述膨胀卷积层的输入和所述膨胀卷积层的输出进行求和以及归一化处理，可以减少语音特征信息的丢失。
149.需要说明的是，在r为1的情况下，上述第二多头注意力层的输入为语音加密特征，上述第四求和归一化层的输出为第四语音特征；在r大于1的情况下，上述r个解密特征学习子网络中第一个解密特征学习子网络的第二多头注意力层的输入为语音加密特征，上述r个解密特征学习子网络中目标解密特征学习子网络的第二多头注意力层的输入为其前一个解密特征学习子网络的第四求和归一化层的输出，上述r个解密特征学习子网络中最后一个解密特征学习子网络的第二多头注意力层的输出为第四语音特征，其中，所述目标解密特征学习子网络为上述r个解密特征学习子网络中除第一个解密特征学习子网络之外的解密特征学习子网络。其中，图2d示出了语音解密网络包括1个解密特征学习子网络12时解密特征学习子网络包括的各个网络层与第二bilstm层以及语音解密网络之间的串联连接关系。
150.以下结合附图进行举例说明：
151.如图2a所示，语音解密网络包括依次串联的6个解密特征学习子网络12、第二bilstm层和线性层。如图2c所示，每个解密特征学习子网络12均可以包括第二多头注意力层、第三求和归一化层、膨胀卷积层和第四求和归一化层。其中，上述第二多头注意力层的多头数可以为3，上述膨胀卷积层可以为一维(即1d)膨胀卷积层，其卷积核大小可以为3，上述第二多头注意力层和上述膨胀卷积层的隐层大小均可以为512。上述第二bilstm层的隐层大小可以为512，可以将输入第二bilstm层的语音特征映射为1024维度的语音特征并输出。上述线性层的隐层大小可以为1024，可以把输入线性层的每个语音特征映射为1024维度的线性谱特征输出。
152.本发明实施例中，每个所述解密特征学习子网络均包括第三残差网络层和第四残
差网络层；所述第三残差网络层包括第二多头注意力层和第三求和归一化层，所述第三求和归一化层用于对所述第二多头注意力层的输入和所述第二多头注意力层的输出进行求和以及归一化处理；所述第四残差网络层包括膨胀卷积层和第四求和归一化层，所述第四求和归一化层用于对所述膨胀卷积层的输入和所述膨胀卷积层的输出进行求和以及归一化处理，所述膨胀卷积层的输入为所述第三求和归一化层的输出。通过上述第三残差网络层可以加强多个维度的语音特征的关联学习，通过上述第四残差网络层可以进一步进行语音特征的学习，从而可以使得学习到的语音特征可以更为接近语音加密特征对应的语音片段。
153.可选地，所述第二深层循环神经子网络包括q个bilstm层，q为正整数。
154.本实施例中，q的取值可以根据实际需求进行合理设置，例如，q可以为1或2等。上述bilstm层可以双向地学习语音片段的时序特征，从而可以提取到更为丰富和准确的时序特征。
155.可选地，所述将所述目标语音加密数据进行分片，得到s个语音加密特征，包括：
156.分别从所述目标语音加密数据中读取各个语音加密特征的时间信息；
157.分别根据所述目标语音加密数据中各个语音加密特征的时间信息对所述目标语音加密数据进行分片，得到s个语音加密特征。
158.本实施例中，上述目标语音加密数据包括各个语音加密特征以及各个语音加密特征的时间信息，例如，在目标语音加密数据中各个语音加密特征的时间信息分别位于该语音加密特征的起始位置之前的两个字节，这样可以先从目标语音加密数据读取两个字节的时间信息，然后从目标语音加密数据中截取该时间信息所表示时长的数据，得到该时间信息对应的语音加密特征，以此类推，直至得到所有的语音加密特征。
159.本发明实施例通过分别从所述目标语音加密数据中读取各个语音加密特征的时间信息；分别根据所述目标语音加密数据中各个语音加密特征的时间信息对所述目标语音加密数据进行分片，得到s个语音加密特征，这样可以实现不同长度的语音加密特征的解密，提高语音解密的灵活性。
160.可选地，在所述预先训练的语音解密神经网络包括至少两个不同的语音加密神经网络的情况下，所述分别将每个所述语音加密特征输入预先训练的语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征，包括：
161.确定所述目标语音加密数据对应的第一语音加密神经网络；
162.从所述至少两个不同的语音解密神经网络确定与所述第一语音加密神经网络对应的第一语音解密神经网络；
163.分别将每个所述语音加密特征输入所述第一语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征。
164.本实施例中，上述至少两个不同的语音解密神经网络可以是网络结构不同，例如，第一语音解密神经网络包括6个解密特征学习子网络、第二深层循环神经子网络和线性层，第二语音解密神经网络包括7个解密特征学习子网络、第二深层循环神经子网络和线性层；或者上述至少两个不同的语音解密神经网络也可以是网络结构相同但网络参数不同，分别利用不同的训练集对相同的网络结构进行训练得到网络参数不同的多个语音解密神经网络。
165.实际应用中，上述多个语音解密神经网络和多个语音加密神经网络之间可以是一一对应的，且由某一语音加密神经网络加密得到的语音加密数据，仅能通过该语音加密神经网络对应的语音解密网络进行解密。具体地，解密端可以基于目标语音加密数据中携带的第一指示信息或者加密端发送的第一指示信息确定所述目标语音加密数据对应的语音加密神经网络，即上述第一语音加密神经网络，其中，上述第一指示信息用于指示所述目标语音加密数据对应的语音加密神经网络。
166.本发明实施例通过确定第一语音加密数据对应的第一语音加密神经网络；从所述至少两个不同的语音解密神经网络确定与所述第一语音加密神经网络对应的第一语音解密神经网络；将所述第一语音加密数据的第一语音加密特征输入所述第一语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征，可以在保证语音加密数据被破解的难度的同时提高语音解密的便捷性。
167.本发明实施例提供一种模型训练方法。上述任一语音加密方法实施例提供的语音加密网络和上述任一语音解密方法实施例提供的语音解密网络均可以是基于本发明实施例提供的模型训练方法训练得到。
168.参见图4，图4是本发明实施例提供的模型训练方法的流程图，如图4所示，包括以下步骤：
169.步骤401、获取p个语音样本，其中，p为大于1的整数。
170.本实施例中，上述p个语音样本均可以是单声道的pcm格式的语音。上述p个语音样本的采样率均相同，例如，上述p个语音样本的采样率均可以是8k或16k等。可选地，上述p个语音样本可以是对p个原始语音样本预处理后得到的p个语音样本，其中，上述预处理可以包括格式转换、声道数转换、采样率转换等。此外，上述p个语音样本可以包括多个说话对象的语音或语音片段。
171.步骤402、根据所述p个语音样本对语音加密神经网络和语音解密神经网络进行迭代训练，直至第一语音声谱特征和第二语音声谱特征之间的损失值最小化；其中，所述第一语音声谱特征为所述语音加密神经网络输入的语音样本的声谱特征，所述第二语音声谱特征为所述语音解密神经网络输出的预测语音声谱特征，所述语音解密神经网络的输入为所述语音加密神经网络的输出。
172.本实施例中，上述语音加密网络和语音解密网络的相关描述可以参见前述论述，为避免重复，在此不做赘述。需要说明的是，在训练过程中上述语音加密神经网络的输出输入至语音解密神经网络，也即上述语音加密神经网络的输出端连接语音解密神经网络的输入端。此外，用于上述语音加密神经网络和语音解密神经网络训练的损失函数可以根据实际需求进行合理设置，例如，可以是均方差损失函数。
173.以下以声谱特征为mfcc特征、按照2秒切分语音数据为例进行说明：可以分别按照2秒切分p个语音样本的各个语音样本，并获取各个语音样本对应的语音片段的mfcc特征和线性谱特征，其中，各个语音样本对应的语音片段的线性谱特征作为该语音片段的标注值，也可以称为真值或者期望值。将语音样本对应的语音片段的mfcc特征输入语音加密神经网络中，并计算语音解密网络输出的预测语音声谱特征和该语音片段的声谱特征的损失值，例如，均方差损失值，重复上述过程直至计算得到的损失值最小化，网络模型收敛。
174.需要说明的是，在模型训练结束后，可以将训练得到的网络模型拆分为上述语音
加密网络和上述语音解密网络。
175.本发明实施例的模型训练方法，基于p个语音样本对语音加密网络和语音解密网络进行联合训练，可以提高训练得到的语音加密网络的加密效果以及训练得到的语音解密网络的解密效果。
176.综上可知，本发明实施例采用的语音解密网络和语音解密网络是一起训练得到的，上述语音加密网络和语音解密网络互相配合，实现原始语音到加密语音之间的相互转换。由于不需要单独通过网络传输的秘钥，也不需要跟随加密后的语音数据一起存储用于解密的秘钥，可以极大的降低语音泄密风险。
177.具体地，若窃密者截获到加密语音后，若不了解该加密语音是基于语音解密网络加密得到的，那么上述加密语音对他而言是无意义的二进制参数序列，不能直接破解和收听。若窃密者不知道上述语音解密网络的结构，其窃取到加密语音后，即使知道该加密语音是基于语音解密网络加密得到的，也不能破解该加密语音。若窃密者窃取到加密语音后，也窃取到上述语音解密网络的原理和结构，但是不知道上述语音解密网络的具体参数设置，也不能破解该加密语音。若窃密者窃取到加密语音后，也窃取到上述语音解密网络的原理、结构和参数，但是其没有大量的样本数据，不知道样本文件格式和处理方式，也不能训练出合适的语音解密网络。由此可见，本发明实施例提供的语音加密方式可以极大的挺高加密语音破解的难度。
178.以下结合一种可选的应用场景对本发明实施例提供的语音加密方法和语音解密方法进行说明：
179.对包括语音加密网络和语音解密网络的网络模型的全部参数进行哈希计算得到哈希值，作为该网络模型的唯一id，并将语音加密程序和网络模型id写入加密盾；将语音解密程序和网络模型id写入解密盾。其中，上述语音解密程序被处理器执行时实现本发明实施例提供的语音加密方法，上述语音解密程序被处理器执行时实现本发明实施例提供的语音解密方法。
180.在加密盾具备用户智能设备的读写权限的情况下，可以基于如下步骤实现语音数据的加密：
181.步骤a1、用户将加密盾插入手机或计算机等电子设备的插口，在弹出界面选择要加密的语音文件，以及加密后的密文文件和存储路径。
182.步骤a2、加密盾读取电子设备上的语音文件，调用上述加密程序，得到语音加密数据。
183.步骤a3、加密盾将语音加密数据写入用户指定的密文文件。
184.在该步骤中，上述密文文件首先写入预设字节长度(32字节)的网络模型id，然后再写入上述语音加密数据。
185.在解密盾具备电子设备的读写权限的情况下，可以基于如下步骤实现加密语音数据的解密：
186.步骤b1、用户将解密盾插入手机或计算机等电子设备的插口，在弹出界面选择要解密的文件，以及解密后的语音存储路径。
187.步骤b2、解密盾读取电子设备上的要解密的密文文件，首先读取预设字节长度(例如，32字节)的网络模型id。
188.步骤b3、若读取到的网络模型id与解密盾中的网络模型id不一致，则弹出提示解密失败；若读取到的网络模型id与解密盾中的网络模型id一致，则继续读取密文文件中的语音加密数据，并调用所述解密程序对上述语音加密程序进行解密，得到解密后的wav语音数据。
189.步骤b4、将解密后得到的wav语音数据，存储到用户指定的存储路径下。
190.本发明实施例还提供一种语音通信方法，图5是本发明实施例提供的语音通信方法可应用的一种无线通信系统的框图。如图5所示，包括第一终端11、第一局端节点12、骨干网络上的第一网络节点13、骨干网络上的第二网络节点14、第二局端节点15和第二终端16。其中，第一局端节点12为与第一终端11连接的局端节点，例如，局端路由器或局端交换机等；第二局端节点15为与第二终端16连接的局端节点，例如，局端路由器或局端交换机等。第一网络节点13为骨干网络上紧邻第一局端节点12的网络节点，例如，路由器；第二网络节点14为骨干网络上紧邻第二局端节点15的网络节点，例如，路由器。
191.参见图6，图6是本发明实施例提供的语音通信方法的流程图。该方法可以由第一网络设备执行，该第一网络设备可以是第一终端侧的网络设备，例如，可以是上述的第一局端节点或第一网络节点等。如图6所示，包括以下步骤：
192.步骤601、从第一终端接收语音数据流。
193.本实施例中，上述第一终端可以是任意进行语音通话的终端。
194.步骤602、从所述语音数据流中截取第一语音片段。
195.本实施例中，第一网络设备可以从缓存的语音数据流中截取第一语音片段，例如，可以每隔0.2秒从缓存的语音数据流中截取一次语音数据，得到一个0.2秒长度的语音片段。
196.步骤603、提取所述第一语音片段的声谱特征。
197.本实施例中，上述声谱特征可以包括但不限于线性谱特征、梅尔频谱特征或mfcc特征等。
198.步骤604、将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征。
199.本实施例中，上述语音加密神经网络可以是与语音解密网络联合训练得到的，也即上述语音加密神经网络和语音解密网络为一起训练得到的，其中，上述语音解密网络用于对上述语音加密神经网络加密得到的语音加密数据进行解密。例如，上述语音加密神经网络和语音解密网络可以是通过如下方式训练得到的：依据多个语音样本对语音加密神经网络和语音解密网络进行迭代训练，直至所述语音加密神经网络输入的语音样本的声谱特征和所述语音解密神经网络输出的预测语音声谱特征之间的损失值最小化，在训练阶段上述语音解密神经网络的输入为所述语音加密神经网络的输出。
200.具体地，上述语音加密神经网络可以对语音片段进行特征学习，得到可以表示上述语音片段的高维度语音特征。需要说明的是，上述语音加密神经网络的结构可以根据实际需求进行合理设置，例如，上述语音加密神经网络可以包括用于时序特征学习的深层循环神经网络和用于频域特征学习的卷积网络。
201.需要说明的是，上述语音加密神经网络的相关内容可以参见前述语音加密方式实施例的相关论述，在此不做赘述。
202.步骤605、向第二网络设备发送第一语音加密数据，所述第一语音加密数据包括所述第一语音加密特征。
203.本实施例中，上述第二网络设备可以是第二终端设备侧的网络设备，例如，可以是上述的第二局端节点或者第二网络节点等。上述第一语音加密数据可以仅包括上述第一语音加密特征，或者可以包括上述第一语音加密特征和上述第一语音加密特征的长度信息，或者可以包括上述第一语音加密特征和第一指示信息，所述第一指示信息用于指示该第一语音加密数据对应的语音加密神经网络，或者可以包括上述第一语音加密特征、上述第一语音加密特征的长度信息和上述第一指示信息。
204.对于步骤605，第一网络设备可以经由骨干网络向第二网络设备发送所述第一语音加密特征。可以理解的是，第一网络设备可以先将第一语音加密特征封装为网络数据包再向第二网络设备发送该网络数据包。
205.本发明实施例在语音通信过程中基于预先训练的语音加密神经网络对语音数据进行加密，得到的是语音特征表示的语音加密数据，不能直接播放且不具备规律性，这样上述语音加密数据被盗取后难以被破解，语音数据加密的安全性较高。由于上述语音加密数据不依赖秘钥进行解密，这样可以减少因秘钥被盗取导致的语音数据泄露，进一步提高语音通信过程中语音数据传输的安全性。
206.可选地，所述语音加密神经网络包括第一深层循环神经子网络、k个加密特征学习子网络和前向连接层，k为正整数；
207.其中，所述第一深层循环神经子网络对所述语音片段的声谱特征进行时序特征学习并输出第一语音特征，所述k个加密特征学习子网络对所述第一语音特征进行加密特征学习并输出第二语音特征，所述前向连接层对所述第二语音特征进行维度变换并输出所述语音加密特征。
208.可以理解的是，该实施方式的实现方式可以参见上述语音加密方法实施例的相关说明，此处不作赘述。
209.可选地，每个所述加密特征学习子网络均包括第一残差网络层和第二残差网络层；
210.所述第一残差网络层包括第一多头注意力层和第一求和归一化层，所述第一求和归一化层用于对所述第一多头注意力层的输入和所述第一多头注意力层的输出进行求和以及归一化处理；
211.所述第二残差网络层包括卷积层和第二求和归一化层，所述第二求和归一化层用于对所述卷积层的输入和所述卷积层的输出进行求和以及归一化处理，所述卷积层的输入为所述第一求和归一化层的输出。
212.可以理解的是，该实施方式的实现方式可以参见上述语音加密方法实施例的相关说明，此处不作赘述。
213.可选地，所述第一深层循环神经子网络包括m个bilstm层，m为正整数。
214.可以理解的是，该实施方式的实现方式可以参见上述语音加密方法实施例的相关说明，此处不作赘述。
215.可选地，在所述预先训练的语音加密神经网络包括至少两个不同的语音加密神经网络的情况下，所述将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，
得到所述第一语音片段对应的第一语音加密特征，包括：
216.从所述至少两个不同的语音加密神经网络中随机选择一个语音加密神经网络；
217.将所述第一语音片段的声谱特征输入所选择的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征。
218.本实施例中，上述至少两个不同的语音加密神经网络可以是网络结构不同，例如，第一语音加密神经网络包括第一深层循环神经子网络、6个加密特征学习子网络和前向连接层，第二语音加密神经网络包括第一深层循环神经子网络、7个加密特征学习子网络和前向连接层；或者上述至少两个不同的语音加密神经网络也可以是网络结构相同但网络参数不同，分别利用不同的训练集对相同的网络结构进行训练得到网络参数不同的多个语音加密神经网络。
219.实际应用中，上述多个语音加密神经网络和多个语音解密神经网络之间可以是一一对应的，且由某一语音加密神经网络加密得到的语音加密数据，仅能通过该语音加密神经网络对应的语音解密网络进行解密。因此，为了方便语音加密特征的解密，可以在上述第一语音加密数据中携带第一指示信息，所述第一指示信息用于指示该第一语音加密数据对应的语音加密神经网络，例如，可以在语音加密数据的起始位置携带上述第一指示信息，或者，可以直接向解密端发送第一指示信息，这样解密端可以基于上述第一指示信息确定语音解密神经网络。
220.本实施例通过从多个不同的语音加密神经网络中随机选择一个语音加密神经网络进行语音加密，可以进一步提高语音加密的安全性，进而可以提高语音通信的安全性。
221.可选地，在所述将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征之后，还可以基于现有技术中的语音加密方式对第一语音加密数据进行加密，得到第二语音加密数据，例如，基于秘钥的加密方式(例如，高级加密标准(advanced encryption standard，aes))对第一语音加密数据进行加密，以进一步提高语音数据加密的安全性。
222.相应地，解密端在接收到上述第二语音加密数据之后，可以先基于秘钥(例如，aes秘钥)对上述第二语音加密数据进行解密，得到上述第一语音加密数据，在基于预先训练的语音解密神经网络对上述第一语音加密数据中的第一语音加密特征进行解密，得到解密语音数据。
223.可选地，本发明实施例的第一网络设备也可以接收第二网络设备发送的语音加密特征，将所接收的语音加密特征输入预先训练的语音解密神经网络，得到该语音加密特征对应的预测语音声谱特征，基于该语音加密特征对应的预测语音声谱特征确定该语音加密片段对应的语音解密数据，并将该语音加密片段对应的语音解密数据发送给第一终端。
224.参见图7，图7是本发明又一实施例提供的语音通信方法的流程图。该方法可以由第二网络设备执行，该第二网络设备可以是第二终端设备侧的网络设备，例如，可以是上述的第二局端节点或者第二网络节点等。如图7所示，包括以下步骤：
225.步骤701、从第一网络设备接收第一语音加密数据。
226.本实施例中，上述第一网络设备可以是第一终端侧的网络设备，例如，可以是上述的第一局端节点或第一网络节点等。上述第一语音加密数据可以仅包括第一语音加密特征，或者可以包括第一语音加密特征和第一语音加密特征的长度信息，或者可以包括第一
语音加密特征和第一指示信息，所述第一指示信息用于指示该第一语音加密数据对应的语音加密神经网络，或者可以包括第一语音加密特征、第一语音加密特征的长度信息和上述第一指示信息。
227.步骤702、将所述第一语音加密数据中的第一语音加密特征输入预先训练的语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征。
228.本实施例中，上述语音解密神经网络可以是与上述语音加密网络联合训练得到的，也即上述语音解密神经网络和语音加密网络为一起训练得到的。例如，上述语音加密神经网络和语音解密网络可以是通过如下方式训练得到的：依据多个语音样本对语音加密神经网络和语音解密网络进行迭代训练，直至所述语音加密神经网络输入的语音样本的声谱特征和所述语音解密神经网络输出的预测语音声谱特征之间的损失值最小化，在训练阶段上述语音解密神经网络的输入为所述语音加密神经网络的输出。
229.具体地，上述语音解密神经网络可以对语音加密特征进行特征学习，以预测上述语音加密特征对应的语音声谱特征，例如，语音线性谱特征。需要说明的是，上述语音解密神经网络的结构可以根据实际需求进行合理设置，例如，上述语音解密神经网络可以包括用于时序特征学习的深层循环神经网络、用于频域特征学习的膨胀卷积网络和用于对语音特征进行线性映射的线性层(linear层)等。
230.该步骤中，在上述第一语音加密数据仅包括第一语音加密特征的情况下，可以直接将上述第一语音加密数据，也即第一语音加密特征，输入预先训练的语音解密神经网络；在上述第一语音加密数据除了第一语音加密特征之外还包括其他信息的情况下，可以从上述第一语音加密数据中提取第一语音加密特征并输入预先训练的语音解密神经网络，例如，上述第一语音加密数据包括第一语音加密特征和第一语音加密特征的长度信息，且长度信息位于第一语音加密数据的初始两个字节，则可以提取位于第一语音加密数据的初始两个字节之后的信息，得到第一语音加密特征。
231.步骤703、根据所述第一预测语音声谱特征确定第一语音解密数据。
232.例如，可以将所述第一预测语音声谱特征进行反向频谱变换得到pcm格式的语音数据，也即上述第一语音解密数据。
233.步骤704、向第二终端发送所述第一语音解密数据。
234.本实施例中，第二网络设备向第二终端发送所述第一语音解密数据，这样第二终端可以直接播放该第一语音解密数据。
235.本发明实施例提供的语音通信方法，基于预先训练的语音解密神经网络对第一语音加密数据的语音加密特征进行解密，而不依赖秘钥进行解密，这样可以减少因秘钥被盗取导致的语音数据泄露，提高语音通信的安全性。
236.可选地，所述语音解密神经网络包括r个解密特征学习子网络、第二深层循环神经子网络和线性层，r为正整数；
237.其中，所述r个解密特征学习子网络对所述语音加密特征进行解密特征学习并输出第三语音特征，所述第二深层循环神经子网络对所述第三语音特征进行时序特征学习并输出第四语音特征，所述线性层对所述第四语音特征进行线性映射并输出所述预测语音声谱特征。
238.可以理解的是，该实施方式的实现方式可以参见上述语音解密方法实施例的相关
说明，此处不作赘述。
239.可选地，每个所述解密特征学习子网络均包括第三残差网络层和第四残差网络层；
240.所述第三残差网络层包括第二多头注意力层和第三求和归一化层，所述第三求和归一化层用于对所述第二多头注意力层的输入和所述第二多头注意力层的输出进行求和以及归一化处理；
241.所述第四残差网络层包括膨胀卷积层和第四求和归一化层，所述第四求和归一化层用于对所述膨胀卷积层的输入和所述膨胀卷积层的输出进行求和以及归一化处理，所述膨胀卷积层的输入为所述第三求和归一化层的输出。
242.可以理解的是，该实施方式的实现方式可以参见上述语音解密方法实施例的相关说明，此处不作赘述。
243.可选地，所述第二深层循环神经子网络包括q个bilstm层，q为正整数。
244.可以理解的是，该实施方式的实现方式可以参见上述语音解密方法实施例的相关说明，此处不作赘述。
245.可选地，在所述预先训练的语音解密神经网络包括至少两个不同的语音加密神经网络的情况下，所述将所述第一语音加密数据中的第一语音加密特征输入预先训练的语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征，包括：
246.确定所述第一语音加密数据对应的第一语音加密神经网络；
247.从所述至少两个不同的语音解密神经网络确定与所述第一语音加密神经网络对应的第一语音解密神经网络；
248.将所述第一语音加密数据中的第一语音加密特征输入所述第一语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征。
249.本实施例中，上述至少两个不同的语音解密神经网络可以是网络结构不同，例如，第一语音解密神经网络包括6个解密特征学习子网络、第二深层循环神经子网络和线性层，第二语音解密神经网络包括7个解密特征学习子网络、第二深层循环神经子网络和线性层；或者上述至少两个不同的语音解密神经网络也可以是网络结构相同但网络参数不同，分别利用不同的训练集对相同的网络结构进行训练得到网络参数不同的多个语音解密神经网络。
250.实际应用中，上述多个语音解密神经网络和多个语音加密神经网络之间可以是一一对应的，且由某一语音加密神经网络加密得到的语音加密数据，仅能通过该语音加密神经网络对应的语音解密网络进行解密。具体地，解密端可以基于目标语音加密数据中携带的第一指示信息或者加密端发送的第一指示信息确定第一语音加密数据对应的语音加密神经网络，即上述第一语音加密神经网络，其中，上述第一指示信息用于指示第一语音加密数据对应的语音加密神经网络。
251.本实施例通过确定所述目标语音加密数据对应的第一语音加密神经网络；从所述至少两个不同的语音解密神经网络确定与所述第一语音加密神经网络对应的第一语音解密神经网络；分别将每个所述语音加密特征输入所述第一语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征，可以在保证语音加密数据被破解的难度的同时提高语音解密的便捷性。
252.可选地，本发明实施例的第二网络设备也可以从第二终端接收语音数据流，从接收的语音数据流中截取语音片段，提取该语音片段的声谱特征并输入预先训练的语音加密神经网络，得到该语音片段对应的语音加密特征，向第一网络设备发送包括该语音片段对应的语音加密特征的语音加密数据。
253.以下结合图8对本发明实施例提供的语音通信方法进行说明：
254.上述的语音解密网络和语音解密网络可以是基于8k采样率的语音样本训练得到，其中，在提取mfcc特征时，窗口大小可以为20ms,步长10ms，每个窗口的数据做一个mfcc特征计算，所以0.2秒语音能得到19个mfcc特征序列。此外，本实施例可以将训练得到的语音加密网络和语音解密网络分别封装为加密程序me，和解密程序md。对于全双工通信网的局端节点，每个局端节点上同时安装有上述加密程序me和解密程序md。
255.如图8所示，当通信双方拨打接通完毕，也即通信链路创建完毕后，若第一终端侧用户开始说话，第一终端侧用户语音到达其对应的第一局端节点，则第一局端节点对其先用加密程序me进行加密，再传输到骨干网络。其中，具体加密过程可以如下：
256.每隔第一预设长度，例如，0.2秒，提取这段时间内缓存的语音数据，得到一个语音片段；对该语音片段，用跟加密程序me训练时相同参数，提取其mfcc特征；对所得到mfcc特征，用加密程序me进行加密表示，得到对应的语音加密片段，也即上述的语音加密特征。每个语音片段的语音加密片段大小固定，标记为le。
257.第一网络设备将语音加密片段封装为网络数据包，经过骨干网络进行路由传输给第二局端节点。第二局端节点对该语音加密片段进行解密，具体解密过程如下：
258.对接收到的加密数据流进行缓存，每当缓存数据长度达到le长度时，即得到一个语音加密片段。对该语音加密片段，调用解密程序md进行解密，得到语音线性频谱特征。对语音线性频谱特征进行反向频谱变换，得到pcm格式的语音数据流。
259.第二局端节点将得到的pcm格式的语音数据流发送到第二终端供其播放。
260.可以理解的是，若第二终端侧用户开始说话，语音数据的处理流程同上述过程，在此不做赘述。
261.本发明实施例提供的语音通信方法，由于全双工的骨干网络中传输的都是经由预先训练的加密神经网络加密的加密表示数据，因此可以减少语音通话内容被窃取的概率，此外，加密程序、解密程序直接嵌入在局端节点(例如，局端路由器、交换机等设备)上，不会像简单的密码那样容易盗取，可以进一步提高全双工通信信道的安全性。
262.参见图9，图9是本发明实施例提供的语音加密装置的结构图。如图9所示，语音加密装置900包括：
263.第一分片模块901，用于将语音数据进行分片，得到n个语音片段，n为大于1的整数；
264.第一提取模块902，用于提取每个所述语音片段的声谱特征；
265.第一输入模块903，用于将每个所述语音片段的声谱特征输入预先训练的语音加密神经网络，得到每个所述语音片段对应的语音加密特征；
266.第一拼接模块904，用于按序将每个所述语音片段对应的语音加密特征拼接，得到语音加密数据。
267.可选地，所述语音加密神经网络包括第一深层循环神经子网络、k个加密特征学习
子网络和前向连接层，k为正整数；
268.其中，所述第一深层循环神经子网络对所述语音片段的声谱特征进行时序特征学习并输出第一语音特征，所述k个加密特征学习子网络对所述第一语音特征进行加密特征学习并输出第二语音特征，所述前向连接层对所述第二语音特征进行维度变换并输出所述语音加密特征。
269.可选地，每个所述加密特征学习子网络均包括第一残差网络层和第二残差网络层；
270.所述第一残差网络层包括第一多头注意力层和第一求和归一化层，所述第一求和归一化层用于对所述第一多头注意力层的输入和所述第一多头注意力层的输出进行求和以及归一化处理；
271.所述第二残差网络层包括卷积层和第二求和归一化层，所述第二求和归一化层用于对所述卷积层的输入和所述卷积层的输出进行求和以及归一化处理，所述卷积层的输入为所述第一求和归一化层的输出。
272.可选地，所述第一深层循环神经子网络包括m个bilstm层，m为正整数。
273.可选地，所述第一拼接模块具体用于：
274.获取每个所述语音片段对应的语音加密特征的长度信息；
275.按序将每个所述语音片段对应的语音加密片段拼接，得到语音加密数据，其中，所述语音加密片段包括所述语音加密特征和所述语音加密特征的长度信息。
276.本发明实施例提供的语音加密装置900能够实现上述语音加密方法实施例中的各个过程，为避免重复，这里不再赘述。
277.参见图10，图10是本发明实施例提供的语音解密装置的结构图。如图10所示，语音解密装置1000包括：
278.第一获取模块1001，用于获取目标语音加密数据，其中，所述目标语音加密数据为根据上述任一方法实施例的语音加密方法加密得到的语音加密数据；
279.第二分片模块1002，用于将所述目标语音加密数据进行分片，得到s个语音加密特征，其中，s为大于1的整数；
280.第二输入模块1003，用于将每个所述语音加密特征输入预先训练的语音解密神经网络，得到每个所述语音加密特征对应的预测语音声谱特征；
281.确定模块1004，用于根据每个所述语音加密特征对应的预测语音声谱特征确定语音解密数据。
282.可选地，所述语音解密神经网络包括r个解密特征学习子网络、第二深层循环神经子网络和线性层，r为正整数；
283.其中，所述r个解密特征学习子网络对所述语音加密特征进行解密特征学习并输出第三语音特征，所述第二深层循环神经子网络对所述第三语音特征进行时序特征学习并输出第四语音特征，所述线性层对所述第四语音特征进行线性映射并输出所述预测语音声谱特征。
284.可选地，每个所述解密特征学习子网络均包括第三残差网络层和第四残差网络层；
285.所述第三残差网络层包括第二多头注意力层和第三求和归一化层，所述第三求和
归一化层用于对所述第二多头注意力层的输入和所述第二多头注意力层的输出进行求和以及归一化处理；
286.所述第四残差网络层包括膨胀卷积层和第四求和归一化层，所述第四求和归一化层用于对所述膨胀卷积层的输入和所述膨胀卷积层的输出进行求和以及归一化处理，所述膨胀卷积层的输入为所述第三求和归一化层的输出。
287.可选地，所述第二深层循环神经子网络包括q个bilstm层，q为正整数。
288.可选地，所述第二分片模块具体用于：
289.从所述目标语音加密数据中读取各个语音加密特征的长度信息；
290.根据所述目标语音加密数据中各个语音加密特征的长度信息对所述目标语音加密数据进行分片，得到s个语音加密特征。
291.本发明实施例提供的语音解密装置1000能够实现上述语音解密方法实施例中的各个过程，为避免重复，这里不再赘述。
292.参见图11，图11是本发明实施例提供的模型训练装置的结构图。如图11所示，模型训练装置1100包括：
293.第二获取模块1101，用于获取p个语音样本，其中，p为大于1的整数；
294.训练模块1102，用于根据所述p个语音样本对语音加密神经网络和语音解密神经网络进行迭代训练，直至第一语音声谱特征和第二语音声谱特征之间的损失值最小化；
295.其中，所述第一语音声谱特征为所述语音加密神经网络输入的语音样本的声谱特征，所述第二语音声谱特征为所述语音解密神经网络输出的预测语音声谱特征，所述语音解密神经网络的输入为所述语音加密神经网络的输出。
296.本发明实施例提供的模型训练装置1100能够实现上述模型训练方法实施例中的各个过程，为避免重复，这里不再赘述。
297.参见图12，图12是本发明实施例提供的语音通信装置的结构图。如图12所示，语音通信装置1200包括：
298.第一接收模块1201，用于从第一终端接收语音数据流；
299.截取模块1202，用于从所述语音数据流中截取第一语音片段；
300.第二提取模块1203，用于提取所述第一语音片段的声谱特征；
301.第三输入模块1204，用于将所述第一语音片段的声谱特征输入预先训练的语音加密神经网络，得到所述第一语音片段对应的第一语音加密特征；
302.第一发送模块1205，用于向第二网络设备发送第一语音加密数据，所述第一语音加密数据包括所述第一语音加密特征。
303.本发明实施例提供的语音通信装置1200能够实现上述语音通信方法实施例中的各个过程，为避免重复，这里不再赘述。
304.参见图13，图13是本发明又一实施例提供的语音通信装置的结构图。如图13所示，语音通信装置1300包括：
305.第二接收模块1301，用于从第一网络设备接收第一语音加密数据；
306.第四输入模块1302，用于将所述第一语音加密数据的第一语音加密特征输入预先训练的语音解密神经网络，得到所述第一语音加密特征对应的第一预测语音声谱特征；
307.确定模块1303，用于根据所述第一预测语音声谱特征确定第一语音解密数据；
308.第二发送模块1304，用于向第二终端发送所述第一语音解密数据。
309.本发明实施例提供的语音通信装置1300能够实现上述语音通信方法实施例中的各个过程，为避免重复，这里不再赘述。
310.参见图14，图14是本发明实施提供的电子设备的结构图，如图14所示，电子设备1400包括：处理器1401、存储器1402及存储在所述存储器1402上并可在所述处理器上运行的计算机程序，电子设备1400中的各个组件通过总线接口1403耦合在一起，所述计算机程序被所述处理器1401执行时实现上述的语音加密方法实施例的各个过程，或者实现上述的语音解密方法实施例的各个过程，或者实现上述的模型训练方法实施例的各个过程，或者实现上述的语音通信方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
311.本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的语音加密方法实施例的各个过程，或者实现上述的语音解密方法实施例的各个过程，或者实现上述的模型训练方法实施例的各个过程，或者实现上述的语音通信方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read
‑
only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等。
312.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
313.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
314.上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音加密、语音解密、模型训练、语音通信方法及装置与流程

相关文章

最热文献