语音信号的处理方法、装置、电子设备及存储介质与流程

2021-06-15 21:49:00 来源：中国专利 TAG：

本公开涉及语音处理
技术领域：
，尤其涉及一种语音信号的处理方法、装置、电子设备及存储介质。
背景技术：
：通常采集的语音信号中会包含噪声，噪声的存在对语音信号的处理会产生不利影响，因此噪声的去除对于语音信号的处理来说有着至关重要的作用。相关技术中，采用谱减法对语音信号进行去噪，即获取语音信号中的静音片段，从静音片段中提取出噪声信号，将语音信号与噪声信号相减即可去除语音信号中的噪声，但是对于语音信号中噪声发生变化的情况，谱减法难以去除噪声，去噪效果较差。技术实现要素：本公开提供了一种语音信号的处理方法、装置、电子设备及存储介质，提高了语音信号的去噪效果。根据本公开实施例的一方面，提供一种语音信号的处理方法，所述方法包括：确定原始语音信号中的多个语音信号帧的第一语音特征；调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的非局部语音特征；调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理，得到所述每个语音信号帧的混合语音特征；基于所述多个语音信号帧的混合语音特征获取去噪参数；按照所述去噪参数对所述原始语音信号进行去噪，得到目标语音信号。本公开实施例提供的方法，调用非局部注意力网络和局部注意力网络，对原始语音信号中的多个语音信号帧的第一语音特征进行处理，得到去噪参数，该去噪参数能够表示每个语音信号帧中除噪声信号之外的信号所占的比例，因此采用该去噪参数对原始语音信号进行去噪，实现原始语音信号中噪声的去除，且调用非局部注意力网络在对每个语音信号帧的第一语音特征进行处理时，能够考虑该语音信号帧的上下文信息，使得到的去噪参数更加准确，从而提高原始语音信号的去噪效果。在一种可能实现方式中，所述确定原始语音信号中的多个语音信号帧的第一语音特征，包括：调用特征提取网络分别对所述多个语音信号帧的原始幅度进行特征提取，得到所述多个语音信号帧的第一语音特征。本公开实施例中，由于语音信号帧中的噪声信号存在于语音信号帧的原始幅度中，因此对语音信号帧的原始幅度进行特征提取，而无需对原始语音信号中的原始相位进行处理，减少了处理量。在另一种可能实现方式中，所述按照所述去噪参数对所述原始语音信号进行去噪，得到目标语音信号，包括：调用语音去噪网络，按照所述去噪参数分别对所述多个语音信号帧的原始幅度进行去噪，得到所述多个语音信号帧的目标幅度；对所述多个语音信号帧的原始相位和目标幅度进行组合，得到所述目标语音信号。本公开实施例中，根据获取的去噪参数对原始幅度进行去噪，得到不包含噪声信号的目标幅度，实现对原始语音信号的原始幅度的去噪，再根据目标幅度和原始相位即可恢复出不包含噪声信号的目标语音信号，从而实现原始语音信号的去噪。这种去噪方式，只需对语音信号中的幅度进行处理而无需对相位进行处理，减少了需要处理的特征，提高了处理速度。在另一种可能实现方式中，所述基于所述多个语音信号帧的混合语音特征获取去噪参数，包括：调用特征重建网络对所述多个语音信号帧的混合语音特征进行特征重建，得到所述去噪参数。本公开实施例中，调用特征重构网络获取的去噪参数能够表示每个语音信号帧中除噪声信号之外的信号所占的比例，后续采用该去噪参数对原始语音信号进行去噪。在另一种可能实现方式中，所述非局部注意力网络包括第一处理单元、第二处理单元和第一融合单元，所述调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的非局部语音特征，包括：调用所述第一处理单元分别对所述多个语音信号帧的第一语音特征进行特征提取，得到所述每个语音信号帧的第二语音特征，所述第一处理单元中包括多个空洞残差子单元；调用所述第二处理单元，将所述每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的第三语音特征；调用所述第一融合单元，分别对所述每个语音信号帧的第二语音特征和第三语音特征进行融合，得到所述每个语音信号帧的非局部语音特征。本公开实施例中，调用非局部注意力网络中不同的处理单元分别对第一语音特征进行不同方面的处理，其中，包括多个空洞残差子单元的第一处理单元能够进一步对第一语音特征进行提取，得到更深层次的语音特征，而第二处理单元采用非局部注意力机制，在对每个语音信号帧的第一语音特征进行处理时，考虑语音信号中除该语音信号帧之外的语音信号帧，即结合上下文信息，得到更加准确的语音特征，调用第一融合单元将两个处理单元得到的语音特征融合在一起，得到非局部语音特征。并且，空洞残差子单元能够扩大感受野，也能够进一步获取更多的上下文信息。在另一种可能实现方式中，所述非局部注意力网络还包括第二融合单元，所述调用所述第一融合单元，分别对所述每个语音信号帧的第二语音特征和第三语音特征进行融合，得到所述每个语音信号帧的非局部语音特征之后，所述处理方法还包括：调用所述第二融合单元对所述每个语音信号帧的非局部语音特征和第一语音特征进行融合，得到所述每个语音信号帧融合后的非局部语音特征。本公开实施例中，非局部注意力网络中采用残差学习网络，在得到非局部语音特征之后，再将该非局部语音特征与输入的第一语音特征进行融合，使最终得到的非局部语音特征更加准确，避免了非局部语音特征丢失一些重要的特征，提高了非局部语音特征的准确率。并且，残差学习网络更容易优化，在训练过程中能够提高模型的训练效率。在另一种可能实现方式中，所述第二处理单元包括残差非局部子单元、卷积子单元和反卷积子单元；所述调用所述第二处理单元，将所述每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的第三语音特征，包括：调用所述残差非局部子单元，根据所述多个语音信号帧对应的权重，将所述每个语音信号帧的第一语音特征分别与所述其他语音信号帧的第一语音特征进行加权融合，得到所述每个语音信号帧加权融合后的第一语音特征；调用所述卷积子单元，对所述每个语音信号帧加权融合后的第一语音特征进行编码，得到所述每个语音信号帧的编码特征；调用所述反卷积子单元，对所述每个语音信号帧的编码特征进行解码，得到所述每个语音信号帧的第三语音特征。本公开实施例中，残差非局部子单元在处理每个语音信号帧的第一语音特征时，考虑语音信号中除该语音信号帧之外的语音信号帧，即结合上下文信息，得到更加准确的语音特征。在另一种可能实现方式中，所述第二处理单元还包括特征缩小子单元，所述调用所述卷积层，对所述每个语音信号帧加权融合后的第一语音特征进行编码，得到所述每个语音信号帧的编码特征之后，所述处理方法还包括：调用所述特征缩小子单元，对所述每个语音信号帧的编码特征进行特征缩小，得到多个缩小后的编码特征；所述调用所述反卷积层，对所述每个语音信号帧的编码特征进行解码，得到所述每个语音信号帧的第三语音特征，包括：调用所述反卷积层，对所述多个缩小后的编码特征进行解码，得到所述每个语音信号帧的第三语音特征。本公开实施例中，对编码特征进行缩小处理，能够减小编码特征，从而减少计算量，提高对编码特征的处理速度。在另一种可能实现方式中，所述残差非局部子单元包括第一融合层和第二融合层，所述调用所述残差非局部子单元，根据所述多个语音信号帧对应的权重，将所述每个语音信号帧的第一语音特征分别与所述其他语音信号帧的第一语音特征进行加权融合，得到所述每个语音信号帧加权融合后的第一语音特征，包括：调用所述第一融合层，根据所述多个语音信号帧对应的权重，将所述每个语音信号帧的第一语音特征分别与所述其他语音信号帧的第一语音特征进行加权融合，得到所述每个语音信号帧的融合特征；调用所述第二融合层，分别对所述每个语音信号帧的第一语音特征与融合特征进行融合，得到所述每个语音信号帧加权融合后的第一语音特征。本公开实施例中，调用第一融合层将不同语音信号帧的第一语音特征根据对应的权重融合在一起，得到更加准确的融合特征，且在包括第一融合层和第二融合层的情况下，残差非局部子单元即为一个，将融合特征与输入的第一语音特征进行融合，使最终得到加权融合后的第一语音特征更加准确，避免了融合特征丢失一些重要的特征，提高了权融合后的第一语音特征的准确率。并且，残差学习网络更容易优化，在训练过程中能够提高模型的训练效率。在另一种可能实现方式中，语音处理模型至少包括所述非局部注意力网络和所述局部注意力网络，所述语音处理模型的训练过程如下：获取样本语音信号和样本噪声信号；将所述样本语音信号与所述样本噪声信号进行混合，得到样本混合信号；调用所述语音处理模型，对所述样本混合信号中的多个样本语音信号帧进行处理，得到所述样本混合信号对应的预测去噪参数；按照所述预测去噪参数对所述原始语音信号进行去噪，得到去噪后的预测语音信号；根据所述预测语音信号与所述样本语音信号之间的差异，训练所述语音处理模型。本公开实施例中，将样本语音信号与样本噪声信号混合得到样本混合信号，采用样本混合信号来训练语音处理模型，由于该语音处理模型中采用了残差学习网络的网络结构，因此在训练过程中提高了模型的训练速度。根据本公开实施例的再一方面，提供一种语音信号的处理装置，所述装置包括：特征确定单元，被配置为执行确定原始语音信号中的多个语音信号帧的第一语音特征；非局部特征获取单元，被配置为执行调用非局部注意力网络对所述多个语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的非局部语音特征；混合特征获取单元，被配置为执行调用局部注意力网络对所述每个语音信号帧的非局部语音特征分别进行处理，得到所述每个语音信号帧的混合语音特征；去噪参数获取单元，被配置为执行基于所述多个语音信号帧的混合语音特征获取去噪参数；目标信号获取单元，被配置为执行按照所述去噪参数对所述原始语音信号进行去噪，得到目标语音信号。在一种可能实现方式中，所述特征确定单元，被配置为执行调用特征提取网络分别对所述多个语音信号帧的原始幅度进行特征提取，得到所述多个语音信号帧的第一语音特征。在另一种可能实现方式中，所述目标信号获取单元，包括：幅度获取子单元，被配置为执行调用语音去噪网络，按照所述去噪参数分别对所述多个语音信号帧的原始幅度进行去噪，得到所述多个语音信号帧的目标幅度；信号获取子单元，被配置为执行对所述多个语音信号帧的原始相位和目标幅度进行组合，得到所述目标语音信号。在另一种可能实现方式中，所述去噪参数获取单元，被配置为执行调用特征重建网络对所述多个语音信号帧的混合语音特征进行特征重建，得到所述去噪参数。在另一种可能实现方式中，所述非局部注意力网络包括第一处理单元、第二处理单元和第一融合单元，所述非局部特征获取单元，包括：特征提取子单元，被配置为执行调用所述第一处理单元分别对所述多个语音信号帧的第一语音特征进行特征提取，得到所述每个语音信号帧的第二语音特征，所述第一处理单元中包括多个空洞残差子单元；第一融合子单元，被配置为执行调用所述第二处理单元，将所述每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到所述每个语音信号帧的第三语音特征；第二融合子单元，被配置为执行调用所述第一融合单元，分别对所述每个语音信号帧的第二语音特征和第三语音特征进行融合，得到所述每个语音信号帧的非局部语音特征。在另一种可能实现方式中，所述非局部注意力网络还包括第二融合单元，所述非局部特征获取单元，还包括：第三融合子单元，被配置为执行调用所述第二融合单元对所述每个语音信号帧的非局部语音特征和第一语音特征进行融合，得到所述每个语音信号帧融合后的非局部语音特征。在另一种可能实现方式中，所述第二处理单元包括残差非局部子单元、卷积子单元和反卷积子单元；所述第一融合子单元，被配置为执行：调用所述残差非局部子单元，根据所述多个语音信号帧对应的权重，将所述每个语音信号帧的第一语音特征分别与所述其他语音信号帧的第一语音特征进行加权融合，得到所述每个语音信号帧加权融合后的第一语音特征；调用所述卷积子单元，对所述每个语音信号帧加权融合后的第一语音特征进行编码，得到所述每个语音信号帧的编码特征；调用所述反卷积子单元，对所述每个语音信号帧的编码特征进行解码，得到所述每个语音信号帧的第三语音特征。在另一种可能实现方式中，所述第二处理单元还包括特征缩小子单元，所述第一融合子单元，被配置为执行：调用所述特征缩小子单元，对所述每个语音信号帧的编码特征进行特征缩小，得到多个缩小后的编码特征；所述调用所述反卷积层，对所述每个语音信号帧的编码特征进行解码，得到所述每个语音信号帧的第三语音特征，包括：调用所述反卷积层，对所述多个缩小后的编码特征进行解码，得到所述每个语音信号帧的第三语音特征。在另一种可能实现方式中，所述残差非局部子单元包括第一融合层和第二融合层，所述第一融合子单元，被配置为执行：调用所述第一融合层，根据所述多个语音信号帧对应的权重，将所述每个语音信号帧的第一语音特征分别与所述其他语音信号帧的第一语音特征进行加权融合，得到所述每个语音信号帧的融合特征；调用所述第二融合层，分别对所述每个语音信号帧的第一语音特征与融合特征进行融合，得到所述每个语音信号帧加权融合后的第一语音特征。在另一种可能实现方式中，语音处理模型至少包括所述非局部注意力网络和所述局部注意力网络，所述语音处理模型的训练过程如下：获取样本语音信号和样本噪声信号；将所述样本语音信号与所述样本噪声信号进行混合，得到样本混合信号；调用所述语音处理模型，对所述样本混合信号中的多个样本语音信号帧进行处理，得到所述样本混合信号对应的预测去噪参数；按照所述预测去噪参数对所述原始语音信号进行去噪，得到去噪后的预测语音信号；根据所述预测语音信号与所述样本语音信号之间的差异，训练所述语音处理模型。根据本公开实施例的再一方面，提供了一种电子设备，所述电子设备包括：一个或多个处理器；用于存储所述一个或多个处理器可执行指令的存储器；其中，所述一个或多个处理器被配置为执行上述方面所述的语音信号的处理方法。根据本公开实施例的再一方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述方面所述的语音信号的处理方法。根据本公开实施例的再一方面，提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时以实现上述方面所述的语音信号的处理方法。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种语音处理模型的示意图。图2是根据一示例性实施例示出的另一种语音处理模型的示意图。图3是根据一示例性实施例示出的另一种语音处理模型的示意图。图4是根据一示例性实施例示出的一种语音信号的处理方法的流程图。图5是根据一示例性实施例示出的另一种语音信号的处理方法的流程图。图6是根据一示例性实施例示出的一种非局部注意力网络的示意图。图7是根据一示例性实施例示出的一种非局部语音特征获取方法的流程图。图8是根据一示例性实施例示出的一种第一处理单元的示意图。图9是根据一示例性实施例示出的一种第二处理单元的示意图。图10是根据一示例性实施例示出的另一种第二处理单元的示意图。图11是根据一示例性实施例示出的一种残差非局部子单元的示意图。图12是根据一示例性实施例示出的另一种非局部注意力网络的示意图。图13是根据一示例性实施例示出的一种语音信号的处理装置的框图。图14是根据一示例性实施例示出的另一种语音信号的处理装置的框图。图15是根据一示例性实施例示出的一种终端的结构框图。图16是根据一示例性实施例示出的一种服务器的结构框图。具体实施方式为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。需要说明的是，本公开的说明书和权利要求书及上述附图说明中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)，均为经用户授权或者经过各方充分授权的信息。本公开实施例提供的语音信号的处理方法能够应用于多种场景下。例如，应用于直播场景下。在直播过程中，主播终端采集的主播的语音信号中可能存在噪声信号，如果观众终端直接播放该语音信号，可能会由于噪声的存在导致语音信号不清晰，影响观众的观看体验，此时能够采用本公开实施例提供的方法，去除语音信号中的噪声信号，提高语音信号的语音质量，使观众终端能够播放清晰的语音信号，提高直播效果。又例如，应用于自动语音识别场景下。在语音识别过程中，如果语音信号中存在噪声信号，噪声信号会对语音信号识别产生影响，导致语音识别准确率较低，难以准确识别出语音信号的内容，此时能够采用本公开实施例提供的方法，先对语音信号中进行去噪，对去噪后的语音信号进行识别，以提高语音识别的准确率。本公开实施例提供的方法还可以应用于视频播放、语种识别、语音合成、身份识别等场景下。图1是根据一示例性实施例提供的一种语音处理模型的示意图，该语音处理模型包括：非局部注意力网络101和局部注意力网络102，该非局部注意力网络101和局部注意力网络102连接。其中，非局部注意力网络101用于对输入的原始语音信号的第一语音特征进行处理，以得到原始语音信号的非局部语音特征，局部注意力网络102用于对原始语音信号的非局部语音特征进行进一步处理，以得到原始语音信号的混合语音特征。在一种可能实现方式中，参见图2，语音处理模型还包括：特征提取网络103、特征重建网络104和语音去噪网络105，特征提取网络103与非局部注意力网络101连接，特征重建网络104和局部注意力网络102连接，语音去噪网络105与特征重建网络104连接。其中，特征提取网络103用于提取原始语音信号的第一语音特征，特征重建网络104用于对处理后的原始语音信号的混合语音特征进行特征重建，以得到原始语音信号的去噪参数，语音去噪网络105用于对原始语音信号进行去噪。在一种可能实现方式中，语音处理模型中包括多个非局部注意力网络101和多个局部注意力网络102，该多个非局部注意力网络101和该多个局部注意力网络102能够按照任意顺序依次连接。例如，参见图3，语音处理模型中包括两个非局部注意力网络101和两个局部注意力网络102，特征提取网络103与第一个非局部注意力网络101连接，第一个非局部注意力网络101与第一个局部注意力网络102连接，第一个局部注意力网络102与第二个局部注意力网络103连接，第二个局部注意力网络103与第二个非局部注意力网络101连接，第二个非局部注意力网络101与特征重建网络104连接。本公开实施例提供的语音信号的处理方法可以应用于电子设备中，该电子设备为终端或服务器。该终端为便携式、袖珍式、手持式等多种类型的终端，如手机、计算机、平板电脑等。该服务器是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。图4是根据一示例性实施例示出的一种语音信号的处理方法的流程图，参见图4，该方法应用于电子设备中，包括以下步骤：401、确定原始语音信号中的多个语音信号帧的第一语音特征。402、调用非局部注意力网络对多个语音信号帧的第一语音特征进行融合，得到每个语音信号帧的非局部语音特征。403、调用局部注意力网络对每个语音信号帧的非局部语音特征分别进行处理，得到每个语音信号帧的混合语音特征。404、基于多个语音信号帧的混合语音特征获取去噪参数。405、按照去噪参数对原始语音信号进行去噪，得到目标语音信号。本公开实施例提供的方法，调用非局部注意力网络和局部注意力网络，对原始语音信号中的多个语音信号帧的第一语音特征进行处理，得到去噪参数，该去噪参数能够表示每个语音信号帧中除噪声信号之外的信号所占的比例，因此采用该去噪参数对原始语音信号进行去噪，实现原始语音信号中噪声的去除，且调用非局部注意力网络在对每个语音信号帧的第一语音特征进行处理时，能够考虑该语音信号帧的上下文信息，使得到的去噪参数更加准确，从而提高原始语音信号的去噪效果。在一种可能实现方式中，确定原始语音信号中的多个语音信号帧的第一语音特征，包括：调用特征提取网络分别对多个语音信号帧的原始幅度进行特征提取，得到多个语音信号帧的第一语音特征。在另一种可能实现方式中，按照去噪参数对原始语音信号进行去噪，得到目标语音信号，包括：调用语音去噪网络，按照去噪参数分别对多个语音信号帧的原始幅度进行去噪，得到多个语音信号帧的目标幅度；对多个语音信号帧的原始相位和目标幅度进行组合，得到目标语音信号。在另一种可能实现方式中，基于多个语音信号帧的混合语音特征获取去噪参数，包括：调用特征重建网络对多个语音信号帧的混合语音特征进行特征重建，得到去噪参数。在另一种可能实现方式中，非局部注意力网络包括第一处理单元、第二处理单元和第一融合单元，调用非局部注意力网络对多个语音信号帧的第一语音特征进行融合，得到每个语音信号帧的非局部语音特征，包括：调用第一处理单元分别对多个语音信号帧的第一语音特征进行特征提取，得到每个语音信号帧的第二语音特征，第一处理单元中包括多个空洞残差子单元；调用第二处理单元，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到每个语音信号帧的第三语音特征；调用第一融合单元，分别对每个语音信号帧的第二语音特征和第三语音特征进行融合，得到每个语音信号帧的非局部语音特征。在另一种可能实现方式中，非局部注意力网络还包括第二融合单元，调用第一融合单元，分别对每个语音信号帧的第二语音特征和第三语音特征进行融合，得到每个语音信号帧的非局部语音特征之后，处理方法还包括：调用第二融合单元对每个语音信号帧的非局部语音特征和第一语音特征进行融合，得到每个语音信号帧融合后的非局部语音特征。在另一种可能实现方式中，第二处理单元包括残差非局部子单元、卷积子单元和反卷积子单元；调用第二处理单元，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到每个语音信号帧的第三语音特征，包括：调用残差非局部子单元，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧加权融合后的第一语音特征；调用卷积子单元，对每个语音信号帧加权融合后的第一语音特征进行编码，得到每个语音信号帧的编码特征；调用反卷积子单元，对每个语音信号帧的编码特征进行解码，得到每个语音信号帧的第三语音特征。在另一种可能实现方式中，第二处理单元还包括特征缩小子单元，调用卷积层，对每个语音信号帧加权融合后的第一语音特征进行编码，得到每个语音信号帧的编码特征之后，处理方法还包括：调用特征缩小子单元，对每个语音信号帧的编码特征进行特征缩小，得到多个缩小后的编码特征；调用反卷积层，对每个语音信号帧的编码特征进行解码，得到每个语音信号帧的第三语音特征，包括：调用反卷积层，对多个缩小后的编码特征进行解码，得到每个语音信号帧的第三语音特征。在另一种可能实现方式中，残差非局部子单元包括第一融合层和第二融合层，调用残差非局部子单元，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧加权融合后的第一语音特征，包括：调用第一融合层，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧的融合特征；调用第二融合层，分别对每个语音信号帧的第一语音特征与融合特征进行融合，得到每个语音信号帧加权融合后的第一语音特征。在另一种可能实现方式中，语音处理模型至少包括非局部注意力网络和局部注意力网络，语音处理模型的训练过程如下：获取样本语音信号和样本噪声信号；将样本语音信号与样本噪声信号进行混合，得到样本混合信号；调用语音处理模型，对样本混合信号中的多个样本语音信号帧进行处理，得到样本混合信号对应的预测去噪参数；按照预测去噪参数对原始语音信号进行去噪，得到去噪后的预测语音信号；根据预测语音信号与样本语音信号之间的差异，训练语音处理模型。图5是根据一示例性实施例示出的另一种语音信号的处理方法的流程图，参见图5，该方法应用于电子设备中，包括以下步骤：501、电子设备获取原始语音信号中的多个语音信号帧的原始幅度和原始相位。由于语音信号中包括幅度和相位，语音信号中的噪声信号包含在幅度中，因此本公开实施例中，获取原始语音信号中每个语音信号帧的原始幅度和原始相位，对原始幅度进行去噪，以实现对原始语音信号的去噪，而无需对原始相位进行处理，减少了处理量。其中，原始语音信号为电子设备采集的，或者为其他电子设备发送给该电子设备的包含噪声信号的语音信号，例如噪声信号为环境噪声、白噪声等类型的噪声信号。其中，原始语音信号中包括多个语音信号帧，电子设备分别对每个语音信号中进行傅里叶变换，得到每个语音信号帧的原始幅度和原始相位，后续对每个语音信号帧的原始幅度进行处理，以实现对原始幅度的去噪。其中，傅里叶变换包括快速傅里叶变换、短时傅里叶变换等。在一种可能实现方式中，由于语音处理模型每次处理的语音信号的信号长度有限，例如，每次能够处理一分钟的语音信号、两分钟的语音信号等。因此，原始语音信号的信号长度不能够超过参考信号长度，即原始语音信号的时长不能超过参考时长。例如，每次处理64个语音信号帧。502、电子设备调用特征提取网络，分别对多个语音信号帧的原始幅度进行特征提取，得到多个语音信号帧的第一语音特征。其中，语音信号帧的第一语音特征用于描述对应的语音信号帧，第一语音特征采用向量、矩阵或其他形式表示。多个语音信号帧的第一语音特征可以分别表示，也可以将多个语音信号帧的第一语音特征组合在一起表示，例如，每个语音信号帧的第一语音特征为向量，则将多个向量组合在一起构成一个矩阵，该矩阵中每一列表示一个语音信号帧的第一语音特征。在一种可能实现方式中，该特征提取网络中包括卷积层、批量归一化层和激活函数层。503、电子设备调用非局部注意力网络对多个语音信号帧的第一语音特征进行融合，得到每个语音信号帧的非局部语音特征。其中，每个语音信号帧的非局部语音特征是结合了多个语音信号帧的第一语音特征得到的，即考虑语音信号帧之前和之后的语音信号帧的特征。本公开实施例中，非局部注意力网络采用注意力机制和残差学习来对第一语音特征进行处理，在对每个语音信号帧的第一语音特征进行处理的过程中，能够考虑该语音信号帧的上下文信息，使处理得到的非局部语音特征更加准确，且由于语音信号帧的第一语音特征在处理过程中会丢失一些语音特征，采用残差学习能够在对第一语音特征进行处理之后，再结合输入的第一语音特征来获取非局部语音特征，避免在对第一语音特征进行处理得到非局部语音特征的过程中丢失重要的语音特征。在一种可能实现方式中，参见图6，非局部注意力网络包括第一处理单元、第二处理单元、第一融合单元和第二融合单元，该第一处理单元为主干分支(trunkbranch)，第二处理单元为掩码分支(maskbranch)。该第一处理单元和第二处理单元分别对输入的多个语音信号帧的第一语音信号进行处理，第一融合单元对第一处理单元和第二处理单元处理之后得到的特征进行融合，第二融合单元对第一融合单元融合得到的特征与非局部注意力网络中输入的特征进行融合。电子设备调用非局部注意力网络处理每个语音信号帧的第一语音特征的过程参见图7，该过程包括以下步骤：701、电子设备调用第一处理单元分别对多个语音信号帧的第一语音特征进行特征提取，得到每个语音信号帧的第二语音特征。其中，该第二语音特征是对第一语音特征进行进一步提取得到的，第二语音特征与第一语音特征相比包含更少的噪声特征。在一种可能实现方式中，参见图8，第一处理单元中包括多个空洞残差子单元(res.unit)，图8仅是以两个空洞残差子单元为例，每个空洞残差子单元包括空洞卷积层、批量归一化层和激活函数层，且该多个空洞残差子单元采用残差学习网络的网络结构连接。其中，空洞卷积层能够扩大感受野，获取更多的上下文信息。在一种可能实现方式中，非局部注意力网络还包括至少一个空洞残差单元，每个空洞残差单元包括两个空洞卷积子单元，这两个空洞残差子单元采用残差学习网络的网络结构连接。电子设备在调用第一处理单元和第二处理单元对每个语音信号帧的第一语音特征进行处理之前，先调用至少一个空洞残差单元对每个语音信号帧的第一语音特征进行特征提取，得到每个语音信号帧进一步提取后的第一语音特征，后续第一处理单元和第二处理单元对每个语音信号帧进一步提取后的第一语音特征进行处理。上述调用包括多个空洞残差子单元的第一处理单元能够进一步对第一语音特征进行提取，得到更深层次的语音特征。702、电子设备调用第二处理单元将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到每个语音信号帧的第三语音特征。其中，每个语音信号帧的第三语音特征是结合了其他语音信号帧的第一语音特征得到的。在一种可能实现方式中，参见图9，第二处理单元包括残差非局部子单元、卷积子单元和反卷积子单元。电子设备调用残差非局部子单元，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧加权融合后的第一语音特征；调用卷积子单元，对每个语音信号帧加权融合后的第一语音特征进行编码，得到每个语音信号帧的编码特征；调用反卷积子单元，对每个语音信号帧的编码特征进行解码，得到每个语音信号帧的第三语音特征。在一种可能实现方式中，参见图10，第二处理单元还包括多个特征缩小子单元、多个第一空洞残差子单元、多个第二空洞残差子单元和激活函数子单元，残差非局部子单元与第一个第一空洞残差子单元连接，多个第一空洞残差子单元依次连接，最后一个空洞残差子单元与卷积子单元连接，卷积子单元与第一个特征缩小子单元连接，多个特征缩小子单元依次连接，最后一个特征缩小子单元与反卷积子单元连接，反卷积子单元与第一个第二空洞残差子单元连接，多个第二空洞残差子单元依次连接，最后一个空洞残差子单元与激活函数子单元连接。另外，图10仅是以两个第一空洞残差子单、两个第二空洞残差子单元和两个特征缩小子单元为例，第一空洞残差子单、第二空洞残差子单元和特征缩小子单元还可以是其他数量。其中，激活函数子单元中的激活函数可以为sigmoid函数或其他激活函数，第一空洞残差子单元与第三空洞残差子单元可以相同也可以不同，每个空洞残差子单元中包括空洞卷积层、批量归一化层和激活函数层。可选地，特征缩小子单元也是一种空洞残差子单元。在一种可能实现方式中，电子设备调用多个第一空洞残差子单元对每个语音信号帧加权融合后的第一语音特征进行处理，得到每个语音信号帧进一步处理后的第一语音特征；调用卷积子单元对每个语音信号帧进一步处理后的第一语音特征进行编码，得到每个语音信号帧的编码特征；调用多个特征缩小子单元，对每个语音信号帧的编码特征进行特征缩小，得到多个缩小后的编码特征；调用反卷积层，对多个缩小后的编码特征进行解码，得到每个语音信号帧解码后的语音特征；调用多个第二空洞残差子单元对每个语音信号帧解码后的语音特征进行处理，得到每个语音信号帧的第三语音特征。其中，对编码特征进行缩小处理，能够减小编码特征，从而减少计算量，提高对编码特征的处理速度。在一种可能实现方式中，残差非局部子单元包括第一融合层和第二融合层，电子设备调用第一融合层，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧的融合特征；调用第二融合层，分别对每个语音信号帧的第一语音特征与融合特征进行融合，得到每个语音信号帧加权融合后的第一语音特征。本公开实施例中，调用第一融合层将不同语音信号帧的第一语音特征根据对应的权重融合在一起，得到更加准确的融合特征，且在包括第一融合层和第二融合层的情况下，残差非局部子单元即为一个残差学习网络，将融合特征与输入的第一语音特征进行融合，使最终得到加权融合后的第一语音特征更加准确，避免了融合特征丢失一些重要的特征，提高了权融合后的第一语音特征的准确率。并且，残差学习网络更容易优化，在训练过程中能够提高模型的训练效率。在一种可能实现方式中，参见图11，图11以对三个语音信号帧进行处理为例进行说明，残差非局部子单元还包括多个卷积层，第三融合层和归一化层，第三融合层与两个卷积层连接，该第三融合层用于将连接的两个卷积层处理的第一语音特征进行融合，该第三融合层与归一化层连接，归一化层用于对第三融合层输出的融合后的语音特征进行归一化，该归一化层与第一融合层连接，第一融合层用于将另一个卷积层处理的第一语音特征与归一化层输出的归一化后的语音特征进行融合，得到每个语音信号帧的融合特征，将该融合特征经过一个卷积层进行处理后与第一语音特征进行融合，得到加权融合后的第一语音特征。在一种可能实现方式中，第一融合层和第三融合层中采用矩阵相乘的方式对语音特征进行融合，第二融合层采用矩阵相加的方式对语音特征进行融合。可选地，对于每个语音信号帧，该语音信号帧的第一语音特征为t*k*c，该第一语音特征表示时间t和频率k对应的语音特征c，为了能够对不同语音信号帧的语音特征进行相乘或相加，需要对语音特征进行形式变换。例如，残差非局部子单元采用下述公式对语音信号帧xi的第一语音特征进行处理：oi＝wzyi xi＝wzsoftmax((wuxi)twvxj)(wgxi) xi；其中，oi表示语音信号帧xi加权融合后的第一语音特征，wz、wu、wv和wg为已知的模型参数，softmax表示进行归一化处理，xj表示除语音信号帧xi之外的其他语音信号帧，xi表示语音信号帧xi的融合特征。703、电子设备调用第一融合单元，分别对每个语音信号帧的第二语音特征和第三语音特征进行融合，得到每个语音信号帧的非局部语音特征。在一种可能实现方式中，第一融合单元为乘法单元，即分别将每个语音信号帧的第二语音特征和第三语音特征相乘，得到融合后的非局部语音特征。704、电子设备调用第二融合单元对每个语音信号帧的非局部语音特征和第一语音特征进行融合，得到每个语音信号帧融合后的非局部语音特征。在一种可能实现方式中，第二融合单元为加法单元，即电子设备将每个语音信号帧的非局部语音特征和第一语音特征相加，得到每个语音信号帧融合后的非局部语音特征。图7所示的实施例中，调用非局部注意力网络中不同的处理单元分别对第一语音特征进行不同方面的处理，其中，包括多个空洞残差子单元的第一处理单元能够进一步对第一语音特征进行提取，得到更深层次的语音特征，而第二处理单元采用非局部注意力机制，在对每个语音信号帧的第一语音特征进行处理时，考虑语音信号中除该语音信号帧之外的语音信号帧，即结合上下文信息，得到更加准确的语音特征，调用第一融合单元将两个处理单元得到的语音特征融合在一起，得到非局部语音特征。并且，空洞残差子单元能够扩大感受野，也能够进一步获取更多的上下文信息。并且，非局部注意力网络中包括第二融合单元时，该非局部注意力网络即为一个残差学习网络，在得到非局部语音特征之后，再将该非局部语音特征与输入的第一语音特征进行融合，使最终得到的非局部语音特征更加准确，避免了非局部语音特征丢失一些重要的特征，提高了非局部语音特征的准确率。并且，残差学习网络更容易优化，在训练过程中能够提高模型的训练效率。另外，在一种可能实现方式中，参见图12，非局部注意力单元还包括多个空洞卷积单元，电子设备先调用多个空洞残差单元对输入每个语音信号帧的第一语音特征进行处理，将处理后的第一语音特征再输入至第一处理单元和第二处理单元，同样的，在经过第二融合单元得到非局部语音特征之后，调用多个空洞残差单元对该非局部语音特征进行处理，将处理后的非局部语音特征输入至后续的局部注意力网络中。其中，图12仅是以四个空洞残差单元为例进行说明。504、电子设备调用局部注意力网络对每个语音信号帧的非局部语音特征分别进行处理，得到每个语音信号帧的混合语音特征。其中，混合语音特征中已经不包含噪声特征，且每个语音信号帧的混合语音特征都是考虑了其他语音信号帧的语音特征之后得到的，更加准确。本公开实施例中，局部注意力网络与非局部注意力网络的网络结构类似，区别在于局部注意力网络中不包括残差非局部子单元，对于局部注意力网络的网络结构在此不再赘述。需要说明的是，本公开实施例仅是以一个非局部注意力网络和一个局部注意力网络为例进行说明。在另一实施例中包括多个非局部注意力网络和多个局部注意力网络，即在得到混合语音特征之后，能够将该混合语音特征再输入至之后的非局部注意力网络或局部注意力网络中继续进行处理，以得到更加准确的混合语音信号。505、电子设备调用特征重建网络对多个语音信号帧的混合语音特征进行特征重建，得到去噪参数。其中，去噪参数为原始语音信号对应的去噪参数，去噪参数用于表示语音信号帧中除噪声信号之外的语音信号所占的比例，后续能够采用该去噪参数对原始语音信号进行去噪。可选地，该去噪参数采用矩阵形式表示，矩阵中的每个元素表示一个语音信号帧的去噪参数，或者矩阵中的一列元素或一行元素表示一个语音信号帧的去噪参数。其中，特征重建网络为卷积网络或其他类型的网络。506、电子设备调用语音去噪网络，按照去噪参数分别对多个语音信号帧的原始幅度进行去噪，得到多个语音信号帧的目标幅度。在一种可能实现方式中，该语音去噪网络为乘法网络，将去噪参数与多个原始幅度相乘，得到多个语音信号帧的目标幅度，该目标幅度中不包含噪声信号。可选地，如果去噪参数为矩阵，则矩阵中的每个元素分别与对应的语音信号帧的原始幅度相乘，或者矩阵中的一列元素或一行元素分别与对应的语音信号帧的原始幅度相乘。507、电子设备对多个语音信号帧的原始相位和目标幅度进行组合，得到目标语音信号。在一种可能实现方式中，电子设备对多个语音信号帧的原始相位和目标幅度进行傅里叶逆变换，得到目标语音信号，该目标语音信号为去除噪声信号后的语音信号。这种对语音信号帧中的原始幅度进行去噪的方式，只需对语音信号中的幅度进行处理而无需对相位进行处理，减少了需要处理的特征，提高了处理速度。本公开实施例提供的方法，调用非局部注意力网络和局部注意力网络，对原始语音信号中的多个语音信号帧的第一语音特征进行处理，得到去噪参数，该去噪参数能够表示每个语音信号帧中除噪声信号之外的信号所占的比例，因此采用该去噪参数对原始语音信号进行去噪，实现原始语音信号中噪声的去除，且调用非局部注意力网络在对每个语音信号帧的第一语音特征进行处理时，能够考虑该语音信号帧的上下文信息，使得到的去噪参数更加准确，从而提高原始语音信号的去噪效果。并且，由于语音信号帧中的噪声信号存在于语音信号帧的原始幅度中，因此对语音信号帧的原始幅度进行特征提取，根据获取的去噪参数对原始幅度进行去噪，得到不包含噪声信号的目标幅度，实现对原始语音信号的原始幅度的去噪，再根据目标幅度和原始相位即可恢复出不包含噪声信号的目标语音信号，从而实现原始语音信号的去噪。这种去噪方式，只需对语音信号中的幅度进行处理而无需对相位进行处理，减少了需要处理的特征。另外，在调用语音处理模型，对原始语音信号进行处理之前，需要训练该语音处理模型，训练过程如下：获取样本语音信号和样本噪声信号；将样本语音信号与样本噪声信号进行混合，得到样本混合信号；调用语音处理模型，对样本混合信号中的多个样本语音信号帧进行处理，得到样本混合信号对应的预测去噪参数；按照预测去噪参数对原始语音信号进行去噪，得到去噪后的预测语音信号；根据预测语音信号与样本语音信号之间的差异，训练语音处理模型。其中，样本语音信号为不包含噪声信号的干净语音信号。并且，由于该语音处理模型中采用了残差学习网络的网络结构，因此在训练过程中提高了模型的训练速度。例如，从语音数据库中获取多个用户的样本语音信号，再从噪声数据库中获取多种样本噪声信号，分别按照不同的信噪比将多个样本噪声信号与样本语音信号混合，得到多个样本混合信号，采用多个样本混合信号对语音处理模型进行训练。在一种可能实现方式中，获取样本混合信号中的多个样本语音信号帧的样本幅度，调用语音处理模型对多个样本幅度进行处理，得到样本混合信号对应的预测去噪参数；按照该预测去噪参数对样本幅度进行去噪，得到每个语音信号帧的预测幅度，根据每个语音信号帧的预测幅度与样本语音信号中的多个语音信号帧的幅度之间的差异，训练语音处理模型。例如，在训练语音处理模型时，设置的语音处理模型中的卷积层的卷积核、过滤器和卷积参数，如下述表1所示：表1其中，conv.表示特征提取网络或特征重建网络，rnam表示非局部注意力网络，ram表示局部注意力网络，res.unit表示空洞残差单元或空洞残差子单元，conv.表示卷积子单元，deconv表示反卷积子单元，nlunit表示残差非局部子单元。另外，在一种可能实现方式中，采用维纳滤波(wienerfiltering)方法、segan(speechenhancementgenerativeadversarialnetwork，语音增强生成对抗网络)方法、wavelnet(微波)方法、mmse-gan(一种语音增强生成对抗网络)方法、dfl(deepfeatureloss，深度特征损失)方法、mdphd(一种混合模型)、rsgan-gp(speechenhancementusingrelativisticgenerativeadversarialnetworkswithgradientpenalty，使用相对性的语音增强生成对抗网络)方法作为参考方法，对比这些方法与本公开实施例提供的方法(rnanet)。上述参考方法与本公开实施例提供的方法的对比结果参见下述表2：表2方法ssnrpesqcsigcbakcovlnoisy1.681.973.352.442.63wiener5.072.223.232.682.67segan7.732.163.482.942.80wavelnet3.623.232.98dfl3.863.333.22mmse-gan2.533.803.123.14mdphd10.222.703.853.393.27rnanet10.162.713.983.423.35其中，ssnr(segmentalsignalnoiseratio，分段信噪比)越大表示去噪效果越好；pesq(perceptualevaluationofspeechquality，主观语音质量评价)越大表示去噪效果越好；csig(一种评价指标)为信号失真的平均意见评分，csig越大表示去噪效果越好；cbak(一种评价指标)为背景噪声预测评分，cbak越大表示去噪效果越好；covl(一种评价指标)为语音信号整体信号质量的评分。在另一种可能实现方式中，为了显示语音信号的清晰度的提高，采用stoi(shorttimeobjectiveintelligibility，短时客观可懂度)比较本公开提供的方法和参考方法，对比结果参见表3：表3评价方法noisymmse-ganrsgan-gprnanetstoi0.9210.9300.9420.946其中，stoi越大表示去噪效果越好。根据上述表2和表3的对比结果能够看出，本公开实施例提供的方法去噪效果明显高于其他方法的去噪效果。图13是根据一示例性实施例示出的一种语音信号的处理装置的框图。参见图13，该装置包括：特征确定单元1301，被配置为执行确定原始语音信号中的多个语音信号帧的第一语音特征；非局部特征获取单元1302，被配置为执行调用非局部注意力网络对多个语音信号帧的第一语音特征进行融合，得到每个语音信号帧的非局部语音特征；混合特征获取单元1303，被配置为执行调用局部注意力网络对每个语音信号帧的非局部语音特征分别进行处理，得到每个语音信号帧的混合语音特征；去噪参数获取单元1304，被配置为执行基于多个语音信号帧的混合语音特征获取去噪参数；目标信号获取单元1305，被配置为执行按照去噪参数对原始语音信号进行去噪，得到目标语音信号。本公开实施例提供的装置，调用非局部注意力网络和局部注意力网络，对原始语音信号中的多个语音信号帧的第一语音特征进行处理，得到去噪参数，该去噪参数能够表示每个语音信号帧中除噪声信号之外的信号所占的比例，因此采用该去噪参数对原始语音信号进行去噪，实现原始语音信号中噪声的去除，且调用非局部注意力网络在对每个语音信号帧的第一语音特征进行处理时，能够考虑该语音信号帧的上下文信息，使得到的去噪参数更加准确，从而提高原始语音信号的去噪效果。在一种可能实现方式中，特征确定单元1301，被配置为执行调用特征提取网络分别对多个语音信号帧的原始幅度进行特征提取，得到多个语音信号帧的第一语音特征。在另一种可能实现方式中，参见图14，目标信号获取单元1305，包括：幅度获取子单元1315，被配置为执行调用语音去噪网络，按照去噪参数分别对多个语音信号帧的原始幅度进行去噪，得到多个语音信号帧的目标幅度；信号获取子单元1325，被配置为执行对多个语音信号帧的原始相位和目标幅度进行组合，得到目标语音信号。在另一种可能实现方式中，去噪参数获取单元1304，被配置为执行调用特征重建网络对多个语音信号帧的混合语音特征进行特征重建，得到去噪参数。在另一种可能实现方式中，非局部注意力网络包括第一处理单元、第二处理单元和第一融合单元，参见图14，非局部特征获取单元1302，包括：特征提取子单元1312，被配置为执行调用第一处理单元分别对多个语音信号帧的第一语音特征进行特征提取，得到每个语音信号帧的第二语音特征，第一处理单元中包括多个空洞残差子单元；第一融合子单元1322，被配置为执行调用第二处理单元，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行融合，得到每个语音信号帧的第三语音特征；第二融合子单元1332，被配置为执行调用第一融合单元，分别对每个语音信号帧的第二语音特征和第三语音特征进行融合，得到每个语音信号帧的非局部语音特征。在另一种可能实现方式中，非局部注意力网络还包括第二融合单元，参见图14，非局部特征获取单元1302，还包括：第三融合子单元1342，被配置为执行调用第二融合单元对每个语音信号帧的非局部语音特征和第一语音特征进行融合，得到每个语音信号帧融合后的非局部语音特征。在另一种可能实现方式中，第二处理单元包括残差非局部子单元、卷积子单元和反卷积子单元；参见图14，第一融合子单元1322，被配置为执行：调用残差非局部子单元，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧加权融合后的第一语音特征；调用卷积子单元，对每个语音信号帧加权融合后的第一语音特征进行编码，得到每个语音信号帧的编码特征；调用反卷积子单元，对每个语音信号帧的编码特征进行解码，得到每个语音信号帧的第三语音特征。在另一种可能实现方式中，第二处理单元还包括特征缩小子单元，参见图14，第一融合子单元1322，被配置为执行：调用特征缩小子单元，对每个语音信号帧的编码特征进行特征缩小，得到多个缩小后的编码特征；调用反卷积层，对每个语音信号帧的编码特征进行解码，得到每个语音信号帧的第三语音特征，包括：调用反卷积层，对多个缩小后的编码特征进行解码，得到每个语音信号帧的第三语音特征。在另一种可能实现方式中，残差非局部子单元包括第一融合层和第二融合层，参见图14，第一融合子单元1322，被配置为执行：调用第一融合层，根据多个语音信号帧对应的权重，将每个语音信号帧的第一语音特征分别与其他语音信号帧的第一语音特征进行加权融合，得到每个语音信号帧的融合特征；调用第二融合层，分别对每个语音信号帧的第一语音特征与融合特征进行融合，得到每个语音信号帧加权融合后的第一语音特征。在另一种可能实现方式中，语音处理模型至少包括非局部注意力网络和局部注意力网络，语音处理模型的训练过程如下：获取样本语音信号和样本噪声信号；将样本语音信号与样本噪声信号进行混合，得到样本混合信号；调用语音处理模型，对样本混合信号中的多个样本语音信号帧进行处理，得到样本混合信号对应的预测去噪参数；按照预测去噪参数对原始语音信号进行去噪，得到去噪后的预测语音信号；根据预测语音信号与样本语音信号之间的差异，训练语音处理模型。关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。在示例性实施例中，提供了一种电子设备，该电子设备包括一个或多个处理器，以及用于存储该一个或多个处理器可执行指令的易失性或非易失性存储器；其中，该一个或多个处理器被配置为执行上述实施例中的语音信号的处理方法。在一种可能实现方式中，该电子设备提供为终端。图15是根据一示例性实施例示出的一种终端1500的结构框图。该终端1500可以是便携式移动终端，比如：智能手机、平板电脑、mp3播放器(movingpictureexpertsgroupaudiolayeriii，动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。终端1500包括有：处理器1501和存储器1502。处理器1501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1501可以采用dsp(digitalsignalprocessing，数字信号处理)、fpga(field－programmablegatearray，现场可编程门阵列)、pla(programmablelogicarray，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(centralprocessingunit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1501可以集成有gpu(graphicsprocessingunit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1501还可以包括ai(artificialintelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。存储器1502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1502中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1501所执行以实现本公开中方法实施例提供的语音信号的处理方法。在一些实施例中，终端1500还可选包括有：外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地，外围设备包括：射频电路1504、显示屏1505、摄像头组件1506、音频电路1507、定位组件1508和电源1509中的至少一种。外围设备接口1503可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中，处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上；在一些其他实施例中，处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。射频电路1504用于接收和发射rf(radiofrequency，射频)信号，也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1504包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wirelessfidelity，无线保真)网络。在一些实施例中，射频电路1504还可以包括nfc(nearfieldcommunication，近距离无线通信)有关的电路，本公开对此不加以限定。显示屏1505用于显示ui(userinterface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时，显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时，显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1505可以为一个，设置在终端1500的前面板；在另一些实施例中，显示屏1505可以为至少两个，分别设置在终端1500的不同表面或呈折叠设计；在另一些实施例中，显示屏1505可以是柔性显示屏，设置在终端1500的弯曲表面上或折叠面上。甚至，显示屏1505还可以设置成非矩形的不规则图形，也即异形屏。显示屏1505可以采用lcd(liquidcrystaldisplay，液晶显示屏)、oled(organiclight-emittingdiode，有机发光二极管)等材质制备。摄像头组件1506用于采集图像或视频。可选地，摄像头组件1506包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtualreality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1501进行处理，或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1507还可以包括耳机插孔。定位组件1508用于定位终端1500的当前地理位置，以实现导航或lbs(locationbasedservice，基于位置的服务)。定位组件1508可以是基于美国的gps(globalpositioningsystem，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯定位系统或欧盟的伽利略定位系统的定位组件。电源1509用于为终端1500中的各个组件进行供电。电源1509可以是交流电、直流电、一次性电池或可充电电池。当电源1509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。在一些实施例中，终端1500还包括有一个或多个传感器1510。该一个或多个传感器1510包括但不限于：加速度传感器1511、陀螺仪传感器1512、压力传感器1513、指纹传感器1514、光学传感器1515以及接近传感器1516。加速度传感器1511可以检测以终端1500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1511可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1511采集的重力加速度信号，控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1511还可以用于游戏或者用户的运动数据的采集。陀螺仪传感器1512可以检测终端1500的机体方向及转动角度，陀螺仪传感器1512可以与加速度传感器1511协同采集用户对终端1500的3d动作。处理器1501根据陀螺仪传感器1512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。压力传感器1513可以设置在终端1500的侧边框和/或显示屏1505的下层。当压力传感器1513设置在终端1500的侧边框时，可以检测用户对终端1500的握持信号，由处理器1501根据压力传感器1513采集的握持信号进行左右手识别或快捷操作。当压力传感器1513设置在显示屏1505的下层时，由处理器1501根据用户对显示屏1505的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。指纹传感器1514用于采集用户的指纹，由处理器1501根据指纹传感器1514采集到的指纹识别用户的身份，或者，由指纹传感器1514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1514可以被设置在终端1500的正面、背面或侧面。当终端1500上设置有物理按键或厂商logo时，指纹传感器1514可以与物理按键或厂商logo集成在一起。光学传感器1515用于采集环境光强度。在一个实施例中，处理器1501可以根据光学传感器1515采集的环境光强度，控制显示屏1505的显示亮度。具体地，当环境光强度较高时，调高显示屏1505的显示亮度；当环境光强度较低时，调低显示屏1505的显示亮度。在另一个实施例中，处理器1501还可以根据光学传感器1515采集的环境光强度，动态调整摄像头组件1506的拍摄参数。接近传感器1516，也称距离传感器，设置在终端1500的前面板。接近传感器1516用于采集用户与终端1500的正面之间的距离。在一个实施例中，当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变小时，由处理器1501控制显示屏1505从亮屏状态切换为息屏状态；当接近传感器1516检测到用户与终端1500的正面之间的距离逐渐变大时，由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。本领域技术人员可以理解，图15中示出的结构并不构成对终端1500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。在另一种可能实现方式中，该电子设备提供为服务器。图16是根据一示例性实施例示出的一种服务器的结构框图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessingunits，cpu)1601和一个或一个以上的存储器1602，其中，存储器1602中存储有至少一条程序代码，该至少一条程序代码由处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语音信号的处理方法中终端或服务器所执行的步骤。例如，所述非临时性计算机可读存储介质可以是rom(只读存储器，readonlymemory)、ram(随机存取存储器，randomaccessmemory)、cd-rom(只读光盘，compactdiscread-onlymemory)、磁带、软盘和光数据存储设备等。在示例性实施例中，还提供了一种计算机程序产品，当计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行上述语音信号的处理方法中终端或服务器所执行的步骤。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本
技术领域：
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音信号的处理方法、装置、电子设备及存储介质与流程

相关文章

最热文献