一种拼接语音的鉴别方法、装置、电子设备及存储介质与流程

2021-10-19 21:29:00 来源：中国专利 TAG：拼接电子设备语音装置语音识别

技术特征：
1.一种拼接语音的鉴别方法，其特征在于，所述鉴别方法包括：将获取到的待鉴别语音裁剪为多个待鉴别语音段；针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。2.根据权利要求1所述的鉴别方法，其特征在于，所述将获取到的待鉴别语音裁剪为多个待鉴别语音段，包括：根据预设的裁剪窗口的窗长和窗移，按照时间顺序，使用所述裁剪窗口按照所述窗移在所述待鉴别语音上移动，并将每次移动位于所述裁剪窗口的语音进行裁剪，裁剪出多个待鉴别语音段。3.根据权利要求1所述的鉴别方法，其特征在于，所述语音段类型包括：自然语音段以及拼接语音段；所述拼接语音段包括同源拼接语音段以及异源拼接语音段。4.根据权利要求1所述的鉴别方法，其特征在于，所述语音类型包括自然语音以及拼接语音；所述拼接语音包括同源拼接语音、异源拼接语音以及混合拼接语音。5.根据权利要求1所述的鉴别方法，其特征在于，所述将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型，包括：针对于所述待鉴别语音中的每个待鉴别语音段，将该待鉴别语音段的融合语音特征输入至预先训练好的语音鉴别模型中，确定该待鉴别语音段属于每种语音段类型的概率；将该待鉴别语音段属于每种语音段类型的概率的最大值对应的语音段类型，确定为该待鉴别语音段所属语音段类型。6.根据权利要求1所述的鉴别方法，其特征在于，所述当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音进行平滑处理，确定所述待鉴别语音是否包括目标合并拼接语音段，包括：按照时间顺序将所述多个待鉴别语音段划分为至少一个待鉴别语音段组；其中，待鉴别语音段组中包括预设第一数量的待鉴别语音段，所述预设第一数量的待鉴别语音段为时间连续的待鉴别语音段；针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型；
当该待鉴别语音段组的拼接类型为连续拼接时，将该待鉴别语音段组中的预设第一数量的待鉴别语音段合并生成一个合成语音段，确定该合成语音段为目标合并拼接语音段；当所述待鉴别语音包括的任一待鉴别语音段组的拼接类型为连续拼接时，确定所述待鉴别语音包括目标合并拼接语音段。7.根据权利要求6所述的鉴别方法，其特征在于，所述针对于每个待鉴别语音段组，根据该待鉴别语音段组中每个待鉴别语音段的语音段类型，确定该待鉴别语音段组的拼接类型，包括：当待鉴别语音组中连续的拼接语音段的数量超过预设第二数量时，将该待鉴别语音组的拼接类型确定为连续拼接。8.根据权利要求1所述的鉴别方法，其特征在于，所述基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置，包括：将所述拼接语音包括的目标合并拼接语音段的总数量确定为所述拼接语音的语音拼接点数量；根据所述拼接语音与每个目标合并拼接语音段之间的映射关系，确定每个目标合并拼接语音段的中间位置在所述待鉴别语音中的映射位置；将每个目标合并拼接语音段的映射位置确定为所述待鉴别语音的语音拼接位置。9.根据权利要求1所述的鉴别方法，其特征在于，通过以下方法构建拼接语音鉴别模型：获取由自然语音、同源拼接语音以及异源拼接语音中构成的语音训练样本集；所述语音训练样本集中的每个语音训练样本的帧数相同；针对于所述语音训练样本集中的每个语音训练样本，采用多种语音特征提取方法对该语音训练样本进行语音特征提取，获得该语音训练样本的多种语音特征；针对于所述语音训练样本集中的每个语音训练样本，基于fisher准则以及该语音训练样本的多种语音特征，确定该语音训练样本的融合语音特征；使用所述语音训练样本集中的每个语音训练样本的融合语音特征，对预设神经网络进行迭代训练，生成拼接语音鉴别模型。10.根据权利要求9所述的鉴别方法，其特征在于，所述预设神经网络中包括lcnn子网络和gru子网络，所述lcnn子网络的激活函数为celu函数。11.一种拼接语音的鉴别装置，其特征在于，所述鉴别装置包括：裁剪模块，用于将获取到的待鉴别语音裁剪为多个待鉴别语音段；提取模块，用于针对于每个待鉴别语音段，从该待鉴别语音段中提取出用于表示该待鉴别语音段特性的融合语音特征；语音段鉴别模块，用于将所述融合语音特征输入至预先训练好的拼接语音鉴别模型中，确定该待鉴别语音段的语音段类型；平滑处理模块，用于当任意一待鉴别语音段的语音段类型指示该待鉴别语音段为拼接语音段时，对所述待鉴别语音包括的所有待鉴别语音段进行平滑处理，确定经过平滑处理后的所述待鉴别语音是否包括目标合并拼接语音段；获取模块，用于当所述待鉴别语音包括目标合并拼接语音段时，确定所述待鉴别语音
的语音类型为拼接语音，并获取经过平滑处理后生成的至少一个目标合并拼接语音段；拼接点鉴别模块，用于基于所述拼接语音中目标合并拼接语音段的数量，确定所述拼接语音的语音拼接点数量，基于所述拼接语音中目标合并拼接语音段在所述拼接语音中的相对位置，确定所述拼接语音的语音拼接位置。12.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至10任一所述的拼接语音的鉴别方法的步骤。13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至10任一所述的拼接语音的鉴别方法的步骤。

技术总结
本申请提供了一种拼接语音的鉴别方法、装置、电子设备及存储介质，将获取到的待鉴别语音裁剪为多个待鉴别语音段；通过待鉴别语音段融合语音特征和拼接语音鉴别模型中，确定每个待鉴别语音段的语音段类型；对待鉴别语音进行平滑处理，确定是否为拼接语音，当为拼接语音时，基于包括的目标合并拼接语音段的数量，以及每个目标合并拼接语音段在待鉴别语音中的相对位置，确定拼接语音的语音拼接点数量以及语音拼接位置。这样，本申请基于对待鉴别语音段的融合语音特征进行识别，以及通过平滑处理确定待鉴别语音是否为拼接语音，并通过平滑处理后确定出的目标合并拼接语音段确定拼接语音的拼接点数量以及拼接位置，从而提高语音鉴别的准确度和精细度。别的准确度和精细度。别的准确度和精细度。

技术研发人员：孟凡芹郑榕邓菁
受保护的技术使用者：北京远鉴信息技术有限公司
技术研发日：2021.09.14
技术公布日：2021/10/18

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种拼接语音的鉴别方法、装置、电子设备及存储介质与流程

相关文章

最热文献