农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种应用于物联网的语音处理方法及系统与流程

2021-08-13 19:22:00 来源：中国专利 TAG：联网语音应用于特别公开

本公开涉及物联网及语音处理的技术领域，特别涉及一种应用于物联网的语音处理方法及系统。

背景技术：

语言数据主要包含在语音数据的参数之中，因此准确而迅速地提取语言数据的参数是进行语音数据处理的关键。常用的语音数据参数有：共振峰幅度、频率与带宽、音调和噪音、噪音的判别等。后来又提出了线性预测系数、声道反射系数和倒谱参数等参数。这些参数仅仅反映了发音过程中的一些平均特性，而实际语言的发音变化相当迅速，需要用非平稳随机过程来描述。

语音信号处理(speechsignalprocessing)简称语音处理，是用以研究语音发声过程、语音信号统计特性、语音自动识别、机器合成以及语音感知等处理技术的总称。现代的语音处理技术都以数字计算为基础，借助微处理器、信号处理器或通用计算机加以实现，因此也称数字语音信号处理。

然而随着科技水平的发展，相关技术在进行语音信号输出时会出现信号失真的问题，从而影响到语音信号的输出质量。

技术实现要素：

为改善相关技术中存在的上述背景技术存在的技术问题，本公开提供了一种应用于物联网的语音处理方法及系统。

一种应用于物联网的语音处理方法，所述方法包括：

从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据；

通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，其中，所述局部声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声音纹路的音调以及每一组音色点响度的强弱程度信号，所述全局声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声源区的声纹变化形态信号；

通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿，以得到x种语音补偿场景的语音补偿结果，所述x为大于1的正整数；其中，所述声道的数字模型是通过多个声纹指标训练集合进行样本训练获得的，每一组声纹指标训练集合中标记了x种语音补偿场景的语音补偿结果。

进一步地，针对所述多个声纹指标训练集合中的每一组声纹指标训练集合，训练所述声道的数字模型的过程包括如下步骤：

从声纹指标训练集合对应的训练集合中提取出所述声纹指标对应的短时谱音质数据；

将所述声纹指标对应的短时谱音质数据的波纹震动列表按照预设振幅频率以及预设波纹震动频率的共振率进行y次声纹文本频率修正处理，并进行y次频率修正处理，得到包括所述局部声纹信号统计特征和所述全局声纹信号统计特征的频率修正后的特征声纹信号，其中，在每一次声纹文本频率修正处理完成之后，进行一次频率修正处理，所述y为正整数；

根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，其中，所述x种的特征声纹分布列表中的x种倒谱序列标识与所述x种语音补偿场景的语音补偿结果一一对应；

分别统计所述x种倒谱序列标识，与标记的x种语音补偿场景的语音补偿结果之间的差异比较结果，根据所述差异比较结果对初始训练模型的韵律指示标识进行替换，以得到所述声道的数字模型；

其中，根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，包括：

将所述频率修正后的特征声纹信号依次与至少一个预设分布列表匹配，以将所述频率修正后的特征声纹信号中的语音补偿特征内容进行合成，得到所述x种的特征声纹分布列表，其中，在一次匹配完成之后，将匹配得到的特征声纹分布列表与下一个预设分布列表匹配，且，用于最后一次匹配的预设分布列表为x种的分布列表。

进一步地，在根据所述频率修正后的特征声纹信号得到所述x种的特征声纹分布列表之前，所述方法还包括：

对每一次频率修正处理后的特征声纹信号进行数字语音信号处理，得到数字语音信号后的特征声纹信号，其中，所述数字语音信号处理为将所述每一次频率修正后的特征声纹信号中的每个倒谱序列标识与预设数倒谱序列标识进行比较，并提取所述每个倒谱序列标识与所述预设数倒谱序列标识中较大的倒谱序列标识的处理过程；

以及所述根据所述频率修正后的特征声纹信号得到所述x种的特征声纹分布列表，包括：

根据最后一次数字语音信号后的特征声纹信号得到所述x种的特征声纹分布列表。

进一步地，在根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表之前，所述方法还包括：

在所述y次声纹文本频率修正处理中至少一次声纹文本频率修正处理之后，对得到的声纹文本频率修正处理后的特征声纹信号进行声纹校正处理，得到声纹校正后的特征声纹信号；

或者，在所述y次频率修正处理中至少一次频率修正处理之后，对得到的频率修正后的特征声纹信号进行声纹校正处理，得到声纹校正后的特征声纹信号；则所述根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，包括：

基于最后一次声纹校正后的特征声纹信号得到所述x种的特征声纹分布列表。

进一步地，根据所述差异比较结果对初始训练模型的韵律指示标识进行替换，以得到所述声道的数字模型，包括：

根据所述差异比较结果统计对每一组共振率的权重分布列表以及所述至少一个预设分布列表中每个倒谱序列标识的替换倒谱序列标识；

对按照所述替换倒谱序列标识对每一组共振率的权重分布列表以及所述至少一个预设分布列表进行替换后的初始训练模型，持续进行多次样本训练，直至所述差异比较结果的倒谱序列系数小于预设差异比较结果范围内，并将最后一次替换后的初始训练模型作为所述声道的数字模型。

进一步地，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，包括：

将所述声纹指标对应的短时谱音质数据的波纹震动列表按照所述预设振幅频率和所述预设波纹震动频率的共振率，与所述声道的数字模型中的权重分布列表进行y次声纹文本频率修正处理，并进行y次频率修正处理，得到包括所述局部声纹信号统计特征和所述全局声纹信号统计特征的频率修正后的特征声纹信号；

则通过所述声道的数字模型对提取的声道信号特征进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的声道信号特征进行语音补偿，以得到x种语音补偿场景的语音补偿结果，包括：

将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，以将所述频率修正后的特征声纹信号中的特征进行合成，得到所述x种的特征声纹分布列表，其中，所述x种的特征声纹分布列表中的x种倒谱序列标识与所述x种语音补偿场景的语音补偿结果一一对应。

进一步地，在将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配之前，所述方法还包括：

对每一次频率修正处理后的特征声纹信号进行数字语音信号处理，得到所述数字语音信号后的特征声纹信号；

则将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，包括：

将所述数字语音信号后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配；

其中，在将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配之前，所述方法还包括：

在所述y次声纹文本频率修正处理中至少一次声纹文本频率修正处理之后，对得到的声纹文本频率修正处理后的特征声纹信号进行声纹校正处理，得到所述声纹校正后的特征声纹信号；

或者，在所述y次频率修正处理中至少一次频率修正处理之后，对得到的频率修正后的特征声纹信号进行声纹校正处理，得到所述声纹校正后的特征声纹信号；

则所述将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，包括：

将所述声纹校正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配。

进一步地，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，包括：

从当前语音信号分帧的声道的数字模型中提取帧移语音信号，获取所述帧移语音信号中获取目标的目标低维特征并生成目标低维特征空间；所述目标低维特征空间包含整个获取目标；

对所述获取目标进行降维得到目标低维序列标识；确定所述目标低维序列标识和所述目标低维特征空间的位置关系是否属于预设位置关系对应的范围内；

在确定所述目标低维序列标识与所述目标低维特征空间的位置关系属于所述预设位置关系对应的范围内时，将所述当前语音信号分帧中的目标低维序列标识调整为所述目标低维特征空间的方向；

根据调整后的目标低维序列标识得到局部声纹信号统计特征和全局声纹信号统计特征。

进一步地，所述获取所述帧移语音信号中获取目标的目标低维特征并生成目标低维特征空间包括：

在所述帧移语音信号中确定所述获取目标，并获取所述获取目标的特征降维；获取所述特征降维与预处理模型的匹配度；

在所述匹配度大于或者等于第一预设匹配度范围内时，生成目标低维特征空间；

其中，在所述生成目标低维特征空间后，所述方法还包括：确定所述目标低维特征空间对应的低维特征集合；其中，所述低维特征集合用于筛选所述目标低维特征空间的线性预测系数；

所述线性预测系数包括预设维度类型和所述预设维度类型对应的低维特征降维参数；

根据所述目标低维特征空间的低维特征降维参数按照预设维度类型对所述声道的数字模型内的获取目标进行聚类并确定所述获取目标的维度类型；其中，所述声道的数字模型划分为多个深度神经网络，所述深度神经网络包括多个由低维特征映射点组成的低维特征集合；

确定所述低维特征集合是否筛选有所述获取目标的维度类型对应的待处理低维特征降维参数；在确定所述低维特征集合未筛选所述获取目标的维度类型对应的待处理低维特征降维参数时，将所述目标低维特征空间的线性预测系数设置为所述低维特征集合中的线性预测系数；

在确定所述低维特征集合筛选有所述获取目标的维度类型对应的待处理低维特征降维参数时，运算得出所述目标集合的低维特征降维参数和所述待处理低维特征降维参数的平均参数值，并将所述平均参数值设置为所述低维特征集合中所述获取目标的维度类型对应的低维特征降维参数；

其中，所述在所述帧移语音信号中确定所述获取目标，并获取所述获取目标的特征降维包括：在确定上一帧语音信号满足预设波形条件时，根据所述上一帧语音信号的低维特征集合中筛选的线性预测系数统计所述上一帧语音信号的帧移语音信号内全部低维特征集合中筛选的同一维度类型的低维特征降维参数；

运算得到所述上一帧语音信号的帧移语音信号中同一维度类型的低维特征降维参数的平均参数值，并将所述平均参数值作为对应维度类型的低维特征集合均值；分别根据所述预设聚类对应的低维特征集合均值按照滤除系数对所述当前语音信号分帧的帧移语音信号进行滤除得到滤除语音信号，其中，所述滤除系数为所述上一帧语音信号中所述预设聚类对应的低维特征集合均值与所述预处理模型对应的低维特征降维参数的参数比较，并在所述滤除语音信号中确定所述获取目标；分别对所述深度神经网络内的低维特征集合的线性预测系数按照预设维度类型进行维度拟合，得到所述深度神经网络中全部低维特征集合在每个所述预设维度类型下的线性预测系数；分别根据所述全部低维特征集合在每个所述预设维度类型下的线性预测系数获取所述获取目标的特征降维。

一种应用于物联网的语音处理系统，包括声音采集设备和声音处理终端，所述声音采集设备和所述声音处理终端通信连接，所述声音处理终端具体用于：

从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据；

通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，其中，所述局部声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声音纹路的音调以及每一组音色点响度的强弱程度信号，所述全局声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声源区的声纹变化形态信号；

通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿，以得到x种语音补偿场景的语音补偿结果，所述x为大于1的正整数；其中，所述声道的数字模型是通过多个声纹指标训练集合进行样本训练获得的，每一组声纹指标训练集合中标记了x种语音补偿场景的语音补偿结果。

本公开的实施例提供的技术方案可以包括以下有益效果。

一种应用于物联网的语音处理方法及系统，可通过声道的数字模型对待声纹识别数据中的声纹指标进行语音补偿场景识别，以输出不同语音补偿场景下的语音补偿结果。首先从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，最后通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿。如此设计，可以将不同的语音补偿场景进行区别考虑，从而灵活地得到不同的语音补偿结果，这样可以确保在进行语音信号输出时不会出现信号失真的问题，提高语音信号的输出质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1为本发明实施例所提供的一种应用于物联网的语音处理系统的架构示意图；

图2为本发明实施例所提供的一种应用于物联网的语音处理方法的流程图；

图3为本发明实施例所提供的一种应用于物联网的语音处理装置的功能模块框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了便于对上述的一种应用于物联网的语音处理方法及装置进行阐述，请结合参考图1，提供了本发明实施例所公开的一种应用于物联网的语音处理系统100的通信架构示意图。其中，所述一种应用于物联网的语音处理系统100可以包括声音处理终端300以及声音采集设备200，所述声音处理终端300与所述声音采集设备200通信连接。

在具体的实施方式中，声音处理终端300可以是台式电脑、平板电脑、笔记本电脑、手机或者其他能够实现数据处理以及数据通信的声音采集设备，在此不作过多限定。

在上述基础上，请结合参阅图2，为本发明实施例所提供的一种应用于物联网的语音处理方法的流程示意图，所述一种应用于物联网的语音处理方法可以应用于图1中的声音处理终端300，进一步地，所述一种应用于物联网的语音处理方法具体可以包括以下步骤s21-步骤s23所描述的内容。

步骤s21，从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据。

步骤s22，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征。

在本实施例中，所述局部声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声音纹路的音调以及每一组音色点响度的强弱程度信号，所述全局声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声源区的声纹变化形态信号。

在一些实施例中，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，包括：从当前语音信号分帧的声道的数字模型中提取帧移语音信号，获取所述帧移语音信号中获取目标的目标低维特征并生成目标低维特征空间；所述目标低维特征空间包含整个获取目标；对所述获取目标进行降维得到目标低维序列标识；确定所述目标低维序列标识和所述目标低维特征空间的位置关系是否属于预设位置关系对应的范围内；在确定所述目标低维序列标识与所述目标低维特征空间的位置关系属于所述预设位置关系对应的范围内时，将所述当前语音信号分帧中的目标低维序列标识调整为所述目标低维特征空间的方向；根据调整后的目标低维序列标识得到局部声纹信号统计特征和全局声纹信号统计特征。

在上述内容的基础上，获取所述帧移语音信号中获取目标的目标低维特征并生成目标低维特征空间，包括：在所述帧移语音信号中确定所述获取目标，并获取所述获取目标的特征降维；获取所述特征降维与预处理模型的匹配度；在所述匹配度大于或者等于第一预设匹配度范围内时，生成目标低维特征空间。进一步地，在所述生成目标低维特征空间后，所述方法还包括：确定所述目标低维特征空间对应的低维特征集合；其中，所述低维特征集合用于筛选所述目标低维特征空间的线性预测系数；所述线性预测系数包括预设维度类型和所述预设维度类型对应的低维特征降维参数；根据所述目标低维特征空间的低维特征降维参数按照预设维度类型对所述声道的数字模型内的获取目标进行聚类并确定所述获取目标的维度类型；其中，所述声道的数字模型划分为多个深度神经网络，所述深度神经网络包括多个由低维特征映射点组成的低维特征集合；确定所述低维特征集合是否筛选有所述获取目标的维度类型对应的待处理低维特征降维参数；在确定所述低维特征集合未筛选所述获取目标的维度类型对应的待处理低维特征降维参数时，将所述目标低维特征空间的线性预测系数设置为所述低维特征集合中的线性预测系数；在确定所述低维特征集合筛选有所述获取目标的维度类型对应的待处理低维特征降维参数时，运算得出所述目标集合的低维特征降维参数和所述待处理低维特征降维参数的平均参数值，并将所述平均参数值设置为所述低维特征集合中所述获取目标的维度类型对应的低维特征降维参数。

在上述内容的基础上，所述在所述帧移语音信号中确定所述获取目标，并获取所述获取目标的特征降维包括：在确定上一帧语音信号满足预设波形条件时，根据所述上一帧语音信号的低维特征集合中筛选的线性预测系数统计所述上一帧语音信号的帧移语音信号内全部低维特征集合中筛选的同一维度类型的低维特征降维参数；运算得到所述上一帧语音信号的帧移语音信号中同一维度类型的低维特征降维参数的平均参数值，并将所述平均参数值作为对应维度类型的低维特征集合均值；分别根据所述预设聚类对应的低维特征集合均值按照滤除系数对所述当前语音信号分帧的帧移语音信号进行滤除得到滤除语音信号，其中，所述滤除系数为所述上一帧语音信号中所述预设聚类对应的低维特征集合均值与所述预处理模型对应的低维特征降维参数的参数比较，并在所述滤除语音信号中确定所述获取目标；分别对所述深度神经网络内的低维特征集合的线性预测系数按照预设维度类型进行维度拟合，得到所述深度神经网络中全部低维特征集合在每个所述预设维度类型下的线性预测系数；分别根据所述全部低维特征集合在每个所述预设维度类型下的线性预测系数获取所述获取目标的特征降维。

步骤s23，通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿，以得到x种语音补偿场景的语音补偿结果，所述x为大于1的正整数；其中，所述声道的数字模型是通过多个声纹指标训练集合进行样本训练获得的，每一组声纹指标训练集合中标记了x种语音补偿场景的语音补偿结果。

其中，针对所述多个声纹指标训练集合中的每一组声纹指标训练集合，训练所述声道的数字模型的过程包括如下步骤s231-步骤s234。

步骤s231，从声纹指标训练集合对应的训练集合中提取出所述声纹指标对应的短时谱音质数据。

步骤s232，将所述声纹指标对应的短时谱音质数据的波纹震动列表按照预设振幅频率以及预设波纹震动频率的共振率进行y次声纹文本频率修正处理，并进行y次频率修正处理，得到包括所述局部声纹信号统计特征和所述全局声纹信号统计特征的频率修正后的特征声纹信号，其中，在每一次声纹文本频率修正处理完成之后，进行一次频率修正处理，所述y为正整数。

步骤s233，根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，其中，所述x种的特征声纹分布列表中的x种倒谱序列标识与所述x种语音补偿场景的语音补偿结果一一对应。

步骤s234，分别统计所述x种倒谱序列标识，与标记的x种语音补偿场景的语音补偿结果之间的差异比较结果，根据所述差异比较结果对初始训练模型的韵律指示标识进行替换，以得到所述声道的数字模型。

进一步地，在步骤s234的基础上，根据所述差异比较结果对初始训练模型的韵律指示标识进行替换，以得到所述声道的数字模型，包括：根据所述差异比较结果统计对每一组共振率的权重分布列表以及所述至少一个预设分布列表中每个倒谱序列标识的替换倒谱序列标识；对按照所述替换倒谱序列标识对每一组共振率的权重分布列表以及所述至少一个预设分布列表进行替换后的初始训练模型，持续进行多次样本训练，直至所述差异比较结果的倒谱序列系数小于预设差异比较结果范围内，并将最后一次替换后的初始训练模型作为所述声道的数字模型。更进一步地，在上述内容的基础上，步骤s22所描述的通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，包括：将所述声纹指标对应的短时谱音质数据的波纹震动列表按照所述预设振幅频率和所述预设波纹震动频率的共振率，与所述声道的数字模型中的权重分布列表进行y次声纹文本频率修正处理，并进行y次频率修正处理，得到包括所述局部声纹信号统计特征和所述全局声纹信号统计特征的频率修正后的特征声纹信号。基于此，步骤s23所描述的通过所述声道的数字模型对提取的声道信号特征进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的声道信号特征进行语音补偿，以得到x种语音补偿场景的语音补偿结果，包括：将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，以将所述频率修正后的特征声纹信号中的特征进行合成，得到所述x种的特征声纹分布列表，其中，所述x种的特征声纹分布列表中的x种倒谱序列标识与所述x种语音补偿场景的语音补偿结果一一对应。在相关实施例c中，在将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配之前，所述方法还包括：对每一次频率修正处理后的特征声纹信号进行数字语音信号处理，得到所述数字语音信号后的特征声纹信号，基于上述实施例c，将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，包括：将所述数字语音信号后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配。在相关实施例d中，在将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配之前，所述方法还包括：在所述y次声纹文本频率修正处理中至少一次声纹文本频率修正处理之后，对得到的声纹文本频率修正处理后的特征声纹信号进行声纹校正处理，得到所述声纹校正后的特征声纹信号；或者，在所述y次频率修正处理中至少一次频率修正处理之后，对得到的频率修正后的特征声纹信号进行声纹校正处理，得到所述声纹校正后的特征声纹信号。基于上述实施例d，所述将所述频率修正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配，包括：将所述声纹校正后的特征声纹信号与所述声道的数字模型中的至少一个预设分布列表匹配。

在上述实施例的基础上，进一步地，步骤s233所描述的根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，具体包括：将所述频率修正后的特征声纹信号依次与至少一个预设分布列表匹配，以将所述频率修正后的特征声纹信号中的语音补偿特征内容进行合成，得到所述x种的特征声纹分布列表，其中，在一次匹配完成之后，将匹配得到的特征声纹分布列表与下一个预设分布列表匹配，且，用于最后一次匹配的预设分布列表为x种的分布列表。

在上述实施例的基础上，对于另一实施例a而言，在步骤s233所描述的根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表之前，所述方法还可以包括：对每一次频率修正处理后的特征声纹信号进行数字语音信号处理，得到数字语音信号后的特征声纹信号，其中，所述数字语音信号处理为将所述每一次频率修正后的特征声纹信号中的每个倒谱序列标识与预设数倒谱序列标识进行比较，并提取所述每个倒谱序列标识与所述预设数倒谱序列标识中较大的倒谱序列标识的处理过程。在上述实施例a的基础上，所述根据所述频率修正后的特征声纹信号得到所述x种的特征声纹分布列表，进一步包括：根据最后一次数字语音信号后的特征声纹信号得到所述x种的特征声纹分布列表。

在上述实施例的基础上，对于另一实施例b而言，在根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表之前，所述方法还包括：在所述y次声纹文本频率修正处理中至少一次声纹文本频率修正处理之后，对得到的声纹文本频率修正处理后的特征声纹信号进行声纹校正处理，得到声纹校正后的特征声纹信号；或者，在所述y次频率修正处理中至少一次频率修正处理之后，对得到的频率修正后的特征声纹信号进行声纹校正处理，得到声纹校正后的特征声纹信号。在上述实施例b的基础上，所述根据所述频率修正后的特征声纹信号得到x种的特征声纹分布列表，包括：基于最后一次声纹校正后的特征声纹信号得到所述x种的特征声纹分布列表。

通过执行上述步骤21-步骤23所描述的方法时可以达到如下有益技术效果：首先从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，最后通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿。如此设计，可以将不同的语音补偿场景进行区别考虑，从而灵活地得到不同的语音补偿结果，这样可以确保在进行语音信号输出时不会出现信号失真的问题，提高语音信号的输出质量。

基于上述同样的发明构思，请结合参阅图3，还提供了一种应用于物联网的语音处理装置500的功能模块框图，关于所述一种应用于物联网的语音处理装置500的详细描述如下。

一种应用于物联网的语音处理装置500，应用于声音处理终端，所述装置500包括：

数据提取模块510，用于从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据；

特征提取模块520，用于通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，其中，所述局部声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声音纹路的音调以及每一组音色点响度的强弱程度信号，所述全局声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声源区的声纹变化形态信号；

数据补偿模块530，用于通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿，以得到x种语音补偿场景的语音补偿结果，所述x为大于1的正整数；其中，所述声道的数字模型是通过多个声纹指标训练集合进行样本训练获得的，每一组声纹指标训练集合中标记了x种语音补偿场景的语音补偿结果。

基于上述同样的发明构思，还提供了一种应用于物联网的语音处理系统，其特征在于，包括声音采集设备和声音处理终端，所述声音采集设备和所述声音处理终端通信连接，所述声音处理终端具体用于：从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据；通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，其中，所述局部声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声音纹路的音调以及每一组音色点响度的强弱程度信号，所述全局声纹信号统计特征包括所述声纹指标对应的短时谱音质数据中声源区的声纹变化形态信号；通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿，以得到x种语音补偿场景的语音补偿结果，所述x为大于1的正整数；其中，所述声道的数字模型是通过多个声纹指标训练集合进行样本训练获得的，每一组声纹指标训练集合中标记了x种语音补偿场景的语音补偿结果。

综上一种应用于物联网的语音处理方法及系统，首先从获取的包含声纹指标的待声纹识别数据中提取出声纹指标对应的短时谱音质数据，通过声道的数字模型从所述声纹指标对应的短时谱音质数据中提取出局部声纹信号统计特征和全局声纹信号统计特征，最后通过所述声道的数字模型对提取的语音补偿特征内容进行合成，并根据所述声道的数字模型中通过样本训练得到的韵律指示标识对合成后的语音补偿特征内容进行语音补偿。如此设计，可以将不同的语音补偿场景进行区别考虑，从而灵活地得到不同的语音补偿结果，这样可以确保在进行语音信号输出时不会出现信号失真的问题，提高语音信号的输出质量。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于LDA算法的调度语音关键词提取方法与流程

一种应用于物联网的语音处理方法及系统与流程

相关文章

最热文献