农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音信号的自动增益控制方法及其相关装置与流程

2021-10-07 09:05:00 来源：中国专利 TAG：

本申请涉及语音信号处理技术领域，特别是涉及一种语音信号的自动增益控制方法及其相关装置。

背景技术

随着实时语音通话和视频通话的应用越来越广泛，音视频技术也越来越得到重视。语音自动增益控制(AGC)是音视频技术中音频处理的重要环节。语音自动增益控制的主要功能就是拉伸语音中的音量较小片段，抑制音量较大的片段，从而使得语音音量整体相对平稳，进而提升用户的听感体验。现有的技术方法计算增益往往依赖于单一参数，如语音活动检测值(VAD)，并且大多数基于语音的峰值比较和门限比较的方法。当输入语音包含复杂的噪声时，现有方法对语音的增益效果就会受到严重影响。

技术实现要素：

本申请主要解决的技术问题是提供一种语音信号的自动增益控制方法及其相关装置，以适应复杂噪声场景。

为了解决上述技术问题，本申请提供一种语音信号的自动增益控制方法及其相关装置，该语音信号的自动增益控制方法及其相关装置包括：获取到语音信号的当前帧；基于所述当前帧的帧信号确定所述当前帧的多个参数；利用多级策略基于所述多个参数得到所述当前帧的语音增益值；利用所述语音增益值对所述当前帧进行语音增益处理。

其中，所述利用多级策略基于所述多个参数得到所述当前帧的语音增益值的步骤，包括：基于各个所述参数按照所述多级策略得到所述当前参数对应的多个子语音增益值，并利用所述多个子语音增益值确定所述语音增益值。

其中，所述基于各个所述参数按照所述多级策略得到所述当前帧对应的多个子语音增益值，并利用所述多个子语音增益值确定所述语音增益值的步骤，包括：基于所述当前帧的第一参数确定第一子语音增益值；基于所述第一子语音增益值以及第二参数确定第二子语音增益值；基于所述第二子语音增益值以及第三参数确定第三子语音增益值；基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值。

其中，所述基于所述当前帧的第一参数确定第一子语音增益值的步骤，包括：响应于所述第一参数小于第一门限值，将所述第一门限值的绝对值确定为所述第一子语音增益值；响应于所述第一参数大于所述第一门限值且小于第二门限值，将所述第二门限值与所述第一参数的差值确定为所述第一子语音增益值；响应于所述第一参数大于所述第二门限值且小于第三门限值，将所述第三门限值与所述第一参数的差值确定为所述第一子语音增益值；响应于所述第一参数大于所述第三门限值，将固定值确定为所述第一子语音增益值；其中，所述第一门限值小于所述第二门限值小于所述第三门限值。

其中，所述基于所述第一子语音增益值以及第二参数确定第二子语音增益值的步骤，包括：获取所述第二参数与第二阈值的差值；响应于所述差值大于所述第一子语音增益值，则将所述差值确定为所述第二子语音增益值；响应于所述差值小于所述第一子语音增益值，将所述第一子语音增益值确定为所述第二子语音增益值。

其中，所述基于所述第二子语音增益值以及第三参数确定第三子语音增益值的步骤，包括：获取所述第三参数与第三阈值的差值；响应于所述差值大于所述第二子语音增益值，将所述差值确定为所述第三子语音增益值；响应于所述差值小于所述第二子语音增益值，将所述第二子语音增益值确定为所述第三子语音增益值。

其中，所述基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值的步骤，包括：获取第三子语音增益值与前一帧的第三子语音增益值的差值；基于差值以及第四参数确定语音增益值。

其中，基于差值以及第四参数确定语音增益值的步骤，包括：若基于第四参数确定当前帧和前一帧为语音帧，则判断差值是否在预设阈值内；若在，则将差值确定为语音增益值；若不在，则判断差值与零的大小；若差值小于零，则将预设阈值内的最小值确定为语音增益值；若差值大于零，则将预设阈值内的最大值确定为语音增益值；若基于第四参数确定当前帧和/或前一帧为非语音帧，则判断差值与零的大小；若差值大于零，则将差值确定为语音增益值；若差值小于零，则将零确定为语音增益值。

其中，所述第一参数为语音总幅度值，第二参数为噪声幅度值，第三参数为限幅包络值，第四参数为语音概率。

其中，所述获取到语音信号的当前帧的步骤，包括：对输入的所述语音信号进行无重叠分帧处理，得到所述当前帧。

本申请还提供一种语音信号的自动增益控制装置，该自动增益控制装置包括：分帧模块，用于获取语音信号的当前帧；计算模块，与分帧模块耦接，用于基于当前帧的帧信号确定当前帧的多个参数；获取模块，与计算模块耦接，用于利用多级策略基于多个参数得到当前帧的语音增益值；限幅拉伸模块，与获取模块耦接，利用语音增益值对当前帧进行语音增益处理。

本申请还提供一种终端，该终端包括相互耦接的处理器和存储器，存储器用于存储程序指令，处理器用于执行存储器存储的程序指令以实现上述任一实施方式的自动增益控制方法。

本申请还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，用于实现上述任一实施方式的自动增益控制方法。

本申请的有益效果是：通过语音概率、限幅包络值、峰值、语音总幅度值、噪声幅度值等多个参数作为求取当前帧的语音增益值的基础，具有一定的鲁棒性，并结合多级策略得到的语音增益值能适用于复杂噪声场景，相较于单一参数获得语音增益值，具备更强的适用性。

附图说明

图1为本申请语音信号的自动增益控制方法一实施方式的流程示意图；

图2为图1中步骤S13一具体实施方式的流程示意图；

图3为本申请图2中步骤S21一具体实施方式的流程示意图；

图4为图2中步骤S22一具体实施方式的流程示意图；

图5为图2中步骤S23一具体实施方式的流程示意图；

图6为图2中步骤S24一具体实施方式的流程示意图；

图7为本申申请语音信号的自动增益控制装置一实施方式的结构示意图；

图8是本申请终端一实施方式的结构示意图；

图9是本申请存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种语音信号的自动增益控制方法，请参阅图1，图1为本申请语音信号的自动增益控制方法一实施方式的流程示意图。如图1所示，包括：

步骤S11：获取到语音信号的当前帧。

具体地，对输入的语音信号进行无重复分帧处理，得到当前帧。

其中，语音信号为单通道时域信号。对输入的语音信号进行无重复分帧处理包括：对输入的单通道时域信号进行分帧处理，得到多个帧，每个帧包括多个语音样本点。在一实施方式中，按照时间阈值将单通道时域信号分成多个帧，例如，第一帧为0-T秒内的语音信号，第二帧为T-2T秒内的语音信号，依次类推，得到无重复的多个帧。

步骤S12：基于当前帧的帧信号确定当前帧的多个参数。

其中，当前帧的帧信号包括当前帧的语音总信号，即包括语音信号和噪声信号。当前帧的多个参数包括样本点峰值、样本点均值、语音概率、语音总幅度值(噪声和语音的总幅度值)、噪声幅度值以及限幅包络值等参数。

具体地，假设当前帧为第t帧，其中，t为正整数，当前帧的样本点峰值用表示，基于当前帧的帧信号确定当前帧的样本点峰值的步骤包括：通过公式计算得到当前帧的样本点峰值，其中，abs(x)表示绝对值运算，max(x)表示取最大值运算。

假设当前帧为第t帧，其中，t为正整数，当前帧的样本点均值用表示，基于当前帧的帧信号确定当前帧的样本点均值的步骤包括：通过公式计算得到当前帧的样本点均值，其中，N表示当前帧的样本点总数。

假设当前帧为第t帧，其中，t为正整数，当前帧的语音概率用p^t表示，其中，语音概率p^t表示第t帧是语音的概率，基于当前帧的帧信号确定当前帧的语音概率的步骤包括：从第t帧的语音信号中提取出语音特征信息，如梅尔倒谱系数，基音周期等特征信息，然后将提取出的语音特征信息送入神经网络进行训练得到第t帧的语音概率p^t，其中，神经网络可为概率分布神经网络。

假设当前帧为第t帧，其中，t为正整数，当前帧的语音总幅度值用表示，其中，语音总幅度值为表示第t帧中的语音和噪声总幅度值，基于当前帧的帧信号确定当前帧的语音总幅度值的步骤包括：将语音概率p^t作为加权系数得到第t 1帧的语音总幅度值与第t帧的语音总幅度值之间的关系如下：其中，βt 1＝(1-p^t)×βt p^t，取值为或者β0初始化为0。在本实施例中，可通过前一帧与当前帧的语音总幅度值的关系以及前一帧的语音概率计算当前语音总幅度值

假设当前帧为第t帧，其中，t为正整数，当前帧的噪声幅度值用表示，基于当前帧的帧信号确定当前帧的噪声幅度值的步骤包括：获取到第t帧的能量然后根据是否为零，t是否为1以及与阈值Er的大小关系进行多级判断最后得到同时更新阈值Er，其中，阈值Er可通过用户根据实际需求进行设定。

假设当前帧为第t帧，其中，t为正整数，当前帧的限幅包络值用L^t表示，基于当前帧的帧信号确定当前帧的限幅包络值的步骤包括：对第一帧的限幅包络值进行初始化处理，并将第一帧的限幅包络值作为第一帧的最后一个样本点的幅度值，依次得到第二帧、以及第t帧的限幅包络值L^t，并将得到的第t帧的限幅包络值L^t更新为第t帧的最后一个样本点的语音总幅度值。其中，限幅是将语音信号超过预定门限值的所有瞬时值减弱至接近此门限值，限幅包络值是指语音总幅度值的门限值，可根据样本点的幅度值进行设定。

步骤S13：利用多级策略基于多个参数得到当前帧的语音增益值。

具体地，基于各个参数按照多级策略得到当前参数对应的多个子语音增益值，并利用多个子语音增益值确定最终的语音增益值。

其中，多级策略是指按照设定顺序依次对子语音增益值依次进行策略分析得到最终的语音增益值。

具体请进一步参阅图2，图2为图1中步骤S13一具体实施方式的流程示意图。如图2所示，包括：

步骤S21：基于当前帧的第一参数确定第一子语音增益值。

其中，第一参数是指当前帧的第一个参数，用于计算第一子语音增益值的参数。第一参数为语音总幅度值，包括语音幅度值和噪声幅度值。

具体地，为语音增益值设置第一门限值、第二门限值以及第三门限值，其中，第一门限值小于第二门限值小于第三门限值，第一门限值、第二门限值以及第三门限值可通过用户根据实际需求进行设定。具体包括：判断当前帧的第一参数与第一门限值、第二门限值以及第三门限值之间的大小关系；若响应于第一参数小于第一门限值，则将第一门限值确定为第一子语音增益值；若响应于第一参数大于第一门限值小于第二门限值，则将第二门限值与第一参数的差值确定为第一子语音增益值；若响应于第一参数大于第二门限值小于第三门限值，则将第三门限值与第一参数的差值确定为第一子语音增益值；若响应于第一参数大于第三门限值(即不在上述设定范围内)，则将第一子语音增益值设置为固定值，在一实施方式中，固定值可设置为0，在其它实施方式中，可根据实际需求进行设置。其中，第一子语音增益值为当前帧(当前语音信号)的第一子语音增益值。

请进一步参阅图3，图3为本申请图2中步骤S21一具体实施方式的流程示意图。如图3所示，包括：

步骤，S31：响应于第一参数小于第一门限值，将第一门限值的绝对值确定为第一子语音增益值。

具体地，假设第一门限值为GM，第二门限值为GM1，第三门限值为GH。第一参数为当前帧的语音总幅度值当前帧为第t帧。其中，GM、GM1、GH的单位为分贝(dB)，GM、GM1、GH的取值均为负值。第一语音增益值为正值。

如果响应于则当前帧的第一子语音增益值

步骤S32：响应于第一参数大于第一门限值且小于第二门限值，将第二门限值与第一参数的差值确定为第一子语音增益值。

如果响应于则当前帧的第一子语音增益值

步骤S33：响应于第一参数大于第二门限值且小于第三门限值，将第三门限值与第一参数的差值确定为第一子语音增益值。

如果响应于则当前帧的第一子语音增益值

步骤S34：响应于第一参数大于第三门限值，将固定值确定为第一子语音增益值。

如果响应于不在上述范围内，则将设置成固定值，一般设置为零，也可以设置其它值，在此不作限定。

得到第一子语音增益值后，基于多级策略对第一子语音增益值进行分析得到第二子语音增益值。

步骤S22：基于第一子语音增益值以及第二参数确定第二子语音增益值。

其中，第二参数为噪声幅度值。

在本实施例中，还为第二参数设置第二阈值，第二阈值为最大噪声幅度值，其中，最大噪声幅度值可通过用户自行设定，最大噪声幅度值是指整个单通道语音信号的最大噪声限幅值。

具体地请参阅图4，图4为图2中步骤S22一具体实施方式的流程示意图。如图4所示，包括：

步骤S41：获取第二参数与第二阈值的差值。

计算当前帧的第二参数与第二阈值之间的差值，并比较该差值与第一子语音增益值的大小。其中，最大噪声幅度值为ANT，当前帧的噪声幅度值与最大噪声幅度值ANT之间的差值为其中，ANT为负值。比较该差值与第一子语音增益值的大小。

步骤S42：响应于该差值大于第一子语音增益值，将该差值确定为第二子语音增益值。

如果则第二子语音增益值

步骤S43：响应于该差值小于第一子语音增益值，将第一子语音增益值确定为第二子语音增益值。

如果则第二子语音增益值

在本实施例中，第二子语音增益值取第一子语音增益值与该差值(当前帧的第二参数与第二阈值的差值)之间的较大值。

步骤S23：基于第二子语音增益值以及第三参数确定第三子语音增益值。

其中，第三参数为当前帧的限幅包络值。

在本实施例中，还为第三参数设置第三阈值，其中第三阈值为第三参数的最大阈值，为最大限幅包络值，可通过用户自行设定。

具体地，请参阅图5，图5为图2中步骤S23一具体实施方式的流程示意图。如图5所示，包括：

步骤S51：获取第三参数与第三阈值的差值。

其中，第三阈值为最大限幅包络值LM，可通过用户设定。计算当前帧的限幅包络值L^t与最大限幅包络值LM之间的差值为

步骤S52：响应于该差值大于第二子语音增益值，将该差值确定为第三子语音增益值。

如果则第三子语音增益值

步骤S53：响应于该差值小于第二子语音增益值，将第二子语音增益值确定为第三子语音增益值。

如果则第三子语音增益值

步骤S24：基于第三子语音增益值、前一帧的子语音增益值以及第四参数确定语音增益值。

其中，第四参数为语音概率。

具体请参阅图6，图6为图2中步骤S24一具体实施方式的流程示意图。如图5所示，包括：

步骤S61：获取第三子语音增益值与前一帧的第三子语音增益值的差值。

具体地，计算当前帧的第三子语音增益值与前一帧的第三子语音增益值之间的差值

步骤S62：若基于第四参数确定当前帧和前一帧为语音帧，则判断差值是否在预设阈值内。

具体包括，获取当前帧(第t帧)的语音概率p^t，判断当前帧的语音概率p^t是否大于预设的概率门限值pT，若p^t>pT，则确定当前帧为语音帧，否则确定当前帧为非语音帧。

若前一帧与当前帧均为语音帧，即存在连续语音帧，则确定该差值gs是否在预设阈值内，其中，预设阈值是指用户预先设定的增益阈值，可根据需求进行设定，一般包括正负值，例如[-3， 3]、[-2， 5]等。在此步骤之前还包括获取预设阈值。

步骤S63：若在，则将差值确定为语音增益值。

若该差值gs在预设阈值内，则当前帧的语音增益值

步骤S64：若不在，则判断差值与零的大小。

步骤S65：若差值小于零，则将预设阈值内的最小值确定为语音增益值。

若gs<0，则当前帧的语音增益值取预设阈值的最小值。

步骤S66：若差值大于零，则将预设阈值内的最大值确定为语音增益值。

若gs>0，则当前帧的语音增益值取预设阈值的最大值。

例如预设阈值为[-3， 3]，当计算的差值gs为-5时，则当前帧的语音增益值取-3，当计算的差值gs为5时，则当前帧的语音增益值取 3。

步骤S67：若基于第四参数确定当前帧和/或前一帧为非语音帧，则判断差值与零的大小。

其中，当前帧和/或前一帧为非语音帧包括：当前帧为非语音帧或前一帧为非语音帧以及当前帧和前一帧为非语音帧。

具体包括：p^t>pT，p^t-1<pT；或p^t<pT，p^t-1<pT；或p^t<pT，p^t-1<pT。即连续语音帧为0，不存在连续语音帧。并判断差值与零的大小关系。

步骤S68：若差值小于零，则将差值确定为语音增益值。

若gs<0，则当前帧的语音增益值

步骤S69：若差值大于零，则将零确定为语音增益值。

若gs>0，则当前帧的语音增益值

在本实施方式中，通过判断是否为连续语音帧以及增益值与零之间的大小来限定最终语音增益值，从而防止语音突变，提高了语音增益后的平整度。

需要说明的是，上述描述的“第一门限值”，“第二门限值”、“第三门限值”、“第二阈值”、“第三阈值”以及“预设阈值”的设定值可以相同也可以不同，彼此并不影响，具体可通过用户根据实际需求进行设定，在此不作限定。

步骤S14：利用语音增益值对当前帧进行语音增益处理。

具体地，将当前帧的语音增益值输入到当前帧的语音信号中，通过限幅拉伸处理得到增益后的当前帧语音。

本实施例的有益效果是：通过获取到语音信号的当前帧，基于当前帧的帧信号确定当前帧的多个参数，并利用多级策略基于多个参数得到当前帧的语音增益值，利用语音增益值对当前帧进行语音增益处理，提升用户对当前帧的语音信号的听感体验。通过上述方法，依次对不同的帧进行语音增益处理，从而提高单通道语音信号整体的听感，使在复杂环境下，也能清晰地听清增益后的语音。本实施例中通过语音概率、限幅包络值、峰值、语音总幅度值、噪声幅度值等多个参数作为求取当前帧的语音增益值的基础，相比于单一参数获得语音增益值，具有更好的鲁棒性。

本申请还提供一种语音信号的自动增益控制装置，请参阅图7，图7为本申请语音信号的自动增益控制装置一实施方式的结构示意图。如图7所示，自动增益控制装置70包括：分帧模块71，用于获取语音信号的当前帧，具体地，将单通道语音信号进行分帧处理，得到多个帧，当前帧为多个帧的某一帧。计算模块72，与分帧模块71耦接，基于当前帧的帧信号确定当前帧的多个参数。获取模块73，与计算模块72耦接，利用多级策略基于多个参数得到当前帧的语音增益值。限幅拉伸模块74，与获取模块73耦接，利用语音增益值对当前帧进行语音增益处理。

本申请还提供一种终端，请参阅图8，图8为本申请中终端一实施例结构示意图。

终端80包括相互耦接的处理器81和存储器82，处理器81用于执行存储器82存储的程序指令以实现上述任一方法实施例中的步骤或者上述任一方法实施例中语音信号的自动增益控制方法对应执行的步骤。该终端除包括上述处理器和存储器之外，还可根据需求包括触摸屏、打印组件、通信电路等，在此不做限定。

具体而言，处理器81用于控制其自身以及存储器82以实现上述任一色彩校正方法实施例中的步骤。处理器81还可以称为CPU(Central Processing Unit，中央处理单元)。处理器81可能是一种集成电路芯片，具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器81可以由多个集成电路芯片共同实现。

本申请还提供一种计算机可读存储介质，请参阅图9，图9为一种计算机可读存储介质90一实施方式的结构示意图。

计算机可读存储介质90包括其上存储的计算机程序901，计算机程序901被上述处理器执行时实现上述任一方法实施例中的步骤或者上述方法实施例中语音信号的自动增益控制方法对应执行的步骤。

具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质90中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质90中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种带无线麦克风和遥控器的点歌机的制作方法

一种语音信号的自动增益控制方法及其相关装置与流程

相关文章

最热文献