语音内容的自动调平的制作方法

2022-11-12 22:00:38 来源：中国专利 TAG：

技术特征：
1.一种方法，包括：使用一个或多个处理器来接收包括语音和非语音的音频录音的帧；对于每一帧：使用所述一个或多个处理器来确定语音概率；使用所述一个或多个处理器来分析所述帧的感知响度；使用所述一个或多个处理器来获得所述帧的目标响度范围；使用所述一个或多个处理器基于所述目标响度范围和所述感知响度分析来计算要应用于所述帧的增益，其中，所述增益包括逐帧变化并且基于所述语音概率进行缩放的动态增益；以及使用所述一个或多个处理器将所述增益应用于所述帧，使得所述音频录音中的语音内容的所得响度范围符合于所述目标响度范围内。2.如权利要求1所述的方法，其中，所述增益包括应用于所有帧的静态增益。3.如权利要求2所述的方法，其中，所述静态增益是整体响度与目标响度之间的差。4.如权利要求2至3中任一项所述的方法，其中，应用于每一帧的所述增益是所述帧的所述静态增益与所述动态增益之和。5.如权利要求1至4中任一项所述的方法，其中，所述动态增益被计算为每一帧的所述感知响度与整体响度之间的距离的连续函数。6.如权利要求1至5中任一项所述的方法，其中，期望响度范围内的帧的所述动态增益相对于所述整体响度是统一的，并且应用于所述期望响度范围之外的帧的增益被计算为所述帧的响度值与期望响度范围的最近边界之间的差。7.如权利要求1至6中任一项所述的方法，其中，所述动态增益乘以在0.0到1.0之间的系数。8.如权利要求1至7中任一项所述的方法，其中，所述语音概率是通过神经网络计算的。9.如权利要求1至7中任一项所述的方法，其中，所述语音概率是每一帧的宽带能量水平的函数。10.如权利要求1至9中任一项所述的方法，进一步包括：估计信噪比(snr)；以及至少部分地基于所估计的snr来修改所述语音概率。11.如权利要求10所述的方法，其中，所述语音概率是由话音活动检测器(vad)确定的，并且所述方法进一步包括：当所估计的snr指示所述语音内容纯净时，调整所述vad的灵敏度以增加语音与非语音之间的区分。12.如前述权利要求1至9中任一项所述的方法，进一步包括：估计信噪比(snr)；以及基于所估计的snr来调整所述目标响度，使得仅当所述语音内容纯净时才会实现较小动态范围。13.如前述权利要求10至11中任一项所述的方法，其中，所述动态增益乘以在0到1之间的系数，并且所述系数是所述snr的函数。14.如权利要求1至13中任一项所述的方法，其中，所述语音概率能够通过s型函数被修
改，并且其中，所述s型函数的参数是手动固定的或者是基于所述语音内容的所估计的snr自动适配的。15.如权利要求1至14中任一项所述的方法，其中，所述语音概率是特定频带中的每一帧的能量水平的函数。16.如权利要求1至15中任一项所述的方法，其中，在预定义的持续时间内通过线性插值来随时间平滑所述增益。17.如权利要求1至16中任一项所述的方法，其中，通过将当前值的一部分与先前值的一部分相加来随时间平滑所述增益。18.如权利要求1至17中任一项所述的方法，其中，在录音时间计算并存储每一帧的所述感知响度。19.如权利要求1至17中任一项所述的方法，其中，响度信息是从已经根据所述音频预先计算的元数据中读取的。20.如权利要求1至19中任一项所述的方法，其中，在录音时间计算并存储所述语音概率。21.如权利要求1至20中任一项所述的方法，其中，所述响度是瞬时响度。22.如权利要求1至21中任一项所述的方法，其中，频带中的能量被用作水平量度。23.如权利要求1至22中任一项所述的方法，其中，所述增益被应用于信号的特定频带。24.如权利要求1至23中任一项所述的方法，其中，所述增益提升和衰减受限于预定义最大值。25.如权利要求1至24中任一项所述的方法，其中，所述语音内容包括具有不同信噪比(snr)的多个发声者，并且其中，对于每个发声者，根据所述多个发声者的身份使用分割聚类来对所述语音内容进行分段，并且其中，属于每个发声者的语音内容分段与其他发声者的语音内容分段被分开处理。26.一种系统，包括：一个或多个处理器；以及非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行如权利要求1至25中任一项所述的方法的操作。27.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储有指令，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行如权利要求1至25中任一项所述的方法的操作。

技术总结
公开了用于语音内容的自动调平的实施例。在实施例中，一种方法包括：使用一个或多个处理器来接收包括语音内容和非语音内容的音频录音的帧；对于每一帧：使用所述一个或多个处理器来确定语音概率；使用所述一个或多个处理器来分析所述帧的感知响度；使用所述一个或多个处理器来获得所述帧的目标响度范围；使用所述一个或多个处理器基于所述目标响度范围和所述感知响度分析来计算要应用于所述帧的增益，其中，所述增益包括逐帧变化并且基于所述语音概率进行缩放的动态增益；以及将所述增益应用于所述帧，使得所述音频录音中的语音内容的所得响度范围符合于所述目标响度范围内。的所得响度范围符合于所述目标响度范围内。的所得响度范围符合于所述目标响度范围内。

技术研发人员：C
受保护的技术使用者：杜比国际公司
技术研发日：2021.03.25
技术公布日：2022/11/11

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于目标语音分离的具有神经网络的多抽头最小方差无失真响应波束成形器的制作方法

语音内容的自动调平的制作方法

相关文献

最热文献