语音交互系统的自动增益控制方法、装置及系统与流程

2021-10-27 20:41:00 来源：中国专利 TAG：交互语音系统装置可读

技术特征：
1.一种语音交互系统的自动增益控制方法，其特征在于，包括：接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互系统中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。2.根据权利要求1所述的自动增益控制方法，其特征在于，在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括：针对每个不同音源的声音信号分别维护对应的fifo队列；其中，所述fifo队列的长度n的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定；针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值的最大值，并将所述绝对值的最大值保存至所述fifo队列中。3.根据权利要求1所述的自动增益控制方法，其特征在于，在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括：针对每个不同音源的声音信号分别维护对应的fifo队列；其中，所述fifo队列的长度n的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定；针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值，并使用高斯窗与所述绝对值进行卷积，将进行卷积后的最大值保存至所述fifo队列中。4.根据权利要求2或3所述的自动增益控制方法，其特征在于，所述fifo队列的长度n与所述唤醒词检测每帧长度的乘积，等于所述唤醒词的长度。5.根据权利要求2或3所述的自动增益控制方法，其特征在于，所述计算所述语音交互系统中自动增益控制所需的增益包括：计算所述检测到唤醒词的声音信号对应的fifo队列中的最大值a
max
，根据计算所述语音交互系统中拾音设备所需的增益g；其中，a
ref
为参考音频信号的幅值，所述参考音频信号为固定值。6.根据权利要求5所述的自动增益控制方法，其特征在于，在所述计算所述语音交互系统中自动增益控制所需的增益之后还包括：调节模拟增益至所需的增益g，如果模拟增益可调范围g
a
小于所需的增益g，则将模拟增益调节至最大，调节数字增益为g
‑
g
a
。7.根据权利要求6所述的自动增益控制方法，其特征在于，还包括：在检测到语音交互完成后，增益恢复为初始增益g
init
。8.根据权利要求7所述的自动增益控制方法，其特征在于，所述初始增益g
init
为：在确定所述参考音频信号数值的情况下，保证拾音设备所拾取的音频数据不饱和所对应的增益。9.根据权利要求1至3任一项所述的自动增益控制方法，其特征在于，所述唤醒词检测模型为预先使用delta
‑
lfbe作为特征训练得到的模型。
10.一种语音交互系统的自动增益控制装置，其特征在于，包括：接收模块，用于接收语音信号；盲源分离模块，用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；唤醒词检测模块，用于调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；增益确定模块，用于基于所述检测到唤醒词的声音信号，计算所述语音交互系统中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。11.一种语音交互系统，其特征在于，包括：存储器以及处理器；其中，所述存储器用于存储有指令；所述处理器调用所述指令时，执行如权利要求1至9任一项所述的方法。12.一种计算机可读存储介质，包括指令，所述指令被执行时实现如权利要求1至9任一项所述的方法。

技术总结
本申请公开了一种语音交互系统的自动增益控制方法、装置、系统以及计算机可读存储介质，该方法包括：接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互系统中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。升用户的交互体验。升用户的交互体验。

技术研发人员：孙祥宇
受保护的技术使用者：乐鑫信息科技（上海）股份有限公司
技术研发日：2021.07.30
技术公布日：2021/10/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音设备控制方法、系统、介质及语音设备与流程

语音交互系统的自动增益控制方法、装置及系统与流程

相关文献

最热文献