一种语音唤醒方法及装置与流程

2022-11-16 09:07:42 来源：中国专利 TAG：

技术特征：
1.一种语音唤醒方法，其特征在于，所述方法包括：将音频信号转化为声学特征序列，所述音频信号为语音音频信号；将所述声学特征序列输入滤波网络，输出过滤音频特征，所述滤波网络包括滤波生成网络和动态滤波网络；将所述过滤音频特征输入语音唤醒网络，输出语音唤醒概率；根据所述语音唤醒概率，执行唤醒操作。2.根据权利要求1所述的方法，其特征在于，所述滤波生成网络包括第一滤波生成网络和第二滤波生成网络，所述将所述声学特征序列输入滤波网络，输出过滤音频特征，包括：将所述声学特征序列输入所述第一滤波生成网络，输出第一卷积核参数；将所述声学特征序列输入所述第二滤波生成网络，输出第二卷积核参数；将所述声学特征序列、第一卷积核参数和第二卷积核参数输入所述动态滤波网络，输出所述过滤音频特征。3.根据权利要求2所述的方法，其特征在于，所述第一滤波生成网络，包括：w
s
＝sigmoid(norm(conv(x,w)))；其中，w
s
为所述第一卷积核参数，sigmoid表示sigmoid激活函数，norm表示均值方差正规化，conv(x,w)表示以x为输入，w为卷积核的卷积网络，x为所述声学特征序列。4.根据权利要求3所述的方法，其特征在于，所述第二滤波生成网络，包括：w
n
＝transpose(linear(max(0,b)))；其中，w
n
为所述第二卷积核参数，transpose表示转置，linear表示全连接网络，max表示取最大值，b＝norm(linear(a))，x
i
为所述声学特征序列中第i个特征值，n为所述声学特征序列的长度。5.根据权利要求4所述的方法，其特征在于，所述动态滤波网络，包括：x
o
＝norm(conv(x,w
a
)) x；其中，x
o
为所述过滤音频特征，conv(x,w
a
)表示以x为输入，w
a
为卷积核的卷积网络，w
a
为动态卷积参数，w
a
＝w
s
⊙
w
n
，
⊙
表示元素积算子。6.根据权利要求2所述的方法，其特征在于，所述语音唤醒网络包括：p(唤醒|x)＝wakeupnet(x
o
)；其中，p(唤醒|x)为所述语音唤醒概率，x
o
为所述过滤音频特征，wakeupnet表示端到端语音唤醒网络。7.根据权利要求1所述的方法，其特征在于，所述根据所述语音唤醒概率，执行唤醒操作，包括：响应于所述语音唤醒概率大于预设阈值，执行唤醒操作。8.一种语音唤醒装置，其特征在于，所述装置包括：转化模块，用于将音频信号转化为声学特征序列，所述音频信号为用户的语音音频信号；滤波模块，用于将所述声学特征序列输入滤波网络，输出过滤音频特征，所述滤波网络包括滤波生成网络和动态滤波网络；概率模块，用于将所述过滤音频特征输入语音唤醒网络，输出语音唤醒概率；
唤醒模块，用于依据所述语音唤醒概率，执行唤醒操作。9.一种设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行权利要求1至7任一项所述的语音唤醒方法。10.一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的计算机存储设备实现权利要求1至7任一项所述的语音唤醒方法。

技术总结
本申请提供了一种语音唤醒方法及装置，包括：将音频信号转化为声学特征序列，所述音频信号为语音音频信号；将所述声学特征序列输入滤波网络，输出过滤音频特征，所述滤波网络包括滤波生成网络和动态滤波网络；将所述过滤音频特征输入语音唤醒网络，输出语音唤醒概率；根据所述语音唤醒概率，执行唤醒操作。通过加入动态的滤波网络，避免了因卷积网络参数固定，导致语音唤醒方法对未知说话人和未知噪声唤醒音频难以识别的问题，提高了语音唤醒方法的鲁棒性。同时，本方法并不进行人为的子问题划分，而是完全交给深度学习模型，这样可以使整个系统达到最优的性能，避免不同子问题造成的误差累积。的误差累积。的误差累积。

技术研发人员：赵亚东
受保护的技术使用者：太保科技有限公司
技术研发日：2022.09.06
技术公布日：2022/11/15

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：词汇配置方法、语音交互方法、设备、存储介质及系统与流程

一种语音唤醒方法及装置与流程

相关文献

最热文献