一种语音唤醒方法、装置、电子设备和存储介质与流程

2022-06-08 15:37:49 来源：中国专利 TAG：

1.本技术涉及语音唤醒技术领域，特别是涉及一种语音唤醒方法、装置、电子设备和存储介质。

背景技术：

2.语音交互系统中，唤醒是很重要的交互入口。唤醒需要实时处理语音，不仅需要唤醒率高，误唤醒率低，同时对内存和功耗等系统资源要求苛刻。目前的唤醒系统，通常包括特征提取、声学计算、解码、置信度判决等模块。通常需要对语音输入进行流式处理，逐帧提取语音特征，送到输入声学模型计算声学得分，然后将声学得分传到唤醒网络进行识别，最后通过置信度计算输出唤醒置信度分数。
3.现有的语音唤醒系统，由于进行声学计算和解码时，都是对原始语音进行处理，即便采用了多个系统进行判决，但由于多个系统都是由同样时序的语音训练得到的，模型之间存在较大的相似性，并不能提供额外新的信息进行误唤醒抑制；因此，这样的系统误唤醒通常较高，这也是当前唤醒系统的一个难点。

技术实现要素：

4.基于当前语音唤醒中的问题，本技术提供一种语音唤醒方法、装置、电子设备和存储介质。
5.第一方面，本技术实施例提供一种语音唤醒方法，包括：
6.获取唤醒语音；
7.正向端到端唤醒系统检测所述唤醒语音中是否存在唤醒事件；
8.若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件；
9.若逆向端到端唤醒系统检测唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。
10.进一步地，上述一种语音唤醒方法，还包括：训练正向端到端唤醒系统；
11.其中，训练正向端到端唤醒系统的步骤，包括：
12.获取语音以及语音对应的标注文本对；
13.训练语音以及语音对应的标注文本对得到正向端到端唤醒系统。
14.进一步地，上述一种语音唤醒方法，还包括：训练逆向端到端唤醒系统；
15.其中，训练逆向端到端唤醒系统的步骤，包括：
16.获取语音以及语音对应的标注文本对；
17.逆向语音得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，逆向语音对应的标注文本得到逆向后的语音对应的标注文本；
18.利用所述逆向后的语音的语音特征以及所述逆向后的语音对应的标注文本训练得到逆向端到端唤醒系统。
19.进一步地，上述一种语音唤醒方法，还包括：
20.若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，所述逆向端到端唤醒系统检测所述唤醒语音的逆向特征是否存在唤醒事件；
21.若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中不存在唤醒事件，则唤不醒对应设备。
22.进一步地，上述一种语音唤醒方法，还包括：
23.若正向端到端唤醒系统检测唤醒语音中存在唤醒事件，缓存预设时间段内的语音得到第一语音，对第一语音进行逆向得到逆向后的第一语音；
24.提取逆向后的第一语音的语音特征，逆向端到端唤醒系统检测逆向后的第一语音的语音特征中是否存在唤醒事件；
25.若逆向端到端唤醒系统检测逆向后的第一语音的语音特征中存在唤醒事件，则唤醒对应设备。
26.进一步地，上述一种语音唤醒方法中，缓存预设时间段内的是缓存最近n秒的语音，其中，n是浮点数。
27.进一步地，上述一种语音唤醒方法中，唤醒语音的逆向特征是唤醒语音的逆时序特征。
28.第二方面，本技术实施例还提供一种语音唤醒装置，包括：
29.获取模块：用于获取唤醒语音；
30.第一检测模块：用于正向端到端唤醒系统检测所述唤醒语音中是否存在唤醒事件；
31.第二检测模块：用于若正向端到端唤醒系统检测唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件；
32.唤醒模块：用于若逆向端到端唤醒系统检测唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。
33.第三方面，本技术实施例还提供一种电子设备，包括：处理器和存储器；
34.处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种语音唤醒方法。
35.第四方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种语音唤醒方法。
36.本技术实施例的优点在于：本技术涉及一种语音唤醒方法、装置、电子设备和存储介质，该方法包括：获取唤醒语音；正向端到端唤醒系统检测所述唤醒语音中是否存在唤醒事件；若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在事唤醒件；若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。本技术不仅通过唤醒语音对正向端到端唤醒系统进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒系统进行唤醒，提升了唤醒设备的准确率，降低了误唤醒，提升了用户体验。
附图说明
37.为了更清楚地说明本技术实施例或传统技术中的技术方案，下面将对实施例或传
统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1为本技术实施例提供的一种语音唤醒方法示意图一；
39.图2为本技术实施例提供的一种语音唤醒方法示意图二；
40.图3为本技术实施例提供的一种语音唤醒方法示意图三；
41.图4为本技术实施例提供的一种语音唤醒装置示意图；
42.图5是本技术实施例提供的一种电子设备的示意性框图。
具体实施方式
43.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵时做类似改进，因此本技术不受下面公开的具体实施的限制。
44.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
45.图1为本技术实施例提供的一种语音唤醒方法示意图一。
46.第一方面，本技术实施例提供一种语音唤醒方法，结合图1，包括s101至s104四个步骤：
47.s101：获取唤醒语音。
48.具体的，本技术实施例中，唤醒语音可以是厂商定制的唤醒语音，如云知声对应的“你好魔方”，比亚迪对应的“小迪，你好”等语音，也可以是用户根据个人爱好设置的语音。
49.s102：正向端到端唤醒系统检测唤醒语音中是否存在唤醒事件。
50.具体的，本技术实施例中，正向端到端唤醒系统是语音在正常时序下能够对系统进行唤醒，首先通过正向端到端唤醒系统检测唤醒语音如“你好魔方”中是否存在唤醒事件。
51.s103：若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件。
52.具体的，本技术实施例中，逆向端到端唤醒系统是语音在逆时序下能够对系统进行唤醒，如：正常时序下的语音“你好魔方”能够唤醒正向端到端唤醒系统，逆时序下的“你好魔方”语音能够唤醒逆向端到端唤醒系统，在正向端到端唤醒系统检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒系统检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件。
53.s104：若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。
54.具体的，本技术实施例中，在正向端到端唤醒系统检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒系统检测唤醒语音“你好魔方”的逆向
特征中是否存在唤醒事件，在逆向端到端唤醒系统检测唤醒语音的逆向特征中存在唤醒事件的情况下，才对对应的设备进行唤醒。应理解，本技术不仅通过唤醒语音对正向端到端唤醒系统进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒系统进行唤醒，提升了唤醒设备的准确率，解决了误唤醒的问题，提升了用户体验。
55.图2为本技术实施例提供的一种语音唤醒方法示意图二。
56.进一步地，上述一种语音唤醒方法，还包括：训练正向端到端唤醒系统；
57.其中，训练正向端到端唤醒系统，结合图2，包括：s201至s202两个步骤：
58.s201：获取语音以及语音对应的标注文本对；
59.s202：训练语音以及语音对应的标注文本对得到正向端到端唤醒系统。
60.具体的，本技术实施例中，语音及语音对应的标注文本对是大量人说的语音如“你好魔方”，以及“你好魔方”语音对应的标注文本，通过训练语音以及语音对应的标注文本对得到正向端到端唤醒系统。
61.图3为本技术实施例提供的一种语音唤醒方法示意图三。
62.进一步地，上述一种语音唤醒方法，还包括：训练逆向端到端唤醒系统；
63.其中，训练逆向端到端唤醒系统，结合图3，包括s301至s303三个步骤：
64.s301：获取语音以及语音对应的标注文本对；
65.s302：逆向语音得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，逆向语音对应的标注文本得到逆向后的语音对应的标注文本；
66.s303：利用所述逆向后的语音的语音特征以及所述逆向后的语音对应的标注文本训练得到逆向端到端唤醒系统。
67.具体的，本技术实施例中，语音及语音对应的标注文本对是大量人说的语音如“你好魔方”，以及“你好魔方”语音对应的标注文本，将语音进行逆向得到逆向后的语音，提取逆向后的语音特征得到逆向后的语音的语音特征，以及语音对应的标注文本，利用逆向后的语音的语音特征以及逆向后的语音对应的标注文本训练得到逆向端到端唤醒系统。
68.进一步地，上述一种语音唤醒方法，还包括：
69.若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件；
70.若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中不存在唤醒事件，则唤不醒对应设备。
71.具体的，本技术实施例中，在正向端到端唤醒系统检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒系统检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件，在逆向端到端唤醒系统检测唤醒语音的逆向特征中不存在唤醒事件的情况下，则唤不醒对应设备。
72.进一步地，上述一种语音唤醒方法，还包括：
73.若正向端到端唤醒系统检测所述唤醒语音中存在唤醒事件，缓存预设时间段内的语音得到第一语音，对第一语音进行逆向得到逆向后的第一语音。
74.具体的，本技术实施例中，若正向端到端唤醒系统检测唤醒语音中“你好魔方”存在唤醒事件，对最近n秒的唤醒语音进行缓存，如最近一秒唤醒语音是“你好魔方”，缓存“你好魔方”，首先对缓存的语音“你好魔方”进行逆向。
75.提取逆向后的第一语音的语音特征，逆向端到端唤醒系统检测逆向后的第一语音的语音特征中是否存在唤醒事件。
76.具体的，本技术实施例中，提取逆向后的缓存语音“你好魔方”得到对应的逆向后的第一语音的语音特征，逆向端到端唤醒系统检测逆向后的第一语音的语音特征中是否存在唤醒事件。
77.若逆向端到端唤醒系统检测逆向后的第一语音的语音特征中存在唤醒事件，则唤醒对应设备。
78.具体的，本技术实施例中，在逆向端到端唤醒系统检测逆向后的第一语音的语音特征中存在唤醒事件的情况下，则唤醒对应设备。
79.进一步地，上述一种语音唤醒方法中，缓存预设时间段内语音的特征得到第一语音特征是缓存最近n秒的语音的特征，其中，n是浮点数。
80.具体的，本技术实施例中的n为浮点数，具体数值可以根据唤醒词命令长度灵活进行调整。
81.进一步地，上述一种语音唤醒方法中，唤醒语音的逆向特征是唤醒语音的逆时序特征。
82.图4为本技术实施例提供的一种语音唤醒装置示意图。
83.第二方面，本技术实施例还提供一种语音唤醒装置，结合图4，包括：
84.获取模块401：用于获取唤醒语音。
85.具体的，本技术实施例中，获取模块401获取唤醒语音，唤醒语音可以是厂商定制的唤醒语音，如云知声对应的“你好魔方”，比亚迪对应的“小迪，你好”等语音，也可以是用户根据个人爱好设置的语音。
86.第一检测模块402：用于正向端到端唤醒系统检测唤醒语音中是否存在唤醒事件。
87.具体的，本技术实施例中，正向端到端唤醒系统是语音在正常时序下能够对系统进行唤醒，首先通过正向端到端唤醒系统的第一检测模块402检测唤醒语音如“你好魔方”中是否存在唤醒事件。
88.第二检测模块403：用于若正向端到端唤醒系统检测唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件。
89.具体的，本技术实施例中，逆向端到端唤醒系统是语音在逆时序下能够对系统进行唤醒，如：正常时序下的语音“你好魔方”能够唤醒正向端到端唤醒系统，逆时序下的语音能够唤醒逆向端到端唤醒系统，在正向端到端唤醒系统检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒系统的第二检测模块403检测唤醒语音“你好魔方”的逆向特征中是否存在唤醒事件。
90.唤醒模块404：用于若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。
91.具体的，本技术实施例中，在正向端到端唤醒系统检测唤醒语音如“你好魔方”中存在唤醒事件的情况下，进一步通过逆向端到端唤醒系统检测唤醒语音的逆向特征中是否存在唤醒事件，在逆向端到端唤醒系统检测唤醒语音“你好魔方”的逆向特征中存在唤醒事件的情况下，唤醒模块404才对对应的设备进行唤醒。应理解，本技术不仅通过唤醒语音对正向端到端唤醒系统进行唤醒，而且结合唤醒语音的逆向特征对逆向端到端唤醒系统进行
唤醒，提升了唤醒设备的准确率，解决了误唤醒的问题，提升了用户体验。
92.第三方面，本技术实施例还提供一种电子设备，包括：处理器和存储器；
93.处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种语音唤醒方法。
94.第四方面，本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种语音唤醒方法。
95.图5是本公开实施例提供的一种电子设备的示意性框图。
96.如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。
97.可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。
98.在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。
99.其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本技术实施例提供的一种语音唤醒方法中任一方法的程序可以包含在应用程序中。
100.在本技术实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本技术实施例提供的一种语音唤醒方法各实施例的步骤。
101.获取唤醒语音；
102.正向端到端唤醒系统检测唤醒语音中是否存在唤醒事件；
103.若正向端到端唤醒系统检测唤醒语音中存在唤醒事件，逆向端到端唤醒系统检测唤醒语音的逆向特征是否存在唤醒事件；
104.若逆向端到端唤醒系统检测所述唤醒语音的逆向特征中存在唤醒事件，则唤醒对应设备。
105.本技术实施例提供的一种语音唤醒方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
106.本技术实施例提供的一种语音唤醒方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可
以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种语音唤醒方法的步骤。
107.本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
108.本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
109.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：实时音频处理方法和装置、计算机存储介质、电子设备与流程

一种语音唤醒方法、装置、电子设备和存储介质与流程

相关文献

最热文献