基于多级触发机制的超低功耗唤醒方法及装置与流程

2021-11-03 20:50:00 来源：中国专利 TAG：

1.本发明属于语音识别技术领域，具体涉及一种基于多级触发机制的超低功耗唤醒方法及装置。

背景技术：

2.随着语音识别技术的飞速发展，语音交互的应用场景越来越普遍，智能车载，智能家居，智能机器人都已是语音交互应用的主要应用场景，用户对便携式设备语音唤醒的需求也更旺盛，便携式设备对语音交互低功耗、低延时、高性能的需求相对主流设备更高。
3.相关技术中，多级低功耗语音唤醒技术方案，通常使用的是二级唤醒。通过麦克风阵列收音，做相应的信号处理后(信号增强，噪声抑制，回声消除)，然后做第一级语音识别，判断用户是否说出唤醒词，如果确定说出，则开始进行第二级语音识别判断用户是否说出唤醒词。但是这种方式具有以下问题：
4.由于要保证远场语音唤醒性能，信号处理功耗大，而且为了降低功耗，各级唤醒不同计算力需求需要配备不同计算力的芯片，存在操作繁琐，且成本较高的问题。

技术实现要素：

5.有鉴于此，本发明的目的在于克服现有技术的不足，提供一种基于多级触发机制的超低功耗唤醒方法及装置，以解决现有技术中的为降低功耗各级唤醒配备不同计算力的芯片，导致操作繁琐，且成本较高问题。
6.为实现以上目的，本发明采用如下技术方案：一种基于多级触发机制的超低功耗唤醒方法，包括：
7.获取语音数据，根据所述语音数据确定待处理语音；
8.将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；
9.通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；
10.通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理；
11.其中，第二声学模型的识别准确度高于第一声学模型的准确度。
12.进一步的，所述根据所述语音数据确定待处理语音，包括：
13.对所述语音数据进行降噪、增强处理；
14.将降噪、增强处理后得到的语音数据确定为待处理语音。
15.进一步的，如果所述第一相似度小于等于第二预设阈值，则判断所述第一声学模型运行时间是否超过第一预设值，若运行时间超过第一预设值则结束第一声学模型的运
行。
16.进一步的，所述第一声学模型在接收到活动语音检测模型输出的语音信号时开启，并在确定输出活动语音片段到第二声学模型或运行时间超过第一预设值时关闭；
17.所述第二声学模型在接收到第一声学模型输出的语音信号时开启，并在确定输出命令词唤醒或运行时间超过第二预设值时关闭。
18.进一步的，所述第一预设值小于第二预设值。
19.进一步的，所述根据对比结果进行命令词唤醒处理，包括：
20.如果所述第二相似度大于第三预设阈值，则对所述活动语音片段进行命令词识别处理；
21.如果所述第二相似度小于等于第三预设阈值，则判断所述第二声学模型运行时间是否超过第二预设值，若运行时间超过第二预设值则结束第二声学模型的运行。
22.进一步的，
23.运行活动语音检测模型时，采用第一mips运行；
24.运行第一声学模型时，采用第二mips运行；
25.运行第二声学模型时，采用第三mips运行。
26.本技术实施例提供一种基于多级触发机制的超低功耗唤醒装置，包括：
27.获取模块，用于获取语音数据，根据所述语音数据确定待处理语音；
28.第一确定模块，用于将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；
29.第二确定模块，用于通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；
30.第三确定模块，用于通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词唤醒处理；
31.其中，第二声学模型的识别准确度高于第一声学模型的准确度。
32.本技术实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；
33.存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于多级触发机制的超低功耗唤醒方法；
34.处理器用于调用并执行存储器中的计算机程序。
35.本发明采用以上技术方案，能够达到的有益效果包括：
36.本发明提供一种基于多级触发机制的超低功耗唤醒方法及装置，通过多级触发机制，通过三级模型的不同设置，降低了系统功耗且操作简单。本技术通过低功耗的活动语音检测模型降低了系统功耗，且第一声学模型和第二声学模型只有在有语音信号输入时才启动，且系统整体的唤醒由第二声学模型决定，从而达到了保持低误唤醒率的同时降低功耗的目的，动态的mips调整，也使得系统不用搭载多块芯片来满足不同模块的不同计算需求。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
38.图1为本发明基于多级触发机制的超低功耗唤醒方法的步骤示意图；
39.图2为本发明基于多级触发机制的超低功耗唤醒方法的流程示意图；
40.图3为本发明基于多级触发机制的超低功耗唤醒装置的结构示意图；
41.图4为本发明基于多级触发机制的超低功耗唤醒方法涉及的硬件运行环境的计算机设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。
43.下面结合附图介绍本技术实施例中提供的一个具体的基于多级触发机制的超低功耗唤醒方法及装置。
44.如图1所示，本技术实施例中提供的基于多级触发机制的超低功耗唤醒方法，包括：
45.s101，获取语音数据，根据所述语音数据确定待处理语音；
46.s102，将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；
47.s103，通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；
48.s104，通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理；
49.其中，第二声学模型的识别准确度高于第一声学模型的准确度。
50.基于多级触发机制的超低功耗唤醒方法的工作原理为：本技术中首先获取到语音数据，对语音数据进行处理得到待处理语音，然后活动语音检测模型实时检测活动语音，活动语音为用户发出的语音片段，如果声音是由冰箱或洗衣机发出的噪音则不是活动语音，此时活动语音模型输出的概率较低，在活动语音检测模型识别到语音后输出该语音为活动语音片段的概率，将该概率与第一预设阈值进行对比，当概率高于第一预设阈值时，确定为用户的活动语音片段，如果概率低于第一预设阈值则说明该语音可能为家具家电发出的噪音。
51.当确定为用户发出的活动语音片段后，将活动语音片段的语音信号输入到第一声学模型中，第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述
第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中，第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理，识别到命令词后进行语音唤醒。
52.可以理解的是，本技术中的第二声学模型的识别准确度高于第一声学模型的准确度。
53.首先通过任务较简单的语音检测模型对语音信号进行活动语音检测，当检测到活动语音，再将语音片段输入准确度较低的第一声学模型对语音输入信号进行初步的语音唤醒识别，当识别出语音输入信号与预设的唤醒语音信号之间的相似度超过第二预设阈值时，再通过准确度较高第二声学模型对语音输入信号进行第二次语音唤醒识别，从而根据第二次识别的结果，确定是否唤醒语音交互功能。
54.一些实施例中，所述根据所述语音数据确定待处理语音，包括：
55.对所述语音数据进行降噪、增强处理；
56.将降噪、增强处理后得到的语音数据确定为待处理语音。
57.具体的，本技术在获取后语音数据后，先对语音数据进行降噪、增强处理，可以使得后续级别的语音识别更为准确。
58.一些实施例中，如果所述第一相似度小于等于第二预设阈值，则判断所述第一声学模型运行时间是否超过第一预设值，若运行时间超过第一预设值则结束第一声学模型的运行。
59.具体的，在第一声学模型进行判断时，第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将第一相似度与第二预设阈值进行对比，如果第一相似度大于第二预设阈值，则将所述活动语音片段的语音信号输入到第二声学模型中，如果第一相似度小于等于第二预设阈值，说明未识别到命令词，则判断第一声学模型运行时间是否超过第一预设值，若运行时间超过第一预设值则结束第一声学模型的运行。
60.一些实施例中，所述第一声学模型在接收到活动语音检测模型输出的语音信号时开启，并在确定输出活动语音片段到第二声学模型或运行时间超过第一预设值时关闭；
61.所述第二声学模型在接收到第一声学模型输出的语音信号时开启，并在确定输出命令词唤醒或运行时间超过第二预设值时关闭。
62.具体的，本技术共设有三级语音识别，其中第一级的活动语音检测模型的功耗较小，为了检测到用户的语音片段，一直处于开启状态，但是第一声学模型与第二声学模型只有在接收到语音信号时才进行开启，并且在对语音信号进行识别后进行关闭，避免一直处理开启状态导致功耗过大。除此之外，本技术中第一声学模型和第二声学模型分别设有开启的时间预设值，在第一声学模型开启时间超过第一预设值时或第二声学模型开启时间超过第二预设值时，说明第一声学模型或第二声学模型已经检测失败或检测时间过长，此时直接关闭第一声学模型或第二声学模型，回到活动语音检测模型的检测状态。
63.优选的，所述第一预设值小于第二预设值。
64.也就是说第一声学模型的开启持续时间比第二声学模型的开启持续时间短，因为第一声学模型只检测部分关键词即可，这样可以降低两级声学模型运行的系统延时，可减小功耗。
65.一些实施例中，所述根据对比结果进行命令词唤醒处理，包括：
66.如果所述第二相似度大于第三预设阈值，则对所述活动语音片段进行命令词识别处理；
67.如果所述第二相似度小于等于第三预设阈值，则判断所述第二声学模型运行时间是否超过第二预设值，若运行时间超过第二预设值则结束第二声学模型的运行。
68.具体的，在第二声学模型进行检测判断时，确定所述语音信号和预设语音信号之间的第二相似度，并判断所述第二相似度是否大于第二预设阈值，如果超过，则识别命令词进行语音唤醒，如果第二相似度小于等于第二预设阈值，说明命令词识别失败，则判断所述第二声学模型运行时间是否超过第二预设值，若运行时间超过第二预设值则结束第二声学模型的运行。避免第二声学模型的无用运行，降低功耗。
69.一些实施例中，运行活动语音检测模型时，采用第一mips运行；
70.运行第一声学模型时，采用第二mips运行；
71.运行第二声学模型时，采用第三mips运行。
72.基于多级触发机制的超低功耗唤醒方法的工作原理为：参见图2，接收语音输入信号，做信号处理(简单降噪、增强)，此时为第一mips；根据活动语音检测模型，确定输入语音信号为活动语音片段的概率，并判断是否超过第一预设阈值。若超过，将检测到的活动语音片段的语音信号传递到第一声学模型处理，并调整第一mips为第二mips。根据第一声学模型，确定输入语音信号和预设的唤醒语音信号之间的第一相似度，并判断所述第一相似度是否超过第二预设阈值；若超过，则调整mips为第三mips，并根据第二声学模型，确定输入语音信号和预设的唤醒语音信号之间的第二相似度，并判断第二相似度是否超过第三预设阈值，其中，所述第二声学模型的准确度高于所述第一声学模型的准确度；否则检测一定时间后返回信号处理，并调整mips为第一mips。若超过第二阈值，则唤醒语音交互功能。否则检测一定时间后返回活动语音检测，并调整mips为第二mips。
73.本技术中活动语音检测误唤醒率为1/5s，功耗为0.4mips；
74.第一声学模型误唤醒率为7/min，功耗为5mips；
75.第二声学模型误唤醒率为4/24h，功耗为120mips；
76.使用多级唤醒，每级处理的音频平均为1s，运行24h；
77.第一声学模型运行4.8h，功耗为5mips*4.8h；
78.第二声学模型运行为0.56h，功耗为120*0.56hmips；
79.系统误唤醒为，0.56h*(4/24h)，0.93/24h，功耗为4mips；
80.可以知道，本技术相比于现有技术用第一声学模型的功耗，获得了超过第二声学模型的性能。现有技术中用超过第一声学模型的功耗，获得了接近第二声学模型的性能。
81.本技术通过低功耗的活动语音检测模型降低了系统功耗，且第一声学模型和第二声学模型只有在有语音信号输入时才启动，且系统整体的唤醒由第二声学模型决定，从而达到了保持低误唤醒率的同时降低功耗的目的，动态的mips调整，也使得系统不用搭载多块芯片来满足不同模块的不同计算需求。
82.一些实施例中，如图3所示，本技术提供一种基于多级触发机制的超低功耗唤醒装置，包括：
83.获取模块301，用于获取语音数据，根据所述语音数据确定待处理语音；
84.第一确定模块302，用于将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；
85.第二确定模块303，用于通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；
86.第三确定模块304，用于通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词唤醒处理；
87.其中，第二声学模型的识别准确度高于第一声学模型的准确度。
88.本技术提供的基于多级触发机制的超低功耗唤醒装置的工作原理为，获取模块301获取语音数据，根据所述语音数据确定待处理语音；第一确定模块302将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；第二确定模块303通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；第三确定模块304通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词唤醒处理；其中，第二声学模型的识别准确度高于第一声学模型的准确度。
89.本技术实施例提供一种计算机设备，包括处理器，以及与处理器连接的存储器；
90.存储器用于存储计算机程序，计算机程序用于执行上述任一实施例提供的基于多级触发机制的超低功耗唤醒方法；
91.处理器用于调用并执行存储器中的计算机程序。
92.处理器用于调用并执行存储器中的计算机程序。存储器可以包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)。该计算机设备存储有操作系统，存储器是计算机可读介质的示例。所述计算机程序被所述处理器执行时，使得所述处理器执行基于多级触发机制的超低功耗唤醒方法，如图4示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
93.在一个实施例中，本技术提供的基于多级触发机制的超低功耗唤醒方法可以实现为一种计算机程序的形式，计算机程序可在如图4所示的计算机设备上运行。
94.一些实施例中，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：获取语音数据，根据所述语音数据确定待处理语音；将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设
阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理；其中，第二声学模型的识别准确度高于第一声学模型的准确度。
95.本技术还提供一种计算机存储介质，计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd
‑
rom)、数字多功能光光盘(dvd)或其他光学存储、磁盒式磁带存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
96.一些实施例中，本发明还提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：获取语音数据，根据所述语音数据确定待处理语音；
97.将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理；其中，第二声学模型的识别准确度高于第一声学模型的准确度。
98.综上所述，本发明提供一种基于多级触发机制的超低功耗唤醒方法及装置，包括获取语音数据，根据所述语音数据确定待处理语音；将所述待处理语音输入到活动语音检测模型中，确定所述待处理语音为活动语音片段的概率，并将所述概率与第一预设阈值进行对比并在所述概率大于所述预设阈值时，将所述活动语音片段的语音信号输入到第一声学模型中；通过所述第一声学模型确定输入的语音信号与预设语音信号之间的第一相似度并将所述第一相似度与第二预设阈值进行对比，在所述第一相似度大于所述第二预设阈值时，将所述活动语音片段的语音信号输入到第二声学模型中；通过所述第二声学模型确定输入的语音信号与预设语音信息之间的第二相似度并将所述第二相似度与第三预设阈值进行对比，根据对比结果进行命令词识别处理；其中，第二声学模型的识别准确度高于第一声学模型的准确度。本发明通过多级触发机制，通过三级模型的不同设置，降低了系统功耗且操作简单。本技术通过低功耗的活动语音检测模型降低了系统功耗，且第一声学模型和第二声学模型只有在有语音信号输入时才启动，且系统整体的唤醒由第二声学模型决定，从而达到了保持低误唤醒率的同时降低功耗的目的，动态的mips调整，也使得系统不用搭载多块芯片来满足不同模块的不同计算需求。
99.可以理解的是，上述提供的方法实施例与上述的装置实施例对应，相应的具体内容可以相互参考，在此不再赘述。
100.本领域内的技术人员应明白，本技术的实施例可提供为方法、系统、或计算机程序产品。因此，本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
101.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
102.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令方法的制造品，该指令方法实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
103.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
104.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：可定制的低延时命令词识别方法及装置与流程

基于多级触发机制的超低功耗唤醒方法及装置与流程

相关文献

最热文献