提升唤醒效果的方法和装置与流程

2021-11-03 11:06:00 来源：中国专利 TAG：

1.本发明属于唤醒技术领域，尤其涉及提升唤醒效果的方法和装置。

背景技术：

2.相关技术中，目前的语音交互产品中，通常会设置唤醒词，在实际场景中，产品经常需要能够自定义唤醒词，而且有些场景需要定制的唤醒词数量会很多。
3.发明人在实现本技术的过程中发现，当前主流的唤醒词定制方案，主要是基于信号和声学特征来实现的，因此有些方案可能无法支持不可枚举的唤醒词，有些方案可能会出现唤醒词串词问题，造成误唤醒，有些方案还会对唤醒词数量有限制，如果客户需求的拓展词超过限制，则无法处理。进一步地，对于快捷唤醒词拓展导致的误唤醒，由于唤醒词的数量限制，不能定制全部的唤醒词，因此会存在使用一个快捷唤醒词来执行一类相似指令的需求。现有的唤醒技术方案，无法有效解决上述一个或多个问题。

技术实现要素：

4.本发明实施例提供一种提升唤醒效果的方法和装置，用于至少解决上述技术问题之一。
5.第一方面，本发明实施例提供一种提升唤醒效果的方法，包括：响应于用户的输入音频，通过唤醒模型进行一次校验；若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
6.第二方面，本发明实施例提供一种提升唤醒效果的装置，包括：输入模块，配置为响应于用户的输入音频，通过唤醒模型进行一次校验；校验模块，配置为若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
7.第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。
8.第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的提升唤醒效果的步骤。
9.本技术的方法通过引入识别信息和/或语义信息提升唤醒效果的方式，实现了对唤醒模块引入语义信息的一次校验结果(唤醒)进行二次校验，通过利用识别信息和/或语义信息来辅助唤醒决策，可以减少误唤醒。
附图说明
10.为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
11.图1为本发明一实施例提供的一种提升唤醒效果的方法流程图；
12.图2为本发明一实施例提供的一种软件实现流程图；
13.图3为本发明一实施例提供的一种提升唤醒效果的装置的框图；
14.图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
15.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
16.请参考图1，其示出了本技术的提升唤醒效果的方法一实施例的流程图，本实施例的提升唤醒效果的方法，可以适用于具有语音交互的产品中例如智能显示的终端、智能手机、平板、电脑等。
17.如图1所示，在步骤101中，响应于用户的输入音频，通过唤醒模型进行一次校验；
18.在步骤102中，若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
19.在本实施例中，对于步骤101，提升唤醒效果的装置响应于用户的输入音频，通过唤醒模型进行一次校验，例如，根据用户输入的音频送入唤醒模块，首先经过声学特征比对模块检测是否通过，如果通过声学特征比对模块，则将音频送入通用唤醒模型，计算唤醒置信度，和设定的唤醒阈值比较，如果超过阈值，则视为一次唤醒通过。虽然上述实施例中详细描述了现有技术中通用的一次校验过程，但是上述过程并不用于限制本技术的一次校验过程，本技术的一次校验过程可以是现有的唤醒模型一次校验过程，也可以是未来开发的唤醒模型的一次校验过程，本技术在此没有限制，对于其他的唤醒模型的一次校验过程和未来开发的唤醒模型的一次校验过程在此不再赘述。
20.之后，对于步骤102，若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒，例如，若一次唤醒通过后，将用户输入的音频送入识别模块，同时将识别模块识别出的结果送入语义模块，通过语义模块处理计算，得到语义解析结果，同时根据语义解析结果判断唤醒模型是否为有效唤醒。当用户在正常交互中时，首先将用户输入的音频送入到唤醒模型，对唤醒模型设置一个较为宽松的阈值，用户输入的音频通过唤醒模型后，将音频数据送入识别模块，经过识别模块识别得到对应的识别结果，再根据识别结果来校验是否为有效唤醒，从而降低误唤醒，即上述识别语义模块的结果可以仅仅是识别结果，也可以是语义解析结果，本技术在此没有限制。需要说明的是，在后续的实施例中虽然很多时候都只强调了语义结果，但是本领域技术人员可以理解，在有些场景下，只有识别结果也能判断是否是
有效唤醒，后续不再赘述。进一步地，本技术的二次校验过程可以是现有的唤醒模型二次校验过程，也可以是未来开发的唤醒模型的二次校验过程，本技术在此没有限制，对于其他的唤醒模型的二次校验过程和未来开发的唤醒模型的二次校验过程在此不再赘述。
21.本实施例的方法通过提升唤醒效果的方式，实现了对唤醒模块引入语义信息的二次校验，通过语义信息来辅助唤醒决策，同时降低误唤醒率，提升唤醒效果。
22.在一些可选的实施例中，若所述识别语义模块对所述输入音频的识别结果与所述唤醒模型的预设唤醒词完全匹配，将所述识别结果解析为所述唤醒词，并判断所述唤醒模型的校验通过为有效唤醒，例如，根据用户输入的音频，将音频送入识别模块识别，把识别结果送入语义模块并输出识别结果，将语义模块识别的结果与唤醒模型的预设唤醒词进行匹配，若预设的唤醒唤醒词与语义识别结果完全匹配，并对该语义结果进行解析，判断唤醒模型的校验通过为有效唤醒。其中，完全匹配可以是每一个字都匹配且没有对唤醒词进行前后拓展，例如，用户输入的音频为“暂停电视”，经过识别语义模块进行处理，根据唤醒模型对预设唤醒词的词库进行匹配，其中，唤醒模型预设的唤醒词为“暂停电视”，通过唤醒模型对比，所述用户输入的音频经过识别语义模块处理与唤醒模块预设的唤醒词完全匹配；完全匹配也可以是其中一部分固定内容中的每一个字都匹配，剩余部分的内容与词库或者预设规则匹配，例如，用户输入的音频为“暂停电视”，所述用户输入的音频“暂停电视”经过识别语义模块进行处理得到“暂停电视”，根据唤醒模型对预设唤醒词的词库进行匹配，匹配的结果为“暂停”，所述完全匹配为其中一部分固定内容中的每一个子都匹配，剩余部分的内容与词库或者预设规则匹配。本实施例的方法可以实现识别语义模块处理的结果与预设的唤醒词完全匹配，其中，唤醒词完全匹配包括每一个字都匹配且没有对唤醒词进行前后拓展或者也可以是其中一部分固定内容中的每一个字都匹配。
23.在一些可选的实施例中，若所述识别语义模块对所述输入音频的识别结果与所述唤醒模型的快捷唤醒词不完全匹配，则不对所述识别结果进行语义解析，并判断所述唤醒模型的校验通过为无效唤醒，其中，所述不完全匹配包括唤醒词串词，唤醒词串词可以是输入音频的识别结果中包含唤醒词但是在唤醒词的前面和/或后面进行了拓展，导致唤醒词在该识别结果中不应该被识别为唤醒词。例如，根据用户输入的音频，将音频送入识别模块识别，把识别结果送入语义模块并输出识别结果，将语义模块识别的结果与唤醒模型的预设唤醒词进行匹配，若预设的唤醒词与语义识别结果不完全匹配，则对该语义结果不进行解析，判断唤醒模型的校验通过为无效唤醒，若唤醒词为唤醒串词，则所述唤醒串词与音频结果也不完全匹配，同样判断唤醒模型的校验通过为无效唤醒。同时也可以处理唤醒词串词问题，减少误唤醒，比如快捷唤醒词“声音小一点儿”vs人声干扰“讲电话时声音小一点别吵到他人”，可以基于语义限制快捷唤醒词的前后拓展，只有完全匹配快捷唤醒词才会有语义解析，语义的二次校验才通过，触发有效唤醒。另外，也可以在设计唤醒词的时候，针对唤醒词进行评估，通常会有一个词典以及一些拼音或者音素等校验规则，从而可以提前规避容易串词的唤醒词。
24.本实施例提升唤醒效果的方式，可以实现唤醒串词在现实场景中对于唤醒词比较多的情况下，避免造成误唤醒，同时经过匹配提高了唤醒词的准确性使用识别语义模块限制快捷唤醒词的前后拓展，只有完全匹配的快捷唤醒词才能通过唤醒模型有效唤醒。
25.在一些可选的实施例中，所述完全匹配包括：所述识别结果中的其中一部分内容
与所述固定部分匹配，且所述识别结果中的另一部分内容与所述枚举部分对应的词库或规则匹配，例如，若所述一次校验通过，利用所述识别语义模块对所述输入音频进行识别得到识别结果；若所述识别结果中的其中一部分内容与所述固定部分匹配，则判断所述识别结果中的另一部分内容是否与所述枚举部分对应的词库或规则匹配；若匹配，基于所述识别结果生成语义解析结果，并判断所述唤醒模型的校验通过为有效唤醒；若不匹配，判断所述唤醒模型的校验通过为无效唤醒。引入语义二次校验后的唤醒方案，可以支持无法枚举的唤醒词。比如“第n个”，可以设置一个相对宽松唤醒阈值，通用唤醒模型唤醒后，通过设置语义pattern(样板)：“第#数字#个”，获取对应的语义解析来做唤醒的二次校验，这里“#数字#”可以对应一个词库或者一类规则。
26.本实施例的方法解决了无法支持不可枚举的唤醒词带来的问题，根据判断语义识别结果中的另一部分内容与枚举部分对应的词库或规则是否匹配，来决策是否为有效唤醒，不仅提升唤醒效果，而且减少误唤醒。
27.在一些可选的实施例中，所述完全匹配包括：所述识别结果中的其中一部分内容与所述固定部分匹配，且所述识别结果中的另一部分内容与所述对象部分的词库中的对象匹配，例如，若所述一次校验通过，利用所述识别语义模块对所述输入音频进行识别得到识别结果；若所述识别结果中的其中一部分内容与所述固定部分匹配，则判断所述识别结果中的另一部分内容是否与所述对象部分的词库中的对象匹配；若匹配，基于所述识别结果生成语义解析结果，并判断所述唤醒模型的校验通过为有效唤醒；若不匹配，判断所述唤醒模型的校验通过为无效唤醒。针对唤醒词拓展及其误唤醒问题，同样可以基于语义，使用一个快捷唤醒词，支持一类唤醒指令并且保证尽可能低的误唤醒，比如以上提到的“暂停电视”，“暂停音乐”，“暂停空气净化器”唤醒响应，“暂停冰箱”“暂停空调”唤醒不响应。这类需求，就可以设置一个快捷唤醒词“暂停”，所有暂停说法，通过通用唤醒模型一次校验，至于有些对象唤醒响应，有些不响应，这个可以基于语义实现，最简单的方法，比如可以基于语义热词词库和语义pattern(样板):暂停#唤醒设备#,这里#唤醒设备#对应语义热词词库,当交互对应的暂停对象在语义热词词库里，则认为响应唤醒，否则不唤醒。进一步的，当对应的pattern(样板)存在前后无关文本，比如“xxx暂停电视xxx”，也期望唤醒不响应，同样可以基于语义来实现，定制pattern(样板)的时候限定前后不拓展。
28.本实施例的方法通过提升唤醒效果的方式，可以解决针对唤醒词拓展及其带来的误唤醒问题，同时还解决了对唤醒词的数量限制，导致的误唤醒，根据判断语义识别结果中的另一部分内容与对象部分对应的词库或规则是否匹配，来决策是否为有效唤醒，不仅提升唤醒效果，而且减少误唤醒。
29.在一些可选的实施例中，将所述唤醒词以热词形式导入至识别语义模块，并将所述热词通过所述语义解析模型进行训练，得到对应的识别语义资源，例如，根据唤醒词以热词形式导入到识别模块和语义模块，同时配置热词相关pattern(样板)(例如上面举例的“第#数字#个”或“暂停#唤醒设备#”)以及使用语义解析模型进行训练，生成对应的识别资源和语义资源。同时，导入方式既可以是离线导入也可以是实时导入。
30.本实施例的方法通过提升唤醒效果的方式，可以实现将唤醒词以热词的形式导入到识别模块和语义模块进行训练，得到对应的识别资源和语义资源。
31.在一些可选的实施例中，其中，所述识别语义模块包括本地识别语义模块和云端
识别语义模块，例如，所述识别语义模块不限于本地识别模块和本地语义模块，也可以是云端识别模快和云端语义模块。
32.本实施例的方法通过提升唤醒效果的方式，可以实现不限制于是本地识别语义模块还是云端识别语义模块。
33.需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本技术在此没有限制。
34.下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本技术的方案。
35.发明人在实现本技术的过程中发现，传统的提升唤醒效果有如下缺点：缺陷1：尽量规避这种不可枚举的唤醒词，如果一定要支持，仅支持高频词。比如第1
‑
10个。缺陷2：串词问题，在设计唤醒词的时候，针对唤醒词评估，通常会有一个词典以及一些拼音或者音素等校验规则，提前规避容易串词的唤醒词。缺陷3：拓展及其导致的误唤醒问题，通常唤醒会离线搜集产品需求，将所有要支持的唤醒词定制到唤醒模型。该方案的本质还是枚举所有的唤醒词，缺陷是有唤醒词数量的限制，一旦客户需求的拓展及其导致的误唤醒问题。
36.再请参考图2，其示出了本技术一实施例提供的软件实现流程图。
37.本发明实施例主要在唤醒模块引入了语义信息的二次校验，通过语义信息来辅助唤醒决策，减少误唤醒。通过将唤醒词以热词形式导入到识别和语义模块，通过语义结果来辅助唤醒决策。
38.首先设置唤醒词，将唤醒词导入到识别和语义模块，触发训练，生成对应资源。当用户正常交互时，首先将音频送入唤醒模型，唤醒模型可以设置一个相对宽松的阈值，唤醒模型通过后，将音频数据送入识别模型，识别模型得到对应的识别结果，再将识别结果送到语义模块。需要说明的是，这里识别既可以是本地识别也可以是云端识别，同样地，语义既可以是本地语义也可以是云端语义。获取语义结果后，通过语义结果来校验是否有效唤醒，从而降低误唤醒。
39.本发明实施例的方案与常规的唤醒方案不同，在于引入了更多的特征辅助决策，除了常规的声学和信号特征，还引入了识别以及语义特征，尤其是语义特征。能够解决当前唤醒无法解决的问题，同时减少误唤醒，另一方面，也能够使得唤醒模型更加通用，减少大量拓展词定制导致的唤醒干扰，提升唤醒效果。
40.步骤1：首先将唤醒词以热词形式导入到本地识别和本地语义模块，同时配置热词相关pattern(样板)或者使用语义解析模型，触发训练，生成对应的识别和语义资源。这里不限于本地识别和本地语义，也可以是云端识别和云端语义。导入方式既可以是离线导入也可以是实时导入。
41.步骤2：正常唤醒交互时，音频送入唤醒模块，首先经过声学特征比对模块，检测是否通过。
42.步骤3：若声学特征检测通过，则将音频送入通用唤醒模型，计算唤醒置信度，和设定的唤醒阈值比较，如果超过阈值，则视为一次唤醒通过，送入后续二次校验模块。否则直接退出，不唤醒。这里的唤醒阈值可以设置一个相对较宽松的值，尽可能保证唤醒。误唤醒问题可以由后续的二次校验模块来改善。
43.步骤4：一次唤醒通过后，送入识别模块，识别模块将识别结果送入语义模块，得到
语义解析结果。根据是否有语义解析结果，来决定是否为误唤醒，这里的判定规则是可定制的，不限于“如果有解析，则认为唤醒，否则不唤醒”，也可以是基于语义结果做更多的判定规则。语义解析结果是根据步骤1中配置的热词相关pattern(样板)或者语义解析模型来决定的。
44.请参考图3，其示出了本发明一实施例提供的提升唤醒效果装置的框图。
45.如图3所示，提升唤醒效果装置300，输入模块310，校验模块320。
46.其中，输入模块，配置为响应于用户的输入音频，通过唤醒模型进行一次校验；校验模块，配置为若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
47.值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如输入模块可以描述为根据用户输入的音频信息通过唤醒模型进行处理的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如判断模块也可以用处理器实现，在此不再赘述。
48.在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的提升唤醒效果的方法；
49.作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：
50.响应于用户的输入音频，通过唤醒模型进行一次校验；
51.若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
52.非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据提升唤醒效果装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至提升唤醒效果的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
53.本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项提升唤醒效果方法。
54.图4是本发明实施例提供的电子设备的结构示意图，如图4所示，该设备包括：一个或多个处理器401以及存储器402，图4中以一个处理器401为例。提升唤醒效果的方法的设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。存储器402为上述的非易失性计算机可读存储介质。处理器401通过运行存储在存储器402中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例提升唤醒效果的方法。输入装置403可接收输入的数字或字符信息，以及产生与提升唤醒效果装置的用户设置以及功能控制有关的键信号输入。输出装置404可包括显示屏等显示设备。
55.上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。
56.作为一种实施方式，上述电子设备应用于提升唤醒效果装置中，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：
57.响应于用户的输入音频，通过唤醒模型进行一次校验；
58.若所述一次校验通过，将所述输入音频送入识别语义模块进行二次校验，通过所述识别语义模块的结果判定所述唤醒模型的校验通过是否为有效唤醒。
59.本技术实施例的电子设备以多种形式存在，包括但不限于：
60.(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。
61.(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：pda、mid和umpc设备等，例如ipad。
62.(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。
63.(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
64.(5)其他具有数据交互功能的电子装置。
65.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
66.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
67.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

提升唤醒效果的方法和装置与流程

相关文献

最热文献