输出命令词的方法、装置、存储介质及电子装置与流程

2022-03-26 13:36:14 来源：中国专利 TAG：

1.本发明实施例涉及通信领域，具体而言，涉及一种输出命令词的方法、装置、存储介质及电子装置。

背景技术：

2.命令词识别是语音识别的一种特殊场景，可以应用在家庭、会议等智能控制场景，唤醒词检测的关键词一般只有一个，例如，“小白”等等，但是命令词识别的关键词可能会有多，例如，在家庭场景下有类似“打开空调”和“打开电视”等，均是一个短促且具有明确的操作目标的祈使句，由于命令词识别是语音识别的一种，因此，语音识别的基本算法，同样可以应用于命令词检测算法。
3.在相关技术中，传统命令词识别算法可以单独使用、也可以作为唤醒词算法(常用的唤醒词算法包括，常规语音识别方式和端对端语音识别方式，另外，在深度优化的情况下，两者能达到相似的效果)的后置算法使用，当作为后置算法使用时，可以利用唤醒词的识别结果进一步提升命令词的识别效果，不需要进行vad(voice activity detection，语音活动检测)算法就可以将命令词输出(即，等待vad算法给出输入语音结尾的判断，命令词算法基于该判断输出所有识别结果并确定是否存在命令词)，从而能够较为准确的判断命令词的结尾，继而，可以减少执行vad算法造成的命令词输出结果的延时，其中，当命令词需识别多个关键词的情况下，必须等识别结果全部出来后才可以确定识别结果是否为命令词(即，是否触发命令词)，从而导致命令词识别算法的功耗增加，且当非命令词的语音输入过长时，会存在命令词识别算法的误报率升高的问题。
4.针对相关技术中存在的需要对输入语音中包括的全部词全部进行识别后才可能确定出输入语音中是否包括命令词，从而导致命令词的识别效率低，识别功耗大的问题，针对该问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种输出命令词的方法、装置、存储介质及电子装置，以至少解决相关技术中存在的命令词的识别效率低，识别功耗大的问题。
6.根据本发明的一个实施例，提供了一种输出命令词的方法，包括：在持续接收音频数据的情况下，对当前接收到的音频数据的类型进行检测；响应于检测到当前接收到的音频数据为对应于目标唤醒词的目标音频数据的情况下，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率；响应于确定出出现概率大于第一概率阈值的对应于目标命令词的音频数据，输出所述目标命令词。
7.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率包括：基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词类型的音频数据的第一概率以及出现对应于非命令词类型的音频数据的第二概率；响应于确定出所述第一概率大于第二概率阈值，基于
后续接收到的音频数据确定对应于每个命令词的音频数据的所述出现概率。
8.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词类型的音频数据的第一概率以及出现对应于非命令词类型的音频数据的第二概率包括：基于在所述目标音频数据之后所接收到的音频数据在目标解码图中调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重；基于所述第一权重和所述第二权重确定所述第一概率和所述第二概率。
9.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重包括：对在所述目标音频数据之后所接收到的音频数据进行帧级解码，得到第一解码结果；基于所述第一解码结果持续对目标解码图中包括的命令词路径的第一初始权重以及非命令词路径的第二初始权重进行调整；将调整后的第一初始权重确定为所述第一权重，以及，将调整后的第二初始权重确定为所述第二权重。
10.在一个示例性实施例中，基于后续接收到的音频数据确定对应于每个命令词的音频数据的所述出现概率包括：对所述后续接收到的音频数据进行帧级解码，得到第二解码结果；基于所述第二解码结果持续对目标解码图中包括的命令词路径中的每个命令词路径对应的初始权重进行调整；将每个命令词路径对应的调整后的初始权重确定为对应于每个命令词的音频数据的所述出现概率。
11.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率包括：响应于确定出在所述目标音频数据之后接收到的音频数据中包括有对应于命令类词的前缀词的音频数据，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率。
12.在一个示例性实施例中，所述方法还包括：响应于确定出在所述目标音频数据之后预定时间段内接收到的音频数据中不包括有对应于命令类词的前缀词的音频数据，终止执行基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率的操作。
13.根据本发明的另一个实施例，提供了一种输出命令词的装置，包括：检测模块，用于在持续接收音频数据的情况下，对当前接收到的音频数据的类型进行检测；第一确定模块，用于响应于检测到当前接收到的音频数据为对应于目标唤醒词的目标音频数据的情况下，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率；输出模块，用于响应于确定出出现概率大于第一概率阈值的对应于目标命令词的音频数据，输出所述目标命令词。
14.根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
15.根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
16.通过本发明，在持续接收音频数据的情况下，可以检测当前接收到的音频数据的
类型，当检测到当前音频数据类型是唤醒词对应的音频数据时，可以基于此音频数据之后所接收到的音频数据确定出后续出现命令词对应的音频数据所出现的概率，一旦确定出出现概率大于第一概率阈值的目标命令词所对应的音频数据，就会立刻输出该目标命令词，无需等到输入语音中包括的全部词全部进行识别后再确定及输出命令词，从而有效解决相关技术中存在的需要对输入语音中包括的全部词全部进行识别后才可能确定出输入语音中是否包括命令词，从而导致命令词的识别效率低，识别功耗大的问题，实现了命令词的识别快速响应的目的，达到了提高命令词的识别效率以及降低识别功耗的目的。
附图说明
17.图1是本发明实施例的一种输出命令词的方法的移动终端的硬件结构框图；
18.图2是根据本发明实施例的输出命令词的方法的流程图；
19.图3是根据本发明实施例的命令词识别的流程图；
20.图4是根据本发明实施例的解码图的流程图；
21.图5是根据本发明实施例的output symbol(输出符号)后置的解码优化算法的流程图；
22.图6是根据本发明实施例的命令词的前缀词“打开”被后置的示例图；
23.图7是根据本发明实施例的一种输出命令词的装置的结构框图。
具体实施方式
24.下文中将参考附图并结合实施例来详细说明本发明的实施例。
25.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
26.本技术实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种输出命令词的方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
27.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的输出命令词的方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
28.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器
(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
29.在本实施例中提供了一种输出命令词的方法，图2是根据本发明实施例的输出命令词的方法的流程图，如图2所示，该方法包括如下步骤：
30.s202，在持续接收音频数据的情况下，对当前接收到的音频数据的类型进行检测；
31.s204，响应于检测到当前接收到的音频数据为对应于目标唤醒词的目标音频数据的情况下，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率；
32.s206，响应于确定出出现概率大于第一概率阈值的对应于目标命令词的音频数据，输出所述目标命令词。
33.其中，执行上述操作的可以是控制器、处理器、语音识别模等等，还可以其他的具备类似处理能力的处理设备或处理单元等，其中，上述设备可以是集成于智能设备(例如，可以控制其他智能设备的智能音响、智能机器人等等)中，也可以是与智能设备独立设置。下面以控制器执行上述操作为例(仅是一种示例性说明，在实际操作中还可以是其他的设备或模块来执行上述操作)进行说明：
34.在上述实施例中，控制器可以持续的接收到音频数据，其中，该音频数据中可以包括有多个词语，控制器可以一边接收音频数据一边对音频数据进行检测，在检测当前接收到的音频数据为对于唤醒词的音频数据的情况下，会基于该音频数据之后所接收到的音频数据确定出后续出现对应于命令词的音频数据的出现概率，其中，音频数据可以是用户发出的语音，也可以是其他智能设备(例如，智能录音机等)发出的语音，可以是其他智能机器人发出的语音等等，还可以是预先录制的声音等等，例如，在音频“小白，打开冰箱”中，“小白”是唤醒词，“打开”是命令词前缀词，“冰箱”是命令词后缀词。
35.在上述实施例中，第一概率阈值可以是预先设定的，例如，当第一概率阈值为70％(当然，也可以是其他的概率值，例如，75％、80％、90％等等)时，在目标音频数据之后接收到后续出现对应于命令词的音频数据的出现概率大于70％时，即输出目标命令词，在目标音频数据之后接收到后续出现对应于命令词的音频数据的出现概率小于或等于70％时，可以提前终止对对应于唤醒词的音频数据之后所接收到的音频数据的识别操作，从而降低命令词识别算法的功耗，当然，第一概率阈值的预先设定可以根据实际应用情况进行调整。
36.在上述实施例中，在持续接收音频数据的情况下，可以检测当前接收到的音频数据的类型，当检测到当前音频数据类型是唤醒词对应的音频数据时，可以基于此音频数据之后所接收到的音频数据确定出后续出现命令词对应的音频数据所出现的概率，一旦确定出出现概率大于第一概率阈值的目标命令词所对应的音频数据，就会立刻输出该目标命令词，无需等到输入语音中包括的全部词全部进行识别后再确定及输出命令词，从而有效解决相关技术中存在的需要对输入语音中包括的全部词全部进行识别后才可能确定出输入语音中是否包括命令词，从而导致命令词的识别效率低，识别功耗大的问题，实现了命令词的识别快速响应的目的，达到了提高命令词的识别效率以及降低识别功耗的目的。
37.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率包括：基于在所述目标音频数据之后所接收
到的音频数据确定后续出现对应于命令词类型的音频数据的第一概率以及出现对应于非命令词类型的音频数据的第二概率；响应于确定出所述第一概率大于第二概率阈值，基于后续接收到的音频数据确定对应于每个命令词的音频数据的所述出现概率。在本实施例中，在确定对应于具体命令词的音频数据的出现概率之前，可以先确定出现对应于命令词类的音频数据的出现概率，在确定该概率大于一定阈值的情况下，再去确定对应于具体命令词的音频数据的出现概率，从而避免了在没有出现对应于命令词类的音频数据的可能下，也要对对应于具体命令词的音频数据的出现概率进行检测，而导致的无用的计算量的增加，从而出现硬件资源消耗较大的问题。在实际应用中，可以预先设定第二概率阈值，例如，设定为60％、70％、85％等等，以用于在确定出第一概率大于第二概率阈值时，可以基于后续接收到的音频数据确定出对应于每个命令词的音频数据的出现概率，此外，在确定出上述第一概率小于或等于第二概率阈值时，可以提前终止计算。
38.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词类型的音频数据的第一概率以及出现对应于非命令词类型的音频数据的第二概率包括：基于在所述目标音频数据之后所接收到的音频数据在目标解码图中调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重；基于所述第一权重和所述第二权重确定所述第一概率和所述第二概率。在本实施例中，可以基于对应于唤醒词的音频数据之后所接收到的音频数据在目标解码图中调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重，其中，该目标解码图可以是预先构建的解码图，例如，可以是基于hclg网络所构建的静态解码图。在构建时，首先需要把语言模型、发音词典、声学模型表示成对应的fst格式，然后通过组合、确定化、最小化等操作编译成一个大的解码图，从而得到该目标解码图。在上述实施例中，可以基于调整后的第一权重和第二权重确定出第一概率和第二概率，在实际应用中，第一权重对应于上述第一概率，第一权重大，则第一概率大，第一权重小，则第一概率小，可选地，可以将第一权重与第一权重和第二权重之和的比值确定为上述第一概率，将第二权重与第一权重和第二权重之和的比值确定为上述第二概率。
39.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重包括：对在所述目标音频数据之后所接收到的音频数据进行帧级解码，得到第一解码结果；基于所述第一解码结果持续对目标解码图中包括的命令词路径的第一初始权重以及非命令词路径的第二初始权重进行调整；将调整后的第一初始权重确定为所述第一权重，以及，将调整后的第二初始权重确定为所述第二权重。在本实施例中，在对音频数据进行解码时，可以按照帧级解码方式进行解码，即，一帧音频数据一帧音频数据的进行解码，其中，一帧音频数据的长度可以预先设置，一般会设置成10ms左右，当然，在实际应用中也可以将一帧音频数据的长度设置为其他的时长(例如，设置成5ms、15ms、20ms等等)，在进行帧级解码时，可以基于前一帧的解析结果来确定(或者说预测)后一帧可能出现的是命令词类型的音频数据还是非命令词类型的音频数据，从而基于确定结果来对目标解码图中包括的命令词类型的分支和非命令词类型分支的权重进行调整。
40.在一个示例性实施例中，基于后续接收到的音频数据确定对应于每个命令词的音
频数据的所述出现概率包括：对所述后续接收到的音频数据进行帧级解码，得到第二解码结果；基于所述第二解码结果持续对目标解码图中包括的命令词路径中的每个命令词路径对应的初始权重进行调整；将每个命令词路径对应的调整后的初始权重确定为对应于每个命令词的音频数据的所述出现概率。在本实施例中，目标解码图中可以包括两类权重，一类权重是命令类词路径和非命令类词路径的权重，另一类是命令类词路径中所具体包括的每个命令词的权重，即，在本实施例中，在基于命令词路径(或称为命令类词路径)的第一权重确定出大概率会出现对应于命令类词语的音频数据的情况下，会继续确定具体出现的是哪个命令词，即，执行后续的对命令类词路径中所具体包括的每个命令词的权重进行调整例如，在检测到“打开”命令词前缀时，会将“打开电灯”、“打开电视”、“打开空调”、“打开加湿器”设置为候选的命令词，并且为每个命令词分支配置相同的权重，在继续解码的过程中，在检测到“空”的情况下，则直接将“打开空调”分支的权重调整为最大，并输出命令词“打开空调”，此外，如果在检测到“电”的情况下，会将“打开电灯”分支的权重和“打开电视”分支的权重调大，例如，都调整为4，将“打开空调”、“打开加湿器”分支的权重调整为最小，例如，都调整为1，然后，继续进行检测，在又检测到“灯”的情况下，则直接将“打开电灯”分支的权重调整为最大，并输出命令词“打开电灯”。其中，每个命令词路径对应的调整后的初始权重可以用于确定每个命令词的音频数据的出现概率，命令词出现的概率越大，可以被识别的概率也越大，且每个命令词的音频数据的出现概率可以由根据实际需求调整后的每个命令词路径对应的初始权重的大小来确定。
41.在一个示例性实施例中，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率包括：响应于确定出在所述目标音频数据之后接收到的音频数据中包括有对应于命令类词的前缀词的音频数据，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率。在本实施例中，在多种应用场景下，命令类词的前缀词可以有多种选择，例如，“关闭”、“打开”、“启动”、“调大”、“降低”等等，在实际应用中，可以根据这类命令类词前缀词的音频数据确定后续出现对应于命令词的音频数据的出现概率，也可以对后续命令类词前缀词进行帧级解码，调整命令类词前缀词的权重大小，从而进一步调整后续出现对应于命令词的音频数据的出现概率。
42.在一个示例性实施例中，上述方法还包括：响应于确定出在所述目标音频数据之后预定时间段内接收到的音频数据中不包括有对应于命令类词的前缀词的音频数据，终止执行基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率的操作。在本实施例中，可以预先的设定一段时间，例如，1s、1.5s等等，若在这段时间内确定出在目标音频数据之后接收到的音频数据中不包括有对应于命令类词的前缀词的音频数据时，可以终止执行确定后续出现对应于命令词的音频数据的出现概率的操作。
43.显然，上述所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。
44.下面结合具体实施例对本发明进行具体说明：
45.图3是根据本发明实施例的命令词识别的流程图，如图3所示，该流程包括如下步骤：
46.s302，human speech。即，音频的输入，其中，该音频不仅限于人类语言，其他能够
识别的语言(例如，鸟叫声、狗叫声、猫叫声等等)也可以包含在内；
47.s304，进行第一判断，以判断唤醒词算法是否检测到唤醒词；
48.s306，在上述第一判断结果为是的情况下，命令算法从休眠sleep状态进入到预备ready状态，需要说明的是，在上述第一判断结果为否的情况下，需回到s302步骤；
49.s308，进行第二判断，以判断是否检测到命令词的前缀词；
50.s310，在上述第二判断结果为否的情况下，提前终止算法；
51.s312，在上述第二判断结果为是的情况下，继续识别命令词。
52.其中，当唤醒词算法被触发时，命令词检测算法也会进入到ready状态，等待用户进一步的命令词语音输入，当检测到命令词时，返回检测结果并触发相应功能，当未检测到命令词时，一段时间后进入sleep状态。
53.图4是根据本发明实施例的解码图的流程图，如图4所示，当唤醒词被触发之后，检测到用户想要触发后续操作，此时命令词检测算法可以在解码图上做进一步优化，也可以对解码图中的命令词语言模型的权重做进一步调整，从而增加命令词成功识别语音的概率，继而，可以降低命令词识别的误报率，该流程包括如下步骤：
54.s402，唤醒词是否被触发，若被触发，可以认为用户有念出命令词的意图；
55.s404，根据预设解码图增强系数，调整命令词的语言模型的权重，从而使命令词识别结果更加可靠和精准，其中，增强系数可以是一个经验范围，例如，1～1.5等等；
56.s406，对已调整语言模型权重的解码图进行命令词识别。
57.需要说明的是，构建基于hclg网络的静态解码，首先需要将语言模型、发音词典、声学模型表示成对应的fst格式，再通过组合、确定化、最小化等操作将其编译成一个大的解码图，即帧调整，数据流解码时是一帧一帧执行的，一帧10ms左右，在进行帧级解码时，可以确定后一帧的出现的命令词的权重，继而，在确定某个命令词的权值大于一定阈值(对应于上述第一阈值)的情况下，即输出该命令词，从而实现命令词快速响应的目的，另外，解码图包括命令词路径和垃圾词汇路径(对应于上述的非命令词路径)，命令词识别算法只在唤醒词算法检测到唤醒词时被调用，利用唤醒词已被触发的先验信息，可以进一步设置更大的命令词前缀词汇的路径图分数，因此，降低了命令词漏报几率，从而提高了命令词的识别性能。
58.由上述实施例可知，前置了唤醒词算法，基于唤醒词识别结果调整命令词算法，继而，增加命令词前缀词的权重，进一步提升命令词的识别率。
59.图5是根据本发明实施例的output symbol(输出符号)后置的解码优化算法的流程图，如图5所示，本算法流程将唤醒词检测算法前置，利用唤醒词被触发的先验信息，可以大大增加用户说出命令词的概率，继而，可以判断前两个词大约1s内的语音数据是否包含命令词的前缀词“打开”，另外，在多种场景下，前缀词的选择可以不同，例如，“关闭”、“启动”、“调大”、“降低”等等，如果语音数据没有包括上述的一系列前缀词，可以提前终止命令词对该语音的识别，该流程包括如下步骤：
60.s502，检测到语音，无需等完整的语音全部输入，可以提前输出词的级别结果；
61.s504，进行第一判断，以判断上述的词是否是前缀词；
62.s506，在上述第一判断结果为否的情况下，只解码最长ts＝1s内的语音，提前终止解码，其算法不再运行和消耗硬件资源，同时避免了长时间的未等到用户说出命令词，而产
生误报的问题；
63.s508，在上述第一判断结果为是的情况下，可以继续进行解码操作。
64.由上述实施例可知，output symbol后置的解码的优化思路是将解码图的以词单位进行输出的结果(即，输出symbol)进行后置，继而，在解码时，若解码器产生了一个词的输出结果，可以确定该词所对应的语音已输入完毕，因此，当识别到一个命令词的输出结果后可以立马返回，同时若在阈值时间ts＝1s内识别到语音，但解码结果中不包含命令词前缀词，在唤醒词已被激活的先决条件下，可以直接提前返回，不再进行后溪语音的判断，进一步降低了算法的功耗，同时也不会因识别的语句过长而导致命令词误报，在降低算法功耗的同时可以减少命令词误报。
65.图6是根据本发明实施例的命令词的前缀词“打开”被后置的示例图。
66.由前述实施例可知，唤醒词前置算法下的命令词可以提前终止无效命令词，可以有效降低命令词算法的功耗，同时基于唤醒词的识别结果为命令词检测算法提供有效的先验信息(对应于上述的先验信息)，基于该先验信息判断是否动态调整命令词解码图的语言模型的权重，从而减少命令词误报和漏报的情况，进一步提升命令词的识别率，即，基于唤醒词的先验解码结果，增强命令词前缀解码概率，提升命令词算法的识别率；基于output symbol后置的解码图的优化算法，当未出现命令词前缀时，提前终止命令词的识别算法，降低硬件的消耗和算法命令词的误报。
67.本发明通过利用唤醒词的识别结果，其中，唤醒词作为前置算法，在确认没有检测到有效命令词的情况下，可以提前终止识别算法，进一步降低能耗，并且可以在非命令词语音输入过长的情况下，降低命令词识别算法的误报情况，例如，有唤醒词已被确认，且识别出前缀不是命令词，此时不需要进一步等待后续命令词进行识别，同时当唤醒词被触发后，可以采用解码图设计增加命令词的权重，进一步降低命令词的漏报。
68.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
69.在本实施例中还提供了一种输出命令词的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
70.图7是根据本发明实施例的一种输出命令词的装置的结构框图，如图7所示，该装置包括：
71.检测模块72，用于在持续接收音频数据的情况下，对当前接收到的音频数据的类型进行检测；
72.第一确定模块74，用于响应于检测到当前接收到的音频数据为对应于目标唤醒词的目标音频数据的情况下，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率；
73.输出模块76，用于响应于确定出出现概率大于第一概率阈值的对应于目标命令词的音频数据，输出所述目标命令词。
74.在一个可选的实施例中，所述第一确定模块74包括：第一确定子模块，用于基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词类型的音频数据的第一概率以及出现对应于非命令词类型的音频数据的第二概率；第二确定子模块，用于响应于确定出所述第一概率大于第二概率阈值，基于后续接收到的音频数据确定对应于每个命令词的音频数据的所述出现概率。
75.在一个可选的实施例中，所述第一确定子模块包括：第一调整单元，用于基于在所述目标音频数据之后所接收到的音频数据在目标解码图中调整后续出现对应于命令词类型的音频数据的第一权重以及出现对应于非命令词类型的音频数据的第二权重；第一确定单元，用于基于所述第一权重和所述第二权重确定所述第一概率和所述第二概率。
76.在一个可选的实施例中，所述第一调整单元包括：解码子单元，用于对在所述目标音频数据之后所接收到的音频数据进行帧级解码，得到第一解码结果；调整子单元，用于基于所述第一解码结果持续对目标解码图中包括的命令词路径的第一初始权重以及非命令词路径的第二初始权重进行调整；确定子单元，用于将调整后的第一初始权重确定为所述第一权重，以及，将调整后的第二初始权重确定为所述第二权重。
77.在一个可选的实施例中，所述第二确定子模块包括：解码单元，用于对所述后续接收到的音频数据进行帧级解码，得到第二解码结果；第二调整单元，用于基于所述第二解码结果持续对目标解码图中包括的命令词路径中的每个命令词路径对应的初始权重进行调整；第二确定单元，用于将每个命令词路径对应的调整后的初始权重确定为对应于每个命令词的音频数据的所述出现概率。
78.在一个可选的实施例中，所述第一确定模块74还包括：第二确定子模块，用于响应于确定出在所述目标音频数据之后接收到的音频数据中包括有对应于命令类词的前缀词的音频数据，基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率。
79.在一个可选的实施例中，上述装置还包括：终止模块，用于响应于确定出在所述目标音频数据之后预定时间段内接收到的音频数据中不包括有对应于命令类词的前缀词的音频数据，终止执行基于在所述目标音频数据之后所接收到的音频数据确定后续出现对应于命令词的音频数据的出现概率的操作。
80.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
81.本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
82.在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
83.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储
有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
84.在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
85.本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。
86.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
87.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音质检方法及装置、存储介质及电子设备与流程

输出命令词的方法、装置、存储介质及电子装置与流程

相关文献

最热文献