关键词识别方法及系统与流程

2021-10-19 20:39:00 来源：中国专利 TAG：识别关键词语音识别方法系统

1.本发明涉及语音识别技术领域，特别是涉及一种关键词识别方法及系统。

背景技术：

2.关键词识别，一般是指，当电子设备接收到用户的语音后，通过对语音的检索，判断是否是该电子设备被唤醒的关键词，一旦该语音被电子设备识别为其被唤醒的关键词，则设备被唤醒，例如，现有技术中的天猫精灵，其被唤醒的前提是，当有用户准确地说出“天猫精灵”这几个字的时候，它会回答“诶，我在”，然后，每次需要天猫精灵执行相应的控制命令时，都需要继续对天猫精灵说“天猫精灵”这几个字之后，他才能被唤醒，然后才能接收并识别用户的语音命令，也就是说，在这种情况下，“天猫精灵”这几个字是它被唤醒的关键词。然而，当电子设备的唤醒关键词较多，或者由于用户说话具有口音等情况发生时，就容易导致电子设备无法被正确唤醒，导致的问题包括应当被唤醒时无法完成唤醒，或者不应当被唤醒时错误唤醒的情况发生；或者，为了提高电子设备关键词唤醒的准确性，需要在终端设备上加载高级别算法，导致终端设备的成本提高，用户体验感受较差的情况发生。

技术实现要素：

3.有鉴于此，本发明提供了一种关键词识别方法及系统，其能够降低终端的功耗，提高关键词识别的准确性，并且在关键词数量不断增加的过程中，不会降低用户的体验感受，能够保证关键词识别系统的准确率，从而更加适于实用。
4.为了达到上述目的，本发明提供的关键词识别方法包括：
5.接收终端在低功耗态下识别为包含第一预设关键词的第一语音信息，识别所述第一语音信息得到第一识别结果；
6.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词或包含与所述第一预设关键词不同的第二预设关键词时，控制所述终端的工作状态由低功耗态切换为激活态；
7.当所述第一识别结果为所述第一语音信息中不包含任何预设关键词时，控制所述终端的工作状态由低功耗态切换为敏感态。
8.作为优选，所述的关键词识别方法还包括：
9.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词时，根据所述第一预设关键词生成控制指令；
10.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词不同的第二预设关键词时，根据所述第二预设关键词生成控制指令。
11.作为优选，当所述终端的工作状态为敏感态时，所述关键词识别方法还包括：
12.接收所述终端未识别的第二语音信息，识别所述第二语音信息得到第二识别结果；
13.当所述第二识别结果为所述第二语音信息中包含任一预设关键词时，将所述终端
的工作状态切换为激活态。
14.作为优选，所述关键词识别方法还包括：
15.当所述终端处于激活态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由激活态切换为低功耗态；
16.当所述终端处于敏感态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由敏感态切换为低功耗态。
17.作为优选，所述关键词识别方法还包括：
18.存储从所述终端接收到的语音信息，并提取所述语音信息的特征向量；
19.通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果。
20.作为优选，所述通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果，包括：
21.根据声学模型和字典对所述特征向量进行语音解码，输出语音识别文本，其中，所述语音识别文本为所述待识别语音信息的拼音；
22.判断所述待识别语音信息的拼音中是否包含预设关键词的拼音；
23.若包含，则所述关键词识别结果为包含预设关键词；
24.若不包含，则所述关键词识别结果为不包含预设关键词。
25.本发明还提供一种关键词识别系统，包括服务器以及终端；
26.其中，所述终端包括：麦克风，用于获取用户的语音信息；
27.第一信息传输模块，用于向所述服务器传输获取到的语音信息，并接收来自所述服务器的工作状态切换指令；
28.第一关键词识别模块，用于识别所述麦克风获取的语音信息中是否包含预设关键词；
29.所述服务器包括：第二信息传输模块，用于接收终端在低功耗态下识别为包含第一预设关键词的第一语音信息；
30.第二关键词识别模块，用于识别所述第一语音信息得到第一识别结果；
31.终端工作状态控制模块，用于当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词或包含与所述第一预设关键词不同的第二预设关键词时，控制所述终端的工作状态由低功耗态切换为激活态；或当所述第一识别结果为所述第一语音信息中不包含任何预设关键词时，控制所述终端的工作状态由低功耗态切换为敏感态。
32.作为优选，所述关键词识别系统还包括控制指令生成模块，用于当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词时，根据所述第一预设关键词生成控制指令；以及
33.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词不同的第二预设关键词时，根据所述第二预设关键词生成控制指令。
34.作为优选，当所述终端的工作状态为敏感态时，所述第二信息传输模块还用于接收所述终端未识别的第二语音信息；
35.所述第二关键词识别模块还用于识别所述第二语音信息得到第二识别结果；
36.所述终端工作状态控制模块还用于当所述第二识别结果为所述第二语音信息中
包含任一预设关键词时，将所述终端的工作状态切换为激活态。
37.作为优选，所述终端工作状态控制模块还用于当所述终端处于激活态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由激活态切换为低功耗态；以及
38.当所述终端处于敏感态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由敏感态切换为低功耗态。
39.作为优选，所述第二关键词识别模块包括：
40.存储单元，用于存储从所述终端接收到的语音信息；
41.特征向量提取单元，用于提取所述语音信息的特征向量；
42.关键词识别单元，用于通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果。
43.作为优选，所述关键词识别单元包括：
44.文本输出单元，用于根据声学模型和字典对所述特征向量进行语音解码，输出语音识别文本，其中，所述语音识别文本为所述待识别语音信息的拼音；
45.关键词比对单元，用于判断所述待识别语音信息的拼音中是否包含预设关键词的拼音；
46.结果输出单元，用于若所述待识别语音信息的拼音中包含预设关键词的拼音，则所述关键词识别结果为包含预设关键词；以及若所述待识别语音信息的拼音中不包含预设关键词的拼音，则所述关键词识别结果为不包含预设关键词。
47.本发明提供的关键词识别方法及系统首先通过终端获取用户的语音信息，当用户的语音信息中未包含设定的关键词时，终端不执行任何动作；而当用户的语音信息中包含设定的关键词时，终端并不是直接根据该设定的关键词直接做出下一步响应，而是将这段包含有该设定的关键词的语音发送至服务器，由服务器进行识别，并根据服务器的识别结果生成控制指令。其中，当服务器识别到的关键词与终端识别到的关键词为同一关键词时，控制终端由低功耗态切换为激活态；当服务器未识别到关键词时，控制终端由低功耗态切换为敏感态；当服务器识别到的关键词与终端识别到的关键词为不同的关键词时，以服务器识别到的关键词为准生成控制指令，同时控制终端由低功耗态切换为激活态。本发明降低功耗的同时也保证了关键词能够被更加精准地识别，降低了由于关键词被单一终端识别而发生识别错误的概率，即使关键词的数量增加到8
‑
10个甚至更多个时，依然不会降低识别准确率。因此，本发明提供的关键词识别方法及系统具有更加广阔的应用前景，如人工智能、智能家电等领域。
附图说明
48.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
49.附图1为本发明实施例提供的关键词识别方法的概括步骤流程图；
50.附图2为本发明实施例提供的在终端处于低功耗态时，关键词识别方法的步骤流程图；
51.附图3为本发明实施例提供的在终端处于敏感态时，关键词识别方法的步骤流程图；
52.附图4为本发明实施例提供的关键词识别系统中各功能模块的概括信号流向关系示意图；
53.附图5为本发明实施例提供的整体应用场景示意图；
54.附图6为本发明实施例提供的终端和服务器对关键词的识别方法应用场景示意图；
55.附图7为本发明实施例提供的应用场景中终端设备及云端算法示意图；
56.附图8为本发明实施例提供的详细应用场景示意图。
具体实施方式
57.有鉴于此，本发明提供了一种关键词识别方法及系统，其能够降低终端功耗，提高关键词识别的准确性，并且在关键词数量不断增加的过程中，不会降低用户的体验感受，能够保证关键词识别系统的准确率，从而更加适于实用。
58.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种关键词识别方法及系统，其具体实施方式、结构、特征及其功效，详细说明如后。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
59.本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，具体的理解为：可以同时包含有a与b，可以单独存在a，也可以单独存在b，能够具备上述三种任一种情况。
60.关键词识别方法实施例
61.参见附图1
‑
附图8，本发明提供的关键词识别方法包括以下步骤：
62.步骤s102，接收终端在低功耗态下识别为包含预设关键词的语音信息，识别所述语音信息得到识别结果。
63.具体而言，为了降低功耗，所述终端的初始工作状态为低功耗态，终端在低功耗态下实时获取用户的语音信息，并识别获取到的语音信息中是否包含预设关键词，若所述终端识别结果为不包含预设关键词，则终端继续保持低功耗态，并持续低功耗获取并识别用户的语音信息中是否包含预设关键词；若终端识别结果为包括预设关键词，则终端将识别为包含预设关键词的语音发送至服务器。
64.例如，当终端获取到的用户的语音信息为“天黑了，开灯”时，假设“开灯”为预设关键词之一，则终端识别结果为：用户的语音信息“天黑了，开灯”中包含预设关键词“开灯”，此时，终端将识别为包含预设关键词“开灯”的语音信息“天黑了，开灯”发送至服务器即可。而当终端获取到的用户的语音信息为“秋天到了，一群大雁往南飞”，若终端识别该段语音信息中不包含预设关键词，则终端继续保持低功耗态，并持续低功耗获取并识别用户的语音信息中是否包含预设关键词。
65.本实施例中，终端识别语音信息中是否包括设定的关键词，并得到终端识别结果具体包括以下步骤：从语音信息中提取待识别语音信息的特征向量，具体地，语音特征向量
就是提取的音频数据矩阵，例如，语音特征向量可以为mel频率倒谱系数，但不局限于使用此方法，也可以采用本领域技术人员熟知的其他方法，只要能够实现提取语音特征向量的功能和作用即可；根据待识别语音信息的特征向量，基于神经网络的关键词识别模型，判断待识别语音信息中是否包含预设关键词。
66.服务器接收终端识别为包含预设关键词的语音信息后，为了提高关键词识别的准确性，服务器会对所述语音信息重新识别，并得到识别结果。
67.步骤s104，当所述服务器的识别结果为所述语音信息中包含预设关键词时，控制所述终端的工作状态由低功耗态切换为激活态。
68.具体而言，服务器对语音信息重新识别后得到识别结果，该结果可能为所述语音信息中包含预设关键词，为了便于描述，此处将终端识别到的预设关键词称为第一预设关键词，服务器识别到的预设关键词称为第二预设关键词相同，则第一预设关键词可能与第二预设关键词相同，第一预设关键词也可能与第二预设关键词不同。无论服务器识别到的预设关键词与终端识别到的预设关键词是否相同，该语音信息中均包含预设关键词，此时，说明用户下达了有效指令，此时，服务器需要根据关键词生成控制指令，并发送至被控设备上，因此包括服务器和终端在内的系统的功耗较高。
69.步骤s106，当所述识别结果为所述语音信息中不包含任何预设关键词时，控制所述终端的工作状态由低功耗态切换为敏感态。此时，服务器不会执行生成控制指令的操作，因此包括服务器和终端在内的系统的功耗较低。
70.需要说明的是，终端的低功耗态指的是终端持续获取用户的语音信息，并识别语音信息中是否包含预设关键词，此时，服务器不会执行任何操作，包括服务器和终端在内的系统的功耗较低；终端的敏感态指的是终端持续获取用户的语音信息，不经过识别直接发送至服务器，由服务器对该语音信息进行识别，此时，由于服务器需要执行语音信息识别，因此包括服务器和终端在内的系统的功耗相比终端在低功耗态时高；终端的激活态指的是终端持续获取用户的语音信息，不经过识别直接发送至服务器，由服务器对该语音信息进行识别，并根据识别到的预设关键词生成控制指令，此时，由于服务器需要需要生成控制指令并将控制指令发送至对应的被控设备上，因此包括服务器和终端在内的系统的功耗相比终端在敏感态时高。
71.上述实施例的执行主体可以是服务器，或者其他任意可实现该关键词识别方法的电子设备或装置。
72.在另一实施例中，所述的关键词识别方法还包括：
73.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词时，根据所述第一预设关键词生成控制指令；
74.当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词不同的第二预设关键词时，根据所述第二预设关键词生成控制指令。
75.上述实施例即以服务器的关键词识别结果为准，具体而言，当终端识别到的预设关键词与服务器识别到的预设关键词为同一关键词时，服务器控制终端的工作状态由低功耗态切换为激活态，并根据服务器识别到的预设关键词生成控制指令。例如，假设终端从语音信息“天黑了，开灯”中识别到了预设关键词“开灯”，且服务器也从语音信息“天黑了，开灯”中识别到了预设关键词“开灯”，此时，终端识别到的预设关键词与服务器识别到的预设
关键词为同一关键词，说明终端的识别准确，终端被控制由低功耗态切换为激活态。
76.当终端识别到的关键词与服务器识别到的关键词为不同关键词时，以服务器识别到的关键词为准，同时终端被控制由低功耗态切换为激活态，并根据服务器识别到的预设关键词生成控制指令。例如，假设终端从语音信息“天黑了，开灯”中识别到了预设关键词“关灯”，而服务器也从语音信息“天黑了，开灯”中识别到了预设关键词“开灯”，此时，终端识别到的预设关键词与服务器识别到的预设关键词为不同关键词，在这种情况下，说明终端识别结果出现错误，但此时，由于“关灯”也是预设关键词，因此，根据服务器的识别结果生成被控设备的控制指令，终端被控制由低功耗态切换为激活态。
77.在另一实施例中，当所述终端的工作状态为敏感态时，所述关键词识别方法还包括：
78.接收所述终端获取的未经识别的语音信息，识别该未经终端识别的语音信息得到识别结果；
79.当所述识别结果为该未经终端识别的语音信息中包含任一预设关键词时，将所述终端的工作状态切换为激活态。
80.本实施例中，当系统处于敏感态时，语音信息直接由服务器进行识别，终端不进行语音信息识别。当语音信息被服务器识别后为包含预设关键词时，终端被控制由敏感态切换为激活态，服务器根据识别到的预设关键词生成相应的控制指令。
81.例如，终端获取到的语音信息为“天黑了，开灯”，此段语音不经过终端识别，直接将语音发送至服务器进行判断。服务器识别语音“天黑了，开灯”之后，得到服务器识别结果为包含关键词“开灯”，此时，终端被控制由敏感态切换为激活态，服务器根据识别到的关键词“开灯”生成相应的控制指令。
82.终端获取到的语音信息被服务器识别后为不包含预设关键词时，服务器不做任何处理。例如，输入语音为“天黑了，下班”，此段语音不经过终端识别，直接将语音发送至服务器进行判断。服务器识别语音“天黑了，下班”之后，得到识别结果为不包含预设关键词，此时，终端仍保持敏感态。
83.在一实施例中，所述关键词识别方法还包括：
84.当所述终端处于激活态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由激活态切换为低功耗态；
85.当所述终端处于敏感态时，若在预设时间内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，将所述终端的工作状态由敏感态切换为低功耗态。
86.在本实施例中，在设定时长之内，若服务器在预设时间内未接收到终端发送的语音信息或接收到的语音信息不包含预设关键词，则控制终端将工作状态切换为低功耗态。
87.具体而言，假设预设时间为5分钟，若终端处于敏感态，且服务器在连续5分钟之内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，例如，用户处于睡眠状态，或者家中无人状态时，终端将工作状态切换为低功耗态。
88.若终端处于敏感激活态，且服务器在连续5分钟之内未接收到终端发送的语音信息和/或接收到的语音信息不包含预设关键词，终端将工作状态切换为低功耗态。
89.在一实施例中，所述关键词识别方法还包括：
90.存储从所述终端接收到的语音信息，并提取所述语音信息的特征向量；
91.通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果。
92.本实施例中，首先在终端从最初使用之后的一段时间之内时，终端获取用户的语音信息；
93.终端将用户的语音信息中包含关键词的语音信息发送至服务器，并存储在服务器中。
94.具体而言，当用户刚刚购买了本发明实施例提供的关键词识别系统，初次使用时，系统提示用户说出本系统设定的关键词，并采集此用户说关键词的语音。在此过程中，系统将包含关键词的语音信息存储在服务器数据库中。以及，在之后使用此关键词识别系统的过程中，被系统最终判定为包含关键词的语音，也会被存储在服务器数据库中。在这种情况下，能够为终端与服务器的关键词判别模型提供此特定用户的关键词语音，此语音与原本数据库中语音混合在一起，迭代训练模型，能够使得关键词判别模型对于此特定用户的语音判断更加准确。例如，在初次使用系统时的激活系统界面，提示用户专门说关键词的语音，在这种情况下，该包含关键词的语音被存储于服务器中，例如，苹果手机在启用siri功能时，它会让你说两三遍hey siri这个关键词。之后系统进行关键词识别时，即可根据迭代更新模型进行关键词识别。在某一特定的时间里，系统会使用以上两种方式采集到的包含此特定用户说的关键词语音以及之前数据库中用于训练模型的语音，再次训练一个新的模型出来，这个模型会更适用于识别使用此系统的该用户的语音。与系统更新类似，在这种情况下，终端和服务器的训练模型会被同时更新。
95.在一实施例中，所述通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果，包括：
96.根据声学模型和字典对所述特征向量进行语音解码，输出语音识别文本，其中，所述语音识别文本为所述待识别语音信息的拼音；
97.判断所述待识别语音信息的拼音中是否包含预设关键词的拼音；
98.若包含，则所述关键词识别结果为包含预设关键词；
99.若不包含，则所述关键词识别结果为不包含预设关键词。
100.具体而言，假设服务器接收到的语音信息为“天黑了，开灯”，服务器识别采用汉语拼音识别，从语音信息中提取特征向量；待识别语音信息的特征向量根据声学模型和字典进行语音解码后，输出语音识别文本，其中，语音识别文本为待识别语音信息的拼音，即“tianheile,kaideng”；判断所述待识别语音信息的拼音中是否包含预设关键词的拼音；若“kaideng”为预设关键词，则服务器识别结果为包含预设关键词。若“tianheile,kaideng”中没有与预设关键词匹配的拼音文本，则服务器识别结果为不包含预设关键词。
101.本发明提供的关键词识别方法首先通过终端获取用户的语音信息，当用户的语音信息中未包含设定的关键词时，系统不执行任何动作；而当用户的语音信息中包含设定的关键词时，系统并不是直接根据该设定的关键词直接做出下一步响应，而是由终端将这段包含有该设定的关键词的语音发送至服务器，由服务器进行识别，并根据服务器的识别结果控制系统的工作状态。其中，当服务器识别到的关键词与终端识别到的关键词为同一关键词时，系统在低功耗态下被激活，根据识别到的关键词做出下一步响应；当服务器未识别到关键词时，系统从低功耗态转变为敏感态，并且系统不会根据终端识别到的关键词做出
下一步响应；当服务器识别到的关键词与终端识别到的关键词为不同的关键词时，以服务器识别到的关键词为准，做出下一步响应。在这种情况下，用户的语音中有可能包含的关键词能够被更加精准地识别，极大地降低了由于关键词被单一终端识别而发生识别错误的概率，即降低误唤醒率。即使关键词的数量增加到8
‑
10个甚至更多个时，依然不会降低识别准确率。因此，本发明提供的关键词识别方法及系统具有更加广阔的应用前景，如语音助手、智能家电等领域。
102.关键词识别系统实施例
103.参见附图1
‑
附图8，本发明还提供一种关键词识别系统，可用于实现本发明提供的关键词识别方法的全部步骤。本发明提供的关键词识别系统包括终端和服务器，其中，所述终端包括：
104.麦克风，用于获取用户的语音信息。具体而言，本发明实施例提供的关键词识别方法过程中，终端上可以设置麦克风设备，通过麦克风设备，可以获取到用户的语音信息。
105.第一信息传输模块，用于向所述服务器传输获取到的语音信息，并接收来自所述服务器的工作状态切换指令。
106.第一关键词识别模块，用于识别所述麦克风获取的语音信息中是否包含预设关键词。具体而言，例如，当用户的语音信息为“天黑了，开灯”时，若“开灯”为预设关键词，终端识别结果为，用户的语音信息“天黑了，开灯”中包含关键词“开灯”。而当用户的语音信息为“秋天到了，一群大雁往南飞”，若此时，该段语音信息中被终端识别为未包含设定的关键词。
107.所述服务器包括：
108.第二信息传输模块，用于接收终端在低功耗态下识别为包含第一预设关键词的第一语音信息。具体而言，在终端采集到用户的语音信息如“天黑了，开灯”时，因为这段语音中包含预设关键词“开灯”，因此，终端会将包含预设关键词“开灯”的语音信息“天黑了，开灯”发送至服务器，服务器接收该语音信息。
109.第二关键词识别模块，用于识别所述第一语音信息得到第一识别结果。具体而言，语音“天黑了，开灯”会被服务器继续识别，本实施例中，服务器识别采用汉语拼音识别，此时，若服务器识别语音“tianheile,kaideng”之后，会存在两种识别结果，第一种结果a1是，服务器经过识别后，依然认为该语音“tianheile,kaideng”中包含关键词“kaideng”；第二种结果a2是，服务器经过识别后，认为该语音信息实际为“tianheile,xiaban”,在该第二种结果a2条件下，有可能存在两种不同的情况，第一种情况a21是，“xiaban”为服务器设定的关键词，也就是说，此时，服务器识别到的关键词“xiaban”与终端识别到的关键词“开灯”为不同的关键词；第二种情况a22是，语音“tianheile,xiaban”中不包含服务器设定的关键词。
110.终端工作状态控制模块，用于当所述第一识别结果为所述第一语音信息中包含所述第一预设关键词或包含与所述第一预设关键词不同的第二预设关键词时，控制所述终端的工作状态由低功耗态切换为激活态；或当所述第一识别结果为所述第一语音信息中不包含任何预设关键词时，控制所述终端的工作状态由低功耗态切换为敏感态。
111.具体而言，假设终端识别语音信息“天黑了，开灯”得到终端识别结果为包含预设关键词“开灯”；同时，服务器识别语音“tianheile,kaideng”之后，得到服务器识别结果为
“
kaideng”是预设关键词。在这种情况下，终端识别结果“开灯”与服务器识别结果“kaideng”为同一关键词，说明终端的识别准确，此时，服务器控制终端的工作状态由低功耗态切换为激活态，并生成与服务器识别结果“kaideng”对应的控制指令。
112.假设终端识别语音信息“天黑了，开灯”得到终端识别结果为包含预设关键词“关灯”；同时，服务器识别语音“tianheile,kaideng”之后，得到服务器识别结果为“kaideng”是预设关键词。在这种情况下，终端识别结果“关灯”与服务器识别结果“kaideng”不是同一预设关键词，终端的识别结果可能有误，此时，以服务器的识别结果为准，服务器控制终端的工作状态由低功耗态切换为激活态，并生成与服务器识别结果“kaideng”对应的控制指令。
113.假设终端识别语音信息“天黑了，下班”得到终端识别结果为包含预设关键词“开灯”；同时，服务器识别语音“tianheile,xiaban”之后，得到服务器识别结果为不包含预设关键词。在这种情况下，终端的识别结果可能有误，此时，以服务器的识别结果为准，服务器控制终端的工作状态由低功耗态切换为敏感态，。
114.在一实施例中，当所述终端的工作状态为敏感态时，所述第二信息传输模块还用于接收所述终端未识别的第二语音信息；所述第二关键词识别模块识别所述第二语音信息得到第二识别结果；当所述第二识别结果为所述第二语音信息中包含任一预设关键词时，所述终端工作状态控制模块控制所述终端的工作状态切换为激活态。
115.具体而言，终端是被语音信息包含预设关键词，而服务器是被为语音信息中不包含预设关键词，因此控制终端的工作状态切换为敏感态。在敏感态下，终端将获取的语音信息直接发送至服务器，终端本身不进行识别操作，直接由服务器进行识别。当服务器识别为语音信息中包含预设关键词时，控制终端的工作状态由敏感态切换为激活态。
116.需要说明的是，终端在激活态下，直接将获取的语音信息发送给服务器由服务器进行识别，终端不会进行识别。
117.在一实施例中，所述第二关键词识别模块包括：
118.存储单元，用于存储从所述终端接收到的语音信息。具体而言，当用户刚刚购买了本发明实施例提供的关键词识别系统的前半个月内，终端能够将包含关键词的语音信息均存储在服务器中，在这种情况下，能够为服务器提供关键词汉语拼音语音检索数据库，能够使得服务器进行汉语拼音语音识别时，更加准确。
119.特征向量提取单元，用于提取所述语音信息的特征向量；
120.关键词识别单元，用于通过预先训练好的关键词识别模型对所述特征向量进行处理，得到关键词识别结果。
121.在一实施例中，所述关键词识别单元包括：
122.文本输出单元，用于根据声学模型和字典对所述特征向量进行语音解码，输出语音识别文本，其中，所述语音识别文本为所述待识别语音信息的拼音；
123.关键词比对单元，用于判断所述待识别语音信息的拼音中是否包含预设关键词的拼音；
124.结果输出单元，用于若所述待识别语音信息的拼音中包含预设关键词的拼音，则所述关键词识别结果为包含预设关键词；以及若所述待识别语音信息的拼音中不包含预设关键词的拼音，则所述关键词识别结果为不包含预设关键词。
125.本发明提供的关键词识别系统首先通过终端获取用户的语音信息，当用户的语音信息中未包含预设关键词时，终端不执行任何动作；而当用户的语音信息中包含预设关键词时，终端并不是直接根据该设定的关键词直接做出下一步响应，而是将这段包含有该预设关键词的语音发送至服务器，进行识别，并根据服务器的识别结果控制终端的工作状态。其中，当服务器识别到的关键词与终端识别到的关键词为同一关键词时，终端的工作状态由低功耗态切换为激活态，同时服务器生成与服务器识别到的预设关键词对应的控制指令；当服务器未识别到预设关键词时，终端的工作状态由低功耗态切换为敏感态；当服务器识别到的预设关键词与终端识别到的预设关键词为不同的关键词时，以服务器识别到的预设关键词为准，生成对应的控制指令。在这种情况下，用户的语音中有可能包含的关键词能够被更加精准地识别，极大地降低了由于关键词被单一终端识别而发生识别错误的概率，即使关键词的数量增加到8
‑
10个甚至更多个时，依然不会降低识别准确率。因此，本发明提供的关键词识别方法及系统具有更加广阔的应用前景，如人工智能、智能家电等领域。
126.尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
127.显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种新型石器制造的多功能乐器的制作方法

关键词识别方法及系统与流程

相关文章

最热文献