基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质与流程

2022-08-11 05:57:51 来源：中国专利 TAG：

1.本发明涉及人工智能领域，尤其涉及基于关键词识别技术的语音唤醒方法装置、设备以及可读存储介质。

背景技术：

2.关键词识别是语音识别的研究方向之一，已经在实践中取得了广泛的运用，特别是在嵌入式设备中，关键词唤醒的主要目的是让语音识别系统平时处于低功耗的唤醒监听状态，在监听到关键词时再开启语音识别功能，有效地节约了资源。
3.与将语言流转换成对应的字符串的语音识别不同，关键词唤醒是从语音流中探测特定的词汇，具有功耗低、响应迅速的特点。如误唤醒和唤不醒的现象。

技术实现要素：

4.本技术实施例通过提供基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质，解决了现有技术中语音识别准确性不足的问题，实现了语音唤醒的性能功耗与准确性的平衡。
5.第一方面，本技术实施例提供了基于关键词识别技术的语音唤醒方法，包括：
6.将获取到的语音数据输入预先训练好的神经网络模型进行计算，以获取所述语音数据的语音特征的概率分布；
7.将所述概率分布输入所述神经网络模型进行快速校验；
8.对所述快速校验的结果进行判断，若所述快速校验的结果为可信，则进行语音唤醒；
9.若所述结果为不可信，则对所述语音数据进行持续时间和阈值的判断；
10.若所述语音数据的持续时间和阈值达到了最低要求，则对所述语音数据进行对唤醒词的语音识别，若所述语音识别的结果为通过，则进行语音唤醒；若所述语音识别的结果为不通过，则不进行语音唤醒；
11.若所述概率分布的持续时间和阈值没有达到最低要求，则不进行语音唤醒。
12.在其中一个实施例中，所述预先训练神经网络模型，包括：
13.建立神经网络模型；
14.重复多次将语音数据输入所述神经网络模型进行快速校验的训练和判断所述语音数据的持续时间与阈值的训练。
15.在其中一个实施例中，所述概率分布，包括：
16.所述语音数据的首个音的概率、最后一个音的概率，单个音的持续时间以及整个词的概率。
17.在其中一个实施例中，所述一种基于关键词识别技术的级联唤醒方法还包括：
18.若所述神经网络模型输出的所述概率分布不为音或字的概率，则对所述概率分布
进行预处理。
19.在其中一个实施例中，所述预处理的方式包括平滑。
20.在其中一个实施例中，所述快速校验，包括：
21.判断所述语音数据的所述首个音的概率、所述最后一个音的概率、所述单个音的持续时间以及所述整个词的概率是否都满足阈值。
22.第二方面，本发明提供基于关键词识别技术的语音唤醒装置，包括：
23.计算模块；所述计算模块用于计算获取的所述语音数据的语音特征的概率分布；
24.校验模块；所述校验模块用于将所述概率分布输入所述神经网络模型进行快速校验；
25.判断模块；所述判断模块用于对所述快速校验的结果进行判断；若所述快速校验的结果为可信，则进行语音唤醒；若所述结果为不可信，则对所述语音数据进行持续时间和阈值的判断；若所述语音数据的持续时间和阈值达到了最低要求，则对所述语音数据进行对唤醒词的语音识别，若所述语音识别的结果为通过，则进行语音唤醒；若所述语音识别的结果为不通过，则不进行语音唤醒；若所述概率分布的持续时间和阈值没有达到最低要求，则不进行语音唤醒。
26.第三方面，本发明提供一种设备，所述设备包括存储器和处理器；
27.所述存储器用于存储程序；
28.所述处理器用于执行所述程序并在执行所述程序时实现如上述提供的任一基于关键词识别技术的语音唤醒方法。
29.第四方面，本发明提供一种可读存储介质，所述可读存储介质存储有程序，所述程序被处理器执行时使所述处理器实现如上述提供的任一所述的基于关键词识别技术的语音唤醒方法。
30.在现有技术中，关键词唤醒存在准确性不足的问题，本发明提供的基于关键词识别技术的语音唤醒方法、装置、设备及可读储存介质，采用了快速校验与语音识别相结合的方法，能够以迅速地以快速校验的方式对语音数据做出是否唤醒的判断，如果不能做出唤醒的判断，则进入语音识别对其进行判断，快速校验迅速又省能，语音识别高效又准确，以两者结合的形式对语音数据进行唤醒判断，能够解决现有技术中准确率低的问题，并且达成了准确率与性能的平衡。
附图说明
31.图1是本发明第一实施例提供的基于关键词识别技术的语音唤醒方法示意图；
32.图2是本发明第二实施例提供的预先训练神经网络模型流程示意图；
33.图3是本发明提供的基于关键词识别技术的语音唤醒装置示意图；
34.图4是本发明实施例提供的设备结构示意性框图。
具体实施方式
35.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
例，都属于本技术保护的范围。
36.附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。
37.以下结合具体实施例对本发明的实现进行详细的描述。
38.参阅图1所示，图1是本发明第一实施例提供的基于关键词识别技术的语音唤醒方法示意图。
39.本发明提供基于关键词识别技术的语音唤醒方法，包括以下步骤：
40.步骤s1：将获取到的语音数据输入预先训练好的神经网络模型进行计算，以获取语音数据的语音特征的概率分布；
41.具体地，神经网络模型需要预先完成训练，神经网络模型在本发明提供的实施例中用于对语音数据进行快速校验和判断语音数据的持续时间与阈值是否达到最低标准。
42.更具体地，本实施例中获取的语音数据来自人发出的声音，且在具有本发明提供的语音唤醒功能的系统中，需要预先进行唤醒词的设置，唤醒词是触发系统的语音唤醒功能的一个指令，唤醒词可以是特定的字或词语，即唤醒词是能够唤醒系统的一段特定的语音数据；可以理解的是，当获取的语音数据中包含有反映唤醒词的特定语音数据时，即说明系统接收到了进行语音唤醒的指令，则对系统进行语音唤醒。
43.更具体地，语音数据的语音特征的概率分布为语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率；可以理解的是，反映唤醒词的特定语音数据是由多个音以一定顺序组成的，当在获取的语音数据中检测到了反映唤醒词的以一定顺序排列的特定的多个音时，说明获取的语音数据中包含有唤醒词，此时进行语音唤醒。
44.更具体地，本发明提供的实施例中采用了音素模糊的检测方法，音素模糊是对于每一个音素选取与其相似度较高的音素作为其模糊音素；例如：对于音素“c”，其对应的模糊音素分别为：模糊音素“ch”，其模糊系数为0.73；模糊音素“z”，其模糊系数为0.51；模糊音素“s”，其模糊系数为0.50；可以理解的是，模糊系数反映了模糊音素为原音素的概率，在本实施例中，获取的语音数据的每个音素的模糊音素及其模糊系数可以反映中其为预先设置的唤醒词中的音的概率。
45.可以理解的是，当反映唤醒词的以一定顺序排列的特定的多个音出现在获取的语音数据中，则语音数据中包含有唤醒词，应进行语音唤醒，而判断反映唤醒词的以一定顺序排列的特定的多个音出现在获取的语音数据中的依据为：检测反映唤醒词的以一定顺序排列的特定的多个音中的首个音、最后一个音、所有单个音的持续时间以及整个词，若获取的语音数据中出现了一组特定的多个音，其首个音为唤醒词的首个音的概率、其最后一个音为唤醒词的最后一个音的概率、其所有单个音的持续时间为唤醒词的所有单个音的持续时间以及整个词的概率为唤醒词的概率均达到了阈值，则可以确定获取的语音数据中包含唤醒词。
46.例如：预先设置唤醒词为“hello”，当获取到语音数据为“hello,world”时，语音数据“hello,world”中唤醒词“hello”的首个音的概率、最后一个音的概率、所有单个音的持续时间的概率以及整个词的概率都达到阈值，则确定语音数据中存在唤醒词，此时进行语音唤醒。
47.例如：预先设置唤醒词为“hello”，当获取到语音数据为“here,world”时，语音数据“here,world”中唤醒词“hello”的首个音的概率达到阈值，但其最后一个音的概率、所有单个音的持续时间的概率以及整个词的概率都未达到阈值，则确定语音数据中不存在唤醒词，此时不进行语音唤醒。
48.步骤s2：将概率分布输入神经网络模型进行快速校验；
49.具体地，神经网络模型在本发明提供的实施例中除了用于获取语音数据的语音特征的概率分布，还用于对获取的概率分布进行快速校验。
50.更具体地，当语音数据的概率分布满足阈值时，则结果为通过，并进行语音唤醒；其中，阈值是通过神经网络模型的预先训练中获取的，更具体地，在神经网络模型的预先训练中，获取的阈值的对象分别为语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率。
51.可以理解的是，快速校验使用的是关键词识别技术，关键词识别技术是从语音流中探测特定的词汇，即在获取的语音数据中对预先设置的唤醒词进行检索，快速校验具有响应迅速和能耗低的特点；快速校验是对获取的语音数据进行的第一次关键词识别检测，若语音数据通过了快速校验，则进行语音唤醒，若不能通过，则判断语音数据的持续时间和阈值是否达到了最低标准，若达到了最低标准，则以语音识别的形式对语音数据进行第二次关键词识别检测；其中，用于第一次关键词识别检测快速校验具有功耗低和响应迅速的特点，用于第二次关键词识别检测的语音识别具有准确率高和效率好的特点，因此本发明提供的一种基于关键词识别技术的语音唤醒方法能有效地保证语音唤醒的准确性与能耗性。
52.更具体地，在将获取到的语音数据输入预先训练好的神经网络模型进行计算，以获取语音数据的语音特征的概率分布的步骤之后，若神经网络模型输出的所述概率分布不为音或字的概率，则对概率分布进行预处理；更具体地，预处理的方式包括平滑。
53.步骤s3：对快速校验的结果进行判断，若快速校验的结果为可信，则进行语音唤醒；
54.具体地，当语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率都满足阈值时，快速校验的结果为可信，并进行语音唤醒。
55.可以理解的是，对语音数据进行首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率的快速校验，其目的是检测语音数据中是否包含唤醒词，当语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率是否都满足阈值时，代表语音数据中包含有唤醒词。
56.可以理解的是，唤醒词是进行语音唤醒的指令，当检测到唤醒词时，应当进行语音唤醒，即快速校验的结果为可信时，应当进行语音唤醒。
57.步骤s4：若结果为不可信，则对语音数据进行持续时间和阈值的判断；若概率分布的持续时间和阈值没有达到最低要求，则不进行语音唤醒；
58.具体地，当语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率并非都满足阈值时，快速校验的结果为不可信，并不进行语音唤醒。
59.可以理解的是，语音数据的首个音的概率、最后一个音的概率、单个音的持续时间以及整个词的概率需要全部满足阈值，才能得到可信的校验结果，确保了语音唤醒的准确
性和可靠性。
60.更具体地，当由快速校验无法获取可信的结果时，需要对语音数据的概率分布进行持续时间和阈值的判断，如果判断结果为未达到最低要求，则可以确定语音数据中不包含唤醒词，不必进行语音唤醒。
61.步骤s5：若语音数据的持续时间和阈值达到了最低要求，则对语音数据进行对唤醒词的语音识别，若语音识别的结果为通过，则进行语音唤醒；若语音识别的结果为不通过，则不进行语音唤醒；
62.具体地，当由快速校验实行的第一次唤醒词识别检测没有得到可信的结果，且对语音数据的概率分布的持续时间和阈值的判断达到了最低要求，则开始对语音数据进行由语音识别来执行的第二次唤醒词识别检测。
63.更具体地，若语音识别的结果为通过，则进行语音唤醒；若语音识别的结果为不通过，则不进行语音唤醒。
64.更具体地，语音识别是尽可能地将语音数据转换成对应的字符串，与快速校验相比，语音识别消耗的资源更多，也更加准确，可以理解的是，快速校验无法确定的语音数据，语音识别可以准确地对其进行判断。
65.在本实施例中，以快速校验的方式对获取的语音数据进行第一次的关键词的识别检测，若无法以快速校验的形式确定语音数据中是否包含唤醒词，则以语音识别的方式对语音数据进行第二次的关键词识别检测；快速校验具有能耗低和响应迅速的优点，能够在低能耗的基础上完成对语音数据的唤醒词检测，而当快速校验无法完成对语音数据的唤醒词检测时，则由语音识别对其进行唤醒词检测，语音识别具有更高的能耗和准确性，能够准确高效地确定语音数据中是否包含唤醒词；由能耗低的快速校验来进行第一次唤醒词检测，能耗高的语音识别来进行第一次检测无法确定后的第二次唤醒词检测，提高了语音唤醒的准确率，且保证了语音唤醒的准确率与能耗性的平衡。
66.参阅图2所示，图2是本发明第二实施例提供的预先训练神经网络模型流程示意图。
67.本发明提供预先训练神经网络模型流程示意图，包括以下步骤：
68.步骤s10：建立神经网络模型；
69.步骤s20：重复多次将语音数据输入神经网络模型进行快速校验的训练和判断语音数据的持续时间与阈值的训练。
70.在本实施例中，通过向神经网络模型中重复多次输入语音数据，使其具有完成上述提高的基于关键词识别技术的语音唤醒方法的快速校验和判断语音数据的持续时间与阈值的能力。
71.具体地，神经网络模型一种复杂的、包含多个层级的数据处理网络，可以将目标学习内容作为数据进行处理，通过检查处理后的结果是否符合要求，并根据结果对该神经网络模型的参数设置进行调整，最终得到满足预期要求的神经网络模型。
72.可以理解的是，对神经网络模型的训练是一个复杂的过程，需要大量的训练才能实现预期的效果，在本发明提供的实施例中，训练次数至少为一万次。
73.参阅图3所示，图3是本发明提供的基于关键词识别技术的语音唤醒装置示意图。
74.本发明提供基于关键词识别技术的语音唤醒装置，包括：
75.计算模块1；计算模块用于计算获取的语音数据的语音特征的概率分布；
76.校验模块2；校验模块用于将概率分布输入神经网络模型进行快速校验；
77.判断模块3；判断模块用于对快速校验的结果进行判断；若快速校验的结果为可信，则进行语音唤醒；若结果为不可信，则对语音数据进行持续时间和阈值的判断；若语音数据的持续时间和阈值达到了最低要求，则对语音数据进行对唤醒词的语音识别，若语音识别的结果为通过，则进行语音唤醒；若语音识别的结果为不通过，则不进行语音唤醒；若概率分布的持续时间和阈值没有达到最低要求，则不进行语音唤醒。
78.参阅图4所示，图4是本发明实施例提供的一种设备结构示意性框图。
79.本发明提供一种设备，包括存储器和处理器：
80.存储器用于存储程序；
81.处理器用于执行程序并在执行所述程序时实现如上述提供的一种基于关键词识别技术的语音唤醒方法。
82.在发明提供的一种设备中，处理器用于提供计算和控制能力，支撑整个计算机设备的运行。
83.存储器可以包括非易失性存储介质和内存储器。
84.非易失性存储介质可存储操作系统和程序。该程序包括程序指令，该程序指令被执行时，可使得处理器执行上述任意一种基于关键词识别技术的语音唤醒方法。
85.内存储器为非易失性存储介质中医用药塞外观瑕疵检测方法的程序的运行提供环境，该程序被处理器执行时，可使得处理器执行上述任意一种基于关键词识别技术的语音唤醒方法。
86.网络接口用于进行网络通信，如发送分配的任务等。
87.本领域技术人员可以理解，图4中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
88.应当理解的是，处理器可以是中央处理单元(central processing unit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
89.本领域技术人员可以理解，上述计算机设备内的结构，仅仅是与本技术方案相关的部分结构，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比上述更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
90.本技术的实施例中还提供一种可读存储介质，所述可读存储介质存储有程序，所述程序中包括程序指令，所述处理器执行所述程序指令，实现本技术实施例提供的任意一种基于关键词识别技术的语音唤醒方法。该程序执行时可包括本发明提供的一种基于关键词识别技术的语音唤醒方法各实施例中的部分或全部步骤。
91.本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于rom/ram、磁盘或光盘等)上实施的计算机程序产品的形式。
92.本发明是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
93.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
94.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
95.在本实施例中，图像获取方框或多个方框中指定的功能的步骤。
96.本技术的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本技术实施例提供的任一项基于关键词识别技术的语音唤醒方法。
97.其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(smart media card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)等。
98.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作。
99.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多通道语音信号增强方法和装置及计算机设备和存储介质

基于关键词识别技术的语音唤醒方法、装置、设备以及可读存储介质与流程

相关文献

最热文献