一种智能设备的语音唤醒方法及装置与流程

2021-07-16 16:41:00 来源：中国专利 TAG：智能设备唤醒语音装置

1.本发明涉及智能设备技术领域，特别是涉及一种智能设备的语音唤醒方法及装置。

背景技术：

2.随着科学技术的进步，智能音箱、智能电视等智能设备在人们的日常生活中被广泛应用。智能设备通过用户输入的唤醒词唤醒，在唤醒后与用户之间进行交互。
3.智能设备在使用时，通常会遇到如下场景：在该场景中智能设备正在播放音频时，而用户在智能设备正在播放音频需要唤醒智能设备与智能设备进行人机交互。此时，由于智能设备播放音频的会对智能设备的音频的拾取产生影响，用户为了降低这个影响，则用户需要使用大于智能设备当前播放音频的播放音量进行唤醒词的输入。在智能设备接收到完整的唤醒词前，智能设备当前播放音频的播放音量保持不变，这种播放音量会增加用户的心理压迫感，给用户带来的用户体验不佳。

技术实现要素：

4.有鉴于此，本发明提出了一种智能设备的语音唤醒方法及装置，主要目的在于在智能设备播放音频时，主动平滑的降低音频播放音量，从而方便用户输入唤醒词，提高用户交互体验。
5.第一方面，本发明提供了一种智能设备的语音唤醒方法，该方法包括：
6.在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，降低所述音频的当前播放音量以及执行迭代检测过程；
7.每一轮迭代检测为：拾取用户输入的下一个音节，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量；判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，结束所述迭代检测过程，若不位于所述特定位置，进行下一轮检测；
8.当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
9.第二方面，本发明提供了一种智能设备的语音唤醒装置，该装置包括：
10.检测单元，用于在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，降低所述音频的当前播放音量以及执行迭代检测过程；每一轮迭代检测为：拾取用户输入的下一个音节，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量；判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，结束所述迭代检测过程，若不位于所述特定位置，进行下一轮检测；
11.唤醒单元，用于当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
12.第三方面，本发明提供了一种智能设备，该智能设备包括：第二方面所述的智能设备的语音唤醒装置。
13.第四方面，本发明提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面所述的智能设备的语音唤醒方法。
14.第五方面，本发明提供了一种存储管理设备，包括：
15.存储器，用于存储程序；
16.处理器，耦合至所述存储器，用于运行所述程序以执行第一方面中任意一项所述的智能设备的语音唤醒方法。
17.借由上述技术方案，本发明提供的智能设备的语音唤醒方法及装置，在智能设备播放音频时拾取用户输入的当前音节，当检测出当前音节为唤醒词的第一个音节时，降低音频的当前播放音量以及执行迭代检测过程。其中，每一轮迭代检测为：拾取用户输入的下一个音节，依据唤醒词中各音节的排序，当检测出该下一个音节是否为与上一个拾取的音节相邻的下一个音节时，降低音频的当前播放音量以及判断该下一个音节是否为位于所述唤醒词中的特定位置的音节。若判断出位于特定位置，则结束所述迭代检测过程，若判断出不位于特定位置，进行下一轮检测。当结束迭代检测过程时，基于唤醒词唤醒智能设备。可见，本发明提供的方案中唤醒词中的音节当按照在唤醒词中所处位置被连续拾取时，则每拾取一个音节降低一次智能设备播放音频的播放音量，实现在用户输入唤醒词时，主动平滑的降低音频播放音量，从而提高用户交互体验。
18.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
19.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
20.图1示出了本发明一个实施例提供的一种智能设备的语音唤醒方法的流程图；
21.图2示出了本发明一个实施例提供的一种智能设备的语音唤醒装置的结构示意图；
22.图3示出了本发明另一个实施例提供的一种智能设备的语音唤醒装置的结构示意图。
具体实施方式
23.下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
24.如图1所示，本发明实施例提供了一种智能设备的语音唤醒方法，该方法主要包括：
25.101、在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，执行102。
26.本实施例中所述的智能设备的类型可以基于具体的业务要求确定，本实施例中对智能设备的类型不作具体限定。可选的，智能设备可以包括但不限于智能音箱、智能手表、智能手机、智能电视、智能冰箱和智能玩具中的任意一种。一种实施方式中，智能设备能够与用户进行语音交互。智能设备基于用户输入的唤醒词进行唤醒。智能设备通过拾取用户输入的语音，且在识别出语音为唤醒词时，智能设备被唤醒，其中，唤醒词由有至少一个音节组成，在拾取用户输入的语音的过程，实际为拾取用户输入的一个音节或连续的多个音节的过程。
27.在本实施例中，在智能设备播放音频时，为了保证智能设备能够及时被唤醒，则智能设备实时处于语音拾取状态，当用户发出语音时，则实时拾取用户输入的语音中的音节，以便在用户的语音为预设的唤醒词时及时唤醒智能设备。
28.在本实施例中，在拾取用户输入的当前音节时，则检测当前音节是否为唤醒词的第一个音节。
29.若检测出当前音节不是唤醒词中的第一个音节，则说明用户并未输入唤醒词，用户不并存在唤醒智能设备的需求。此时为了保证用户存在唤醒智能设备的需求时，智能设备能够被及时唤醒，则需要持续拾取用户输入的当前音节，并检测当前音节是否为唤醒词的第一个音节。
30.若检测出当前音节为唤醒词中的第一个音节，则说明用户可能正在输入唤醒词，需要唤醒智能设备，则需要降低智能设备播放音频的当前播放音量执行步骤108，从而保证用户能够使用较低音量输入音节的同时，降低音频对用户输入语音的影响，从而提高拾取用户输入音节的准确性。另外，为了进一步确认用户是否真的在输入唤醒词，则继续拾取用户输入的与当前音节相邻的下一个音节，并执行迭代检测过程。
31.102、降低所述音频的当前播放音量。
32.在本实施例中，音频的当前播放音量是播放音频的原始播放音量，原始播放音量是在未检测到第一个音节时的播放音量。
33.在本实施例中，为了保证用户能够使用较低音量输入音节的同时，提高拾取用户输入音节的准确性，则降低音频的当前播放音量，以便在不影响音频播放的同时，可以在较小的播放音量的条件下，继续拾取用户输入的下一个音节。
34.在本实施例中，降低音频的当前播放音量的方法至少包括如下两种：
35.第一种，以设定的百分比，降低所述音频的当前播放音量。比如，设定的百分比为25％，当前播放音量为40分贝，则将音频的当前播放音量降低为：40-40
×
25％＝30分贝。
36.第二种，获取用户输入的当前音节的用户音量，判断用户音量是否大于音频的播放音量。
37.若大于，则说明用户可能为了使智能设备清楚的识别唤醒词，则故意采用比播放音量大的音量输入唤醒词，此时，以设定的百分比，降低所述音频的当前播放音量。
38.若不大于，说明用户输入的音量较小，为了保证能够准确的识别到用户输入的音
节，则将音频的当前播放音量降低为用户输入的音量，或，将用户输入的音量确定为目标音量，以设定的百分比降低目标音量，调整智能设备播放音频的音量为降低后的目标音量。
39.103、执行迭代检测过程，每一轮迭代检测为：拾取用户输入的下一个音节。
40.本实施例中，拾取的下一个音节的形式可能存在如下几种：
41.第一种，在步骤101中拾取的当前音节为唤醒词的第一个音节时，用户正在输入唤醒词时，则下一个音节可能是唤醒词中的第二个音节，其中，依据唤醒词中各音节的先后排序，此处的第二个音节为与第一个音节相邻的下一个音节。
42.第二种，在步骤101中拾取的当前音节为唤醒词的第一个音节时，用户可能并未输入唤醒词，仅是步骤101中的当前音节恰好与唤醒词相同或相似，则下一个音节可能不是唤醒词中的第二个音节。
43.第三种，在与拾取用户输入的下一个音节相邻的用户输入的上一个音节已被确认为唤醒词中的音节时，用户正在输入唤醒词时，则下一个音节可能是唤醒词中的与用户输入的上一个音节相邻的下一个音节。
44.第四种，在与拾取用户输入的下一个音节相邻的用户输入的上一个音节已被确认为唤醒词中的音节时，用户可能并未输入唤醒词，仅是用户输入的上一个音节恰好与唤醒词中设定位置上的音节相同或相似，则下一个音节可能不是唤醒词中的与用户输入的上一个音节相邻的下一个音节。
45.104、依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，执行105。
46.在本实施例中，由于拾取的下一个音节存在如步骤103中所述的几种形式，因此为了进一步确认用户是否正在输入唤醒词，则需要依据唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节。
47.示例性的，唤醒词为四音节的词“叮当精灵”，上一个拾取的音节为“当”，依据唤醒词中各音节“叮当精灵”的排序，检测下一个音节是否为上一个拾取的音节“当”相邻的下一个音节“精”，若是“精”，说明用户大概率在输入唤醒词，则执行105。若不是“精”，则说明用户并未在输入唤醒词，则执行101。
48.进一步的，若检测出所述下一个音节不是与上一个拾取的音节相邻的下一个音节时，说明用户并未输入唤醒词，或者输入唤醒词的前几个音节后，用户又不想唤醒智能设备了。此时为了，保证用户收听智能设备播放音频的收听感受，则恢复音频的原始播放音量，其中，原始播放音量是在未检测到所述第一个音节时的播放音量。同时，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，执行步骤101检测所述当前音节是否为所述唤醒词的第一个音节。
49.105、降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量。
50.在本实施例中，在依据唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节时，说明用户大概率在输入唤醒词，则为了保证用户能够使用较低音量输入音节的同时，提高拾取用户输入音节的准确性，则降低音频的当前播放音量，以便在不影响音频播放的同时，可以在较小的播放音量的条件下，继续拾取用户输入的下一个音节。需要说明的是，这里所降低的播放音量是拾取到上一个音节时被降低后
的播放音量，也就是说，若按照唤醒词中各音节的顺序的，连续拾取到唤醒词的各音节时，则每拾取到一个音节降低一次音频的播放音量，从而实现音频的播放音量平滑的下降，提高用户的听觉感受。
51.在本实施例中，降低音频的当前播放音量的方法至少包括：以设定的百分比，降低所述音频的当前播放音量。示例性的，设定的百分比为25％唤醒词为四音节的词“叮当精灵”，上一个拾取的音节为“叮”，在检测到“叮”时播放音量由40分贝降低为30分贝。在拾取到音节为“当”时，则播放音量由30分贝降低为“30-30
×
25％＝22.5分贝”。
52.106、判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，执行107，若不位于所述特定位置，执行108。
53.在本实施例中，特定位置表征用户大概率正在输入唤醒词的位置，特定位置可以是唤醒词中的最后一位，也可以基于业务要求选取别的位置，如，唤醒词中的第二位。
54.在本实施例中，在判断下一个音节为位于唤醒词中的特定位置的音节，则大概率确定用户正在输入唤醒词，用户需要唤醒智能设备，则此时为了保证智能设备及时被唤醒，与用户进行交互，则执行107。
55.在本实施例中，在判断下一个音节不是位于唤醒词中的特定位置的音节，则尚不能确定用户正在输入唤醒词，则需要继续拾取用户输入的音节，因此，执行步骤108。
56.107、结束所述迭代检测过程，当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
57.在本实施例中，当结束迭代检测过程时，确认用户在输入唤醒词，智能设备需要被唤醒，与用户进行交互，则根据唤醒词唤醒智能设备。
58.108、进行下一轮检测，并执行103。
59.本发明实施例提供的智能设备的语音唤醒方法，在智能设备播放音频时拾取用户输入的当前音节，当检测出当前音节为唤醒词的第一个音节时，降低音频的当前播放音量以及执行迭代检测过程。其中，每一轮迭代检测为：拾取用户输入的下一个音节，依据唤醒词中各音节的排序，当检测出该下一个音节是否为与上一个拾取的音节相邻的下一个音节时，降低音频的当前播放音量以及判断该下一个音节是否为位于所述唤醒词中的特定位置的音节。若判断出位于特定位置，则结束所述迭代检测过程，若判断出不位于特定位置，进行下一轮检测。当结束迭代检测过程时，基于唤醒词唤醒智能设备。可见，本发明实施例提供的方案中唤醒词中的音节当按照在唤醒词中所处位置被连续拾取时，则每拾取一个音节降低一次智能设备播放音频的播放音量，实现在用户输入唤醒词时，主动平滑的降低音频播放音量，从而提高用户交互体验。
60.在本发明一个实施例中，步骤101检测所述当前音节是否为所述唤醒词的第一个音节，具体执行步骤为：
61.检测所述当前音节与所述唤醒词的第一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述当前音节为所述第一个音节。
62.在本实施例中，当前音节与唤醒词的第一个音节之间的相似度计算方法可以基于业务要求选取，本实施例中不做具体限定。可选的，当前音节与唤醒词的第一个音节之前的相似度计算方法为：利用余弦相似度计算方法，计算当前音节与唤醒词的第一个音节之前的相似度。
63.在本实施例中，若检测出当前音节与唤醒词的第一个音节之间的相似度大于预设的相似度阈值，则说明当前音节为唤醒词中的第一个音节，若检测出当前音节与唤醒词的第一个音节之间的相似度不大于预设的相似度阈值，则说明当前音节不是唤醒词中的第一个音节，则忽略当前音节，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，继续执行检测所述当前音节是否为唤醒词的第一个音节，从而实现实时拾取用户输入的语音中的音节，以便在用户的语音为预设的唤醒词时及时唤醒智能设备。
64.进一步的，由于使用的智能设备的用户可能来源不同的地理区域，用户的音调和口音中存在差异，而这些差异的存在，在一定程度上影响到了音节识别的准确性，因此为了避免这些差异对音节识别产生的影响，则在检测所述当前音节与所述唤醒词的第一个音节之间的相似度之前，还可以包括如下步骤：对所述当前音节进行音调和口音的调整。对当前音节进行音调和口音的调整的方法至少包括：采用预设的音节调整模型，对所述音节进行调整。
65.在本发明一个实施例中，当执行步骤101之后，若检测出所述当前音节不是所述唤醒词中的第一个音节，则说明用户当前未输入唤醒词，为了不影响音频的播放质量，则维持所述音频的播放音量不变。同时的，若检测出所述当前音节不是所述唤醒词中的第一个音节，则说明用户当前未输入唤醒词，忽略当前音节，同时为了保证能够及时拾取到唤醒词，则继续拾取用户输入的音节，并将新拾取的音节作为当前音节，继续执行检测当前音节是否为所述唤醒词的第一个音节。
66.在本发明一个实施例中，在步骤102拾取用户输入的下一个音节之后，步骤103依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节之前，所述方法还包括如下步骤：判断所述下一个音节与所述上一个拾取的音节之间的拾取时间间隔是否不大于预设的时间间隔。
67.在本实施例中，若拾取时间间隔不大于预设的时间间隔，则说明用户大概率在输入唤醒词，执行步骤103依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节。
68.在本实施例中，若拾取时间间隔大于预设的时间间隔，则说明用户并未输入唤醒词，则继续拾取用户输入的音节，并将新拾取的音节作为当前音节，执行步骤101检测所述当前音节是否为所述唤醒词的第一个音节。
69.进一步的，若所述拾取时间间隔大于预设的时间间隔，说明用户并未输入唤醒词，或者输入唤醒词的前几个音节后，用户又不想唤醒智能设备了。此时为了保证用户收听到智能设备播放音频的收听感受，则恢复音频的原始播放音量，其中，原始播放音量是在未检测到所述第一个音节时的播放音量。
70.在本发明一个实施例中，步骤103依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，具体执行步骤为：
71.依据所述唤醒词中各音节的排序，检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述下一个音节为与上一个拾取的音节相邻的下一个音节。
72.在本实施例中，相似度计算方法可以基于业务要求选取，本实施例中不做具体限定。可选的，采用余弦相似度计算方法，计算所述下一个音节与上一个拾取的音节相邻的下
一个音节之间的相似度。
73.进一步的，由于使用的智能设备的用户可能来源不同的地理区域，用户的音调和口音中存在差异，而这些差异的存在，在一定程度上影响到了音节识别的准确性，因此为了避免这些差异对音节识别产生的影响，则在检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度之前，还可以包括如下步骤：对所述下一个音节进行音调和口音的调整。对所述当前音节进行音调和口音的调整。对当前音节进行音调和口音的调整的方法至少包括：采用预设的音节调整模型，对所述音节进行调整。
74.进一步的，在本发明一个实施例中，步骤104和步骤108中的所提及的降低所述音频的当前播放音量，包括：
75.以设定的百分比，降低所述音频的当前播放音量。
76.在本实施例中，以设定的百分比，降低所述音频的当前播放音量的方法至少包括如下两种：
77.第一种，为了使音频播放音量平滑降低，则唤醒词中不同位置的音节对应相同的百分比。
78.第二种，唤醒词中不同位置的音节对应不同的百分比，其中，唤醒词中音节为唤醒起到的作用越大，那么与该音节相邻的上一个音节对应的百分比越大。
79.进一步的，依据上述方法实施例，本发明的另一个实施例还提供了一种智能设备的语音唤醒装置，如图2所示，所述装置包括：
80.检测单元21，用于在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，降低所述音频的当前播放音量以及执行迭代检测过程；每一轮迭代检测为：拾取用户输入的下一个音节，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量；判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，结束所述迭代检测过程，若不位于所述特定位置，进行下一轮检测；
81.唤醒单元22，用于当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
82.本发明实施例提供的智能设备的语音唤醒装置，在智能设备播放音频时拾取用户输入的当前音节，当检测出当前音节为唤醒词的第一个音节时，降低音频的当前播放音量以及执行迭代检测过程。其中，每一轮迭代检测为：拾取用户输入的下一个音节，依据唤醒词中各音节的排序，当检测出该下一个音节是否为与上一个拾取的音节相邻的下一个音节时，降低音频的当前播放音量以及判断该下一个音节是否为位于所述唤醒词中的特定位置的音节。若判断出位于特定位置，则结束所述迭代检测过程，若判断出不位于特定位置，进行下一轮检测。当结束迭代检测过程时，基于唤醒词唤醒智能设备。可见，本发明实施例提供的方案中唤醒词中的音节当按照在唤醒词中所处位置被连续拾取时，则每拾取一个音节降低一次智能设备播放音频的播放音量，实现在用户输入唤醒词时，主动平滑的降低音频播放音量，从而提高用户交互体验。
83.可选的，如图3所示，所述检测单元21，包括：
84.第一检测模块211，用于拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；
85.拾取模块212，用于拾取用户输入的下一个音节；
86.第二检测模块213，用于依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节；
87.所述检测单元21，还包括：
88.判断模块214，用于在所述拾取模块212拾取用户输入的下一个音节之后，所述第二检测模块213依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节之前，判断所述下一个音节与所述上一个拾取的音节之间的拾取时间间隔是否不大于预设的时间间隔；若是，触发所述第二检测模块213；否则，触发所述第一检测模块211，用于继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测所述当前音节是否为所述唤醒词的第一个音节。
89.可选的，如图3所示，所述检测单元21还包括：
90.恢复模块215，用于若所述判断模块214判断拾取时间间隔大于预设的时间间隔，则恢复所述音频的原始播放音量，其中，所述原始播放音量是在未检测到所述第一个音节时的播放音量。
91.可选的，如图3所示，所述第二检测模块213，用于在依据所述唤醒词中各音节的排序，检测所述下一个音节不是与上一个拾取的音节相邻的下一个音节时，触发所述第一检测模块，用于继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测所述当前音节是否为所述唤醒词的第一个音节。
92.可选的，如图3所示，所述检测单元21包括：
93.处理模块216，用于以设定的百分比，降低所述音频的当前播放音量。
94.可选的，如图3所示，所述唤醒词中不同位置的音节对应不同的百分比或相同的百分比。
95.可选的，如图3所示，所述第一检测模块211，用于检测所述当前音节与所述唤醒词的第一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述当前音节为所述第一个音节。
96.可选的，如图3所示，所述检测单元21还包括：
97.第一调整模块217，用于在所述第一检测模块211检测所述当前音节与所述唤醒词的第一个音节之间的相似度之前，对所述当前音节进行音调和口音的调整。
98.可选的，如图3所示，所述第二检测模块213，用于依据所述唤醒词中各音节的排序，检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述下一个音节为与上一个拾取的音节相邻的下一个音节。
99.可选的，如图3所示，所述检测单元21还包括：
100.第二调整模块218，用于在所述第二检测模块检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度之前，对所述下一个音节进行音调和口音的调整。
101.可选的，如图3所示，所述检测单元21，还用于当监测所述当前音节不是所述唤醒词中的第一个音节，维持所述音频的播放音量不变，以及，忽略所述当前音节，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，执行所述检测所述当前音节是否为所述唤醒词的第一个音节。
102.本发明实施例提供的智能设备的语音唤醒装置中，各个功能模块运行过程中所采用的方法详解可以参见图1方法实施例的对应方法详解，在此不再赘述。
103.进一步的，依据上述实施例，本发明的另一个实施例还提供了一种智能设备，该智能设备包括：上述的智能设备的语音唤醒装置。
104.本发明实施例提供的智能设备中的运行过程中所采用的方法详解可以参见图1、图2方法实施例的对应方法详解，在此不再赘述。
105.进一步的，依据上述实施例，本发明的另一个实施例还提供了一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行第一方面或第二方面中任意一项所述的智能设备的语音唤醒方法。
106.进一步的，依据上述实施例，本发明的另一个实施例还提供了一种存储管理设备，包括：
107.存储器，用于存储程序；
108.处理器，耦合至所述存储器，用于运行所述程序以执行第一方面或第二方面中任意一项所述的智能设备的语音唤醒方法。
109.本发明实施例公开了：
110.a1.一种智能设备的语音唤醒方法，包括：
111.在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，降低所述音频的当前播放音量以及执行迭代检测过程；
112.每一轮迭代检测为：拾取用户输入的下一个音节，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量；判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，结束所述迭代检测过程，若不位于所述特定位置，进行下一轮检测；
113.当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
114.a2.根据a1所述的方法，在拾取用户输入的下一个音节之后，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节之前，所述方法还包括：
115.判断所述下一个音节与所述上一个拾取的音节之间的拾取时间间隔是否不大于预设的时间间隔；
116.若是，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节；
117.否则，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测所述当前音节是否为所述唤醒词的第一个音节。
118.a3.根据a2所述的方法，所述方法还包括：
119.若所述拾取时间间隔大于预设的时间间隔，则恢复所述音频的原始播放音量，其中，所述原始播放音量是在未检测到所述第一个音节时的播放音量。
120.a4.根据a1所述的方法，所述方法还包括：
121.在依据所述唤醒词中各音节的排序，检测所述下一个音节不是与上一个拾取的音节相邻的下一个音节时，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测
所述当前音节是否为所述唤醒词的第一个音节。
122.a5.根据a1所述的方法，降低所述音频的当前播放音量，包括：
123.以设定的百分比，降低所述音频的当前播放音量。
124.a6.根据a5所述的方法，所述唤醒词中不同位置的音节对应不同的百分比或相同的百分比。
125.a7.根据a1所述的方法，检测所述当前音节是否为所述唤醒词的第一个音节，包括：
126.检测所述当前音节与所述唤醒词的第一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述当前音节为所述第一个音节。
127.a8.根据a7所述的方法，在检测所述当前音节与所述唤醒词的第一个音节之间的相似度之前，还包括：
128.对所述当前音节进行音调和口音的调整。
129.a9.根据a1所述的方法，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，包括：
130.依据所述唤醒词中各音节的排序，检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述下一个音节为与上一个拾取的音节相邻的下一个音节。
131.a10.根据a9所述的方法，在检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度之前，还包括：
132.对所述下一个音节进行音调和口音的调整。
133.a11.根据a1-a10中任一所述的方法，所述方法还包括：
134.当监测所述当前音节不是所述唤醒词中的第一个音节，维持所述音频的播放音量不变，以及，
135.忽略所述当前音节，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，执行所述检测所述当前音节是否为所述唤醒词的第一个音节。
136.b1.一种智能设备的语音唤醒装置，包括：
137.检测单元，用于在智能设备播放音频时，拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；若是，降低所述音频的当前播放音量以及执行迭代检测过程；每一轮迭代检测为：拾取用户输入的下一个音节，依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节，若是，降低所述音频的当前播放音量，其中，当前播放音量是拾取到上一个音节时被降低后的播放音量；判断所述下一个音节是否为位于所述唤醒词中的特定位置的音节，若位于所述特定位置，结束所述迭代检测过程，若不位于所述特定位置，进行下一轮检测；
138.唤醒单元，用于当结束迭代检测过程时，基于所述唤醒词唤醒所述智能设备。
139.b2.根据b1所述的装置，所述检测单元，包括：
140.第一检测模块，用于拾取用户输入的当前音节，检测所述当前音节是否为所述唤醒词的第一个音节；
141.拾取模块，用于拾取用户输入的下一个音节；
142.第二检测模块，用于依据所述唤醒词中各音节的排序，检测所述下一个音节是否
为与上一个拾取的音节相邻的下一个音节；
143.所述检测单元，还包括：
144.判断模块，用于在所述拾取模块拾取用户输入的下一个音节之后，所述第二检测模块依据所述唤醒词中各音节的排序，检测所述下一个音节是否为与上一个拾取的音节相邻的下一个音节之前，判断所述下一个音节与所述上一个拾取的音节之间的拾取时间间隔是否不大于预设的时间间隔；若是，触发所述第二检测模块；否则，触发所述第一检测模块，用于继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测所述当前音节是否为所述唤醒词的第一个音节。
145.b3.根据b2所述的装置，所述检测单元还包括：
146.恢复模块，用于若所述判断模块判断拾取时间间隔大于预设的时间间隔，则恢复所述音频的原始播放音量，其中，所述原始播放音量是在未检测到所述第一个音节时的播放音量。
147.b4.根据b1所述的装置，
148.所述第二检测模块，用于在依据所述唤醒词中各音节的排序，检测所述下一个音节不是与上一个拾取的音节相邻的下一个音节时，触发所述第一检测模块，用于继续拾取用户输入的音节，并将新拾取的音节作为当前音节，检测所述当前音节是否为所述唤醒词的第一个音节。
149.b5.根据b1所述的装置，所述检测单元包括：
150.处理模块，用于以设定的百分比，降低所述音频的当前播放音量。
151.b6.根据b5所述的装置，所述唤醒词中不同位置的音节对应不同的百分比或相同的百分比。
152.b7.根据b1所述的装置，所述第一检测模块，用于检测所述当前音节与所述唤醒词的第一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述当前音节为所述第一个音节。
153.b8.根据b7所述的装置，所述检测单元还包括：
154.第一调整模块，用于在所述第一检测模块检测所述当前音节与所述唤醒词的第一个音节之间的相似度之前，对所述当前音节进行音调和口音的调整。
155.b9.根据b1所述的装置，所述第二检测模块，用于依据所述唤醒词中各音节的排序，检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度，若所述相似度大于预设的相似度阈值，则检测出所述下一个音节为与上一个拾取的音节相邻的下一个音节。
156.b10.根据b9所述的装置，所述检测单元还包括：
157.第二调整模块，用于在所述第二检测模块检测所述下一个音节与上一个拾取的音节相邻的下一个音节之间的相似度之前，对所述下一个音节进行音调和口音的调整。
158.b11.根据b1-b10中任一所述的装置，所述检测单元，还用于当监测所述当前音节不是所述唤醒词中的第一个音节，维持所述音频的播放音量不变，以及，忽略所述当前音节，继续拾取用户输入的音节，并将新拾取的音节作为当前音节，执行所述检测所述当前音节是否为所述唤醒词的第一个音节。
159.c1.一种智能设备，包括：b1所述的智能设备的语音唤醒装置。
160.d1.一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行a1至a12中任意一项所述的智能设备的语音唤醒方法。
161.e1.一种存储管理设备，包括：
162.存储器，用于存储程序；
163.处理器，耦合至所述存储器，用于运行所述程序以执行a1至a12中任意一项所述的智能设备的语音唤醒方法。
164.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
165.可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。
166.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
167.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
168.在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。
169.类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。
170.本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
171.此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任
意之一都可以以任意的组合方式来使用。
172.本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的深度神经网络模型的运行方法、装置及框架中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。
173.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于大数据的曲谱自动修正方法与流程

一种智能设备的语音唤醒方法及装置与流程

相关文章

最热文献