语音唤醒方法、装置、设备和存储介质与流程

2022-12-13 20:25:05 来源：中国专利 TAG：

1.本发明涉及语音处理技术领域，尤其涉及一种语音唤醒方法、装置、设备和存储介质。

背景技术：

2.随着语音技术的发展，很多电子设备引入了语音识别技术，从而可以通过语音进行唤醒，以控制电子设备从非工作状态切换到工作状态，进行工作。
3.目前，为了提高电子设备的唤醒成功率、降低电子设备的误唤醒率，常见的做法是通过唤醒模型对语音信息中的唤醒词进行识别。当识别出的唤醒词置信度满足预设的语音唤醒阈值，则电子设备唤醒成功。
4.然而，上述的唤醒方式中，经常会出现误唤醒或者即使提及唤醒词，也无法唤醒电子设备的情形。因此，如何提高语音唤醒的可靠性，是目前亟需解决的技术问题。

技术实现要素：

5.本发明提供一种语音唤醒方法、装置、设备和存储介质，用以解决现有技术中语音唤醒的可靠性低的缺陷，实现了提高语音唤醒的可靠性。
6.本发明提供一种语音唤醒方法，包括：
7.对拾音装置采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；
8.基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；
9.基于所述目标语音唤醒阈值，进行唤醒处理。
10.根据本发明提供的一种语音唤醒方法，所述基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值，包括：
11.在所述识别结果信息表征所述历史采样数据中包括语音的情况下，将所述预设语音唤醒阈值确定为所述目标语音唤醒阈值，或者将经过调高处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
12.在所述识别结果信息表征所述历史采样数据中不包括语音的情况下，将经过调低处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值。
13.根据本发明提供的一种语音唤醒方法，所述识别结果信息包括用于表征在所述历史采样数据中包含语音的语音置信度，和用于表征在所述历史采样数据中包含非语音的非语音置信度；
14.所述在所述识别结果信息表征所述历史采样数据中包括语音的情况下，将所述预设语音唤醒阈值确定为所述目标语音唤醒阈值，或者将经过调高处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值，包括：
15.在所述语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值的情况，将经过调高处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
16.在所述语音置信度大于或等于所述第二置信度阈值，且所述非语音置信度小于第三置信度阈值的情况，将所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
17.其中，所述第一置信度阈值小于所述第二置信度阈值，所述第三置信度阈值小于所述第二置信度阈值。
18.根据本发明提供的一种语音唤醒方法，在所述语音置信度小于所述第一置信度阈值的情况下，所述识别结果信息表征所述历史采样数据中不包括语音；以及
19.所述识别结果信息还包括用于表征在所述历史采样数据中既不包含语音也不包含非语音的静音置信度，在所述静音置信度大于或等于第四置信度阈值的情况下，所述识别结果信息表征所述历史采样数据中不包括语音。
20.根据本发明提供的一种语音唤醒方法，所述对麦克风采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息包括：
21.将所述历史采样数据输入语音识别模型中，得到所述识别结果信息；
22.其中，所述语音识别模型为基于多个音频样本对初始语音识别模型进行训练得到的，所述多个音频样本中包括包含语音的音频样本、包含非语音的音频样本以及既不包含语音也不包含非语音的音频样本。
23.根据本发明提供的一种语音唤醒方法，
24.所述对拾音装置采集的历史采样数据进行识别，包括：
25.对以当前时刻为结束时刻的预设时间段内、所述拾音装置采集的历史采样数据进行识别。
26.根据本发明提供的一种语音唤醒方法，所述基于所述目标语音唤醒阈值，进行唤醒处理，包括：
27.获取所述拾音装置在所述当前时刻采集的当前采样数据；
28.获取所述当前采样数据包含预设唤醒词的唤醒置信度，以及所述当前采样数据对应的当前声音强度；
29.在所述唤醒置信度大于或等于所述目标语音唤醒阈值、且所述当前声音强度大于目标声音强度阈值的情况下，执行唤醒操作。
30.根据本发明提供的一种语音唤醒方法，所述方法还包括：
31.获取所述历史采样数据对应的历史声音强度；
32.基于所述历史声音强度，确定所述目标声音强度阈值。
33.本发明还提供一种语音唤醒装置，包括：
34.识别模块，用于对麦克风采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；
35.确定模块，用于基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；
36.处理模块，用于基于所述目标语音唤醒阈值，进行唤醒处理。
37.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音唤醒方法。
38.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算
机程序被处理器执行时实现如上述任一种所述语音唤醒方法。
39.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音唤醒方法。
40.本发明实施例提供的语音唤醒方法、装置、设备和存储介质，通过对拾音装置采集的历史采样数据进行识别，获得用于表征历史采样数据中是否包括语音的识别结果信息后，基于预设语音唤醒阈值，确定识别结果信息对应的目标语音唤醒阈值，并基于该目标语音唤醒阈值，进行唤醒处理。由于在包括语音和不包括语音的场景中，分别设置不同的目标语音唤醒阈值，这样，可以根据历史采样数据中是否包含语音的识别结果，确定对应的目标语音唤醒阈值，以进行唤醒处理，从而可以降低误唤醒率，提高唤醒成功率，由此可以提高语音唤醒的可靠性。
附图说明
41.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
42.图1为本发明实施例提供的语音唤醒方法的一种应用场景示意图；
43.图2为本发明实施例提供的语音唤醒方法的流程示意图之一；
44.图3为本发明实施例提供的语音唤醒方法的流程示意图之二；
45.图4为本发明实施例提供的语音唤醒装置的示意图；
46.图5是本发明提供的一种电子设备的实体结构示意图。
具体实施方式
47.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
48.语音唤醒技术是语音识别技术中重要的分支，语音唤醒技术通过监听用户语音来判断用户是否说出了指定唤醒词，从而进行唤醒处理，目前在车载，导航，智能家居等方面有着重要的应用。在实际的使用过程中，语音信息中可能会包含一些和唤醒词相似的词语，当用户在聊天过程中提及这些相似的词语时，电子设备可能会出现误唤醒的情况，或者在噪声较大的环境中，即使用户说了唤醒词，电子设备也不一定会被唤醒，因而存在误唤醒率较高，或者唤醒成功率较低的问题，导致语音唤醒的可靠性较差。
49.考虑到上述问题，本发明实施例提供了一种语音唤醒方法，该方法的技术构思在于，在当前环境中包含语音和不包含语音的不同场景下，电子设备对唤醒词的识别准确度可能会存在差异，因而可以基于历史采样数据中是否包含语音的识别结果信息，确定不同的目标语音唤醒阈值，以匹配不同的场景。这样，在基于目标语音唤醒阈值进行唤醒处理的过程中，可以降低误唤醒率，提高唤醒成功率，从而可以提高语音唤醒的可靠性。
50.下面结合图1-图3描述本发明的语音唤醒方法的技术方案。
51.示例性的，图1为本发明实施例提供的语音唤醒方法的一种应用场景示意图，如图1所示，假设电子设备103的唤醒词为“小灵小灵”，当用户在说出了上述的唤醒词后，即可启动电子设备103。而在实际应用中，用户101和用户102在聊天的过程中，假设提及“就小赢小赢一下而已”。若电子设备103处于比较噪杂的环境中，或者用户101相对于电子设备103距离较远的情况下，电子设备103很有可能会将“小赢小赢”识别为“小灵小灵”从而进行唤醒。为了避免这种现象，在本发明中，电子设备103在识别出历史采样数据中包含语音，也即用户101和用户102在聊天时，可以基于预设语音唤醒阈值，确定在该场景下的目标语音唤醒阈值，例如可以提高预设语音唤醒阈值，或者维持预设语音唤醒阈值不变，这样，可以避免电子设备103被误唤醒。在电子设备103识别出历史采样数据中不包含语音，也即用户101和用户102聊天结束后，可以重新确定在不包含语音这一场景下的目标语音唤醒阈值，例如可以降低预设语音唤醒阈值，从而可以保证电子设备103的唤醒成功率。通过上述动态调整目标语音唤醒阈值的方式，可以提高语音唤醒的可靠性。
52.其中，本发明实施例提供的语音唤醒方法可以应用于如图1所示的电子设备103中，图1中的电子设备仅为示例性说明，在实际应用中，该电子设备可以是被唤醒的设备本身，也可以是除该设备外的、进行唤醒识别并控制该设备唤醒的其他设备。其中，该电子设备可以是移动终端、智能音箱、智能空调等任一具有语音控制功能的设备，进行唤醒识别并控制该电子设备唤醒的其他设备可以是服务器、移动终端等。
53.图2为本发明实施例提供的语音唤醒方法的流程示意图之一，如图2所示，该方法包括：
54.步骤201：对拾音装置采集的历史采样数据进行识别，获得用于表征历史采样数据中是否包括语音的识别结果信息。
55.其中，电子设备中设置的拾音装置例如可以为麦克风或者麦克风阵列，也可以为其他能够采集到声音信息的装置。
56.在本步骤中，在对拾音装置采集的历史采样数据进行识别时，可以将该历史采样数据进行分帧处理，以确定每帧数据对应的识别结果信息。将每帧数据对应的识别结果信息进行汇总，即可得到历史采样数据的识别结果信息，其中，该识别结果信息用于表征历史采样数据中是否包括语音。
57.步骤202：基于预设语音唤醒阈值，确定识别结果信息对应的目标语音唤醒阈值。
58.其中，预设语音唤醒阈值，可以理解为初始语音唤醒阈值，或者也可以理解为电子设备在出厂时设置的语音唤醒阈值。
59.在本步骤中，由于电子设备在不同场景中，对唤醒词的识别准确度会存在差异。例如，对于存在语音的场景，如多人聊天或者多人会议的场景中，电子设备可能会将非唤醒词识别为唤醒词，从而出现误唤醒的情况，而在静音或者不存在语音的场景中，出现误唤醒的概率则相对较低。因此，电子设备可以针对不同的场景，基于预设语音唤醒阈值，设置不同的目标语音唤醒阈值。如在包含语音的场景中，确定目标语音唤醒阈值为阈值1，在不包含语音的场景中，确定目标语音唤醒阈值为阈值2，其中，阈值1大于阈值2。
60.另外，为了避免来回调整目标语音唤醒阈值，电子设备可以在基于历史采样数据，确定出历史采样数据的识别结果信息后，在确定该识别结果信息维持预设时长没有发生变化的情况下，再基于预设语音唤醒阈值，确定该识别结果信息对应的目标语音唤醒阈值。其
中，该预设时长可以根据经验设置，例如，可以设置为5s等。
61.步骤203：基于目标语音唤醒阈值，进行唤醒处理。
62.在本步骤中，在确定出目标语音唤醒阈值之后，将基于该目标语音唤醒阈值，确定是否唤醒电子设备。示例性的，可以通过语音唤醒模型确定当前时刻采集的当前采样数据中包含预设唤醒词的唤醒置信度，并判断该唤醒置信度是否高于目标语音唤醒阈值，在该唤醒置信度高于目标语音唤醒阈值的情况下，唤醒电子设备，否则，不唤醒电子设备。
63.应理解，由于上述目标语音唤醒阈值是动态更新的，在确定出新的目标语音唤醒阈值之前，电子设备将基于该目标语音唤醒阈值进行唤醒处理。
64.本发明实施例提供的语音唤醒方法，通过对拾音装置采集的历史采样数据进行识别，获得用于表征历史采样数据中是否包括语音的识别结果信息后，基于预设语音唤醒阈值，确定识别结果信息对应的目标语音唤醒阈值，并基于该目标语音唤醒阈值，进行唤醒处理。由于在包括语音和不包括语音的场景中，分别设置不同的目标语音唤醒阈值，这样，可以根据历史采样数据中是否包含语音的识别结果，确定对应的目标语音唤醒阈值，以进行唤醒处理，从而可以降低误唤醒率，提高唤醒成功率，由此可以提高语音唤醒的可靠性。另外，通过动态调整预设语音唤醒阈值，在不改变唤醒模型精度的情况下，可以降低语音唤醒的误唤醒率。
65.图3为本发明实施例提供的语音唤醒方法的流程示意图之二，本实施例在图2所示实施例的基础上，对步骤202中如何基于预设语音唤醒阈值，确定识别结果信息对应的目标语音唤醒阈值的过程进行详细说明。如图3所示，该方法包括：
66.步骤301：对拾音装置采集的历史采样数据进行识别，获得用于表征历史采样数据中是否包括语音的识别结果信息。
67.在一种可能的实现方式中，在对历史采样数据进行识别时，可以将历史采样数据输入语音识别模型中，得到该识别结果信息；其中，语音识别模型为基于多个音频样本对初始语音识别模型进行训练得到的，多个音频样本中包括包含语音的音频样本、包含非语音的音频样本以及既不包含语音也不包含非语音的音频样本。
68.具体地，可以将历史采样数据输入预先训练的语音识别模型中，即可输出识别结果信息。该语音识别模型可以为深度神经网络(deep neural networks；dnn)。
69.其中，上述识别结果信息中可以包括用于表征在历史采样数据中包含语音的语音置信度，和用于表征在历史采样数据中包含非语音的非语音置信度；或者，该识别结果信息中可以包括用于表征在历史采样数据中包含语音的语音置信度、用于表征在历史采样数据中包含非语音的非语音置信度，以及用于表征在历史采样数据中既不包含语音也不包含非语音的静音置信度。
70.上述语音识别模型可以通过如下方式训练得到：
71.首先，采集大量的音频样本，这些音频样本中包括包含语音的音频样本、包含非语音的音频样本以及既不包含语音也不包含非语音的音频样本。应理解，为了使得语音识别模型能够识别出多种场景下的历史采样数据，上述的音频样本可以在多种场景下进行采集，如聊天场景、会议讨论场景和户外场景等。在采集到音频样本之后，可以对每个音频样本进行标注，如标注为包含语音、包含非语音或者静音等。
72.将采集的音频样本输入初始语音识别模型中，得到每个音频样本对应的预测结
果，再将预测结果和该音频样本的标注信息进行比对，从而可以得到损失信息。基于该损失信息调整初始语音识别模型的模型参数，并不断重复上述过程，直至得到的语音识别模型收敛或者损失信息最小，并将最后得到的模型确定为语音识别模型。
73.在本实施例中，可以将历史采样数据输入语音识别模型中，即可得到识别结果信息，由此可以提高确定识别结果信息的效率。
74.步骤302：在识别结果信息表征历史采样数据中包括语音的情况下，将预设语音唤醒阈值确定为目标语音唤醒阈值，或者将经过调高处理的预设语音唤醒阈值确定为目标语音唤醒阈值。
75.可选地，识别结果信息中包括用于表征在历史采样数据中包含语音的语音置信度，和用于表征在历史采样数据中包含非语音的非语音置信度，因此，可以基于语音置信度和非语音置信度的大小，确定历史采样数据中是否包括语音。示例的，可以在语音置信度大于或等于第一置信度阈值的情况下，确定该历史采样数据中包括语音，在语音置信度小于第一置信度阈值的情况下，确定该历史采样数据中不包括语音。
76.应理解，上述的语音置信度可以理解为对历史采样数据中语音的打分，其与语音清晰度和/或语音的声音强度呈正相关。例如，若历史采样数据中包含近场语音、或者包含的语音较为清晰、或者声音强度较大，则该历史采样数据中的语音置信度则较高，否则，该历史采样数据中的语音置信度则较低。
77.进一步地，在识别结果信息表征历史采样数据中包括语音的情况下，该语音可能为近场语音，也可能为远场语音，或者该语音可能较为清晰，也可能较为含糊，而这些内容可以通过识别结果信息中的语音置信度来表示，因而，针对上述不同的情况，电子设备可以基于语音置信度的大小，通过不同的方式确定目标语音唤醒阈值。
78.示例性的，在语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值的情况下，将经过调高处理的预设语音唤醒阈值确定为目标语音唤醒阈值；在语音置信度大于或等于所述第二置信度阈值，且非语音置信度小于第三置信度的情况下，将预设语音唤醒阈值确定为目标语音唤醒阈值；其中，第一置信度阈值小于第二置信度阈值，第三置信度阈值小于第二置信度阈值。
79.具体地，为了便于描述，可以将语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值的场景，称为第一场景，将语音置信度大于或等于第二置信度阈值，且非语音置信度小于第三置信度阈值的场景，称为第二场景。在第一场景下，由于语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值，说明在历史采样数据中包含的语音较为含糊，或者声音强度不高，因此，在该第一场景下，电子设备可能会将非唤醒词识别为唤醒词，从而出现误唤醒。为了解决这一问题，本发明实施例中可以在第一场景下调高预设语音唤醒阈值，并将经过调高处理的预设语音唤醒阈值确定为目标语音唤醒阈值。
80.在实际应用中，可以将预设语音唤醒阈值调高预设值，如将预设语音唤醒阈值提高0.1，也可以根据历史采样数据中所包含的语音的声音强度调高预设语音唤醒阈值，如声音强度越大，则调高的幅度越大。
81.另外，在第二场景下，由于语音置信度大于或等于第二置信度阈值，且非语音置信度小于第三置信度阈值，说明历史采样数据中包含的语音较为清晰或者声音强度较大，而包含的非语音则较为含糊或者声音强度较小，因此，在该第二场景下出现误唤醒率的概率
不高。为了提高电子设备的唤醒成功率，以及节省电子设备的功耗，此时将不对预设语音唤醒阈值做任何处理，也即直接将预设语音唤醒阈值确定为目标语音唤醒阈值。
82.当然，为了进一步降低误唤醒率，在具体的实现过程中，在第二场景下，也可以调高该预设语音唤醒阈值，但是预设语音唤醒阈值的调整幅度通常小于第一场景下预设语音唤醒阈值的调整幅度。
83.其中，第一置信度阈值、第二置信度阈值和第三置信度阈值的具体取值，可以根据实际情况或者经验进行设置，例如第一置信度阈值可以设置为0.5，第二置信度阈值可以设置为0.8，第三置信度阈值可以设置为0.4，对于各置信度阈值的具体取值，本发明实施例不做限制。
84.在本实施例中，在语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值的情况下，将经过调高处理的预设语音唤醒阈值确定为目标语音唤醒阈值，由此可以减少误唤醒的情况，降低电子设备的误唤醒率。在语音置信度大于或等于第二置信度阈值，且非语音置信度小于第三置信度阈值的情况下，将预设语音唤醒阈值确定为目标语音唤醒阈值，不仅可以提高电子设备的唤醒成功率，而且由于电子设备不对预设语音唤醒阈值做调整，因而可以降低电子设备的功耗。
85.步骤303：在识别结果信息表征历史采样数据中不包括语音的情况下，将经过调低处理的预设语音唤醒阈值确定为目标语音唤醒阈值。
86.具体地，可以将历史采样数据中不包括语音的场景称为第三场景，其中，该第三场景又可以包括只包含有非语音的情况和静音的情况。应理解，不论在上述哪种情况中，由于历史采样数据中不包括语音，因此，电子设备将非唤醒词识别为唤醒词的概率很小，也即该第三场景下的误唤醒率较低。为了提高电子设备的唤醒成功率，在该第三场景下，可以调低预设语音唤醒阈值，也即将经过调低处理的预设语音唤醒阈值确定为目标语音唤醒阈值。
87.在实际应用中，可以将预设语音唤醒阈值调低预设值，如将预设语音唤醒阈值调低0.1。在只包含有非语音的情况下，也可以根据历史采样数据中所包含的非语音的声音强度调低预设语音唤醒阈值，如声音强度越大，则调低的幅度越大。
88.其中，对于历史采样数据中不包含语音的情况，也可以采用语音置信度的大小来确定。可选地，在语音置信度小于第一置信度阈值的情况下，识别结果信息表征历史采样数据中不包括语音。
89.另外，识别结果信息中还包括用于表征在历史采样数据中既不包含语音也不包含非语音的静音置信度，在静音置信度大于或等于第四置信度阈值的情况下，识别结果信息表征历史采样数据中不包括语音。
90.应理解，在识别结果信息中包括语音置信度、非语音置信度以及静音置信度的情况下，这三者的和应该为1，因此，在静音置信度大于或等于第四置信度阈值的情况下，意味着语音置信度和非语音置信度都较低，此时，可以确定处于静音的场景。其中，第四置信度阈值与第三置信度阈值的具体取值可以相同，也可以不同。
91.为了提高静音场景确定的准确性，在具体的实现过程中，也可以是在静音置信度大于或等于第四置信度阈值、语音置信度和非语音置信度均小于第五置信度阈值的情况下，确定当前处于静音场景。
92.在本实施例中，可以在语音置信度小于第一置信度阈值，或者在静音置信度大于
或等于第四置信度阈值的情况下，确定历史采样数据中不包括语音，使得历史采样数据中是否包含语音的场景分类方式较简单。
93.需要进行说明的是，上述步骤302和步骤303中提及的第一场景、第二场景和第三场景，也可以通过预先训练的场景分类模型确定。具体地，可以将语音置信度、非语音置信度以及静音置信度输入场景分类模型中，可以得到第一场景对应的置信度、第二场景对应的置信度和第三场景对应的置信度，将这三个置信度中置信度最高的场景确定为最终的场景。其中，场景分类模型可以为dnn。
94.该场景分类模型可以通过如下的方式训练得到：将语音识别模型输出的语音置信度、非语音置信度和静音置信度作为训练样本，并对每个训练样本进行标注，标注信息包括场景分类的结果。将训练样本输入初始场景分类模型中，得到每个训练样本对应的场景预测结果，将该场景预测结果和标注信息进行比对，从而得到损失信息。基于该损失信息，调整初始场景分类模型的模型参数，并不断重复上述过程，直至得到的模型收敛或者损失信息最小，将最后得到的模型确定为场景分类模型。
95.步骤304：基于目标语音唤醒阈值，进行唤醒处理。
96.本发明实施例提供的语音唤醒方法，在识别结果信息表征历史采样数据中包括语音的情况下，将预设语音唤醒阈值确定为目标语音唤醒阈值，或者将经过调高处理的预设语音唤醒阈值确定为目标语音唤醒阈值，从而基于该目标语音唤醒阈值进行唤醒处理时，可以避免通过与唤醒词相似的词语误唤醒电子设备的现象，降低了电子设备的误唤醒率。另外，在识别结果信息表征历史采样数据中不包括语音的情况下，将经过调低处理的预设语音唤醒阈值确定为目标语音唤醒阈值，从而基于该目标语音唤醒阈值进行唤醒处理时，可以避免在说出唤醒词后无法唤醒电子设备的现象，提高了电子设备的唤醒率。
97.在上述任一实施例的基础上，为了保证目标语音唤醒阈值的有效性，在对拾音装置采集的历史采样数据进行识别时，可以是对以当前时刻为结束时刻的预设时间段内、拾音装置采集的历史采样数据进行识别。
98.其中，预设时间段可以根据经验进行设置，例如可以设置为5s或8s等。该预设时间段设置的越小，电子设备语音唤醒的可靠性越高。
99.在上述实施例的基础上，在基于目标语音唤醒阈值，进行唤醒处理时，可以获取拾音装置在当前时刻采集的当前采样数据，并获取当前采样数据包含预设唤醒词的唤醒置信度，以及当前采样数据对应的当前声音强度；在唤醒置信度大于或等于目标语音唤醒阈值、且当前声音强度大于目标声音强度阈值的情况下，执行唤醒操作。
100.具体地，唤醒置信度可以用于表征当前采样数据中包含预设唤醒词的概率，唤醒置信度越高，则说明当前采样数据中包含预设唤醒词的概率越大。在电子设备确定出唤醒置信度大于或等于目标语音唤醒阈值的情况下，说明当前采样数据中可能包含有预设唤醒词。
101.进一步地，用户通常在使用预设唤醒词唤醒电子设备时，会通过相对较高的音量说出预设唤醒词，因此，在唤醒置信度大于或等于目标语音唤醒阈值的情况下，还可以判断当前声音强度是否大于目标声音强度阈值，若大于，则说明用户说了预设唤醒词，从而电子设备会执行唤醒操作，否则，电子设备将不会被唤醒。
102.在上述方式中，在当前采样数据包含预设唤醒词的唤醒置信度大于或等于目标语
音唤醒阈值、且当前采样数据对应的当前声音强度大于目标声音强度阈值的情况下，再执行唤醒操作，由于从不同的维度判断当前采样数据中是否包含预设唤醒词，从而可以进一步降低电子设备的误唤醒率。
103.其中，上述的目标声音强度阈值可以是实时计算的，示例性的，可以通过获取历史采样数据对应的历史声音强度，并基于历史声音强度进行确定。
104.例如，可以将预设时间段内、历史采样数据对应的历史声音强度的平均值，确定为目标声音强度阈值，也可以将历史采样数据对应的历史声音强度中的最大值，确定为目标声音强度阈值。
105.在上述实施例中，通过历史采样数据对应的历史声音强度，确定目标声音强度阈值的方式，使得目标声音强度阈值可以基于环境中的声音强度进行动态调整，从而可以进一步降低电子设备的误唤醒率。
106.下面对本发明提供的语音唤醒装置进行描述，下文描述的语音唤醒装置与上文描述的语音唤醒方法可相互对应参照。
107.图4为本发明实施例提供的语音唤醒装置的示意图，如图4所示，该装置包括：
108.识别模块11，用于对麦克风采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；
109.确定模块12，用于基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；
110.处理模块13，用于基于所述目标语音唤醒阈值，进行唤醒处理。
111.本实施例的装置，可以用于执行前述电子设备侧方法实施例中任一实施例的方法，其具体实现过程与技术效果与电子设备侧方法实施例中类似，具体可以参见电子设备侧方法实施例中的详细介绍，此处不再赘述。
112.可选地，所述确定模块12，具体用于：
113.在所述识别结果信息表征所述历史采样数据中包括语音的情况下，将所述预设语音唤醒阈值确定为所述目标语音唤醒阈值，或者将经过调高处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
114.在所述识别结果信息表征所述历史采样数据中不包括语音的情况下，将经过调低处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值。
115.可选地，所述识别结果信息包括用于表征在所述历史采样数据中包含语音的语音置信度，和用于表征在所述历史采样数据中包含非语音的非语音置信度；
116.所述确定模块12，具体用于：
117.在所述语音置信度大于或等于第一置信度阈值，且小于第二置信度阈值的情况，将经过调高处理的所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
118.在所述语音置信度大于或等于所述第二置信度阈值，且所述非语音置信度小于第三置信度阈值的情况，将所述预设语音唤醒阈值确定为所述目标语音唤醒阈值；
119.其中，所述第一置信度阈值小于所述第二置信度阈值，所述第三置信度阈值小于所述第二置信度阈值。
120.可选地，在所述语音置信度小于所述第一置信度阈值的情况下，所述识别结果信息表征所述历史采样数据中不包括语音；以及
121.所述识别结果信息还包括用于表征在所述历史采样数据中既不包含语音也不包含非语音的静音置信度，在所述静音置信度大于或等于第四置信度阈值的情况下，所述识别结果信息表征所述历史采样数据中不包括语音。
122.可选地，所述识别模块11，具体用于：
123.将所述历史采样数据输入语音识别模型中，得到所述识别结果信息；
124.其中，所述语音识别模型为基于多个音频样本对初始语音识别模型进行训练得到的，所述多个音频样本中包括包含语音的音频样本、包含非语音的音频样本以及既不包含语音也不包含非语音的音频样本。
125.可选地，所述识别模块11，具体用于：
126.对以当前时刻为结束时刻的预设时间段内、所述拾音装置采集的历史采样数据进行识别。
127.可选地，所述处理模块13，具体用于：
128.获取所述拾音装置在所述当前时刻采集的当前采样数据；
129.获取所述当前采样数据包含预设唤醒词的唤醒置信度，以及所述当前采样数据对应的当前声音强度；
130.在所述唤醒置信度大于或等于所述目标语音唤醒阈值、且所述当前声音强度大于目标声音强度阈值的情况下，执行唤醒操作。
131.可选地，该装置还包括获取模块；其中：
132.获取模块，用于获取所述历史采样数据对应的历史声音强度；
133.确定模块12，用于基于所述历史声音强度，确定所述目标声音强度阈值。
134.本实施例的装置，可以用于执行前述电子设备侧方法实施例中任一实施例的方法，其具体实现过程与技术效果与电子设备侧方法实施例中类似，具体可以参见电子设备侧方法实施例中的详细介绍，此处不再赘述。
135.图5是本发明提供的一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(communications interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行语音唤醒方法，该方法包括：对拾音装置采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；基于所述目标语音唤醒阈值，进行唤醒处理。
136.此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
137.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机
程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音唤醒方法，该方法包括：对拾音装置采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；基于所述目标语音唤醒阈值，进行唤醒处理。
138.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音唤醒方法，该方法包括：对拾音装置采集的历史采样数据进行识别，获得用于表征所述历史采样数据中是否包括语音的识别结果信息；基于预设语音唤醒阈值，确定所述识别结果信息对应的目标语音唤醒阈值；基于所述目标语音唤醒阈值，进行唤醒处理。
139.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
140.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
141.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：用于语音识别的方法、装置、设备和存储介质与流程

语音唤醒方法、装置、设备和存储介质与流程

相关文献

最热文献