语音交互方法、装置及语音芯片模组与流程

2021-11-24 20:57:00 来源：中国专利 TAG：

1.本公开涉及语音交互领域，特别是涉及一种语音交互方法、装置及语音芯片模组。

背景技术：

2.语音交互属于人机交互的范畴，是人机交互发展到目前一种较为前沿的交互方式。在语音交互过程中，需要对语音输入是否结束进行判断，以获取完整的语音输入，提高用户的交互体验。
3.目前语音活动检测方案均是从声音信号本身着手，通过检测接收到的声音信号中的音频帧是否符合人类的发音特征，来判断语音输入是否结束。
4.在集成灶抽油烟机、炒菜声音、跑步机噪音等存在连续复杂高噪音的语音交互场景中，由于高噪音影响，语音活动检测有概率出现无法准确判停语音结束的情况。
5.为了解决高噪音环境下无法准确判停语音结束的问题，按照现有的语音活动检测方案，需要对语音活动检测所采用的信号处理算法进行优化，而这势必会大大增加设备的性能消耗。
6.因此，需要一种在不显著增加设备性能消耗的同时实现高噪音环境下的语音活动结束的判定方案。

技术实现要素：

7.本公开要解决的一个技术问题是提供一种能够在不显著增加设备性能消耗的同时实现高噪音环境下的语音活动结束的判定的语音交互方案。
8.根据本公开的第一个方面，提供了一种语音交互方法，包括：接收音频输入；获取所述音频输入的文本识别信息；判断未获取到新识别的文本识别信息的时间是否大于第一时长；若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
9.根据本公开的第二个方面，提供了一种应用于跑步机的语音交互方法，包括：采集跑步机处于运行状态中的音频输入；将所述音频输入上传至服务器；接收服务器返回的所述音频输入的文本识别信息；判断未获取到新识别的文本识别信息的时间是否大于第一时长；若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
10.根据本公开的第三个方面，提供了一种应用于集成灶的语音交互方法，包括：采集集成灶处于运行状态中的音频输入；将所述音频输入上传至服务器；接收服务器返回的所述音频输入的文本识别信息；判断未获取到新识别的文本识别信息的时间是否大于第一时长；若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
11.根据本公开的第四个方面，提供了一种适于部署在设备中的语音芯片模组，包括：通信模块，用于将设备的麦克风检测到的音频输入上传至服务器，并接收服务器返回的文本识别信息，文本识别信息是由服务器对音频输入进行语义识别得到的；语音活动结束判断模块，用于判断未获取到新识别的文本识别信息的时间是否大于第一时长，若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
12.根据本公开的第五个方面，提供了一种语音交互装置，包括：接收模块，用于接收音频输入；获取模块，用于获取音频输入的文本识别信息；判断模块，用于判断未获取到新识别的文本识别信息的时间是否大于第一时长，若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
13.根据本公开的第六个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面至第三方面中任一方面所述的方法。
14.根据本公开的第七个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面至第三方面中任一方面所述的方法。
15.由此，本公开基于对噪音数据的语音识别不会得到有效的文本识别信息这一特性，通过判断一段时间内是否有新识别到的文本识别信息，来判断语音输入是否结束，可以有效排除噪音的干扰，在噪音环境中也能够准确地判断语音输入是否结束，并且整个过程不会额外增加性能消耗。
附图说明
16.通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。
17.图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。
18.图2示出了根据本公开一实施例的判断语音输入是否结束的方法示意图。
19.图3示出了根据本公开一个实施例的语音芯片模组的结构的示意性方框图。
20.图4示出了根据本公开一个实施例的语音交互装置的结构的示意性方框图。
21.图5示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。
具体实施方式
22.下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。
23.经测试发现，对集成灶抽油烟机、炒菜声音、跑步机噪音等噪音数据的语音识别，不会得到有效的文本识别信息。
24.基于这一特性，本公开提出，可以借助对音频输入的语义识别结果，通过判断一段时间内是否有新识别到的文本识别信息，来判断语音输入是否结束。由此可以有效排除噪音的干扰，在噪音环境中也能够准确地判断语音输入是否结束。
25.对音频输入的语义识别是实现语音交互所必须的，因此不会额外增加性能消耗。并且在语义识别操作是在服务端执行的情况下，本公开对设备的性能消耗几乎为零，因此可以适用于各种高低端设备，如跑步机、智能音箱、集成灶、车辆。
26.图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。图1所示的方法可以由支持语音交互功能的设备执行，该设备可以是各种工作在复杂噪音环境中的高低端设备，如跑步机、智能音箱、集成灶、车辆等等。
27.参见图1，在步骤s110，接收音频输入。
28.可以由设备的拾音器(如麦克风)采集周围环境中的声音，以得到音频输入。音频输入中可以同时包括环境噪音和发音人发出的语音。
29.在步骤s120，获取音频输入的文本识别信息。
30.文本识别信息，也即利用语音识别技术对音频输入进行语义识别得到的文本识别结果。对音频输入进行语义识别的操作可以在设备端执行，也可以在服务器端执行。若在服务器端执行对音频输入进行语义识别的操作，则可以将音频输入上传至服务器，接收服务器返回的对音频输入进行语义识别得到的文本识别信息。
31.在步骤s130，判断未获取到新识别的文本识别信息的时间是否大于第一时长。
32.新识别的文本识别信息是指与之前获取的文本识别信息相比，新增的文本。新增的文本也即不同于之前获取的文本识别信息的文本。
33.本公开述及的文本识别信息可以是指具有实际语义的有效文本，以排除将噪音识别为诸如“嗡嗡嗡”等没有实际语义的无效文本。即，步骤s120获取的文本识别信息可以是指对音频输入进行语义识别得到的具有实际语义内容的有效文本。
34.接收音频输入(步骤s110)是一个持续进行的过程；与之对应地，获取音频输入的文本识别信息(步骤s120)也是一个持续进行的过程。
35.本公开可以在持续接收音频输入的过程中，不断对新接收到的音频输入进行语义识别，以得到新接收到的音频输入的文本识别信息。其中，若新接收到的音频输入的文本识别信息为空文本或没有实际含义的无效文本，则表明未获取到新识别的文本识别信息。
36.本公开也可以在持续接收音频输入的过程中，不断对本轮语音交互过程中从接收音频输入开始到当前为止接收到的所有音频输入，进行语义识别，以不断得到最新时刻总的音频输入的文本识别信息。此时，可以将当前获取到的文本识别信息与上一次获取的文本识别信息进行比较，若二者相同，则表明不存在新识别的文本识别信息，即未获取到新识别的文本识别信息。
37.可以对未获取到新识别的文本识别信息的时间进行计时，以便判断未获取到新识别的文本识别信息的时间是否大于第一时长。其中，第一时长可以根据实际情况设定，如第一时长可以设为1.5秒。
38.作为示例，可以设置计时器，计时器可以在获取到文本识别信息后开始计时，如果获取到新识别的文本识别信息，计时器的计时结果将重置为零，并重新开始计时。由此，可以将计时器的计时结果与第一时长进行实时比较，以判断未获取到新识别的文本识别信息的时间是否大于第一时长。
39.在步骤s140，若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
40.在判定语音输入结束的情况下，可以执行与文本识别信息对应的操作指令。此处述及的文本识别信息是指对从检测到音频输入开始到判定语音输入结束这一过程中的音频输入进行语义识别所得到的文本识别结果。
41.操作指令与文本识别信息所表征的用户意图相关。例如在设备为集成灶，文本识别信息为“关闭油烟机”的情况下，操作指令关闭抽油烟机。
42.在语音交互过程中，对音频输入进行语义识别的操作是必不可少的。语音交互过程一般是先由麦克风接收音频输入，然后利用语音活动检测技术(voice activity detection，vad)识别语音结束点，判断语音输入是否结束。在判定语音输入结束的情况下，再根据对完整的音频输入进行语音识别得到的语义识别结果，做出相应的动作。
43.即，语音识别和语音输入结束检测一般是分开进行的。
44.本公开则基于“对噪音数据进行语音识别不会得到有效的文本识别信息”的特性，借助语音交互过程中对音频输入进行语义识别得到的文本识别信息，来辅助判断语音输入是否结束，以实现高噪音环境下语音活动结束的判定。而对音频输入进行语义识别是语音交互过程中原本存在的操作，因此本公开不会额外增加性能消耗。即，本公开可以在不显著增加设备性能消耗的同时实现高噪音环境下的语音活动结束的判定。
45.进一步地，本公开是在检测到音频输入后立即对音频输入进行语义识别，而不是在判定语音输入结束后再对音频输入进行语义识别，使得本公开可以在判定语音输入结束后直接得到本次语音输入的文本识别结果，提升语音交互效率。
46.作为示例，在接收到音频输入后，还可以判断音频输入是否为高噪音场景中采集得到的音频数据，即判断音频输入中是否存在较多的噪音数据。在判定音频输入是高噪音场景中采集得到的情况下，再执行上述步骤s120至步骤s140，通过判断未获取到新识别的文本识别信息的时间是否大于第一时长，判定语音输入是否结束。
47.具体可以通过多种方式判断音频输入是否为高噪音场景中采集得到的音频数据。例如，可以预先采集一些高噪音场景中的音频数据，将这些音频数据作为预设的高噪音场景音频数据，基于高噪音场景音频数据判断音频输入是否为高噪音场景中采集得到的音频数据，如可以通过比较高噪音场景音频数和采集得到的音频数据的相似性的方式判断判断音频输入是否为高噪音场景中采集得到的音频数据。再例如，也可以根据预先采集的一些高噪音场景中的音频数据，训练用于判断音频数据是否为高噪音音频数据的噪音识别模型，利用噪音识别模型判断音频输入是否为高噪音场景中采集得到的音频数据。
48.至此结合图1就公开借助对音频输入进行语义识别得到的文本识别信息判断语音输入是否结束的过程做了详细说明。本公开还可以在上文图1所示方法的基础上，结合语音活动检测方式来联合判断语音输入是否结束。
49.图2示出了根据本公开一实施例的判断语音输入是否结束的方法示意图。图2所示的方法可以由支持语音交互功能的设备执行，设备可以是各种工作在复杂噪音环境中的高低端设备，如跑步机、智能音箱、集成灶、车辆等等。
50.如图2所示，可以利用设备上安装的麦克风采集周围环境中的声音。麦克风采集到的声音可以经过语义识别得到文本识别信息。其中语义识别操作可以在设备端执行，也可以在服务器端执行。
51.在本实例中，可以根据语义识别得到的文本识别信息以及语音活动检测方式联合判断语音输入是否结束。关于利用语义识别得到的文本识别信息判断语音输入是否结束的过程可以参见上文结合图1的描述。
52.语音活动检测又称语音端点检测、语音边界检测，是指从声音信号流里识别语音
结束点，以便进行后续处理。作为示例，语音活动检测方式可以包括：检测接收到的音频输入中是否存在语音；判断未检测到新的语音的时间是否大于第二时长；若未检测到新的语音的时间大于第二时长，则判定语音输入结束。其中，检测接收到的音频输入中是否存在语音，也即检测音频输入中是否存在符合发音特征的语音信号，未检测语音的时间是指持续检测到没有语音的连续时间。
53.在本公开中，可以将基于语义识别得到的文本识别信息判断语音输入是否结束的判定方式的判定优先级高于语音活动检测方式。若利用语音活动检测方式检测到语音输入未结束，但基于语义识别的判定方式的判定结果为语音输入结束，则最终判定结果为判定语音输入结束。也即，在利用语音活动检测方式判定语音输入未结束，但未获取到新识别的文本识别信息的时间大于第一时长的情况下，判定语音输入结束。
54.由此，本方案通过服务端实时返回的语义识别结果进行辅助判断，不增加服务端负担，设备端性能消耗也非常少。在所有高端、低端设备上均可适用，不需增加额外费用。通过服务端实时返回的语义识别结果辅助vad检测说话结束，在性能消耗极少的情况下，有效解决了复杂高噪声场景下的vad判停问题。
55.本公开还可以判断未接收到新的音频输入的时间是否大于第三时长，若未接收到新的音频输入的时间大于第三时长，则可以直接判定语音输入结束，此时可以停止语音活动检测，以减少资源消耗。
56.作为示例，本公开可以实现为一种应用于跑步机的语音交互方法，包括：采集跑步机处于运行状态中的音频输入，采集得到的音频输入中可以包括发音人发出的语音数据和跑步机产生的噪音数据；将音频输入上传至服务器；接收服务器返回的音频输入的文本识别信息；判断未获取到新识别的文本识别信息的时间是否大于第一时长；若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。关于方法涉及的细节部分可以参见上文相关描述，此处不再赘述。
57.作为示例，本公开还可以实现为一种应用于集成灶的语音交互方法，包括：采集集成灶处于运行状态中的音频输入，采集得到的音频输入中可以包括发音人发出的语音数据和集成灶工作过程中产生的噪音数据；将音频输入上传至服务器；接收服务器返回的音频输入的文本识别信息；判断未获取到新识别的文本识别信息的时间是否大于第一时长；若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。关于方法涉及的细节部分可以参见上文相关描述，此处不再赘述。
58.本公开的语音交互方法可以应用于支持语音交互功能的ai模组，ai模组是一种人工智能模块，可以由芯片或芯片和硬件pcb组成。ai模组可以过网络和人工智能服务端通信，ai模组可以部署在设备中，设备可通过有线或无线和ai模块进行通信。
59.作为示例，本公开的语音交互方法可以实现为一种语音芯片模组，语音芯片模组可以部署在但不限于跑步机、智能音箱、集成灶、车辆等设备中，以使设备具备语音交互功能。
60.图3示出了根据本公开一个实施例的语音芯片模组的结构的示意性方框图。其中，语音芯片模组的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图3所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可
能的组合、或者划分、或者更进一步的限定。
61.下面就语音芯片模组可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。
62.参见图3，语音芯片模组300可以包括通信模块310和语音活动结束判断模块320。
63.通信模块310可以将设备的麦克风检测到的音频输入上传至服务器，并接收服务器返回的文本识别信息，文本识别信息是由服务器对音频输入进行语义识别得到的。
64.语音活动结束判断模块320用于判断未获取到新识别的文本识别信息的时间是否大于第一时长，若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
65.语音芯片模组300还可以包括语音活动检测模块，用于检测音频输入中是否存在语音，若语音活动检测模块未检测到语音，则语音活动判断模块判定语音输入结束，若语音活动检测模块检测到语音，且通信模块超过第一时长未获取到新的文本识别信息，则语音活动判断模块判定语音输入结束。
66.语音芯片模组300还可以包括指令模块，用于在判定语音输入结束的情况下，指令设备执行与文本识别信息对应的操作指令。
67.作为示例，在接收到音频输入后，语音芯片模组300可以首先判断音频输入是否为高噪音场景中采集得到的音频数据，例如可以基于预设的高噪音场景音频数据，判断音频输入是否为高噪音场景中采集得到的音频数据。在判定音频输入是高噪音场景中采集得到的情况下，再通过判断未获取到新识别的文本识别信息的时间是否大于第一时长，判定语音输入是否结束。
68.本公开的语音交互方法可以实现为一种语音交互装置。图4示出了根据本公开一个实施例的语音交互装置的结构的示意性方框图。其中，语音交互装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图4所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
69.下面就语音交互装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。
70.参见图4，语音交互装置400包括接收模块410、获取模块420以及判断模块430。
71.接收模块410用于接收音频输入。获取模块420用于获取音频输入的文本识别信息。判断模块430用于判断未获取到新识别的文本识别信息的时间是否大于第一时长，若未获取到新识别的文本识别信息的时间大于第一时长，则判定语音输入结束。
72.可选地，获取模块420可以将音频输入上传至服务器，接收服务器返回的文本识别信息，该文本识别信息是由服务器对音频输入进行语义识别得到的。
73.作为示例，语音交互装置400还可以包括检测模块。检测模块用于检测接收到的音频输入中是否存在语音。判断模块430还可以判断未检测到语音的时间是否大于第二时长，若未检测到语音的时间大于第二时长，则判定语音输入结束。
74.作为示例，判断模块430还可以判断未接收到新的音频输入的时间是否大于第三时长；若未接收到新的音频输入的时间大于第三时长，则判定语音输入结束。
75.作为示例，接收模块410在接收到音频输入后，可以首先由判断模块430判断音频输入是否为高噪音场景中采集得到的音频数据，例如可以基于预设的高噪音场景音频数据，判断音频输入是否为高噪音场景中采集得到的音频数据。在判定音频输入是高噪音场景中采集得到的情况下，再通过判断未获取到新识别的文本识别信息的时间是否大于第一时长，判定语音输入是否结束。
76.图5示出了根据本公开一实施例可用于实现上述语音交互方法的计算设备的结构示意图。
77.参见图5，计算设备500包括存储器510和处理器520。
78.处理器520可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器520可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中，处理器520可以使用定制的电路实现，例如特定用途集成电路(asic，application specific integrated circuit)或者现场可编程逻辑门阵列(fpga，field programmable gate arrays)。
79.存储器510可以包括各种类型的存储单元，例如系统内存、只读存储器(rom)，和永久存储装置。其中，rom可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(dram，sram，sdram，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器510可以包括可读和/或写的可移除的存储设备，例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom，双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
80.存储器510上存储有可执行代码，当可执行代码被处理器520处理时，可以使处理器520执行上文述及的语音交互方法。
81.上文中已经参考附图详细描述了根据本公开的语音交互方法、语音芯片模组、装置及计算设备。
82.此外，根据本公开的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。
83.或者，本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本公开的上述方法的各个步骤。
84.本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
85.附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
86.以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于DCT变换无次级路径建模有源噪声控制方法与流程

语音交互方法、装置及语音芯片模组与流程

相关文献

最热文献