语音控制指令的识别方法和装置、存储介质与流程

2022-06-01 03:01:03 来源：中国专利 TAG：

1.本发明涉及计算机领域，具体而言，涉及一种语音控制指令的识别方法和装置、存储介质及电子装置。

背景技术：

2.随着科技的发展，智能设备的控制方式越来越多，在设备的控制过程中，语音控制指令的识别技术占据非常重要的地位，现有技术通常使用在线识别的方式，也就是在设备对应的服务器部署识别模块，通过网络传输语音控制指令相关的数据和识别结果，虽然在线识别的识别速度快，内容识别准确，但是，在设备所处的环境中，网络存在波动，或者，设备对应的服务器出现故障的情况下，设备接收语音控制指令的识别结果可能存在较大的延迟，甚至无法识别语音控制指令，严重影响用户的体验。
3.针对相关技术中，语音控制指令的识别对网络的依赖程度高等问题，尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种语音控制指令的识别方法和装置、存储介质及电子装置，以至少解决相关技术中，语音控制指令的识别对网络的依赖程度高等问题。
5.根据本发明实施例的一个实施例，提供了一种语音控制指令的识别方法，包括：获取目标设备接收到的语音控制指令；
6.响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
7.根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
8.按照所述目标识别结果对所述目标设备进行控制。
9.可选的，所述根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果，包括：
10.检测所述目标服务器对所述语音控制指令的所述识别速度；
11.在所述识别速度大于或者等于目标速度的情况下，将所述第一识别结果确定为所述目标识别结果；
12.在所述识别速度小于所述目标速度的情况下，将所述第二识别结果确定为所述目标识别结果。
13.可选的，所述检测所述目标服务器对所述语音控制指令的所述识别速度，包括：
14.从将所述语音控制指令发送至所述目标服务器进行识别开始检测是否在目标时间内接收到所述第一识别结果；
15.在检测出在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速
度大于或者等于目标速度；
16.在检测出未在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速度小于所述目标速度。
17.可选的，所述同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别，包括：
18.将所述语音控制指令发送至所述目标服务器，其中，所述目标服务器用于使用第一识别模型对所述语音控制指令进行识别；
19.使用所述目标设备上部署的第二识别模型对所述语音控制指令进行识别。
20.可选的，所述使用所述目标设备上部署的第二识别模型对所述语音控制指令进行识别，包括：
21.将所述语音控制指令输入所述第二识别模型，得到所述第二识别模型输出的目标控制操作，其中，所述目标控制操作用于指示所述语音控制指令对所述目标设备的控制意图；
22.将所述目标控制操作与所述目标设备上存储的目标操作集合进行匹配，其中，所述目标操作集合用于记录允许所述目标设备在未连接网络的情况下执行的设备控制操作；
23.在确定所述目标操作集合中包括所述目标控制操作的情况下，将所述目标控制操作确定为所述第二识别结果；
24.在确定所述目标操作集合中不包括所述目标控制操作的情况下，将目标提示操作确定为所述第二识别结果，其中，所述目标提示操作用于提示所述目标设备在未连接网络的情况下不允许执行所述语音控制指令。
25.可选的，在所述将所述语音控制指令输入所述第二识别模型之前，所述方法还包括：
26.获取标注了所述设备控制操作的语音控制指令样本；
27.使用所述标注了所述设备控制操作的语音控制指令样本训练初始识别模型，得到所述第二识别模型。
28.可选的，所述使用所述标注了所述设备控制操作的语音控制指令样本训练初始识别模型，得到所述第二识别模型，包括：
29.将所述语音控制指令样本输入所述初始识别模型，得到所述初始识别模型输出的控制操作数据；
30.将所述控制操作数据和所述设备控制操作代入所述初始识别模型对应的损失函数，得到损失值；
31.根据所述损失值对所述初始识别模型的模型参数进行调整，直至所述损失值收敛，得到所述第二识别模型。
32.根据本发明实施例的另一个实施例，还提供了一种语音控制指令的识别装置，包括：获取目标设备接收到的语音控制指令；
33.响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
34.根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
35.按照所述目标识别结果对所述目标设备进行控制。
36.根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述语音控制指令的识别方法。
37.根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的语音控制指令的识别方法。
38.在本发明实施例中，获取目标设备接收到的语音控制指令；响应语音控制指令，同时通过目标设备对应的目标服务器和目标设备分别对语音控制指令进行识别；根据目标服务器对语音控制指令的识别速度，从目标服务器的第一识别结果和目标设备的第二识别结果中确定语音控制指令对应的目标识别结果；按照目标识别结果对目标设备进行控制，即目标设备接收到语音控制指令之后，一方面，通过目标设备对应的目标服务器对语音控制指令进行识别，输出第一识别结果；另一方面，通过目标设备对语音控制指令进行识别，输出第二识别结果；然后根据目标服务器识别语音控制指令的识别速度，确定语音控制指令对应的目标识别结果，从而根据目标服务器的识别速度采用相应的识别结果对目标设备进行控制，即使网络出现波动或者服务器出现故障也能够对用户的语音控制指令进行识别，从而及时对于用户的语音控制指令进行响应。采用上述技术方案，解决了相关技术中，语音控制指令的识别对网络的依赖程度高等问题，实现了降低语音控制指令的识别对网络的依赖程度的技术效果。
附图说明
39.此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
40.图1是本发明实施例的一种语音控制指令的识别方法的计算机终端的硬件结构框图；
41.图2是根据本发明实施例的语音控制指令的识别方法的流程图；
42.图3是根据本发明实施例的第一识别模型识别语音控制指令的示意图；
43.图4是根据本发明实施例的第二识别模型识别语音控制指令的示意图；
44.图5是根据本发明实施例的第二识别模型的目标操作集合的示意图；
45.图6是根据本发明实施例的第二识别模型的目标提示操作的示意图；
46.图7是根据本发明实施例的第二识别模型的训练过程的示意图；
47.图8是根据本发明实施例的识别速度的示意图；
48.图9是根据本发明实施例的语音控制指令的识别过程的示意图；
49.图10是根据本发明实施例的一种语音控制指令的识别装置的结构框图。
具体实施方式
50.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
51.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
52.本发明实施例所提供的方法实施例可以在计算机终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种语音控制指令的识别方法的计算机终端的硬件结构框图。如图1所示，计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。
53.存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的语音控制指令的识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
54.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
55.在本实施例中提供了一种语音控制指令的识别方法，应用于上述计算机终端，图2是根据本发明实施例的语音控制指令的识别方法的流程图，该流程包括如下步骤：
56.步骤s202，获取目标设备接收到的语音控制指令；
57.步骤s204，响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
58.步骤s206，根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
59.步骤s208，按照所述目标识别结果对所述目标设备进行控制。
60.通过上述步骤，目标设备接收到语音控制指令之后，一方面，通过目标设备对应的目标服务器对语音控制指令进行识别，输出第一识别结果；另一方面，通过目标设备对语音控制指令进行识别，输出第二识别结果；然后根据目标服务器识别语音控制指令的识别速度，确定语音控制指令对应的目标识别结果，从而根据目标服务器的识别速度采用相应的识别结果对目标设备进行控制，即使网络出现波动或者服务器出现故障也能够对用户的语音控制指令进行识别，从而及时对于用户的语音控制指令进行响应。采用上述技术方案，解决了相关技术中，语音控制指令的识别对网络的依赖程度高等问题，实现了降低语音控制指令的识别对网络的依赖程度的技术效果。
61.在上述步骤s202提供的技术方案中，获取目标设备接收到的语音控制指令可以但不限于通过部署在目标设备上的接收模块进行接收，比如：控制音箱的语音控制指令可以被音箱的音频采集模块接收。
62.可选地，在本实施例中，语音控制指令可以用于对所述目标设备进行操作控制，可以但不限于包括对设备本身的控制以及对其他设备的控制等等，比如，控制音箱的音量调大或者调小，控制音箱查询天气或者百科知识，以及使用音箱控制空调的开启和关闭。
63.可选地，在本实施例中，语音控制指令的类型可以但不限于包括语音控制或者手势控制等等，比如，控制音箱的音量调大或者调小可以直接使用语音指令，也可以通过音箱识别向上或者向下滑动的手势进行控制。
64.在上述步骤s204提供的技术方案中，响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别，也就是说，对于语音控制指令的识别，可以多线程同时进行，比如目标设备对应的目标服务器和目标设备可以同时对语音控制指令进行识别。
65.可选地，在本实施例中，目标服务器可以但不限于包括任何具备语音控制指令识别功能以及对语音控制指令进行相关操作的功能的服务器，也就是说，在语音控制指令为查询天气的情况下，目标服务器可以识别出该语音指令的控制意图为查询天气，并且目标服务器可以查询到指定的天气情况。
66.在一个示例性实施例中，可以但不限于采用以下方式同时通过目标服务器和目标设备识别语音控制指令：将所述语音控制指令发送至所述目标服务器，其中，所述目标服务器用于使用第一识别模型对所述语音控制指令进行识别；使用所述目标设备上部署的第二识别模型对所述语音控制指令进行识别。
67.也就是说，可以将语音控制指令传输至目标服务器，再由部署在目标服务器上的第一识别模型识别语音控制指令，即对语音控制指令进行在线识别。图3是根据本发明实施例的第一识别模型识别语音控制指令的示意图，如图3所示，音箱接收到查询天气的语音指令，可以将语音指令传输到音箱对应的目标服务器上，再通过目标服务器上的第一识别模型识别语音指令的语义为“查询天气”。同时音箱检测第一识别模型对查询天气的语音指令的识别时间。
68.在对语音控制指令进行在线识别的同时还可以通过目标设备上部署的第二识别模型对语音控制指令进行离线识别。
69.需要说明的是，上述同时通过目标服务器和目标设备识别语音控制指令的步骤之间没有执行顺序的限制，也就是说，两个步骤可以同时执行，也可以先后执行，即可以在将
语音控制指令发送至目标服务器的同时使用目标设备上部署的第二识别模型对语音控制指令进行识别。也可以先将语音控制指令发送至目标服务器，再将语音控制指令发送至第二识别模型进行识别。或者还可以先将语音控制指令发送至第二识别模型进行识别，在将语音控制指令发送至目标服务器。对此在本实施例中不予限定。
70.可选地，在本实施例中，第一识别模型和第二识别模型可以但不限于为任何可以识别语音控制指令的模型，比如：卷积神经网络模型，循环神经网络模型等等。第一识别模型和第二识别模型的模型类型可以相同，也可以不同。
71.在一个示例性实施例中，可以但不限于通过以下方式使用第二识别模型对语音控制指令进行识别：将所述语音控制指令输入所述第二识别模型，得到所述第二识别模型输出的目标控制操作，其中，所述目标控制操作用于指示所述语音控制指令对所述目标设备的控制意图；将所述目标控制操作与所述目标设备上存储的目标操作集合进行匹配，其中，所述目标操作集合用于记录允许所述目标设备在未连接网络的情况下执行的设备控制操作；在确定所述目标操作集合中包括所述目标控制操作的情况下，将所述目标控制操作确定为所述第二识别结果；在确定所述目标操作集合中不包括所述目标控制操作的情况下，将目标提示操作确定为所述第二识别结果，其中，所述目标提示操作用于提示所述目标设备在未连接网络的情况下不允许执行所述语音控制指令。
72.图4是根据本发明实施例的第二识别模型识别语音控制指令的示意图，如图4所示，在第二识别模型识别出语音控制指令对应的目标控制操作之后，将目标控制操作和目标设备上存储的目标操作集合进行匹配，在目标操作集合包含目标控制操作的情况下，代表目标控制操作可以在未连接网络的情况下执行，则将目标控制操作确定为所述第二识别结果，在目标操作集合不包含目标控制操作的情况下，代表目标控制操作不可以在未连接网络的情况下执行，则将目标提示操作确定为所述第二识别结果。
73.可选地，在本实施例中，目标操作集合用于记录允许所述目标设备在未连接网络的情况下执行的设备控制操作，也就是说，目标操作集合可以记录设备可以进行的离线操作，图5是根据本发明实施例的第二识别模型的目标操作集合的示意图，如图5所示，音箱在未连接网络的情况下可以执行音箱的音量调节操作和开关机的操作，即音量调节操作和开关机的操作属于目标操作集合，但是音箱在未连接网络的情况下不可以执行查询天气的操作，即查询天气的操作不属于目标操作集合。
74.可选地，在本实施例中，目标提示操作可以但不限于为任何可以提示所述目标设备在未连接网络的情况下不允许执行所述语音控制指令的操作，比如：第二识别结果不是本地指令集，则提示“网络状态不支持此指令”，即，网络未连接的情况下，识别支持的能力可能是有限的，只能支持本机控制，如“调高音量”、“打开洗衣机”等。图6是根据本发明实施例的第二识别模型的目标提示操作的示意图，如图6所示，在音箱接收到“查询天气”的语音控制指令后，通过部署在音箱中的第二识别模型对语音控制指令进行识别，得到语音控制指令的指令意图是“查询天气”，然后，对比“查询天气”和目标操作集合，由于目标操作集合不包含“查询天气”的操作，于是输出“网络状态不支持此指令”的目标提示操作，其中，不同的设备支持的本地指令集是不同的。通过将识别结果和本地指令集匹配，是本地指令的则执行，反之则提示“网络状态不支持此指令”。
75.在一个示例性实施例中，在所述将所述语音控制指令输入所述第二识别模型之
前，可以但不限于通过以下方式训练第二识别模型：获取标注了所述设备控制操作的语音控制指令样本；使用所述标注了所述设备控制操作的语音控制指令样本训练初始识别模型，得到所述第二识别模型。
76.可选地，在本实施例中，第二识别模型的生成过程可以但不限于是通过标注了所述设备控制操作的离线语音控制指令样本对初始识别模型进行训练得到的。通过对离线功能进行梳理，针对此功能领域进行特殊训练以得到一个体积小的特定识别模型和语言模型，即针对本机设备控制的语料进行特殊训练，比如“调高音量”、“打开洗衣机”等。不对“今天天气怎么样”进行优化，因为没网的情况下可能无法查询到当时的天气信息。这样就得到了一个体积小的特定识别模型和语言模型，降低了硬件配置要求，实现降成本需求。
77.在一个示例性实施例中，图7是根据本发明实施例的第二识别模型的训练过程的示意图，如图7所示，可以但不限于通过以下方式使用标注了设备控制操作的语音控制指令样本训练初始识别模型，得到第二识别模型：将所述语音控制指令样本输入所述初始识别模型，得到所述初始识别模型输出的控制操作数据；将所述控制操作数据和所述设备控制操作代入所述初始识别模型对应的损失函数，得到损失值；根据所述损失值对所述初始识别模型的模型参数进行调整，直至所述损失值收敛，得到所述第二识别模型。也就是说，第二识别模型的训练过程是将语音控制指令样本输入所述初始识别模型，得到所述初始识别模型输出的控制操作数据；然后将控制操作数据和所述设备控制操作代入所述初始识别模型对应的损失函数，得到损失值；最后对模型参数进行调整，直至所述损失值收敛，在此时第二识别模型就已经训练完成。
78.可选地，在本实施例中，语音控制指令样本可以但不限于采用与设备的离线功能匹配的离线指令集，缩减指令集体积，减小对硬件资源的占用，同时提升了匹配速度。采用特定训练的识别模型和语言模型，减小了模型体积，保证了识别精度且实现了低成本的硬件需求。并且具备实现难度小，开发周期短，性能稳定的优点。
79.在上述步骤s206提供的技术方案中，依据目标服务器对语音控制指令的识别速度，从目标服务器传回的识别结果和目标设备给出的识别结果中确定更适合用于响应语音控制指令的识别结果作为目标识别结果来控制设备的操作，也就是说，将第一识别结果还是第二识别结果作为目标识别结果的判断依据是目标服务器对语音控制指令的识别速度，根据目标服务器对语音控制指令的识别速度快慢来选出更加适合的识别结果执行后续的操作。
80.可选地，在本实施例中，识别速度可以但不限于使用任何可以检测到并反映出得到目标服务器的识别结果的速度的参数或者数据来体现。比如：网络状态，在网络状态差的情况下，获取到第一识别结果的速度慢；在网络状态良好的情况下，获取到第一识别结果的速度快。也就是说，可以但不限于通过网络状态来体现目标服务器对语音控制指令的识别速度。或者，也可以使用时间参数来体现目标服务器对语音控制指令的识别速度。
81.在一个示例性实施例中，可以但不限于通过以下方式根据第一识别模型对语音控制指令的识别速度，确定语音控制指令对应的目标识别结果：检测所述目标服务器对所述语音控制指令的所述识别速度；在所述识别速度为大于或者等于目标速度的情况下，在所述识别速度大于或者等于目标速度的情况下，将所述第一识别结果确定为所述目标识别结果；在所述识别速度为小于所述目标速度的情况下，将所述第二识别结果确定为所述目标
识别结果。
82.也就是说，对目标服务器识别语音控制指令的识别速度进行检测，如果检测到识别速度大于或者等于目标速度，则认为目标服务器对语音控制指令的识别较快，可以将目标服务器的第一识别结果确定为目标识别结果；如果识别速度小于目标速度，则认为目标服务器对语音控制指令的识别较慢，可以将目标设备的第二识别结果确定为目标识别结果。
83.可选地，在本实施例中，根据目标服务器对语音控制指令的识别速度，确定语音控制指令对应的目标识别结果的作用可以但不限于为根据设备当前的联网状态动态的切换是使用服务器在线的识别模型还是设备本地的识别模型，即实时监控设备的联网状态，动态切换离线识别和在线识别方式；如果在线识别结果返回的太慢，则使用离线识别结果。比如：无网的情况下，直接使用离线识别模型；有网的情况下，同时多线程并行使用在线识别模型和离线识别模型，在规定时间内收到了在线识别模型的识别结果，则使用在线识别模型的识别结果，反之使用离线识别模型的识别结果，避免网路太差导致等待时间较长的不良体验。一定程度上降低了语音设备对网络的依赖，使得设备在无网情况下的体验得到了提升。
84.在一个示例性实施例中，可以但不限于通过以下方式检测目标服务器对语音控制指令的识别速度：从将所述语音控制指令发送至所述目标服务器进行识别开始检测是否在目标时间内接收到所述第一识别结果；在检测出在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速度大于或者等于目标速度；在检测出未在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速度小于所述目标速度。
85.也就是说，可以从将语音控制指令发送至目标服务器进行识别开始计时，并将计时结果与目标时间进行比较，如果在目标时间内接收到目标服务器返回的第一识别结果，则可以确认目标服务器的在线识别过程符合对其识别速度的要求，即识别速度大于或者等于目标速度。如果在目标时间内未接收到目标服务器返回的第一识别结果，则可以确认目标服务器的在线识别过程不符合对其识别速度的要求，即识别速度小于目标速度。
86.可选地，在本实施例中，目标时间可以但不限于为预先设置的不影响用户体验的时间，比如，用户在发出语音控制指令的过程中，用户在不超过2秒接收到设备的识别结果的情况下不会感觉到网络延迟，这样就不会影响用户的体验，那么可以但不限于将2秒作为目标时间。
87.图8是根据本发明实施例的识别速度的示意图，如图8所示，当目标时间为2秒的情况下，用户查询天气的第一识别结果在2秒内返回，那么可以确定识别速度大于或者等于目标速度。用户查询天气的第一识别结果在2秒之后返回，那么可以确定识别速度小于目标速度。
88.在上述步骤s208提供的技术方案中，按照所述目标识别结果对所述目标设备进行相应控制。比如：音箱获取到目标识别结果为第一识别模型输出的查询天气指令，那么，使用音箱查询天气；或者，音箱获取到目标识别结果为第二识别模型输出的查询天气指令，那么，控制音箱提示用户“离线模式不支持此指令”。
89.为了更好的理解上述语音控制指令的识别方法的过程，以下再结合可选实施例对上述语音控制指令的识别的实现方法流程进行说明，但不用于限定本发明实施例的技术方
案。
90.在本实施例中提供了一种语音控制指令的识别方法，图9是根据本发明实施例的语音控制指令的识别过程的示意图，如图9所示，具体如下步骤：
91.步骤s901：唤醒设备，判断设备是否有网，在设备断网的情况下，使用离线识别方式，避免网络太差导致等待时间较长的不良体验；
92.步骤s902：在设备有网的情况下，对指令进行离线识别和在线识别；
93.步骤s903：判断在线识别结果是否在规定时间内返回；
94.步骤s904：在线识别结果在规定时间内返回的情况下，使用在线识别结果作为目标识别结果；
95.步骤s905：在线识别结果未在规定时间内返回的情况下，使用离线识别结果作为目标识别结果；
96.步骤s906：匹配离线识别结果是否为本地指令；
97.步骤s907：离线识别结果不是本地指令的情况下，提示用户离线模式不支持此指令；
98.步骤s908：离线识别结果是本地指令的情况下，执行本地指令，并判断是否执行成功，对用户进行相应的提示。
99.通过以上的实施方式，一定程度上降低了语音设备对网络的依赖，使得设备在无网情况下的体验得到了提升。其次，采用特定训练的识别模型和语言模型，即采用特定离线指令集，缩减指令集体积，减小对硬件资源的占用，减小了模型体积，保证了识别精度且实现了低成本的硬件需求，同时提升了匹配速度。另外，动态自动切换离线识别和在线识别方式，能用户一直得到最佳的体验。并且技术实现难度小，开发周期短，性能稳定。
100.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
101.图10是根据本发明实施例的一种语音控制指令的识别装置的结构框图；如图10所示，包括：
102.第一获取模块1002，用于获取目标设备接收到的语音控制指令；
103.识别模块1004，用于响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
104.确定模块1006，用于根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
105.控制模块1008，用于按照所述目标识别结果对所述目标设备进行控制。
106.通过上述实施例，即目标设备接收到语音控制指令之后，一方面，通过目标设备对应的目标服务器对语音控制指令进行识别，输出第一识别结果；另一方面，通过目标设备对语音控制指令进行识别，输出第二识别结果；然后根据目标服务器识别语音控制指令的识
别速度，也就是允许获取到目标服务器的识别结果的速度，确定语音控制指令对应的目标识别结果，从而根据目标服务器的识别速度采用相应的识别结果对目标设备进行控制，即使网络出现波动或者服务器出现故障也能够对用户的语音控制指令进行识别，从而及时对于用户的语音控制指令进行响应。采用上述技术方案，解决了相关技术中，语音控制指令的识别对网络的依赖程度高等问题，实现了降低语音控制指令的识别对网络的依赖程度的技术效果。
107.在一个示例性实施例中，所述确定模块，包括：
108.检测单元，用于检测所述目标服务器对所述语音控制指令的所述识别速度；
109.第一确定单元，用于在所述识别速度大于或者等于目标速度的情况下，将所述第一识别结果确定为所述目标识别结果；
110.第二确定单元，用于在所述识别速度小于所述目标速度的情况下，将所述第二识别结果确定为所述目标识别结果。
111.在一个示例性实施例中，所述检测单元，用于：
112.从将所述语音控制指令发送至所述目标服务器进行识别开始检测是否在目标时间内接收到所述第一识别结果；
113.在检测出在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速度大于或者等于目标速度；
114.在检测出未在所述目标时间内接收到所述第一识别结果的情况下，确定所述识别速度小于所述目标速度。
115.在一个示例性实施例中，所述识别模块，包括：
116.发送单元，用于将所述语音控制指令发送至所述目标服务器，其中，所述目标服务器用于使用第一识别模型对所述语音控制指令进行识别；
117.识别单元，用于使用所述目标设备上部署的第二识别模型对所述语音控制指令进行识别。
118.在一个示例性实施例中，所述识别单元，用于：
119.将所述语音控制指令输入所述第二识别模型，得到所述第二识别模型输出的目标控制操作，其中，所述目标控制操作用于指示所述语音控制指令对所述目标设备的控制意图；
120.将所述目标控制操作与所述目标设备上存储的目标操作集合进行匹配，其中，所述目标操作集合用于记录允许所述目标设备在未连接网络的情况下执行的设备控制操作；
121.在确定所述目标操作集合中包括所述目标控制操作的情况下，将所述目标控制操作确定为所述第二识别结果；
122.在确定所述目标操作集合中不包括所述目标控制操作的情况下，将目标提示操作确定为所述第二识别结果，其中，所述目标提示操作用于提示所述目标设备在未连接网络的情况下不允许执行所述语音控制指令。
123.在一个示例性实施例中，所述装置还包括：
124.第二获取模块，用于在所述将所述语音控制指令输入所述第二识别模型之前获取标注了所述设备控制操作的语音控制指令样本；
125.训练模块，用于使用所述标注了所述设备控制操作的语音控制指令样本训练初始
识别模型，得到所述第二识别模型。
126.在一个示例性实施例中，所述训练模块，包括：
127.输入单元，用于将所述语音控制指令样本输入所述初始识别模型，得到所述初始识别模型输出的控制操作数据；
128.代入单元，用于将所述控制操作数据和所述设备控制操作代入所述初始识别模型对应的损失函数，得到损失值；
129.调整单元，用于根据所述损失值对所述初始识别模型的模型参数进行调整，直至所述损失值收敛，得到所述第二识别模型。
130.本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。
131.可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：
132.s1，获取目标设备接收到的语音控制指令；
133.s2，响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
134.s3，根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
135.s4，按照所述目标识别结果对所述目标设备进行控制。
136.本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
137.可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
138.可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
139.s1，获取目标设备接收到的语音控制指令；
140.s2，响应所述语音控制指令，同时通过所述目标设备对应的目标服务器和所述目标设备分别对所述语音控制指令进行识别；
141.s3，根据所述目标服务器对所述语音控制指令的识别速度，从所述目标服务器的第一识别结果和所述目标设备的第二识别结果中确定所述语音控制指令对应的目标识别结果；
142.s4，按照所述目标识别结果对所述目标设备进行控制。
143.可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
144.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
145.显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成
的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
146.以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音交互方法、装置、电子设备和存储介质与流程

语音控制指令的识别方法和装置、存储介质与流程

相关文献

最热文献