语音处理方法、装置、电子设备及计算机可读存储介质与流程

2022-03-09 07:52:47 来源：中国专利 TAG：

1.本发明涉及智能家居领域，具体而言，涉及一种语音处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着科技的不断发展，家居设备也越来越智能化，各种不同的智能家居设备均可以采用语音控制指令进行控制，但是当同一场景中智能家具设备为多个时，语音操控指令有重叠，相关技术中并不能很好地根据目标对象的语音指令执行目标对象所想表达的真实意图。例如，在做饭时，目标对象说出降低温度时，炉灶以为是减小火力的指令，空调以为是调低温度的指令，两个设备都执行了对应的功能，但是，空调不该执行减小火力的指令，从而容易导致语音指令的误操作。因此，如何有效地判断出目标对象的语音指令具体指定的预定任务，这一问题并未能解决。
3.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

4.本发明实施例提供了一种语音处理方法、装置、电子设备及计算机可读存储介质，以至少解决相关技术中，难以有效地判断出目标对象的语音指令的指向的技术问题。
5.根据本发明实施例的一个方面，提供了一种语音处理方法，包括：获取目标对象的语音，其中，所述语音中携带有：第一语音指令，音色信息；依据所述音色信息确定所述目标对象的身份；在所述目标对象的身份为预定身份的情况下，调取与所述预定身份对应的语音指令库，在所述语音指令库中确定与所述第一语音指令对应的第二语音指令。
6.可选地，还包括：在所述目标对象的身份不为预定身份的情况下，向预定终端发送授权请求，其中，所述授权请求用于请求在通用指令库中与所述第一语音指令对应的第三语音指令。
7.可选地，所述调取与所述预定身份对应的语音指令库，在所述语音指令库中确定与所述第一语音指令对应的第二语音指令，包括：确定所述第一语音指令与所述语音指令库中的预存语音指令的相似度；确定所述相似度大于预定阈值的预存语音指令为第二语音指令。
8.可选地，还包括：在所述相似度大于预定阈值的预存语音指令为多条的情况下，采集所述目标对象的图像；确定所述目标对象的位置，以及所述目标对象当前执行的动作；依据所述位置，以及所述动作，确定所述目标对象的倾向行为；确定匹配所述倾向行为的预存语音指令为第二语音指令。
9.可选地，所述依据所述位置，以及所述动作，确定所述目标对象的倾向行为，包括：依据所述位置，以及所述动作，分配对应的权重值至所述目标对象的多种可能性行为；确定所述权重值最高的可能性行为为所述目标对象的倾向行为。
10.可选地，所述调取与所述预定身份对应的语音指令库，在所述语音指令库中确定
与所述第一语音指令对应的第二语音指令之后，还包括：发送所述第二语音指令至目标终端以使所述目标终端执行与所述第二语音指令对应的操作。
11.根据本发明实施例的一个方面，提供了一种语音处理装置，包括：获取模块，用于获取目标对象的语音，其中，所述语音中携带有：第一语音指令，音色信息；第一确定模块，用于依据所述音色信息确定所述目标对象的身份；第二确定模块，用于在所述目标对象的身份为预定身份的情况下，调取与所述预定身份对应的语音指令库，在所述语音指令库中确定与所述第一语音指令对应的第二语音指令。
12.根据本发明实施例的一个方面，提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现上述任一项所述的语音处理方法。
13.根据本发明实施例的一个方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项所述的语音处理方法。
14.根据本发明实施例的一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的语音处理方法。
15.在本发明实施例中，通过获取目标对象的语音，通过语音中的音色信息确定目标对象的身份，进而依据目标对象的身份执行后续操作，在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令。因为与第一语音指令对应的第二语音指令是在依据目标对象的预定身份调取对应的语音指令库中确定的，因此，得到的第二语音指令是具有针对性的，进而解决了相关技术中，难以有效地判断出目标对象的语音指令的指向的技术问题。
附图说明
16.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
17.图1是根据本发明实施例的语音处理方法的流程图；
18.图2是根据本发明实施例的语音处理装置的结构框图。
具体实施方式
19.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
20.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
21.实施例1
22.根据本发明实施例，提供了一种语音处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
23.图1是根据本发明实施例的语音处理方法的流程图，如图1所示，该方法包括如下步骤：
24.步骤s102，获取目标对象的语音，其中，语音中携带有：第一语音指令，音色信息；
25.步骤s104，依据音色信息确定目标对象的身份；
26.步骤s106，在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令。
27.通过上述步骤，通过获取目标对象的语音，通过语音中的音色信息确定目标对象的身份，进而依据目标对象的身份执行后续操作，在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令。因为与第一语音指令对应的第二语音指令是在依据目标对象的预定身份调取对应的语音指令库中确定的，因此，得到的第二语音指令是具有针对性的，进而解决了相关技术中，难以有效地判断出目标对象的语音指令的指向的技术问题。
28.作为一种可选的实施例，获取目标对象的语音。语音中携带有：第一语音指令，音色信息。其中，第一语音指令可以为语音的含义，可以以文本信息的形式表示出来，可以通过第一语音指令指示终端设备执行与第一语音指令对应的操作，实现终端设备的智能语音控制。其中，音色信息可以用于识别语音所对应的目标对象的身份，因为不同的目标对象的音色是不同的，且语音中直接携带有音色信息。因此，可以直接根据音色信息确定目标对象的身份，不仅能够方便、快捷的确定出目标对象的身份，而且保证了识别出的目标对象的身份的准确性。该语音中还可以携带有其他信息，也可以获取该语音中的其他信息，例如，还可以包括语调信息，语调信息可以指该语音的语气，例如，目标对象说出该语音时是焦急的，还是平静的，或是抑扬顿挫的，通过语调信息能够更精确的判断出该语音的指向。通过获取目标对象的语音，能够根据目标对象中语音中携带的多种信息，更精确的判断出语音的指向。
29.作为一种可选的实施例，在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库。因为目标对象的不同，用语习惯也不同，同一个意思可能在不同的目标对象身上会以不同的语音呈现。因此，可以先判断目标对象的身份，在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库，与该预定身份对应的语音指令库即为给该目标对象专属定制的语音指令库，其中，语音指令库中的指令可以为目标对象自主录入的，也可以为根据目标对象的用语习惯学习生成的。目标对象可以随时对语音指令库中的指令进行调节。
30.作为一种可选的实施例，在目标对象的身份不为预定身份的情况下，向预定终端发送授权请求，其中，授权请求用于请求在通用指令库中与第一语音指令对应的第三语音
指令。例如，在家居生活的场景中，预定身份设置为在家中生活的一家三口，当家中来了客人时，客人也有通过语音控制终端设备执行对应操作的需求，此时，可以向预定终端发送授权请求，预定终端即为预定身份对应的目标对象所使用的终端。通过发送授权请求，可以自主的设定该客人是否能够通过语音控制终端设备执行对应操作。而且，因为是客人，可能不存在定制的语音指令库，在允许客人通过语音控制终端设备执行对应操作情况下，调用通用指令库，在通用指令库中确定与客人的语音中包括的第一语音指令对应的第三语音指令。能够依据目标对象的不同，实现对应的操作，使得语音控制更加智能化。
31.作为一种可选的实施例，在语音指令库中确定与第一语音指令对应的第二语音指令。因为目标对象在说出语音以使得终端设备执行对应的操作时，会存在不能完全重述之前设置的语音指令的情况，或者只说出简短的语音，没有完全的表达出语音指令。例如，在做饭时，目标对象说出降低温度时，炉灶以为是减小火力的指令，空调以为是调低温度的指令，两个设备都执行了对应的功能，但是，空调不该执行减小火力的指令，从而容易导致语音指令的误操作。在该情况下，就要确定出与第一语音指令对应的第二语音指令，以使得终端设备能执行与目标对象真正想表达的意图所指的指令相对应的操作，能够真正的理解到目标对象的意图，执行正确的指令。
32.作为一种可选的实施例，在调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令时，可以通过如下方式：首先确定第一语音指令与语音指令库中的预存语音指令的相似度，再依据相似度，确定相似度大于预定阈值的预存语音指令为第二语音指令。其中，确定第一语音指令与语音指令库中的预存语音指令的相似度时，可以采用多种方式，例如，可以采用欧式距离算法，最小距离编辑算法，等等。以最小距离编辑算法为例，进行举例说明：最小距离编辑算法可以通过获取第一语音指令到语音指令库中的预存语音指令的最小编辑距离，对相似的语音指令进行区分，编辑距离越小，两个语音指令的相似度越大，确定相似度大于预定阈值的预存语音指令为第二语音指令。因为在语音指令库中可能并不存在与第一语音指令相对应的指令，因此设置预定阈值，使得相似度大于预定阈值的预存语音指令才能认为是第二语音指令，避免了指令的误识别。
33.作为一种可选的实施例，在确定相似度大于预定阈值的预存语音指令为第二语音指令时，会出现相似度大于预定阈值的预存语音指令为多条的情况，在该情况下，可以采集目标对象的图像，以确定出目标对象的位置，以及目标对象当前执行的动作，进而依据位置，以及动作，确定目标对象的倾向行为，确定匹配倾向行为的预存语音指令为第二语音指令。通过目标对象当前的位置以及动作，综合性地判断出目标对象的倾向行为，进而确定匹配倾向行为的预存语音指令为第二语音指令。使得第二语音指令的确定结合了场景，使得确定出的第二语音指令更为有效、准确。
34.作为一种可选的实施例，在依据位置，以及动作，在确定目标对象的倾向行为中，可能会分析出多种目标对象正在执行的动作，即依据位置，以及动作，可能会确定出目标对象存在多种可能性行为，在该情况下，分配对应的权重值至目标对象的多种可能性行为，确定权重值最高的可能性行为为目标对象的倾向行为，以更准确地判断出目标对象的倾向行为。在分析目标对象的倾向行为时，可以与家居设备联动，例如，在做饭时，目标对象会使用炉灶设备，此时，系统会结合炉灶设备中何种设备正在运行，与拍摄包含目标对象的图像中
目标对象的位置与动作，综合判断出目标对象的倾向行为，可以判断出目标对象在使用炉灶做饭行为，以便基于目标对象使用炉灶做饭的场景，确定匹配炉灶做饭的预存语音指令为第二语音指令。
35.作为一种可选的实施例，调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令之后，发送第二语音指令至目标终端以使目标终端执行与第二语音指令对应的操作。使得终端设备能够依据第二语音指令执行对应的操作，实现智能家居生活。
36.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
37.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。
38.实施例2
39.根据本发明实施例，还提供了一种用于实施上述语音处理方法的装置，图2是根据本发明实施例的语音处理装置的结构框图，如图2所示，该装置包括：获取模块202，第一确定模块204和第二确定模块206，下面对该装置进行详细说明。
40.获取模块202，用于获取目标对象的语音，其中，语音中携带有：第一语音指令，音色信息；第一确定模块204，连接于上述获取模块202，用于依据音色信息确定目标对象的身份；第二确定模块206，连接于上述第一确定模块204，用于在目标对象的身份为预定身份的情况下，调取与预定身份对应的语音指令库，在语音指令库中确定与第一语音指令对应的第二语音指令。
41.此处需要说明的是，上述获取模块202，第一确定模块204和第二确定模块206对应于实施语音处理方法中的步骤s102至步骤s106，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。
42.实施例3
43.根据本发明实施例的另外一个方面，还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器被配置为执行指令，以实现上述任一项的语音处理方法。
44.实施例4
45.根据本发明实施例的另外一个方面，还提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述任一项的语音处理方法。
46.实施例5
47.根据本发明实施例的另外一个方面，还提供了一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的语音处理方法。
48.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
49.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
50.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
51.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
52.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
53.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
54.以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音处理方法、装置、电子设备及计算机可读存储介质与流程

相关文献

最热文献