控制语音的识别方法及目标角色的控制方法、相关装置与流程

2022-02-20 04:15:05 来源：中国专利 TAG：

1.本技术涉及语音识别技术领域，特别是涉及一种控制语音的识别方法及目标角色的控制方法、相关装置。

背景技术：

2.近年来，人工智能(artificial intelligence，ai)教育逐渐变得火热，大多数ai教育课程都以在线课程平台为基础进行延伸，辅以相应的硬件设备，如智能小车、智能机器人等。ai教育涉及到许多算法，从语音到图像，从传统算法到深度学习。在课堂中为了能够引起学生的兴趣，通常会将一些人工智能技术与游戏相结合，让学生能够更直观的看到ai技术的应用。语音识别技术与游戏的结合能够带来更多的互动效果，为课堂带来更多的知识与快乐。
3.对于语音游戏来说，所用到的语音接口需要能够处理语音数据流、识别速度快、实时反馈结果，这是当前许多语音识别接口所做不到的。

技术实现要素：

4.本技术提供一种控制语音的识别方法及目标角色的控制方法、相关装置。
5.本技术第一方面提供了一种控制语音的识别方法，所述方法包括：获取语音数据流中的目标语音分段；获取所述目标语音分段对应的信号强度的变化趋势；响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音。
6.因此，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的信号强度的变化趋势，于是可以根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音输入输出(input output，io)操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。
7.其中，所述获取语音数据流中的目标语音分段，包括：利用语音采集设备采集所述语音数据流；将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
8.因此，利用语音采集设备实时采集语音数据流，可以将语音数据流中的背景音进行过滤，从而得到语音数据流中的目标语音分段，提高语音识别的准确度，便于快速判断语音数据流中的目标语音分段是否为控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。
9.其中，所述将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段，包括：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段；对所述多个语音分段的至少部分语音分段进行语音活动检测，得到所述至少部分语音分段对应的振幅峰值；将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
10.因此，可以根据实际应用场景来设置时间窗口的长度，然后对语音数据流按照时
间窗口进行划分，可以得到多个语音分段，于是可以对其中的至少部分语音分段进行语音活动检测，并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现判断用户输入的目标语音分段是否为控制语音，提高用户语音识别准确度。
11.其中，所述将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段，包括：提取所述语音数据流中的若干个关键点；获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
12.因此，可以提取语音数据流中的若干个关键点，通过获取各关键点的振幅，判断各关键点的振幅与预设阈值的大小，并认为振幅大于预设阈值的关键点属于用户输入的语音分段内，将包含振幅大于预设阈值的关键点的语音分段作为目标语音分段，或者，通过获取每个关键点对应的包含该关键点的语音分段的振幅峰值，并认为振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现判断用户输入的目标语音分段是否为控制语音，提高用户语音识别准确度。
13.其中，在所述获取所述目标语音分段对应的信号强度的变化趋势之前，所述方法还包括：对每个所述目标语音分段中的语音信号进行预加重处理，并获取每个经所述预加重处理后的所述目标语音分段对应的信号强度。
14.因此，通过对每个目标语音分段中的语音信号进行预加重处理，可以弥补语音信号中高频部分的损耗，提高信号的传输质量，便于后续对控制语音的准确识别。
15.其中，所述获取所述目标语音分段对应的信号强度的变化趋势，包括：确定当前所述目标语音分段与前一所述目标语音分段之间的信号强度比率；所述响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音，包括：响应于所述信号强度比率大于预设阈值，则确定当前所述目标语音分段为控制语音。
16.因此，通过计算当前目标语音分段与前一目标语音分段之间的信号强度比率，来获取当前目标语音分段与前一目标语音分段之间的信号强度的变化情况，并在当前目标语音分段与前一目标语音分段之间的信号强度比率大于预设阈值的情况下，确定当前目标语音分段为控制语音，从而实现了根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需用户提前录入标准语音，能够做到实时识别语音数据流中的控制语音，为使音控游戏进行实时响应提供技术支持。
17.本技术第二方面提供了一种目标角色的控制方法，所述方法包括：获取语音采集设备采集的所述语音数据流；确定所述语音数据流中的目标控制语音；基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
18.因此，通过语音采集设备实时采集语音数据流，在获取到语音数据流后，可以利用控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的信号强度的变化趋势，然后根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应，而且根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需用户提前录入标准语
音。
19.其中，所述方法还包括：预先建立标准语音数据库，以形成目标控制指令与语音特征的对应关系；所述基于所述目标控制语音控制所述目标角色，包括：获取所述目标控制语音的目标语音特征；根据所述对应关系和所述目标语音特征，确定所述目标控制语音的目标控制指令；根据所述目标控制语音的目标控制指令，控制所述目标角色执行相应的操作。
20.因此，通过预先建立标准语音数据库，以形成目标控制指令与语音特征的对应关系，然后可以根据对应关系和目标控制语音的目标语音特征，确定目标控制语音的目标控制指令，并根据目标控制语音的目标控制指令，控制目标角色执行相应的操作，实现实时识别语音控制指令并控制目标角色。
21.其中，所述方法还包括：预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色；所述基于所述目标控制语音控制所述目标角色，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
22.因此，通过预先设置多个目标控制指令，其中多个目标控制指令对应控制不同的目标角色，于是，在通过语音采集设备实时采集语音数据流，并利用控制语音的识别方法，快速识别出语音数据流中的控制语音，以及确定控制语音对应的目标控制指令后，可以控制与该目标控制指令相对应的目标角色，实现根据不同的控制指令控制不同的目标角色。
23.本技术第三方面提供了一种控制语音的识别装置，包括：语音获取模块，所述语音获取模块用于获取语音数据流中的目标语音分段；计算模块，所述计算模块用于获取所述目标语音分段对应的信号强度的变化趋势；确定模块，所述确定模块用于响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音。
24.本技术第四方面提供了一种目标角色的控制装置，包括：数据获取模块，所述数据获取模块用于获取语音采集设备采集的所述语音数据流；识别模块，所述识别模块用于利用控制语音的识别方法确定所述语音数据流中的目标控制语音；控制模块，所述控制模块用于基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一项所述的控制语音的识别方法确定。
25.本技术第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现上述第一方面中的控制语音的识别方法，或上述第二方面中的目标角色的控制方法。
26.本技术第六方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面中的控制语音的识别方法，或上述第二方面中的目标角色的控制方法。
27.上述方案，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的信号强度的变化趋势，于是可以根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持，而且根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需用户提前录入标准语音，语音识别更高效便捷。
附图说明
28.图1是本技术控制语音的识别方法一实施例的流程示意图；
29.图2是图1中步骤s11一实施例的流程示意图；
30.图3a是图2中步骤s112一实施例的流程示意图；
31.图3b是图2中步骤s112另一实施例的流程示意图；
32.图4是本技术控制语音的识别方法另一实施例的流程示意图；
33.图5是本技术目标角色的控制方法一实施例的流程示意图；
34.图6是本技术目标角色的控制方法另一实施例的流程示意图；
35.图7是本技术控制语音的识别装置一实施例的框架示意图；
36.图8是本技术目标角色的控制装置一实施例的框架示意图；
37.图9是本技术电子设备一实施例的框架示意图；
38.图10是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
39.下面结合说明书附图，对本技术实施例的方案进行详细说明。
40.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
41.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
42.请参阅图1，图1是本技术控制语音的识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：
43.步骤s11：获取语音数据流中的目标语音分段。
44.步骤s12：获取所述目标语音分段对应的信号强度的变化趋势。
45.步骤s13：响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音。
46.本技术实施例的控制语音的识别方法可以用于在采集语音数据流过程中，对语音数据流中的目标语音进行实时识别，例如，在采集用户a说话产生的语音数据流的过程中，语音数据流中包括用户a录入的目标语音以及其他语音，于是可以对用户a录入的目标语音进行识别，判断用户a录入的是否为控制语音。可以理解的是，目标语音为用户录入的包含控制指令的语音，通过对目标语音进行获取和识别，可以实现对目标角色的控制；而其他语音，包括在用户录入目标语音的过程中，误输入的未包含控制指令的语音以及所处环境中的噪音等等。
47.所述控制语音的识别方法可以运行于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、智能电视机、可穿戴设备、游戏机、车载终端、处理器等等。
48.本技术实施例可以实时采集语音数据，所述语音数据可以是用户说话发出的声音，通过不断采集的语音数据可以形成语音数据流。然后可以从语音数据流中获取用户录入的目标语音，并可以根据实际应用场景来将目标语音进行分段划分，得到多个目标语音
分段；例如，在ai教育课堂中为了能够引起学生的兴趣，通常会将一些人工智能技术与游戏相结合，让学生能够更直观的看到ai技术的应用，这些游戏的语音控制指令往往只是单一的短促声响，因此其语音识别的任务是识别这种短促的语音控制指令，因此，可以将用户录入的目标语音划分为时间长度较小的语音分段。于是，可以获取多个目标语音分段对应的信号强度的变化趋势，并根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音。其中，预设条件是预先设置的用于确定接收到的语音分段是否为用户发出的控制语音的条件。在一种可能的实现方式中，用户录入的控制语音相比于用户录入的其他语音来说，可能信号强度会突然加强，因此，预设条件可以是信号强度的变化趋势是信号强度突然加强，即在目标语音分段对应的信号强度突然加强时，则认为信号强度突然加强的目标语音分段为用户录入的控制语音。在其他可能的实现方式中，预设条件可以是信号强度变化量大于预设阈值，或者信号强度变化量大于预设阈值且在预设时间内处于预设强度范围等，具体可以根据应用场景设置。
49.上述方案，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的信号强度的变化趋势，于是可以根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。而且进行实时语音识别过程中，直接根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需当前用户提前录入标准语音，语音识别更高效便捷。
50.请参阅图2，图2是图1中步骤s11一实施例的流程示意图。本技术实施例中，上述步骤s11具体可以包括如下步骤：
51.步骤s111：利用语音采集设备采集所述语音数据流。
52.步骤s112：将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
53.本技术实施例可以通过连接电子设备的语音采集设备或者电子设备自带的语音采集设备实时采集语音数据，形成语音数据流，例如，以44.1k的采样频率从麦克风中采集用户的声音流数据，每次从流数据中抽取1024个样本点作为语音数据流。然后对该语音数据流进行预处理，以过滤掉该语音数据流中的背景音等干扰数据，例如，可以从语音数据流中去除目标语音首尾两端的静音数据，还可以一并去除目标语音中的噪音数据，从而可以降低背景音等干扰数据对后续语音识别所造成的干扰，可以有效地提高语音识别的准确性。
54.上述方案，利用语音采集设备实时采集语音数据流，可以将语音数据流中的背景音进行过滤，从而得到语音数据流中的目标语音分段，可提高语音识别准确度，便于快速判断语音数据流中的目标语音分段是否为控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。
55.请参阅图3a，图3a是图2中步骤s112一实施例的流程示意图。本技术实施例中，上述步骤s112具体可以包括如下步骤：
56.步骤s1121a：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段。
57.步骤s1122a：对所述多个语音分段的至少部分语音分段进行语音活动检测，得到
所述至少部分语音分段对应的振幅峰值。
58.步骤s1123a：将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
59.例如，在某个音控游戏的控制语音的识别场景中，采用简短的语音来控制游戏角色，因此，可以设置设定长度为0.5s，即在获取到语音数据流后，可以按照时间顺序以0.5s的时间窗口对语音数据流进行划分，得到若干个语音分段，每个语音分段包含0.5s的语音数据流。然后，可以对所有的语音分段进行语音活动检测，例如可以利用vad(voiceactivity detection，音频端点检测)技术对每个语音分段进行语音分析，以检测出用户录入的有效语音，并可以将检测出的所有用户录入的有效语音称为目标语音分段。当然，也可以对所有的语音分段中的部分语音分段进行语音活动检测，比如在一段语音中，开始部分和结尾部分可能没有包含有效的语音内容，因此，可以按照时间顺序，选择处于语音数据流的中间部分的语音分段进行语音活动检测，可以减少语音活动检测的工作量，加快语音识别过程。可以理解的是，对于某个语音分段进行检测时，只有该语音分段对应的振幅峰值大于预设幅值时，才认为该语音分段为用户录入的有效语音，例如预设幅值为0.2，因此，可以将振幅峰值大于预设幅值的所有语音分段作为目标语音分段。
60.上述方案，可以根据实际应用场景来设置时间窗口的长度，然后对语音数据流按照时间窗口进行划分，可以得到多个语音分段，于是可以对每个语音分段进行语音活动检测，并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现判断用户输入的目标语音分段是否为控制语音。
61.请参阅图3b，图3b是图2中步骤s112另一实施例的流程示意图。本技术实施例中，上述步骤s112具体可以包括如下步骤：
62.步骤s1121b：提取所述语音数据流中的若干个关键点。
63.步骤s1122b：获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
64.在获取语音数据流后，可以利用采样方式提取语音数据流中的若干个关键点，然后将关键点的前后一段时间范围内的语音作为一个语音分段。在一实施方式中，可以获取各关键点的振幅，并判断各关键点的振幅与预设阈值的大小，并认为振幅大于预设阈值的关键点属于用户输入的语音分段内，于是可以将包含振幅大于预设阈值的关键点的语音分段作为目标语音分段。在另一实施方式中，可以获取每个包含关键点的语音分段的振幅峰值，并认为振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段。通过上述方式获取目标语音分段，进而可以从一段语音数据流中过滤背景音，提取用户输入的目标语音分段控制语音，有助于提高用户语音识别的速度和准确度。
65.在一实施例中，在步骤s12之前，所述方法还包括：对每个所述目标语音分段中的语音信号进行预加重处理，并获取每个经所述预加重处理后的所述目标语音分段对应的信号强度。
66.可以理解的是，关于语音信号，其高频段能量小、低频段能量大，而鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声小，高频噪声大)，造成信号的低频信噪比很大，而高频信噪比明显不足，从而导致高频传输衰弱，使高频传输困难。因此，需要通过预加重把语音信号的高频在进行调制前加重(放得更大)，补偿语音信号高频分量的损失，提
升高频分量。
67.因此，通过对每个目标语音分段中的语音信号进行预加重处理，可以弥补语音信号中高频部分的损耗，提高信号的传输质量，便于后续对控制语音的准确识别。
68.请参阅图4，图4是本技术控制语音的识别方法另一实施例的流程示意图。具体而言，可以包括如下步骤：
69.步骤s41：获取语音数据流中的目标语音分段。
70.步骤s42：确定当前所述目标语音分段与前一所述目标语音分段之间的信号强度比率。
71.步骤s43：响应于所述信号强度比率大于预设阈值，则确定当前所述目标语音分段为控制语音。
72.可以理解的是，通过计算当前目标语音分段与前一目标语音分段之间的信号强度比率，来获取当前目标语音分段与前一目标语音分段之间的信号强度的变化情况，并在当前目标语音分段与前一目标语音分段之间的信号强度比率大于预设阈值的情况下，可以确定当前目标语音分段为控制语音，从而实现了根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需用户提前录入标准语音，能够做到实时识别语音数据流中的控制语音，为使音控游戏进行实时响应提供技术支持。
73.请参阅图5，图5是本技术目标角色的控制方法一实施例的流程示意图。具体而言，可以包括如下步骤：
74.步骤s51：获取语音采集设备采集的所述语音数据流。
75.步骤s52：确定所述语音数据流中的目标控制语音。
76.步骤s53：基于所述目标控制语音控制所述目标角色。
77.其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
78.本技术实施例中，目标角色可以是教育场景或者生活场景中的虚拟人物、虚拟动物、虚拟物品、卡通形象等等目标角色，目标角色的展现形式可以是2d形式也可以是3d形式，本技术对此并不限定。本技术实施例利用目标角色的控制方法，可以通过识别用户发出控制语音，来控制目标角色做出相应的动作。具体地，通过语音采集设备实时采集语音数据流，在获取到语音数据流后，可以利用上述任意一种控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的信号强度的变化趋势，然后根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应，而且根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需用户提前录入标准语音。
79.在一实施例中，所述目标角色为音控游戏中的虚拟角色。在音控游戏中，通过语音采集设备实时采集语音数据流，可以利用控制语音的识别方法，快速识别出语音数据流中的控制语音，并使音控游戏进行实时响应，对音控游戏中的虚拟角色进行实时控制。
80.请参阅图6，图6是本技术目标角色的控制方法另一实施例的流程示意图。具体而言，可以包括如下步骤：
81.步骤s61：预先建立标准语音数据库，以形成控制指令与语音特征的对应关系。
82.步骤s62：获取语音采集设备采集的所述语音数据流。
83.步骤s63：利用控制语音的识别方法确定所述语音数据流中的目标控制语音。
84.步骤s64：根据所述对应关系和所述目标控制语音对应的语音特征，确定所述目标控制语音的控制指令。
85.步骤s65：根据所述目标控制语音的控制指令，控制所述目标角色执行相应的操作。
86.在本公开实施例中，可以预先建立控制语音的语音特征与目标角色的控制指令的对应关系，在获得了目标控制语音的情况下，即可根据目标控制语音的语音特征，以及控制指令与语音特征的对应关系，获得该目标控制语音对应的控制指令。具体地，在获得目标控制语音后，可以通过提取目标控制语音的语音特征，然后在对应关系中查找匹配的语音特征，于是所匹配的语音特征对应的控制指令即为目标控制语音对应的控制指令。
87.在一实施例中，可以通过将目标控制语音的语音特征输入至预先训练的神经网络模型中，获取与语音特征对应的控制指令。关于神经网络模型的训练，可以通过获取语音特征样本，语音特征样本标注有真实值，真实值为对应的控制指令的控制参数；在获得了语音特征样本后，根据语音特征样本对初始的神经网络模型进行训练，在损失函数的变化满足收敛条件后训练得到训练后的神经网络模型，其中，损失函数包括初始的神经网络模型预测得到的控制指令的控制参数与真实值之间的差异。
88.在一实施例中，目标角色的控制方法应用于音控游戏，该音控游戏可以通过语音控制飞机的飞行和炮弹发射，因此，预先可以建立标准语音数据库，例如当玩家说“pa”时，通过提取语音“pa”的语音特征，并建立该语音特征与控制飞机发射炮弹的控制指令的对应关系，当玩家说”ah”时，通过提取语音“ah”的语音特征，并建立该语音特征与控制飞机向右飞行的控制指令的对应关系等等，依此类推，可以形成控制飞机的飞行和炮弹发射等语音控制指令与语音特征的对应关系；于是，在用户玩游戏的过程中，通过发出相应的控制语音，由语音采集设备实时采集并利用控制语音的识别方法识别出目标控制语音，从而可以根据目标控制语音的控制指令，控制飞机执行相应的操作。
89.在一实施例中，标准语音数据库中的语音特征还用于表示录入目标控制指令的预设用户，因此，在确定语音特征的过程中，可以预先获取预设用户录入的关于目标控制指令的若干个语音样本，然后获得每个语音样本对应的语音特征，将若干个语音样本对应的语音特征的平均值作为预设用户录入的目标控制指令对应的语音特征。于是，在获取目标语音分段后，可以确定目标语音分段对应的语音特征与标准语音数据库中的语音特征之间的相似度是否大于预设阈值，若大于预设阈值，则可以确定该目标语音分段为预设用户录入的控制语音，即说明是预设用户(如具有控制权限的用户)发出的控制指令，然后可以进一步确定该目标语音分段具体所包含的目标控制指令，例如通过语音识别模型识别该目标语音分段对应的目标控制指令，从而可以根据实时获取的语音数据流，快速识别出预设用户录入的控制语音，并识别出控制语音对应的目标控制指令，确定预设用户所表达的控制要求，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应，且能够过滤非预设用户的干扰语音，提高语音控制准确度。
90.上述方案，通过预先建立标准语音数据库，以形成控制指令与语音特征的对应关系，然后可以根据对应关系和目标控制语音对应的语音特征，确定目标控制语音的控制指令，并根据目标控制语音的控制指令，控制目标角色执行相应的操作，实现实时识别语音控
制指令并控制目标角色。
91.在一实施例中，所述目标角色的控制方法还包括：预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色；所述基于所述目标控制语音控制所述目标角色，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
92.例如，预先设置角色a对应的目标控制指令集{a1，a2，a3}，以及角色b对应的目标控制指令集{b1，b2，b3}。在确定目标控制语音对应的目标控制指令为a1时，可以确定a1控制的目标角色为角色a，则可以用目标控制指令a1控制角色a。
93.在一种可能的实现方式中，不同角色可以绑定不同用户，则不同角色的控制指令预先设置为不同用户的目标控制指令。比如，角色a绑定用户a1的目标控制指令a1，角色b绑定用户b1的目标控制指令b1，则在检测到目标控制语音对应的目标控制指令为用户b1的指令b1时，使用目标控制指令b1控制角色b。在其他可能的实现方式中，不同角色对应的目标控制指令中还可以包括角色名称，当检测到目标控制语音对应的控制指令中包括某个角色名称，则可确定该控制指令为识别到的角色名称对应的角色的目标控制指令。
94.因此，通过预先设置多个目标控制指令，其中多个目标控制指令对应控制不同的目标角色，于是，在通过语音采集设备实时采集语音数据流，并利用上述的控制语音的识别方法，快速识别出语音数据流中的控制语音后，确定控制语音所对应的目标控制指令，可以控制与该目标控制指令相对应的目标角色，从而可以根据不同的控制指令来控制不同的目标角色。
95.在其他实施例中，可以预先设置不同角色对应的角色切换指令，当检测到目标控制语音为某个角色对应的角色切换指令，则后续接收到的目标控制指令即用于控制该角色切换指令对应的角色。在仅存在2个角色的情况下，可以仅设置一个角色切换指令，当检测到目标控制语音为角色切换指令，则后续接收到的目标控制指令的控制角色，从接收到角色切换指令前的角色切换到另一个角色。
96.请参阅图7，图7是本技术控制语音的识别装置一实施例的框架示意图。本技术实施例中，控制语音的识别装置70包括：语音获取模块700，所述语音获取模块700用于获取语音数据流中的目标语音分段；计算模块702，所述计算模块702用于获取所述目标语音分段对应的信号强度的变化趋势；确定模块704，所述确定模块704用于响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音。
97.上述方案，在语音获取模块700获取语音数据流中的目标语音分段后，计算模块702可以获取目标语音分段对应的信号强度的变化趋势，于是确定模块704可以根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。而且进行实时语音识别过程中，直接根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需当前用户提前录入标准语音，语音识别更高效便捷。
98.在一些实施例中，语音获取模块700执行获取语音数据流中的目标语音分段的步骤，包括：利用语音采集设备采集所述语音数据流；将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
99.在一些实施例中，语音获取模块700执行将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段的步骤，具体包括：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段；对所述多个语音分段的至少部分语音分段进行语音活动检测，得到所述至少部分语音分段对应的振幅峰值；将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
100.在一些实施例中，语音获取模块700执行将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段的步骤，具体包括：提取所述语音数据流中的若干个关键点；获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
101.在一些实施例中，控制语音的识别装置70还包括语音预处理模块(未图示)，在所述计算模块702执行获取所述目标语音分段对应的信号强度的变化趋势的步骤之前，所述语音预处理模块用于对每个所述目标语音分段中的语音信号进行预加重处理，并获取每个经所述预加重处理后的所述目标语音分段对应的信号强度。
102.在一些实施例中，计算模块702执行获取所述目标语音分段对应的信号强度的变化趋势的步骤，包括：确定当前所述目标语音分段与前一所述目标语音分段之间的信号强度比率。此时，确定模块704执行响应于所述信号强度的变化趋势满足预设条件，确定所述目标语音分段为控制语音的步骤，包括：响应于所述信号强度比率大于预设阈值，则确定当前所述目标语音分段为控制语音。
103.请参阅图8，图8是本技术目标角色的控制装置一实施例的框架示意图。本技术实施例中，目标角色的控制装置80包括：数据获取模块800，所述数据获取模块800用于获取语音采集设备采集的所述语音数据流；识别模块802，所述识别模块802用于利用控制语音的识别方法确定所述语音数据流中的目标控制语音；控制模块804，所述控制模块804用于基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
104.上述方案，数据获取模块800通过语音采集设备实时采集语音数据流，在获取到语音数据流后，识别模块802可以利用控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的信号强度的变化趋势，然后根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，于是控制模块804可以基于目标控制语音控制目标角色，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应。而且进行实时语音识别过程中，直接根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需当前用户提前录入标准语音，语音识别更高效便捷。
105.在一些实施例中，目标角色的控制装置80还包括数据库建立模块(未图示)，数据库建立模块用于预先建立标准语音数据库，以形成目标控制指令与语音特征的对应关系。此时，控制模块804执行基于所述目标控制语音控制所述目标角色的步骤，包括：获取所述目标控制语音的目标语音特征；根据所述对应关系和所述目标语音特征，确定所述目标控制语音的目标控制指令；根据所述目标控制语音的目标控制指令，控制所述目标角色执行相应的操作。
106.在一些实施例中，目标角色的控制装置80还包括指令设置模块(未图示)，指令设置模块用于预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色。控制模块804执行基于所述目标控制语音控制所述目标角色的步骤，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
107.本技术目标角色的控制装置各模块功能的实现过程具体可以参考本技术实施例提供的目标角色的控制方法，此处不再赘述。
108.请参阅图9，图9是本技术电子设备一实施例的框架示意图。电子设备90包括相互耦接的存储器91和处理器92，处理器92用于执行存储器91中存储的程序指令，以实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例的步骤。在一个具体的实施场景中，电子设备90可以包括但不限于：微型计算机、服务器。
109.具体而言，处理器92用于控制其自身以及存储器91以实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例中的步骤。处理器92还可以称为cpu(central processing unit，中央处理单元)。处理器92可能是一种集成电路芯片，具有信号的处理能力。处理器92还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器92可以由集成电路芯片共同实现。
110.上述方案，处理器92在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的信号强度的变化趋势，于是可以根据信号强度的变化趋势是否满足预设条件，来确定目标语音分段是否为控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。而且进行实时语音识别过程中，直接根据目标语音分段对应的信号强度的变化趋势来进行控制语音的识别，无需当前用户提前录入标准语音，语音识别更高效便捷。
111.请参阅图10，图10是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质100存储有能够被处理器运行的程序指令1000，程序指令1000用于实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例中的步骤。
112.本技术实施例的计算机可读存储介质具体可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。
113.本技术实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的易失性或非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述任一控制语音的识别方法，或上述任一目标角色的控制方法。
114.在本技术所提供的几个实施例中，应该理解到，所揭露的方法、装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的
相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
115.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
116.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
117.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

控制语音的识别方法及目标角色的控制方法、相关装置与流程

相关文献

最热文献