控制语音的识别方法及目标角色的控制方法、相关装置与流程

2022-02-20 04:16:14 来源：中国专利 TAG：

1.本技术涉及语音识别技术领域，特别是涉及一种控制语音的识别方法及目标角色的控制方法、相关装置。

背景技术：

2.近年来，人工智能(artificial intelligence，ai)教育逐渐变得火热，大多数ai教育课程都以在线课程平台为基础进行延伸，辅以相应的硬件设备，如智能小车、智能机器人等。ai教育涉及到许多算法，从语音到图像，从传统算法到深度学习。在课堂中为了能够引起学生的兴趣，通常会将一些人工智能技术与游戏相结合，让学生能够更直观的看到ai技术的应用。语音识别技术与游戏的结合能够带来更多的互动效果，为课堂带来更多的知识与快乐。
3.目前的语音识别接口通常是以一段.wav或者.mp3格式的语音文件作为输入，语音识别接口通过一些复杂的算法识别出语音文件的内容。但是对于语音游戏来说，所用到的语音接口需要能够处理语音数据流、识别速度快、实时反馈结果，这是当前许多语音识别接口所做不到的。

技术实现要素：

4.本技术提供一种控制语音的识别方法及目标角色的控制方法、相关装置。
5.本技术第一方面提供了一种控制语音的识别方法，所述方法包括：获取语音数据流中的目标语音分段；获取所述目标语音分段对应的语音特征；获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度；响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
6.因此，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的语音特征，于是可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度，然后根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音输入输出(input output，io)操作，能够做到实时识别，使音控游戏可以进行实时响应。
7.其中，所述获取语音数据流中的目标语音分段，包括：利用语音采集设备采集所述语音数据流；将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
8.因此，利用语音采集设备实时采集语音数据流，可以将语音数据流中的背景音进行过滤，从而得到语音数据流中的目标语音分段，可提高语音识别准确度，便于快速判断语音数据流中的目标语音分段是否为控制语音，无需语音io操作，能够做到实时识别，为使音控游戏进行实时响应提供技术支持。
9.其中，所述将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目
标语音分段，包括：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段；对所述多个语音分段中的至少部分语音分段进行语音活动检测，得到所述至少部分语音分段对应的振幅峰值；将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
10.因此，可以根据实际应用场景来设置时间窗口的长度，然后对语音数据流按照时间窗口进行划分，可以得到多个语音分段，于是可以对其中的至少部分语音分段进行语音活动检测，并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现判断用户输入的目标语音分段是否为控制语音，提高用户语音识别准确度。
11.其中，所述将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段，包括：提取所述语音数据流中的若干个关键点；获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
12.因此，可以提取语音数据流中的若干个关键点，通过获取各关键点的振幅，判断各关键点的振幅与预设阈值的大小，并认为振幅大于预设阈值的关键点属于用户输入的语音分段内，将包含振幅大于预设阈值的关键点的语音分段作为目标语音分段，或者，通过获取每个关键点对应的包含该关键点的语音分段的振幅峰值，并认为振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现从一段语音数据流中过滤背景音，提取用户输入的目标语音分段控制语音，有助于提高用户语音识别的速度和准确度。
13.其中，所述获取所述目标语音分段对应的语音特征，包括：对所述目标语音分段中的语音信号进行预加重处理，并获取经所述预加重处理后的所述目标语音分段对应的语音特征。
14.因此，通过对每个目标语音分段中的语音信号进行预加重处理，可以弥补语音信号中高频部分的损耗，提高信号的传输质量，然后可以获取经预加重处理后的目标语音分段对应的语音特征，实现根据目标语音分段对应的语音特征来识别出控制语音，并进一步可以确定目标控制语音的控制指令，能够做到实时识别语音数据流中的控制语音的控制指令，为使音控游戏进行实时响应提供技术支持。
15.其中，所述方法还包括：预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征；将所述若干个语音样本对应的语音特征的平均值作为所述目标控制指令对应的所述参考语音特征。
16.因此，通过预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征，可以获得若干个语音样本对应的语音特征的平均值，于是可以将该语音特征的平均值作为目标控制指令对应的参考语音特征，然后可以实现根据获取到的目标语音分段对应的语音特征与参考语音特征之间的相似度，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，并确定控制语音的控制指令。
17.其中，所述获得每个语音样本对应的语音特征，包括：对每个语音样本进行语音活动检测，得到每个语音样本对应的振幅峰值；对所述振幅峰值大于预设幅值的语音样本中的语音信号进行预加重处理，并获取经所述预加重处理后的每个语音样本对应的语音特征。
18.因此，可以对每个语音样本进行语音活动检测，并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的有效语音样本，然后通过对每个有效语音样本中的语音信号进行预加重处理，可以弥补语音信号中高频部分的损耗，提高信号的传输质量，然后可以获取经预加重处理后的每个语音样本对应的语音特征，进而可以获得若干个语音样本对应的语音特征的平均值，于是可以将该语音特征的平均值作为目标控制指令对应的参考语音特征。
19.其中，所述响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音，包括：响应于所述相似度大于预设阈值，确定所述目标语音分段为预设用户录入的控制语音，识别出所述目标语音分段对应的目标控制指令。
20.因此，在确定目标语音分段对应的语音特征与参考语音特征之间的相似度大于预设阈值后，则可以确定该目标语音分段为预设用户录入的控制语音，并确定该目标语音分段为与参考语音特征对应的目标控制指令，从而可以根据实时获取的语音数据流，快速识别出预设用户录入的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
21.其中，所述语音特征包括梅尔倒谱系数；所述相似度为余弦相似度；所述获取所述目标语音分段对应的语音特征，包括：获取所述目标语音分段的梅尔倒谱系数，作为所述目标语音分段对应的语音特征；所述获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度，包括：确定所述目标语音分段对应的语音特征和所述参考语音特征之间的余弦相似度。
22.因此，采用梅尔倒谱系数来对语音数据流进行控制语音识别，具有较好的识别性能，而采用余弦相似度来衡量目标语音分段对应的语音特征与参考语音特征之间的差异，考虑了不同用户录入的语音的语音特征与参考语音特征之间的标准不统一的情况，可以从不同用户的语音数据流中快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
23.本技术第二方面提供了一种目标角色的控制方法，所述方法包括：获取语音采集设备采集的所述语音数据流；确定所述语音数据流中的目标控制语音；基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
24.因此，通过语音采集设备实时采集语音数据流，在获取到语音数据流后，可以利用控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的语音特征，然后计算目标语音分段对应的语音特征与参考语音特征之间的相似度，从而根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，于是可以基于目标控制语音控制目标角色，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应。
25.其中，所述方法还包括：预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色；所述基于所述目标控制语音控制所述目标角色，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
26.因此，通过预先设置多个目标控制指令，其中多个目标控制指令对应控制不同的目标角色，于是，在通过语音采集设备实时采集语音数据流，并利用控制语音的识别方法，快速识别出语音数据流中的控制语音以及确定控制语音对应的目标控制指令后，可以控制与该目标控制指令相对应的目标角色，实现根据不同的控制指令控制不同的目标角色。
27.本技术第三方面提供了一种控制语音的识别装置，包括：语音获取模块，所述语音获取模块用于获取语音数据流中的目标语音分段；特征获取模块，所述特征获取模块用于获取所述目标语音分段对应的语音特征；计算模块，所述计算模块用于计算所述目标语音分段对应的语音特征与参考语音特征之间的相似度；确定模块，所述确定模块用于响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
28.本技术第四方面提供了一种目标角色的控制装置，包括：数据获取模块，所述数据获取模块用于获取语音采集设备采集的所述语音数据流；识别模块，所述识别模块用于确定所述语音数据流中的目标控制语音；控制模块，所述控制模块用于基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一项所述的控制语音的识别方法确定。
29.本技术第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现上述第一方面中的控制语音的识别方法，或上述第二方面中的目标角色的控制方法。
30.本技术第六方面提供了一种计算机可读存储介质，其上存储有程序指令，所述程序指令被处理器执行时实现上述第一方面中的控制语音的识别方法，或上述第二方面中的目标角色的控制方法。
31.上述方案，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的语音特征，于是可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度，然后根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
附图说明
32.图1是本技术控制语音的识别方法一实施例的流程示意图；
33.图2是图1中步骤s11一实施例的流程示意图；
34.图3a是图2中步骤s112一实施例的流程示意图；
35.图3b是图2中步骤s112另一实施例的流程示意图；
36.图4是本技术控制语音的识别方法另一实施例的流程示意图；
37.图5是本技术目标角色的控制方法一实施例的流程示意图；
38.图6是本技术控制语音的识别装置一实施例的框架示意图；
39.图7是本技术目标角色的控制装置一实施例的框架示意图；
40.图8是本技术电子设备一实施例的框架示意图；
41.图9是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
42.下面结合说明书附图，对本技术实施例的方案进行详细说明。
43.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
44.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
45.请参阅图1，图1是本技术控制语音的识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：
46.步骤s11：获取语音数据流中的目标语音分段。
47.步骤s12：获取所述目标语音分段对应的语音特征。
48.步骤s13：获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度。
49.步骤s14：响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
50.本技术实施例的控制语音的识别方法可以用于在采集语音数据流过程中，对语音数据流中的目标语音进行实时识别，例如，在采集用户a说话产生的语音数据流的过程中，语音数据流中包括用户a录入的目标语音以及其他语音，于是可以对用户a录入的目标语音进行识别，判断用户a录入的是否为控制语音。可以理解的是，目标语音为用户录入的包含控制指令的语音，通过对目标语音进行获取和识别，可以实现对目标角色的控制；而其他语音，包括在用户录入目标语音的过程中，误输入的未包含控制指令的语音以及所处环境中的噪音等等。
51.所述控制语音的识别方法可以运行于电子设备，所述电子设备包括但不限于：服务器、智能手机、平板电脑、智能电视机、可穿戴设备、游戏机、车载终端、处理器等等。
52.本技术实施例可以实时采集语音数据，所述语音数据可以是用户说话发出的声音，通过不断采集的语音数据可以形成语音数据流。然后可以从语音数据流中获取用户录入的目标语音，并根据实际应用场景来将目标语音进行分段划分，得到多个目标语音分段。于是，可以获取多个目标语音分段对应的语音特征，并进一步获得目标语音分段对应的语音特征与参考语音特征之间的相似度，于是可以根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音；语音特征可以是与语音情感相关的特征，其可以体现语音中的内容信息，可以理解的是，用户录入的控制语音相比于用户录入的其他语音来说，其语音特征与参考语音特征之间的相似度需要达到一定的程度，因此，可以认为在目标语音分段对应的语音特征与参考语音特征之间的相似度大于预设阈值的情况下，该目标语音分段为用户录入的控制语音，并且该目标语音分段包含有与参考语音特征对应的目标控制指令。其中，参考语音特征可以是预先存储的用于识别具体的控制指令的语音特征，例如预先对目标控制指令的语音进行特征提取可得到对应的参考语音特征；每个目标控制指令对应有特定的参考语音特征，对于某个目标控制指令，可以根据该目标控制指令的参考语音特征，来确定对目标角色的实际控制操作。
53.上述方案，在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应
的语音特征，于是可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度，然后根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
54.在一实施例中，所述语音特征包括梅尔倒谱系数；所述相似度为余弦相似度。上述步骤s12具体包括：获取所述目标语音分段的梅尔倒谱系数，作为所述目标语音分段对应的语音特征。上述步骤s13具体包括：确定所述目标语音分段对应的语音特征和所述参考语音特征之间的余弦相似度。
55.语音特征是对整体的目标语音分段进行处理所得到的，例如语音特征可以包括梅尔倒谱系数，梅尔倒谱系数表示目标语音分段的语音信号的能量在不同频率范围的分布，可以通过对目标语音分段中的各个语音帧进行加窗、快速傅里叶变换、滤波、对数处理、离散余弦处理后，得到目标语音分段对应的梅尔倒谱系数。余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦相似度从方向上区分差异，而对绝对的数值不敏感。
56.在其他实施例中，语音特征还可以包括预设特征，该预设特征可以通过深度学习网络学习得到；可以理解的是，通过建立训练样本集，训练样本集包括若干语音训练样本，每个语音训练样本具有控制语音标签，于是利用训练样本集，可以使深度学习网络学习到控制语音标签所对应的特征表达，即学习得到预设特征来用于识别控制语音。
57.因此，采用梅尔倒谱系数或者预设特征来对语音数据流进行控制语音识别，具有较好的识别性能，而采用余弦相似度来衡量目标语音分段对应的语音特征与参考语音特征之间的差异，考虑了不同用户录入的语音的语音特征与参考语音特征之间的标准不统一的情况，可以从不同用户的语音数据流中快速识别出其中的控制语音，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
58.请参阅图2，图2是图1中步骤s11一实施例的流程示意图。本技术实施例中，上述步骤s11具体可以包括如下步骤：
59.步骤s111：利用语音采集设备采集所述语音数据流。
60.步骤s112：将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
61.本技术实施例可以通过连接电子设备的语音采集设备或者电子设备自带的语音采集设备实时采集语音数据，形成语音数据流，例如，以44.1k的采样频率从麦克风中采集用户的声音流数据，每次从流数据中抽取1024个样本点作为语音数据流。然后对该语音数据流进行预处理，以过滤掉该语音数据流中的背景音等干扰数据，例如，可以从语音数据流中去除目标语音首尾两端的静音数据，还可以一并去除目标语音中的噪音数据，从而可以降低背景音等干扰数据对后续语音识别所造成的干扰，可以有效地提高语音识别的准确性。
62.上述方案，利用语音采集设备实时采集语音数据流，可以将语音数据流中的背景音进行过滤，从而得到语音数据流中的目标语音分段，能够提高语音识别的准确度，便于快速判断语音数据流中的目标语音分段是否为控制语音，无需语音io操作，能够做到实时识
别，为使音控游戏进行实时响应提供技术支持。
63.请参阅图3a，图3a是图2中步骤s112一实施例的流程示意图。本技术实施例中，上述步骤s112具体可以包括如下步骤：
64.步骤s1121a：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段。
65.步骤s1122a：对所述多个语音分段中的至少部分语音分段进行语音活动检测，得到所述至少部分语音分段对应的振幅峰值。
66.步骤s1123a：将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
67.例如，在某个音控游戏的控制语音的识别场景中，采用简短的语音来控制游戏角色，因此，可以设置设定长度为0.5s，即在获取到语音数据流后，可以按照时间顺序以0.5s的时间窗口对语音数据流进行划分，得到若干个语音分段，每个语音分段包含0.5s的语音数据流。然后，可以对所有的语音分段进行语音活动检测，例如可以利用vad(voiceactivity detection，音频端点检测)技术对每个语音分段进行语音分析，以检测出用户录入的有效语音，并可以将检测出的所有用户录入的有效语音称为目标语音分段。当然，也可以对所有的语音分段中的部分语音分段进行语音活动检测，比如在一段语音中，开始部分和结尾部分可能没有包含有效的语音内容，因此，可以按照时间顺序，选择处于语音数据流的中间部分的语音分段进行语音活动检测，可以减少语音活动检测的工作量，加快语音识别过程。可以理解的是，对于某个语音分段进行检测时，只有该语音分段对应的振幅峰值大于预设幅值时，才认为该语音分段为用户录入的有效语音，例如预设幅值为0.2，因此，可以将振幅峰值大于预设幅值的所有语音分段作为目标语音分段。
68.上述方案，可以根据实际应用场景来设置时间窗口的长度，然后对语音数据流按照时间窗口进行划分，可以得到多个语音分段，于是可以对每个语音分段进行语音活动检测，并认为对应的振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段，从而可以实现判断用户输入的目标语音分段是否为控制语音。
69.请参阅图3b，图3b是图2中步骤s112另一实施例的流程示意图。本技术实施例中，上述步骤s112具体可以包括如下步骤：
70.步骤s1121b：提取所述语音数据流中的若干个关键点。
71.步骤s1122b：获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
72.在获取语音数据流后，可以利用采样方式提取语音数据流中的若干个关键点，然后将关键点的前后一段时间范围内的语音作为一个语音分段。在一实施方式中，可以获取各关键点的振幅，并判断各关键点的振幅与预设阈值的大小，并认为振幅大于预设阈值的关键点属于用户输入的语音分段内，于是可以将包含振幅大于预设阈值的关键点的语音分段作为目标语音分段。在另一实施方式中，可以获取每个包含关键点的语音分段的振幅峰值，并认为振幅峰值大于预设幅值的语音分段是用户输入的目标语音分段。通过上述方式获取目标语音分段，进而可以从一段语音数据流中过滤背景音，提取用户输入的目标语音分段控制语音，有助于提高用户语音识别的速度和准确度。
73.在一实施例中，上述步骤s12具体可以包括：对所述目标语音分段中的语音信号进
行预加重处理，并获取经所述预加重处理后的所述目标语音分段对应的语音特征。
74.可以理解的是，关于语音信号，其低频段能量大、高频段能量小，而鉴频器输出噪声的功率谱密度随频率的平方而增加(低频噪声小，高频噪声大)，造成信号的低频信噪比很大，而高频信噪比明显不足，从而导致高频传输衰弱，使高频传输困难。因此，需要通过预加重把语音信号的高频在进行调制前加重(放得更大)，补偿语音信号高频分量的损失，提升高频分量。
75.因此，通过对每个目标语音分段中的语音信号进行预加重处理，可以弥补语音信号中高频部分的损耗，提高信号的传输质量，然后可以获取经预加重处理后的目标语音分段对应的语音特征，实现根据目标语音分段对应的语音特征来识别出控制语音，并进一步可以确定目标控制语音的控制指令，能够做到实时识别语音数据流中的控制语音的控制指令，为使音控游戏进行实时响应提供技术支持。
76.请参阅图4，图4是本技术控制语音的识别方法另一实施例的流程示意图。具体而言，可以包括如下步骤：
77.步骤s41：预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征。
78.步骤s42：将所述若干个语音样本对应的语音特征的平均值作为所述目标控制指令对应的所述参考语音特征。
79.步骤s43：获取语音数据流中的目标语音分段。
80.步骤s44：获取所述目标语音分段对应的语音特征。
81.步骤s45：获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度。
82.步骤s46：响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
83.在本公开实施例中，若干个可以指1个或者多个；当语音样本的个数为1个时，语音样本对应的语音特征的平均值为该语音样本对应的语音特征本身，即直接将该语音样本对应的语音特征作为目标控制指令对应的参考语音特征；当语音样本的个数为至少两个时，可以预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征，于是可以将若干个语音样本对应的语音特征的平均值作为目标控制指令对应的参考语音特征；可以理解的是，目标控制指令的数量可以为多个，不同的目标控制指令用于实现不同的控制操作，而对于每个目标控制指令，均需要预先确定对应的参考语音特征。因此，在获得了目标控制语音的情况下，即可根据目标控制语音的语音特征与目标控制指令的参考语音特征的相似度，来确定该目标控制语音所对应的目标控制指令。
84.在其他实施例中，当语音样本的个数为至少两个时，在获得每个语音样本对应的语音特征后，也可以对所有语音样本对应的语音特征进行加权求和，从而得到目标控制指令对应的参考语音特征。具体地，对所有语音样本对应的语音特征进行加权求和，每个语音样本对应的语音特征的权重可以相同，也可以不同。例如，可以根据各语音样本对应的语音特征与其他语音样本对应的语音特征之间的距离，为不同的语音样本对应的语音特征赋予不同的权重。
85.在一实施例中，控制语音的识别方法可应用于音控游戏，该音控游戏可以通过语音控制飞机的飞行和炮弹发射，例如当玩家说“pa“时，飞机发射炮弹，当玩家说”ah“时，飞
机向右飞行等等，因此，预先可以获取各种控制指令的若干个语音样本，并获得每个语音样本对应的语音特征，于是，可以形成控制飞机的飞行和炮弹发射等语音控制指令对应的参考语音特征；于是，在用户玩游戏的过程中，通过发出相应的控制语音，然后可以根据控制语音的语音特征与各语音控制指令的参考语音特征的相似度，来确定该控制语音所对应的语音控制指令，从而可以根据控制语音所对应的语音控制指令，控制飞机执行相应的操作。
86.上述方案，通过预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征，可以获得若干个语音样本对应的语音特征的平均值，于是可以将该语音特征的平均值作为目标控制指令对应的参考语音特征，然后可以实现根据获取到的目标语音分段对应的语音特征与参考语音特征之间的相似度，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，并确定控制语音的控制指令。
87.在一实施例中，参考语音特征还用于表示录入目标控制指令的预设用户，因此，在确定参考语音特征的过程中，可以预先获取预设用户录入的关于目标控制指令的若干个语音样本，然后获得每个语音样本对应的语音特征，将若干个语音样本对应的语音特征的平均值作为预设用户录入的目标控制指令对应的参考语音特征。于是，在获取目标语音分段后，可以确定目标语音分段对应的语音特征与参考语音特征之间的相似度是否大于预设阈值，若大于预设阈值，则可以确定该目标语音分段为预设用户录入的控制语音，即说明是预设用户(如具有控制权限的用户)发出的控制指令，然后可以进一步确定该目标语音分段具体所包含的目标控制指令，例如通过语音识别网络识别该目标语音分段对应的目标控制指令，从而可以根据实时获取的语音数据流，快速识别出预设用户录入的控制语音，并识别出控制语音对应的目标控制指令，确定预设用户所表达的控制要求，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应，且能够过滤非预设用户的干扰语音，提高语音控制准确度。
88.请参阅图5，图5是本技术目标角色的控制方法一实施例的流程示意图。具体而言，可以包括如下步骤：
89.步骤s51：获取语音采集设备采集的所述语音数据流。
90.步骤s52：确定所述语音数据流中的目标控制语音。
91.步骤s53：基于所述目标控制语音控制所述目标角色。
92.其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
93.本技术中，目标角色可以是教育场景或者生活场景中的虚拟人物、虚拟动物、虚拟物品、卡通形象等等目标角色，目标角色的展现形式可以是2d形式也可以是3d形式，本技术对此并不限定。本技术利用目标角色的控制方法，可以通过识别用户发出控制语音，来控制目标角色做出相应的动作。具体地，通过语音采集设备实时采集语音数据流，在获取到语音数据流后，可以利用上述任意一种控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的语音特征，然后计算目标语音分段对应的语音特征与参考语音特征之间的相似度，从而根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应。
94.在一实施例中，所述目标角色为音控游戏中的虚拟角色。在音控游戏中，通过语音
采集设备实时采集语音数据流，可以利用控制语音的识别方法，快速识别出语音数据流中的控制语音以及控制语音对应的目标控制指令，并使音控游戏进行实时响应，实现对音控游戏中的虚拟角色进行实时控制。
95.在一实施例中，所述目标角色的控制方法还包括：预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色；所述基于所述目标控制语音控制所述目标角色，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
96.例如，预先设置角色a对应的目标控制指令集{a1，a2，a3}，以及角色b对应的目标控制指令集{b1，b2，b3}。在确定目标控制语音对应的目标控制指令为a1时，可以确定a1控制的目标角色为角色a，则可以用目标控制指令a1控制角色a。
97.在一种可能的实现方式中，不同角色可以绑定不同用户，则不同角色的控制指令预先设置为不同用户的目标控制指令。比如，角色a绑定用户a1的目标控制指令a1，角色b绑定用户b1的目标控制指令b1，则在检测到目标控制语音对应的目标控制指令为用户b1的指令b1时，使用目标控制指令b1控制角色b。在其他可能的实现方式中，不同角色对应的目标控制指令中还可以包括角色名称，当检测到目标控制语音对应的控制指令中包括某个角色名称，则可确定该控制指令为识别到的角色名称对应的角色的目标控制指令。
98.因此，通过预先设置多个目标控制指令，其中多个目标控制指令对应控制不同的目标角色，于是，在通过语音采集设备实时采集语音数据流，并利用上述的控制语音的识别方法，快速识别出语音数据流中的控制语音后，确定控制语音所对应的目标控制指令，可以控制与该目标控制指令相对应的目标角色，从而可以根据不同的控制指令来控制不同的目标角色。
99.在其他实施例中，可以预先设置不同角色对应的角色切换指令，当检测到目标控制语音为某个角色对应的角色切换指令，则后续接收到的目标控制指令即用于控制该角色切换指令对应的角色。在仅存在2个角色的情况下，可以仅设置一个角色切换指令，当检测到目标控制语音为角色切换指令，则后续接收到的目标控制指令的控制角色，从接收到角色切换指令前的角色切换到另一个角色。
100.请参阅图6，图6是本技术控制语音的识别装置一实施例的框架示意图。本技术实施例中，控制语音的识别装置60包括：语音获取模块600，所述语音获取模块600用于获取语音数据流中的目标语音分段；特征获取模块602，所述特征获取模块602用于获取所述目标语音分段对应的语音特征；计算模块604，所述计算模块604用于获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度；确定模块606，所述确定模块606用于响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音。
101.上述方案，在语音获取模块600获取语音数据流中的目标语音分段后，特征获取模块602可以获取目标语音分段对应的语音特征，于是计算模块604可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度，然后确定模块606根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
102.在一些实施例中，语音获取模块600执行获取语音数据流中的目标语音分段的步骤，包括：利用语音采集设备采集所述语音数据流；将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段。
103.在一些实施例中，语音获取模块600执行将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段的步骤，具体包括：以设定长度的时间窗口对所述语音数据流进行划分，得到多个语音分段；对所述多个语音分段中的至少部分语音分段进行语音活动检测，得到所述至少部分语音分段对应的振幅峰值；将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
104.在一些实施例中，语音获取模块600执行将所述语音数据流中的背景音进行过滤，得到所述语音数据流中的目标语音分段的步骤，具体包括：提取所述语音数据流中的若干个关键点；获取每个关键点的振幅，将包含所述振幅大于预设阈值的关键点的语音分段作为所述目标语音分段，或，获取每个关键点对应的包含该关键点的语音分段的振幅峰值，将所述振幅峰值大于预设幅值的语音分段作为所述目标语音分段。
105.在一些实施例中，特征获取模块602执行获取所述目标语音分段对应的语音特征的步骤，包括：对所述目标语音分段中的语音信号进行预加重处理，并获取经所述预加重处理后的所述目标语音分段对应的语音特征。
106.在一些实施例中，控制语音的识别装置60还包括参考确定模块(未图示)，参考确定模块用于预先获取关于目标控制指令的若干个语音样本，并获得每个语音样本对应的语音特征；将所述若干个语音样本对应的语音特征的平均值作为所述目标控制指令对应的所述参考语音特征。
107.在一些实施例中，参考确定模块执行获得每个语音样本对应的语音特征的步骤，包括：对每个语音样本进行语音活动检测，得到每个语音样本对应的振幅峰值；对所述振幅峰值大于预设幅值的语音样本中的语音信号进行预加重处理，并获取经所述预加重处理后的每个语音样本对应的语音特征。
108.在一些实施例中，确定模块606执行响应于所述相似度大于预设阈值，确定所述目标语音分段为与所述参考语音特征对应的目标控制指令相关的控制语音的步骤，包括：响应于所述相似度大于预设阈值，确定所述目标语音分段为预设用户录入的控制语音，识别出所述目标语音分段对应的目标控制指令。
109.在一些实施例中，所述语音特征包括梅尔倒谱系数；所述相似度为余弦相似度。特征获取模块602执行获取所述目标语音分段对应的语音特征的步骤，包括：获取所述目标语音分段的梅尔倒谱系数，作为所述目标语音分段对应的语音特征。计算模块604获得所述目标语音分段对应的语音特征与参考语音特征之间的相似度的步骤，包括：确定所述目标语音分段对应的语音特征和所述参考语音特征之间的余弦相似度。
110.请参阅图7，图7是本技术目标角色的控制装置一实施例的框架示意图。本技术实施例中，目标角色的控制装置70包括：数据获取模块700，所述数据获取模块700用于获取语音采集设备采集的所述语音数据流；识别模块702，所述识别模块702用于确定所述语音数据流中的目标控制语音；控制模块704，所述控制模块704用于基于所述目标控制语音控制所述目标角色；其中，所述目标控制语音通过上述任意一种控制语音的识别方法确定。
111.上述方案，数据获取模块700通过语音采集设备实时采集语音数据流，在获取到语
音数据流后，识别模块702可以利用控制语音的识别方法，先获取语音数据流中的目标语音分段，并获取目标语音分段对应的语音特征，然后计算目标语音分段对应的语音特征与参考语音特征之间的相似度，从而根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，于是控制模块704可以基于目标控制语音控制目标角色，从而实现可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，可以使音控游戏进行实时响应。
112.在一些实施例中，目标角色的控制装置70还包括指令设置模块(未图示)，指令设置模块用于预先设置多个目标控制指令，所述多个目标控制指令对应控制不同的目标角色。控制模块704执行基于所述目标控制语音控制所述目标角色的步骤，包括：确定所述目标控制语音对应的目标控制指令，控制与所述目标控制指令相对应的目标角色。
113.在一些实施例中，所述目标角色为音控游戏中的虚拟角色。
114.请参阅图8，图8是本技术电子设备一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，处理器82用于执行存储器81中存储的程序指令，以实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例的步骤。在一个具体的实施场景中，电子设备80可以包括但不限于：微型计算机、服务器。
115.具体而言，处理器82用于控制其自身以及存储器81以实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例中的步骤。处理器82还可以称为cpu(central processing unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。
116.上述方案，处理器82在获取语音数据流中的目标语音分段后，可以获取目标语音分段对应的语音特征，于是可以计算目标语音分段对应的语音特征与参考语音特征之间的相似度，然后根据相似度是否大于预设阈值，来确定目标语音分段是否为与参考语音特征对应的目标控制指令相关的控制语音，从而可以根据实时获取的语音数据流，快速识别出其中的控制语音，并识别出控制语音对应的目标控制指令，无需语音io操作，能够做到实时识别，使音控游戏可以进行实时响应。
117.请参阅图9，图9是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令900，程序指令900用于实现上述任一控制语音的识别方法，或上述任一目标角色的控制方法实施例中的步骤。
118.本技术实施例的计算机可读存储介质具体可以为u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等可以存储计算机程序的介质，或者也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。
119.本技术实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的易失性或非易失性计算机可读存储介质，当所述计算机可读代码在电子
设备的处理器中运行时，所述电子设备中的处理器执行上述任一控制语音的识别方法，或上述任一目标角色的控制方法。
120.在本技术所提供的几个实施例中，应该理解到，所揭露的方法、装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
121.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
122.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
123.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：控制语音的识别方法及目标角色的控制方法、相关装置与流程

控制语音的识别方法及目标角色的控制方法、相关装置与流程

相关文献

最热文献