一种语音识别的方法及装置、电子设备、存储介质与流程

2022-03-05 00:16:55 来源：中国专利 TAG：

1.本技术涉及语音识别技术领域，特别涉及一种语音识别的方法及装置、电子设备、存储介质。

背景技术：

2.随着智能设备的不断发展，现今的许多家居等设备都可以支持语音识别控制的功能。
3.当前的设备的语音识别，需要用户预先注册语音数据，以从注册的语音数据中提取用户的语音特征。在进行语音识别时，利用当前用户的输入语音的语音特征与注册时得到的语音特征进行对比，从而确定当前用户的身份类型，进而进行相应地控制。
4.所以现有的语音识别方式，用户预先注册是否必不可少的环节，这不仅使得应用的设计更加复杂，并且不够智能化，对于老年人等部分特殊用户可能不知道如何进行注册。

技术实现要素：

5.基于上述现有技术的不足，本技术提供了一种语音识别的方法及装置、电子设备、存储介质，以解决现有技术应用设计过于复杂，且不够智能化的问题。
6.为了实现上述目的，本技术提供了以下技术方案：
7.本技术第一方面提供了一种语音识别的方法，包括：
8.获取目标设备采集到的当前语音；
9.提取所述当前语音的语音特征；
10.基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到所述当前语音属于各个所述说话人类别的评分；其中，各个所述说话人类别为基于降维后的多个历史语音的语音特征，对各个所述历史语音进行聚类得到的类别；每个所述说话人类别对应的平均特征向量由属于所述说话人类别的所述历史语音的语音特征进行计算得到；
11.将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别。
12.可选地，在上述的语音识别的方法中，所述提取所述当前语音的语音特征，包括：
13.利用预先训练好的特征提取器提取所述当前语音的语音特征；其中，所述特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练得到；所述目标设备类型为所述目标设备所属的设备类型。
14.可选地，在上述的语音识别的方法中，所述基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到所述当前语音属于各个所述说话人类别的评分，包括：
15.将所述当前语音的语音特征分别和每个所述说话人类别对应的平均特征向量输入预先训练好的判别器中，得到所述当前语音属于各个所述说话人类别的评分；其中，所述
判别器预先利用多个所述样本语音训练得到。
16.可选地，在上述的语音识别的方法中，各个所述说话人类别对应的平均特征向量的确定方法，包括：
17.获取目标设备采集到的多个所述历史语音；
18.提取各个所述历史语音的语音特征，得到多个原始语音特征；
19.对各个所述原始语音特征进行降维处理，得到降维语音特征；
20.对各个所述降维语音特征进行聚类，得到多个所述说话人类别；
21.分别针对每个所述说话人类别，计算所述说话人类别中的多个所述历史语音对应的所述原始语音特征的均值，得到所述说话人类别对应的平均特征向量。
22.可选地，在上述的语音识别的方法中，所述分别针对每个所述说话人类别，计算所述说话人类别中的多个所述历史语音对应的所述原始语音特征的均值，得到所述说话人类别对应的平均特征向量，包括：
23.针对每个所述说话人类别，从属于所述说话人类别的各个所述历史语音中，选取出与所述说话人类别中的聚类中心的距离排序在前m位的所述历史语音；其中，与聚类中心的距离越近排序位置越靠前；
24.计算选取出的各个所述历史语音对应的所述原始语音特征的均值，得到所述说话人类别对应的平均特征向量。
25.可选地，在上述的语音识别的方法中，所述将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别之前，还包括：
26.判断各个所述评分中的最大值是否大于预设阈值；
27.其中，若判断出各个所述评分中的最大值大于预设阈值，则执行所述将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别；
28.若判断出各个所述评分中的最大值不大于预设阈值，则反馈所述当前语音不属于任意一个所述说话人类别。
29.可选地，在上述的语音识别的方法中，所述将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别之后，还包括：
30.确定出所述当前语音所属的说话人类别对应目标真实身份；
31.基于所述目标真实身份对应的控制策略以及所述当前语音对应的控制指令，对所述目标设备进行控制。
32.本技术第二方面提供了一种语音识别的装置，包括：
33.第一获取单元，用于获取目标设备采集到的当前语音；
34.第一提取单元，用于提取所述当前语音的语音特征；
35.评分单元，用于基于所述当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到所述当前语音属于各个所述说话人类别的评分；其中，各个所述说话人类别为基于降维后的多个历史语音的语音特征，对各个所述历史语音进行聚类得到的类别；每个所述说话人类别对应的平均特征向量由属于所述说话人类别的所述历史语音的语音特征进行计算得到；
36.第一身份确定单元，用于将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别。
37.可选地，在上述的语音识别的装置中，所述第一提取单元，包括：
38.第一提取子单元，用于利用预先训练好的特征提取器提取所述当前语音的语音特征；其中，所述特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练得到；所述目标设备类型为所述目标设备所属的设备类型。
39.可选地，在上述的语音识别的装置中，所述评分单元，包括：
40.评分子单元，用于将所述当前语音的语音特征分别和每个所述说话人类别对应的平均特征向量输入预先训练好的判别器中，得到所述当前语音属于各个所述说话人类别的评分；其中，所述判别器预先利用多个所述样本语音训练得到。
41.可选地，在上述的语音识别的装置中，还包括：
42.第二获取单元，用于获取目标设备采集到的多个所述历史语音；
43.第二提取单元，用于提取各个所述历史语音的语音特征，得到多个原始语音特征；
44.降维单元，用于对各个所述原始语音特征进行降维处理，得到降维语音特征；
45.聚类单元，用于对各个所述降维语音特征进行聚类，得到多个所述说话人类别；
46.计算单元，用于分别针对每个所述说话人类别，计算所述说话人类别中的多个所述历史语音对应的所述原始语音特征的均值，得到所述说话人类别对应的平均特征向量。
47.可选地，在上述的语音识别的装置中，所述计算单元，包括：
48.选取单元，用于针对每个所述说话人类别，从属于所述说话人类别的各个所述历史语音中，选取出与所述说话人类别中的聚类中心的距离排序在前m位的所述历史语音；其中，与聚类中心的距离越近排序位置越靠前；
49.计算子单元，用于计算选取出的各个所述历史语音对应的所述原始语音特征的均值，得到所述说话人类别对应的平均特征向量。
50.可选地，在上述的语音识别的装置中，还包括：
51.判断单元，用于判断各个所述评分中的最大值是否大于预设阈值；
52.其中，若判断出各个所述评分中的最大值大于预设阈值，则所述第一身份确定单元执行所述将各个所述评分中的最大值对应的所述说话人类别，确定为所述当前语音所属的说话人类别；
53.反馈单元，用于在判断出各个所述评分中的最大值不大于预设阈值时，反馈所述当前语音不属于任意一个所述说话人类别。
54.可选地，在上述的语音识别的装置中，还包括：
55.第二身份确定单元，用于确定出所述当前语音所属的说话人类别对应目标真实身份；
56.基于所述目标真实身份对应的控制策略以及所述当前语音对应的控制指令，对所述目标设备进行控制。
57.本技术第三方面提供了一种电子设备，包括：
58.存储器和处理器；
59.其中，所述存储器用于存储程序；
60.所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的语音识别的方法。
61.本技术第四方面提供了一种计算机存储介质，其特征在于，用于存储计算机程序，
所述计算机程序被执行时，用于实现如上述任意一项所述的语音识别的方法。
62.本技术提供的一种语音识别的方法，预先获取目标设备采集到的多个历史语音的语音特征，并对各个历史语音的语音特征进行降维后，基于降维后的各个历史语音的语音特征对各个历史语音进行聚类，得到多个说话人类别，并利用每个说话人类别中的历史语音的语音特征计算得到，每个说话人类别对应平均特征向量，不需要用户进行注册。后续在获取目标设备采集到的当前语音时，提取所述当前语音的语音特征，并基于当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到当前语音属于各个说话人类别的评分，最后将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别，即确定当前语音的说话人的身份，从而不需要用户预先进行语音注册也能准确的识别出当前用户的身份，简化了应用的设计，也使得设备更加的智能化。
附图说明
63.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
64.图1为本技术实施例提供的一种语音识别的方法的流程图；
65.图2为本技术实施例提供的一种各个说话人类别对应的平均特征向量的确定方法的流程图；
66.图3为本技术实施例提供的一种计算说话人类别对应的平均特征向量的方法的流程图；
67.图4为本技术另一实施例提供的另一种语音识别的方法的流程图；
68.图5为本技术另一实施例提供的一种语音识别的装置的结构示意图；
69.图6为本技术另一实施例提供的一种计算单元的结构示意图；
70.图7为本技术另一实施例提供的一种电子设备的结构示意图。
具体实施方式
71.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
72.在本技术中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
73.本技术实施例提供了一种语音识别的方法，如图1所示，包括：
74.s101、获取目标设备采集到的当前语音。
75.具体的，目标设备通过音频采集设备采集到当前说话人的语音，即采集到当前语音。
76.s102、提取当前语音的语音特征。
77.具体的，可以对当前语音进行分析，从而得到当前语音在指定类型特征上的数值，例如，语调、语速等，并对得到的特征进行特征处理，得到当前语音的语音特征。
78.可选地，在本技术另一实施例中，步骤s102的一种具体实施方式包括：
79.利用预先训练好的特征提取器提取当前语音的语音特征。
80.其中，特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练得到。目标设备类型为所述目标设备所属的设备类型。
81.在本技术实施例中，通过将当前语音输入预先训练好的特征提取器中，通过特征提取器提取当前语音的语音特征，从而可以得到更加全面、准确的语音特征。
82.具体的，为了保证特征提取的准确性，所以在本技术实施中，通过获取与目标设备相同类型的设备采集到的大量的语音作为训练样本，对特征提取器件训练。例如，采集700个人的语音，每人1000句语音，将这些语音作为训练样本训练一个特权提取器。可选地，特征提取器可以是ivector提取器或者深度学习神经网络。
83.s103、基于当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到当前语音属于各个说话人类别的评分。
84.其中，各个说话人类别为基于降维后的目标设备采集到的多个历史语音的语音特征，对各个历史语音进行聚类得到的类别，即获取目标设备先前采集到的说话人的大量语音，即历史语音，然后提取历史语音的语音特征，并对提取到的语音特征进行降维，最后利用降维后的语音特征，对各个历史语音进行聚类，从而得到多个类簇，从而将同一说话人的历史语音聚为同一类簇中，所以所得到的每个类簇即为一个说话人类别。
85.其中，每个说话人类别对应的平均特征向量由属于说话人类别的历史语音的语音特征进行计算得到，即在进行聚类得到多个说话人类别后，利用每个说话人类别中的多个历史语音的语音特征，计算得到每个说话人类别对应的平均特征向量。
86.可选地，可以是将当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量的相似度，作为当前语音属于各个说话人类别的评分，当然也可以其他的方式，计算当前语音属于各个说话人类别的概率。
87.可选地，在本技术另一实施例中，步骤s103的一种具体实施方式，包括：
88.将所述当前语音的语音特征分别和每个所述说话人类别对应的平均特征向量输入预先训练好的判别器中，得到所述当前语音属于各个所述说话人类别的评分。
89.其中，判别器预先利用多个样本语音训练得到，即在本技术实施例中，不仅预先训练得到了特征提取器，还利用了对特征提取器进行训练的样本语音，对判断器进行训练，并通过信息好的判断器计算得到当前语音属于各个说话人类别的评分。由于，训练语音是与目标设备同类型的设备采集到的语音，所以可以使得计算所得到的结果更符合目标设备，即所得到的结果更加的准确。其中，判断器主要是用于对输入的两个特征，输出两个特征属于同一个说话人的可能性，该可能性越高，输入的两个特征属于同一个人的可能性越大。所以，当前语音的语音特征和说话人类别对应的平均特征向量属于同一个人的可能性越大，
则当前语音属于说话人类别的可能性越大，因此评分也越高。
90.可选地，在本技术另一实施例中，提供了一种各个说话人类别对应的平均特征向量的确定方法，如图2所示，包括以下步骤：
91.s201、获取多个历史语音。
92.需要说明的是，对于一个设备其通常安装在固定的地方，而在该地方主要对该设备进行语音控制的人数是有限的，例如，在家庭y中的设备a，则主要对设备a进行语音控制的即为家庭y中的各个成员，所以可以通过采集大量的语音，并基于采集到的语音，划分不同的说话人类别，并计算不同说话人类别对应的平均特征向量，金额用于进行语音识别。
93.在一些实施例中，步骤s201中的多个历史语音可以通过目标设备采集得到，也可以是位于特定局域网内的多个设备采集得到的，本技术实施例对此不作限定。
94.示例地，目标设备前期可以采集各个说话人的语音，并在获取一定量的历史语音后执行步骤s202。
95.s202、提取各个历史语音的语音特征，得到多个原始语音特征。
96.可选地，若已预先训练有如步骤s102中所提及的特征提取器，则可以通过特征提取器提取各个历史语音的语音特征。
97.需要说明的是，步骤s202和步骤s102应该相一致，即应该采用相同的手段提取相同类型的语音特征，所以步骤s202的具体实施方式，可相应地参考上述方法实施例中的步骤s102，此处不再赘述。
98.s203、对各个原始语音特征进行降维处理，得到降维语音特征。
99.需要说明的是，由于原始语音特征的维度相对较高，各个维度之间会存在交叉，并不利于进行聚类。所以在本技术实施例中，所对各个原始语音特征进行降维，得到降维语音特征，再利用降维语音特征进行聚类。
100.可选地，在本技术实施例中，将原始语音特征组成特征序列，然后利用t-sne(t-distributed stochastic neighbor embedding，t分布随机近邻嵌入)算法对特征序列进行降维。当然，也可以采用其他的算法对原始语音特征进行降维，这也应属于本技术的保护范畴。
101.s204、对各个降维语音特征进行聚类，得到多个说话人类别。
102.需要说明的是，由于不确定说话人的数量，所以可以对降维语音特征进行不确定类别数目聚类分析，例如，可以采用混合高斯gmm模型，将降维语音特征数据拟合成总似然最大的类别数目，这样同一类别的数目属于同一子类的概率会高，从而实现聚类，得到多个说话人类别。
103.s205、分别针对每个说话人类别，计算说话人类别中的多个历史语音对应的原始语音特征的均值，得到说话人类别对应的平均特征向量。
104.需要说明的是，由于降维语音特征是已经进行过降维的，无法全面地反映出说话人的语音特征，所有还是需要基于原始语音特征，计算说话人类别对应的平均特征向量。
105.可选地，可以是计算说话人类别中的所有历史语音对应的原始语音特征的均值，得到说话人类别对应的平均特征向量。当然，也可以是对说话人类别中的部分历史语音对应的原始语音特征计算均值。
106.可选地，在本技术另一实施例中，步骤s205的一种具体实施方式，如图3所示，包括
以下步骤：
107.s301、针对每个说话人类别，从属于说话人类别的各个历史语音中，选取出与说话人类别中的聚类中心的距离排序在前m位的历史语音。
108.其中，m为正整数，并且与聚类中心的距离越近排序位置越靠前，即在本技术实施例中，仅选取与聚类中心的距离最近的m各历史语音计算说话人类别对应的平均特征向量。
109.具体的，可以针对每个说话人类别，利用各个历史语音对应的降维语音特征，计算该说话人类别下的各个历史语音与聚类中心的距离，并按照距离从小到大的顺序对历史语音进行排序，最后选取出排序在前m
110.s302、计算选取出的各个历史语音对应的原始语音特征的均值，得到说话人类别对应的平均特征向量。
111.s104、将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别。
112.在本技术实施例中，将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别，即确定当前语音是由该说话人类别对应的说话人说出的。
113.可选地，在确定当前语音所属的说话人类别后，就可以当前语音所属的说话人类别以及当前语音对应的控制指令对目标设备进行控制。可选地，可以基于当前语音所属说话人类别的历史行为习惯，对目标设备进行控制，例如当前语音所属说话人类别经常播放流行歌曲，在当前语音对应的控制指令为播放音乐时，则控制作为目标设备的播放器播放流行歌曲。当然，也可以采用其他的策略进行控制，或者有用户认定各个说话人类别的策略进行控制。
114.本技术实施例提供了一种语音识别的方法，预先获取目标设备采集到的多个历史语音的语音特征，并对各个历史语音的语音特征进行降维后，基于降维后的各个历史语音的语音特征对各个历史语音进行聚类，得到多个说话人类别，并利用每个说话人类别中的历史语音的语音特征计算得到，每个说话人类别对应平均特征向量，不需要用户进行注册。后续在获取目标设备采集到的当前语音时，提取所述当前语音的语音特征，并基于当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到当前语音属于各个说话人类别的评分，最后将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别，即确定当前语音的说话人的身份，从而不需要用户预先进行语音注册也能准确的识别出当前用户的身份，简化了应用的设计，也使得设备更加的智能化。
115.本技术另一实施例提供了另一种语音识别的方法，如图4所示，包括以下步骤：
116.s401、获取目标设备采集到的当前语音。
117.需要说明的是，步骤s401的具体实施方式，可相应地参考上述方法实施例中的步骤s101，此处不再赘述。
118.s402、利用预先训练好的特征提取器提取当前语音的语音特征。
119.其中，特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练得到。目标设备类型为所述目标设备所属的设备类型。
120.需要说明的是，步骤s402的具体实施方式，可相应地参考上述方法实施例中的步骤s102中的一种具体实施方式，此处不再赘述。
121.s403、将当前语音的语音特征分别和每个说话人类别对应的平均特征向量输入预
先训练好的判别器中，得到当前语音属于各个说话人类别的评分。
122.其中，判别器预先利用多个样本语音训练得到。
123.需要说明的是，步骤s403的具体实施方式，可相应地参考上述方法实施例中的步骤s103中的一种具体实施方式，此处不再赘述。
124.s404、判断各个评分中的最大值是否大于预设阈值。
125.由于当前用户可能不是主要控制目标设备的人员，即采集的历史语音中不包括有当前用户的语音，或者仅包括有非常少量的语音，所以实际上当前用户不属于任意一个说话人类别，所以为了保证最终结果的准确性，在本技术实施例中，还需要判断各个评分中的最大值是否大于预设阈值，若判断出各个评分中的最大值大于预设阈值，才执行步骤s405。若判断出各个评分中的最大值不大于预设阈值，则执行步骤s406。
126.s405、将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别。
127.需要说明的是，在确定当前语音所属的说话人类别后，则可以根据该说话人类别对目标设备进行控制，所以在执行步骤s405之后，执行步骤s407。
128.s406、反馈当前语音不属于任意一个说话人类别。
129.可选地，在反馈当前语音不属于任意一个说话人类别，可以是对当前语音对应的控制指令进行响应。当然，也可以采用其他的策略间响应。
130.s407、确定出当前语音所属的说话人类别对应目标真实身份。
131.需要说明的是，在本技术实施例汇总，预先维护有各个说话人类别对应的真实身份信息，在确定当前所述的说话人类别后，将该说话人类别对应的真实身份作为目标真实身份，并执行步骤s408。
132.s408、基于目标真实身份对应的控制策略以及当前语音对应的控制指令，对目标设备进行控制。
133.可选地，在本技术实施例中，对不同的真实身份可以采用不同的控制策略，对目标设备进行控制，例如，比如说话人是家里的老人时，推送播放歌曲时，戏曲的权重较高，说话人是家里小孩时，则提高童谣的权重等。
134.本技术另一实施例提供了一种语音识别的装置，如图5所示，包括：
135.第一获取单元501，用于获取目标设备采集到的当前语音。
136.第一提取单元502，用于提取当前语音的语音特征。
137.评分单元503，用于基于当前语音的语音特征和预先确定的各个说话人类别对应的平均特征向量，计算得到当前语音属于各个说话人类别的评分。
138.其中，各个说话人类别为基于降维后的多个历史语音的语音特征，对各个历史语音进行聚类得到的类别。每个说话人类别对应的平均特征向量由属于说话人类别的历史语音的语音特征进行计算得到。
139.第一身份确定单元504，用于将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别。
140.可选地，在本技术另一实施例提供的语音识别的装置中，第一提取单元，包括：
141.第一提取子单元，用于利用预先训练好的特征提取器提取当前语音的语音特征。
142.其中，特征提取器预先利用属于目标设备类型的设备采集到的多个样本语音训练
得到。目标设备类型为目标设备所属的设备类型。
143.可选地，在本技术另一实施例提供的语音识别的装置中，评分单元，包括：
144.评分子单元，用于将当前语音的语音特征分别和每个说话人类别对应的平均特征向量输入预先训练好的判别器中，得到当前语音属于各个说话人类别的评分。其中，判别器预先利用多个样本语音训练得到。
145.可选地，在本技术另一实施例提供的语音识别的装置中，还包括：
146.第二获取单元，用于获取目标设备采集到的多个历史语音。
147.第二提取单元，用于提取各个历史语音的语音特征，得到多个原始语音特征。
148.降维单元，用于对各个原始语音特征进行降维处理，得到降维语音特征。
149.聚类单元，用于对各个降维语音特征进行聚类，得到多个说话人类别。
150.计算单元，用于分别针对每个说话人类别，计算说话人类别中的多个历史语音对应的原始语音特征的均值，得到说话人类别对应的平均特征向量。
151.可选地，在本技术另一实施例提供的语音识别的装置中，计算单元，如图6所示，包括：
152.选取单元601，用于针对每个说话人类别，从属于说话人类别的各个历史语音中，选取出与说话人类别中的聚类中心的距离排序在前m位的历史语音。其中，与聚类中心的距离越近排序位置越靠前。
153.计算子单元602，用于计算选取出的各个历史语音对应的原始语音特征的均值，得到说话人类别对应的平均特征向量。
154.可选地，在本技术另一实施例提供的语音识别的装置中，还包括：
155.判断单元，用于判断各个评分中的最大值是否大于预设阈值。
156.其中，若判断出各个评分中的最大值大于预设阈值，则第一身份确定单元执行将各个评分中的最大值对应的说话人类别，确定为当前语音所属的说话人类别。
157.反馈单元，用于在判断出各个评分中的最大值不大于预设阈值时，反馈当前语音不属于任意一个说话人类别。
158.可选地，在本技术另一实施例提供的语音识别的装置中，还包括：
159.第二身份确定单元，用于确定出当前语音所属的说话人类别对应目标真实身份。
160.基于目标真实身份对应的控制策略以及当前语音对应的控制指令，对目标设备进行控制。
161.需要说明的是，本技术上述实施例提供的各个单元的具体工作过程，可相应地参考上述方法实施例中的相应的步骤，此处不再赘述。
162.本技术另一实施例提供了一种电子设备，如图7所示，包括：
163.存储器701和处理器702。
164.其中，存储器701用于存储程序。
165.处理器702用于执行存储器701存储的程序，并且该程序被执行时，具体用于实现如上述任意一个实施例提供的语音识别的方法。
166.本技术另一实施例提供了一种计算机存储介质，用于存储计算机程序，该计算机程序被执行时，用于实现如上述任意一个实施例提供的语音识别的方法。
167.计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法
或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
168.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
169.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种去除机械噪声的方法、装置及机器人与流程

一种语音识别的方法及装置、电子设备、存储介质与流程

相关文献

最热文献