一种语音识别方法、装置、存储介质和电子设备与流程

2022-04-02 03:44:19 来源：中国专利 TAG：

一种语音识别方法、装置、存储介质和电子设备
【技术领域】
1.本发明涉及语音识别技术领域，尤其涉及一种语音识别方法、装置、存储介质和电子设备。

背景技术：

2.语音声控功能专注于与使用者无关的语音特征，而声纹识别功能则是专注于与使用者相关的语音特征，一般会以两个功能模组串连设计，并且由于专注的特征值不同，也会带有自己的前端讯号处理，包含时频转换及特征值撷取，提高了语音识别所需的计算空间资源和储存空间资源，降低了语音识别的效率。

技术实现要素：

3.有鉴于此，本发明实施例提供了一种语音识别方法、装置、存储介质和电子设备，用以提高语音识别的效率。
4.一方面，本发明实施例提供了一种语音识别方法，包括：
5.接收用户输入的语音命令；
6.提取所述语音命令的语音中介特征值；
7.通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令；
8.若判断出所述语音中介特征值对应于存储的注册命令，通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征；
9.若判断出所述语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。
10.可选地，所述接收用户输入的语音命令之前包括：
11.接收用户输入的多个注册命令；
12.提取每个所述注册命令的注册中介特征值；
13.判断多个所述注册命令的数量是否等于设定阈值；
14.若判断出多个所述注册命令的数量等于设定阈值，根据多个所述注册中介特征值生成注册语音特征；
15.存储所述注册语音特征。
16.可选地，还包括：
17.若判断出所述语音中介特征值未对应于存储的注册命令，继续执行所述接收用户输入的语音命令的步骤。
18.可选地，还包括：
19.若判断出所述语音中介特征值未对应于存储的注册语音特征，继续执行所述接收用户输入的语音命令的步骤。
20.可选地，还包括：
21.若判断出多个所述注册命令的数量小于设定阈值，则存储多个所述注册中介特征
值，并继续执行所述接收用户输入的多个注册命令的步骤。
22.可选地，所述语音中介特征值包括频谱特征值，所述提取所述语音命令的语音中介特征值，包括：
23.提取所述语音命令的频谱特征值；
24.根据所述频谱特征值生成第一梅尔频谱特征值和第二梅尔频谱特征值。
25.可选地，所述通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令，包括：
26.通过深度学习算法判断所述第一梅尔频谱特征值是否对应于存储的注册命令；
27.所述通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征，包括：
28.通过深度学习算法判断所述第二梅尔频谱特征值是否对应于存储的注册语音特征。
29.另一方面，本发明实施例提供了一种语音识别装置，包括：
30.接收模块，用于接收用户输入的语音命令；
31.第一提取模块，用于提取所述语音命令的语音中介特征值；
32.第一判断模块，用于通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令；
33.第二判断模块，用于第一判断模块若判断出所述语音中介特征值对应于存储的注册命令，通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征；若判断出所述语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。
34.另一方面，本发明实施例提供了一种存储介质，包括：所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述一种语音识别方法。
35.另一方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储包括程序指令的信息，所述处理器用于控制程序指令的执行，其特征在于，所述程序指令被处理器加载并执行时实现上述一种语音识别方法的步骤。
36.本发明实施例提供的语音识别方法的技术方案中，接收用户输入的语音命令；提取语音命令的语音中介特征值；通过深度学习算法判断语音中介特征值是否对应于存储的注册命令；若判断出语音中介特征值对应于存储的注册命令，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征；若判断出语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。本发明实施例提供的技术方案中，整合了语音启动检测和声纹识别检测，减少了语音识别所需的计算空间资源和储存空间资源，提高了语音识别的效率。
【附图说明】
37.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
38.图1为本发明实施例提供的一种语音识别方法的流程图；
39.图2为本发明实施例提供的另一种语音识别方法的流程图；
40.图3为语音中介特征值的示意图；
41.图4为本发明实施例提供的一种语音识别装置的结构示意图；
42.图5为本发明实施例提供的一种电子设备的示意图；
43.图6为图5中处理器的示意图。
【具体实施方式】
44.为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。
45.应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
46.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。
47.应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
48.本发明实施例提供了一种语音识别方法，图1为本发明实施例提供的一种语音识别方法的流程图，如图1所示，该方法包括：
49.步骤102、接收用户输入的语音命令。
50.本发明实施例中，各步骤由电子设备执行。例如，电子设备包括：手机、平板电脑、声控音箱或声控家电。
51.作为一种可选方案，用户通过向电子设备的听筒说出语音命令，以向电子设备输入语音命令，电子设备接收用户输入的语音命令。
52.步骤104、提取语音命令的语音中介特征值。
53.步骤106、通过深度学习算法判断语音中介特征值是否对应于存储的注册命令。
54.本步骤中，电子设备执行语音启动检测，通过深度学习算法判断语音中介特征值是否对应于存储的注册命令。
55.本发明实施例中，电子设备中存储有语音中介特征值与注册命令的对应关系。
56.本步骤中，若判断出语音中介特征值对应于存储的注册命令，则表明该语音命令为注册语音；若判断出语音中介特征值未对应于存储的注册命令，则表明该语音命令不为注册语音。
57.步骤108、若判断出语音中介特征值对应于存储的注册命令，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征。
58.本步骤中，电子设备执行声纹识别检测，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征。
59.本发明实施例中，电子设备中存储有语音中介特征值与注册语音特征的对应关系。
60.本步骤中，若判断出语音中介特征值对应于存储的注册语音特征，则表明该语音命令对应的用户为注册使用者；若判断出语音中介特征值未对应于存储的注册语音特征，则表明该语音命令对应的用户不为注册使用者。
61.步骤110、若判断出语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。
62.本步骤中，若判断出语音中介特征值对应于存储的注册语音特征，则识别出用户的语音，该用户为注册使用者。
63.本发明实施例提供的技术方案中，接收用户输入的语音命令；提取语音命令的语音中介特征值；通过深度学习算法判断语音中介特征值是否对应于存储的注册命令；若判断出语音中介特征值对应于存储的注册命令，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征；若判断出语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。本发明实施例提供的技术方案中，整合了语音启动检测和声纹识别检测，减少了语音识别所需的计算空间资源和储存空间资源，提高了语音识别的效率。
64.本发明实施例提供了另一种语音识别方法，图2为本发明实施例提供的另一种语音识别方法的流程图，如图2所示，该方法包括：
65.步骤202、接收用户输入的多个注册命令。
66.本发明实施例中，各步骤由电子设备执行。例如，电子设备包括：手机、平板电脑、声控音箱或声控家电。
67.作为一种可选方案，用户通过向电子设备的听筒说出注册命令，以向电子设备输入注册命令，电子设备接收用户输入的注册命令，该用户为注册使用者，为保证后续提取注册中介特征值的准确性，需要用户输入多个注册命令。
68.步骤204、提取每个注册命令的注册中介特征值。
69.本步骤中，提取每个注册命令的注册中介特征值，用于整合相同的注册中介特征值，以识别出注册使用者。
70.具体地，将每个注册命令进行切取音框操作，并进行时频转换，以提取每个注册命令的注册中介特征值。
71.步骤206、判断多个注册命令的数量是否等于设定阈值，若是，执行步骤208；若否，执行步骤222。
72.本发明实施例中，能够根据实际情况设置设定阈值。例如，设定阈值为5个。
73.本发明实施例中，若判断出多个注册命令的数量等于设定阈值，则表明已收集足够的注册命令，执行步骤208；若判断出多个注册命令的数量小于设定阈值，则表明未收集足够的注册命令，执行步骤222。
74.步骤208、根据多个注册中介特征值生成注册语音特征。
75.本步骤中，整合相同的注册中介特征值，生成注册语音特征，用于识别出注册使用者。
76.步骤210、存储注册语音特征。
77.步骤212、接收用户输入的语音命令。
78.作为一种可选方案，用户通过向电子设备的听筒说出语音命令，以向电子设备输入语音命令，电子设备接收用户输入的语音命令。
79.步骤214、提取语音命令的语音中介特征值。
80.本发明实施例中，语音中介特征值包括频谱特征值。
81.具体地，将语音命令进行切取音框操作，并进行时频转换，以提取语音命令的语音中介特征值。
82.具体地，步骤214包括：提取语音命令的频谱特征值；根据频谱特征值生成第一梅尔频谱特征值和第二梅尔频谱特征值。
83.本发明实施例中，图3为语音中介特征值的示意图，如图3所示，语音中介特征值会产生不同解析度的特征值，以频谱特征值为例，频谱特征值包含2倍的频率解析度和时间解析度，通过深度学习算法的训练，根据频谱特征值生成第一梅尔频谱特征值和第二梅尔频谱特征值。
84.作为一种可选方案，第一梅尔频谱特征值包含2倍的频率解析度和1倍的时间解析度，第一梅尔频谱特征值能够用于步骤216中的语音启动检测；第二梅尔频谱特征值包含1倍的频率解析度和2倍的时间解析度，第二梅尔频谱特征值能够用于步骤218中的声纹识别检测。
85.步骤216、通过深度学习算法判断语音中介特征值是否对应于存储的注册命令，若是，执行步骤218；若否，执行步骤212。
86.具体地，通过深度学习算法判断第一梅尔频谱特征值是否对应于存储的注册命令。
87.本发明实施例中，电子设备中存储有第一梅尔频谱特征值与注册命令的对应关系。
88.本步骤中，若判断出第一梅尔频谱特征值对应于存储的注册命令，则表明该语音命令为注册语音，执行步骤218；若判断出第一梅尔频谱特征值未对应于存储的注册命令，则表明该语音命令不为注册语音，执行步骤212。
89.步骤218、通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征，若是，执行步骤220；若否，执行步骤212。
90.具体地，通过深度学习算法判断第二梅尔频谱特征值是否对应于存储的注册语音特征。
91.本发明实施例中，电子设备中存储有第二梅尔频谱特征值与注册语音特征的对应关系。
92.本步骤中，若判断出第二梅尔频谱特征值对应于存储的注册语音特征，则表明该语音命令对应的用户为注册使用者，执行步骤220；若判断出第二梅尔频谱特征值未对应于存储的注册语音特征，则表明该语音命令对应的用户不为注册使用者，执行步骤212。
93.步骤220、识别出用户的语音，流程结束。
94.本步骤中，电子设备识别出用户的语音，该用户为注册使用者。
95.步骤222、存储多个注册中介特征值，并继续执行步骤202。
96.本发明实施例提供的技术方案中，接收用户输入的语音命令；提取语音命令的语音中介特征值；通过深度学习算法判断语音中介特征值是否对应于存储的注册命令；若判断出语音中介特征值对应于存储的注册命令，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征；若判断出语音中介特征值对应于存储的注册语音特征，则识
别出用户的语音。本发明实施例提供的技术方案中，整合了语音启动检测和声纹识别检测，减少了语音识别所需的计算空间资源和储存空间资源，提高了语音识别的效率。
97.本发明实施例提供的技术方案中，在多数电子设备上，在运算资源与储存资源受限的状况下，在确保两者功能效果的前提下，将语音启动检测的深度学习算法模块和声纹识别检测的深度学习算法模块做了系统性的整合。
98.本发明实施例提供了一种语音识别装置。图4为本发明实施例提供的一种语音识别装置的结构示意图，如图4所示，该装置包括：接收模块11、第一提取模块12、第一判断模块13和第二判断模块14。
99.接收模块11用于接收用户输入的语音命令。
100.第一提取模块12用于提取所述语音命令的语音中介特征值。
101.第一判断模块13用于通过深度学习算法判断所述语音中介特征值是否对应于存储的注册命令。
102.第二判断模块14用于第一判断模块13若判断出所述语音中介特征值对应于存储的注册命令，通过深度学习算法判断所述语音中介特征值是否对应于存储的注册语音特征；若判断出所述语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。
103.本发明实施例中，该装置还包括：第二提取模块15、第三判断模块16、生成模块17和第一存储模块18。
104.接收模块11还用于接收用户输入的多个注册命令。
105.第二提取模块15用于提取每个所述注册命令的注册中介特征值。
106.第三判断模块16用于判断多个所述注册命令的数量是否等于设定阈值；若判断出多个所述注册命令的数量等于设定阈值，触发生成模块17根据多个所述注册中介特征值生成注册语音特征。
107.第一存储模块18用于存储所述注册语音特征。
108.本发明实施例中，第一判断模块13若判断出所述语音中介特征值未对应于存储的注册命令，触发接收模块11继续执行所述接收用户输入的语音命令的步骤。
109.本发明实施例中，第二判断模块14若判断出所述语音中介特征值未对应于存储的注册语音特征，触发接收模块11继续执行所述接收用户输入的语音命令的步骤。
110.本发明实施例中，该装置还包括：第二存储模块19。
111.第三判断模块16若判断出多个所述注册命令的数量小于设定阈值，则触发第二存储模块19存储多个所述注册中介特征值，并触发接收模块11继续执行所述接收用户输入的多个注册命令的步骤。
112.本发明实施例中，所述语音中介特征值包括频谱特征值，第一提取模块12具体用于提取所述语音命令的频谱特征值；根据所述频谱特征值生成第一梅尔频谱特征值和第二梅尔频谱特征值。
113.本发明实施例中，第一判断模块13具体用于通过深度学习算法判断所述第一梅尔频谱特征值是否对应于存储的注册命令。
114.本发明实施例中，第二判断模块14具体用于通过深度学习算法判断所述第二梅尔频谱特征值是否对应于存储的注册语音特征。
115.本发明实施例提供的技术方案中，接收用户输入的语音命令；提取语音命令的语
音中介特征值；通过深度学习算法判断语音中介特征值是否对应于存储的注册命令；若判断出语音中介特征值对应于存储的注册命令，通过深度学习算法判断语音中介特征值是否对应于存储的注册语音特征；若判断出语音中介特征值对应于存储的注册语音特征，则识别出用户的语音。本发明实施例提供的技术方案中，整合了语音启动检测和声纹识别检测，减少了语音识别所需的计算空间资源和储存空间资源，提高了语音识别的效率。
116.本实施例提供的语音识别装置可用于实现上述图1和图2中的语音识别方法，具体描述可参见上述语音识别方法的实施例，此处不再重复描述。
117.本发明实施例提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述语音识别方法的实施例的各步骤，具体描述可参见上述语音识别方法的实施例。
118.本发明实施例提供了一种电子设备，包括存储器和处理器，存储器用于存储包括程序指令的信息，处理器用于控制程序指令的执行，程序指令被处理器加载并执行时实现上述语音识别方法的实施例的各步骤，具体描述可参见上述语音识别方法的实施例。
119.图5为本发明实施例提供的一种电子设备的示意图。如图5所示，该实施例的电子设备20包括：处理器21、存储器22以及存储在存储器22中并可在处理器21上运行的计算机程序23，该计算机程序23被处理器21执行时实现实施例中的应用于语音识别方法，为避免重复，此处不一一赘述。或者，该计算机程序被处理器21执行时实现实施例中应用于语音识别装置中各模型/单元的功能，为避免重复，此处不一一赘述。
120.电子设备20包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，图5仅仅是电子设备20的示例，并不构成对电子设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
121.所称处理器21可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
122.存储器22可以是电子设备20的内部存储单元，例如电子设备20的硬盘或内存。存储器22也可以是电子设备20的外部存储设备，例如电子设备20上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，存储器22还可以既包括电子设备20的内部存储单元也包括外部存储设备。存储器22用于存储计算机程序以及电子设备所需的其他程序和数据。存储器22还可以用于暂时地存储已经输出或者将要输出的数据。
123.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
124.在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组
件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
125.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
126.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
127.上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
128.本发明实施例中，图6为图5中处理器的示意图，如图6所示，处理器21包括：中央处理器(central processing unit，简称cpu)211、模数转换器(analog-to-digital converter，简称adc)212、数字信号处理器(digital signal process，简称dsp)213和深度算法加速器214，其中，深度算法加速器214包括：图形处理器(graphics processing unit，简称gpu)或类神经网络单元(neural network unit，简称nn unit)。
129.本发明实施例中，处理器21处于休眠状态时，为电力低频模式，cpu 211不工作，仅小范围的硬体模块(adc 212、dsp 213或深度算法加速器214)可工作，声音讯号由麦克风收入后，经adc 212转换后，进入dsp 213处理，当提取语音命令的语音中介特征值后，转由深度算法加速器214处理，此时我们所采用的深度学习算法，可以利用深度算法加速器214进行加速以获得最佳效能，最后判断讯号再返回dsp 213或是cpu 211，进行上述如图一或图二的流程。
130.本发明实施例中，adc 212、dsp 213、深度算法加速器214和cpu 211可以是不同的芯片模组，也可以整合为单一芯片。
131.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种高识别度的说话人识别系统的制作方法

一种语音识别方法、装置、存储介质和电子设备与流程

相关文献

最热文献