一种特征提取方法、装置、电子设备和存储介质与流程

2022-03-09 08:17:58 来源：中国专利 TAG：

1.本技术涉及语音特征提取技术领域，特别是涉及一种特征提取方法、装置、电子设备和存储介质。

背景技术：

2.目前主流的语音识别系统理论上是支持多种不同的采样率的语音信号，但是主流语音系统的声学模型大部分只支持8k(8000)和16k(16000)采样率两种的信号。对于外部传入不是这两种的语音的信息，往往通过一些音频转换的方法，将语音进行升采样或者是降采样。比如48k语音降采样到16k,8k语音升采样到16k等。这样做的好处可以节省系统的开销，如果不采取转换的方式，理论上需要不同采样率的率的模型来识别不同采样率的语音。另一方面，只选择一种或者两种语音做声学模型训练的方法，减少数据采集的成本，无需搜集各类采样率的语音，只需收集某类采样率的语音。但是这种方法存在问题是，当与声学模型训练数据匹配测试语音(常见16k或者8k)识别性能较好，但是与训练数据不匹配的语音时，性能相对差一些。比如，使用8k升采样到16k的语音去测试16k模型比8k模型测性能要差一些。

技术实现要素：

3.基于上述问题，本技术提供一种特征提取方法、装置、电子设备和存储介质。
4.第一方面，本技术实施例提供一种特征提取方法，应用于8k升16k采样率的语音，包括：
5.在特征提取过程中，获取高频部分多维mfcc特征能量值；
6.判断高频部分多维mfcc特征能量值是否满足置零条件的特征；
7.若判断结果为高频部分多维mfcc特征能量值满足置零条件的特征，则将特征能量值对应的维度设置为可能置零的标注位。
8.进一步地，上述一种特征提取方法中，判断高频部分多维mfcc特征能量值是否满足置零条件的特征，包括：
9.比较高频部分多维mfcc特征能量值与多维预设阈值的大小；
10.若特征能量值小于预设阈值，则满足置零条件的特征；
11.若特征能量值大于等于预设阈值，则不满足置零条件的特征。
12.进一步地，上述一种特征提取方法中，高频部分的维度是7维。
13.进一步地，上述一种特征提取方法，还包括：
14.若当前维度的特征能量值小于当前维度的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将所述当前维度的标注位置零。
15.进一步地，上述一种特征提取方法，还包括：
16.若1维的特征能量值小于1维的预设阈值，且第6维的特征能量值小于第6维的预设
阈值、第7维的特征能量值小于第7维的预设阈值，则将1维的标注位置零；
17.若2维的特征能量值小于2维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将2维的标注位置零；
18.若3维的特征能量值小于3维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将3维的标注位置零；
19.若4维的特征能量值小于4维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将4维的标注位置零；
20.若5维的特征能量值小于5维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将5维的标注位置零；
21.进一步地，上述一种特征提取方法，还包括：
22.判断当前帧高频部分多维mfcc特征能量值是否满足置零条件的特征；
23.若判断结果为所述高频部分多维mfcc特征能量值满足置零条件的特征，则将累计帧数加1，若判断结果为所述高频部分多维mfcc特征能量值不满足置零条件的特征，则将累计帧数减1；
24.判断累计帧数是否满足帧数条件；
25.若累计帧数满足帧数条件且当前帧的高频部分多维mfcc特征能量值满足置零条件的特征，将当前帧满足置零条件的特征对应的维度置零。
26.进一步地，上述一种特征提取方法中，判断累计帧数是否满足帧数条件，包括：
27.判断累计帧数与预设帧数的大小；
28.若累计帧数大于等于所述预设帧数，则满足帧数条件；
29.若累计帧数小于所述预设帧数，则不满足帧数条件。
30.第二方面，本技术实施例还提供一种特征提取装置，应用于8k升16k采样率的语音，包括：
31.获取模块：用于在特征提取过程中，获取高频部分多维mfcc特征能量值；
32.判断模块：用于判断高频部分多维mfcc特征能量值是否满足置零条件的特征；
33.设置模块：用于若判断结果为所述高频部分多维mfcc特征能量值满足置零条件的特征，则将特征能量值对应的维度设置为可能置零的标注位。
34.第三方面，本技术实施例还提供一种电子设备，其特征在于，包括：处理器和存储器；
35.所述处理器通过调用所述存储器存储的程序或指令，用于执行上述一种特征提取方法。
36.第四方面，本技术实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机上述一种特征提取方法。
37.本技术实施例的优点在于：本技术涉及一种特征提取方法、装置、电子设备和存储介质，应用于8k升16k采样率的语音，该方法包括：在特征提取过程中，获取高频部分多维mfcc特征能量值；判断所述高频部分多维mfcc特征能量值是否满足置零条件的特征；若判断结果为所述高频部分多维mfcc特征能量值满足所述置零条件的特征，则将所述特征能量值对应的维度设置为可能置零的标注位。本技术通过对比不同采样率的特征差异，将40维中代表高频部分，就是最后7位的部分数值进行置零，从而优化特征提取的方法来弥补损失
性能，通过优化升采样数据特征提取方法,使得转换的特征表达更加接近训练的语音数据,提升模型性能，特征的兼容约泛化，对数据的要求会相对降低，减少数据采集和处理的成本。
附图说明
38.为了更清楚地说明本技术实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
39.图1为本技术实施例提供的一种特征提取方法示意图一；
40.图2为本技术实施例提供的一种特征提取方法示意图二；
41.图3为本技术实施例提供的一种特征提取方法示意图三；
42.图4为本技术实施例提供的一种特征提取装置示意图；
43.图5是本技术实施例提供的一种电子设备的示意性框图。
具体实施方式
44.为使本技术的上述目的、特征和优点能够更加明显易懂，下面结合附图对本技术的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵时做类似改进，因此本技术不受下面公开的具体实施的限制。
45.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中在本技术的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本技术。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
46.图1为本技术实施例提供的一种特征提取方法示意图一。
47.第一方面，本技术实施例提供一种特征提取方法，应用于8k升16k采样率的语音，结合图1，包括s101至s103两个步骤：
48.s101：在特征提取过程中，获取高频部分多维mfcc特征能量值。
49.具体的，本技术实施例中，应用于8k升16k采样率的语音，是基于40维的特征做特征优化，在特征提取过程中，高频部分的维度是7维，获取高频部分多维mfcc特征能量值得到7个不同的特征能量值。
50.s102：判断高频部分多维mfcc特征能量值是否满足置零条件的特征。
51.具体的，本技术实施例中，通过比较7个不同的特征能量值与7个预设阈值的大小确定7维mfcc特征能量值是否满足置零条件的特征，下文结合具体的步骤详细介绍判定是否满足置零条件的特征的详细步骤。
52.s103：若判断结果为高频部分多维mfcc特征能量值满足置零条件的特征，则将特征能量值对应的维度设置为可能置零的标注位。
53.具体的，本技术实施例中，通过对比不同采样率的特征差异，将40维中代表高频部分，就是最后7位的部分数值进行置零，从而优化特征提取的方法来弥补损失性能，通过优
化升采样数据特征提取方法,使得转换的特征表达更加接近训练的语音数据,提升模型性能，特征的兼容约泛化，对数据的要求会相对降低，减少数据采集和处理的成本。
54.图2为本技术实施例提供的一种特征提取方法示意图二。
55.进一步地，上述一种特征提取方法中，判断高频部分多维mfcc特征能量值是否满足置零条件的特征，结合图2，包括s201至s202两个步骤：
56.s201：比较高频部分多维mfcc特征能量值与多维预设阈值的大小；
57.s202：若特征能量值小于预设阈值，则满足置零条件的特征，若特征能量值大于等于预设阈值，则不满足置零条件的特征。
58.具体的，本技术实施例中，通过比较7个不同的特征能量值与7个预设阈值的大小确定7维mfcc特征能量值是否满足置零条件的特征，示例性的，若第一维的特征能量值小于第一维的预设阈值，则满足置零条件的特征，将第一维的标注位置零，若第一维的特征能量值大于等于第一维的预设阈值，则不满足置零条件的特征，不将第一维的标注位置零，2维，3维等也是如此确定是否满足置零条件的特征，在此不一一进行举例。
59.进一步地，上述一种特征提取方法中，高频部分的维度是7维。
60.具体的，本技术是针对40维中代表高频部分，就是最后7位的部分数值，即高频部分的维度是7维。
61.进一步地，上述一种特征提取方法，还包括：
62.若当前维度的特征能量值小于当前维度的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将所述当前维度的标注位置零。
63.具体的，本技术实施例中，通过比较当前维度的特征能量值与当前维度的预设阈值的大小结合最后两维的维度的特征能量值与预设阈值的大小进一步确定当前维度的标注位是否置零，进一步提高置零的准确率。
64.通过比较当前维度的特征能量值与当前维度的预设阈值的大小结合最后两维的维度的特征能量值与预设阈值的大小进一步确定当前维度的标注位是否置零的详细步骤如下：
65.若1维的特征能量值小于1维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将1维的标注位置零。
66.若2维的特征能量值小于2维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将2维的标注位置零。
67.若3维的特征能量值小于3维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将3维的标注位置零。
68.若4维的特征能量值小于4维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将4维的标注位置零。
69.若5维的特征能量值小于5维的预设阈值，且第6维的特征能量值小于第6维的预设阈值、第7维的特征能量值小于第7维的预设阈值，则将5维的标注位置零。
70.图3为本技术实施例提供的一种特征提取方法示意图三。
71.进一步地，上述一种特征提取方法，结合图3，还包括s301至s304四个步骤：
72.s301：判断当前帧高频部分多维mfcc特征能量值是否满足置零条件的特征。
73.s302：若判断结果为所述高频部分多维mfcc特征能量值满足置零条件的特征，则将累计帧数加1，若判断结果为所述高频部分多维mfcc特征能量值不满足置零条件的特征，则将累计帧数减1。
74.s303：判断累计帧数是否满足帧数条件。
75.s304：若累计帧数满足帧数条件且当前帧的高频部分多维mfcc特征能量值满足置零条件的特征，将当前帧满足置零条件的特征对应的维度置零。
76.具体的，本技术实施例中，置零并不是从第一帧开始置零，在判断结果为所述高频部分多维mfcc特征能量值满足置零条件的特征的情况下，将累计帧数加1，直到累计帧数是否满足帧数条件的情况下，才开始将当前帧满足置零条件的特征对应的维度置零，进一步提高置零的准确率。
77.进一步地，上述一种特征提取方法中，判断累计帧数是否满足帧数条件，包括：
78.判断累计帧数与预设帧数的大小；
79.若累计帧数大于等于所述预设帧数，则满足帧数条件；
80.若累计帧数小于预设帧数，则不满足帧数条件。
81.具体的，本技术实施例中的预设帧数可以是20帧，25帧，可以根据实际情况灵活确定，如是20帧，累计帧数也为20帧，进一步判断21帧的高频部分多维mfcc特征能量值满足置零条件的特征，满足置零条件的特征的情况下，对21帧的高频部分进行置零。
82.图4为本技术实施例提供的一种特征提取装置示意图。
83.第二方面，本技术实施例还提供一种特征提取装置，结合图4，应用于8k升16k采样率的语音，包括：
84.获取模块401：用于在特征提取过程中，获取高频部分多维mfcc特征能量值。
85.具体的，本技术实施例中，应用于8k升16k采样率的语音，是基于40维的特征做特征优化，在特征提取过程中，高频部分的维度是7维，获取模块401获取高频部分多维mfcc特征能量值得到7个不同的特征能量值。
86.判断模块402：用于判断高频部分多维mfcc特征能量值是否满足置零条件的特征。
87.具体的，本技术实施例中，判断模块402通过比较7个不同的特征能量值与7个预设阈值的大小确定7维mfcc特征能量值是否满足置零条件的特征，下文结合具体的步骤详细介绍判定是否满足置零条件的特征的详细步骤。
88.设置模块403：用于若判断结果为所述高频部分多维mfcc特征能量值满足置零条件的特征，则将特征能量值对应的维度设置为可能置零的标注位。
89.具体的，本技术实施例中，通过对比不同采样率的特征差异，将40维中代表高频部分的部分数值进行置零，即设置模块403将最后7位的部分数值进行置零，从而优化特征提取的方法来弥补损失性能，通过优化升采样数据特征提取方法,使得转换的特征表达更加接近训练的语音数据,提升模型性能，特征的兼容约泛化，对数据的要求会相对降低，减少数据采集和处理的成本。
90.第三方面，本技术实施例还提供一种电子设备，其特征在于，包括：处理器和存储器；
91.所述处理器通过调用所述存储器存储的程序或指令，用于执行上述一种特征提取方法。
92.第四方面，本技术实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机上述一种特征提取方法。
93.图5是本公开实施例提供的一种电子设备的示意性框图。
94.如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。
95.可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。
96.在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。
97.其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(media player)、浏览器(browser)等，用于实现各种应用业务。实现本技术实施例提供的一种特征提取方法中任一方法的程序可以包含在应用程序中。
98.在本技术实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本技术实施例提供的一种特征提取方法各实施例的步骤。
99.在特征提取过程中，获取高频部分多维mfcc特征能量值；
100.判断高频部分多维mfcc特征能量值是否满足置零条件的特征；
101.若判断结果为高频部分多维mfcc特征能量值满足置零条件的特征，则将特征能量值对应的维度设置为可能置零的标注位。
102.本技术实施例提供的一种特征提取方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
103.本技术实施例提供的一种特征提取方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种特征提取方法的步骤。
104.本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本技术的范围之内并且形成不同的实施例。
105.本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
106.以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：低信噪比下基于SPP和NMF的环境音噪声抑制方法与流程

一种特征提取方法、装置、电子设备和存储介质与流程

相关文献

最热文献