语音处理方法、装置、存储介质及电子设备与流程

2021-08-17 13:39:00 来源：中国专利 TAG：电子设备音频处理语音装置公开

本公开涉及音频处理技术领域，具体地，涉及一种语音处理方法、装置、存储介质及电子设备。

背景技术：

语音处理被应用在各种各样的场合，例如，在视频会议场景中，需要对发言人的音频进行采集并减小其他音频对发音人音频的影响，若将发言人的音频以及其他音频一起发送给其他终端，那么在其他终端将难以听清发音人的音频内容。或者，在车载语音系统中，车载语音系统是一种提高驾驶安全性以及增强驾驶体验的智能语音系统，可以辅助驾驶员实现语音导航，语音播放音乐等功能，但是由于车辆内空间较小，驾驶员在与车载语音系统进行语音对话时，往往会被其他声音干扰，例如受到车内乘客交谈或电话声等的干扰，又如，受到车辆胎噪、风噪或者空调声等自然声的干扰，导致车载语音系统识别驾驶员的语音指令的正确性较低。因此，就需要对目标用户的音频进行增强处理而削弱其他声音。

在相关技术中，为降低其他声音对目标用户音频的影响，常采用的技术方案是，采用了将音频采集空间划分为不同的音区，并在每一音区内对应设置采集声音的麦克风，进而根据每一麦克风采集的语音信息的时间从控制信号集合中确定目标控制语音，并对目标控制语音进行过滤降噪，加强目标控制语音的强度。然而，上述方式中是利用麦克风采集到语音信息的时间进行目标用户的确定的，但是若发言人与麦克风之间存在一定距离，且在该距离内还有其他用户在产生音频，那么该方法就难以从采集到的音频中准确地增强目标用户的音频而削弱其他声音。

技术实现要素：

本公开的目的是提供一种车载语音识别方法、装置、存储介质及电子设备，以解决相关技术中难以从采集到的音频中准确地增强目标用户的音频而削弱其他声音的问题。

为了实现上述目的，本公开实施例的第一方面，提供一种车载语音识别方法，所述方法包括：

对采集到的唤醒音频的声源进行音区定位，确定目标音区；

基于所述目标音区确定用于波束成形的目标参数值组，其中，用于波束成形的参数值组与所述音区一一对应；

获取待处理音频；

基于所述目标参数值组对所述待处理音频进行波束成形处理，得到目标音频。

可选地，所述基于所述目标音区确定用于波束成形操作的目标参数值组，包括：

获取参数值存储表，所述参数值存储表用于存储与各个音区对应的参数值组；

利用所述目标音区查询参数值存储表，确定所述目标参数值组。

可选地，所述获取参数值存储表，包括：

在任一音区作为所述目标音区时，获取测试音频；

利用至少一个预设步长在每种参数的数值范围内进行遍历，得到候选参数值组；

利用所述候选参数值组对所述测试音频进行波束成形处理，得到候选音频；

对所述候选音频进行语音识别测试，得到测试结果；

基于对应于各个候选参数值组的测试结果，确定所述目标音区的目标参数值组，以得到所述参数值存储表。

可选地，所述在任一音区作为所述目标音区时，获取测试音频，包括：

在任一音区作为所述目标音区时，确定所述目标音区对应的目标语音接收装置；

获取所述目标语音接收装置采集到的音频，得到所述测试音频。

可选地，所述获取待处理音频，包括：

利用所述目标音区，确定与所述目标音区对应的目标语音接收装置；

获取所述目标语音接收装置采集到的音频，得到所述待处理音频。

可选地，所述基于所述目标参数值组对所述待处理音频进行波束成形处理，得到目标音频，包括：

对所述待处理音频进行回声消除；

对回声消除后的待处理音频进行语音活动检测，得到用户音频；

对所述用户音频进行降噪处理，并利用所述目标参数值组对降噪处理后的待处理音频进行webrtc波束成形处理，得到所述目标音频。

可选地，所述基于所述目标参数值组对所述待处理音频进行波束成形处理，得到目标音频的步骤之后，包括：

对所述目标音频进行语音识别，得到语音控制指令；

基于所述语音控制指令，控制相应的执行机构执行对应的动作。

本公开实施例的第二方面，提供一种语音处理装置，所述装置包括：

定位模块，用于对采集到的唤醒音频的声源进行音区定位，确定目标音区；

确定模块，用于基于所述目标音区确定用于波束成形的目标参数值组，其中，用于波束成形的参数值组与所述音区一一对应；

获取模块，用于获取待处理音频；

处理模块，用于基于所述目标参数值组对所述待处理音频进行波束成形处理，得到目标音频。

可选地，所述确定模块，包括：

获取单元，用于获取参数值存储表，所述参数值存储表用于存储与各个音区对应的参数值组；

查询单元，用于利用所述目标音区查询参数值存储表，确定所述目标参数值组。

可选地，所述获取单元包括：

获取子单元，用于在任一音区作为所述目标音区时，获取测试音频；

遍历子单元，用于利用至少一个预设步长在每种参数的数值范围内进行遍历，得到候选参数值组；

处理子单元，用于利用所述候选参数值组对所述测试音频进行波束成形处理，得到候选音频；

识别子单元，用于对所述候选音频进行语音识别测试，得到测试结果；

确定子单元，用于基于对应于各个候选参数值组的测试结果，确定所述目标音区的目标参数值组，以得到所述参数值存储表。

可选地，所述获取子单元，包括：

第一子单元，用于在任一音区作为所述目标音区时，确定所述目标音区对应的目标语音接收装置；

第二子单元，用于获取所述目标语音接收装置采集到的音频，得到所述测试音频。

可选地，所述获取模块，包括：

利用所述目标音区，确定与所述目标音区对应的目标语音接收装置；

获取所述目标语音接收装置采集到的音频，得到所述待处理音频。

可选地，所述处理模块，包括：

回声消除单元，用于对所述待处理音频进行回声消除；

活动检测单元，用于对回声消除后的待处理音频进行语音活动检测，得到用户音频；

降噪单元，用于对所述用户音频进行降噪处理，并利用所述目标参数值组对降噪处理后的待处理音频进行webrtc波束成形处理，得到所述目标音频。

可选地，所述语音处理装置，还包括：

语音识别模块，用于对所述目标音频进行语音识别，得到语音控制指令；

控制模块，用于基于所述语音控制指令，控制相应的执行机构执行对应的动作。

本公开实施例的第三方面，提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本公开第一方面任一项所述的语音处理方法。

本公开实施例的第四方面，提供一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行本公开第一方面任一项所述的语音处理方法。

上述技术方案，至少可以达到以下技术效果：

通过对采集到的唤醒音频的声源进行音区定位，确定目标音区；基于目标音区确定用于波束成形的目标参数值组，其中，用于波束成形的参数值组与音区一一对应；获取待处理音频；基于目标参数值组对待处理音频进行波束成形处理，得到目标音频。这样，

通过在确定出与唤醒音频对应的目标音区之后，利用与目标音区对应的目标参数值组对采集到的待处理音频进行波束成形处理，即，在波束成形处理时是利用与目标音区对应的目标参数值进行的，使得波束成形处理能够增强发出唤醒音频的用户的音频而削弱其他声音。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性示出的一种语音处理方法的流程图。

图2是根据一示例性示出的一种车辆内布置语音接收装置的示意图。

图3是根据一示例性示出的一种波束成形处理的示意图。

图4是根据一示例性示出的一种语音处理方法的流程图。

图5是根据一示例性示出的另一种语音处理方法的流程图。

图6是根据一示例性示出的一种车载语音识别装置的框图。

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，在本公开中，说明书和权利要求书以及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必理解为描述特定的顺序或先后次序。同理，术语“s13”、“s34”等用于区别步骤，而不必理解为按照特定的顺序或先后次序执行方法步骤。

本公开实施例中所述的语音处理方法，可以应用在视频会议场景中，也可以应用在车载语音系统中，或者也可以应用在其他场景，在此对其具体应用场景并不做任何限制。在下文的描述中，以车载场景为例。具体地，用户通过唤醒音频唤醒车载语音处理设备，车载语音处理设备通过唤醒音频确定目标音区，再确定与目标音区对应的目标参数值组，最后再利用目标参数值组对待处理音频进行波束合成处理，得到目标音频。至此，该目标音频是表征对目标音区的声音进行增强，非目标音区的声音进行削弱。其中，确定目标音区并针对目标音区的目标参数值组进行波束成形处理，就相当于通过音区锁定得到目标音频。

其中，关于具体的语音处理方法将在下文中进行详细描述。

根据本公开实施例，提供了一种语音处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种语音处理方法，可用于电子设备，如车载语音识别设备等，图1是根据本公开实施例的语音处理方法的流程图，如图1所示，该流程包括如下步骤：

s11，对采集到的唤醒音频的声源进行音区定位，确定目标音区。

其中，音区的划分可以是依据人员在空间内的位置进行的。例如，对于视频会议的会场而言，可以依据人员的位置对会场进行音区划分；对于车辆而言，可以依据乘坐位置进行划分。

如图2所示，音区是将车辆内的乘坐空间按照乘坐位置进行划分得到的，具体为将车辆的主驾驶室划分为第一音区，将车辆的副驾驶划分为第二音区，将车辆的左后座椅区域划分为第三音区，将车辆的左后座椅区域与右后座椅区域之间的区域划分为第四音区，并将车辆的右后座椅区域划分为第五音区。其中，图2中所示方块表示音区。

电子设备在采集到唤醒音频之后，对唤醒音频的声源进行音区定位，即确定当前发出唤醒音频的目标用户所在的音区，并将该音区作为目标音区。其中，所述的唤醒音频可以在音频中含有唤醒词，也可以采用其他方式形成唤醒音频等等，在此对唤醒音频的形式并不做任何限制，具体可以根据实际情况进行相应的设置。进一步地，所述的声源定位可以采用麦克风阵列的方式进行，也可以采用其他方式进行，在此对其并不做任何限制。

例如，如图2所示，通过设置在车辆内部的4个麦克风采集用于唤醒语音识别功能的唤醒音频，并根据4个麦克风接收到同一唤醒音频的强度，或者，根据4个麦克风接收到同一唤醒音频的时间先后顺序，确定唤醒音频的声源。

示例地，根据4个麦克风接收到的唤醒音频的强度，确定1#麦克风接收到唤醒音频的强度大于2#麦克风、3#麦克风和4#麦克风接收到唤醒音频的强度，或者根据4个麦克风接收到唤醒音频的时间先后顺序，确定1#麦克风接收到唤醒音频的时间先于2#麦克风、3#麦克风和4#麦克风接收到唤醒音频的时间，确定该唤醒音频的声源位于第一音区，并将第一音区作为目标音区。

s12，基于目标音区确定用于波束成形的目标参数值组。

其中，用于波束成形的参数值组与所述音区一一对应。

在参数值组中包括有至少一个参数，这些参数用于进行波束成形，采用不同的波束成形方式，其需要的参数不同。因此，此处所采用的参数值组与哪些参数有关，具体是与所采用的波束成形方式对应，在此对其并不做任何限制。其中，所述的目标参数值组包括与当前波束成形方式对应的目标参数值，其可以是一个，两个或多个，在此对其具体数量并不做任何限制。

例如，对于webrtc波束成形而言，其所需要的参数值包括：麦克风阵列每个麦克风的坐标、目标方位角、干扰源偏离弧度以及补偿增益。对于每个音区而言，这些参数的值都不同。

对应于各个音区而言，可以通过测试的方式确定各个音区对应的目标参数值，并将测试得到的目标参数值存储在电子设备中，在目标音区确定之后，就可以在电子设备中确定出相应的目标参数值组。或者，电子设备在确定出目标音区之后，将目标音区发送给第三方，由第三方进行目标音区对应的目标参数值组的确定等等，在此对其并不做任何限制。

s13，获取待处理音频。

待处理音频是语音采集装置采集得到的，语音采集装置将采集到的待处理音频发送给电子设备，相应地，电子设备就可以获取到待处理音频。

其中，待处理音频所包括的音频不仅为唤醒音频对应的目标用户的音频，也可能包括其他声音。

s14，基于目标参数值组对待处理音频进行波束成形处理，得到目标音频。

电子设备获取到待处理音频之后，利用s12中确定出的目标参数值组对待处理音频进行波束成形处理。对于本实施例而言，其改进之处主要在于目标参数值组的确定，而非波束成形的具体处理方式。因此，电子设备可以实际所使用的波束成形方式对待处理音频进行波束成形处理，得到对应的目标音频。所述的目标音频为对目标音区的声音进行增强，非目标音区的声音进行削弱后得到的。

如图3所示，电子设备将待处理音频以及对应的目标参数值组输入到波束成形模块中进行波束成形处理，可以得到通过波束成形进行音区锁定之后的音频，即所述的目标音频。例如，目标方位角p1、干扰源偏离弧度p2以及补偿增益p3。进一步地，波束成形过程中的多个目标参数值还可以包括低频起始频率、低频结束频率以及掩码分位数。

本实施例提供的语音处理方法，通过在确定出与唤醒音频对应的目标音区之后，利用与目标音区对应的目标参数值组对采集到的待处理音频进行波束成形处理，即，在波束成形处理时是利用与目标音区对应的目标参数值进行的，使得波束成形处理能够增强发出唤醒音频的用户的音频而削弱其他声音。

在本实施例中提供了一种语音处理方法，可用于电子设备，如车载语音识别设备等，图4是根据本公开实施例的语音处理方法的流程图，如图4所示，该流程包括如下步骤：

s21，对采集到的唤醒音频的声源进行音区定位，确定目标音区。

详细请擦年图1所示实施例的s11，在此对其并不赘述。

s22，基于目标音区确定用于波束成形的目标参数值组。

其中，用于波束成形的参数值组与所述音区一一对应。

具体地，上述s22可以包括：

s221，获取参数值存储表。

其中，所述参数值存储表用于存储与各个音区对应的参数值组。

参数值存储表中用于存储对应于各个音区的最佳参数取值，其可以是电子设备从外界获取到的，也可以是电子设备通过测试得到的，在此对其并不做任何限制。

例如，图2所示的音区划分方式，参数值存储表中预先存储有第一音区作为对应目标音区时所对应的第一目标参数值组，第二音区作为对应目标音区时所对应的第二目标参数值组，第三音区作为对应目标音区时所对应的第三目标参数值组，第四音区作为对应目标音区时所对应的第四目标参数值组，以及第五音区作为对应目标音区时所对应的第五目标参数值组。

在本实施例中，以电子设备通过测试得到各个音区的参数值组为例。首先，需要针对各个音区收集语音数据，其次需要定义一套指标来衡量波束成形的效果，最后依据波束成形的效果确定各个音区对应的最佳参数值组。

具体地，麦克风的坐标由线性麦克风阵列中麦克风的相对位置决定，不需要进行搜索。为了找到针对音区和麦克风位置的最佳参数取值，首先需要针对各个音区收集语音数据，其次需要定义一套指标来衡量波束成形的效果，最后需要实现程序自动化的在参数空间中搜索出最佳的参数值。目标音区说话人的性别、年龄、坐姿以及区域等都有可能不同。在包含大量数据的数据集中进行搜索，可以找到符合各个目标音区的一套参数，这套参数针对于特定音区，将在统计意义上是最优的。

作为本实施例的一种可选实施方式，上述s221可以包括：

(1)在任一音区作为目标音区时，获取测试音频。

对于每个目标音区而言，需要在实车上收集只包含目标音区语音的第一音频集t，同时包含目标音区语音以及非目标音区语音的音频作为第二音频集p以及只包含非目标音区语音的音频作为第三音频集i。对于只包含目标音区语音的音频，目标用户在目标音区发送指令；对于同时含目标音区语音以及非目标音区语音的音频，目标用户在目标音区发送指令，干扰源在其他音区说话；对于只包含非目标音区语音的音频，目标用户不说话，干扰源在其他音区说话。为了保证收集音频的多样性，录音人需要覆盖各个性别、年龄、坐姿以及区域，指令类型需要覆盖各个领域(导航、电话、媒体、车控以及闲聊等)。在带非目标音区语音的音频时，干扰语音需要包含单人和多人，干扰语音的话术也需要覆盖各个领域。

在本实施例的一些可选实施方式中，上述步骤(1)可以包括：

1.1)在任一音区作为目标音区时，确定目标音区对应的目标语音接收装置。

由于离语音接收装置越远，其所采集到的声音越小；离语音接收装置越近，其所采集到的声音越大。为了保证较好的声音采集效果，可以在空间内布置多个语音接收装置。其中，在本实施例中，所述的语音接收装置为麦克风。

例如，对于车载场景而言，可以在车内放置多个麦克风。一般情况下，可以在前排放置两个麦克风，后排放置两个麦克风。如图2所示，其中圆圈表示麦克风，方块表示座椅也即音区。前后排都需要麦克风是为了更好的采集各个位置的语音，前排麦克风可以较好的收集前排用户的语音，而对于后排用户的语音，采集到的声音会较小；后排麦克风可以较好的收集后排用户的语音，而对于前排用户的语音，采集到的声音会较小。前后排都用两个麦克风，是因为波束成形需要使用线性麦克风阵列。

电子设备在确定出目标音区之后，就可以确定目标音区在空间内的位置，进而就可以确定目标音区对应的目标语音接收装置。

1.2)获取目标语音接收装置采集到的音频，得到测试音频。

在确定出目标语音接收装置之后，电子设备将目标语音接收装置所采集到的音频作为测试音频。例如，结合图2所示，第一音区和第二音区选择前排麦克风录取的音频作为测试音频；第三音区、第四音区和第五音区选择后排麦克风录取的音频作为测试音频。

示例地，沿用上述实施例进行说明，在采集测试音频过程中，若主驾驶所在音区为目标音区，则第一音频集t是仅在主驾驶音区存在用户语音，在副驾驶音区、后排音区均不存在干扰语音的情况下，采集得到的测试音频的集合。第二音频集p是在主驾驶音区存在用户语音，且在副驾驶音区存在干扰语音或者后排音区至少一个音区存在干扰语音的情况下，采集得到的测试音频的集合。第三音频集i是在主驾驶音区不存在用户语音，在副驾驶音区存在干扰语音或者后排音区至少一个音区存在干扰语音的情况下，采集得到的测试音频的集合。

可选地，测试音频可以包括不同性别、年龄、坐姿以及区域发出的音频，并基于统计意义上的选择，确定该音区的参数值。可以理解的是，测试音频应当包括导航、电话、媒体、车载语音以及乘坐人员的闲聊等。并且，乘坐人员的闲聊可以包括一人的干扰语音以及多人的干扰语音。

对于语音接收装置而言，离其越近，所采集到的声音越大，离其越远，所采集到的声音越小，因此，通过设置与音区对应的语音接收装置，可以避免由于距离所导致的采集到的声音的影响，提高了语音处理的效果。

(2)利用至少一个预设步长在每种参数的数值范围内进行遍历，得到候选参数值组。

采集到测试音频的不同的测试音频集后，依据波束成形方式所对应的各个参数进行遍历。当采用webrtc波束成形时，在目标方位角、干扰源偏离弧度以及补偿增益的数值范围内根据预设步长遍历对测试音频进行波束成形得到遍历参数值。

例如，目标方位角的起始值为0，结束值为π，预设步长为0.1；干扰源偏离弧度的起始值为0，结束值为π，预设步长为0.1；补偿增益的起始值为5，结束值为10，预设步长为0.1。

其中，对于各个参数而言，其对应的预设步长可以相同，也可以不同，具体可以根据实际情况进行相应的设置。对于各个参数而言，电子设备利用预设步长进行各个参数值的确定，形成候选参数值组，在候选参数值组中包括波束成形处理所需的参数。

(3)利用候选参数值组对测试音频进行波束成形处理，得到候选音频。

电子设备依次利用候选参数值组对测试音频进行波束成形处理，得到相应的候选音频。

(4)对候选音频进行语音识别测试，得到测试结果。

电子设备对候选音频执行语音识别测试，得到每一遍历参数值组对应的评价指标的评价参数。

具体地，评价参数即包括第一音频集t中第一识别准确率cat、第一音频集t中第一语义理解准确率cnt、第二音频集p中第二识别准确率cap、第二音频集p中第二语义理解准确率cnp和第三音频集i中拒识率rai。

进一步地，通过如下辨析式计算候选参数值对应的评价值c：

c＝w1·cat w2·cnt w3·cap w4·cnp w5·rai

其中，w1表示第一音频集t中第一识别准确率cat的权重，w2表示第一音频集t中第一语义理解准确率cnt的权重，w3表示第二音频集p中第二识别准确率cap的权重；w4表示第二音频集p中第二语义理解准确率cnp的权重；w5表示第三音频集i中拒识率rai的权重。

进一步地，选择评价指标达到预设条件的候选参数值作为该音区对应的目标参数值，例如，评价值c的取值达到预设阈值的评价值c对应的候选参数值作为该音区对应的目标参数值，优选地，选择评价值c的取值最大的候选参数值作为该音区对应的目标参数值。

(5)基于对应于各个候选参数值组的测试结果，确定目标音区的目标参数值组，以得到参数值存储表。

采用上述技术方案，可以确定每一音区的目标参数值组，相应地就可以形成参数值存储表。

通过在每种参数的数值范围内进行遍历，利用候选参数进行波束成形处理，对波束成形处理后的音频进行处理效果评价，基于评价结果可以从所有的候选参数值组中确定出与各个音区对应的最优的参数值组，即，通过遍历参数的方式确定最优的参数值组，可以保证所确定出的参数值组是所有候选参数组中最优，在参数值组确定准确性的基础上，可以保证波束成形处理的准确性，从而能够实现对目标音区的声音进行增强，对非目标区域的声音进行削弱。

可选地，在采集测试音频过程中，通过改变麦克风的坐标，确定每一音区的参数值。例如，在主驾驶所在音区为目标音区的情况下，将#1麦克风设置在中控屏左侧，#2麦克风设置在中控屏右侧，通过#1麦克风和#2麦克风采集不同的测试音频集，并确定第一评价指标。进一步地，将#1麦克风设置在中控屏上端靠左三分之一处，#2麦克风设置在中控屏上端靠右三分之一处，通过#1麦克风和#2麦克风采集不同的测试音频集，并确定第二评价指标。

进一步地，对比第一评价指标和第二评价指标，将评价指标较优对应的麦克风的坐标作为最终麦克风布置的坐标，并将评价指标较优对应的音区参数值作为该音区的参数值。

采用上述技术方案，可以通过不同坐标的麦克风确定评价指标以及音区参数值，选择评价指标较优对应的麦克风的坐标作为最终麦克风布置的坐标以及评价指标较优对应的音区参数值作为该音区的参数值，可以提高车载语音采集以及参数值的准确性。

s222，利用目标音区查询参数值存储表，确定目标参数值组。

具体地，如上文所述，参数值存储表是用于存储与各个音区对应的参数值组。那么，在参数值存储表中可以对应于各个音区进行存储，每个音区均有唯一的标识，电子设备可以利用目标音区的标识在参数值存储表中进行查询，进而就可以确定目标参数值组。

s23，获取待处理音频。

详细请参见图1所示实施例的s13，在此并不做赘述。

s24，基于目标参数值组对待处理音频进行波束成形处理，得到目标音频。

详细请参见图1所示实施例的s14，在此不再赘述。

本实施例提供的语音处理方法，利用参数值存储表存储各个音区对应的参数值，在确定出目标音区之后通过查询参数值存储表就可以直接确定出与目标音区对应的目标参数值，可以提高目标参数值组确定的效率。

在本实施例中提供了一种语音处理方法，可用于电子设备，如车载语音识别设备等，图5是根据本公开实施例的语音处理方法的流程图，如图5所示，该流程包括如下步骤：

s31，对采集到的唤醒音频的声源进行音区定位，确定目标音区。

详细请参见图4所示实施例的s21，在此并不赘述。

s32，基于目标音区确定用于波束成形的目标参数值组。

其中，用于波束成形的参数值组与所述音区一一对应。

详细请参见图4所示实施例的s22，在此并不赘述。

s33，获取待处理音频。

具体地，上述s33可以包括：

s331，利用目标音区，确定与目标音区对应的目标语音接收装置。

沿用上述的示例，如图2所示，若确定第一音区为目标音区，那么确定1#麦克风和2#麦克风为目标语音接收装置；若确定第三音区为目标音区，那么就确定3#麦克风、4#麦克风以及5#麦克风为目标语音接收装置。

s332，获取目标语音接收装置采集到的音频，得到待处理音频。

沿用上述的示例，若确定第一音区为目标音区，利用1#麦克风和2#麦克风进行音频采集，将其采集到的音频确定为待处理音频。即，在确定第一音区为目标音区的情况下，将语音接收装置中未确定为目标语音接收装置的非目标语音接收装置3#麦克风以及4#麦克风采集的音频剔除，将语音接收装置中确定为目标语音接收装置的1#麦克风以及2#麦克风采集的2个音频作为待处理音频。

s34，基于目标参数值组对待处理音频进行波束成形处理，得到目标音频。

具体地，上述s34可以包括：

s341，对待处理音频进行回声消除。

s342，对回声消除后的待处理音频进行语音活动检测，得到用户音频。

s343，对用户音频进行降噪处理，并利用目标参数值组对降噪处理后的待处理音频进行webrtc波束成形处理，得到目标音频。

在车载场景下，回声消除可以对车内的回声，例如，导航播报、音乐播放以及语音对话系统的回复等等，进行消除，并将消除了回声的语音数据传送给语音活动检测模块进行语音活动检测。

语音活动检测模块用于检测出用户说话的起始点和结束点，并将该时间段的数据发送给基础降噪模块。基础降噪模块会对一些噪音进行消除，比如空调声、胎噪声以及风噪等等。降噪完之后的数据，会发送给波束成形模块，例如，webrtc模块，进行波束成形处理，对目标音区的声音进行增强，非目标音区的声音进行削弱，进而可以得到目标音频。

s35，对目标音频进行语音识别，得到语音控制指令。

电子设备再对目标音频进行语音识别处理，得到相应的语音控制指令。

s36，基于语音控制指令，控制相应的执行机构执行对应的动作。

本实施例提供的语音处理方法，对于语音接收装置而言，离其越近，所采集到的声音越大，离其越远，所采集到的声音越小，因此，在确定出目标音区之后，利用与目标音区对应的目标语音接收装置进行音频采集，能够保证所采集到的目标音区的声音较大，保证了后续语音处理的效果。进一步地，在对待处理音频进行波束成形处理之前，对其进行回声消除、语音活动检测以及降噪处理，可以对一些噪音进行消除，比如空调声、胎噪声以及风噪等，提高了波束成形的效果。在波束成形处理之后，对得到的目标音频进行语音识别处理，以控制相应的执行机构执行对应的动作，由于所得到的目标音频的准确性，能够保证所得到的语音控制指令的准确性，从而能够实现对执行机构的准确控制。

在本实施例中还提供了一种语音处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种语音处理装置，如图6所示，包括：

定位模块41，用于对采集到的唤醒音频的声源进行音区定位，确定目标音区；

确定模块42，用于基于所述目标音区确定用于波束成形的目标参数值组，其中，用于波束成形的参数值组与所述音区一一对应；

获取模块43，用于获取待处理音频；

处理模块44，用于基于所述目标参数值组对所述待处理音频进行波束成形处理，得到目标音频。

可选地，所述确定模块42，包括：

获取单元，用于获取参数值存储表，所述参数值存储表用于存储与各个音区对应的参数值组；

查询单元，用于利用所述目标音区查询参数值存储表，确定所述目标参数值组。

可选地，所述获取单元，包括：

获取子单元，用于在任一音区作为所述目标音区时，获取测试音频；

遍历子单元，用于利用至少一个预设步长在每种参数的数值范围内进行遍历，得到候选参数值组；

处理子单元，用于利用所述候选参数值组对所述测试音频进行波束成形处理，得到候选音频；

识别子单元，用于对所述候选音频进行语音识别测试，得到测试结果；

确定子单元，用于基于对应于各个候选参数值组的测试结果，确定所述目标音区的目标参数值组，以得到所述参数值存储表。

可选地，所述获取子单元，包括：

第一子单元，用于在任一音区作为所述目标音区时，确定所述目标音区对应的目标语音接收装置；

第二子单元，用于获取所述目标语音接收装置采集到的音频，得到所述测试音频。

可选地，所述获取模块，包括：

利用所述目标音区，确定与所述目标音区对应的目标语音接收装置；

获取所述目标语音接收装置采集到的音频，得到所述待处理音频。

可选地，所述处理模块，包括：

回声消除单元，用于对所述待处理音频进行回声消除；

活动检测单元，用于对回声消除后的待处理音频进行语音活动检测，得到用户音频；

降噪单元，用于对所述用户音频进行降噪处理，并利用所述目标参数值组对降噪处理后的待处理音频进行webrtc波束成形处理，得到所述目标音频。

可选地，所述语音处理装置，还包括：

语音识别模块，用于对所述目标音频进行语音识别，得到语音控制指令；

控制模块，用于基于所述语音控制指令，控制相应的执行机构执行对应的动作。

本实施例中的语音处理装置是以功能单元的形式来呈现，这里的单元是指asic电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本公开实施例还提供一种电子设备，具有上述图6所示的语音处理装置。

请参阅图7，图7是本公开可选实施例提供的一种电子设备的结构示意图，如图7所示，该电子设备可以包括：至少一个处理器51，例如cpu(centralprocessingunit，中央处理器)，至少一个通信接口53，存储器54，至少一个通信总线52。其中，通信总线52用于实现这些组件之间的连接通信。其中，通信接口53可以包括显示屏(display)、键盘(keyboard)，可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速ram存储器(randomaccessmemory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图6所描述的装置，存储器54中存储应用程序，且处理器51调用存储器54中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线52可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器54可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-accessmemory，缩写：ram)；存储器也可以包括非易失性存储器(英文：non-volatilememory)，例如快闪存储器(英文：flashmemory)，硬盘(英文：harddiskdrive，缩写：hdd)或固态硬盘(英文：solid-statedrive，缩写：ssd)；存储器54还可以包括上述种类的存储器的组合。

其中，处理器51可以是中央处理器(英文：centralprocessingunit，缩写：cpu)，网络处理器(英文：networkprocessor，缩写：np)或者cpu和np的组合。

其中，处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specificintegratedcircuit，缩写：asic)，可编程逻辑器件(英文：programmablelogicdevice，缩写：pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文：complexprogrammablelogicdevice，缩写：cpld)，现场可编程逻辑门阵列(英文：field-programmablegatearray，缩写：fpga)，通用阵列逻辑(英文：genericarraylogic,缩写：gal)或其任意组合。

可选地，存储器54还用于存储程序指令。处理器51可以调用程序指令，实现如本申请图1、4以及5实施例中所示的语音处理方法。

本公开实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音处理方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)、随机存储记忆体(randomaccessmemory，ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive，缩写：hdd)或固态硬盘(solid-statedrive，ssd)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本公开的实施例，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音处理方法、装置、存储介质及电子设备与流程

相关文章

最热文献