农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种语音处理方法、装置、可读存储介质及电子设备与流程

2021-07-06 18:47:00 来源：中国专利 TAG：人工智能电子设备语音装置可读

本发明涉及人工智能技术领域，尤其涉及一种语音处理方法、装置、可读存储介质及电子设备。

背景技术：

随着ai(artificialintelligence，人工智能)技术的发展，语音识别技术在得到了非常广泛的应用，智能语音交互技术也得到了长足的发展。但是，目前很多语音交互设备进行远场语音识别或者设备唤醒时，设备对各个声源方向所拾取的语音做无差别的判断和处理，例如：智能音响设备对于各个从声源方向接收到的语音方式均相同。如此，对于所接收的语音进行识别的准确率较低。

技术实现要素：

本申请公开了一种语音处理方法、装置及计算机可读存储介质及电子设备。

根据本发明第一方面，提供了一种语音处理方法，所述方法包括：接收声音信号，所述声音信号包括来自于混响环境中的任意方向的多路分支信号；分别确定所述多路分支信号的波达方向和噪声类型；根据所述波达方向和噪声类型，确定所述声音信号与历史声音记录之间的差异；在所述差异满足第一设定差异条件的情况下，根据所述历史声音记录、所述波达方向和所述声源类型，从所述声音信号中提取目标语音。

根据本发明一实施方式，所述根据所述波达方向和噪声类型，确定所述声音信号与历史声音记录的差异，包括：确定所述多路分支信号的波达方向和噪声类型的对应关系；获取所述历史声音记录中波达方向与噪声类型的映射；根据所述对应关系与所述映射，确定所述声音信号与历史声音记录的第一差异；确定所述历史声音记录中从每一波达方向接收到目标语音的概率；根据所述多个分支信号的波达方向和所述概率，确定所述声音信号与历史声音记录的第二差异。

根据本发明一实施方式，所述方法还包括：根据所述声音信号和所述差异，对所述历史声音记录进行更新。

根据本发明一实施方式，所述根据所述声音信号和所述差异，对所述历史声音记录进行更新，包括：在所述差异满足所述声音信号与所述历史声音记录之间的差异率小于或等于设定差异阈值的情况下，根据所述声音信号的多个分支信号的波达方向和噪声类型更新历史声音记录；在所述差异满足所述声音信号与所述历史声音记录之间的差异率大于设定差异阈值的情况下，对所述历史声音记录执行以下操作之一，并将所述声音信号的多个分支信号的波达方向和噪声类型作为更新后的历史声音记录：所述历史声音记录作为第一历史记录进行保存；删除所述历史声音记录。

根据本发明一实施方式，所述根据所述历史声音记录、所述波达方向和所述声源类型，从所述声音信号中提取目标语音，包括：根据所述历史声音记录，确定所述历史声音记录中从每一波达方向接收到目标语音的概率；根据分支信号的波达方向对应的所述概率，确定所述分支信号的增益；根据所述增益，对所述分支信号进行增强或抑制处理，得到所述声音信号的增益信号；在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对所述增益信号进行降噪处理，得到所述目标语音。

根据本发明一实施方式，所述根据分支信号的波达方向对应的所述概率，确定所述分支信号的增益，包括：确定在所述历史声音记录中从所述分支信号的波达方向接收到目标语音的概率；根据所述概率以及预先确定的概率与分支信号的增益之间的映射关系，确定所述波达方向的分支信号的增益。

根据本发明一实施方式，所述设定降噪条件包括：所述分支信号的波达方向和噪声类型符合所述统计结果中波达方向与噪声类型之间的噪声映射，所述噪声映射用于示出从所述波达方向上接收到相应噪声类型的概率大于设定噪声概率；相应的，所述在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对所述增益信号进行降噪处理，得到所述目标语音，包括：对所述增益信号中所述波达方向上的分支信号进行对应于所述噪声类型的降噪处理，得到所述目标语音。

根据本发明第二方面，还提供了一种语音处理装置，所述装置包括：接收模块，用于接收声音信号，所述声音信号包括来自于混响环境中的任意方向的多路分支信号；确定模块，用于确定所述多路分支信号的波达方向和噪声类型；差异确定模块，用于根据所述波达方向和噪声类型，确定所述声音信号与历史声音记录之间的差异；处理模块，用于在所述差异满足第一设定差异条件的情况下，根据所述历史声音记录、所述波达方向和所述噪声类型，从所述声音信号中提取目标语音。

根据本发明第三方面，又提供了一种计算机可读存储介质，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行上述语音处理方法。

根据本发明第四方面，又提供了一种电子设备，所述设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线；其中，所述处理器、所述存储器通过所述总线完成相互间的通信；所述处理器用于调用所述存储器中的程序指令，以执行上述语音处理方法。

本发明实施例语音处理装置方法、装置、计算机可读存储介质及电子设备，在接收到包括来自于混响环境中的任意方向的多路分支信号的声音信号时，分别确定多路分支信号的波达方向和噪声类型，并根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异，在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和所述声源类型，从声音信号中提取目标语音。如此，在接收到声音信号时，充分利用用户历史声音记录，根据历史声音记录的先验规律，例如：用户使用习惯以及相对的固定噪声类型等信息，能够对声音信号进行有针对性的目标语音提取。从而有效提高声音信号的识别准确率，进一步的提高声音信号对设备的唤醒和相应准确率。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明一实施例语音处理方法的实现流程示意图；

图2示出了本发明另一实施例语音处理方法的实现流程示意图；

图3示出了本发明实施例语音处理装置的组成结构示意图；

图4示出了本发明实施例电子设备的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为使本发明更加透彻和完整，并能够将本发明的范围完整地传达给本领域的技术人员。

首先，对本发明的应用场景进行简单说明，本发明技术方案可以应用于智能音箱、智能家居和其他具有语音识别和响应功能的智能声音设备。例如：对于智能音箱，在通过多传声器阵列接收到声音信号时，对所接收到的声音信号进行识别和处理，并在确定需要唤醒智能音箱时，唤醒智能音箱，并对声音信号进行响应。当然，以上仅仅是本发明应用场景的示例性说明，本发明实施例还可以应用于其他适用的应用场景。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例语音处理方法的实现流程示意图。

参考图1，本发明实施例语音处理方法，至少包括如下操作流程：操作101，接收声音信号，声音信号包括来自于混响环境中的任意方向的多路分支信号；操作102，分别确定多路分支信号的波达方向和噪声类型；操作103，根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异；操作104，在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和声源类型，从声音信号中提取目标语音。

在操作101，接收声音信号，声音信号包括来自于混响环境中的任意方向的多路分支信号。

在本发明一实施方式中，智能声音设备通过多传声器阵列接收到来自于混响设备中任意方向的多路分支信号。

在操作102，分别确定多路分支信号的波达方向和噪声类型。

在本发明一实施方式中，波达方向可以用分支信号的声源位置与接收声音信号的设备的连线与基准线之间的夹角表示。基准线的位置可以根据实际需求设定，例如：可以通过智能声音设备所在位置的点，并且用于示出地理位置上正南正北方向的直线作为基准线。

在本发明一实施方式中，对于通过多传声阵列接收到的多路分支信号，可以根据通用的声音信号的方向确定方法来确定每一分支信号的波达方向。对于噪声类型，可以通过噪声识别模型来对分支信号的噪声类型进行识别。具体的，可以首先获取用于训练噪声识别模型的多个声波信号，并对声波信号进行标注，噪声类型可以根据实际需求设定，例如：可以包括炒菜声、流水声、聊天声音、婴幼儿吵闹声等，利用常见的用于分类识别的神经网络即可进行模型训练。为了提高噪声识别模型的识别准确率，这里用于训练的声波信号，可以包括智能声音设备所接收的历史声音记录，并且可以利用当前接收到的声音信号进行自学习，更新噪声识别模型。由此，可以根据噪声识别模型，分别确定多路分支信号的各个分支信号的噪声类型。

在操作103，根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异。

在本发明一实施方式中，可以首先确定多路分支信号的波达方向和噪声类型的对应关系。具体的，根据操作102确定了每一分支信号的波达方向和噪声类型，其中每一分支信号的波达方向是唯一的，一个分支信号的噪声类型可以是无噪声，也可以包括多种类型的噪声。例如：智能声音设备位于客厅中，对于厨房方向上的分支信号，噪声类型可以包括炒菜声和流水声等。这里首先根据操作将102得到的结果，确定多路分支信号的波达方向和噪声类型的对应关系。然后获取历史声音记录中波达方向与噪声类型的映射，这里映射关系能够准确反映每一波达方向上可能包括的噪声类型。最后，根据对应关系与映射，确定声音信号与历史声音记录的第一差异。

在本发明一实施方式中，还通过确定历史声音记录中从每一波达方向接收到目标语音的概率，并根据多个分支信号的波达方向和概率，确定声音信号与历史声音记录的第二差异。具体的，可以首先根据历史声音记录，确定历史声音记录中从每一分支信号的波达方向接收到目标语音的概率。这里，可以对历史声音信号中的每一声音信号记录的目标语音的波达方向进行标记。例如：历史声音记录中包括100条声音信号记录，也即历史声音记录中记录了智能声音设备接收的100条声音信号记录，对100条声音信号记录中的每一条声音信号记录的目标语音来之于哪一波达方向进行标注。由此，可以，确定历史声音记录中从每一分支信号的波达方向接收到目标语音的概率。

在本发明一实施方式中，智能声音设备为智能音箱，智能音箱放置位置为客厅电视柜位置，智能音箱的100条声音信号记录中，其中80条声音信号记录中目标语音的分支信号为沙方方向，15条声音信号记录中目标语音的分支信号为卫生间方向，并且卫生间方向的分支信号噪声类型包括流水声，5条声音信号记录中目标语音的分支信号为厨房方向，并且厨房方向的分支信号噪声类型包括流水声和炒菜声。这里，沙发方向、卫生间方向和厨房方向等可以以数学和物理意义上坐标方式表示。由此，可以确定历史声音记录中从每一分支信号的波达方向接收到目标语音的概率。

在本发明一实施方式中，可以根据分支信号的波达方向是否包括历史声音记录中接收到目标语音的概率较高的波达方向来确定第二差异。

操作104，在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和声源类型，从声音信号中提取目标语音。

在本发明一实施方式中，差异满足第一设定差异条件是为了限定声音信号与历史声音记录的差异在设定差异范围内。即针对声音信号与历史声音记录的差异特别小的情况，视为声音信号与历史声音记录无差异，可以不对声音信号进行目标语音的提取，而直接对声音信号进行响应。而针对声音信号与历史声音记录差异特别大的情况，则在对声音信号的目标语音进行提取时，不再集合历史声音记录，而是直接对声音信号进行目标语音进行提取。

在本发明这一实施方式中，第一差异和第二差异符合以下至少之一，则判定为差异满足第一设定差异条件：第一差异小于第一设定阈值并且大于第二设定阈值；并且，第二差异小于第三设定阈值并且大于第四设定阈值。

在本发明这一实施方式中，可以通过以下方式定义第一差异大于第二设定阈值：如果声音信号中的波达方向为a的分支信号噪声类型为x，历史声音记录中只有波达方向为b的分支信号多对应的噪声类型包括x，并且波达方向a与波达方向b的角度差大于第一设定阈值，例如：45°。相应的，可以根据以上方式定义第一差异小于第一设定阈值。

在本发明这一实施方式中，通过以下方式定义第二差异大于第四设定阈值：如果声音信号中仅包括波达方向为a的分支信号，则声音信号的目标语音的分支信号的波达方向为a的概率为1。历史声音记录中从波达方向为a的方向接收到目标语音的概率为y，则第二差异为1-y。若1-y＞第四设定阈值，则认为第二差异大于第四设定阈值。相应的，可以根据以上方式定义第二差异小于第三设定阈值。

图2示出了本发明另一实施例中语音处理方法的实现流程示意图。

参考图2，本发明另一实施例中语音处理方法，至少包括如下操作流程：

操作201，接收声音信号。

操作202，分别确定多路分支信号的波达方向和噪声类型。

操作203，确定声音信号与历史声音记录之间的差异。

在声音信号与历史声音记录之间的差异率小于或等于设定差异阈值的情况下，执行操作2041；在声音信号与历史声音记录之间的差异率大于设定差异阈值的情况下，执行操作2042。

操作2041，根据声音信号的多个分支信号的波达方向和噪声类型更新历史声音记录。

操作2042，历史声音记录作为第一历史记录进行保存或删除历史声音记录；将声音信号的多个分支信号的波达方向和噪声类型作为更新后的历史声音记录。

操作205，根据历史声音记录，确定历史声音记录中从每一波达方向接收到目标语音的概率。

操作206，根据分支信号的波达方向对应的概率，确定分支信号的增益。

在本发明一实施方式中，首先，确定在历史声音记录中从分支信号的波达方向接收到目标语音的概率，然后根据概率以及预先确定的概率与分支信号的增益之间的映射关系，确定波达方向的分支信号的增益。

操作207，根据增益，对分支信号进行增强或抑制处理，得到声音信号的增益信号。

这里，可以对每一分支信号都处理后，得到的声音信号的增益信号。

操作208，在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对增益信号进行降噪处理，得到目标语音。

在本发明一实施方式中，设定降噪条件包括：分支信号的波达方向和噪声类型符合统计结果中波达方向与噪声类型之间的噪声映射，噪声映射用于示出从波达方向上接收到相应噪声类型的概率大于设定噪声概率。

在本发明一实施方式中，在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对增益信号进行降噪处理，得到目标语音，包括：对增益信号中波达方向上的分支信号进行对应于噪声类型的降噪处理，得到目标语音。

其中，操作201～208的其他具体实现过程与图1所示实施例中操作101～104的具体实现过程相类似，这里不再赘述。

本发明实施例语音处理装置方法、装置、计算机可读存储介质及电子设备，在接收到包括来自于混响环境中的任意方向的多路分支信号的声音信号时，分别确定多路分支信号的波达方向和噪声类型，并根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异，在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和声源类型，从声音信号中提取目标语音。如此，在接收到声音信号时，充分利用用户历史声音记录，根据历史声音记录的先验规律，例如：用户使用习惯以及相对的固定噪声类型等信息，能够对声音信号进行有针对性的目标语音提取。从而有效提高声音信号的识别准确率，进一步的提高声音信号对设备的唤醒和相应准确率。

同理，基于上文语音处理方法，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有程序，当程序被处理器执行时，使得处理器至少执行如下的操作步骤：操作101，接收声音信号，声音信号包括来自于混响环境中的任意方向的多路分支信号；操作102，分别确定多路分支信号的波达方向和噪声类型；操作103，根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异；操作104，在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和声源类型，从声音信号中提取目标语音。

进一步，基于如上文语音处理方法，本发明实施例还提供一种语音处理装置，如图3，该装置30包括：接收模块301，用于接收声音信号，声音信号包括来自于混响环境中的任意方向的多路分支信号；确定模块302，用于确定多路分支信号的波达方向和噪声类型；差异确定模块303，用于根据波达方向和噪声类型，确定声音信号与历史声音记录之间的差异；处理模块304，用于在差异满足第一设定差异条件的情况下，根据历史声音记录、波达方向和噪声类型，从声音信号中提取目标语音。

根据本发明一实施方式，差异确定模块303包括：关系确定子模块，用于确定多路分支信号的波达方向和噪声类型的对应关系；映射获取子模块，用于获取历史声音记录中波达方向与噪声类型的映射；第一差异确定子模块，用于根据对应关系与映射，确定声音信号与历史声音记录的第一差异；概率确定子模块，用于确定历史声音记录中从每一波达方向接收到目标语音的概率；第二差异确定子模块，用于根据多个分支信号的波达方向和概率，确定声音信号与历史声音记录的第二差异。

根据本发明一实施方式，装置30还包括：更新子模块，用于根据声音信号和差异，对历史声音记录进行更新。

根据本发明一实施方式，更新子模块根据声音信号和差异，对历史声音记录进行更新，包括：在差异满足声音信号与历史声音记录之间的差异率小于或等于设定差异阈值的情况下，根据声音信号的多个分支信号的波达方向和噪声类型更新历史声音记录；在差异满足声音信号与历史声音记录之间的差异率大于设定差异阈值的情况下，对历史声音记录执行以下操作之一，并将声音信号的多个分支信号的波达方向和噪声类型作为更新后的历史声音记录：历史声音记录作为第一历史记录进行保存；删除历史声音记录。

根据本发明一实施方式，处理模块304，包括：方向概率子模块，用于根据历史声音记录，确定历史声音记录中从每一波达方向接收到目标语音的概率；增益确定子模块，用于根据分支信号的波达方向对应的概率，确定分支信号的增益；信号处理子模块，用于根据增益，对分支信号进行增强或抑制处理，得到声音信号的增益信号；降噪处理子模块，用于在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对增益信号进行降噪处理，得到目标语音。

根据本发明一实施方式，增益确定子模块根据分支信号的波达方向对应的概率，确定分支信号的增益，包括：确定在历史声音记录中从分支信号的波达方向接收到目标语音的概率；根据概率以及预先确定的概率与分支信号的增益之间的映射关系，确定波达方向的分支信号的增益。

根据本发明一实施方式，设定降噪条件包括：分支信号的波达方向和噪声类型符合统计结果中波达方向与噪声类型之间的噪声映射，噪声映射用于示出从波达方向上接收到相应噪声类型的概率大于设定噪声概率；相应的，在分支信号的波达方向和噪声类型满足设定降噪条件的情况下，根据分支信号的波达方向和噪声类型，对增益信号进行降噪处理，得到目标语音，包括：对增益信号中波达方向上的分支信号进行对应于噪声类型的降噪处理，得到目标语音。

更进一步的，基于如上文语音处理方法，本发明实施例还提供一种电子设备，如图4，该电子设备4包括至少一个处理器401、以及与处理器401连接的至少一个存储器402、总线403；其中，处理器401、存储器402通过总线403完成相互间的通信；处理器401用于调用存储器402中的程序指令，以执行上述语音处理方法。

这里需要指出的是：以上对针对语音处理装置及电子设备实施例的描述，与前述图1至2所示的方法实施例的描述是类似的，具有同前述图1至2所示的方法实施例相似的有益效果，因此不做赘述。对于本发明语音处理装置及电子设备实施例中未披露的技术细节，请参照本发明前述图1至2所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(readonlymemory，rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音处理方法、装置、可读存储介质及电子设备与流程

相关文章

最热文献