农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

音频的方向定位侦测装置及方法以及音频处理系统与流程

2021-08-06 18:27:00 来源：中国专利 TAG：是有音频处理侦测装置音频

本发明是有关于一种音频处理的技术，且特别是有关于一种音频的方向定位侦测装置、方法以及音频处理系统。

背景技术：

语音辨识技术是自动将人类的语音内容转化为相应文字，为目前的热门技术之一。随着科技的发展与网路的普及，语音辨识系统已广泛应用于可携式装置等多项电子装置中，从而达到语音拨号、语音导航、室内装置控制或语音文件检索等功能。

然而在语音辨识系统获取声源信号时，不可避免会受到环境杂讯、混响、回声以及他人说话等因素的干扰，此些因素会严重影响语音辨识的正确率。为此，如何实现杂讯抑制并提取纯净声源信号便成为此领域的重要课题之一。

技术实现要素：

本发明提供一种音频的方向定位侦测装置及方法以及音频处理系统，可抑制杂讯并透过音频方向的定位技术而提取纯净的声源信号，以提升语音辨识的正确率。

本发明揭露一种音频的方向定位侦测装置。音频的方向定位侦测装置包括第一滤波器、绝对值运算器、第二滤波器以及方向定位处理器。第一滤波器接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作，以产生多个第二音频波束。绝对值运算器耦接第一滤波器，绝对值运算器对各个第二音频波束的振幅进行绝对值运算，以产生多个第三音频波束。第二滤波器耦接绝对值运算器，第二滤波器将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束，以产生多个第四音频波束。方向定位处理器耦接第二滤波器，方向定位处理器将多个第四音频波束区分为多个音频波束组，依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束，以输出经选择音频波束对应的波束信息，且波束信息用于语音识别及判断语音方向。

本发明揭露一种音频处理系统。音频处理系统包括噪声消除装置、波束成形装置、方向定位侦测装置以及语音辨识器。噪声消除装置接收麦克风信息及扬声器播放信息，依序将麦克风信息及扬声器播放信息进行滤波操作、取样率转换操作以及回声消除操作，以产生经回声消除音频数据。波束成形装置耦接噪声消除装置以依据经回声消除音频数据产生多个第一音频波束。方向定位侦测装置接收多个第一音频波束，依序将第一音频波束进行第一无限脉冲响应操作、绝对值运算以及第二无限脉冲响应操作以产生多个经处理音频波束，并选出部分的多个经处理音频波束产生多个波束信息，多个波束信息对应至少一特定方向。语音辨识器耦接方向定位侦测装置，语音辨识器依据多个波束信息进行语音识别及判断语音方向。

本发明揭露一种音频的方向定位侦测方法。音频的方向定位侦测方法包括下列步骤。接收多个第一音频波束并对各个第一音频波束进行第一无限脉冲响应操作，以产生多个第二音频波束。对各个第二音频波束的振幅进行一绝对值运算，以产生多个第三音频波束。将各个第三音频波束进行第二无限脉冲响应操作来平滑各个第三音频波束，以产生多个第四音频波束。以及，将所述多个第四音频波束区分为多个音频波束组，依据各个音频波束组中各个第四音频波束的能量而从各个音频波束组中选择一经选择音频波束，以输出经选择音频波束对应的波束信息，波束信息用于语音识别及判断语音方向。

基于上述，本发明实施例接收来自麦克风阵列中多个麦克风的音频信息，并在判断麦克风信息中有人声时，启动音频处理系统的后续操作，并在后续操作中利用多种无限脉冲响应操作以从这些麦克风消息对应的音频波束中准确地获得语音的来源方向。后续操作还包括对麦克风信息及扬声器播放信息进行噪声和回声消除。藉此，音频处理系统便可依据上述方式而抑制杂讯并提取纯净声源信号，以提升语音辨识的正确率。此外，本实施例的音频处理系统大部份皆可由硬体实现，在保证效能的同时不占用中央处理器的(cpu)资源。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图式作详细说明如下。

附图说明

图1是依照本发明一实施例所绘示的音频处理系统的方块图。

图2是依照本发明一实施例所绘示的噪声消除装置的详细方块图。

图3是依照本发明一实施例所绘示的波束成形装置的详细方块图。

图4是依照本发明一实施例所绘示的方向定位侦测装置的详细方块图。

图5是依照本发明一实施例所绘示的麦克风阵列的范例。

图6是依照本发明另一实施例所绘示的音频处理系统的方块图。

图7是依照本发明一实施例所绘示的音频的方向定位侦测方法的流程图。

附图标记说明

100、600：音频处理系统

110、200：噪声消除装置

120、300：波束成形装置

130、400：方向定位侦测装置

140：语音辨识器

150：麦克风阵列

160：语音活性检测器

170：音频处理器

180：扬声器

210、212：有限脉冲响应滤波器

220、222：取样率转换器

230：回声消除器

310：双线性插值器

320：波束运算处理器

410、430：滤波器

420：绝对值运算器

440：方向定位处理器

500：圆形阵列

610：输出缓冲器

620：乘法器

700：流程图

ad1、ad1’、ad2、ad2’：音频数据

b0～b7：波束方向

beam、beam1～beamn、beam’、beam”、beam”’：音频波束

beam_data_ch1～beam_data_chk：输出波束通道数据

beam_index_ch1～beam_index_chk：输出波束通道索引

beam_info：波束信息

ecd：经回声消除音频数据

ecd_mic1～ecd_micm：经回声消除的音频信息

m0～m2：麦克风位置

md：麦克风信息

pd：扬声器播放信息

s710、s720、s730、s740：步骤

ws：语音命令信号

具体实施方式

图1是依照本发明一实施例所绘示之音频处理系统的方块图。请参照图1，本实施例的音频处理系统100主要包括噪声消除装置110、波束成形装置120、方向定位(directionofarrival；doa)侦测装置130以及语音辨识器140。波束成形装置120耦接噪声消除装置110，方向定位侦测装置130耦接波束成形装置120，语音辨识器140耦接方向定位侦测装置130。本实施例的音频处理系统100是以智慧音箱或相关的消费型电子装置来实现。

在本实施例中，噪声消除装置110接收麦克风信息md及扬声器播放信息pd，并且依序将麦克风信息md及扬声器播放信息pd进行滤波操作、取样率转换操作以及回声消除操作，以产生经回声消除音频数据ecd。藉此，噪声消除装置110用以消除噪声和回声。在一实施例中，此处所指的回声也可以是从扬声器180产生的自噪声，本发明并不加以限制。噪声消除装置110的详细操作方式将于图2中进一步描述。

波束成形装置120接收经回声消除音频数据ecd，并且依据经回声消除音频数据ecd产生多个音频波束beam。基此，由于噪声消除装置110中可具备有限脉冲响应滤波器，因此波束成形装置120与噪声消除装置110可一同实现滤波和波束成形(filter-and-sumbeamforming；fsb)的功能。也就是说，本实施例的波束成形装置120自身可以不具备滤波功能。波束成形装置120的详细操作方式将于图3中进一步描述。

方向定位侦测装置130接收多个音频波束beam，且依序将音频波束beam进行第一无限脉冲响应操作、绝对值运算以及第二无限脉冲响应操作以产生多个经处理音频波束，并从上述的经处理音频波束中选出部分经处理音频波束以产生多个波束信息beam_info。值得注意的是，多个波束信息beam_info对应至少一特定方向。由此，方向定位侦测装置130可以输出多个声源及每个声源的方向信息。方向定位侦测装置130的详细操作方式将于图4中进一步描述。

最后，语音辨识器140接收多个波束信息beam_info，并且依据多个波束信息beam_info进行语音识别及判断语音方向，以将声源所发出的语音内容转换为相应的语音命令信号ws并进行输出。

在一实施例中，音频处理系统100更包括麦克风阵列150，麦克风阵列150耦接至噪声消除装置110。麦克风阵列150包括在空间上分离的多个麦克风(例如，下述图5所示以3个麦克风组成的麦克风阵列)。本系统可支援1至8个麦克风，并可支援麦克风采用圆型或线型等阵列阵形，本发明实施例并不限制麦可风阵列150中麦克风的数量及排列方式，应用本实施例者可依其需求适应性调整。每个麦克风分别产生音频信息，且麦克风信息md包括每个麦克风的音频信息。在另一实施例中，音频处理系统100更包括语音活性检测器(voiceactivitydetection；vad)160，语音活性检测器160耦接于麦克风阵列150与噪声消除装置110之间。语音活性检测器160判断麦克风信息md中是否有人声，并且，在语音活性检测器160判断麦克风信息md中有人声的情况下启动噪声消除装置110，并将麦克风信息md传递至噪声消除装置110，以使音频处理系统100进行语音识别及判断语音方向。另一方面，在语音活性检测器160判断麦克风信息md中没有人声的情况下将关闭噪声消除装置110及后续的相关元件，从而实现省电功能。

在一实施例中，音频处理系统100更包括音频处理器170及扬声器180，扬声器180耦接音频处理器170。音频处理器170产生扬声器播放信息pd，且扬声器180依据扬声器播放信息pd来播放音频。值得注意的是，因为音频处理系统100可实现为智慧音箱，且扬声器播放信息pd为设备本身播放通道的音频信息，对于有播放功能的设备，需要回采音频信息，以消除设备本身发出的音频干扰。

图2是依照本发明一实施例所绘示之噪声消除装置的详细方块图。本实施例的噪声消除装置200用以进一步说明图1噪声消除装置110的详细操作方式。请参照图2，噪声消除装置200包括有限脉冲响应滤波器210、有限脉冲响应滤波器212、取样率转换器220、取样率转换器222以及回声消除器230。取样率转换器220耦接有限脉冲响应滤波器210，取样率转换器222耦接有限脉冲响应滤波器212，回声消除器230耦接取样率转换器220以及取样率转换器222。

在本实施例中，有限脉冲响应滤波器210接收麦克风信息md并将其转换为音频数据ad1，取样率转换器220将音频数据ad1转换为符合一取样频率(比如16khz)的音频数据ad1’。且有限脉冲响应滤波器212接收扬声器播放信息pd并将其转换为音频数据ad2，取样率转换器222将音频数据ad2转换为符合所述取样频率(比如16khz)的音频数据ad2’。最后，回声消除器230依据音频数据ad2’以对音频数据ad1’进行回声消除，以产生经回声消除音频数据ecd。

藉此，有限脉冲响应滤波器210、有限脉冲响应滤波器212、取样率转换器220及取样率转换器222完成低失真率取样速率转换，使后续模组工作在指定的取样速率上(比如16khz)。此外，回声消除器230接收播放通道和麦克风通道两路数据并进行回声消除。

图3是依照本发明一实施例所绘示之波束成形装置的详细方块图。本实施例的波束成形装置300用以进一步说明图1波束成形装置120的详细操作方式。请参照图3，波束成形装置300包括双线性插值器310以及波束运算处理器320。波束运算处理器320耦接双线性插值器310。

在本实施例中，双线性插值器310分别对麦克风信息中的多个麦克风的经回声消除的音频信息ecd_mic1～ecd_micm进行延迟，以使经回声消除的音频信息ecd_mic1～ecd_micm依据信息波形来对齐。接着，波束运算处理器320依据滤波和波束成形演算法以依据经延迟的多个音频信息产生多个音频波束beam1～beamn。举例而言，m可为8，n可为32，即可支持8个麦克风的输入，并输出32个波束，然而本发明不以此为限。

在一些实施例中，波束运算处理器320亦可使用其他波束成形演算法来产生多个音频波束beam1～beamn，本发明并不加以限制。

图4是依照本发明一实施例所绘示之方向定位侦测装置的详细方块图。本实施例的方向定位侦测装置400用以进一步说明图1方向定位侦测装置130的详细操作方式。请参照图4，方向定位侦测装置400包括滤波器410、绝对值运算器420、滤波器430以及方向定位处理器440。绝对值运算器420耦接滤波器410，滤波器430耦接绝对值运算器420，方向定位处理器440耦接滤波器430。

在本实施例中，滤波器410接收多个音频波束beam1～beamn，并且对各个音频波束beam1～beamn进行第一无限脉冲响应操作，以产生多个音频波束beam1’～beamn’(图4中仅以beam’表示)。值得注意的是，滤波器410对各个音频波束beam1～beamn进行第一无限脉冲响应操作，其目的是选择出人声所处频段的音频数据，并降低非人声频段中的噪声对于语音信息的干扰。第一无限脉冲响应操作例如是二阶无限脉冲响应(secondorderiir)操作。

接着，绝对值运算器420接收音频波束beam’，并且对各个音频波束beam’的振幅进行一绝对值运算，以产生多个音频波束beam1”～beamn”(图4中仅以beam”表示)。需注意的是，绝对值运算器420对各个音频波束beam’的振幅进行绝对值运算，藉此降低后续运算的复杂度。

再者，滤波器430接收多个音频波束beam”，并且将各个音频波束beam”进行第二无限脉冲响应操作来平滑各个音频波束beam”，以产生多个音频波束beam1”’～beamn”’(图4中仅以beam”’表示)。值得一提的是，滤波器430可进行低通滤波以平滑各个音频波束beam”的包络(envelope)，以避免方向定位处理器440在选择判断语音方向时不断地选择相邻的音频波束beam”’。第二无限脉冲响应操作例如是一阶无限脉冲响应(firstorderiir)操作。在符合本发明的一些实施例中，第一无限脉冲响应(如，二阶无限脉冲响应)操作的阶数大于第二无限脉冲响应(如，一阶无限脉冲响应)操作的阶数。

方向定位处理器440接收多个音频波束beam”’，并且将多个音频波束beam”’区分为多个音频波束组，依据各个音频波束组中各个音频波束beam”’的能量而从各个音频波束组中选择一经选择音频波束，以输出经选择音频波束对应的波束信息，且波束信息用于语音识别及判断语音方向。具体而言，方向定位处理器440在各个音频波束组中选择各个音频波束beam”’的包络具备振幅最大者(即为能量最大者)作为经选择音频波束。此外，每个音频波束组分别对应一通道，波束信息包括通道的输出波束通道数据(data)以及通道的输出波束通道索引(index)，且输出波束通道数据用于语音识别以获得至少一个语音信息，输出波束通道索引用于判断所述至少一个语音信息所对应的传递方向。

举例来说，方向定位处理器440将接收到的音频波束beam1”’～beamn”’均分为k组(k为整数，例如4)，每组音频波束分别处理并选出每组中具备能量最大者的一个音频波束作为一个通道输出，输出的信息包括用于语音识别的输出波束通道数据beam_data_ch1～beam_data_chk和用于声源方向判断的输出波束通道索引beam_index_ch1～beam_index_chk。利用将音频波束分组并选出各组中具有能量最大者的方式，对于单声源或多声源的情况，本实施例的方向定位处理器440都可有效提取出各声源对应的音频信息和方向信息。

值得注意的是，进行一阶滤波器滤波操作的目的是提取音频资料包络并作平滑处理，因声音的幅度是不断跳变的，经平滑处理后可避免相邻样本间选择声源方向时不断跳变。方向定位侦测装置400最终根据处理后的音频资料幅度大小选择当前音频波束分组中哪个音频波束为声源，并输出其音频信息和方向信息，以实现多声源分离提取。

图5是依照本发明一实施例所绘示之麦克风阵列的范例。请参照图5，以3个麦克风和8个波束的圆形阵列500为例，m0～m2为3个麦克风位置，b0～b7为8个波束方向。本发明即是基于麦克风阵列实现语音增强和声源测向的硬体系统。

图6是依照本发明另一实施例所绘示之音频处理系统的方块图。本实施例的音频处理系统600用以进一步说明图1音频处理系统100的详细操作方式。请参照图6，音频处理系统600还包括输出缓冲器610。有限脉冲响应滤波器210、取样率转换器220、有限脉冲响应滤波器212、取样率转换器222、回声消除器230、波束成形装置120、方向定位侦测装置130以及语音辨识器140共用输出缓冲器610。举例而言，有限脉冲响应滤波器210将处理后的数据写入输出缓冲器610，取样率转换器220工作时直接从输出缓冲器610读取有限脉冲响应滤波器210写入输出缓冲器610的数据，完成处理后同样写入输出缓冲器610供后续模组使用，这样所有模组共用一块输出缓冲器610。在一实施例中，输出缓冲器610例如是静态随机存取记忆体(staticrandomaccessmemory；sram)，本发明并不加以限制。

在一实施例中，音频处理系统600更包括乘法器620。有限脉冲响应滤波器210、取样率转换器220、有限脉冲响应滤波器212、取样率转换器222、回声消除器230、波束成形装置120、方向定位侦测装置130以及语音辨识器140以管线排序方式共用乘法器620(也就是说，依序使用乘法器620进行运算)。

图7是依照本发明一实施例所绘示之音频的方向定位侦测方法的流程图。并同时参考图4的方向定位侦测装置400及图7的流程图700，于步骤s710中，方向定位侦测装置400的滤波器410接收多个音频波束beam1～beamn并对各个音频波束beam1～beamn进行第一无限脉冲响应操作，以产生多个音频波束beam’。于步骤s720中，绝对值运算器420对各个音频波束beam’的振幅进行绝对值运算，以产生多个音频波束beam”。于步骤s730中，滤波器430将各个音频波束beam”进行第二无限脉冲响应操作来平滑各个音频波束beam”，以产生多个音频波束beam”’。于步骤s740中，方向定位处理器440将多个音频波束beam”’区分为多个音频波束组，依据各个音频波束组中各个音频波束beam”’的能量而从各个音频波束组中选择一个经选择音频波束，以输出经选择音频波束对应的波束信息。此处的波束信息用于让图1的语音辨识器140进行语音识别及判断语音方向。图7中的详细硬体与操作已揭露于上述实施例中。

本实施例的音频处理系统在上电后，驱动器会根据具体的应用场景配置相关信息，例如麦克风数量、波束数量等，同时将每个波束对应的麦克风时延估计(timedelayestimation；tde)信息配置给波束成形装置。接着，在语音活性检测器检测到人声后，将每个麦克风通道的信息传送至有限脉冲响应滤波器，有限脉冲响应滤波器、取样率转换器将麦克风信息转化为指定的取样速率，再由回声消除器处理消除设备本身的音频回声干扰。消除回声后的数据再由波束成形装置进行语音增强处理形成波束，并由方向定位侦测装置确定声源，且输出其音频数据和方向信息。最后由语音辨识器接收声源音频数据和方向信息，并且进行语音识别及判断语音方向，以输出语音辨识结果。

综上所述，本发明实施例接收来自麦克风阵列中多个麦克风的音频信息，并在判断麦克风信息中有人声时，启动音频处理系统的后续操作，并在后续操作中利用多种无限脉冲响应操作以从这些麦克风消息对应的音频波束中准确地获得语音的来源方向。后续操作还包括对麦克风信息及扬声器播放信息进行噪声和回声消除。藉此，音频处理系统便可依据上述方式而抑制杂讯并提取纯净声源信号，以提升语音辨识的正确率。此外，本实施例的音频处理系统大部份皆可由硬体实现，在保证效能的同时不占用cpu资源。

虽然本发明已以实施例揭露如上，然其并非用以限定本发明，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视后附的权利要求所界定者为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：隔音材料以及隔音材料的制造方法与流程

音频的方向定位侦测装置及方法以及音频处理系统与流程

相关文章

最热文献