一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声响串扰抑制装置和声响串扰抑制方法与流程

2022-07-14 03:04:36 来源:中国专利 TAG:


1.本发明涉及声响串扰(acoustic crosstalk)抑制装置和声响串扰抑制方法。


背景技术:

2.专利文献1公开了一种声响去除装置,在该声响去除装置中,预先假定乘员的布置模式作为乘舱内的状况,针对各布置模式测量声音传输特性,并且通过使用通过测量获得的并存储在存储器等中的各传输特性来估计和去除从扬声器输出的语音信号中所包括的声响。根据该声响去除装置,只要乘员的布置满足这些布置模式中的任一个,就可以去除或抑制声响。
3.现有技术文献
4.专利文献
5.专利文献1:日本特开2009-216835


技术实现要素:

6.发明要解决的问题
7.在专利文献1的结构中,在驾驶员前方仅放置旨在收集驾驶员的发出语音的一个麦克风,并且例如,在其他乘员前方没有放置旨在收集这些乘员的语音的麦克风。由于充分考虑到在乘舱内存在多个乘员,因此在不仅驾驶员说话、而且其他乘员基本上同时与驾驶员说话的情况下,除驾驶员以外的其他乘员的发出语音也被驾驶员的麦克风收集到。因此,在专利文献1的结构中,不能抑制基于其他乘员的发声且包括在由驾驶员的麦克风收集到的语音信号中的串扰分量。这是因为驾驶员的麦克风难以收集其他乘员发出的清楚语音,并且难以学习用于将其他乘员的发出语音作为串扰分量进行抑制的自适应滤波器的滤波器系数。
8.本发明是有鉴于上述相关技术的情形而设计的,并且本发明的目的是提供一种声响串扰抑制装置和声响串扰抑制方法,其自适应地抑制存在于诸如乘舱等的封闭空间内的主说话者的发出语音中可能包括的声响串扰分量,并且改善主说话者的发出语音的声音质量。
9.用于解决问题的方案
10.本发明提供一种声响串扰抑制装置,其包括:说话者估计单元,其被配置为基于封闭空间内所布置的与n个人相对应的n个麦克风所收集的语音信号来估计所述封闭空间内的主说话者,其中n是等于或大于3的整数;n个滤波器更新单元,各滤波器更新单元包括滤波器,所述滤波器被配置为生成其他说话者的发声引起的且包括在所述主说话者的语音信号中的串扰分量的抑制信号,并且各滤波器更新单元被配置为更新用于抑制所述串扰分量的所述滤波器的参数以将所述滤波器的参数的更新结果存储在内部;以及串扰抑制单元,其被配置为通过使用合成抑制信号来抑制所述主说话者的语音信号中所包括的串扰分量,其中所述合成抑制信号是基于与除对应于所述主说话者的麦克风以外的最多(n-1)个麦克
风收集的参考信号相对应的最多(n-1)个滤波器更新单元所生成的抑制信号。
11.本发明提供一种声响串扰抑制方法,其由声响串扰抑制装置执行,所述声响串扰抑制方法包括:基于封闭空间内所布置的与n个人相对应的n个麦克风所收集的语音信号来估计所述封闭空间内的主说话者,其中n是等于或大于3的整数;利用n个滤波器更新单元中的各滤波器更新单元更新用于生成由其他说话者的发声引起且包括在所述主说话者的语音信号中的串扰分量的抑制信号的滤波器的参数,并且将所述滤波器的参数的更新结果存储在内部;以及通过使用合成抑制信号来抑制所述主说话者的语音信号中所包括的串扰分量,其中所述合成抑制信号是基于与除对应于所述主说话者的麦克风以外的最多(n-1)个麦克风收集的参考信号相对应的最多(n-1)个滤波器更新单元所生成的抑制信号。
12.发明的效果
13.根据本发明,可以自适应地抑制存在于诸如乘舱等的封闭空间内的主说话者的发出语音中可能包括的声响串扰分量,并且改善主说话者的发出语音的声音质量。
附图说明
14.图1是示出安装有根据第一实施例的声响串扰抑制装置的运载工具的乘舱内的乘员和麦克风的布置示例的图。
15.图2是示出在乘员d的嘴与麦克风md之间存在障碍物的情况下的乘舱内的状况的示例的图。
16.图3是示出根据第一实施例的声响串扰抑制装置的功能结构示例的框图。
17.图4是示出根据第一实施例的声响串扰抑制装置的操作过程的示例的流程图。
18.图5是示出根据第二实施例的声响串扰抑制装置的功能结构示例的框图。
19.图6是示出根据第二实施例的声响串扰抑制装置的功能结构示例的框图。
20.图7是示出根据第二实施例的声响串扰抑制装置的操作过程的示例的流程图。
21.图8是示出根据第二实施例的声响串扰抑制装置的操作过程的示例的流程图。
具体实施方式
22.(本发明的背景)
23.例如,假定作为封闭空间的运载工具的乘舱内的乘员a和乘员d这两者彼此交谈的状况(参见图1)。如图1所示,除了放置在乘员a前方的麦克风ma和放置在乘员d前方的麦克风md之外,在乘舱内还布置有放置在前排乘员座椅前方的麦克风mb和放置在其他后排座椅前方的麦克风mc。这里,假定了通过语音来识别由麦克风md收集的乘员d的语音的情况。需要抑制作为串扰分量且包括在麦克风md中的由乘员a发出的语音。在这种情况下,认为:利用自适应滤波器通过使用由麦克风md收集的语音的语音信号作为主信号并使用由麦克风ma收集的语音的语音信号作为参考信号来抑制串扰分量,并且可以通过使用由麦克风mb和麦克风mc收集的乘员a的语音的语音信号作为参考信号来增强作为乘员a的语音的串扰分量的抑制性能。这是因为,在诸如乘舱等的封闭空间的情况下,由于反射波等而导致乘员a的语音的语音带的一部分(特别是低频范围中的声音)可能被反射等所抵消并且可能未被麦克风ma收集。在语音识别中,由于接近人发出的语音的频带的低频范围中的声音重要,因此语音识别的准确度可能显著地降低。
24.麦克风md可能无法清楚地收集期望经受语音识别的乘员d的语音。作为其原因,例如,考虑在乘员d的嘴与麦克风md之间存在一些障碍物的状况(参见图2)以及特定于封闭空间的传输特性等。在这种情况下,预先估计说话者的位置,使用在麦克风md近旁的可能能够清楚地收集乘员d的语音的麦克风mc,并且输出从由麦克风mc收集的语音中抑制了串扰分量的语音。预期可以通过对串扰抑制之后的语音进行语音识别来提高语音识别。
25.因此,在以下实施例中,将说明在串扰分量的抑制量或语音识别结果出乎意料的情况下、通过动态地改变主信号和参考信号来改善性能的声响串扰抑制装置的示例。
26.在下文,将适当地参考附图来详细说明具体公开根据本发明的声响串扰抑制装置和声串扰抑制方法的实施例。然而,可能省略不必要详细的说明。例如,可以省略对众所周知的事项的详细说明或对基本上相同的结构的重复说明。这是为了避免以下说明中的不必要冗余,并且便于本领域技术人员的理解。附图和以下的说明是为了本领域技术人员全面理解本发明而提供的,而并不旨在限制权利要求书中的主题。
27.(第一实施例)
28.图1是示出安装有根据第一实施例的声响串扰抑制装置105的运载工具108的乘舱108z内的乘员和麦克风的布置示例的图。运载工具108是多达7至8个人的小型货车,其在乘舱108z内例如包括驾驶员座椅、前排乘员座椅、第二排的后排座椅和第三排的后排座椅。应当注意,运载工具108不限于多达7至8个乘员的小型货车,并且例如可以采用5个乘员的乘用车或公共汽车,特别地,乘员的数量或运载工具类型不受限制。
29.在图1中,在与运载工具108的驾驶员相对应的乘员a就座的驾驶员座椅前方放置有麦克风ma。在前排乘员座椅前方放置有麦克风mb。例如,在第三排的后排座椅的右侧前方放置有麦克风mc。例如,在乘员d就座的第三排的后排座椅的左侧前方放置有麦克风md。可以可选地改变乘员的数量和布置。此外,麦克风例如可以布置在第二排的后排座椅的左侧前方和右侧前方。运载工具108的乘舱108z内所布置的麦克风的数量不限于四个,并且例如可以是三个或者五个或多于五个。
30.麦克风ma是用于主要收集乘员a发出的语音的麦克风。麦克风md是用于主要收集乘员d发出的语音的麦克风。尽管为了便于理解说明、图1示出没有乘员坐在前排乘员座椅、第二排的后排座椅和第三排的后排座椅的右侧的示例,但乘员可以坐在各个座椅上。
31.麦克风ma、mb、mc和md例如可以是定向麦克风或非定向麦克风。此外,麦克风ma、mb、mc和md各自可以配置有例如高质量和小尺寸的驻极体电容麦克风(ecm)的单体、或者配置有多个ecm的麦克风阵列等。麦克风ma、mb、mc和md连接到声响串扰抑制装置105,但为了避免图1的复杂化,未示出麦克风ma、mb、mc和md与声响串扰抑制装置105之间的布线。
32.声响串扰抑制装置105包括容纳各种电子组件的壳体,并且例如放置在运载工具108的乘舱108z内的仪表板内侧。声响串扰抑制装置105抑制由麦克风收集的语音中的除作为语音识别对象的乘员以外的乘员发出的语音(所谓的串扰分量)。不是语音识别对象的乘员发出的语音相对于作为语音识别对象的乘员发出的语音成为作为语音识别对象的语音中所包括的串扰分量。例如,由用于收集乘员d发出的语音的麦克风md收集的声音中所包括的串扰分量是由乘员a发出并由麦克风md收集的语音。
33.图2是示出在乘员d的嘴与麦克风md之间存在障碍物ob的情况下的乘舱108z内的状况的示例的图。在乘员d的嘴与麦克风md之间存在障碍物ob的情况下,由于障碍物ob处的
反射等的影响而导致麦克风md不能清楚地收集在乘员d发声时的语音。换句话说,由麦克风md收集的语音信号不适合作为在作为语音识别对象的乘员d发声时的语音信号(主信号)。在这种情况下,例如,存在放置在麦克风md附近(例如,与麦克风md相邻放置)的麦克风mc可以清楚地收集乘员d的语音的可能性。换句话说,由麦克风mc收集的语音信号适合作为在作为语音识别对象的乘员d发声时的语音信号(主信号)的可能性高。
34.(声响串扰抑制装置的结构)
35.图3是示出根据第一实施例的声响串扰抑制装置105的功能结构示例的框图。声响串扰抑制装置105通过对如下语音的语音信号进行卷积处理,来生成再现了由乘员a的发声引起并由麦克风md收集的串扰的串扰抑制信号(抑制信号的示例),其中该语音的语音信号由乘员a发出,由麦克风ma、mb和mc收集,并且包括在由想要进行语音识别的乘员d发出并由麦克风md收集的语音的语音信号中。声响串扰抑制装置105通过选择性地组合这些串扰抑制信号来合成这些串扰抑制信号。声响串扰抑制装置105通过从由麦克风md收集的语音信号中抑制(具体地,去除或减去)乘员a的经合成的串扰抑制信号来生成串扰分量的抑制之后的语音信号。这里,声响串扰抑制装置105通过作为语音识别对象的主乘员的发声所生成的语音信号被称为主信号,并且生成串扰抑制信号所根据的原始语音信号(即,由除作为串扰分量的发声源的主乘员以外的其他乘员的发声所生成的语音信号)被称为参考信号。
36.声响串扰抑制装置105例如配置有数字信号处理器(dsp)110以及存储器150a、150b、150c、150d和152作为硬件结构。除了dsp 110和存储器150a、150b、150c、150d和152之外,声响串扰抑制装置105还可以包括麦克风ma、mb、mc和md。此外,尽管这里例示了用于麦克风md的声响串扰抑制装置105,但这同样适用于用于麦克风ma的声响串扰抑制装置105。也就是说,将通过将由麦克风md收集的主乘员d的语音信号例示为主信号(一个)并且将由麦克风ma、mb和mc收集的乘员a的语音信号例示为参考信号(三个)来给出说明,但反过来,由麦克风ma收集的主乘员a的语音信号可以是主信号(一个)并且由麦克风md、mb、mc收集的副乘员d的语音信号可以是参考信号(三个)。
37.存储器150a将例如由副乘员a发出并由麦克风ma收集的语音的语音信号作为参考信号进行存储。
38.存储器150b将例如由副乘员a发出并由麦克风mb收集的语音的语音信号作为参考信号进行存储。
39.存储器150c将例如由副乘员a发出并由麦克风mc收集的语音的语音信号作为参考信号进行存储。
40.存储器150d还可以将例如由副乘员a发出并由麦克风md收集的语音的语音信号作为参考信号进行存储。
41.存储器152包括作为声响串扰抑制装置105的工作存储器的随机存取存储器(ram)、以及用于存储与声响串扰抑制装置105的处理有关的程序的只读存储器(rom)。存储器152存储利用语音识别单元146的语音识别结果(例如包括语音识别数据和得分值)以及作为由滤波器更新单元125a、125b、125c和125d更新的更新结果的示例的滤波器系数。语音识别数据例如是将由主乘员d(主说话者的示例)发出的语音的内容转换为文本的文本数据。得分值是表示作为由语音识别单元146进行的语音识别的处理结果的文本数据的可靠度(准确度)的评估值。例如,在得分值超过预定值的情况下,这被判断为成功(ok),并且在
得分值等于或小于预定值的情况下,这被判断为失败(ng)。
42.dsp 110例如是进行以下处理的处理器:从由主乘员d发出并由麦克风md收集的语音的语音信号中抑制由副乘员d发出的语音的串扰分量。此外,dsp 110对串扰分量的抑制之后的语音信号进行语音识别处理。这里,使用dsp作为处理器,但例如,可以使用中央处理单元(cpu)或图形处理单元(gpu)等。此外,可以使用由专用集成电路(asic)等设计的专用电子电路、或者被设计为可重配置的电子电路(诸如现场可编程门阵列(fpga)等)。
43.dsp 110包括说话者位置估计单元161、主信号获取单元162、参考信号获取单元166、加法器122、滤波器更新单元125a、125b、125c和125d、延迟器129a、129b、129c和129d、卷积信号合成单元165、抑制量估计单元143和语音识别单元146。
44.作为说话者估计单元的示例的说话者位置估计单元161基于由四个麦克风ma、mb、mc和md收集的声音的声压级来估计乘舱108z内的说话者位置(即,主要发声的乘员的位置)。在这种情况下,通常,在由放置在乘员前方的麦克风收集的语音的声压级因超过预定阈值(声压)而高的情况下,说话者位置估计单元161判断为该语音是由该乘员发出的。主信号获取单元162基于该判断结果来选择并获取乘员的语音信号作为主信号。然而,在乘员的嘴与麦克风之间存在障碍物ob的情况下(参见图2),由于特定于乘舱108z内的封闭空间的诸如反射等的传输特性,由乘员发出并由其他麦克风(例如,放置在该乘员前方所放置的麦克风附近的其他麦克风)收集的语音的声压级可能变得高于放置在该乘员前方的麦克风的声压级。在预先掌握这种状况的情况下,当由其他麦克风收集的语音的声压级变得高于由放置在乘员前方的麦克风收集的语音的声压级时,说话者位置估计单元161可以将说话者位置估计为乘员的发声。
45.说话者位置估计单元161可以输入由用于拍摄乘员的图像的乘舱108z内的照相机(未示出)得到的拍摄图像,对该拍摄图像进行面部识别,将例如张开嘴的乘员识别为说话者,并且估计说话者位置。此外,说话者位置估计单元161可以基于由各麦克风收集的语音的声压级和由照相机(未示出)得到的乘员的拍摄图像这两者来以高准确度估计说话者位置。此外,说话者位置估计单元161可以基于利用语音识别单元146的语音识别结果来估计说话者位置。此外,说话者位置估计单元161可以预先获取各乘员的声纹,将各声纹和与该声纹相对应的乘员的座椅位置的数据登记在存储器152中,将由各麦克风收集的语音的声纹与存储器152中所登记的声纹进行比较,并且在这些声纹一致的情况下,将说话者的座椅位置估计为说话者位置。
46.作为主信号获取单元的示例的主信号获取单元162输入由四个麦克风ma、mb、mc和md收集的语音的语音信号。主信号获取单元162基于说话者位置估计单元161的估计结果,从说话者位置处的乘员所发出的语音中选择并获取由任一麦克风收集的语音的语音信号作为主信号。主信号获取单元162将与收集被选择作为主信号的语音信号的麦克风有关的标识信息存储在存储器152中。主信号的语音通常是由放置在乘员前方的麦克风收集的语音中的具有最高声压级的语音,但在语音被障碍物ob等遮挡并且作为语音识别的结果、声音质量不好的情况下,主信号的语音可以是具有高声压级并且由其他麦克风(例如,放置在乘员前方所放置的麦克风附近的其他麦克风)代替乘员前方所放置的麦克风所收集的语音。也就是说,主信号获取单元162可以基于说话者位置估计单元161的估计结果来切换作为由各麦克风收集的主信号的语音信号的语音。主信号获取单元162使用最大语音的语音
信号作为主信号,但例如,作为主信号的乘员的语音信号可以是预先固定的。
47.参考信号获取单元166输入由四个麦克风ma、mb、mc和md收集的语音的语音信号。参考信号获取单元166参考存储在存储器152中的标识信息(即,与收集被选择作为主信号的语音信号的麦克风有关的标识信息),并且获取未被选择作为主信号的由多个麦克风收集的语音的语音信号作为参考信号。此外,参考信号获取单元166选择参考信号的组合。例如,在图3的结构中,在与所布置的麦克风的数量相对应的参数n(n:等于或大于3的整数)为“4”的情况下,参考信号获取单元166可以使用由与(n-1)相对应的三个麦克风(具体为麦克风ma、麦克风mb和麦克风mc)收集的参考信号的组合,或者可以使用由与(n-2)相对应的两个麦克风(具体为麦克风ma和麦克风mb、麦克风ma和麦克风mc、或者麦克风mb和麦克风mc)收集的参考信号的组合。此外,参考信号获取单元166可以选择由麦克风ma、mb和mc中的任一个收集的参考信号。参考信号的语音通常包括由放置在乘员a前方的麦克风收集的语音,但在语音被障碍物ob等遮挡并且作为语音识别的结果、声音质量不好的情况下,参考信号的语音可以仅是由其他麦克风收集的语音,而不包括由放置在乘员前方的麦克风收集的语音。
48.作为串扰抑制单元的示例的加法器122通过从例如由主乘员d发出并由麦克风md收集的语音的语音信号中减去合成了由滤波器更新单元125a、125b和125c所生成的串扰抑制信号的串扰合成抑制信号,来抑制由主乘员d发出并由麦克风md收集的语音中所包括的串扰分量。如上所述,由加法器122进行的处理严格来说是减法,但即使减去串扰合成抑制信号的处理也可被认为基本上等同于反转串扰合成抑制信号然后在加法器122中加上经反转的串扰合成抑制信号的处理。因此,在本说明书中,将串扰分量的抑制处理描述为由加法器122或后面说明的加法器222进行的处理。
49.将详细说明滤波器更新单元125a、125b、125c和125d的处理。由声响串扰抑制装置105抑制的串扰分量例如是由不是语音识别对象的其他乘员a发出的语音到达放置在作为语音识别对象的乘员d前方的麦克风md的语音。语音经由乘舱108z内的传输路径到达麦克风md。因此,麦克风md收集的语音是存在乘员a发出的语音通过传输路径所需的时滞(所谓的延迟时间)的、与乘员d发出的语音混合的语音。
50.滤波器更新单元125a、125b和125c各自例如基于由麦克风md收集的串扰分量的抑制之后的语音信号以及由麦克风ma、mb和mc收集并偏移了不同延迟时间的参考信号,来生成用于抑制(减去)由麦克风md收集的语音中所包括的串扰分量的串扰抑制信号。滤波器更新单元125a、125b、125c和125d包括卷积信号生成单元123a、123b、123c和123d、滤波器系数监视单元141a、141b、141c和141d、更新量计算单元126a、126b、126c和126d、非线性转换单元127a、127b、127c和127d、以及范数计算单元128a、128b、128c和128d。
51.由于滤波器更新单元125a、125b、125c和125d具有相同的结构,因此这里将通过示例的方式说明滤波器更新单元125a的结构,并且将简化其他滤波器更新单元125b、125c和125d的说明。例如,在以下对滤波器更新单元125a的说明中,在滤波器更新单元125a中提供的“卷积信号生成单元123a”、“更新量计算单元126a”、“非线性转换单元127a”和“范数计算单元128a”的附图标记中的字符“a”可被适当地替换为“b”、“c”和“d”。也就是说,滤波器更新单元125b、滤波器更新单元125c和滤波器更新单元125d各自均具有与滤波器更新单元125a的结构相同的结构。
52.作为滤波器的示例的卷积信号生成单元123a配置有例如自适应滤波器,通过使用由更新量计算单元126a计算出的滤波器系数(参数的示例)对参考信号进行卷积处理,并且进行从参考信号生成串扰抑制信号的处理。作为自适应滤波器,例如,使用专利文献1或日本特开2007-19595等中描述的有限脉冲响应(fir)滤波器。自适应滤波器再现麦克风md和麦克风ma之间的传输特性,并且通过处理参考信号来生成串扰抑制信号。然而,由于乘舱108z内的传输特性不稳定,因此自适应滤波器的特性也需要随时改变。在第一实施例中,通过控制自适应滤波器的系数或抽头数,改变自适应滤波器的特性,以接近麦克风md和麦克风ma之间的最新传输特性。在下文,自适应滤波器的更新可被称为学习。
53.由麦克风md收集的副乘员a的语音相对于由麦克风ma收集的副乘员a的语音延迟了语音从麦克风ma传输到麦克风md所持续的时间。由于参考信号由麦克风ma收集并被存储在存储器150a中,因此没有反映从麦克风ma到麦克风md的延迟时间。因此,在第一实施例中,作为延迟装置的延迟器129a吸收时间差。也就是说,延迟器129a利用上述时间差(简言之,语音从麦克风ma到麦克风md的传输路径所需的时间)对参考信号进行延迟处理,并将参考信号输出到滤波器更新单元125a。因此,滤波器更新单元125a可以获得与由麦克风md收集语音的定时匹配的参考信号。在滤波器更新单元125b和125c各自中,延迟器129b和129c各自吸收从麦克风mb到麦克风md的延迟时间的时间差和从麦克风mc到麦克风md的延迟时间的时间差。在滤波器更新单元125d中,在使用由麦克风md收集的语音信号作为参考信号的情况下,延迟器129d吸收相同的延迟时间的时间差。可以通过近似地测量麦克风ma和麦克风md之间的距离并将该距离除以声速来获得延迟器129a的值。例如,在基于乘舱108z内的温度的声速为340m/s并且麦克风ma与麦克风md之间的距离约为3.4m的情况下,延迟器129a的值约为10msec。
54.更确切地说,延迟器129a的值(延迟时间)针对各参考信号是不同的,并且按照如下获得。例如,假定在乘舱108z内,在乘员a前方放置麦克风ma,并且在乘员d前方放置麦克风md。在乘员a发声并且麦克风md中所包括的乘员a的语音被抑制的情况下,当使用由麦克风ma收集的语音作为参考信号时,基于从乘员a的嘴到麦克风ma的距离与从乘员a的嘴到麦克风md的距离之间的差来计算延迟器129a的值。另一方面,在乘员d发声并且麦克风ma中所包括的乘员d的语音被抑制的情况下,当使用由麦克风md收集的语音作为参考信号时,基于从乘员d的嘴到麦克风md的距离与从乘员d的嘴到麦克风ma的距离之间的差来计算延迟器129d的值。
55.非线性转换单元127a对串扰分量的抑制之后的语音信号进行非线性转换。非线性转换是将串扰分量的抑制之后的语音信号转换成表示要更新自适应滤波器的方向(正或负)的信息的处理。非线性转换单元127a将非线性转换之后的信号输出到更新量计算单元126a。
56.范数计算单元128a计算由麦克风ma收集的语音的语音信号的范数。语音信号的范数是过去预定时间内的语音信号的大小的总和,并且是表示该时间内的信号的大小程度的值。更新量计算单元126a使用范数以归一化过去由麦克风ma收集的语音的音量的影响。通常,由于随着音量更大、自适应滤波器的更新量可被计算为更大,因此在不进行归一化的情况下,自适应滤波器的特性可能受到大语音的特性的过度影响。在第一实施例中,通过使用由范数计算单元128a计算出的范数归一化从延迟器129a输出的语音信号来稳定自适应滤
波器的更新量。
57.更新量计算单元126a通过使用从非线性转换单元127a、范数计算单元128a和延迟器129a接收到的信号来计算卷积信号生成单元123a的滤波器特性的更新量(具体为自适应滤波器的系数或抽头数的更新量)。更新量计算单元126a基于由范数计算单元128a计算出的范数来归一化经由延迟器129a的由麦克风ma收集的语音的语音信号。更新量计算单元126a通过将基于从非线性转换单元127a获得的信息的正信息或负信息与归一化由麦克风ma收集的语音的语音信号的结果相加来确定更新量。在第一实施例中,更新量计算单元126a通过独立分量分析(ica)来计算滤波器特性的更新量。这里,示出更新量计算单元更新自适应滤波器的系数(以下称为滤波器系数)的情况,但可以代替滤波器系数或连同滤波器系数一起更新抽头数。
58.滤波器更新单元125a通过随时间执行更新量计算单元126a、非线性转换单元127a和范数计算单元128a的处理,使卷积信号生成单元123a的特性接近麦克风ma和麦克风md之间的传输特性。
59.作为合成单元的示例的卷积信号合成单元165选择并合成从四个滤波器更新单元125a、125b、125c和125d中的除与主信号相对应的滤波器更新单元(这里为滤波器更新单元125d)以外的三个滤波器更新单元125a、125b和125c输出的串扰抑制信号的全部或一部分,并将合成串扰抑制信号(合成抑制信号的示例)输出到加法器122。卷积信号合成单元165可以选择并合成从三个滤波器更新单元125a、125b和125c中的两个滤波器更新单元(例如,滤波器更新单元125a和125b)输出的串扰抑制信号。例如,卷积信号合成单元165可以合成从两个滤波器更新单元125a和125b的对、两个滤波器更新单元125a和125c的对、或者两个滤波器更新单元125b和125c的对所输出的串扰抑制信号。此外,卷积信号合成单元165可以将来自滤波器更新单元125a、滤波器更新单元125b和滤波器更新单元125c其中之一的串扰抑制信号原样输出。
60.这里,卷积信号合成单元165不合成来自与主信号相对应的滤波器更新单元125d的串扰抑制信号,但可以添加滤波器更新单元125d,并且可以合成由四个滤波器更新单元125a、125b、125c和125d生成的所有串扰抑制信号,或者可以以与上述相同的方式选择和合成由四个滤波器更新单元125a、125b、125c和125d生成的串扰抑制信号。此外,卷积信号合成单元165可以将来自一个滤波器更新单元125d的串扰抑制信号原样输出。在这种情况下,在滤波器更新单元125d中,由于输入到卷积信号生成单元123d的参考信号是由乘员a发出并由麦克风ma收集的语音,因此认为在滤波器系数相同时,从滤波器更新单元125d输出的串扰抑制信号与从滤波器更新单元125a输出的串扰抑制信号相同。
61.抑制量估计单元143计算从加法器122输出的串扰分量的抑制之后的语音信号与由麦克风md收集的语音的语音信号之间的差作为抑制量,并将该差输出到主信号获取单元162和参考信号获取单元166。
62.语音识别单元146基于从加法器122输出的串扰分量的抑制之后的语音信号进行语音识别,输出语音识别数据(例如,文本数据)和评估值(得分值)作为语音识别结果,并将语音识别数据和评估值存储在存储器152中。例如,在语音识别单元146连接到监视器(未示出,例如,运载工具108上所安装的汽车导航装置的显示器)的情况下,将语音识别结果作为文本显示在画面上。此外,在语音识别单元146连接到通信装置的情况下,将语音识别结果
作为通信数据进行发送。此外,在语音识别单元146连接到扬声器的情况下,将语音识别结果作为语音输出。
63.代替包括语音识别单元146,声响串扰抑制装置105可以包括可连接到网络的通信单元,将基于串扰分量的抑制之后的语音信号的语音数据经由网络发送到云服务器(未示出),由云服务器进行语音识别,从云服务器接收语音识别结果,并将语音识别结果输出到监视器或扬声器等。
64.(声响串扰抑制装置的操作)
65.接着,将说明根据第一实施例的声响串扰抑制装置105的操作。
66.这里,示出将由乘员d发出并由麦克风md收集的语音设置为语音识别对象并且将由乘员a发出并由麦克风md收集的语音设置为串扰分量的情况,并且由乘员a发出并由麦克风ma收集的语音可被设置为语音识别对象并且由乘员d发出并由麦克风ma收集的语音可被设置为串扰分量。
67.图4是示出根据第一实施例的声响串扰抑制装置105的操作过程的示例的流程图。图4的处理由构成声响串扰抑制装置105的dsp 110执行,并且针对由麦克风md收集并输入到声响串扰抑制装置105的语音的语音信号的各样本重复执行。
68.在图4中,主信号获取单元162获取由四个麦克风ma、mb、mc和md中的例如处于最高声压级的麦克风md收集的语音的语音信号作为要进行语音识别的主信号(s101)。
69.参考信号获取单元166获取由除用作主信号的麦克风md以外的最大三个麦克风ma、mb和mc收集的语音的语音信号作为参考信号(s102)。此外,由麦克风ma、mb和mc收集的语音的语音数据由dsp 110存储在存储器150a、150b和150c中。
70.说话者位置估计单元161输入由四个麦克风ma、mb、mc和md收集的语音的语音信号,并且基于语音信号的声压级来估计说话者位置(s103)。这里,在乘员d发声时,基于语音信号的声压级将说话者位置估计为乘员d,但在乘员a发声时,说话者位置可以是乘员a。
71.滤波器更新单元125a、125b和125c分别读取存储器152中所存储的相应滤波器系数,并将这些滤波器系数设置在卷积信号生成单元123a、123b和123c中(s104)。例如,滤波器更新单元125d可以读取存储器152中所存储的相应滤波器系数,并将该滤波器系数设置在卷积信号生成单元123d中。
72.滤波器更新单元125a、125b和125c分别通过使用由麦克风ma、mb和mc收集且由延迟器129a、129b和129c进行了延迟处理的参考信号来生成串扰抑制信号。也就是说,卷积信号生成单元123a、123b和123c通过使用存储器152中所存储的相应滤波器系数或由更新量计算单元126a、126b和126c计算出的滤波器系数来对偏移了延迟时间的参考信号进行卷积处理,并且从偏移了延迟时间的参考信号生成串扰抑制信号。此外,卷积信号合成单元165根据参考信号的组合来合成串扰抑制信号。加法器122从由麦克风md收集的语音的语音信号中减去由卷积信号合成单元165生成的合成串扰抑制信号,并且抑制由麦克风md收集的语音中所包括的串扰(s105)。
73.dsp 110判断时间段是否是滤波器学习时间段(s106)。滤波器学习时间段是至少作为串扰分量的发声源的乘员a与作为语音识别对象的乘员d说话的时间段。此外,不是滤波器学习时间段的时间段是作为串扰分量的发声源的乘员a不发声的时间段。在滤波器学习时间段的情况下,滤波器更新单元125a、125b和125c利用由更新量计算单元126a、126b和
126c计算出的滤波器系数来更新卷积信号生成单元123a、123b和123c的滤波器系数,并将经更新的滤波器系数存储在存储器152中(s107)。另一方面,在时间段不是滤波器学习时间段的情况下,dsp 110进入步骤s108的处理。
74.抑制量估计单元143计算从加法器122输出的串扰抑制之后的语音信号与由麦克风md收集的语音的语音信号之间的差作为抑制量(s108)。
75.语音识别单元146基于从加法器122输出的串扰抑制之后的语音信号进行语音识别,输出语音识别数据和得分值作为语音识别结果,并将语音识别数据和得分值存储在存储器152中(s109)。
76.滤波器更新单元125a、125b和125c各自判断滤波器系数的学习是否完成(s110)。这里,在预定时间段内的滤波器系数的变化宽度在第二阈值内的情况下,判断为滤波器系数的学习完成。在滤波器更新单元125a、125b和125c的滤波器系数至少之一不收敛的情况下,dsp 110判断为滤波器系数的学习未完成,并且结束图4所示的处理。另一方面,在滤波器更新单元125a、125b和125c的所有滤波器系数收敛的情况下,判断为滤波器系数的学习完成。
77.抑制量估计单元143判断在步骤s108中计算出的抑制量是否超过第一阈值(s111)。在抑制量超过第一阈值的情况下,语音识别单元146判断s109中语音识别是成功还是失败(s112)。在语音识别成功的情况下,dsp 110结束图4所示的处理。
78.另一方面,在步骤s111中抑制量等于或小于第一阈值的情况下、或者在步骤s112中语音识别失败的情况下,dsp 110改变主信号或者参考信号的组合(s113)。参考信号获取单元166改变由麦克风ma、麦克风mb和麦克风mc分别收集的语音的参考信号的组合。此外,主信号获取单元162可以将例如由麦克风md收集的乘员d的语音的语音信号切换为由放置在乘员d附近的麦克风mc收集的乘员d的语音的语音信号作为主信号。主信号不限于由麦克风mc收集的乘员d的语音信号,并且可以切换到由麦克风ma收集的乘员d的语音信号或由麦克风mb收集的乘员d的语音信号。此外,在乘员a发出的语音的声压级高于乘员d发出的语音的声压级的情况下,主信号可以从乘员d发出的语音的语音信号切换到乘员a发出的语音的语音信号。
79.这里,在改变主信号或者参考信号的组合的情况下,即,在步骤s111中抑制量等于或小于第一阈值的情况下或在步骤s112中语音识别失败的情况下,参考信号获取单元166在主信号获取单元162之前改变参考信号的组合。然后,即使当所有参考信号的组合都改变时,在抑制量等于或小于第一阈值或者语音识别失败的状态继续的情况下,主信号获取单元162也改变主信号。即使当主信号获取单元162在参考信号获取单元166之前改变主信号并且改变所有主信号时,在抑制量等于或小于第一阈值或者语音识别失败的状态继续的情况下,参考信号获取单元166也可以改变参考信号的组合。
80.参考信号获取单元166首先将用于生成合成串扰抑制信号的参考信号的组合设置为由最多三个麦克风收集的最大数量的参考信号的组合,然后在参考信号的数量减少的方向上参考信号的组合被其他参考信号的组合替换。因此,通过从被认为具有串扰分量的最高抑制性能的最大数量的参考信号的组合开始串扰的抑制,可以快速地以期望抑制量抑制串扰分量,并且使得滤波器更新单元的滤波器系数收敛。此外,在参考信号的组合的数量相同的情况下,例如,参考信号的组合可被配置成优先包括由具有高声压级的麦克风或放置
在作为其他说话者的乘员a前方的麦克风收集的语音的参考信号。
81.在参考信号的组合改变的情况下,参考信号获取单元166基于过去检测结果,即可以将语音识别结果成功或者抑制量等于或大于第一阈值的参考信号的组合的优先级顺序设置为高,将优先级顺序作为数据库保持在存储器152中,并且基于由麦克风收集的参考信号来根据所登记的优先级顺序选择参考信号的组合。此外,参考信号获取单元166可以比较由麦克风收集的参考信号的互相关或频率特性,并且基于其比较结果来实时地学习语音识别结果成功或者抑制量等于或大于第一阈值的参考信号的组合。
82.声响串扰抑制装置105基于由抑制量估计单元143计算出的抑制量和语音识别单元146的语音识别结果中的至少一个来判断串扰分量的抑制性能。然而,本发明不限于此。例如,声响串扰抑制装置105可以基于能够评估声音质量的滤波器系数的收敛程度来进行该判断。
83.在步骤s113中改变主信号或者参考信号的组合的情况下,滤波器更新单元125a、125b和125c初始化滤波器系数(s114)。在滤波器系数被初始化的情况下,dsp 110结束图4所示的处理。之后,滤波器更新单元125a、125b和125c各自在下一样本中重新开始滤波器系数的学习。
84.在根据第一实施例的声响串扰抑制装置105中,在由作为语音识别对象的乘员d发出的语音的语音信号被设置为主信号、并且由乘员a发出并由麦克风ma、麦克风mb和麦克风mc收集的语音的语音信号被设置为参考信号的情况下,可以使用多个参考信号来有效地抑制包括在由乘员d发出的语音的主信号中的由乘员a发出的语音所引起的串扰分量。此外,声响串扰抑制装置105可以通过动态地改变主信号或者参考信号的组合来自适应地抑制主信号中所包括的串扰分量。因此,可以改善乘员d的发出语音的声音质量。
85.以这种方式,声响串扰抑制装置105利用说话者位置估计单元161基于由布置在乘舱108z内的与四个乘员可以就座的座椅相对应的四个麦克风ma、mb、mc和md收集的语音信号来估计乘舱108z内的乘员d。声响串扰抑制装置105包括用于生成由乘员a(其他说话者的示例)的发声引起的并包括在乘员d发出的语音的语音信号中的串扰分量的串扰抑制信号的卷积信号生成单元123a、123b、123c和123d,并且更新用于抑制串扰分量的卷积信号生成单元123a、123b、123c和123d的滤波器系数(参数),并存储利用四个相应滤波器更新单元125a、125b、125c和125d的更新结果。声响串扰抑制装置105利用加法器122,通过使用基于由与除对应于乘员d的麦克风以外的最多三个麦克风所收集的参考信号相对应的最多三个滤波器更新单元125a、125b和125c生成的串扰抑制信号的合成串扰抑制信号,来抑制乘员d的语音信号中所包括的串扰分量。
86.因此,声响串扰抑制装置105可以通过使用多个参考信号来有效地抑制由乘员d发出的语音的语音信号(主信号的示例)中所包括的由乘员a发出的语音引起的串扰分量。此外,声响串扰抑制装置105可以通过动态地改变主信号或者参考信号的组合来自适应地抑制主信号中所包括的串扰分量。因此,声响串扰抑制装置105可以自适应地抑制存在于诸如乘舱108z等的封闭空间中的主说话者的发出语音中可能包括的声响串扰分量,并且可以改善主说话者的发出语音的声音质量。
87.声响串扰抑制装置105还包括卷积信号合成单元165,该卷积信号合成单元165合成由最多三个滤波器更新单元125a、125b和125c生成的串扰抑制信号以生成合成串扰抑制
信号。因此,声响串扰抑制装置105可以通过使用由与最多三个麦克风相对应的最多三个滤波器更新单元125a、125b和125c生成的所有串扰抑制信号来抑制串扰分量。因此,可以预期提高串扰分量的抑制性能。
88.在最多三个滤波器更新单元125a、125b和125c中设置的卷积信号生成单元123a、123b和123c通过使用所存储的最新滤波器系数来生成串扰抑制信号。因此,声响串扰抑制装置105可以生成反映与乘舱108z内的当前状况最接近的状况的串扰抑制信号。因此,提高了串扰分量的抑制性能。
89.与由对应于作为串扰分量的发声源的乘员a的麦克风ma收集的参考信号相对应的滤波器更新单元125a通过使用参考信号来更新滤波器更新单元125a中所包括的卷积信号生成单元123a的滤波器系数,并将其更新结果存储在存储器152中。因此,滤波器更新单元可以通过使用由相应麦克风收集的语音的参考信号来自适应地更新滤波器系数。
90.声响串扰抑制装置105还包括:抑制量估计单元143,用于估计串扰分量的抑制量;以及主信号获取单元162,用于在判断为抑制量等于或小于第一阈值的情况下,将由四个麦克风ma、mb、mc和md中的布置在乘员d附近的其他麦克风ma、其他麦克风mb或其他麦克风mc收集的语音信号替换为乘员d的语音信号。因此,在串扰分量的抑制量小的情况下,声响串扰抑制装置105可以通过将由放置在乘员d附近的其他麦克风收集的乘员d的语音的语音信号设置为主信号来增加串扰分量的抑制量。因此,不论乘舱108z内的状况(诸如特定于乘舱108z内的封闭空间(其中在放置于作为说话者的乘员d前方的麦克风与该乘员的嘴之间存在障碍物ob)的传输特性等)如何,都可以预期串扰分量的期望抑制。
91.声响串扰抑制装置105还包括:抑制量估计单元143,用于估计串扰分量的抑制量;以及参考信号获取单元166,用于在判断为抑制量等于或小于第一阈值的情况下,将用于生成合成串扰抑制信号的参考信号的组合替换为其他参考信号的组合。与替换之后的其他参考信号相对应的滤波器更新单元基于所输入的其他参考信号来重新生成串扰抑制信号。因此,即使在串扰分量的抑制量小的情况下,声响串扰抑制装置105也可以通过改变用于生成合成串扰抑制信号的参考信号的组合来增加串扰分量的抑制量。因此,不论乘舱内的状况(诸如特定于乘舱108z内的封闭空间(其中在放置于作为其他说话者的乘员a前方的麦克风与乘员a的嘴之间存在障碍物ob)的传输特性等)如何,都可以预期串扰分量的期望抑制。
92.声响串扰抑制装置105还包括:语音识别单元146,用于基于串扰抑制之后的语音信号(串扰分量被抑制的主说话者的语音信号的示例)来对乘员d的发声内容进行语音识别;以及主信号获取单元162,用于在判断为语音识别失败的情况下,将由四个麦克风中放置在乘员d附近的其他麦克风收集的语音信号切换为乘员d的语音信号。因此,声响串扰抑制装置105可以通过将由放置在乘员d附近的其他麦克风收集的乘员d的语音的语音信号设置为主信号来成功地进行语音识别。因此,不论乘舱108z内的状况(诸如特定于乘舱108z内的封闭空间(其中在放置于乘员d前方的麦克风与乘员d的嘴之间存在障碍物)的传输特性等)如何,都可以预期语音识别的成功。
93.声响串扰抑制装置105还包括:语音识别单元146,用于基于串扰抑制之后的语音信号来对乘员d的发声内容进行语音识别;以及参考信号获取单元166,用于在判断为语音识别失败的情况下,将用于生成合成串扰抑制信号的参考信号的组合替换为其他参考信号的组合。与替换之后的其他参考信号相对应的滤波器更新单元基于所输入的其他参考信号
来重新生成串扰抑制信号。因此,即使在语音识别失败的情况下,声响串扰抑制装置105也可以通过改变用于生成合成串扰抑制信号的参考信号的组合来成功进行语音识别。因此,不论乘舱108z内的状况(诸如特定于乘舱108z内的封闭空间(其中在放置于乘员d前方的麦克风与乘员d的嘴之间存在障碍物ob)的传输特性等)如何,都可以预期语音识别的成功。
94.参考信号获取单元166首先将用于生成合成串扰抑制信号的参考信号的组合设置为由最多三个麦克风收集的最大数量的参考信号的组合,然后在参考信号的数量减少的方向上这些参考信号的组合被替换为其他参考信号的组合。因此,通过从被认为具有串扰分量的最高抑制性能的最大数量的参考信号的组合开始串扰的抑制,声响串扰抑制装置105可以以期望的抑制量快速抑制串扰分量,并且可以加速滤波器更新单元的滤波器系数的收敛。
95.(第二实施例)
96.在第一实施例中,在串扰分量的抑制性能不高的情况下,声响串扰抑制装置105改变主信号或者参考信号的组合,并且初始化滤波器系数。在这种情况下,存在空白时间段,在该空白时间段期间,不能抑制串扰分量,直到声响串扰抑制装置105学习新的滤波器系数为止。在第二实施例中,将说明防止出现空白时间段的声响串扰抑制装置105a的示例。
97.图5和图6是示出根据第二实施例的声响串扰抑制装置105a的功能结构示例的框图。由于在图5和图6这两者中示出声响串扰抑制装置105a的结构,因此各单元的连接关系由字母以圆形符号书写的符号示出。
98.在根据第二实施例的声响串扰抑制装置105a的说明中,与根据第一实施例的声响串扰抑制装置105的组件相同的组件由相同的附图标记表示,将简化或省略其说明,并且将说明不同的内容。这里,根据第一实施例的包括参考信号获取单元166、四个延迟器129a、129b、129c和129d、四个滤波器更新单元125a、125b、125c和125d、卷积信号合成单元165、加法器122和抑制量估计单元143的部分的结构被称为第一信号处理单元180。也就是说,第一信号处理单元180包括参考信号获取单元166、四个延迟器129a、129b、129c和129d、四个滤波器更新单元125a、125b、125c和125d、卷积信号合成单元165、加法器122和抑制量估计单元143。由于各结构与第一实施例的结构相同,因此将简化其说明。
99.声响串扰抑制装置105a包括第一信号处理单元180、具有与第一信号处理单元180的内部结构等同的内部结构的第二信号处理单元180a、以及输出选择单元148。在第二信号处理单元180a的内部结构中,与第一信号处理单元180的内部结构等同的内部结构的附图标记在这些附图标记的末尾由“a”表示,或者由采用200s的形式的相应附图标记表示。也就是说,第二信号处理单元180a包括参考信号获取单元166a、四个延迟器229a、229b、229c和229d、四个滤波器更新单元225a、225b、225c和225d、卷积信号合成单元165a、加法器122a和抑制量估计单元143a。
100.与第一实施例类似,四个滤波器更新单元225a、225b、225c和225d以彼此对应的方式分别包括卷积信号生成单元223a、223b、223c和223d、滤波器系数监视单元241a、241b、241c和241d、更新量计算单元226a、226b、226c和226d、非线性转换单元227a、227b、227c和227d、以及范数计算单元228a、228b、228c和228d。
101.输出选择单元148选择从第一信号处理单元180的加法器122输出的串扰分量的抑制之后的第一信号和从第二信号处理单元180a的加法器122a输出的串扰分量的抑制之后
的第二信号中的任一个,并且将所选择的信号输出到语音识别单元146。在选择串扰分量的抑制之后的语音信号时,在第一信号处理单元180和第二信号处理单元180a其中之一正在学习滤波器系数的情况下,输出选择单元148判断为在正在学习的串扰分量的抑制之后的语音信号中、主信号中所包括的串扰分量未被抑制,并且选择使用其他学习的滤波器系数所生成的串扰分量的抑制之后的语音信号。
102.接着,将示出根据第二实施例的声串扰抑制装置105a的操作。
103.图7和图8是示出根据第二实施例的声响串扰抑制装置105a的操作过程的示例的流程图。与根据第一实施例的声响串扰抑制装置105的处理相同的处理由相同的步骤编号表示,将简化或省略其说明,并且将说明不同的内容。在第二实施例中,在声响串扰抑制装置105a中,第二信号处理单元180a与由第一信号处理单元180进行的信号处理(以下称为“第一信号处理”)并行地进行信号处理(以下称为“第二信号处理”)。由于第一信号处理与根据第一实施例的步骤s101至s108的一系列处理相同,因此在图7或图8中表示相同的步骤编号,并且将省略其说明。另一方面,除了主信号或者参考信号的组合不同于第一信号处理的主信号或者参考信号的组合不同以外,第二信号处理是与第一信号处理基本相同的处理。因此,表示与第一信号处理中的步骤s101至s108的一系列处理的步骤编号相对应的步骤编号(这里,添加末尾“a”),并且简化或省略其说明。
104.在图7中,在声响串扰抑制装置105a中,第一信号处理单元180的抑制量估计单元143在步骤s108中计算主信号中所包括的串扰分量的第一抑制量,并且第二信号处理单元180a的抑制量估计单元143a在与步骤s108相对应的步骤s108a中计算主信号中所包括的串扰分量的第二抑制量。之后,输出选择单元148选择第一抑制量和第二抑制量之间的串扰抑制性能更好(即,串扰分量的抑制量更大)的串扰分量的抑制之后的语音信号(s151)。
105.语音识别单元146输入由输出选择单元148选择的串扰分量的抑制之后的语音信号,并且对该语音信号进行语音识别处理(s152)。
106.第一信号处理单元180的滤波器更新单元125a、125b和125c各自判断滤波器系数的学习是否完成(s153)。这里,与第一实施例类似,在预定时间段内的滤波器系数的变化宽度在第二阈值内的情况下,判断为滤波器系数的学习完成。在滤波器更新单元125a、125b和125c的滤波器系数中的至少一个不收敛的情况下,判断为滤波器系数的学习未完成。另一方面,在滤波器更新单元125a、125b和125c的所有滤波器系数收敛的情况下,判断为滤波器系数的学习完成。在判断为滤波器系数的学习未完成的情况下(s153中为“否”),dsp 110a结束图8的处理。
107.在滤波器系数的学习完成的情况下(s153中为“是”),第二信号处理单元180a的滤波器更新单元225a、225b和225c各自均判断滤波器系数的学习是否完成(s154)。以与步骤s153的处理相同的方式判断滤波器系数的学习是否完成。在判断为滤波器系数的学习未完成的情况下(s154中为“否”),dsp110a结束图8的处理。
108.在滤波器系数的学习完成的情况下(s154中为“是”),dsp 110a将利用第一信号处理单元180的串扰分量的抑制性能(以下称为“第一信号处理单元180的抑制性能”)与利用第二信号处理单元180a的串扰分量的抑制性能(以下称为“第二信号处理单元180a的抑制性能”)进行比较。也就是说,dsp 110a判断第二信号处理单元180a的抑制性能是否优于第一信号处理单元180的抑制性能(s155)。串扰分量的抑制性能可以通过例如在步骤s108和
s108a各自中计算出的串扰分量的抑制量来判断。此外,在语音识别单元146对从第一信号处理单元180和第二信号处理单元180a输出的串扰分量的抑制之后的两个语音信号进行语音识别的情况下,串扰分量的抑制性能可以通过作为语音识别结果的得分值来判断。
109.在第二信号处理单元180a的抑制性能优于第一信号处理单元180的抑制性能的情况下(s155中为“是”),参考信号获取单元166指示第一信号处理单元180改变参考信号的组合(s156)。参考信号获取单元166根据该指示来改变参考信号的组合。此外,主信号获取单元162可以指示第一信号处理单元180改变主信号。主信号获取单元162根据该指示来改变主信号。利用与第一实施例的过程相同的过程来进行用于改变主信号或者参考信号的组合的过程。
110.在主信号或者参考信号的组合改变的情况下,第一信号处理单元180的滤波器更新单元125a、125b和125c初始化滤波器系数(s157)。在滤波器系数被初始化的情况下,dsp 110a结束图8的处理。之后,滤波器更新单元125a、125b和125c在下一样本中重新开始滤波器系数的学习。在第一信号处理单元180学习滤波器系数的时间段中,第二信号处理单元180a抑制串扰分量。
111.另一方面,在第一信号处理单元180的抑制性能优于第二信号处理单元180a的抑制性能的情况下(s155中为“否”),参考信号获取单元166a指示第二信号处理单元180a改变参考信号的组合(s158)。参考信号获取单元166a根据该指示来改变参考信号的组合。此外,主信号获取单元162可以指示第二信号处理单元180a改变主信号。主信号获取单元162根据该指示来改变主信号。用于改变主信号或者参考信号的组合的过程通过与第一实施例的过程相同的过程来进行。
112.在主信号或者参考信号的组合改变的情况下,第二信号处理单元180a的滤波器更新单元225a、225b和225c初始化滤波器系数(s159)。在滤波器系数被初始化的情况下,dsp 110a结束图8所示的处理。之后,滤波器更新单元225a、225b和225c在下一样本中重新开始滤波器系数的学习。在第二信号处理单元180a学习滤波器系数的时间段中,第一信号处理单元180抑制串扰分量。
113.在第一信号处理单元180和第二信号处理单元180a中,可以将主信号以及参考信号的组合改变为相同组合。在主信号和参考信号的组合改变为相同组合的情况下,第一信号处理单元180和第二信号处理单元180a的滤波器系数彼此不同,直到学习完成为止。
114.关于根据第二实施例的声响串扰抑制装置105a,在第一信号处理单元180和第二信号处理单元180a这两者充分学习了滤波器系数的情况下,声响串扰抑制装置105a比较串扰分量的抑制性能,并且针对具有较差抑制性能的单元,改变主信号或者参考信号的组合。声响串扰抑制装置105a通过使用第一信号处理单元180和第二信号处理单元180a中的在抑制性能方面更好的单元所获得的滤波器系数来抑制串扰分量,直到第一信号处理单元180和第二信号处理单元180a中的在抑制性能方面较差的单元学习了新的滤波器系数为止。因此,声响串扰抑制装置105a可以省略不能抑制串扰分量的空白时间段。此外,可以针对第一信号处理单元180和第二信号处理单元180a这两者提高抑制性能。此外,由于对来自第一信号处理单元180和第二信号处理单元180a中的在抑制性能方面更好的单元的串扰分量的抑制之后的语音信号进行语音识别,因此提高了语音识别率。
115.以这种方式,声响串扰抑制装置105a包括第一信号处理单元180和第二信号处理
单元180a,该第一信号处理单元180至少包括四个滤波器更新单元125a、125b、125c和125d以及加法器122,该第二信号处理单元180a至少包括四个滤波器更新单元225a、225b、225c和225d以及加法器122a。此外,声响串扰抑制装置105a利用输出选择单元148来选择并输出由第一信号处理单元180生成的串扰抑制之后的语音信号(即,在使用第一合成抑制信号抑制串扰分量之后的主说话者的第一语音信号)和由第二信号处理单元180a生成的串扰抑制之后的语音信号(即,在使用第二合成抑制信号抑制串扰分量之后的主说话者的第二语音信号)中的任一个。由第一信号处理单元180抑制的乘员d的语音信号与参考信号的组合不同于由第二信号处理单元180a抑制的乘员d的语音信号与参考信号的组合。
116.因此,在第一信号处理单元180和第二信号处理单元180a中的任一个的抑制性能低的情况下,声响串扰抑制装置105a可以通过在通过重新选择由第一信号处理单元和第二信号处理单元中的具有低抑制性能的单元的麦克风所收集的乘员d的语音信号和/或参考信号的组合来重新学习滤波器系数时、使用第一信号处理单元和第二信号处理单元中的另一单元抑制串扰分量,来避免不能抑制串扰分量、直到重新学习第一信号处理单元和第二信号处理单元其中之一的滤波器更新单元的滤波器系数为止的状况。此外,由于第一信号处理单元180和第二信号处理单元180a在由麦克风收集的乘员d的语音信号和/或参考信号的组合方面彼此不同,因此通过使用抑制性能更好的第一信号处理单元180或第二信号处理单元180a来提高串扰分量的抑制性能。
117.第一信号处理单元180包括抑制量估计单元143,该抑制量估计单元143基于串扰抑制之后的语音信号(第一合成抑制信号的示例)来估计串扰分量的第一抑制量。第二信号处理单元180a包括抑制量估计单元143a,该抑制量估计单元143a基于串扰抑制之后的语音信号(第二合成抑制信号的示例)来估计串扰分量的第二抑制量。在第一抑制量小于第二抑制量的情况下,第一信号处理单元180改变由第一信号处理单元180抑制的乘员d的主信号以及参考信号的组合中的任一个。因此,声响串扰抑制装置105a可以通过改变第一信号处理单元180和第二信号处理单元180a之间的、串扰分量的抑制量小的第一信号处理单元180的主信号以及参考信号的组合中的任一个来提高第一信号处理单元180的抑制性能。
118.在第二抑制量小于第一抑制量的情况下,第二信号处理单元180a改变由第二信号处理单元180a抑制的乘员d的主信号以及参考信号的组合中的任一个。因此,声响串扰抑制装置105a可以通过改变第一信号处理单元180和第二信号处理单元180a之间的、串扰分量的抑制量小的第二信号处理单元180a的主信号以及参考信号的组合中的任一个来提高第二信号处理单元180a的抑制性能。
119.尽管以上参考附图说明了各种实施例,但无需说明,本发明不限于这些示例。本领域技术人员将显而易见,可以在权利要求书的范围内设想各种改变、修改、替换、添加、删除和等同物,并且应当理解,这些改变也属于本发明的技术范围。此外,可以在未背离本发明的精神的范围内可选地组合上述各种实施例中的组件。
120.例如,在上述实施例中示出乘舱内所布置的麦克风的数量为四个的情况,但可以在乘舱内布置三个或者五个或多于五个麦克风。在布置三个或者五个或多于五个麦克风的情况下,声响串扰抑制装置配备有与麦克风的数量相同数量的延迟器和滤波器更新单元的组。
121.在上述实施例中,在生成合成串扰抑制信号时,使用比麦克风的数量少一个的延
迟器和滤波器更新单元的组的数量。例如,在麦克风的数量为四个的情况下,使用三组延迟器和滤波器更新单元,但可以使用与麦克风的数量相同数量的延迟器和滤波器更新单元的组。
122.在上述实施例中,将串扰分量被抑制之后的语音信号输入到语音识别单元146,但根据本发明的声响串扰抑制装置不限于语音识别的使用,并且可以省略语音识别单元146的结构。根据本发明的声响串扰抑制装置还可以用于例如免提呼叫,并且还可以抑制呼叫对方的发出语音中所包括的串扰分量(例如,乘舱108z内的乘员(例如,乘员d)的发出语音)。
123.本技术基于2019年11月21日提交的日本专利申请(日本专利申请2019-210690),并且其内容通过引用而被包含于此。
124.产业上的可利用性
125.通过自适应地抑制存在于诸如乘舱等的封闭空间内的主说话者的发出语音中可能包括的声响串扰分量以改善主说话者的发出语音的声音质量,本发明是有用的。
126.附图标记说明
127.105,105a 声响串扰抑制装置
128.110,110a dsp
129.122,122a 加法器
130.123a,123b,123c,123d,223a,223b,223c,223d 卷积信号生成单元
131.125a,125b,125c,125d,225a,225b,225c,225d 滤波器更新单元
132.126a,126b,126c,126d,226a,226b,226c,226d 更新量计算单元
133.127a,127b,127c,127d,227a,227b,227c,227d 非线性转换单元
134.128a,128b,128c,128d,228a,228b,228c,228d 范数计算单元
135.129a,129b,129c,129d,229a,229b,229c,229d 延迟器
136.143,143a 抑制量估计单元
137.146 语音识别单元
138.150a,150b,150c,150d,152 存储器
139.161 说话者位置估计单元
140.162 主信号获取单元
141.165,156a 卷积信号合成单元
142.166,166a 参考信号获取单元
143.180 第一信号处理单元
144.180a 第二信号处理单元
145.ma,mb,mc,md 麦克风
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献