对非线性变换信号的线性化的制作方法

2022-06-12 04:21:52 来源：中国专利 TAG：

对非线性变换信号的线性化
1.相关申请的交叉引用
2.本专利申请要求于2019年11月15日提交的名称为“linearization of non-linearly transformed signals”的第16/685,987号非临时申请的优先权，该申请已转让给本技术的受让人，并通过引用明确并入本技术。
技术领域
3.本公开一般涉及信号处理。

背景技术：

4.技术的进步导致了体积更小且能力更强大的计算设备。例如，目前存在多种便携式个人计算设备，包括诸如移动电话和智能电话的无线电话、平板电脑和笔记本计算机，它们体积小、重量轻且易于用户携带。这些设备可以通过无线网络通信语音和数据分组。此外，许多这样的设备结合了附加功能，诸如数码摄像头、数码视频摄像头、数码记录器和音频文件播放器。此外，此类设备可以处理可执行指令，包括可用于访问互联网的软件应用程序，例如网络浏览器应用程序。因此，这些设备可以包括重要的计算能力。
5.计算设备可以执行输入信号的变换以用于信号增强，诸如在输入音频信号中增强语音和抑制噪声。例如，计算设备可以执行输入信号的变换，这导致增强的信号，增强的信号的特征可为包括指示输入信号的线性变换的线性分量和指示输入信号的非线性变换的非线性分量。增强的信号对于某些实现是有效的，诸如在电话呼叫期间经由扬声器向人播放的语音增强音频信号。然而，这种增强的信号通常会导致语音识别或语声验证/认证实现中性能的降低。

技术实现要素：

6.在特定方面中，一种执行信号处理的设备包括一个或多个处理器，该一个或多个处理器被配置为执行包括对输入信号的线性变换和非线性变换的信号处理，以生成参考目标信号。该参考目标信号具有与线性变换相关联的线性分量和与非线性变换相关联的非线性分量。该一个或多个处理器还被配置为通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号。
7.在另一个特定方面中，一种信号处理的方法包括执行包括对输入信号的线性变换和非线性变换的信号处理，以生成参考目标信号。该参考目标信号具有与线性变换相关联的线性分量和与非线性变换相关联的非线性分量。该方法还包括通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号。
8.在另一个特定方面中，计算机可读存储介质存储指令，在由一个或多个处理器执行指令时使得一个或多个处理器执行包括对输入信号的线性变换和非线性变换的信号处理，以生成参考目标信号。该参考目标信号具有与线性变换相关联的线性分量和与非线性
变换相关联的非线性分量。该指令还使得一个或多个处理器通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号。
9.在另一个特定方面中，一种装置包括用于执行包括对输入信号的线性变换和非线性变换的信号处理以生成参考目标信号的部件。该参考目标信号具有与线性变换相关联的线性分量和与非线性变换相关联的非线性分量。该装置还包括用于通过控制线性滤波的适配来执行对输入信号的线性滤波以生成基本上与参考目标信号的线性分量匹配的输出信号的部件。
10.在审阅整个申请后，本公开的其他方面、优点和特征将变得显而易见，整个申请包括以下部分：简要的附图说明、具体实施方式和权利要求书。
附图说明
11.图1是根据本公开的一些示例的可操作以执行对非线性变换信号的线性化的系统的特定说明性方面的框图；
12.图2是根据本公开的一些示例的可操作以执行对非线性变换音频信号的线性化的系统的说明性示例的图示；
13.图3是根据本公开的一些示例的可操作以执行对非线性变换音频信号的线性化的设备组件的说明性示例的图示；
14.图4是根据本公开的一些示例的可操作以执行对非线性变换信号的线性化的设备组件的说明性示例的图示；
15.图5是根据本公开的一些示例的可操作以执行对非线性变换视觉输入信号的线性化的系统的说明性示例的图示；
16.图6是示出根据本公开的一些示例的执行对非线性变换输入信号的线性化的方法的流程图；
17.图7是根据本公开的一些示例的可操作以执行对非线性变换信号的线性化的载具的图示；
18.图8a是根据本公开的一些示例的可操作以执行对非线性变换信号的线性化的虚拟现实或增强现实的头戴式耳机的图示；
19.图8b是根据本公开的一些示例的可操作以执行对非线性变换信号的线性化的可穿戴电子设备的图示；以及
20.图9是根据本公开的一些示例的可操作以执行对非线性变换输入信号的线性化的设备的特定说明性示例的框图。
具体实施方式
21.本文公开了执行对非线性变换输入信号的线性化的系统和方法。计算设备包括执行信号增强(例如语音增强、音频增强、噪声抑制、图像增强或其组合)的信号处理单元。以传统方式增强的包括非线性分量的信号对于某些实现是有效的，诸如在电话呼叫期间经由扬声器播放给人的语音增强音频信号。然而，这种传统的增强信号通常会导致语音(speech)识别或语声(voice)验证/认证实现中的性能降低。
22.根据所公开的系统和方法的各种方面，信号处理单元执行对输入信号(例如，语音
信号、音频信号、视觉信号、数据信号等)的线性变换和非线性变换，其结果是包括线性分量和非线性分量的增强信号，线性分量由一个或多个线性变换导致，非线性分量由一个或多个非线性变换导致。线性化器通过控制线性滤波的适配来执行输入信号的线性滤波，以生成与增强信号的线性分量基本上匹配的输出信号。将输出信号提供给信号处理组件，诸如语音识别或语声验证组件。由于输出信号基本上匹配增强信号的线性分量并且排除了增强信号的非线性分量，因此与以传统方式增强的信号相比，处理输出信号(与增强信号相比)改善了信号处理组件的准确性。
23.下面参考附图描述本公开的特定方面。在描述中，共同的特征由共同的附图标记表示。如本文所使用的，各种术语仅用于描述特定实现的目的而并不旨在限制实现。例如，除非上下文另有明确说明，否则单数形式“一”、“一个”和“该”也旨在包括复数形式。此外，本文描述的一些特征在一些实现方式中是单数的而在其他实现方式中是复数的。举例说明，图1描绘了包括一个或多个处理器(图1中的“处理器”108)的设备102，这指示在一些实现方式中，设备102包括单个处理器108，而在其他实施方式中，设备102包括多个处理器108。为了在本文中便于参考，这些特征通常作为“一个或多个”特征引入，并且随后以单数形式提及，除非正在描述的是与多个该特征相关的方面。
24.可以进一步理解，术语“某些个包括”、“某一个包括”和“包括
……
的”可以与“某些个包含”、“某一个包含”或“包含
……
的”互换使用。另外，应理解术语“其中”可以与“在此”互换使用。如本文所使用的，“示例性”可以指示示例、实现方式和/或方面，而不应被解释为限制或指示偏好或优选的实现方式。如本文所使用的，用于修饰诸如结构、组件、操作等元素的序数词(例如，“第一”、“第二”、“第三”等)本身并不表示元素相对于另一个元素的任何优先级或顺序，而只是将该元素与另一个具有相同名称(但使用序数术语)的元素区分开来。如本文所使用的，术语“集”是指一个或多个特定元素，而术语“复数个”是指多个(例如，两个或更多个)特定元素。
25.如本文所使用的，“耦合”可以包括“通信地耦合”、“电气地耦合”或“物理地耦合”，并且还可以(或替代地)包括它们的任何组合。两个设备(或组件)可以直接地(例如，通信地耦合、电气地耦合或物理地耦合)耦合或经由一个或多个其他设备、组件、电线、总线、网络(例如，有线网络、无线网络或其组合)等间接地耦合。作为说明性的非限制性示例，电气耦合的两个设备(或组件)可以包括在同一设备中或在不同设备中，并且可以经由电子设备、一个或多个连接器或电感耦合连接起来。在一些实现方式中，诸如以电气通信方式通信地耦合的两个设备(或组件)可以直接或间接地(诸如经由一个或多个电线、总线、网络等)发送和接收电气信号(数字信号或模拟信号)。如本文所使用的，“直接耦合”可以包括耦合(例如，通信地耦合、电气地耦合或物理地耦合)起来而没有介入组件的两个设备。
26.在本公开中，诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可用于描述如何执行一个或多个操作。应当注意，这些术语不应被解释为限制性的，而是可以利用其他技术来执行类似的操作。另外地，如本文所提及的，“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换地使用。例如，“生成”、“计算”、“估计”或“确定”参数(或信号)可以指主动生成、估计、计算或确定该参数(或信号)，也可以指使用、选择或访问已经诸如由另一个组件或设备生成的参数(或信号)。
27.参考图1，公开了可操作以执行对非线性变换信号的线性化的系统的特定说明性
方面，且该系统总体标示为100。系统100包括设备102，该设备102包括一个或多个处理器108。处理器108包括耦合到线性化器130的信号处理单元120。信号处理单元120、线性化器130，或两者均耦合到一个或多个组件150。信号处理单元120被配置为执行对输入信号114(“y”)的信号增强。例如，信号处理单元120被配置为执行对输入信号114(“y”)的信号处理，以生成参考目标信号122在图1所示的示例中，信号处理单元120包括神经网络124，且信号处理单元120被配置为使用神经网络124以执行对输入信号(“y”)的信号处理，以生成参考目标信号122应当理解，使用神经网络124来执行信号处理是作为说明性示例提供的。在一些实现方式中，信号处理单元120被配置为独立于任何神经网络来执行信号处理。
28.线性化器130包括线性滤波器134和滤波器适配器136。线性滤波器134被配置为执行对输入信号114(“y”)的线性滤波，以生成输出信号132(“h*y”，此处“h”是线性滤波器134的滤波器响应，以及“*”指示卷积)。滤波器适配器136被配置为响应于参考目标信号122控制线性滤波的适配。例如，滤波器适配器136尝试控制线性滤波的适配，以使输出信号132尽可能接近地匹配参考目标信号122。作为应用线性滤波(并省略非线性滤波)的结果，输出信号132基本上匹配参考目标信号122的线性分量并且基本上省略了参考目标信号122的非线性分量。在特定方面中，由系统100(例如，信号处理单元120、线性化器130或两者)执行的处理可以发生在时域中、在变换域(例如，频域)中或它们的组合。例如，信号处理单元120、线性化器130，或两者均可以处理从麦克风或摄像头接收到的时域信号(例如，输入信号114)。在另一示例中，处理器108可以包括第一快速傅立叶变换(fft)模块(未示出)，其被配置为对时域信号应用变换以生成变换域信号，并且信号处理单元120、线性化器130，或两者均可以处理该变换域信号。处理器108可以包括第二fft模块，该第二fft模块配置为在由一个或多个组件150进行进一步处理之前，对参考目标信号122、输出信号132或两者均应用逆变换。例如，组件150的第一组件可以接收变换域中的输出信号132，并且组件150的第二组件可以接收时域中的输出信号132。
29.在操作期间，处理器108接收(例如，访问)输入信号114(“y”)。输入信号114(“y”)包括感兴趣部分(“x”)和噪声部分(“n”)。在特定示例中，输入信号114(“y”)包括音频信号且组件150包括语音处理组件。在该示例中，感兴趣部分(“x”)包括语音部分且噪声部分(“n”)包括音频噪声，如参考图2进一步描述的。信号处理单元120执行对输入信号114(“y”)的信号处理，以生成参考目标信号122在特定示例中，信号处理单元120使用神经网络124来执行对输入信号114(“y”)的信号处理，以生成参考目标信号122参考目标信号122对应于输入信号114(“y”)的信号增强，并且可以通过增强感兴趣部分(“x”)、降低噪声部分(“n”)，或两者的组合来生成。
30.信号处理包括导致信号增强的线性变换126和非线性变换128。参考目标信号122具有与线性变换126相关联(例如，由其生成)的线性分量和与非线性变换128相关联(例如，由其生成)的非线性分量。尽管线性变换126和非线性变换128被描绘为分别的分量，但是信号处理单元120可以生成参考目标信号122的线性和非线性分量而无需单独执行线性变换126和非线性变换128。例如，神经网络124可以通过执行其中并不能清晰区分线性变换和非线性变换的操作来处理输入信号114(“y”)以生成参考目标信号122
在特定示例中，参考目标信号122对应于感兴趣部分(“x”)和失真部分(例如，其中“f(x)”对应于失真部分)。
31.线性化器130从信号处理单元120接收参考目标信号122响应于参考目标信号122线性化器130生成与参考目标信号122的线性分量基本上匹配的输出信号132(“h*y”)。例如，线性滤波器134执行对输入信号114(“y”)的线性滤波，以生成输出信号132(“h*y”)。响应于参考目标信号122，滤波器适配器136控制(由线性滤波器134执行的)线性滤波的适配，使得输出信号132基本上匹配参考目标信号122的线性分量。例如，滤波器适配器136可以选择或更新线性滤波器134的滤波值的集合以使输出信号132(“h*y”)和参考目标信号122之间的差异(诸如l2范数l1范数另一个差异度量或它们的组合)减小或最小化。在特定方面中，因为“h”是线性滤波器134的滤波器响应，所以使输出信号132(“h*y”)和参考目标信号122之间的差异减小或最小化会导致输出信号132对应于参考目标信号122的线性分量。
32.在特定方面中，组件150被配置为处理输出信号132(“h*y”)以生成对应于输入信号114的输出153。参考图2和图5描述组件150的示例，由于输出信号132对应于参考目标信号122的线性分量并且排除了参考目标信号122的非线性分量，所以与处理参考目标信号122相比，组件150可以通过处理输出信号132(“h*y”)获得更准确的结果。因此，系统100通过向组件150提供非线性变换信号(例如，参考目标信号122)的线性分量来改进组件150的信号处理。系统100使组件150能够利用由信号处理单元120执行的信号增强，同时通过处理增强信号的线性分量来保持准确性。
33.参考图2，公开了可操作以执行对非线性变换音频信号的线性化的系统的特定说明性方面，且该系统总体标示为200。在特定方面中，系统100包括系统200中的一个或多个组件。
34.设备102包括一个或多个麦克风212。麦克风212接收包括来自用户204的语音206和噪声(例如，背景噪声)的输入声音。麦克风212生成包括语音部分(“x”)和噪声部分(“n”)的音频输入信号214(“y”)。在特定方面中，音频输入信号214对应于图1的输入信号114(“y”)。
35.信号处理单元120执行对音频输入信号214(“y”)的信号处理，以生成参考目标信号122在特定方面中，在信号处理单元120处执行信号处理导致音频信号增强，诸如回声消除、噪声抑制、去混响或其组合。在特定方面中，线性变换126和非线性变换128导致语音增强。线性滤波器134执行对音频输入信号214(“y”)的线性滤波(诸如有限脉冲响应(fir)滤波)以生成输出信号132(“h*y”)。
36.组件150包括一个或多个音频信号处理组件，诸如语音识别引擎252、语声识别引擎254、语声激活组件256、说话者验证组件258或它们的组合。在特定示例中，语音识别引擎252处理输出信号132以生成输出153。举例说明，输出153包括语音识别输出，诸如与在输出信号132中检测到的语音相对应的文本输出。在特定方面中，因为输出信号132包括(例如，基本上匹配)参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量，所以输出153是语音206的更准确表达(与可以从参考目标信号122生成
的语音识别输出相比)。在特定方面中，语音识别引擎252将输出153提供给显示输出153的显示设备。例如，在一些实现方式中，设备102包括显示设备。
37.在特定示例中，语声识别引擎254处理输出信号132以生成输出153。举例说明，输出153包括语声识别输出，诸如用户标识符，该用户标识符对应于在输出信号132中检测到的语音与该用户标识符相关联的用户的语音匹配的确定。在特定方面中，因为输出信号132包括(例如，基本上匹配)参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量，所以(与将根据检测参考目标信号122中的语音来识别的用户相比)输出153是对与语音206相对应的用户的更准确识别。
38.在特定示例中，语声激活组件256处理输出信号132以生成输出153。举例说明，输出153对应于与在输出信号132中检测到的语声命令(例如，“启动汽车”)相对应的激活指令(例如，汽车发动机激活指令)。在特定方面中，因为输出信号132包括(例如，基本上匹配)参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量，所以(与将根据检测参考目标信号122中的语声命令生成的激活指令相比)输出153是与语音206中的语声命令相对应的更准确的激活指令。
39.在特定示例中，说话者验证组件258处理输出信号132以生成输出153。举例说明，输出153包括说话者验证输出，诸如在输出信号132中检测到的语音是否与特定授权用户的语音匹配的指示符。在特定方面中，因为输出信号132包括(例如，基本上匹配)参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量，所以(与将通过检测参考目标信号122中的语音生成的指示相比)输出153是语音206是否与特定授权用户相对应的更准确指示。
40.尽管描绘的是单个线性化器130，但是在一些实现方式中，处理器108包括与多个麦克风212相对应的多个线性化器130。信号处理单元120生成多个参考目标信号122，诸如对于每个有源麦克风212生成一个参考目标信号122。在示例中，每个线性化器130与其他线性化器130并行操作并且基于对应于特定音频输入信号214的特定参考目标信号122对来自特定麦克风212的特定音频输入信号214执行线性滤波。在这个方面，将来自多个线性化器130的多个输出信号132提供给组件150。
41.应当理解，信号处理单元120执行语音增强是作为说明性示例提供的。在其他示例中，信号处理单元120执行其他类型的音频信号增强，诸如噪声抑制。举例说明，音频输入信号214(“y”)包括感兴趣部分(“x”)和噪声部分(“n”)。在一些示例中，感兴趣部分(“x”)对应于语音。在其他示例中，感兴趣部分(“x”)对应于其他类型的音频(例如，音频调谐)。系统200因此在利用由信号处理单元120执行的音频增强的同时，改善了由音频信号处理组件处理音频信号的准确性。
42.参考图3，示出了图1的系统100、图2的系统200，或两者的组件的示例，且该系统总体标示为300。在示例300中，处理器108包括耦合到信号处理单元120和线性化器130的语声活动检测器(vad)302。vad 302对参考目标信号122的连续帧执行语声活动检测并生成语声检测信号310，该语声检测信号310向线性化器130指示音频输入信号214的每一个对应帧是否具有语声内容。延迟元件320使vad 302和线性化器130处的处理同步，使得经处理以生成语音检测信号310的参考目标信号122的帧对应于由线性化器130处理的音频输入信号214的帧。
43.图3还描绘了可由线性化器130基于语声检测信号310执行的操作的示例350。在352处，如果语声检测信号310指示检测到语声活动(例如，vad＝1)，则更新语声帧的语音协方差矩阵(例如，e[yyh])和相关向量(例如，)。在354处，如果未检测到语声活动(例如，vad＝0)，则更新非语声帧的噪声协方差矩阵(例如，e[yyh])和相关向量(例如，)。使用一个或多个可调谐权重因子将语音协方差矩阵和噪声协方差矩阵进行组合，以生成组合协方差矩阵。同样使用一个或多个可调谐权重因子将语声相关向量和非语声相关向量进行组合，以生成组合相关向量。
[0044]
在特定示例中，组合协方差矩阵(例如，e[yyh])对应于语音协方差矩阵(例如，e[yyh])和噪声协方差矩阵(例如，e[yyh])的加权和。在特定方面中，应用于语音协方差矩阵(例如，e[yyh])和噪声协方差矩阵(例如，e[yyh])以确定组合协方差矩阵(例如，e[yyh])的权重基于默认值、配置值、用户输入或它们的组合。
[0045]
在特定示例中，组合相关向量(例如，)对应于语声帧的相关向量(例如，)和非语声帧的相关向量(例如，)的加权和。在特定方面中，应用于语声帧的相关向量(例如，)和非语声帧的相关向量(例如，)以确定组合相关向量(例如，)的权重基于默认值、配置值、用户输入或它们的组合。
[0046]
在356处，使用组合协方差矩阵和组合相关向量(例如，)来更新线性滤波器134。因此，至少部分地基于在参考目标信号122中是否检测到语声活动来控制线性滤波的适配。
[0047]
参考图4，示出了可操作以执行对非线性变换信号的线性化的系统的说明性示例，且该系统总体描绘为400。在特定示例中，图1的系统100包括系统400的一个或多个组件。
[0048]
处理器108包括耦合到信号处理单元120和线性化器130的控制器402。控制器402配置为基于与参考目标信号122相关联的非线性度量406选择性地禁用线性化器130。组件150在启用线性化器130时使用输出信号132(“h*y”)进行操作，并且在禁用线性化器130时使用参考目标信号122进行操作。
[0049]
控制器402包括非线性计算器404，该非线性计算器404处理参考目标信号122以生成指示参考目标信号122的非线性量的非线性度量406(例如，峰度)。当非线性度量406指示非线性量超过阈值时，控制器402经由启用/禁用信号410来启用对线性化器130的操作。否则，控制器402经由启用/禁用信号410来禁用对线性化器130的操作。
[0050]
可以设置阈值以平衡由于参考目标信号122的非线性造成的组件150的性能损失相比于由禁用线性化器130导致的降低功耗和降低处理资源利用的益处。禁用对线性化器130的操作降低了设备102的功耗和处理资源利用。
[0051]
参考图5，公开了可操作以执行对非线性变换视觉输入信号的线性化的系统的特定说明性方面，且该系统总体标示为500。在特定方面中，系统100包括系统500的一个或多个组件。
[0052]
设备102耦合到或包括一个或多个图像传感器502。在特定方面中，图像传感器502包括摄像头、红外传感器、雷达传感器、夜视传感器、视频摄像头、热成像传感器、声纳传感
器、数字成像传感器、医学成像传感器或它们的组合。图像传感器502接收用户504的面部506的输入图像和噪声(例如，非面部区域以及输入图像中的“噪声”)。图像传感器502生成视觉输入信号514(“y”)，该视觉输入信号514包括面部部分(“x”)和噪声部分(“n”)。在特定方面中，视觉输入信号514对应于图1的输入信号114(“y”)。
[0053]
信号处理单元120执行对视觉输入信号514(“y”)的信号处理，以生成参考目标信号122在特定方面中，执行信号处理导致视觉信号增强，诸如图像噪声抑制。在特定方面中，线性变换126和非线性变换128导致面部图像增强。信号处理单元120执行面部图像增强是作为说明性示例提供的。在其他示例中，信号处理单元120可以执行其他类型的视觉增强。线性滤波器134执行对视觉输入信号514(“y”)的线性滤波，以生成基本上与参考目标信号122的线性分量匹配并且基本上省略了参考目标信号122的非线性分量(例如，图像噪声)的输出信号132(“h*y”)。
[0054]
组件150包括一个或多个视觉信号处理组件，诸如面部识别引擎552。在特定示例中，面部识别引擎552处理输出信号132以生成输出153。举例说明，输出153包括与由输出信号132表示的一个或多个面部相对应的面部识别输出。在特定示例中，面部识别输出包括授权用户指示符。在特定方面中，因为输出信号132包括(例如，基本上匹配)参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量，所以(与可以从参考目标信号122生成的面部识别输出相比)输出153是面部506是否与授权用户相关联的更准确的指示符。面部识别引擎552处理输出信号132是作为说明性示例提供的。在其他实现方式中，由其他类型的视觉处理组件处理输出信号132。系统500因此在利用由信号处理单元120执行视觉增强的同时，改善了由视觉信号处理组件处理视觉信号的准确性。应当理解，音频信号处理和视觉信号处理是作为说明性示例提供的。在其他示例中，系统100可以处理各种类型的数据信号以提高各种类型的组件150的准确性。
[0055]
应注意的是，尽管图3的示例300包括vad 302和延迟元件320，而图4的系统400包括控制器402、vad 302的类似组件、延迟元件320，并且控制器402可以结合在其他实现方式中。例如，系统500可以包括控制器402和面部检测模块。处理器108接收图1的单个输入信号114是作为说明性示例提供的。在其他示例中，处理器108可以接收多个输入信号114。举例说明，处理器108从多个图像传感器、多个麦克风或它们的组合接收多个输入信号114。在特定方面中，处理器108并行处理多个输入信号114以生成多个输出信号132，如参考图2描述的。例如，信号处理单元120生成与多个输入信号114相对应的多个参考目标信号122。第一线性化器130通过处理第一参考目标信号122生成第一输出信号132，同时第二线性化器130通过处理第二参考目标信号122生成第二输出信号132。
[0056]
在图6中，示出了执行对非线性变换输入信号的线性化的方法，且该方法总体标示为600。在特定方面中，方法600的一个或多个操作由神经网络124、信号处理单元120、线性滤波器134、滤波器适配器136、线性化器130、处理器108、设备102、图1的系统100、图2的系统200、图3的示例300的一个或多个组件、图4的系统400、图5的系统500或它们的组合来执行。
[0057]
方法600包括在602处执行包括输入信号的线性变换和非线性变换的信号处理，以生成参考目标信号。例如，图1的信号处理单元120执行包括对输入信号114(“y”)的线性变
换126和非线性变换128的信号处理，以生成参考目标信号122如参考图1描述的。参考目标信号122具有与线性变换126相关联的线性分量和与非线性变换128相关联的非线性分量。在特定方面中，信号处理对应于信号增强。作为示例，输入信号114(“y”)包括音频信号，并且信号处理对应于语音增强。作为另一示例，输入信号114(“y”)包括音频信号，并且信号处理对应于噪声抑制、回声消除、去混响或它们的组合。在特定示例中，输入信号114(“y”)包括视觉输入信号，并且信号处理对应于视觉增强。在特定方面中，方法600包括使用神经网络来执行信号处理。例如，图1的信号处理单元120使用神经网络124来执行信号处理。
[0058]
方法600还包括在604处通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号。例如，图1的线性滤波器134通过控制线性滤波的适配来执行对输入信号114(“y”)的线性滤波，以生成基本上与参考目标信号122的线性分量匹配的输出信号132，如参考图1描述的。在特定方面中，线性滤波是基于与参考目标信号122相关联的非线性度量406选择性地执行的，如参考图4描述的。在特定方面中，方法600包括执行对参考目标信号的语声活动检测。例如，图3的vad 302执行对参考目标信号的语声活动检测，如参考图3描述的。线性化器130至少部分地基于是否检测到语声活动来控制线性滤波的适配，如参考图3描述的。
[0059]
在特定方面中，方法600包括处理输出信号以生成与音频输入信号中的语音相对应的文本输出。例如，图2的语音识别引擎252处理输出信号132以生成与音频输入信号214(“y”)中的语音206相对应的输出153(例如，文本输出)，如参考图2描述的。输入信号114(“y”)包括音频输入信号214(“y”)，并且信号处理对应于语音增强。
[0060]
在特定方面中，方法600包括处理输出信号以生成与由视觉输入信号表示的一个或多个面部相对应的面部识别输出。例如，图5的面部识别引擎552处理输出信号132以生成与由视觉输入信号514(“y”)表示的面部506相对应的输出153(例如，面部识别输出)。输入信号114(“y”)包括视觉输入信号514(“y”)，并且信号处理对应于面部图像增强。
[0061]
方法600因此能够生成对应于参考目标信号122的线性分量并且排除了(例如，基本上省略)参考目标信号122的非线性分量的输出信号132。方法600能够通过图1的组件150改进信号处理。组件150利用由信号处理单元120执行的信号增强，同时通过处理与增强信号的线性分量相对应的输出信号132来保持准确性。
[0062]
图7描绘了将图1的设备102集成到载具仪表板设备(诸如汽车仪表板设备702)中的实现方式700的示例。多个传感器750可以包括一个或多个麦克风、摄像头，或其他传感器，并且可以包括图2的麦克风212、图5的图像传感器502或它们的组合。尽管图示为在单个位置，但在其他实现方式中，可将一个或多个传感器750定位在载具的其他位置处，诸如分布在载具的座舱内的各种位置处，诸如位于载具中每个座位附近的一个或多个麦克风和一个或多个摄像头的阵列，以检测来自载具操作员和每个乘客的多模态输入。
[0063]
将诸如显示器720的视觉接口设备安装或定位在汽车仪表板设备702内(例如，可拆卸地固定到车载手机支架)，以使汽车驾驶员可见。在特定示例中，显示器720被配置为显示图1的输出153。信号处理单元120、线性化器130和组件150用虚线边界示出以指示信号处理单元120、线性化器130和组件150对载具的乘员不可见。信号处理单元120、线性化器130
和组件150可以在还包括显示器720和传感器750的设备中实现，或者可以与显示器720和传感器750分离和耦合到显示器720和传感器750。
[0064]
图8a描绘了集成到头戴式耳机802(诸如虚拟现实、增强现实或混合现实的头戴式耳机)中的信号处理单元120、线性化器130和组件150的示例。将诸如显示器820的视觉接口设备定位于用户的眼前方，以在佩戴头戴式耳机802时能够向用户显示增强现实或虚拟现实的图像或场景。在特定示例中，显示器820被配置为显示图1的输出153。传感器850可以包括一个或多个麦克风、摄像头，或其他传感器，并且可以包括图2的麦克风212、图5的图像传感器502或它们的组合。尽管图中示出为在单个位置中，但在其他实现方式中，可将一个或多个传感器850定位在头戴式耳机802的其他位置处，例如分布在头戴式耳机802周围的一个或多个麦克风和一个或多个摄像头的阵列，以检测多模态输入。
[0065]
图8b描绘了集成到可穿戴电子设备804中的信号处理单元120、线性化器130和组件150的示例，该可穿戴电子设备在图中示为“智能手表”，其包括显示器820和传感器850。例如，传感器850能够基于诸如视频、语音和手势的模态来检测用户输入。
[0066]
参考图9，描绘了设备的特定说明性实现方式的框图，且该设备总体标示为900。在各种实现方式中，设备900可以具有比图9所示更多或更少的组件。在说明性实现中，设备900可以对应于图1的设备102。在说明性实现中，设备900可以执行参考图1至图8b描述的一个或多个操作。
[0067]
在特定实现方式中，设备900包括处理器906(例如，中央处理单元(cpu))。设备900可以包括一个或多个附加处理器910(例如，一个或多个dsp)。处理器910可以包括信号处理单元120、组件150中的一个或多个、线性化器130、语声活动检测器302、控制器402或它们的组合。在特定方面中，图1的处理器108对应于处理器906、处理器910或它们的组合。
[0068]
设备900可以包括存储器952和codec 934。存储器952可以包括指令956，该指令956可由一个或多个附加处理器910(或处理器906)执行以实现参考图1至图8b描述的一个或多个操作。在示例中，存储器952包括存储指令956的计算机可读存储设备。指令956在由一个或多个处理器(例如，作为说明性示例的处理器108、处理器906或处理器910)执行时，致使一个或多个处理器执行包括对输入信号的线性变换和非变换的信号处理，以生成参考目标信号。参考目标信号具有与线性变换相关联的线性分量和与非线性变换相关联的非线性分量。指令956在执行时还致使一个或多个处理器通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号。
[0069]
设备900可以包括经由收发器950耦合到天线942的无线控制器940。
[0070]
设备900可以包括耦合到显示控制器926的显示器928。一个或多个扬声器936和一个或多个麦克风946可以耦合到codec 934。在特定方面中，麦克风946包括麦克风212。codec 934可以包括数模转换器(dac)902和模数转换器(adc)904。在特定实现方式中，codec 934可以从麦克风946接收模拟信号，使用模数转换器904将模拟信号转换为数字信号，并将数字信号提供给处理器910。处理器910(例如，语音和音乐编解码器)可以处理数字信号，并且数字信号可以进一步由信号处理单元120、线性化器130，或两者处理。在特定实现方式中，处理器910(例如，语音和音乐编解码器)可以将数字信号提供给codec 934。codec 934可以使用数模转换器902将数字信号转换为模拟信号，并且可以将模拟信号提供给扬声器936。设备900可以包括输入设备930。在特定方面中，输入设备930包括图5的图像
传感器502。
[0071]
在特定实现方式中，设备900可包括在系统级封装或系统级芯片设备922中。在特定实现方式中，存储器952、处理器906、处理器910、显示控制器926、codec 934和无线控制器940包括在系统级封装或系统级芯片设备922中。在特定实现方式中，输入设备930和电源944耦合到系统级封装或系统级芯片设备922。此外，在特定实施方式中，如图9所示，显示器928、输入设备930、扬声器936、麦克风946、天线942和电源944在系统级封装或系统级芯片设备922的外部。在特定实施方式中，显示器928、输入设备930、扬声器936、麦克风946、天线942和电源944可以耦合到系统级封装或系统级芯片设备922的组件，诸如接口或控制器。
[0072]
设备900可以包括便携式电子设备、汽车、载具、计算设备、通信设备、物联网(iot)设备、虚拟现实(vr)设备、智能扬声器、条形音箱、移动通信设备、智能手机、蜂窝电话、笔记本电脑、电脑、平板电脑、个人数字助理、显示设备、电视、游戏机、音乐播放器、收音机、数字视频播放器、数字视频光盘(dvd)播放器、调谐器、摄像头、导航设备或它们的任何组合。在特定方面中，处理器906、处理器910或它们的组合包括在集成电路中。
[0073]
结合所描述的实现方式，一种装置包括用于执行包括对输入信号的线性变换和非线性变换的信号处理以生成参考目标信号的部件。例如，用于执行信号处理的部件包括处理器108、图1的神经网络124、信号处理单元120、处理器906、处理器910、配置为执行包括对输入信号的线性变换和非线性变换的信号处理的一个或多个其他电路或组件，或它们的任何组合。图1的参考目标信号122具有与线性变换126相关联的线性分量和与非线性变换128相关联的非线性分量，如参考图1描述的。
[0074]
该装置还包括用于通过控制线性滤波的适配来执行对输入信号的线性滤波以生成基本上与参考目标信号的线性分量匹配的输出信号的部件。例如，用于执行线性滤波的部件包括图1的处理器108、线性滤波器134、滤波器适配器136、线性化器130、处理器906、处理器910、被配置为通过控制线性滤波的适配来执行对输入信号的线性滤波，以生成基本上与参考目标信号的线性分量匹配的输出信号的一个或多个其他电路或组件，或它们的任意组合。
[0075]
本领域技术人员将进一步理解，结合本文公开的实现方式描述的各种说明性逻辑框、配置、模块、电路和算法步骤可以实现为电子硬件、由处理器执行的计算机软件，或它们两者的组合。各种说明性组件、框、配置、模块、电路和步骤已经在上文中大体上根据它们的功能进行了描述。这种功能是实现为硬件还是处理器可执行指令取决于施加在整个系统上的特定应用和设计约束。熟练的技术人员可以针对每个特定应用以不同的方式实现所描述的功能，这样的实现决策不应被解释为导致背离本公开的范围。
[0076]
结合本文公开的实现方式描述的方法或算法的步骤可以直接实施在硬件中、由处理器执行的软件模块中，或它们两者的组合中。软件模块可以驻留在随机存取存储器(ram)、闪存、只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、寄存器、硬盘、可移动磁盘、光盘只读存储器(cd-rom)，或本领域已知的任何其他形式的非瞬时性存储介质。将示例性存储介质耦合到处理器，使得处理器可以从存储介质读取信息和将信息写入存储介质。在可替换方式中，可以将存储介质集成到处理器中。处理器和存储介质可以驻留在专用集成电路(asic)中。asic可以驻留在计算设备或用户终端中。在可替换方式中，处理器和存储介质可以作为离
散组件驻留在计算设备或用户终端中。
[0077]
提供了对所公开的方面的前述描述以使本领域技术人员能够制造或使用所公开的方面。对于本领域技术人员来说，对这些方面的各种修改将是显而易见的，并且本文中定义的原理可以应用于其他方面而不背离本公开的范围。因此，本公开不旨在限于本文中所示的方面，而是应被赋予与由所附权利要求限定的原理和新颖特征一致的尽可能宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：使用识别信号声学检测外部媒体设备状态的方法与流程

对非线性变换信号的线性化的制作方法

相关文献

最热文献