一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

扬声器系统及其补偿方法与流程

2022-07-02 05:21:05 来源:中国专利 TAG:
1.本发明是有关于一种扬声器装置、系统以及其方法。具体来说,本发明的实施例采用一神经网络对扬声器系统的播放路径造成的失真进行补偿。
背景技术
::2.扬声器常会受到有线性或是非线性失真的影响,而产生不正确的拨放。目前大多数产品提供线性补偿,例如滤波功能,等化功能和/或自动增益控制。仅少数产品提供有效的非线性补偿。但是,非线性补偿需要深入了解扬声器系统每个组件的物理特性。因此,现有的非线性补偿系统是复杂且昂贵的。3.因此,目前需要的是解决上述问题的改进的方法和系统。技术实现要素:4.在本发明的一些实施例中,在扬声器系统中所采用的循环神经网络会基于来源信号(内容)和感测电路的感测信号(信号脉络)来补偿扬声器系统的失真。选择频域转换以提供来源信号和记录信号之间的映射(mapping)。并能够重建理想的播放效果。各种感测相关特征和来源信号相关特征(source-signal-relatedfeatures)被推导出以用作辅助信息。因此,基于原始内容和信号脉络来生成期望的内容。5.本发明的实施例提供了一种用于播放声音信号的扬声器系统。扬声器系统包括处理器、放大器以及扬声器。处理器用于接收来源信号并产生处理信号;放大器用于放大处理信号以提供放大信号。扬声器用于接收放大信号并产生输出信号。在部署阶段,处理器配置为使用循环神经网络(rnn)以及经过训练的参数的补偿来源信号以生成上述处理信号。根据来源信号和输出信号训练rnn以产生经过训练的参数。6.根据本发明的一些实施例,本发明提供了一种扬声器系统。包括扬声器、放大器、感测电路以及处理器。扬声器用以根据放大信号来播放声音信号。放大器连接至所述扬声器,所述放大器用以接收经调整的来源信号(justifiedsourcesignal),根据所述经调整的来源信号以产生所述放大信号,传送所述放大信号至所述扬声器。感测电路连接至放大信号,所述感测电路用以测量所述放大信号的电压以及电流,产生感测信号,所述感测信号包含所述测量的电压以及所述测量的电流。处理器用以接收来源信号以及所述感测信号,根据所述感测信号推导出感测相关特征(sensing-relatedfeature),将所述来源信号转换至可重建频域表示(reconstructablefrequencydomainrepresentation),根据所述来源信号推导出来源信号相关特征,部署经过训练的循环神经网络(rnn),以根据感测相关特征以及来源信号相关特征,将所述可重建频域表示转换成经调整的频域表示(justifiedfrequencydomainrepresentation),将所述经调整的频域表示逆向转换至所述经调整的来源信号,传送所述经调整的来源信号至所述放大器。7.根据本发明的一些实施例,本发明的扬声器系统中,感测相关特征包含阻抗、电导、微分阻抗、微分电导、瞬时功率以及均方根功率。8.根据本发明的一些实施例,在本发明的扬声器系统中,所述可重建频域表示是选自快速傅立叶转换(fft)、离散傅立叶转换(dft)、修正型离散余弦转换(mdct)、修正型离散正弦转换(mdst)、常数q转换(cqt)、以及变数q转换(vqt),其中所述变数q转换根据等效矩形带宽(erb)或是bark尺度使用滤波声道分布。9.根据本发明的一些实施例,在本发明的扬声器系统中,所述来源信号相关特征包含梅尔频率倒谱系数(mfcc)、感知线性预测(plp)、频谱质心、频谱通量、频谱衰减、过零率、峰值频率、波峰因素、能量熵、平均幅度、均方根数值、偏度、峰度以及最大幅度中的至少一个。10.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络是门控循环单元(gru)。11.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络是长短期记忆网络(lstm)。12.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络包含存储器元件,其储存所述循环神经网络的多个参数。13.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络是以设备进行训练,所述设备包含麦克风、第一延迟装置、第二延迟装置以及神经网络训练装置。麦克风用以将所述扬声器播放的所述声音信号转换至记录信号。第一延迟装置用以同步所述来源信号与所述记录信号。第二延迟装置用以同步所述感测信号与所述记录信号。神经网络训练装置用以接收所述来源信号以及所述感测信号,根据所述感测信号推导出所述感测相关特征,将所述来源信号转换成第一频域表示,根据所述来源信号推导所述来源信号相关特征,将所述记录信号转换成第二频域表示,再根据所述第一频域表示、所述第二频域表示、所述来源信号相关特征以及所述感测相关特征,训练所述循环神经网络的所述多个参数。在训练阶段的期间中所述经过训练的循环神经网络是被绕过,而所述经调整的来源信号是所述来源信号。14.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络是借由顺向训练机制进行训练,在所述顺向训练机制中所述第一频域表示是指定作为输入,而所述第二频域表示是指定作为所需输出。15.根据本发明的一些实施例,在本发明的扬声器系统中,所述循环神经网络是借由逆向训练机制进行训练,在所述逆向训练机制中,所述第二频域表示是指定作为输入,而所述第一频域表示是指定作为所需输出。16.根据本发明的一些实施例,本发明提供一种方法,用以在一扬声器系统中播放声音信号,所述扬声器系统包含处理器、放大器以及扬声器,所述处理器用以接收来源信号以及产生处理信号,所述放大器用以放大所述处理信号以提供放大信号,所述扬声器用以接收所述放大信号并产生输出信号,所述方法包含在训练阶段,根据所述来源信号以及所述输出信号训练循环神经网络(rnn),以产生经过训练的参数;以及在部署阶段,使用所述rnn与所述经过训练的参数对所述来源信号进行补偿,以产生所述处理信号。17.根据本发明的一些实施例,本发明的方法还包含:在所述训练阶段,感测所述放大信号,以产生感测信号,根据感测信号推导出感测相关特征;使用麦克风将所述扬声器播放的所述输出信号转换成记录信号;将所述来源信号转换成第一频域表示;根据所述来源信号,推导出来源信号相关特征;将所述输出信号的记录信号转换成第二频域表示;根据所述第一频域表示、所述第二频域表示、来源信号相关特征以及感测相关特征,训练所述rnn以产生经过训练的参数。18.根据本发明的一些实施例,本发明的方法还包含:在所述部署阶段,接收所述来源信号以及所述感测信号;根据感测信号,推导出感测相关特征;将所述来源信号转换成可重建频域表示;部署所述经过训练的rnn与所述经过训练的参数,用以根据从所述来源信号以及所述感测信号得出的所述特征,将所述可重建频域表示转换成经过补偿的频域表示;将所述经过补偿的频域表示逆向转换成经过补偿的来源信号;以及传送所述经过补偿的来源信号至所述放大器。19.根据本发明的一些实施例,在本发明的方法中,所述循环神经网络是借由顺向训练机制进行训练,在所述顺向训练机制中所述第一频域表示是指定作为输入,而所述第二频域表示是指定作为所需输出。20.根据本发明的一些实施例,在本发明的方法中,所述循环神经网络是借由逆向训练机制进行训练,在所述逆向训练机制中,所述第二频域表示是指定作为输入而所述第一频域表示是指定作为所需输出。附图说明21.图1为本发明的一音频系统的结构示意图。22.图2为本发明的一些实施例的记录扫频(recordedsweepingtone)信号以及感测电流电压信号的频谱图。23.图3为本发明的扬声器系统的实施例的结构示意图。24.图4为本发明的实施例的记录扫频、对应iv侦测信号以及推导特征的动态波形图。25.图5为本发明的来源信号以及记录信号的修正型离散余弦转换(mdct)图。26.图6为本发明的实施例的来源信号以及记录信号的常数q转换(cqt)图。27.图7为本发明的实施例的可用于基于面积功能的检测模块的两层前馈神经网络的结构示意图。28.图8为门控循环单元(gru)的计算单元范例。29.图9为长短期记忆神经网络运算层(lstm)神经网络的计算单元范例。30.图10为本发明的实施例的前向训练机制。31.图11为本发明的实施例的逆向训练机制。32.图12为本发明的实施例的在扬声器系统播放声音信号的方法的简化流程图。33.图13为用于实现本发明的实施例的装置的简化结构示意图。34.上述图式为示意性且并未按比例缩放。图式中相对尺寸与比例因精确与/或方便的目的而放大或缩小,且尺寸为任意的且不限于此。于图式中相似的参考符号代表相似的元件。35.符号说明:36.101:音频输入信号37.103:模拟数字转换器38.104:数字信号处理单元39.105:数字模拟转换器40.106:音频放大器单元41.107:模拟信号42.109:音频输出信号43.110:扬声器44.300:扬声器系统45.301:处理器46.302:循环神经网络47.304:放大器48.306:感测电路49.308:扬声器50.312:感测信号51.313:来源信号52.315:调整后的来源信号53.317:放大信号54.321:声音信号55.331:麦克风56.332:记录信号57.333:神经网络训练单元58.335、337:延迟装置59.700:前馈神经网络60.710:输入端口61.720:隐藏层62.730:输出层63.740:输出端口64.800:gru神经网络的单元65.900:lstm神经网络的单元66.1000:前向训练机制67.1010:训练阶段68.1020:部署阶段69.1100:逆向训练机制70.1110:训练阶段71.1120:部署阶段72.1200~1220:步骤流程73.1300:计算机系统74.1310:监视器75.1320:计算机76.1330:用户输出装置77.1340:用户输入装置78.1350:通信接口79.1360:处理器80.1370:ram81.1380:磁盘驱动器82.1390:总线子系统具体实施方式83.以下将配合图式及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。84.当在此使用时,除非文中另行明确地表示,否则“一”、“所述”、“此”等单数型式也包含复数型式。85.图1为本发明的音频系统的结构示意图。如图1所示,音频系统100被配置为接收音频输入信号vin(101)并向扬声器110提供音频输出信号vout(109)。音频系统100包括模拟数字转换器(adc)103、数字信号处理单元104、数字模拟转换器(dac)105和音频放大器单元106。来自dac的输出信号是馈入扬声器110的模拟信号va(107)。这些元件的详细功能为此领域的技术者所熟知,故在此不再详细说明。86.图2为根据本发明的一些实施例的记录扫频(sweepingtone)和感测到的电流和电压信号的频谱图。在图2中,(a)部分显示扫频播放的记录信号的频谱图。横轴表示时间,从零到三秒;纵轴表示检测到的信号的频率。由虚线(从稍迟于0秒的40hz到稍迟于3秒的20000hz)突出显示的暗色主线201,其为扫频的预期响应。主线上方的次要线202表示感应的谐波。底部203处的水平暗部示出了低频噪声。在大约7000hz(线204)和13000hz(线205)处的两条较小的水平线表明了由于系统尺寸所造成的共振。87.在图2中,(a)部分绘示了音频系统中的各种失真。在本发明的一些实施例中,扬声器系统采用循环神经网络,以基于来源信号(内容)、与感测电路的感测或记录的输出信号(信号脉络)来补偿系统的失真。在一个示例中,选择频域转换以提供来源信号和记录的信号之间的映射并产生期望的回放的重构(reconstruction)。各种感测相关特征和来源信号相关特征被推导出以用作辅助信息。因此,使用循环神经网络根据原始内容和信号脉络生成所需的内容。在一些实施例中,采用机器学习来确定上述来源信号和失真播放之间的映射,从而可以对来源信号进行调整或补偿以产生期望的播放结果。88.本发明的实施例提供了一种用于播放声音信号的扬声器系统。扬声器系统包括一处理器、一放大器以及一扬声器。处理器用于接收来源信号并产生处理信号,放大器用于放大处理信号以提供放大信号,而扬声器用于接收放大信号并产生输出信号。在训练阶段,扬声器系统训练循环神经网络(rnn)以根据来源信号和输出信号生成经过训练的参数,并在部署阶段使用rnn与经过训练的参数补偿来源信号,以操作扬声器系统。89.图3为根据本发明的各个实施例的扬声器系统的结构示意图。如图3所示,扬声器系统300包括处理器301、放大器304、感测电路306和扬声器308。处理器301部署具有经过训练的参数的神经网络(nn),例如循环神经网络(rnn)302,用以将来源信号(v)313转换为调整后(justified)的来源信号u(315)。调整后的来源信号u(315)也称为补偿信号或预处理信号。放大器304放大经调整的来源信号u(315),以产生放大信号p(317),并将其馈送到扬声器308以进行播放。扬声器308产生输出声音信号q(321)。在一些实施例中,上述rnn可以包括存储rnn的多个参数的存储器元件。90.感测电路306测量放大信号p(317)的电压和电流,并且将感测信号s(312)(其包括前述所测量的信号)发送到处理器301。图2为上述感测电流信号以及电压信号的范例。请参照图2,(a)部分示出了扫频播放的记录信号的频谱图。横轴表示时间,从零到三秒;纵轴表示检测到的信号的频率。在图2中,(b)部分示出了感测到的电流信号i-sense的频谱,而(c)部分示出了感测到的电压信号v-sense的频谱。上述电流和电压信号(i-sense以及v-sense)的频谱图分别类似于原始扫频201的频谱图,并显示出类似的失真特征。本发明的发明人已将测得的电流信号和电压信号及其频谱图识别出有用的数值,其可用于让神经网络学习来源信号v313和经过调整的来源信号u(315)之间的映射。91.图4为根据本发明的一些实施例的记录的扫频、相应的iv-sense信号以及导出的特征的时间波形。在图4中,水平轴显示时间,从零到三秒。(a)部分以对数标度显示了在三秒内频率从40hz增加到20khz的扫描信号的幅度。实线表示来源信号,虚线表示记录信号。在时域中,图4的(a)部分中记录的变化幅度示出了系统的频率响应需要进行等化。在图4中,(b)部分示出了iv-sense信号,其中实线示出了电压感测信号(v-sense),而虚线示出了电流感测信号(i-sense)。此外,(c)部分显示了从感测输出(v/i)得出的电阻,虚线表示瞬时电阻,粗虚线表示帧均方根(rms)电阻。其他参数也可以在神经网络中使用。这些参数可以包括电导(i/v)、微分电阻(dv/di)或微分电导(di/dv)。(d)部分显示了功率(iv)与时间的关系图,虚线表示瞬时功率,粗虚线表示帧均方根(rms)功率。这些推导特征(作为物理意义的非线性信号脉络)可以有助于神经网络学习。92.在某些情况下,在频域中更容易观察到来源信号和记录信号之间的失真。在这些情况下,将时域波形转换为频域表示可能是有利的,以便神经网络可以进行更有意义的学习。许多转换可以应用于各种音频应用中。在本发明的一些实施例中,可使用可重构转换(reconstructabletransforms)。例如,可以采用快速傅立叶转换(fft)来实现重建。图2中示出的示例是使用fft得出的。对于fft,如果使用1024个采样窗口,则频点数为512,每个频点由复数(complexnumber)表示,即要学习的1024个实数。在一些实施例中,可以使用离散傅里叶转换(dft)。93.在本发明的实施例中也可以使用其他可重构的转换。图5为扫频来源信号和记录信号的修正型离散余弦转换(mdct)。在(a)部分和(b)部分中,水平轴均以秒(s)为单位显示时间,垂直轴以hz为单位显示频率。在图5中,(a)部分示出了扫频来源信号的mdct转换,而(b)部分示出了记录信号的mdct转换。在给定相同设定的情况下,每个区间(bin)都由一个实数表示,即仅要学习512个实数。与mdct相似,也可以应用修正型离散正弦转换(mdst)。94.图6为扫频来源信号和记录信号的常数q转换(cqt)。在图6中,(a)部分示出了扫频来源信号的cqt转换,而(b)部分示出了记录信号的cqt转换。常数q转换(cqt)是另一种适合于完美重构的转换方式,但是其频点沿频率轴呈对数分布。给定40hz到20khz的频率范围,其大约9个八度(octave),每个八度的分辨率为12格,每个格由一个复数表示,因此则仅需要学习9x12x2=216个实数。在接受接近完美重建的情况下,可以应用变数q转换(vqt),其中频率分布可以对应于等效矩形带宽(erb)或bark尺度。95.有些不可重构的频域表示(frequencydomainrepresentation),诸如梅尔频率倒谱系数(mfcc)或感知线性预测(plp)可提供了适合于来源信号相关特征的听觉相对提示(auditory-relativecue)以增强学习。其他合适的基于频率的来源信号相关特征可包含频谱质心(spectralcentroid)、频谱通量、频谱衰减(spectralroll-off)、频谱变化性(spectralvariability)、频谱熵(spectralentropy),过零率(zerocrossrate)和/或峰值频率(peakfrequency)。在时域波形中,有用的特征包括平均幅度、均方根值、偏度(skewness)、峰度(kurtosis)、最大幅度、波峰因数(crestfactor)和/或能量熵。这些与来源信号相关的特征提供了多种音频特性作为信号脉络(context),因此神经网络可以分配更多的资源来学习它们之间的其他映射规则。96.请参照图3,根据本发明的各种实施例,扬声器系统300可包括扬声器308以及放大器304。扬声器308基于放大信号p(317)播放声音信号v(313)。放大器304连接至扬声器308,被配置为接收修改后的来源信号u(315),并根据调整后的来源信号u(315)生成放大信号p(317),并将放大信号p(317)发送到扬声器308。调整后的来源信号u(315)也称为补偿信号或前处理信号。扬声器系统300还包括感测电路306,其连接到放大输出信号p(317)。感测电路306被配置为测量放大信号p(317)的电压和电流,并生成感测信号s(312),其包括测得的电压和电流。97.扬声器系统300还包括被配置为接收来源信号v(313)和感测信号s(312)的处理器301。处理器301还被配置为基于感测信号s(312)导出感测相关特征,并对来源信号s(312)进行转换成可重构的频域表示。处理器301还被配置为推导出来源信号相关特征。处理器301还根据从来源信号和感测信号导出的多个特征来部署经过训练的循环神经网络(rnn)302,用以将频域表示转换为经调整的(justified)频域表示。处理器301还将经调整的频域表示逆转换成经调整的来源信号u(315),并且将经调整的来源信号u(315)发送至放大器。98.图3还示出了训练设备(如虚线部分所示),其包括麦克风331、神经网络训练装置333以及两个延迟装置335和337。麦克风将由扬声器播放的声音信号q(321)转换为记录信号r(332)。延迟装置335和337将来源信号v(313)和感测信号s(312)与记录信号r(332)同步。根据来源信号v(313)、感测信号s(312)、记录信号r(332)以及从来源信号v(313)和感测信号s(312)得出的特征,神经网络训练装置(例如计算机)训练循环神经网络302的参数w(311)。99.如上所述,神经网络可用于补偿输入来源信号以减小输出失真。在一些实施例中,可以将神经网络应用于执行离线机器学习。神经网络的示例如下所述。请参照图7所描述通用神经网络的示例,以及图8以及图9描述循环神经网络的两个例子。100.图7为根据本发明实施例的示例性两层前馈神经网络的结构示意图,所述示例性两层前馈神经网络也可以用于构建基于面积功能的检测模块(area-function-baseddetectionmodule)。在图7所示的例子中,前馈神经网络700包括输入端口710、隐藏层720、输出层730和输出端口740。在所述网络中,信息仅在一个方向上从输入节点向前移动,通过隐藏节点和输出节点。在图7中,w表示权重向量,b表示偏移参数。101.在一些实施例中,隐藏层720可具有sigmoid神经元(neurons),而输出层730可具有softmax神经元(neurons)。sigmoid神经元具有由sigmoid函数定义的输出关系,sigmoid函数是具有特征s形曲线或sigmoid曲线的数学函数。根据应用,sigmoid函数具有所有实数的域,返回值最经常单向地从0增加到1,或者从-1增加到1。各种各样的sigmoid函数可以用作人工神经元的激活功能,包括逻辑和双曲正切函数(logisticandhyperbolictangentfunction)。102.在输出层730中,softmax神经元具有由softmax函数定义的输出关系。softmax函数或正规化指数函数是对逻辑函数的概括,所述逻辑函数将任意实数值的k维向量z压缩为实数值的k维向量σ(z),其中每一进入值(entry)都位于范围(0,1),并且所有进入值的总和为1。softmax函数的输出可用于表示分类分布,即,在k个不同可能结果上的概率分布。softmax函数通常用于基于神经网络的分类器的最后一层。在图7中,w表示权重向量,b表示偏移参数。103.为了实现合理的分类,在第一个隐藏层中应所述分配至少10个神经元。如果使用更多隐藏层,则可以在附加隐藏层中使用任意数量的神经元。当有给定更多的计算资源,可以分配更多的神经元或层。在其隐藏层中提供足够的神经元可以提高性能。还可以应用更复杂的网络(例如,卷积神经网络或循环神经网络)以实现更好的性能。只要在其隐藏层中有足够的神经元,就可以很好地对向量进行分类。104.在本发明的实施例中,循环神经网络(rnn)处理用于预测的序列数据。合适的rnn包括简易循环神经网络(rnn)、门控循环单元(gru),如图8所示;还包括长短期记忆神经网络(lstm),如图9所示。gru使用的张量运算少于lstm。因此,gru的训练速度比lstm快一些。另一方面,lstm可以提供最大的可控制性,因此可以提供更好的结果,但同时也带来更多的复杂性和操作成本。105.图8为gru神经网络的单元800,其中xt是输入,ht是输出,ht-1是前一个输出,并且双曲正切函数(hyperbolictanhfunction)被用作激活函数以帮助调节通过网络的数值gru单元具有一个复位门(resetgate)来决定要忘记多少过去的信息(rt),以及一个更新栅门来决定要丢弃的信息(1-zt)和要添加的新信息(zt),其中重置系数(rt)和更新系数(zt)由sigmoid激活(σ)确定。106.图9为lstm神经网络的单元900,其中xt是输入,ht是输出,ht-1是前一输出,ct是单元状态,ct-1是前一个单元的状态,是由第一tanh函数激活的调节单元的状态。lstm单元具有三种不同的栅门来调节信息流程:一忘记(forget)栅门用以以决定应所述丢弃或保留哪些信息(ft),一输入栅门用以决定哪些信息对于从第一个tanh输出中保持(it)是重要,以及一输出栅门用以决定隐藏状态应从第二个tanh输出(tanhct)携带哪些信息(ot),其中上述因素由sigmoid激活(σ)确定。107.图10为根据本发明的各个实施例的前向训练机制1000。在训练阶段1010中,训练装置将来源信号指定为原始内容,将感测输出(即是上述感测信号)与从来源信号与感测信号所导出的特征一起指定为信号脉络(context),并且将记录信号指定为期望的输出,借以训练参数(w)。在部署阶段1020中,具有经过训练参数的训练神经网络会根据原始内容和信号脉络预测推断信号(s)。可以通过将推断信号(inferredsignal)中减去来源信号来获得失真(d)。最后,可以通过将来源信号和失真的反相相加来获得调整后的信号u(也可称为补偿信号)。在图10中,反相相加以“‑”运算符示出。108.图11为根据本发明的各个实施例的逆向训练机制1100。在训练阶段1110中,训练装置接收记录信号(作为内容)、感测输出(即为上述感测信号)与其推导特征(作为信号脉络)、以及来源信号(作为期望的输出),以作为训练参数(w)。在部署阶段1120中,受过训练的神经网络会根据内容和信号脉络(context)直接预测调整后的信号u。所述机制将神经网络配置为在训练阶段根据记录信号来推断来源信号。由于最佳播放是来源信号,因此经过训练的神经网络将推断产生所需播放的调整后的信号。109.图12为根据本发明的各个实施例的用于在扬声器系统中播放声音信号的方法的简化流程图。图3显示一例示性扬声器系统。如图3所示。扬声器系统300包括处理器301、放大器305以及扬声器308:处理器301用于接收来源信号v(313)并产生处理信号u(315)。放大器305用于放大处理信号u(315),以提供放大信号p(317)。扬声器308用于接收放大信号p(317),并产生输出信号q(321)。参考图3所示,方法1200包括以下步骤。在步骤1210,于训练阶段,训练循环神经网络(rnn)以根据来源信号和输出信号产生经过训练的参数。方法1200还包括步骤1220,于部署阶段中,使用具有训练过的参数的rnn来补偿来源信号以操作扬声器系统。110.在训练阶段,在步骤1210,所述方法包括根据感测信号推导出感测相关特征,使用一麦克风用以将扬声器播放的声音信号转换为记录信号,将来源信号转换为第一频域表示,将记录信号转换为第二频域表示,并训练rnn根据第一频域表示,第二频域表示以及从来源信号和感测信号得出的特征来生成训练后的参数。上述训练阶段的描述是搭配参考图3。上述神经网络的描述是搭配参考图7,上述rnn的范例的描述是搭配参考图8以及图9。111.在部署阶段,在步骤1220,所述方法包括接收来源信号并感测上述放大信号,并根据感测信号推导出感测相关特征,将来源信号转换为可重构的频域表示,部署训练后的rnn使用训练有素的参数,借以根据从来源信号和感测信号得出的特征,将可重构的频域表示转换为补偿后的频域表示,将补偿后的频域表示逆向转换为补偿后的来源信号,然后发送补偿后的来源信号发送到放大器。上述部署阶段的处理过程描述是搭配参考图3。112.在一些实施例中,通过前向训练方案来训练循环神经网络,其中第一频域表示被指定为输入,而第二频域表示被指定为期望的输出,上述训练处理的范例的描述可搭配参考图10。113.在一些实施例中,可通过逆向训练机制来训练循环神经网络,其中第二频域表示被指定为输入,而第一频域表示被指定为期望的输出。上述训练处理的范例的描述可搭配参考图11。114.图13为根据本发明的可用于实现各种实施例的装置的简化结构示意图。图13仅是并入本公开的实施例的说明,而非为限制如申请专利范围中所述的本发明范围。本领域普通技术人员可认识到其他变化型、修改型和替代型。在一个实施例中,计算机系统1300通常包括一监视器1310、一计算机1320、一用户输出装置1330、一用户输入装置1340、以及通信接口350等等。115.图13为能够体现本发明的计算机系统。例如,扬声器系统300可以使用与系统1300相似的系统来实现。处理器301和神经网络训练单元333的功能可以由图13所示的一个或多个处理器来执行。扬声器308、麦克风331和感测电路306可以是类似于图13所示的系统1300的系统中的周边装置。此外,可以在类似于图13所示的系统1300的系统中进行机器学习系统的离线训练。116.如图13所示,计算机1320可以包括经由总线子系统1390与多个周边装置进行通信的处理器1360。这些周边装置可以包括用户输出装置1330、用户输入装置1340、通信接口1350以及存储子系统,例如作为随机存取存储器(ram)1370和磁盘驱动器1380。117.用户输入装置1340可以包括用于向计算机系统1320输入信息的所有可能类型的装置和机构,这些装置和机构可以包括键盘、小键盘(keypad)、结合在显示器中的触摸屏、音频输入装置(例如语音识别系统、麦克风和其他类型的输入设备)。在各种实施例中,用户输入装置1340通常体现为计算机滑鼠、轨迹球、轨迹板、操纵杆、无线遥控器、绘图板、语音命令系统、眼睛追踪系统等。用户输入装置1340通常允许用户通过诸如单击按钮之类的命令来选择出现在监视器1310上的物件、图标或文本等。118.用户输出装置1330包括用于从计算机1320输出信息的所有可能类型的装置和机制。这些装置和机构可以包括显示器(例如,监视器1310)、非可视显示器(例如音频输出装置)等。119.通信接口1350提供到其他通信网络和装置的接口。通信接口1350可以用作用于从其他系统接收数据以及向其他系统发送数据的接口。通信接口1350的实施通常包括以太网卡、数据机(电话、卫星、电缆或isdn)、(异步)数字用户线路(dsl)单元、firewire接口、usb接口等。例如,通信接口1350可以耦合到计算机网络、firewire火线等。在其他实施例中,通信接口1350可以实体地集成在计算机1320的主板上,并且可以是软件程序,诸如软件dsl等。120.在各个实施例中,计算机系统1300还可包括软件,其用以透过诸如超文本传输协议(http)、传输控制协议和网络协议(tcp/ip)、即时串流协议和即时传输协议(rtsp/rtp)协议等在网络上进行通信。在本发明的其他实施例中,也可以使用其他通信软件和传输协议,例如,互联网封包交换(ipx)、或是用户数据包协议(udp)等。在一些实施例中,计算机1320包括一个或多个英特尔公司的xeon微处理器作为处理器1360。此外,在一个实施例中,计算机1320包括基于unix的操作系统。处理器1360还可以包括专用处理器,例如数字信号处理器(dsp)和/或精简指令集计算机(risc)。121.ram1370和磁盘驱动器1380是为存储数据的有形存储介质的示例,例如储存本发明的实施例的数据,其可包括可执行计算机代码、人类可读代码等。其他类型的有形存储介质包括软盘、可移动硬盘,光学存储介质(例如cd-rom、dvd和条形码)、半导体存储器(例如快闪存储器)、只读存储器(roms),具有备用电池的随机存取存储器、联网的存储装置等。ram1370和磁盘驱动器1380可以被配置为存储提供本发明的功能的基本编程和数据建构。122.提供本发明功能的软件代码模块和指令可以存储在ram1370和磁盘驱动器1380中。这些软件模块可以由处理器1360执行。ram1370和磁盘驱动器1380还可以提供用于存储本发明使用数据的存储库。123.ram1370和磁盘驱动器1380可以包括多个存储器,包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)和其中储存有固定有非暂时性的只读存储器(rom)。ram1370和磁盘驱动器1380可以包括文件存储子系统,其为程序和数据文件提供持久性(非易失性)存储。ram1370和磁盘驱动器1380还可包括可移式存储系统,例如可移式快闪存储器。124.总线子系统1390提供了一种机制,用于使计算机1320的各个组件和子系统相互通信。尽管总线子系统1390显示为单一总线,但是在其他实施例中总线子系统可以利用多个总线。125.图13绘示能够体现本发明的计算机系统的例子。对于本领域的普通技术人员将显而易见的是许多其他硬件和软件配置可适用于本发明。例如,计算机可以是台式机、笔记本电脑、电脑一体机、或平板电脑。另外,计算机可以是多台联网计算机。此外,可使用其他微处理器,例如amd公司的pentiumtm或itaniumtm微处理器、opterontm或athlonxptm微处理器等。此外,可使用其他类型的操作系统,例如微软公司的等,sunmicrosystems公司的solaris、linux、unix等。在其他实施例中,上述技术可以在芯片或辅助处理板上实现。126.本发明的各种实施例可以用软件,硬件或两者的组合中的逻辑形式来实现。前述逻辑可以被存储在计算机可读或机器可读的非暂时性存储介质中,作为适于引导计算机系统的处理器执行一组指令,以进行在本发明的实施例中公开的一组步骤。所述逻辑可以形成计算机程序产品的一部分,所述计算机程序产品适于指导信息处理装置执行本发明的实施例中公开的一组步骤。基于本文提供的公开内容和教示,本领域普通技术人员将理解实现本
发明内容的其他方式和/或方法。127.本文描述的数据结构和代码可以部分或全部存储在计算机上计算机可读存储介质和/或硬件模块和/或硬件装置。计算机可读存储介质包括但不限于随机存取存储器、非易失性存储器、磁性和光存储装置,例如磁盘驱动器、磁带、cd(光盘)、dvd(数字影音光盘)或其他现在已知或以后开发的能够存储代码和/或数据的介质。本文所述的硬件模块或装置包括但不限于专用集成电路(asic)、现场可编程逻辑门阵列(fpga)、专用或共享处理器,和/或现在已知或以后开发的其他硬件模块或装置。128.本文描述的方法和过程可以部分或完全体现为存储在计算机可读存储介质或设备中的代码和/或数据,从而当计算机系统读取并执行代码和/或数据时,计算机系统执行相关的方法和过程。所述方法和过程还可以部分地或完全地体现在硬件模块或装置中,使得当硬件模块或装置启动时,它们执行相关联的方法和过程。可以使用代码,数据和硬件模块或装置的组合来体现本发明公开的方法和过程。129.虽然本发明以前述的实施例揭露如上,然其并非用以限定本发明,任何熟习相像技艺者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,因此本发明的专利保护范围须视权利要求所界定范围为准。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献