用于目标语音分离的具有神经网络的多抽头最小方差无失真响应波束成形器的制作方法

2022-11-12 12:29:19 来源：中国专利 TAG：

用于目标语音分离的具有神经网络的多抽头最小方差无失真响应波束成形器
1.相关申请的交叉引用
2.本技术要求于2020年7月10日提交的申请号为no.16/926,138的美国申请的优先权，其全部内容通过引用并入本文。
技术领域
3.本公开总体上涉及数据处理领域，尤其涉及语音识别。

背景技术：

4.基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。然而，单纯基于神经网络的前端方法可能会导致非线性语音失真。语音失真会降低语音识别系统的性能，即使对于已经对背景噪声足够鲁棒的商业通用自动语音识别引擎而言也是如此。最小方差无失真响应(minimum variance distortionless response，mvdr)波束成形器明确要求在目标方向上进行无失真滤波，并且在分离语音中的语音失真显著减少。

技术实现要素：

5.实施例涉及一种用于基于多抽头(multi-tap)最小方差无失真响应(mvdr)进行自动语音识别的方法、系统和计算机可读介质。根据一方面，提供了一种用于自动语音识别的方法。该方法包括：接收视频数据和音频数据，视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播，生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
6.根据另一方面，提供了一种用于自动语音识别的计算机系统。该计算机系统可以包括一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备、以及存储在一个或多个存储设备中的至少一个上的程序指令，程序指令通过一个或多个存储器中的至少一个由一个或多个处理器中的至少一个来执行，由此计算机系统能够执行方法。该方法可包括：接收视频数据和音频数据，视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播，生成与一个或多个说话者中的目标说话者相对应的预测目标波形。
7.根据又一个方面，提供了一种用于自动语音识别的计算机可读介质。计算机可读介质可包括一个或多个计算机可读存储设备和存储在所述一个或多个有形存储设备中的至少一个上的程序指令，程序指令可由处理器执行。程序指令可由处理器执行，以用于执行方法，该方法相应地可包括：接收视频数据和音频数据，视频数据和音频数据对应于一个或多个说话者。对所接收的音频数据和视频数据进行最小方差无失真响应函数运算。基于对所运算的最小方差无失真响应函数的输出的反向传播，生成与一个或多个说话者中的目标
说话者相对应的预测目标波形。
附图说明
8.这些和其它目的、特征和优点将通过下面结合附图阅读的对说明性实施例的详细描述而变得显而易见。附图的各种特征未按比例绘制，原因是图示要清楚地便于本领域技术人员结合详细描述来理解。在附图中：
9.图1示出了根据至少一个实施例的联网计算机环境；
10.图2是根据至少一个实施例的用于自动语音识别的系统的框图；
11.图3是示出了根据至少一个实施例的由用于自动语音识别的程序执行的步骤的操作流程图；
12.图4是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图；
13.图5是根据至少一个实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图；以及
14.图6是根据至少一个实施例的图5中的说明性云计算环境的功能层的框图。
具体实施方式
15.本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解，所公开的实施例仅仅是所要求保护的结构和方法的说明，所要求保护的结构和方法可以以各种形式实施。然而，这些结构和方法可以以许多不同的形式实施，且不应被解释为限于本文阐述的示例性实施例。相反，提供这些示例性实施例，使得本公开将是彻底的和完整的并向本领域技术人员充分传达范围。在描述中，可省略公知特征和技术的细节以避免不必要地模糊所呈现的实施例。
16.实施例总体上涉及数据处理领域，尤其涉及语音识别。下面描述的示例性实施例提供了一种系统、方法和计算机程序，用于(除其他外)基于多抽头最小方差无失真响应(mvdr)进行自动语音识别。因此，一些实施例具有通过允许从一组说话者中识别和分离目标说话者的语音来改进计算领域的能力。
17.如前文所述，基于深度学习的语音增强和语音分离方法受到了广泛的研究关注。然而，纯粹基于神经网络的前端方法可能会导致非线性语音失真。语音失真会降低语音识别系统的性能，即使对于已经对背景噪声足够鲁棒的商业通用自动语音识别引擎也是如此。最小方差无失真响应(minimum variance distortionless response，mvdr)波束成形器明确要求在目标方向上进行无失真滤波，并且在分离语音中的语音失真显著减少。
18.通过神经网络估计的理想比率掩码(ideal ratio mask，irm)利用更好的协方差矩阵计算来改进mvdr。然而，虽然基于神经网络掩码的mvdr相比于单纯基于神经网络的方法具有更小的失真，因而可以获得更好的语音识别精度，但增强的语音仍然存在较高的残余噪声水平。因此，可能有利的是，使用神经时空波束成形方法(即，具有复值掩码的多抽头mvdr波束成形器)来用于进行语音分离和语音增强，从而利用麦克风之间的相关性和帧间相关性同时获得高语音识别精度和高质量分数。此外，在多抽头mvdr框架中，使用复值掩码代替实值掩码并对复值掩码进行联合训练，可以进一步提高语音识别的准确率。
19.在本文中参考根据各个实施例的方法、装置(系统)和计算机可读介质的流程图示和/或框图来描述各方面。应理解，流程图示和/或框图的每个框以及流程图示和/或框图中的框的组合可由计算机可读程序指令实现。
20.下面描述的示例性实施例提供了一种系统、方法和计算机程序，用于自动语音识别。现在参考图1，示出了多抽头mvdr系统(以下称为“系统”)的联网网络计算机环境的功能框图。应理解，图1仅提供了一种实施方式的图示，并不暗示与可实现不同实施例的环境相关的任何限制。可基于设计和实现要求对所描绘的环境进行许多修改。
21.系统100可包括计算机102和服务器计算机114。计算机102可通过通信网络110(以下称为“网络”)与服务器计算机114通信。计算机102可包括处理器104和存储在数据存储设备106上的软件程序108，计算机102能够与用户对接并与服务器计算机114通信。如下文将参照图4讨论的，计算机102可相应地包括内部组件800a和外部组件900a，且服务器计算机114可相应地包括内部组件800b和外部组件900b。计算机102可以为例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板电脑、台式计算机、或能够运行程序、访问网络和访问数据库的任何类型的计算设备。
22.如下文参考图6和图7讨论的，服务器计算机114还可以在云计算服务模型中操作，云计算服务模型例如软件即服务(software as a service，saas)、平台即服务(platform as a service，paas)或基础设施即服务(infrastructure as a service，iaas)。服务器计算机114还可位于云计算部署模型中，云计算部署模型例如私有云、社区云、公共云或混合云。
23.服务器计算机114可用于基于多抽头mvdr识别和分离目标说话者的语音，能够运行可与数据库112交互的多抽头mvdr程序116(以下称为“程序”)。下面结合图3更详细地说明多抽头mvdr程序方法。在一个实施例中，计算机102可作为包括用户接口的输入设备操作，而程序116可主要在服务器计算机114上运行。在可选实施例中，程序116可主要在一个或多个计算机102上运行，而服务器计算机114可用于处理和存储程序116所使用的数据。应注意，程序116可以是独立的程序，或者可集成到更大的多抽头最小方差无失真响应程序中。
24.然而，应注意，在某些情况下，程序116的处理可以在计算机102和服务器计算机114之间以任何比例共享。在另一实施例中，程序116可以在多于一台计算机、服务器计算机或计算机和服务器计算机的某种组合上运行，例如，在通过网络110与单个服务器计算机114通信的多个计算机102上运行。在另一实施例中，例如，程序116可以在通过网络110与多个客户端计算机通信的多个服务器计算机114上运行。可选地，程序可以在通过网络与服务器和多个客户端计算机通信的网络服务器上运行。
25.网络110可包括有线连接、无线连接、光纤连接或这些连接的某种组合。通常，网络110可以是将支持计算机102和服务器计算机114之间的通信的连接和协议的任何组合。网络110可包括各种类型的网络，例如局域网(local area network，lan)、诸如因特网的广域网(wide area network，wan)、诸如公共交换电话网络(public switched telephone network，pstn)的电信网络、无线网络、公共交换网络、卫星网络、蜂窝网络(例如第五代(fifth generation，5g)网络、长期演进(long-term evolution，lte)网络、第三代(third generation3g)网络、码分多址(code division multiple access，cdma)网络等)、公共陆
地移动网络(public land mobile network，plmn)、城域网(metropolitan area network，man)、专用网络、自组织网络、内联网、基于光纤的网络等，和/或这些网络或其它类型的网络的组合。
26.图1所示的设备和网络的数量和布置作为示例来提供。在实践中，可存在额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者与图1所示的设备和/或网络不同地布置的设备和/或网络。此外，图1所示的两个或更多个设备可以在单个设备内实现，或者图1所示的单个设备可实现为多个分布式设备。另外或者可选地，系统100的一组设备(例如，一个或多个设备)可执行被描述成由系统100的另一组设备执行的一个或多个功能。
27.现在参考图2，示出了多抽头mvdr自动语音识别系统200的系统框图。多抽头mvdr自动语音识别系统200可包括(除其他外)：视频编码器202、音频编码器204和多抽头mvdr模块206。多抽头mvdr自动语音识别系统200可以使用目标说话者的到达方向和说话者相关的唇序列来通知扩张的卷积神经网络(convolutional neural networks，cnn)，以从多个说话者混合语音中提取目标语音。
28.视频编码器202可以接收视频数据208，视频数据208可以提供与说话者相关的信息、唇运动序列和目标说话者θ的到达方向。目标说话者嘴部对应的一个或多个rgb像素可以用来表示目标说话者的唇特征。视频编码器202可以使用3-d残差网络从视频数据208中提取语音相关的唇运动嵌入。
29.音频编码器204可以接收音频数据210，音频数据210可以包括独立于说话者的特征，例如对数功率谱(log-power spectra，lps)和耳间相位差(interaural phase difference，ipd)，以及与说话者相关的特征，例如方向。多元件非均匀线性麦克风阵列可与180度广角摄像机可以位于同一位置，以捕获音频数据210。目标说话者的面部在整个摄像机视图中的位置可以提供目标说话者的粗略到达方向估计。位置引导的方向特征d(θ)可用于从特定到达方向上提取目标语音。方向特征可以计算目标转向向量v(θ)和ipd之间的余弦相似度。
30.多抽头mvdr模块206可以用作用于自动语音识别的波束成形器，波束成形器可以最小化噪声(例如，干扰语音和附加噪声)的功率，同时确保所需方向的信号不失真。该波束成形器被表示为：
[0031][0032]
其中，
[0033][0034]
可以是频率仓f处的噪声n的协方差矩阵，并且v可以是目标导向向量。
[0035]
m可以对应于麦克风的数量。可理解，对于这个优化问题可能存在几种解决方案变型。作为示例而非限制，基于参考通道选择的解决方案可以为：
[0036][0037]
其中u可以是表示参考麦克风通道的独热(one-hot)向量，而φ
ss
可以表示目标语
音的协方差矩阵。
[0038]
根据一个实施例，基于掩码的mvdr方法可用于协方差矩阵估计以估计目标语音，从而对于给定基于nn的掩码估计器，可以估计协方差矩阵。
[0039]
relu-mask和线性未压缩复值掩码可用于协方差矩阵计算。relu掩码或stft幅度掩码可以被给出为：
[0040][0041]
其中，|s|和|y|可以分别表示目标语音幅度和噪声语音幅度。relu-mask的范围可能在[0， ∞]。可理解，由于可以在恢复的时域波形上而不是在掩码本身上优化尺度不变的信源噪声比(scale-invariant source-to-noise ratio，si-snr)损失函数，因此可能不需要值裁剪。给定定义幅度的实值掩码m(作为sigmoid函数或relu函数的输出)，波束成形器的目标语音协方差矩阵可以计算为：
[0042][0043]
使用复值掩码可以更好地实现协方差矩阵估计。复值掩码可以如下给出：
[0044]
s＝sr jsi＝(cmr jcmi)*(yr jyi)＝cm*y，
[0045]
其中，r和i可以分别表示复频谱的实部和虚部。复值掩码的理论范围可能在[-∞， ∞]之间。可以用线性激活函数隐式地估计复值掩码，并将复值掩码与混合语音的复频谱相乘，以获得目标波形212。si-snr损失函数可以在重构的时域波形上进行优化，而不是在复值掩码本身上进行优化。利用复值掩码，目标语音协方差矩阵可以改写为：
[0046][0047]
其中，m和复值掩码可以跨通道共享。分母中的掩码归一化可以使得加权掩码参与最相关的帧。相应的噪声协方差矩阵可以以类似的方式计算。根据mvdr解决方案，目标说话者的波束成形语音可以通过以下估计：
[0048][0049]
根据另一实施例，多抽头mvdr模块206可以使用基于复值掩码的多抽头mvdr。多抽头mvdr模块206可以利用帧间相关性进行多信道神经波束成形，以同时实现无失真语音和低残余噪声。混合语音的l-抽头表示可以如下给出：对应的可以用同样的方式定义。扩展的l-抽头目标语音协方差矩阵可以计算为：
[0050][0051]
计算协方差矩阵的多抽头mvdr解决方案可以给出为如下：
[0052][0053]
可理解，多抽头mvdr可以遵循用于多通道场景的mvdr优化过程，并且可以不同于针对单通道定义的多帧mvdr。多抽头mvdr的增强语音可以给出如下：
[0054][0055]
可以使用短时傅立叶逆变换将波束成形的频谱转换为目标波形212。在目标波形212上计算的si-snr损失可以经由反向传播链路214通过所有模块(包括多抽头mvdr模块和网络)进行反向传播。多抽头mvdr模块206可以使用最近帧(主要在早期反射区域中)的相关性，并且可以用于仅恢复混响干净语音。
[0056]
现在参考图3，描绘了示出由基于多抽头mvdr来识别和分离目标说话者语音的程序执行步骤的操作流程图300。可以借助图1和图2来描述图3。如前文所述，多抽头mvdr程序116(图1)可以快速且有效地增强来自多个采样视图方向的信号，并且使能与kws模型进行联合训练，以基于单个kws模型形成完全端到端的多视图kws建模。
[0057]
在步骤302处，接收视频数据和音频数据，视频数据和音频数据对应于一个或多个说话者。视频数据可以由一个或多个摄像机捕获，并且可以对应于与一个或多个说话者相关联的唇运动数据。音频数据可以由一个或多个麦克风捕获，并且可以对应于与一个或多个说话者相关联的语音。在操作中，服务器计算机114(图1)上的多抽头mvdr程序116(图1)可以通过通信网络110(图1)从计算机102(图1)接收视频数据208(图2)和音频数据210(图2)，或者可以从数据库112(图1)检索多通道波形数据206。多抽头mvdr程序116可以将视频数据208和音频数据210分别传递给视频编码器202(图2)和音频编码器204(图2)。
[0058]
在步骤304处，对所接收的音频数据和视频数据进行最小方差无失真响应(mvdr)函数运算。mvdr函数可用于从所接收的音频数据和视频数据中识别语音。在操作中，多抽头mvdr模块206(图2)可对视频编码器202(图2)和音频编码器204(图2)的输出进行mvdr函数运算。
[0059]
在步骤306处，基于对所运算的最小方差无失真响应函数的输出的反向传播，生成与一个或多个说话者中的目标说话者相对应的预测目标波形。可以基于所生成的预测目标波形，计算尺度不变的信源噪声比损失值，并通过系统反向传播。可以通过基于反向传播的损失值生成新波形来使目标波形更精确。在操作中，多抽头mvdr模块206(图2)可以生成目标波形212(图2)。此外，多抽头mvdr模块206可以计算si-snr损失值，并且经由反向传播链路214将si-snr损失值反向传播到视频编码器202(图2)、音频编码器204(图2)和多抽头mvdr模块206。
[0060]
可以理解，图3仅提供了一种实现方式的图示，并不暗示与可如何实现不同实施例相关的任何限制。可基于设计和实现要求对所描绘的环境进行许多修改。
[0061]
图4是根据一个说明性实施例的图1描绘的计算机的内部组件和外部组件的框图400。应理解，图4仅提供一种实施方式的图示，并且不暗示与可实施不同实施例的环境相关的任何限制。可基于设计和实现要求对所描绘的环境进行许多修改。
[0062]
如图4所示，计算机102(图1)和服务器计算机114(图1)可分别包括一组内部组件800a、800b和外部组件900a、900b。每一组内部组件800包括位于一个或多个总线826上的一
个或多个处理器820、一个或多个计算机可读ram 822和一个或多个计算机可读rom 824、一个或多个操作系统828和一个或多个计算机可读有形存储设备830。
[0063]
处理器820以硬件、固件或硬件和软件的组合来实现。处理器820是中央处理单元(central processing unit，cpu)、图形处理单元(graphics processing unit，gpu)、加速处理单元(accelerated processing unit，apu)、微处理器、微控制器、数字信号处理器(digital signal processor，dsp)、现场可编程门阵列(field-programmable gate array，fpga)、专用集成电路(application-specific integrated circuit，asic)或其它类型的处理组件。在一些实现方式中，处理器820包括能够被编程以执行功能的一个或多个处理器。总线826包括允许内部组件800a、800b之间通信的组件。
[0064]
位于服务器计算机114(图1)上的一个或多个操作系统828、软件程序108(图1)和多抽头mvdr程序116(图1)存储在相应的计算机可读有形存储设备830中的一个或多个上，以通过相应的ram 822中的一个或多个(通常包括缓存)由相应的处理器820中的一个或多个来执行。在图4所示的实施例中，每个计算机可读有形存储设备830是内部硬盘驱动器的磁盘存储设备。可选地，每个计算机可读有形存储设备830是半导体存储设备，诸如rom 824、eprom、闪存、光盘、磁光盘、固态盘、紧凑盘(compact disc，cd)、数字通用盘(digital versatile disc，dvd)、软盘、盒式磁带、磁带和/或可存储计算机程序和数字信息的其它类型的非暂时性计算机可读有形存储设备。
[0065]
每一组内部组件800a，800b还包括r/w驱动器或接口832，以从一个或多个便携式计算机可读有形存储设备936(例如cd-rom、dvd、记忆棒、磁带、磁盘、光盘或半导体存储设备)读取和写入一个或多个便携式计算机可读有形存储设备936。诸如软件程序108(图1)和多抽头mvdr程序116(图1)的软件程序可存储在相应的便携式计算机可读有形存储设备936中的一个或多个上，经由相应的r/w驱动器或接口832读取并加载到相应的硬盘驱动器830中。
[0066]
每一组内部组件800a，800b还包括网络适配器或接口836，例如tcp/ip适配卡；无线wi-fi接口卡；或3g、4g或5g无线接口卡或其它有线或无线通信链路。服务器计算机114(图1)上的软件程序108(图1)和多抽头mvdr程序116(图1)可经由网络(例如，因特网、局域网或其它广域网)和相应的网络适配器或接口836从外部计算机下载到计算机102(图1)和服务器计算机114。通过网络适配器或接口836，服务器计算机114上的软件程序108和多抽头mvdr程序116加载到相应的硬盘驱动器830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。
[0067]
每一组外部组件900a，900b可以包括计算机显示监测器920、键盘930和计算机鼠标934。外部组件900a、900b还可以包括触摸屏、虚拟键盘、触摸板、指向设备和其它人机接口设备。每一组内部组件800a，800b还包括设备驱动器840，以与计算机显示监测器920、键盘930和计算机鼠标934对接。设备驱动器840、r/w驱动器或接口832和网络适配器或接口836包括硬件和软件(存储在存储设备830和/或rom 824中)。
[0068]
应预先理解，虽然本公开包括对云计算的详细描述，但是本文中所叙述的教导的实现方式不限于云计算环境。相反，一些实施例能够结合现在已知或稍后开发的任何其他类型的计算环境来实现。
[0069]
云计算是用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储
器、存储、应用、虚拟机和服务)的共享池的便捷、按需网络访问的服务传送模型，该可配置计算资源可以以最小的管理努力或通过与服务提供者的交互来快速提供和释放。该云模型可包括至少五个特征、至少三个服务模型和至少四个部署模型。
[0070]
特征如下：
[0071]
按需自助服务：云消费者可根据需要自动地单方面提供计算能力(例如服务器时间和网络存储)，而不需要与服务提供者进行人工交互。
[0072]
广泛的网络接入：可通过网络可获得能力并通过标准机制来访问能力，该标准机制促进由异构瘦客户端平台或胖客户端平台(例如，移动电话、膝上型计算机和pda)使用。
[0073]
资源池化：使用多租户模型对提供者的计算资源进行池化以服务于多个消费者，其中根据需求动态地分配和重新分配不同的物理资源和虚拟资源。存在与位置无关的感觉，原因是消费者通常无法控制所提供的资源的确切位置或不知道所提供的资源的确切位置，但是能够以更高的抽象级别(例如，国家、状态或数据中心)指定位置。
[0074]
快速弹性：可快速且弹性地提供能力，在某些情况下可自动地提供能力，以快速扩展和快速释放以快速收缩。对于消费者来说，可提供的能力通常看起来无限制，且可以在任何时候以任何数量购买。
[0075]
测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户帐户)的某个抽象级别下利用计量能力来自动控制和优化资源使用。可监测、控制和报告资源使用，从而给所利用的服务的提供者和消费者提供透明度。
[0076]
服务模式如下：
[0077]
软件即服务(saas)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用程序。应用程序可通过瘦客户端接口从各种客户端设备访问，瘦客户端接口例如web浏览器(例如，基于web的电子邮件)。消费者不管理或控制包括网络、服务器、操作系统、存储器的底层云基础设施，或者甚至不管理或控制个人应用能力，可能的例外是有限的用户特有的应用配置设置。
[0078]
平台即服务(paas)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该应用使用由提供者支持的编程语言和工具来创建。消费者不管理或控制包括网络、服务器、操作系统或存储器的底层云基础设施，而是控制所部署的应用和可能的应用托管环境配置。
[0079]
基础设施即服务(iaas)：提供给消费者的能力是提供处理、存储、网络和其它基本计算资源，其中消费者能够部署和运行可包括操作系统和应用的任意软件。消费者不管理或控制底层云基础设施，而是控制操作系统、存储、所部署的应用，且可能有限地控制所选择的联网组件(例如，主机防火墙)。
[0080]
部署模型如下：
[0081]
私有云：云基础设施运行，仅用于一个组织。云基础设施可由该组织或第三方管理，且可以以内部部署或外部部署的方式存在。
[0082]
社区云：云基础设施由数个组织共享，并支持具有协同关注点(例如，任务、安全要求、策略和合规性考虑)的特定社区。社区云可由这些组织或第三方管理，且可以以内部部署或外部部署的方式存在。
[0083]
公共云：云基础设施可用于普通公众或大型工业集团，且由销售云服务的组织所
拥有。
[0084]
混合云：云基础设施是两个或更多个云(私有云、社区云或公共云)的组合，这些云保持独特的实体，但是通过标准化技术或专有技术而捆绑在一起，标准化技术或专有技术实现数据和应用可移植性(例如，云爆用于云之间的负载平衡)。
[0085]
云计算环境是面向服务的，重点是无状态、低耦合、模块化和语义互操作性。云计算的核心是包括由互连节点构成的网络的基础设施。
[0086]
参考图5，描绘了说明性云计算环境500。如图所示，云计算环境500包括一个或多个云计算节点10，云消费者使用的本地计算设备可与云计算节点10通信，本地计算设备例如个人数字助理(personal digital assistant，pda)或蜂窝电话54a、台式计算机54b、膝上型计算机54c和/或汽车计算机系统54n。云计算节点10彼此可通信。云计算节点10可以在一个或多个网络中物理地或虚拟地分组(未示出)，一个或多个网络例如如上所述的私有云、社区云、公共云或混合云，或其组合。这使得云计算环境500可以提供基础设施、平台和/或软件，作为不需要云消费者维护本地计算设备上的资源的服务。应理解，图6所示的计算设备54a-n的类型仅用于说明，且云计算节点10和云计算环境600可通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。
[0087]
参考图6，示出了由云计算环境500(图5)提供的一组功能抽象层600。应当预先理解，图6中所示的组件、层和功能仅用于说明性，实施例不限于此。
[0088]
如图所描绘的，提供以下层和相应的功能：
[0089]
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于精简指令集计算机(reduced instruction set computer，risc)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
[0090]
虚拟化层70提供抽象层，可从该抽象层提供以下虚拟实体的示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。
[0091]
在一个示例中，管理层80可提供以下描述的功能。资源供应81提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。当在云计算环境中使用资源时，计量和定价82提供成本追溯，以及对这些资源的消耗进行计费或开具清单。在一个示例中，这些资源可包括应用软件许可证。安全给云消费者和任务提供身份验证，以及给数据和其它资源提供保护。用户门户83给消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(service level agreement，sla)规划和实现85提供对云计算资源的预先安排和获取，对于云计算资源，根据sla预期未来需求。
[0092]
工作负载层90提供可使用云计算环境的功能的示例。可从该层提供的工作负载和功能的示例包括：映射和导航91；软件开发和生命周期管理92；虚拟课堂教育传送93；数据分析处理94；交易处理95；以及多抽头mvdr 96。多抽头mvdr96可以基于多抽头mvdr识别和分离目标说话者的语音。
[0093]
一些实施例可以涉及整合的任何可能的技术细节级别的系统、方法和/或计算机可读介质。计算机可读介质可包括计算机可读非暂时性存储介质(或介质)，在计算机可读
非暂时性存储介质(或介质)上具有使得处理器执行操作的计算机可读程序指令。
[0094]
计算机可读存储介质可以是可保存和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或上述存储设备的任何适当组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下项：便携式计算机磁盘、硬盘、随机存取存储器(random access memory，ram)、只读存储器(random access memory，rom)、可擦除可编程只读存储器(erasable programmable read-only memory，eprom或闪存)、静态随机存取存储器(static random access memory，sram)、便携式紧凑盘只读存储器(compact disc read-only memory，cd-rom)、数字通用盘(digital versatile disk，dvd)、记忆棒、软盘、机械编码的设备(例如凹槽中的凸起结构或穿孔卡片，其上记录有指令)，以及上述各项的任何适当组合。如本文所使用的计算机可读存储介质不应解释成本身是瞬时信号，例如无线电波或其它自由传播的电磁波、通过波导或其它传输介质传播的电磁波(例如，经过光纤线缆的光脉冲)、或通过线传输的电信号。
[0095]
本文描述的计算机可读程序指令可通过网络(例如因特网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备或下载到外部计算机或外部存储设备。网络可包括铜传输线缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令并转发计算机可读程序指令，以存储在相应的计算/处理设备内的计算机可读存储介质中。
[0096]
用于执行操作的计算机可读程序代码/指令可以是汇编程序指令、指令集架构(instruction-set-architecture，isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，一种或多种编程语言包括面向对象的编程语言(例如smalltalk，c 等)和过程编程语言(例如“c”编程语言或类似的编程语言)。计算机可读程序指令可完全在用户的计算机上、部分地在用户的计算机上、作为独立软件包来执行，独立软件包部分地在用户的计算机上、部分在远程计算机上或完全在远程计算机或服务器上。在后一种情况下，远程计算机可通过任何类型的网络连接到用户的计算机，网络包括局域网(lan)或广域网(wan)，或者可与外部计算机建立连接(例如，通过使用因特网服务提供者的因特网)。在一些实施例中，例如包括可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令，以个性化电子电路，来执行多方面或操作。
[0097]
这些计算机可读程序指令可提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令创建用于实现流程图和/或框图框中指定的功能/动作的方式。这些计算机可读程序指令还可存储在计算机可读存储介质中，可指导计算机、可编程数据处理设备和/或其它设备以特定方式运行，使得存储有指令的计算机可读存储介质包括制造品，该制造品包括实现流程图和/或框图框中指定的功能/动作的各方面的指令。
[0098]
计算机可读程序指令还可加载到计算机、其它可编程数据处理设备或其它设备上，使得一系列操作步骤在计算机、其它可编程设备或其它设备上执行以产生计算机实现
的过程，因此在计算机、其它可编程设备或其它设备上执行的指令实现流程图和/或框图框中指定的功能/动作。
[0099]
图中的流程图和框图示出了根据各个实施例的系统、方法和计算机可读介质的可能实现方式的架构、功能和操作。在这一点上，流程图或框图中的每个框可表示指令的模块、部段或部分，其包括用于实现指定逻辑功能的一个或多个可执行指令。与图中所描绘的那些框相比，方法、计算机系统和计算机可读介质可包括附加框、更少的框、不同的框或不同布置的框。在一些可选的实现方式中，在框中注明的功能可以不按图中注明的顺序发生。例如，接连示出的两个框实际上可同时执行或基本上同时执行，或者有时框可以相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图图示的每个框以及框图和/或流程图图示的框的组合可通过基于专用硬件的系统来实现，这些系统执行指定的功能或动作或者实现专用硬件和计算机指令的组合。
[0100]
显然，本文描述的系统和/或方法可以以不同形式的硬件、固件或硬件和软件的组合来实现。用于实现这些系统和/或方法的实际专用控制硬件或软件代码不限制实现方式。因此，本文在不参考特定软件代码的情况下描述系统和/或方法的操作和行为-应理解，软件和硬件可设计成实现基于本文的描述的系统和/或方法。
[0101]
除非另外明确描述，否则本文使用的元素、动作或指令不应理解为关键的或必要的。此外，如本文所使用的，冠词“一”和“一个”旨在包括一个或多个项目，且可与“一个或多个”互换使用。此外，如本文所使用的，术语“集”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，且可与“一个或多个”互换使用。在仅意指一个项目的情况下，使用术语“一”或类似语言。此外，如本文所使用的，术语“有”、“具有”、“含有”或类似术语旨在是开放式术语。此外，短语“基于”意指“至少部分地基于”，除非另有明确说明。
[0102]
为了说明的目的，已给出对各个方面和实施例的描述，但并不旨在穷举或限制于所公开的实施例。即使在权利要求中叙述和/或在说明书中公开特征的组合，这些组合并不旨在限制可能的实现方式的公开内容。实际上，这些特征中的许多特征可以以未在权利要求中具体陈述和/或未在说明书中公开的方式组合。虽然下面列出的每个从属权利要求可仅直接从属于一个权利要求，但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集中的每一个其它权利要求的组合。在不脱离所描述的实施例的范围的情况下，许多修改和变化将对本领域普通技术人员而言是显而易见的。选择本文使用的术语以最好地解释实施例的原理、实际应用或相对于市场中找到的技术的技术改进，或使本领域普通技术人员能够理解本文公开的实施例。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：非指令语音的拒识方法、车载语音识别系统及汽车与流程

用于目标语音分离的具有神经网络的多抽头最小方差无失真响应波束成形器的制作方法

相关文献

最热文献