一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

唇动增强的单声道和多声道声源分离的制作方法

2021-07-09 15:51:00 来源:中国专利 TAG:生源 语音 图形处理 单声道 分离


本发明涉及语音及图形处理技术领域。特别的,涉及一种唇动增强的单声道和多声道生源分离技术。


背景技术:

1.在数据处理中,源分离是一个广泛且开放的问题,其中信号从多个源被接收、观察或以其他方式输入;特别地,盲源分离(“bss”)描述了事先不知道不同信号源的数量和性质的源分离场景。期望在没有关于信号源的信息的情况下将信号彼此分离。
2.取决于信号从哪里导出的设置,可以获取用于帮助确定信号源的信号源上下文。例如,在自动的公共自助服务亭机器上,特别是在公共交通摄入量高的位置,例如中转站、剧院、旅游景点、过境点等等,可以至少在忙时建立多个队列,以增加吞吐量并减少事务处理的等待时间,例如票证、文档验证等。为了进一步提高吞吐量并减少等待时间,可以在自助服务亭机器上部署语音识别技术,以使自助交易无需人工收银员参与,也无需用户手动操作物理接口即可执行,从而可提高自助交易的效率。
3.然而,在这些高公共交通设置中,由于需要管理公共空间,交易通常彼此紧邻地进行。因此,根据特定情况,在公共交通频繁的地点的自动自助服务亭会产声源分离问题;这些特定上下文所带来的挑战应以上下文相关的方式解决。


技术实现要素:

本申请提供的一种方法,包括:基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少所述基于运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。本申请还提供一种系统,包括:一个或多个处理器;和,通信地连接到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块在由所述一个或多个处理器执行时执行相关的操作,所述计算机可执行模块包括:面部特征提取模块,所述面部特征提取模块被配置为基于在关注时段内捕获的目标说话者面部图像的面部特征来计算运动矢量;和,源分离模块,所述源分离模块被配置为至少基于所述运动矢量,将与成分源相对应的音频与在所述关注时段内捕获的混合源单声道音频信号相分离;其中,所述源分离模块被配置为通过包括多个学习子模型的融合学习模型将音频与音频信号分离。此外,本申请还提供一种计算机可读存储介质,其存储可由一个或多个处理器执行的计算机可读指令,所述计算机可读指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作:基于在关注时段捕获的目标说话者面部图像的面部特征来计算运动矢量;和,至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号相分离;其中通过从包括多个学习子模型的融合学习模型执行音频
与音频信号的分离。
附图说明
4.以下参照附图阐述详细描述。在所述附图中,附图标记的最左边的数字标识该附图标记首次出现的附图。在不同附图中使用相同的附图标记表示相似或相同的项目或特征。
5.图1示出了根据本公开的示例实施例的由图像捕获设备捕获的示例静态图像、视频帧和/或面部图像的示意图。
6.图2a示出了根据本公开的示例实施例的被配置为计算源分离系统的系统架构。图2b示出了根据图2a的示例的专用处理器。
7.图3a、图3b和图3c示出了根据本公开的示例实施例的用于将音频信号和目标说话者面部图像输入到学习模型中以进行单声道源分离或多声道源分离计算的预处理过程的流程图。
8.图4a和图4b示出了从与例如眼睛特征、鼻子特征和嘴部特征相对应的面部图像的图像数据中提取的样本像素的示例。
9.图5示出了根据本公开的示例实施例的融合学习模型的细节。
10.图6示出了根据本公开的示例实施例的托管学习模型的云计算系统的架构图。
11.图7示出了用于实现上述用于实现学习模型的源分离技术的过程和方法的示例终端设备系统。
12.图8a和8b示出了用于实现上述用于实现学习模型的源分离技术的过程和方法的示例计算系统。
具体实施方式
13.本文讨论的系统和方法旨在实现源分离技术,并且更具体地,涉及对通过输入唇动信息而增强的混合源单声道和多声道音频信号执行源分离,所述唇动信息来自被捕获的图像数据。
14.根据本公开的示例实施例的学习模型可以是可由计算系统的一个或多个处理器执行以执行任务的定义的计算算法,该任务包括处理具有各种参数的输入并输出结果。学习模型可以是例如分层模型,例如深层神经网络,其可以具有完全连接的结构,可以具有前馈结构,例如卷积神经网络(“cnn”);可以具有反向传播结构,例如递归神经网络(“rnn”);可以进一步构造成具有沿相反方向输出的层,例如双向递归神经网络(“brnn”);可以进一步被构造为在层内具有反馈回路,例如长短期记忆(“lstm”)神经网络;可以进一步结合这些结构,例如双向长期短期记忆(“blstm”)神经网络;并且可能具有或可能具有适合特定任务计算的其他架构。任务可以包括例如分类、聚类、匹配、回归等。
15.任务可以提供用于执行功能的输出,例如识别图像和/或视频中的实体;实时跟踪视频帧中实体的运动;将图像和/或视频中的已识别实体与其他图像和/或视频进行匹配;实时提供图像、视频和/或音频的注释或转录;等等。学习模型可以配置计算系统以对例如如上所述的任何一种或几种类型的输入执行针对任务的计算,其中通常在计算系统对提取的特征执行计算之前压缩所述输入并从中提取特征。
16.可以训练学习模型以配置计算系统,以将图像作为输入来计算任务,这样的任务为包括图像分类或计算机视觉的功能提供输出。关于图像输入,从图像输入中提取的特征(在此称为“图像特征”)可以包括例如本领域技术人员已知的边缘特征、角点特征和blob特征。
17.可以训练学习模型以配置计算系统,以将面部图像作为输入来计算任务,这样的任务为包括面部识别或面部匹配的功能提供输出。关于面部图像输入,从面部图像输入中提取的特征(在此称为“面部特征”)可以包括例如眼睛特征、鼻子特征和嘴部特征。
18.关于面部特征,为了理解本公开的示例实施例,应当注意诸如“眼睛特征”、“鼻子特征”和“嘴部特征”之类的概念通常是对一种直觉的高级描述,该直觉是在输入的面部图像中的某处提取的与眼睛、鼻子、嘴巴和人脸的其他此类熟悉部分相对应的图像特征(例如上述图像特征的类型)。但是,本领域技术人员通常不理解诸如“眼部特征”、“鼻子特征”或“嘴部特征”之类的标签,因为它们暗示或限于任何特定的规则、原理、原则、准则、标准、或者其他用于识别面部图像中与眼睛、鼻子、嘴等相对应的特征的技术或解决方案。取而代之,根据输入面部图像的性质和被捕获的输入的面部图像的上下文,本领域技术人员可以认为用于将图像特征对应于眼睛、鼻子、嘴等的任何技术都是有效的。
19.可以训练学习模型以配置计算系统,以计算以视频为输入的任务,例如为诸如视频跟踪或视频注释之类的功能提供输出的任务。关于视频输入,从视频输入中提取的特征(在此称为“视频特征”)可以包括例如本领域技术人员已知的运动特征。
20.根据本公开的示例实施例的学习模型可以由前缀来表示,该前缀表示学习模型所采用的输入的类型。例如,将音频作为输入的blstm神经网络可以称为音频blstm(“a

blstm”);将视频作为输入的blstm神经网络可以称为视频blstm(“v

blstm”);可以将采用多种此类输入的blstm神经网络称为融合blstm(“f

blstm”)。
21.云计算系统可以提供托管计算资源的服务器的集合,以提供分布式计算、并行计算、提高物理或虚拟计算资源的可用性以及此类益处。在云计算系统中实现的数据中心可以托管学习模型,以为使用学习模型的计算应用提供这些益处。
22.云计算系统可以连接到各种终端设备,这些终端设备收集要输入到学习模型中以训练学习模型的数据,和/或与各种用于计算的任务和执行那些任务所需的结果的输出相关联。终端设备可以通过云计算系统的边缘节点连接到云计算系统。边缘节点可以是提供从多个连接点到云计算系统的其他节点的出站连接的任何服务器,并且因此可以划分云计算系统的网络的逻辑边缘,而不必是物理边缘。此外,边缘节点可以是基于边缘的逻辑节点,其部署云计算系统的非集中式计算资源,例如云服务器(cloudlet),雾节点(fog node)等。
23.终端设备可以计算涉及多种类型的输入数据的多种类型的任务。例如,终端设备可以是图像捕获设备,例如安装在自助服务亭处的摄像机,该摄像机收集可能源自自助服务亭用户的静态图像、视频和面部图像数据。根据另一个示例,终端设备可以是音频捕获设备,例如安装在自助服务亭上的麦克风,该麦克风收集可能源自自助服务亭用户的音频。自助服务亭总体上可以是另一终端设备,其可以连接到云计算系统的边缘节点,所述云边缘节点执行自助服务亭用户的实时面部跟踪(将在随后进一步详细描述)、面部识别或实时语音的识别(将在后面进行详细描述),并将这些类型的数据实时发送到云计算系统,以执行
与实时处理自助服务交易相关的各种任务。
24.在进行自助服务交易的具有公共流量的特定站点、商业或其他位置,可以安装和操作多个自助服务亭以进行自助服务交易并计算支持自助服务交易的后端任务。通过这些地点的公共流量可根据自助服务亭的位置进行分流;例如,自助服务亭可以排成一排彼此相邻。这样的配置可以使公共流量被组织成并行队列,其中每个自助服务亭都位于队列的头部,以使得该亭并行地针对每个队列的头部处的个人或群组执行事务。如果在这些设置中部署了语音识别技术,则每个队列开头的人员可能会同时讲话,从而导致每个信息亭处的音频捕获设备从多个队列中拾取语音信号。
25.根据本公开的示例实施例,计算为支持自助交易的后端任务可以包括,例如,视频cnn(“v

cnn”)在视频中检测到的实体的分类;在例如频域中对记录的音频进行信号处理和滤波;从视频流中提取帧并嵌入特征;等等。
26.根据本公开的示例实施例,作为终端设备的自助服务亭可以被配置为通过一个或多个网络将捕获的输入数据(例如静态图像、视频、面部图像数据和音频信号)传输到一个或多个远程计算主机,例如托管高容量计算资源的数据中心,以使用捕获的输入数据执行上述后端任务的计算。由于诸如静态图像、视频、面部图像数据和音频信号之类的原始输入数据的文件大小较大,因此在通过一个或多个网络进行传输之前,可以在终端设备上对输入数据进行压缩或以其他方式进行预处理,和/或将终端设备配置为使用输入数据执行如上所述的后端任务的边缘处理。边缘处理可能会在计算能力和范围方面受到限制。
27.任务和相关的数据可以通过云计算系统上托管的接口从终端设备传递到一个或多个远程计算主机。诸如自助服务亭的终端设备在地理位置上可能与一个或多个远程计算主机相距遥远,从而导致任务和相关数据在传输中的网络延迟。与远程计算主机相比,终端设备的计算资源规格相对较低,包括处理能力、存储和内存,这也导致它们之间的计算能力存在相对差异。通常,对数据执行各种形式的预处理以解决网络延迟和计算能力的差异,以改善响应时间和完成任务的效率。
28.例如,边缘设备上的本地捕获的大量数据如果通过云计算接口传递以供在远程计算主机上执行的学习模型进行计算,则可能导致无法忍受的程度的延迟。此外,与压缩图像、视频或音频相比,原始、未压缩格式的图像、视频或音频由于包含的数据多得多(通常出于计算目的是多余的),因此对于用于分类或嵌入的计算的效率非常低。因此,通常使用训练数据集来执行根据本公开的示例实施例的学习模型的训练,训练数据集可以是大量的训练数据集,其通过离线输入被输入或加载到远程计算主机上,而无需通过网络传输那些数据集。训练数据集可以包括例如如上所述的在交易期间来自自助服务亭的用户的已知的、源分离音频记录。
29.此外,众所周知,可通过诸如傅里叶变换的变换算法将数据变换为频率表示,可通过与傅立叶相关的算法(例如短时傅立叶变换(“stft”))将音频数据从时域表示(即,波数据)变换为频域表示。通过stft的逆变换(“istft”)可以进一步操作以将音频数据的频域表示返回到时域表示。通常,通过将音频数据的时域表示划分为已知持续时间的时间窗口来利用stft;随后可以在示出音频信号的幅度stft的频谱图中可视化每个时间窗口中的频域表示(以下称为“时频表示”)。而且,在stft的离散时间应用中,音频信号可以在时域上被分成具有一些重叠的离散帧,这些帧由stft单独地预处理。
30.在通过stft进行预处理之后,音频数据的时频表示可以分为其频带和子频带,其每个频带和子频带代表音频信号的特定频率。音频数据的频域表示可以由表示其特定频带或子频带的参数k和表示其特定帧的参数t来表示。
31.通常,由于源分离仍然是开放的问题,因此可以使用音频信号的时域表示或音频信号的时频表示来执行源分离。根据本公开的示例实施例,由终端设备捕获的音频信号可以由stft预处理并且转换为其时频表示。这样的预处理可以作为终端设备上的边缘处理来执行,或者可以在音频数据被传输到远程计算主机之后由远程计算主机执行。将音频信号转换为其时间

频率表示的预处理可以便于进一步的预处理任务,例如噪声和干扰消除,并且还可以便于如下所述的源分离技术。
32.根据本公开的示例实施例,捕获的音频信号可以是单声道音频信号。换句话说,捕获的音频信号可以从单个麦克风捕获。本公开的这样的示例实施例可以在单声道音频信号作为输入数据时实现单声源或单声道声源分离技术。a

cnn、a

rnn、a

lstm和a

blstm可能是可用于计算单声道音频信号作为此目标输入数据的学习模型的示例。特别地,a

lstm和a

blstm学习模型结构可以利用反馈循环,以保留“内存”并有效地对音频信号的长序列进行源分离。
33.根据本公开的示例实施例,捕获的音频信号可以是多声道音频信号。换句话说,捕获的音频信号可以从多个麦克风捕获。例如,单个终端设备(例如,单个自助服务亭)可以在其中安装多个麦克风,以分别捕获来自相同来源的音频,或者彼此相邻放置的多个终端设备的多个麦克风可以分别从相同声源捕获音频。本公开的这样的示例实施例可以在多声道音频信号作为输入数据时实现多声道源分离技术。
34.根据本公开的示例实施例的计算音频信号的学习模型可以确定要应用于音频信号的时频表示的掩模。掩模可以是频域中的矩阵或矢量,当通过操作(例如,对每个帧进行乘法操作)将其应用于混合源音频信号的时频表示时,会产生至少一个成分源混合源音频信号。特别地,根据本公开的示例实施例,目标掩模可以是产生混合源音频信号的目标成分源的掩模,该混合源音频信号是目标说话者。噪声掩模可以是至少减少不对应于任何源或不对应于目标源的混合源音频信号的组成音频的掩模。可以通过逆stft来变换对其施加了掩模的音频信号的时频表示,以重构音频信号的时域表示,该时域表示产生混合源音频信号的至少一个成分源,或产生具有降低噪声和干扰的特性的混合源音频信号的音频。
35.替代地,根据本公开的示例实施例的计算音频信号的学习模型可以将语音激活检测(“vad”)系统应用于音频信号的时频表示。通常,vad可以是状态机,其接收输入帧并输出用于确定该帧为非语音的0或用于确定该帧为语音的1。通常,vad可以应用于单声道音频信号或多声道音频信号,尽管将vad应用于多声道音频信号可以通过利用多个声道的冗余音频信号之间的比较来增强vad的性能。由vad输出的被确定为语音的帧可以通过逆stft进行转换,以重建音频信号的时域表示,该时域表示产生包括语音的帧,其中包括目标说话者的语音。
36.来自计算音频信号的学习模型的输出可以通过将时频帧和其频点标记为匹配的单个说话者,包括如上所述的目标说话者,来提供时频帧及其频点的分类。说话者可以是已知说话者,也可以是未知说话者;无论如何,在学习模型的输出中标记为未知的说话者可以与其他未知说话者区别开来。
37.如上所述的信号分离技术,其中,仅对音频信号执行计算,可以通过向学习模型提供有关说话者及其语音节奏的语境来进一步增强。根据本公开的示例实施例,可以通过对由诸如自助服务亭的终端设备的摄像机之类的图像捕获设备所提供的静态图像、视频和/或面部图像数据执行计算来提供语境。可替代地,静态图像、视频和/或面部图像数据可以由诸如自助服务亭的用户携带的移动设备的照相机之类的图像捕获设备提供。例如,用户可以通过例如通过短距离发起移动设备和自助服务终端之间的通信协议来向自助服务终端进行认证,登录自助信息服务终端,与自助服务终端交换信息或以其他方式与自助服务终端进行交互。通过短距离通信协议的操作,自助服务终端可以请求用户提供由移动设备的图像捕获设备捕获的静态图像、视频和/或面部图像数据。
38.根据本公开的示例实施例,静态图像、视频和/或面部图像数据可以通过从所述静态图像、视频和/或面部图像数据中提取面部特征来提供用于源分离的语境。例如,在自助服务亭交易的背景下由图像捕获设备捕获的静态图像、视频和/或面部图像数据可以捕获面向自助服务亭的至少一个用户的正面前视图。图1示出了根据本公开的示例实施例的由图像捕获设备捕获的示例静态图像、视频帧和/或面部图像的图。
39.可以通过基于本领域中已知的多种面部识别技术来计算静态图像、视频帧和/或面部图像的学习模型来检测一个或多个面部;对此本文不再赘述。为了理解本公开的示例实施例,应足以理解可以从图像中检测到一个或多个面部。取决于图像捕获设备的视场,可以从图像捕获设备的角度以不同的视角检测一个或多个面部。例如,如图1所示,视角范围从在静态图像、视频帧和/或面部图像的至少最右像素上检测到的面部的30
°
到在静态图像、视频的至少最左像素上检测到的面部的150
°
,其中90
°
定义为直接位于图像捕获设备的前面的角度(假设图像捕获设备的视场约为120
°
)。可以提取包含目标说话者面部的静态图像、视频帧和/或的面部图像的一部分作为目标说话者的面部图像。
40.根据本公开的示例实施例,出于指定用于源分离计算的目标的目的,可以将从静态图像、视频帧和/或面部图像检测到的面部之一指定为目标说话者。特别地,可以将在包括来自图像捕获设备的正面视角在内的多个角度范围内(例如,包括90
°
角度的角度范围内)检测到的面部指定为目标说话者。或者,可以将在从图像捕获设备最接近正面视角的角度范围内检测到的面部指定为目标说话者。此外,基于来自图像捕获设备的面部的朝向,可以将检测到的面部指定为目标说话者。例如,被指定为目标说话者的面部可以是面向图像捕获设备的面部。因此,基于来自图像捕获设备的目标说话者的角度,可以相对于图像捕获设备以及相对于捕获每个音频信号的一个或多个麦克风来定位源说话者。
41.根据本公开的多声道源示例实施例,可以通过学习模型在源分离任务的计算中利用对多个麦克风在空间上相对于彼此的配置,每个麦克风相对于目标说话者的位置的信息。此外,可以跨多个态图像、视频帧和/或面部图像跟踪目标说话者的位置,或者跨视频流的多个帧跟踪目标说话者的位置。
42.通过这些和类似原理,目标说话者的定位可以与一个或多个音频信号相关联,从而通过学习模型增强了源分离的计算。下面,将描述在本公开的单声道示例实施例和多声道示例实施例中,与面部特征提取相结合进一步利用目标说话者的定位的技术,从而提供除了说话者定位之外的进一步增强。
43.图2a示出了根据本公开的示例实施例的被配置为计算源分离的系统200的系统架
构。图2b示出了根据图2a的示例的专用处理器。
44.根据本公开的示例实施例的系统200可以包括一个或多个通用处理器202和一个或多个专用处理器204。通用处理器202和专用处理器204可以是物理的,或可以被虚拟化的和/或分布式的。一个或多个通用处理器202和专用处理器204可以执行如下所述存储在计算机可读存储介质上的一个或多个指令,以使所述一个或多个通用处理器202或专用处理器204执行各种功能。专用处理器204可以是具有硬件或软件元件的计算设备,该硬件或软件元件有助于神经网络计算任务的计算,例如训练和推理计算。例如,专用处理器204可以是加速器,诸如神经网络处理单元(“npu”)、图形处理单元(“gpu”)、张量处理单元(“tpu”),使用现场可编程门阵列(“fpga”)和专用集成电路(“asic”)的多个实现等。为了便于诸如训练和推理之类的任务的计算,专用处理器204可以例如实现计算诸如矩阵运算和矢量运算之类的数学运算的引擎。
45.系统200还可包括通过系统总线208通信地连接到通用处理器202和专用处理器204的系统存储器206。系统存储器206可以是物理的,或者可以是虚拟化和/或分布式的。取决于系统200的确切配置和类型,系统存储器206可以是易失性的,例如ram,或是非易失性的,例如rom、闪存、微型硬盘驱动器、存储卡等,或其某种组合。
46.系统总线208可以在一个或多个通用处理器202和系统存储器206之间,一个或多个专用处理器204和系统存储器206之间,以及一个或多个通用处理器202和一个或多个专用处理器204之间传输数据。此外,数据总线210可以在一个或多个通用处理器202和一个或多个专用处理器204之间传输数据。数据总线210,例如,可以是外围组件互连express(“pcie”)连接,相干加速器处理器接口(“capi”)连接等。
47.图2b示出了包括任意数量的核212的一个或多个专用处理器204的示例。一个或多个专用处理器204的处理能力可以在多个核212之间分配。每个核212可以包括本地存储器214,其可以包含预初始化的数据,例如模型权重,或者包含数据结构,例如用于批处理归一化或量化的常数缓冲器,以执行专用计算。每个核212可以进一步被配置为执行在核212的本地存储器218上预初始化的一组或多组计算机可执行的加速引擎模块216,其可以各自由一个或多个核212执行,包括并行执行。通过多个核212,以执行或加速例如矩阵乘法或矩阵转置之类的算术运算,诸如卷积之类的函数运算,诸如卷积层池化、插值或感兴趣区域操作、数据造作之类的特别定义的运算操作。每个核212可以进一步包括指令定序器220,该指令定序器220接收和对从指令缓冲器222接收的指令排序。一些核(例如四个)212可以通过数据总线224(例如单向)进行通信,例如单向环形总线。通过经由命令处理器接口226发送可执行命令,控制每个核212的操作的软件驱动器可以控制核212并同步它们的操作。
48.通常,根据本公开的示例实施例,音频信号的时频表示被输入到学习模型的输入层中。因此,由于还希望将通过系统总线208或数据总线210的数据传输最小化,为最大化计算吞吐量,可以在通过系统总线208或数据总线210传输之前通过stft将音频信号处理为其时频表示。例如,可以在通用处理器202上执行stft处理,并且音频信号的时频表示可以传输到一个或多个专用处理器204,在其上可通过用处理器204对音频信号的时频表示执行学习模型计算。可选地,可以如以下参考图6所述在终端设备上执行stft处理。音频信号的时频表示可以通过一个或多个网络传输到托管系统200的远程计算主机上,其中可以通过专用处理器204可对音频信号的频率表示执行学习模型计算。随后,可以通过逆stft变换学习
模型的输出(例如音频信号的掩模时频表示或vad输出的音频信号的时频表示的帧)以重构音频信号的时域表示,该音频信号的时域表示生成目标说话者说出的语音。再次,为了使计算吞吐量最大化,可以将学习模型的输出传送回一个或多个通用处理器202以进行逆stft。
49.此外,可以通过系统总线208或数据总线210将根据本公开的示例实施例的静态图像、视频帧和/或面部图像或从中提取的目标说话者面部图像传送到专用处理器204,其中可以通过专用处理器204可以对静态图像、视频帧和/或面部图像或从中提取的目标说话者面部图像上执行学习模型计算以执行面部识别。可以将静态图像、视频帧和/或面部图像获取为在空域中表示的未压缩的位图图像,通常可以通过各种编码算法对其进行压缩以导出未压缩的图像的频域表示,在其上可以进一步进行预处理,以便于面部识别计算。可以在诸如自助服务亭或如上所述的移动设备之类的终端设备上对静态图像、视频帧和/或面部图像或从中提取的目标说话者面部图像执行压缩,以避免通过一个或多个网络将未压缩的静态图像、视频帧和/或面部图像、或从中提取的目标说话者面部图像,传输到远程计算主机。可以在其频域表示上对静态图像、视频帧和/或面部图像或从中提取的目标说话者面部图像进一步执行预处理,这是由于在通过学习模型对图像计算时,通常并非所有的图像数据都与计算有关。作为用于说明目的的示例,在以其频域表示的数据处理中,通常已知会利用高通或低通滤波器分别减小或去除低频或高频数据。
50.因此,本公开的示例实施例提出了通过将音频信号的时频表示和至少一个目标说话者面部图像的频域表示传输到一个或多个专用处理器来进行计算的方法。
51.图3a、图3b和图3c示出了根据本公开的示例实施方式的,用于将音频信号和目标说话者面部图像输入到学习模型中以进行单声道源分离或多声道源分离计算的预处理流程300a和300b的流程图。
52.在流程300a和300b中的步骤302,用户与一个或多个终端设备进行交互,该终端设备包括至少一个音频捕获设备和至少一个视频捕获设备。例如,用户可以在自助服务亭中执行交易,该自助服务亭中安装有至少一个麦克风和至少一个摄像头。在与一个或多个终端设备进行交互时,用户可以向一个或多个终端设备中的至少一个音频捕获设备(例如自助服务亭的一个或多个麦克风,附近的任何自助服务亭的任意数量的麦克风或用户的移动设备的麦克风)说出各种指令、命令、请求、响应、信息和这样的语音内容,移动设备通过启动移动设备与自助服务亭之间的通信协议(例如通过短距离通信协议)与自助服务亭进行交互。此外,用户可以面对一个或多个图像捕获设备(例如自助服务亭的一个或多个摄像头或用户的移动设备的摄像头)说出如上所述的语音内容,该移动设备通过在移动设备和自助服务亭之间发起通信协议(例如通过短距离通信协议)来实现与自助服务亭的交互。
53.至少一个音频捕获设备可以在用户与一个或多个终端设备进行交互期间捕获音频作为音频信号。为了简洁起见,随后将这段互动时间的跨度称为“关注时段”。捕获的音频信号可以包括如上所述的由用户说出的语音内容。所捕获的音频信号可以进一步包括除了所述用户之外的人的语音。所捕获的音频信号可以进一步包括环境噪声、干扰以及来自其他不相关源的声音。根据本公开的示例实施例,源分离计算的目的可以是将如上所述由用户说出的语音内容与捕获的其他此类音频分离,该用户后续被指定为“目标说话者”。音频信号的音频可以由至少一个音频捕获设备以原始音频格式捕获,并且可以通过例如stft的变换操作转换为压缩格式,然后将音频信号存储在其时频表示中,所述stft用于将音频信
号从时域表示转换为频域表示。
54.至少一个图像捕获设备可以在与一个或多个终端设备的关注时段期间捕获图像数据作为静态图像、视频和/或面部图像。当用户说出如上所述的语音内容时,捕获的图像数据可以包括用户的面部图像和面部动作。所捕获的图像数据还可以包括用户的身体、除用户之外的人脸和身体,背景中无关的对象以及周围区域的背景设置。可以由至少一个图像捕获设备以原始图像格式捕获静态图像、视频和/或面部图像,并且可以通过将所捕获的图像转换为频域表示的编解码器的编码模式将其转换为压缩格式。
55.根据本公开的示例实施例,音频捕获设备和图像捕获设备可以分别通过数据总线连接、光学数据连接或适合于分别以音频信号和图像数据的传输的其他连接来与计算设备连接,该计算设备可用于分别执行音频预处理和图像预处理,或者可以通过有线或无线网络连接与该计算设备连接。例如,计算设备可以是个人移动设备、计算系统集群,诸如边缘服务器之类的云计算系统的服务器、诸如自助服务亭之类的终端设备的嵌入式计算系统等。根据各自的计算能力,根据本公开的示例实施例的计算设备的示例可以进一步用于使用图像数据集执行后续的源分离计算。在本公开的示例实施例中,若其中诸如终端设备之类的计算设备不够强大以执行源分离计算的,该计算设备还可以通过诸如有线或无线网络连接之类的适当连接来连接至用于执行源分离计算的附加计算设备,例如远程计算主机。在任何情况下,流程300的至少每个步骤可以由本文所述的远程计算主机执行。
56.然而,通常,尽管可以在终端设备处执行步骤306之前的流程300a或300b的预处理步骤,或者如上所述,可以由远程计算主机的一个或多个通用处理器202来执行预处理步骤,但是如上所述,预处理之后的处理300a或300b(即,步骤304之后的任何步骤)可以由远程计算主机的一个或多个专用处理器204执行。应当理解,在步骤304之后,可以将捕获的音频信号和图像数据和/或提取的目标说话者面部图像可以从在其上经过预处理的任何其他处理器(例如,一个或多个通用处理器202)传输到一个或多个专用处理器204;在专用处理器204上,可以从捕获的音频信号和图像数据和/或目标说话者面部图像中提取特征,并且可以通过执行根据本公开的实施例示例的一个或多个学习模型对所提取的特征执行计算。
57.在过程300a或300b的步骤304,对捕获的音频信号执行短时傅立叶变换(“stft”)。
58.通常,对音频信号执行stft会导致音频信号在其时域表示上被划分为具有一些重叠的离散帧,从而可以在每个时域帧上执行stft以输出所述时域帧的音频信号幅值的时频表示。
59.在通过stft进行预处理之后,音频信号的时频表示可以被分成其频带和子频带,其每个频带和子频带代表音频信号的特定频率。音频数据的频域表示可以由表示其特定频带或子频带的参数k表征,以及由表示其特定帧的参数t表征。
60.在流程300a中,音频信号的时频表示可以提供单声道音频信号的时频表示。即,仅从一个点捕获了在关注时段内出现的音频信号。在流程300b中,音频信号的时频表示可以提供多声道音频信号的时频表示。即,已经从多个点捕获了在关注时段内发生的音频信号。此外,还已知在物理空间中在彼此相对的每个不同点处捕获音频信号的多个音频捕获设备的配置。
61.在流程300a或300b的步骤306,面部识别学习模型对捕获的图像数据执行多面部识别。
62.根据本公开的示例实施例,在步骤306之前,捕获的图像数据已经被预处理,同时被转换成其频域表示,并且已经被编码成压缩格式。为了理解本公开的示例实施例,无需详述其细节。
63.面部识别学习模型可以是如本领域中已知的任何被训练的学习模型,其具有用于计算多面部识别技术的参数集。根据本公开的示例实施例的在捕获的图像数据上的多面部识别任务的计算可以提供对捕获的图像数据的一个或多个静态图像或视频帧中的一个或多个面部的检测。取决于根据图像捕获设备的视场,可以从图像捕获设备的角度以不同的视角检测一个或多个面部。例如,如图1所示,视角范围从在静态图像、视频帧和/或面部图像的至少最右像素上检测到的面部的30
°
到在静态图像、视频帧和/或面部图像的至少最左像素上检测到的面部的150
°
,其90
°
定义为直接面向图像捕获设备(假设图像捕获设备的视场约为120
°
)。从其检测到的面部之一可以被指定为目标说话者,以指定用于源分离计算的目标。特别地,可以将在包括来自图像捕获装置的正面视角在内的多个角度范围内(例如,包括90
°
角度的角度范围内)检测到的面部指定为目标说话者。或者,可以将在从图像捕获设备最接近正面视角的角度范围内检测到的面部指定为目标说话者。此外,基于来自图像捕获装置的面部的朝向,可以将检测到的面部指定为目标说话者。例如,被指定为目标说话者的面部可以是面向图像捕获设备的面部。
64.当然,根据各种实际应用的需要,取决于图像捕获设备的配置,被指定为目标说话者的被检测到的面部不必是在正面视角检测到的面部,而可以是例如侧面视角或正面视角和侧面视角之间的任何特定角度。此外,被指定为目标说话者的面部可以是朝向图像捕获设备的四分之一轮廓或朝向图像捕获设备的轮廓而不是正面的面部。可以基于关于如何相对于用户物理配置一个或多个终端设备(例如图像捕获设备)的知识来确定这样的指定。然而,根据本公开的与如上所述的自助服务亭有关的示例实施例,期望在所有情况的至少约85%中,被检测到以正面视角面向图像捕获设备的面部可能被正确指定为目标说话者。
65.为了本公开的示例实施例的目的,不需要识别从捕获的图像数据中检测到的面部图像,即,不需要对面部图像进行分类以匹配任何训练数据集或其他数据集中的任何被标记的说话者。所检测到的面部图像仅需要与所捕获图像数据中的其他面部图像区分开。然而,面部图像可以进一步基于例如如上所述的自助服务亭的操作者先前获取的客户数据而被分类为与标记的说话者相匹配,从而识别正在进行交易的已建立的客户,以便对该客户进行身份验证,并促进实时交易。
66.在流程300a或300b的步骤308,面部识别学习模型选择从捕获的图像数据中检测到的目标说话者。
67.可以从捕获的图像数据中选择包含被检测的目标说话者面部的静态图像或视频帧的一部分作为目标说话者面部图像。根据本公开的示例实施例的多个面部识别学习模型可以在整个关注时段内捕获的整个静态图像或视频流序列中跟踪被检测的面部,从而当目标说话者为已知或被推断与一个或多个终端设备交互时,在一段时间内追踪该目标说话者的面部。在流程300a或300b的后续步骤中,在涉及“面部图像”时,可以指贯穿关注时段捕获的整个视频数据中目标说话者的一个或多个面部图像。
68.步骤306和308可以在步骤302之后执行,但独立于相对于步骤304的顺序,并且步骤306和308之一或两者可以与步骤304同时执行,在步骤304之前或步骤304之后执行。步骤
306和308可以在与诸如执行步骤302的终端设备或一个或多个处理器不同的处理器(例如专用处理器204)上执行,或者可以在与执行步骤302的相同的终端设备或一个或多个处理器上与执行步骤302的一个或更多个不同核上并行执行步骤306和308。
69.在流程300a的步骤310a或流程300b的步骤310b中,从所选目标说话者的一个或多个面部图像中提取面部特征,并基于所提取的特征来计算运动矢量。
70.尽管步骤310a和步骤310b都可以导致从一个或多个面部图像中提取面部特征,但是可以根据本公开的单声道源分离示例实施例来执行步骤310a,并且可以根据本公开的多声道源分离示例实施例来执行步骤310b。通常,根据步骤310a和310b,在经标记的面部图像数据集上训练的学习模型通常可以将人脸的某些经标记的特征定位到所选目标说话者的面部图像,并从与每个标记的特征相对应的面部图像的图像数据中提取样本像素。例如,样本像素可以对应于用于训练学习模型的参数的训练数据集中标记的眼睛特征、鼻子特征或嘴部特征。图4a和图4b示出了从与例如眼睛特征、鼻子特征和嘴部特征相对应的面部图像的图像数据中提取的样本像素的示例。此外,根据本公开的示例实施例,可以手动地标记训练数据集以特别标注出嘴唇特征,从而在标记的面部图像数据集上训练的学习模型可以以特定的精度提取嘴唇特征。此后将参考步骤310a和310b描述图4a和4b的进一步细节。
71.根据步骤310a,可以如下进一步从嘴部特征(或者特别是嘴唇特征)中提取lld矢量,该lld矢量是描述根据本公开的示例实施例的唇动的新型运动矢量。还可以通过本领域已知的技术基于随着时间推移图像数据中的采样特征的错位,从嘴部特征(特别是嘴唇特征)中提取光流矢量(“opfw矢量”),所述光流矢量是本领域已知的通过图像跟踪对象运动的运动矢量。在所有提取的特征中,选择与嘴部特征(或在训练数据集标记除了嘴部特征之外的嘴唇特征的情况下,尤其是嘴唇特征)相对应的样本像素。假设选择的样本像素的数量为n。如在图4a中所示,n=20(由于样本像素49至68对应于嘴唇特征)。
72.如图4a所示,可以建立局部坐标系。其中x轴和y轴的(0,0)坐标建立在与嘴部特征(特别是嘴唇特征)相对应的一组样本像素的左上端,以及在整个关注时段,在每个时间t,每个样本像素可以在x轴方向上具有第一位移,并且在y轴方向上具有第二位移。对于n个样本像素中的第i个样本像素,可以将样本的x轴位移的分量记为v
xi
,将像素的y轴位移的分量记为v
yi
。因此,可以将与嘴部特征(特别是嘴唇特征)相对应的n个采样像素中的所有采样像素的x轴位移记为v
x0
,v
x1


,v
x(n

1)
,y轴位移记为v
y0
,v
y1


,v
y(n

1)
表示。
73.基于这些位移,可以如下计算每个样本像素的归一化位移矢量δv
i
(t),其中h(t)和w(t)分别是从时间t开始在捕获的图像中目标说话者的面部的高度(在y轴上)和宽度(在x

轴上)。因此,可以对位移矢量进行归一化,以解决由于方向随时间的微小差异而导致目标说话者面部的面部特征在视觉上缩短的情况。
74.在与嘴部特征(尤其是嘴唇特征)相对应的样本像素的所有归一化位移矢量上,描述目标说话者在时间t的面部唇动的lld运动矢量可以被推导为以下矢量:δv(t)=[δv0(t),δv1(t),...,δv
n
‑1(t)]
t
[0075]
可选地,根据步骤310b,根据以下如图3c所示的子步骤,还可以从嘴部特征(尤其
是嘴唇特征)进一步提取唇动矢量(“lmv”),并通过vad输出对其进行增强。
[0076]
在步骤3101b,选择与嘴部特征(或者,特别是唇部特征,在训练数据集标记除了嘴部特征之外的嘴唇特征的情况下)相对应的样本像素(即,在所有提取的特征之中)。令选择的样本像素的数量为k。如图4b中所示,例如k=20(因为样本像素49至68对应于嘴唇特征)。
[0077]
在捕获一用户嘴的图像时,期望可以捕获到该用户的上嘴唇和下嘴唇彼此大致垂直对称地运动。因此,期望可以将与嘴部特征(特别是嘴唇特征)相对应的至少一些被采样像素分离为上唇的被采样像素和下唇的被采样像素,其中成对的分别来自上唇和来自下唇的被采样像素可以垂直对称地配对。
[0078]
在步骤3102b,从被选择的样本像素计算唇动矢量(“lmv”)。
[0079]
如图4b所示,可以建立局部坐标系。其中x轴和y轴的(0,0)坐标被建立在与嘴部特征(特别是嘴唇特征)相对应的一组样本像素的左上端。第一运动矢量p1可以代表与上唇相对应的像素的运动,并且可以被写为p1=[p
1,0
,p
1,1
,...,p
1,k
‑2]
t
;第二运动矢量p2可以代表与下唇相对应的像素运动,并且可以被写为p2=[p
2,0
,p
2,1
,...,p
2,k
‑2]
t
。每个p可以表示与嘴部特征(或者特别是嘴唇特征)相对应的样本像素之一的二维坐标,并且p
1,k
和p
2,k
可以表示对称的样本像素对。
[0080]
给定这两个矢量,它们之间的距离可以表示为每对样本像素之间的欧几里得距离的矢量d,每个矢量分别表示为:d
k
=||p
1,k

p
2,k
||2[0081]
因此,总矢量d可写为:d=[d0,d1,

,d
k
‑2]
t
[0082]
因此,描述在时间段t中的唇动(发送在关注时段t(t=0,1,2,...,t

1))的运动矢量δmt可计算为:δm
t
=d
t

d
t
‑1[0083]
此外,每个时间t的高宽比可以计算为:
[0084]
其中d
t(v)
表示d在半高处的垂直距离矢量(补偿上嘴唇和下嘴唇分别是样本像素的k/2),w
t
表示上下嘴唇的最左样本像素和最右样本像素之间的水平距离。时间t的lmv,lmv
t
表示为结合了运动矢量和高宽比的矢量,表示如下:
[0085]
在步骤3103b,随时间归一化lmv。
[0086]
例如,可以基于从时间t开始的被捕获图像中目标说话者的面部的高度(在y轴上)和宽度(在x轴上)对lmv归一化。令被检测面部的高度为fh并且使被检测脸部的宽度为fw。在时间t被归一化的lmv,表示如下:
[0087]
然后,可以求解归一化的lmv的l2范数,以确定所述矢量到如上所限定的(θ
lmv
)矢量空间的原点(0,0)的欧几里得距离,如下所示:
[0088]
在步骤3104b,隐马尔可夫模型(“hmm”)基于所述归一化的lmv输出语音的概率。
[0089]
通常,hmm可以是统计学习模型,其在给定统计分布(例如高斯分布)的情况下观察状态并计算概率。hmm可以计算归一化的lmv的欧几里得距离的分布,并据此预测语音的概率。根据本公开的示例实施例,hmm可以观察θ
lmv,t
‑1的状态,并计算出θ
lmv,t
具有特定状态的概率。根据本公开的示例实施例的θ
lmv,t
的状态可以指示例如上唇和下唇是打开的,或者上唇和下唇是闭合的。因此,对θ
lmv,t
的状态的预测可以与语音被检测到或未被检测到的概率相关。
[0090]
在步骤3105b,基于hmm的输出,vad输出检测结果。
[0091]
hmm可以进一步是如上所述的vad的组件。由于期望vad输出值是0或1,因此hmm的概率输出可以映射到0到1的范围内,如下所示:p
vad,t
=hmm(θ
lmv,t
‑1),p
vad,t
∈[0,1]
[0092]
这里,p
vad,tv
值接近1表示vad在时间t检测到语音,的p
vad,t
值接近0表示vad在时间t未检测语音。然而,期望p
vad,t
是有噪声的概率,并且根据本公开的示例实施例,p
vad,t
可以被进一步后处理以减少误报并提高检测率。可以根据如下对p
vad,t
平滑处理,返回p’vad,t
:p

vad,t
=β
·
p

vad,t
‑1 (1

β)
·
p
vad,t
[0093]
在流程300a的步骤312a或流程300b的步骤312b中,源分离学习模型至少基于被计算的运动矢量,将与至少一个成分源相对应的音频从捕获的音频信号中分离出来。
[0094]
如先前所论述,源分离学习模型的计算的目标可以是将目标说话者说出的语音内容与其他这样捕获的音频分离,并且关于目标说话者的上下文和目标说话者的讲话时间可以用于通过源分离学习模型增强计算。根据本公开的示例实施例,基于步骤310a或310b计算的运动矢量可以被认为表示在关注时段期间目标用户的嘴唇的运动,同时假定目标说话者正在说出语音内容,因此由运动矢量表示的信息,以及基于所述运动矢量(例如,根据步骤310b的vad的输出)的附加计算的结果可用于增强源分离学习模型的计算。
[0095]
尽管步骤312a和步骤312b都可以从捕获的音频信号中导致与至少一个成分源相对应的输出音频,但是希望该成分源尽可能一致地成为目标说话者,可以是根据本公开的单声道源分离示例实施例执行步骤312a,并且可以根据本公开的多声道源分离示例实施例来执行步骤312b。通常,根据步骤312a和312b,源分离学习模型可以是在包含标记的语音内容的音频信号上训练的学习模型。但是,由学习模型执行的技术可能会有所不同,如下文更详细所述。
[0096]
根据步骤312a,源分离学习模型输出目标掩模和噪声掩模。如上所述,掩模可以是频域中的矩阵或矢量,当通过操作(例如对每个帧的乘法操作)将其应用于混合源音频信号的时频表示时,该掩模或矢量会产生至少一个捕获的音频信号的成分源。特别地,目标掩模可以是产生混合源单声道音频信号的目标成分源的掩模,根据本公开的示例实施例,该混合源单声道音频信号是目标说话者。噪声掩模可以是至少减少不对应于任何源或不对应于目标源的混合源单声道音频信号的构成音频的掩模。然后可以通过逆stft来变换对其施加有掩模的音频信号的时频表示,以重构音频信号的时域表示,该时域表示产生目标说话者
说出的声音内容。
[0097]
根据步骤312a,源分离学习模型可以是结合多个学习子模型的融合学习模型,其中一些学习模型的输出被连接到其他学习模型的输入。这种融合学习模型的架构在图3a中简要示出,图5示出了根据本公开的示例实施例的融合学习模型500的细节。
[0098]
通常,根据本公开的示例实施例的学习子模型可以具有任意数量的层。
[0099]
如图5所示,融合学习模型500接受至少三个输入:根据步骤310a提取的lld矢量502;根据步骤310a提取opfw矢量504;如上所述被捕获的单声道音频信号506(携带噪声和干扰)。以下,b表示任何这些类型的数据的批次的批次大小;t表示来自训练数据集的训练样本的持续时间;f表示音频信号的时频表示的频带。因此,lld矢量502可以被写为γ
(b)
。γ
(b)
∈r
(b
×
t
×
(k

2))
[0100]
其中,k是与如上所述的嘴部特征(特别是嘴唇特征)相对应的样本像素数量。
[0101]
opfw矢量504可以被写为o
(b)
。o
(b)
∈r
(b
×
t
×
w
×
h
×
2)
[0102]
其中h和w分别是一被捕获图像中目标说话者面部的高度(在y轴上)和宽度(在x轴上)。
[0103]
单声道音频信号506可以被写为y
(b)

[0104]
此外,将从噪声音频信号平滑化而导出的清洁的音频信号可以表示为x
(b)
,并且要去除的噪声和干扰可以表示为n
(b)
。y
(b)
,x
(b)
,n
(b)
∈c
(b
×
t
×
f)
[0105]
如上所述,步骤312a可以使源分离学习模型输出可以分别是二维矩阵的目标掩模和噪声掩模。目标掩模可以被表示为噪声掩模可以被表示为噪声掩模可以被表示为
[0106]
如图5所示,首先,将o
(b)
504输入到v

cnn 508中,并且将y
(b)
506输入到a

blstm 510中。
[0107]
如本领域中通常已知的,粗到细特征识别通常利用诸如v

cnn 508之类的学习模型,来对从在初始扫描和图像分类期间的图像数据中提取的粗特征识别出细特征,该细特征可以用于更细粒度的特征分类计算。因此,v

cnn 508可以计算o
(b)
504以从o
(b)
504.中包括的运动矢量中识别更精细的运动矢量。
[0108]
如本领域中通常已知的,blstm学习模型通过向前和向后处理输入信号,可以利用来自较晚的时间音频信号的上下文信息来对较早的音频信号执行计算,反之亦然。因此,尽管a

blstm 510的输出未连接到融合学习模型的最终输出,但是a

blstm 510可以执行输出中间结果计算,该中间结果部分地但不完全地实现目标掩模和噪声掩模。
[0109]
v

cnn 508输出的运动矢量可以与γ
(b)
502融合以产生例如包括v

cnn 508输出的运动矢量的特征和γ
(b)
502的特征两者的一阶融合运动矢量(即,ldd唇部运动矢量的特征)。所得的一阶融合运动矢量可以包含关于目标说话者的嘴唇随时间的运动的信息,在运动方面具有改进的粒度的信息。
[0110]
如图5所示,然后,将一阶融合运动矢量输入到v

blstm 512中。
[0111]
类似于如上所述的a

blstm 510处理,v

blstm 512可以利用来自稍后的时间运动
矢量的信息来对较早时间对运动矢量执行计算,反之亦然。因此,尽管v

blstm 512的输出未连接到融合学习模型的最终输出,但v

blstm 512可以执行输出中间结果的计算,例如一阶融合运动矢量,其中基于较早时间的运动特征和较晚时间的运动矢量之间的上下文,使得一段时间内的运动特征可以更一致。
[0112]
如图5所示,然后,可以将由a

blstm 510输出的音频信号与一阶融合运动矢量融合,以产生例如包括由v

cnn 508输出的运动矢量特征,γ
(b)
502的特征(即ldd唇部运动矢量的特征)以及a

blstm510输出的音频信号的特征的二阶融合运动和音频矢量。所得的二阶融合运动和音频矢量可以包含有关目标说话者的嘴唇随时间的运动以及在同一时间捕获的相应音频信号的信息。
[0113]
如图5所示,接下来,将二阶融合运动和音频矢量输入f

blstm 514。
[0114]
与如上所述的a

blstm 510和v

blstm 512处理不同,f

blstm 514可以利用有关目标说话者嘴唇随时间的运动信息来增强源分离计算。这两个类别的信息在相同特征矢量中的融合(按时间索引)可以使f

blstm 514接收二阶融合运动和音频矢量,以访问目标说话者嘴唇运动特征和相同时间t的混合源音频特征,以便f

blstm 514可以确定,例如,目标说话者的嘴唇很可能或不太可能在时间t说话;该确定有助于确定是否可能在同一时间t在音频信号中找到目标说话者的语音,从而便于根据本公开的示例实施例的源分离计算。
[0115]
由f

blstm 514执行的源分离计算可以基于通过执行梯度下降计算的最小化成本函数j的输出。在本领域中已知,成本函数可以是基于学习模型的输出的任意定义的函数,其中成本函数的输出表示输出中的误差程度。因此,对于输出目标掩模和噪声掩模的f

blstm 514,可以将成本函数定义为为目标掩模产生更大的输出,该目标掩模产生较低准确度的目标说话者所说的目标语音内容,并且还可以定义为早上掩模产生更大的输出,该噪声掩模产生具有更多噪声和剩余干扰的音频信号。
[0116]
根据本公开的示例实施例,梯度下降计算可以寻求同时最小化目标掩模和噪声掩模的成本函数j的输出。因此,根据本公开的示例实施例的成本函数j可以例如如下:
[0117]
其中,∠
·
,|
·
|和||
·
||
f
分别表示信号的相位;信号幅度;矢量空间中的frobenius范数(一二维矩阵范数),

表示二维矩阵之间的点积运算。将frobenius范数应用于成本函数可以对每个批次大小b,训练样本持续时间t,和频段f的成本函数进行归一化。
[0118]
可以将通过f

blstm输出系数的目标掩模516和噪声掩模518可以应用于单声道音频信号y
(b)
506,以通过以下操作分离目标说话者的语音并平滑噪音音频信号:506,以通过以下操作分离目标说话者的语音并平滑噪音音频信号:
[0119]
根据如图3a所示的步骤314a,可以将来自步骤312a的输出的由成本函数j输出的
误差与来自被标记的训练数据的由成本函数j输出的误差之间的差反馈给融合学习模型,以调整参数,直到通过梯度下降使所述误差最小化为止。
[0120]
随后,在成本函数最小化之后,可以将融合学习模型输出的目标掩模和噪声掩模应用于单声道音频信号,然后可以通过逆stft转换所得乘积,以重建音频信号的时域表示,该时域表示产生目标说话者说出的声音内容。
[0121]
可替代地,根据步骤312b,盲源分离(“bss”)学习模型输出解混矩阵。类似于如上所述的掩模,解混矩阵w(k,t)可以是频域中的矩阵,当通过操作(针对每个帧的乘法运算)将所述解混矩阵w(k,t)应用于混合源多声道音频信号的时频表示时,产生混合源多声道音频信号的目标成分源,根据本公开的示例实施例,该目标成分源是目标说话者。然后可以通过逆stft来变换对其施加有掩模的音频信号的时频表示,以重构音频信号的时域表示,该时域表示产生目标说话者说出的声音内容。
[0122]
换一种说法:y(k,t)=w(k,t)x(k,t)
[0123]
其中,y(k,t)是后源分离音频信号,而x(k,t)是时频表示中捕获的多声道音频信号。
[0124]
根据本公开的示例实施例,如上面的步骤3105b中所述的vad可以通过bss学习模型被用于监督bss计算,其中vad的输出由基于lmv的hmm(为简单起见,随后称为“唇动vad”)增强。基于独立矢量分析(“iva”)技术的监督bss计算可以是本领域技术人员已知的技术。然而,根据本公开的示例实施例,如下所述,可以基于作为监督数据的vad输出来使用用于监督计算的方程式。因此,可以出于本公开的示例实施例的目的而修改监督bss计算算法,以便将如上所述的vad输出替换为监督数据。
[0125]
为了本公开的示例实施例的目的,x(k,t)可以被描述为:x(k,t)=h(k,t)s(k,t) n(k,t)
[0126]
其中,m进一步指多声道音频信号x(k,t)的声道数;s(k,t)由x(k,t)中包括的n个成分源信号组成;h(k,t)是一个m x n的混合矩阵,该混合矩阵当与s(k,t)相乘时,会得到表示多源信号的混合源矩阵;n(k,t)是也由m个通道组成的噪声信号。
[0127]
混合矩阵应该被理解为数学结构,其可以表示解混矩阵w(k,t)的逆。
[0128]
此外,在语句y(k,t)=w(k,t)x(k,t)中,y(k,t)可以包括一个或多个分离的成分信号,其中第n个成分信号被标记为y
n
(k,t)。并且将构成多声道音频信号x(k,t)的第m声道的音频信号标记为x
m
(k,t)。给定估计的解混矩阵w(k,t),w可以具有m列和n行,其中基于m和n,元素w
nm
(k,t)可以位于第m列和第n行。
[0129]
监督bss计算算法可以通过以下迭代步骤执行:
[0130]
在第一次迭代中:y(k,t)=w(k,t)x(k,t)
[0131]
在第二次迭代中:δw
nm
(k,t)=(i
nm

φ(k,t)y
n
(k,t)y
m
(k,t)
*
)w
nm
(k,t)
[0132]
在第三次迭代中:w(k,t 1)=w(k,t) ηδw(k,t)
[0133]
监督bss计算算法需要监督数据φ(k,t)。根据本公开的示例实施例,可以通过以
下步骤从步骤3105b的以上推导的平滑的vad输出p
vad,t
导出φ(k,t):
[0134]
γ是贡献率系数,其可以确定vad输出对监督bss计算做出贡献的程度。假设第n个成分信号y
n
(k,t)以目标说话者为源;那么,vad输出可能与bss计算有关,并且γ可能具有非零值。但是,假设第j个成分信号y
j
(k,t),其中j≠n,具有噪声或干扰作为其源;那么,vad输出可能与监督bss计算无关,并且γ的值可能为零。
[0135]
随后,在监督bss计算迭代完成之后,可以将解混矩阵w应用于多声道音频信号x,以导出包括与目标说话者相对应的成分音频信号yn的分离的成分音频信号y。然后可以通过逆stft对yn进行变换,以重构音频信号的时域表示,该时域表示产生由目标说话者说出的声音内容。
[0136]
可以将如本领域技术人员已知的语音识别技术在目标说话者说出的语音内容上执行,并且对语音内容的识别可以产生信息,该信息有助于在终端设备(例如自助服务亭)上进行的用户交易的执行。为了理解本公开的示例实施例,本领域技术人员已知的语音识别技术的细节在这里不再需要详细描述。
[0137]
图6示出了根据本公开的示例实施例的托管到一个或多个远程计算主机的接口的云计算系统600的架构图。如上所述,虽然根据本公开的示例实施例的计算设备的示例可以操作以使用图像数据集执行后续训练和推理计算,但是在其他情况下,通过网络连接通信的其他计算设备可以操作以执行训练和推理计算。因此,该图示出了如上所述的计算设备的一些可能的架构实施例。
[0138]
可以在通过物理或虚拟网络连接的物理或虚拟服务器节点604(1),604(2),...,604(n)(其中任何未指定的服务器节点都可以称为服务器节点604)的网络602上实现云计算系统600。此外,在物理或虚拟边缘节点606(1),606(2),...,606(n)(其中任何未指定的边缘节点都可以称为边缘节点606)的网络602终端位于网络602的物理和/或逻辑边缘。边缘节点606(1)至606(n)可以连接到任何数量的终端设备608(1),608(2),...,608(n)(其中任何未指定的终端设备都可以称为终端设备608)。终端设备608,例如作为终端设备608(1),可以从任何数量的传感器610(1),610(2),...,610(n)收集采集的数据,其中传感器可以是例如可操作为收集音频信号的音频捕获设备或可操作为收集图像数据(例如静态图像,视频帧等)的图像捕获设备。
[0139]
如在本公开的示例实施例中所描述的,在通过云计算系统600的接口访问的远程计算主机上实现的学习模型614可以存储在数据中心618(“数据中心存储器”)的物理或虚拟存储器616上,并且可以加载到数据中心618的物理或虚拟内存620(“数据中心内存”)中,以使数据中心618(“一个或多个数据中心处理器”)的一个或多个物理或虚拟处理器622使用学习模型614执行计算,以计算与本文所述的计算任务有关的输入数据。一个或多个数据中心处理器622可以是便于计算神经网络计算任务的专用计算设备。例如,一个或多个数据中心处理器622可以是如上所述的一个或多个专用处理器204,包括诸如神经网络处理单元(“npu”),图形处理单元(“gpu”),张量处理单元(“tpu”)等的一个或多个加速器。
[0140]
根据本公开的示例实施例,可以将在终端设备608处捕获的音频信号和/或静态图
像、视频和/或面部图像加载到终端设备608的物理或虚拟内存624中(“终端内存”),以使终端设备608的一个或多个物理或虚拟处理器626(“一个或多个终端处理器”)执行如上所述的预处理操作。替代地,可以将在终端设备608处捕获的音频信号和/或静态图像、视频和/或面部图像传输到边缘节点606中的任何一个,并加载到边缘节点606的物理或虚拟内存628中(“边缘内存”),以使边缘节点606的一个或多个物理或虚拟处理器630(“一个或多个边缘处理器”)执行如上所述的预处理操作。可选地,可以将在终端设备608处捕获的音频信号和/或静态图像、视频和/或面部图像传输到任何服务器节点604,并加载到云计算系统600的终端内存624中(“云内存”),以使云计算系统600的一个或多个终端处理器626(“一个或多个云处理器”)执行如上所述的预处理操作。
[0141]
根据本公开的实施例的音频信号和/或静态图像、视频和/或面部图像可以被传输到一个或多个远程计算主机,并且被一个或多个数据中心处理器622利用以基于在学习模型614执行计算。根据本公开的示例实施例实施流程300a,学习模型可以是融合学习模型,其中结合多个学习子模型,其中一些学习模型的输出被连接到其他学习的输入。学习子模型可以由数据中心处理器622的不同处理器执行,或者可以由数据中心处理器622的相同处理器在不同核或不同线程上执行,并且每个学习子模型可以相对于其他学习子模型同时执行计算。
[0142]
图7示出了用于实现上述过程和方法的示例性终端设备系统700,所述过程和方法用于实现用于学习模型的源分离技术。
[0143]
本文描述的技术和机制可以由终端设备系统700的多个实例以及由任何其他计算设备、系统和/或环境来实现。如上所述,终端设备系统700可以是终端设备,也可以是其中安装有多个终端设备的计算系统:终端设备可以是图像捕获设备,例如安装在自助服务亭中的摄像机,该摄像机收集可能来自自助服务亭用户的静态图像、视频和面部图像数据。根据另一个示例,终端设备可以是音频捕获设备,例如安装在自助服务亭上的麦克风,该麦克风收集可能源自自助服务亭用户的音频。自助服务站总体上可以是终端设备系统700。图7中所示的系统700仅是系统的一个示例,并且无意于暗示对用于执行上述过程和/或流程的任何计算设备的使用范围或功能的任何限制。适用于本实施例的其他众所周知的计算设备、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费电子产品、网络pc、小型计算机、大型计算机、包括上述任何系统或设备的分布式计算环境、使用现场可编程门阵列(“fpga”)的实现以及专用集成电路(“asic”)等。
[0144]
系统700可以包括一个或多个处理器702和通信地连接至所述一个或多个处理器702的系统内存704。一个或多个处理器702和系统内存704可以是物理的,或者可以是虚拟的和/或分布式的。一个或多个处理器702可以执行一个或多个模块和/或处理,以使一个或多个处理器702执行各种功能。在实施例中,一个或多个处理器702可以包括中央处理单元(“cpu”)、gpu、npu,tpu,及其任何组合,或本领域已知的其他处理单元或组件。另外,一个或多个处理器702的每一个可以拥有其自己的本地存储器,该本地存储器还可以存储程序模块,程序数据和/或一个或多个操作系统。
[0145]
取决于系统700的确切配置和类型,系统存储器704可以是易失性的,例如ram,也可以是非易失性的,例如rom,闪存,微型硬盘驱动器,存储卡等,或者它们的某种组合。系统
存储器704可以包括可由一个或多个处理器702执行的一个或多个计算机可执行模块706。模块706可以作为用于数据处理平台的服务被托管在网络上,其可以在来自系统500的单独的系统上实现。
[0146]
模块706可以包括但不限于音频数据捕获模块708,图像数据捕获模块710,一个或多个预处理模块712(包括傅立叶变换子模块714)以及数据传输模块716。
[0147]
音频数据捕获模块708可以被配置为在用户与一个或多个终端设备的交互期间捕获音频作为音频信号,如以上参考图3a和3b所述。
[0148]
图像数据捕获模块710可以被配置为将压缩图像解码为图像数据集的频域表示,如以上参考3a和3b所述。
[0149]
一个或多个预处理模块712可以被配置为对捕获的音频信号执行预处理操作,至少包括对捕获的音频信号执行stft的傅立叶变换子模块714,如上面参考图3a和3b所述。
[0150]
数据传输模块716可以被配置为以其时频表示将捕获的音频信号传输到一个或多个专用处理器,如上参考图2a和2b所述。
[0151]
系统700可以另外包括输入/输出(“i/o”)接口740和通信模块750,通信模块750允许系统700通过网络与其他系统和设备通信,例如如上所述的包括照相机和麦克风的终端设备。所述网络可以包括互联网,诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、射频(“rf”)、红外和其他无线介质之类的无线介质。
[0152]
图8a和8b示出了示例计算系统800,该示例计算系统800用于实现上述用于实现用于学习模型的源分离技术的过程和方法。
[0153]
本文描述的技术和机制可以由系统800的多个实例以及由任何其他计算设备、系统和/或环境来实现。系统800可以是由多个物理联网的计算机或网络服务器、物理或虚拟群集、计算云或本领域技术人员已知的提供物理或虚拟计算资源的其他联网的计算架构组成的分布式系统。其示例包括学习系统,例如以上参考图6描述的数据中心。图8中所示的系统800仅是系统的一个示例,并且无意于暗示对用于执行上述过程和/或流程的任何计算设备的使用范围或功能的任何限制。适用于实施例的其他众所周知的计算设备、系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程消费电子产品、网络pc、小型计算机、大型计算机、包括上述任何系统或设备的分布式计算环境、使用现场可编程门阵列(“fpga”)的实现以及专用集成电路(“asic”)等。
[0154]
系统800可以包括一个或多个处理器802以及可通信地连接到所述一个或多个处理器802的系统内存804。一个或多个处理器802和系统内存804可以是物理的、或者可以是虚拟的和/或分布式的。一个或多个处理器802可以执行一个或多个模块和/或处理,以使所述一个或多个处理器802执行各种功能。在实施例中,所述一个或多个处理器802可以包括中央处理单元(“cpu”)、gpu、npu、tpu、它们的任何组合、或者本领域已知的其他处理单元或组件。另外,每个处理器802可以拥有其自己的本地存储器,该本地存储器还可以存储程序模块、程序数据和/或一个或多个操作系统。
[0155]
取决于系统800的确切配置和类型,所述系统存储器804可以是易失性的,例如ram,或是非易失性的,例如rom,闪存、微型硬盘驱动器、存储卡等,或者它们的某种组合。所述系统存储器804可以包括一个或多个可由所述一个或多个处理器802执行的计算机可执
行模块806。所述模块806可以作为用于数据处理平台的服务而被托管在网络上,其可以在来自系统800的独立的系统上实现。
[0156]
模块806可以包括但不限于多面部识别模块808,目标说话者选择模块810,面部特征提取模块812a或812b,源分离模块814a或814b,以及可选地反馈模块816a。
[0157]
多面部识别模块808可以被配置为对捕获的图像数据执行多面部识别,如上参考图3a和3b所述。
[0158]
目标说话者选择模块810可以被配置为选择从捕获的图像数据中检测到的目标说话者,如上参考图3a和3b所述。
[0159]
面部特征提取模块812a或812b可以被配置为从所选择的目标说话者的一个或多个面部图像中提取面部特征,并计算运动矢量,如上参考图3a或3b所述。如图8b所示,所述面部特征提取模块812b还可以包括:
[0160]
样本像素选择子模块8121b,其可以被配置为选择与嘴部特征或唇部特征相对应的样本像素,如以上参考图3b所述;
[0161]
唇动矢量计算子模块8122b,其可以被配置为从所选择的样本像素计算lmv,如以上参考图3b所述;
[0162]
lmv归一化子模块8123b,其可以被配置为随时间归一化lmv,如以上参考图3b所述;
[0163]
语音概率确定子模块8124b,其可以被配置为通过hmm基于归一化的lmv通过计算来输出语音概率,如以上参考图3b所述。和
[0164]
检测结果确定子模块8125b,其可以被配置为通过vad基于hmm输出来输出检测结果,如以上参考图3b所述。
[0165]
源分离模块814a或814b,其可以被配置为计算捕获的音频信号,并且进一步的至少基于所计算的运动矢量,从捕获的音频信号输出与至少一个成分源相对应的音频,如上参考图3a和3b所述。
[0166]
反馈模块816a可以被配置为来自于源分离模块812a输出的由成本函数j输出的误差与来自于被标记的训练数据输出的由成本函数输出的误差之间的差反馈给融合学习模型,以进行参数调整,直到通过梯度下降使误差最小化为止,如以上参考图2a所述。
[0167]
系统800可以另外包括输入/输出(“i/o”)接口840和通信模块850,该通信模块850允许系统800通过网络与其他系统和设备(例如如上所述的终端设备系统700)进行通信。所述网络可以包括互联网,诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、射频(“rf”)、红外和其他无线介质之类的无线介质。
[0168]
可以通过执行存储在如下所述的计算机可读存储介质上的计算机可读指令来执行上述方法的一些或全部操作。在说明书和权利要求书中使用的术语“计算机可读指令”包括例程、应用程序、应用程序模块、程序模块、程序、组件、数据结构、算法等。可以在各种系统配置上实现计算机可读指令,包括单处理器或多处理器系统、小型计算机、大型计算机、个人计算机、手持式计算设备、基于微处理器的可编程消费电子产品、其组合等。
[0169]
计算机可读存储介质可以包括易失性存储器(例如,随机存取存储器(“ram”))和/或非易失性存储器(例如,只读存储器(“rom”),闪存等))。计算机可读存储介质还可包括其他可移动存储器和/或不可移动存储器,包括但不限于闪存、磁存储、光存储和/或磁带存
储,它们可提供计算机可读指令、数据结构、程序模块等的非易失性存储。
[0170]
非暂时性计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质,即计算机可读存储介质和通信介质。计算机可读存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何过程或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质包括但不限于相变存储器(“pram”)、静态随机存取存储器(“sram”)、动态随机存取存储器(“dram”)、其他类型的随机存取存储器(“ram”)、只读存储器(“rom”)、电可擦可编程只读存储器(“eeprom”)、闪存或其他存储技术、光盘只读存储器(“cd

rom”)、数字通用磁盘(“dvd”)或其他光学存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备、或任何其他可用于存储信息以供计算设备访问的非传输介质。相反,通信介质可以在诸如载波或其他传输机制的调制数据信号中体现为计算机可读指令、数据结构、程序模块或其他数据。如本文所定义,计算机可读存储介质不包括通信介质。
[0171]
存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令,当由一个或多个处理器执行时,该计算机可读指令可以执行以上参考图1至图8b所描述的操作。通常,计算机可读指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被理解为限制,并且可以以任何顺序和/或并行地组合任意数量的所描述的操作以实现处理。
[0172]
通过上述技术方案,本公开提供了实现源分离技术,并且更具体地,对通过输入来自捕获图像数据的唇动信息而增强的混合源单声道和多声道音频信号执行源分离。这些技术包括:从在关注时段内捕获的多个面部图像中选择目标说话者面部图像;基于目标说话者面部图像的面部特征计算运动矢量;至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号分离。可以从单声道或多声道音频捕获设备捕获混合源音频信号。可以通过包括多个学习子模型的融合学习模型来对所述音频与音频信号执行分离。可以通过盲源分离(“bss”)学习模型来对所述音频与音频信号执行分离。使用示出目标说话者的嘴唇的运动的实时图像数据来增强学习模型可以提供用于增强源分离的准确性的重要上下文,此外,基于可用于盲源分离的音频捕获设备距说话者的距离,本公开的多声道实施例中的音频捕获设备配置的知识可以实现面部延迟。条款示例
[0173]
a.一种方法,包括:从在关注时段上捕获的多个面部图像中选择目标说话者面部图像;基于所述目标说话者面部图像的面部特征计算运动矢量;至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号相分离。
[0174]
b.根据段a的方法,其中,从图像捕获设备的角度以不同的视角在捕获的图像中检测多个面部图像,并且在一定角度范围内检测最接近图像拍摄设备的正面视角的目标说话者的面部图像。
[0175]
c.如段落a所述的方法,其中,面部特征包括从所述目标说话者面部图像提取的嘴部特征。
[0176]
d.如段落c所述的方法,其中,所述嘴部特征包括通过在针对唇部特征标记的面部图像数据集上训练的学习模型从所述目标说话者面部图像中提取的嘴部特征。
[0177]
e.如段落a所述的方法,其中,从包括单音频通道的音频捕获设备捕获所述音频信
号。
[0178]
f.如段落a所述的方法,其中,从包括多音频通道的音频捕获设备捕获所述音频信号。
[0179]
g.一种方法,包括:基于在关注时段上捕获的目标说话者面部图像的面部特征来计算运动矢量;至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源单声道音频信号分离;其中通过从包括多个学习子模型的融合学习模型执行音频与音频信号的分离。
[0180]
h.如段落g所述,其中,计算所述运动矢量包括基于面部特征至少计算lld矢量和光流矢量。
[0181]
i.如段落g所述的方法,其中,在关注时段的每个时刻,基于在相应时刻目标说话者面部图像的宽度和高度,进一步归一化所述运动矢量。
[0182]
j.段g所述的方法,其中,所述融合学习模型包括至少一个具有接收音频特征作为输入的输入层的学习子模型,以及至少一个具有接收图像特征作为输入的输入层的学习子模型。
[0183]
k.如段落j所述的方法,还包括将融合学习模型的至少一个学习子模型输出的音频特征与所述融合学习模型的至少一个学习子模型输出的图像特征融合。
[0184]
l.如段落k所述的方法,其中,所述融合学习模型还包括至少一个学习子模型,该学习子模型具有输入层,该输入层接收包括融合音频特征和图像特征的矢量作为输入。
[0185]
m.如段落l所述的方法,其中,融合学习模型通过基于融合的音频特征和视频特征执行源分离来输出目标掩模和噪声掩模。
[0186]
n.一种方法,包括:基于在关注时段上捕获的目标说话者面部图像的面部特征来计算运动矢量;以及至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源多声道音频信号相分离;其中,通过盲源分离(“bss”)学习模型来执行音频与音频信号的分离。
[0187]
o.如段落n所述的方法,其中,计算所述运动矢量包括基于面部特征至少计算唇动矢量(“lmv”)。
[0188]
p.如段落o所述的方法,其中计算所述运动矢量还包括基于lmv通过隐马尔可夫模型(“hmm”)计算语音的概率。
[0189]
q.如段落p所述的方法,其中,所述融合学习模型包括至少一个具有接收音频特征作为输入的输入层的学习子模型,以及具有至少一个接收图像特征作为输入的输入层的学习子模型。
[0190]
r.如段落q所述的方法,还包括:基于语音的概率,由语音激活检测(“vad”)系统输出检测结果。
[0191]
s.如r段所述,其中,所述bss学习模型通过基于监督数据的迭代计算来输出解混矩阵。
[0192]
t。如段落s所述的方法,其中,所述监督数据包括由vad系统输出的检测结果。
[0193]
u.一种系统,包括:一个或多个处理器;以及通信地连接到所述一个或多个处理器的存储器,所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块,所述计算机可执行模块在由所述一个或多个处理器执行时执行相关的操作,所述计算机可执行模
块包括:目标说话者选择模块,被配置为从关注时段内捕获的多个面部图像中选择目标说话者面部图像;面部特征提取模块,被配置为基于所述目标说话者面部图像的面部特征来计算运动矢量;源分离模块,被配置为至少基于所述运动矢量,将与成分源相对应的音频与在所述关注时段内捕获的混合源音频信号相分离。
[0194]
v.如段落u所述的系统,其中从图像捕获设备的角度以不同的视角在被捕获的图像中检测所述多个面部图像,并且所述目标说话者选择模块被配置为从图像捕获设备选择在最接近正面角度的角度范围内检测到的目标说话者面部图像。
[0195]
w.如段落u所述的系统,其中,面部特征包括从目标说话者面部图像提取的嘴部特征。
[0196]
x.如段落w所述的系统,其中,所述嘴部特征包括通过在关于唇部特征标记的面部图像数据集上训练的学习模型从目标说话者面部图像中提取的嘴部特征。
[0197]
y.如段落u所述的系统,其中,从包括单音频通道的音频捕获设备捕获所述音频信号。
[0198]
z.如段落u所述的系统,其中,从包括多音频通道的音频捕获设备捕获所述音频信号。
[0199]
aa.一种计算机可读存储介质,其存储可由一个或多个处理器执行的计算机可读指令,所述计算机可读指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行如下操作,包括:从关注时段内捕获的多个面部图像中选择目标说话者面部图像;基于所述目标说话人面部图像的面部特征计算运动矢量;至少基于所述运动矢量,将与成分源相对应的音频与在关注时段内捕获的混合源音频信号相分离。
[0200]
bb.如aa段所述的计算机可读存储介质,其中,从图像捕获设备的角度以不同的视角在被捕获的图像中检测所述多个面部图像,并且在从图像捕获设备的最接近的正面视角的角度范围内检测目标说话者的面部图像。
[0201]
cc.如段落aa所述的计算机可读存储介质,其中,所述面部特征包括从所述目标说话者面部图像提取的嘴部特征。
[0202]
dd.如段落cc所述的计算机可读存储介质,其中,所述嘴部特征包括通过在有关唇部特征标记的面部图像数据集上训练的学习模型从所述目标说话者面部图像中提取的嘴部特征。
[0203]
ee.如段落aa所述的计算机可读存储介质,其中,从包括单音频通道的音频捕获设备捕获所述音频信号。
[0204]
ff.如段落aa所述的计算机可读存储介质,其中,从包括多音频通道的音频捕获设备捕获所述音频信号。
[0205]
尽管已经以结构特征和/或方法动作专用的语言描述了主题,但是应该理解,所附权利要求书中定义的主题不必限于所描述的特定特征或动作。而是,将特定特征和动作公开为实现权利要求的示例性形式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜