语音数据处理方法、装置、智能设备及计算机存储介质与流程

2022-09-02 20:31:18 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，尤其涉及一种语音数据处理方法、装置、智能设备及计算机存储介质。

背景技术：

2.随着ai(artificial intelligence，人工智能)技术的发展，越来越多基于ai语音交互的智能语音设备正广泛应用于人们的工作和生活中。
3.现有的智能语音设备通过麦克风阵列拾取用户的语音，并对拾取的语音进行识别，基于识别结果与用户进行交互。但在某些嘈杂的环境中，例如地铁站、展示厅、家庭播放电视等场景下，用户的语音易受到较大干扰，智能语音设备会对拾取到的设备周围所有的语音进行处理和识别，造成语音识别准确度下降。
4.由此，使得在这些场景下使用智能语音设备时，用户往往无法与智能语音设备进行正常交互，导致用户体验较差。

技术实现要素：

5.有鉴于此，本技术实施例提供一种语音数据处理方案，以至少部分解决上述问题。
6.根据本技术实施例的第一方面，提供了一种语音数据处理方法，包括：获取包含有多个人脸的人脸图像数据和语音频谱数据；对所述人脸图像数据和所述语音频谱数据进行处理，以确定出目标人脸；获取所述目标人脸对应的人脸特征及声纹特征，并基于所述人脸特征、所述声纹特征及所述语音频谱数据，确定用于指示所述语音频谱数据中的噪音数据的频谱掩码；根据所述频谱掩码，对所述语音频谱数据进行语音增强处理。
7.根据本技术实施例的第二方面，提供了一种语音数据处理装置，包括：数据获取模块，用于获取包含有多个人脸的人脸图像数据和语音频谱数据；处理确定模块，用于对所述人脸图像数据和所述语音频谱数据进行处理，以确定出目标人脸；频谱掩码获取模块，用于获取所述目标人脸对应的人脸特征及声纹特征，并基于所述人脸特征、所述声纹特征及所述语音频谱数据，确定用于指示所述语音频谱数据中的噪音数据的频谱掩码；语音增强模块，用于根据所述频谱掩码，对所述语音频谱数据进行语音增强处理。
8.根据本技术实施例的第三方面，提供了一种电智能设备，包括：语音采集装置、图像采集装置、处理器；其中，所述语音采集装置，用于采集语音数据；图像采集装置，用于采集人脸图像；处理器，用于接收所述图像采集装置采集的包含多个人脸的人脸图像数据和所述语音采集装置采集的语音数据并转换为语音频谱数据；并且，基于所述人脸图像数据和所述语音频谱数据，执行如第一方面所述的语音数据处理方法对应的操作。
9.根据本技术实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的语音数据处理方法。
10.根据本技术实施例提供的语音数据处理方案，在人多嘈杂环境下使用智能语音设备时，将语音与图像相结合，首先基于人脸图像数据和语音频谱数据融合后的数据确定出
向智能语音设备发出语音指令的目标用户，即目标人脸对应的用户；进而，基于目标人脸对应的人脸特征、声纹特征和语音频谱数据，获得频谱掩码；再通过频谱掩码进行语音增强。因即使在嘈杂环境下，也不会对人脸图像数据产生影响，仍可较为准确地确定出目标用户，在此基础上，确定出可用于指示非该目标用户的语音的噪音数据的频谱掩码，通过该频谱掩码尽可能地将非该目标用户的语音过滤掉，从而达到对目标用户的语音进行增强的效果。由此，使得即使在嘈杂环境下使用智能语音设备，用户也能与智能语音设备进行正常交互，提升用户体验。
附图说明
11.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
12.图1a为根据本技术实施例一的一种语音数据处理方法的步骤流程图；
13.图1b为图1a所示实施例中的一种场景示例的示意图；
14.图2为根据本技术实施例二的一种语音数据处理方法的步骤流程图；
15.图3为根据本技术实施例三的一种语音数据处理装置的结构框图；
16.图4为根据本技术实施例四的一种智能语音设备的结构示意图。
具体实施方式
17.为了使本领域的人员更好地理解本技术实施例中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本技术实施例保护的范围。
18.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
19.实施例一
20.参照图1a，示出了根据本技术实施例一的一种语音数据处理方法的步骤流程图。
21.本实施例的语音数据处理方法包括以下步骤：
22.步骤s102：获取包含有多个人脸的人脸图像数据和语音频谱数据。
23.本步骤中，可通过适当设备如具有图像采集和声音采集的设备，获取包含有多个人脸的人脸图像数据和语音频谱数据，如多模态智能语音设备等。
24.以多模态智能语音设备为例，多模态智能语音设备是智能语音设备的一种，其除了具有常规智能语音设备的麦克风外，还同时具有图像采集设备如摄像头。由此，其可进行多模态信息采集。
25.本实施例中，相应设备如多模态智能语音设备至少采集人脸图像和语音，采集方式可以实现为实时采集，或者每隔预设时间段采集，或者基于触发条件(如被唤醒词唤醒后)采集等，本技术实施例对此不作限制。
26.仍以多模态智能语音设备为例，具体到本实施例，在嘈杂环境中，多模态智能语音设备采集的图像中通常包含多个人脸，也即，采集获取包含有多个人脸的人脸图像数据。此
外，本实施例中，多模态智能语音设备还可将采集到的语音数据转换为语音频谱数据，在具体实现中，本领域技术人员可采用任意适当方式将采集的原始语音数据转换为语音频谱数据，包括但不限于傅里叶变换的方式。语音频谱数据为语音频谱的数字表示，而语音频谱则可表征语音的频率分布。
27.步骤s104：对人脸图像数据和语音频谱数据进行处理，以确定出目标人脸。
28.其中，所述处理可以为适当的可根据人脸图像数据和语音频谱数据可确定出目标人脸的处理。例如，对人脸图像数据和语音频谱数据进行匹配处理、或特征提取后匹配处理，等等。
29.在一种可行方式中，所述处理可实现为多模态融合。多模态融合可以综合来自多个(本技术实施例中，若无特别说明，“多个”、“多种”等与“多”有关的数量均意指两个及两个以上)模态的数据以进行更为准确的后续处理。因单个模态的数据通常不能包含产生所需结果的全部有效数据，而多模态融合则可结合来自多个模态的数据，实现信息补充，拓宽数据所包含信息的覆盖范围。
30.通过多模态融合，可以将人脸图像数据和语音频谱数据进行有效匹配和补充，基于此，可以从中确定出目标人脸，即当前向多模态智能语音设备发送语音指令的目标用户的人脸图像。
31.步骤s106：获取目标人脸对应的人脸特征及声纹特征，并基于人脸特征、声纹特征及语音频谱数据，确定用于指示语音频谱数据中的噪音数据的频谱掩码。
32.在一种可行方式中，相应设备如多模态智能语音设备中可预存有人脸特征及声纹特征，在确定了目标人脸后，可根据预先设定的一个或多个映射关系，获取与目标人脸对应的人脸特征及声纹特征。通过相应设备如多模态智能语音设备本地预存的方式，可快速获得人脸特征及声纹特征，提高了方案整体的执行速度。
33.在另一种可行方式中，可在服务端(服务器或云端)预存人脸特征及声纹特征，以及目标人脸与人脸特征及声纹特征三者之间的一个或多个映射关系，这样，当多模态智能语音设备确定了目标人脸后，可从服务端获得对应的人脸特征及声纹特征。采用这种方式，可大大减轻相应设备如多模态智能语音设备端的数据存储负担。
34.在获得了人脸特征及声纹特征的情况下，结合之前的语音频谱数据，可获得用于指示语音频谱数据中的噪音数据的频谱掩码。在嘈杂环境中，语音频谱数据中通常会包含非目标用户(即非目标人脸对应的用户)的数据，而获得的人脸特征和声纹特征则都包含有针对目标用户的相应的信息，基于此，可通过适当的方式，如神经网络模型等方式，获得频谱掩码，以标记出语音频谱数据中的噪音数据，即不属于目标用户的语音数据。
35.步骤s108：根据频谱掩码，对语音频谱数据进行语音增强处理。
36.因频谱掩码可对语音频谱数据中的噪音数据进行指示和标记，因此，根据频谱掩码可对语音频谱数据进行相应处理，以过滤噪音数据，实现对目标用户的语音数据的增强处理。
37.以下，以一个以多模态智能语音设备进行上述语音数据处理的具体场景示例的形式，对上述过程进行示例性说明，如图1b所示。
38.图1b所示场景中，多模态智能语音设备具体实现为智能音箱，具体场景设定为正在举办聚会的客厅。假设，用户a对智能音箱发出指令“打开空调”，但与此同时，其身后用户
b在用户a身后并向前探出头来看用户a的操作并发出“我看看”的声音，且客厅内还有其它嘈杂声音，这些用户b发出的声音及其它嘈杂声音即为噪音。此种情况下，采用传统方式时，因用户a的声音混杂在所有声音中，则很可能智能音箱无法准确识别出，从而不能完成相应的操作。而采用本技术实施例的方案，智能音箱会同时采集到包含噪音的用户a的声音，以及包含用户a和用户b的图像。进一步地，智能音箱将采集到的声音转换为语音频谱数据，并与包含用户a和用户b的人脸图像数据进行融合，获取融合后数据。基于此，在一种具体实现方式中，可以通过对人脸图像数据进行检测确定用户a的嘴巴在动，且时间与声音“打开空调”对应的时间相匹配，基于此，则可将用户a在人脸图像数据中的人脸确定为目标人脸。
39.进而，基于数据库中预存的人脸特征、声纹特征、及它们与目标人脸的对应关系，获得与用户a的目标人脸对应的人脸特征和声纹特征。本示例中，将用户a的人脸特征、声纹特征及前述语音频谱数据一同输入用于生成频谱掩码的神经网络模型中，获得输出的频谱掩码。再将该频谱掩码与前述语音频谱数据相乘，然后进行语音转换处理，即可获得增强后的用户a的语音数据，如“打开空调”。智能音箱则可响应用户a的“打开空调”的指令，执行打开空调的操作。
40.通过本实施例，在人多嘈杂环境下使用智能语音设备时，将语音与图像相结合，首先基于人脸图像数据和语音频谱数据融合后的数据确定出向智能语音设备发出语音指令的目标用户，即目标人脸对应的用户；进而，基于目标人脸对应的人脸特征、声纹特征和语音频谱数据，获得频谱掩码；再通过频谱掩码进行语音增强。因即使在嘈杂环境下，也不会对人脸图像数据产生影响，仍可较为准确地确定出目标用户，在此基础上，确定出可用于指示非该目标用户的语音的噪音数据的频谱掩码，通过该频谱掩码尽可能地将非该目标用户的语音过滤掉，从而达到对目标用户的语音进行增强的效果。由此，使得即使在嘈杂环境下使用智能语音设备，用户也能与智能语音设备进行正常交互，提升用户体验。
41.实施例二
42.参照图2，示出了根据本技术实施例二的一种语音数据处理方法的步骤流程图。
43.本实施例中，仍以多模态智能语音设备进行语音数据处理为例，对本技术实施例提供的方案进行说明。但本领域技术人员应当明了的是，其它可进行多模态数据(至少包括图像数据和语音数据)采集的智能设备也同样适用。本实施例的语音数据处理方法包括以下步骤：
44.步骤s202：通过多模态智能语音设备采集人脸图像和语音数据。
45.本实施例中，采集的人脸图像为包含有多个人脸的人脸图像。
46.步骤s204：获取人脸图像对应的人脸图像数据和语音数据对应的语音频谱数据。
47.其中，语音频谱数据可通过诸如傅里叶变换等方式对语音数据进行转换获得。
48.步骤s206：对人脸图像数据和语音频谱数据进行多模态融合，根据多模态融合结果从多个人脸中确定出目标人脸。
49.在一种可行方式中，本步骤可以实现为：对预设时间段内的多个人脸图像数据进行人脸检测，根据人脸检测结果从多个人脸图像数据中，截取多个人脸中各个人脸对应的人脸图像部分；按照图像采集时序对截取的各个人脸的人脸图像部分进行排序，生成多个人脸图像序列；分别对多个人脸图像序列与语音频谱数据进行匹配，根据匹配结果从多个人脸中确定出目标人脸。通过这种方式，可以将语音频谱数据准确匹配到相应的人脸上，从
而实现目标人脸的准确检测。其中，所述预设时间段可由本领域技术人员根据实际需求适当设置，本技术实施例对此不作限制。
50.其中，所述分别对多个人脸图像序列与语音频谱数据进行匹配，根据匹配结果从多个人脸中确定出目标人脸在具体实现时，可以根据各个人脸图像序列对应的时间信息与语音频谱数据对应的时间信息，分别对多个人脸图像序列与语音频谱数据进行匹配，根据匹配结果从多个人脸中确定出目标人脸。例如，可以根据各个人脸图像序列对应的时间信息与语音频谱数据对应的时间信息，匹配出人脸持续出现时间与语音频谱数据的持续时间一致的人脸图像序列，根据匹配结果从多个人脸中确定出目标人脸。或者，也可以对多个人脸图像序列中包含的多个人脸的人脸图像部分进行特征提取，获取对应的多个人脸特征；并且，对语音频谱数据进行特征提取，获取对应的声纹特征；根据预存的人脸特征与声纹特征的对应关系，将多个人脸特征中，与声纹特征存在对应关系的人脸特征确定为目标人脸特征；将目标人脸特征对应的人脸确定为目标人脸。其中，所述对应关系可以为任意适当形式的对应关系，包括但不限于通过标识id形式表征的对应关系，或者，通过序列号表征的对应关系等等，本技术实施例对此不作限制。通过基于时间信息进行匹配的方式，匹配效率高，匹配度也较高；而通过特征匹配的方式，匹配较为精准。
51.可选地，当预存的人脸特征与声纹特征的对应关系为预存的人脸特征的人脸标识与声纹特征的声纹标识的对应关系时，在根据预存的人脸特征与声纹特征的对应关系，将多个人脸特征中，与声纹特征存在对应关系的人脸特征确定为目标人脸特征时，可以通过从多个人脸特征中，确定存在有对应的人脸标识的人脸特征；并且，确定声纹特征对应的声纹标识；根据所述对应关系，将与声纹标识具有对应关系的人脸标识对应的人脸特征，确定为目标人脸特征。由此，可减少数据匹配量，提高匹配效率。
52.例如，可以先从连续采集的多张人脸图像对应的人脸图像数据中检测出n个人脸(n为大于等于2的整数)；将检测出的n个人脸从所有图像中截取出来；按照多张人脸图像的图像采集时序，将相同人脸对应的人脸图像部分进行排列，形成n个人脸图像序列，其中，一个人脸图像序列对应同一个人脸；将各个人脸图像序列分别和语音频谱数据进行匹配比对，根据比对结果确定目标人脸。
53.在进行匹配比对时，一种方式中，可以判断语音频谱数据对应的时间段内持续出现的人脸图像序列，也即，人脸出现的持续时间与语音的持续时间一致，则可将该人脸图像序列对应的人脸确定为目标人脸。若这样的人脸图像序列包括多个(两个及两个以上)，则可以检测人脸图像序列中人脸在语音频谱数据对应的时间段内是否有嘴部动作，若有，则将该人脸图像序列对应的人脸确定为目标人脸。
54.另一种方式中，对各个人脸图像序列中的图像进行人脸特征提取，得到各个人脸对应的人脸特征，如n个人脸特征。与此同时，还可对语音频谱数据进行特征提取，获得对应的声纹特征。然后，判断n个人脸特征中，哪个人脸特征与声纹特征具有对应关系，并将具有对应关系的人脸特征对应的人脸确定为目标人脸。
55.通过上述过程，即可实现通过目标人脸对目标用户的准确确定。
56.步骤s208：获取目标人脸对应的人脸特征及声纹特征，并基于人脸特征、声纹特征及语音频谱数据，确定用于指示语音频谱数据中的噪音数据的频谱掩码。
57.在一种可行方式中，获取所述目标人脸对应的人脸特征及声纹特征可以实现为：
对目标人脸进行人脸识别，根据人脸识别结果获得目标人脸的人脸标识；确定与人脸标识相对应的声纹标识，获取声纹标识对应的声纹特征。此种情况下，系统中预先建立保存人脸特征的数据库和保存声纹特征的数据库，其中，人脸特征对应有人脸标识如人脸id，声纹特征对应有声纹标识如声纹id。系统中还存储有人脸标识和声纹标识的对应关系，通过该对应关系即可确定对应的人脸特征和声纹特征。通过这种方式，提高了对特征数据的管理效率，以及相应特征的匹配效率。
58.例如，在通过人脸识别获得相应的人脸特征后，即可查找保存有人脸特征的数据库，确定出对应的人脸id；再根据人脸id和声纹id的对应关系，查找到对该人脸id对应的声纹id；进而，通过保存有声纹特征的数据库，查找获得与声纹id对应的声纹特征。
59.但不限于此，在实际应用中，其它依据确定出的目标人脸，获得与该目标人脸对应的人脸特征及声纹特征的方式也同样适用本技术实施例的方案。
60.而在实现基于人脸特征、声纹特征及语音频谱数据，确定用于指示语音频谱数据中的噪音数据的频谱掩码时，一种可行方式中，可以对人脸特征和声纹特征进行特征融合，获得声纹人脸融合特征；并且，对语音频谱数据进行特征提取，获得频谱特征；以声纹人脸融合特征和频谱特征为输入，利用预先训练完成的神经网络模型获得频谱掩码概率图，其中，频谱掩码概率图中的每个概率值用于指示语音频谱数据中对应位置的数据为噪音数据的概率。通过频谱掩码的方式，可以实现针对目标用户的精准的噪音抑制和声音增强。此外，在获得声纹人脸融合特征时，还可以分别对人脸特征和声纹特征再次进行特征提取，并基于再次特征撮的结果进行特征融合，获得声纹人脸融合特征。通过再次特征提取的方式，一方面可达到特征增强的效果，另一方面也可减少后续的数据运算量。
61.其中，对相应数据的特征提取可采用适当神经网络模型的方式实现。
62.例如，将人脸特征输入第一lstm模型，获得输出的第一特征向量；将声纹特征输入第二lstm模型，获得输出的第二特征向量；将语音频谱数据输入第三lstm模型，获得输出的第三特征向量即频谱特征向量。将第一特征向量和第二特征向量通过concat层融合为一个融合特征向量即声纹人脸融合特征。将该声纹人脸融合特征和频谱特征向量再输入一个主干网络如cnn网络，得到掩码特征向量。再把该掩码特征向量经过softmax层转换成概率图输出。该概率图中的某一具体pixel的值表征的是语音频谱数据中对应位置是噪音数据的概率。
63.其中，针对上述主干网络，其输入是人脸特征、声纹特征、语音频谱特征，输出是掩码概率图。在对其进行训练的时候，可以干净的语音频谱数据作为真值，对该语音频谱数据进行噪音增强(例如，包含叠加高斯噪音、日常生活环境噪音及其它微小噪音等)，然后增强后的语音频谱数据再进行傅里叶变换及特征提取，转换成包含噪音的语音频谱特征。主干网络自动化学习和生成频谱掩码(mask)概率图。
64.但本领域技术人员应当明了的是，上述神经网络模型的说明仅为示例性说明，本技术实施例对基于人脸特征、声纹特征、语音频谱特征，输出掩码概率图的神经网络模型的具体实现形式、结构及训练过程均不进行限制。
65.步骤s210：根据频谱掩码，对语音频谱数据进行语音增强处理。
66.例如，将频谱掩码与语音频谱数据进行矩阵乘法运算，根据运算结果获得增强语音频谱数据；对增强语音频谱数据进行逆傅里叶变换，获得对应的增强语音数据。
67.频谱掩码和语音频谱数据通常都采用矩阵形式表征，基于此，可对两者进行矩阵乘法运算，则，由频谱掩码指示的相应位置为噪音的语音频谱数据将会被去除或抑制，从而实现非噪音数据的增强。
68.因人脸特征通过图像得到，噪音信号不会对人脸特征产生影响。因此，在具有噪音的嘈杂环境下，人脸特征的引入可以辅助提升声纹特征，进而提高整个神经网络模型抑制噪音的效果。
69.通过本实施例，在人多嘈杂环境下使用智能语音设备时，将语音与图像相结合，首先基于人脸图像数据和语音频谱数据融合后的数据确定出向智能语音设备发出语音指令的目标用户，即目标人脸对应的用户；进而，基于目标人脸对应的人脸特征、声纹特征和语音频谱数据，获得频谱掩码；再通过频谱掩码进行语音增强。因即使在嘈杂环境下，也不会对人脸图像数据产生影响，仍可较为准确地确定出目标用户，在此基础上，确定出可用于指示非该目标用户的语音的噪音数据的频谱掩码，通过该频谱掩码尽可能地将非该目标用户的语音过滤掉，从而达到对目标用户的语音进行增强的效果。由此，使得即使在嘈杂环境下使用智能语音设备，用户也能与智能语音设备进行正常交互，提升用户体验。
70.实施例三
71.参照图3，示出了根据本技术实施例三的一种语音数据处理装置的结构框图。
72.本实施例的语音数据处理装置包括：数据获取模块302、多模态融合模块304、频谱掩码获取模块306、语音增强模块308。
73.其中，数据获取模块302，用于获取包含有多个人脸的人脸图像数据和语音频谱数据；处理确定模块304，用于对所述人脸图像数据和所述语音频谱数据进行处理，以确定出目标人脸；频谱掩码获取模块306，用于获取所述目标人脸对应的人脸特征及声纹特征，并基于所述人脸特征、所述声纹特征及所述语音频谱数据，确定用于指示所述语音频谱数据中的噪音数据的频谱掩码；语音增强模块308，用于根据所述频谱掩码，对所述语音频谱数据进行语音增强处理。
74.可选地，本技术任意实施例中，所述处理确定模块304，用于对预设时间段内的多个所述人脸图像数据进行人脸检测，根据人脸检测结果从多个所述人脸图像数据中，截取所述多个人脸中各个人脸对应的人脸图像部分；按照图像采集时序对截取的各个人脸的人脸图像部分进行排序，生成多个人脸图像序列；分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸。
75.可选地，本技术任意实施例中，处理确定模块304在分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸时：根据各个人脸图像序列对应的时间信息与所述语音频谱数据对应的时间信息，匹配出人脸持续出现时间与所述语音频谱数据的持续时间一致的人脸图像序列，根据匹配结果从所述多个人脸中确定出目标人脸。
76.可选地，本技术任意实施例中，处理确定模块304在分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸时：对所述多个人脸图像序列中包含的多个人脸的人脸图像部分进行特征提取，获取对应的多个人脸特征；并且，对所述语音频谱数据进行特征提取，获取对应的声纹特征；根据预存的人脸特征与声纹特征的对应关系，将所述多个人脸特征中，与所述声纹特征存在对应关系的人
脸特征确定为目标人脸特征；将所述目标人脸特征对应的人脸确定为目标人脸。
77.可选地，本技术任意实施例中，所述预存的人脸特征与声纹特征的对应关系为预存的人脸特征的人脸标识与声纹特征的声纹标识的对应关系；处理确定模块304在根据预存的人脸特征与声纹特征的对应关系，将所述多个人脸特征中，与所述声纹特征存在对应关系的人脸特征确定为目标人脸特征时：从所述多个人脸特征中，确定存在有对应的人脸标识的人脸特征；并且，确定所述声纹特征对应的声纹标识；根据所述对应关系，将与所述声纹标识具有对应关系的人脸标识对应的人脸特征，确定为目标人脸特征。
78.可选地，本技术任意实施例中，所述频谱掩码获取模块306，用于对所述人脸特征和所述声纹特征进行特征融合，获得声纹人脸融合特征；并且，对所述语音频谱数据进行特征提取，获得频谱特征；以所述声纹人脸融合特征和所述频谱特征为输入，利用预先训练完成的神经网络模型获得频谱掩码概率图，其中，所述频谱掩码概率图中的每个概率值用于指示所述语音频谱数据中对应位置的数据为噪音数据的概率。
79.可选地，本技术任意实施例中，所述语音增强模块308，用于将所述频谱掩码与所述语音频谱数据进行矩阵乘法运算，根据运算结果获得增强语音频谱数据；对所述增强语音频谱数据进行逆傅里叶变换，获得对应的增强语音数据。
80.可选地，本技术任意实施例中，所述频谱掩码获取模块306在获取所述目标人脸对应的人脸特征及声纹特征时：对所述目标人脸进行人脸识别，根据人脸识别结果获得所述目标人脸的人脸标识；确定与所述人脸标识相对应的声纹标识，获取所述声纹标识对应的声纹特征。
81.可选地，数据获取模块302，用于通过多模态智能语音设备获取包含有多个人脸的人脸图像数据和语音频谱数据。
82.本实施例的语音数据处理装置用于实现前述多个方法实施例中相应的语音数据处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的语音数据处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。
83.实施例四
84.参照图4，示出了根据本技术实施例四的一种智能语音设备的结构示意图，本技术具体实施例并不对智能语音设备的具体实现做限定。
85.如图4所示，该智能语音设备可以包括：处理器(processor)402、语音采集装置404(如麦克风)、图像采集装置406(如摄像头)。还可包括存储器(memory)408、以及通信总线410。
86.其中：
87.处理器402、语音采集装置404、图像采集装置406、以及存储器408通过通信总线410完成相互间的通信。
88.可选地，还可以包括通信接口412，用于与其它电子设备或服务器进行通信。
89.语音采集装置404，用于采集语音数据。
90.图像采集装置406，用于采集人脸图像。
91.处理器402，用于执行程序414，具体可以执行上述语音数据处理方法实施例中的相关步骤。
92.具体地，程序414可以包括程序代码，该程序代码包括计算机操作指令。
93.处理器402可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本技术实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
94.存储器408，用于存放程序414。存储器408可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
95.程序414具体可以用于使得处理器402执行以下操作：接收所述图像采集装置采集的包含多个人脸的人脸图像数据和所述语音采集装置采集的语音数据并转换为语音频谱数据；并且，基于所述人脸图像数据和所述语音频谱数据，对所述人脸图像数据和所述语音频谱数据进行处理，以确定出目标人脸；获取所述目标人脸对应的人脸特征及声纹特征，并基于所述人脸特征、所述声纹特征及所述语音频谱数据，确定用于指示所述语音频谱数据中的噪音数据的频谱掩码；根据所述频谱掩码，对所述语音频谱数据进行语音增强处理。
96.在一种可选的实施方式中，程序414还用于使得处理器402在对所述人脸图像数据和所述语音频谱数据进行处理，以确定出目标人脸时，执行以下操作：对预设时间段内的多个所述人脸图像数据进行人脸检测，根据人脸检测结果从多个所述人脸图像数据中，截取所述多个人脸中各个人脸对应的人脸图像部分；按照图像采集时序对截取的各个人脸的人脸图像部分进行排序，生成多个人脸图像序列；分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸。
97.在一种可选的实施方式中，程序414还用于使得处理器402在分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸时，执行以下操作：根据各个人脸图像序列对应的时间信息与所述语音频谱数据对应的时间信息，匹配出人脸持续出现时间与所述语音频谱数据的持续时间一致的人脸图像序列，根据匹配结果从所述多个人脸中确定出目标人脸。
98.在一种可选的实施方式中，程序414还用于使得处理器402在分别对所述多个人脸图像序列与所述语音频谱数据进行匹配，根据匹配结果从所述多个人脸中确定出目标人脸时，执行以下操作：对所述多个人脸图像序列中包含的多个人脸的人脸图像部分进行特征提取，获取对应的多个人脸特征；并且，对所述语音频谱数据进行特征提取，获取对应的声纹特征；根据预存的人脸特征与声纹特征的对应关系，将所述多个人脸特征中，与所述声纹特征存在对应关系的人脸特征确定为目标人脸特征；将所述目标人脸特征对应的人脸确定为目标人脸。
99.在一种可选的实施方式中，所述预存的人脸特征与声纹特征的对应关系为预存的人脸特征的人脸标识与声纹特征的声纹标识的对应关系；程序414还用于使得处理器402在根据预存的人脸特征与声纹特征的对应关系，将所述多个人脸特征中，与所述声纹特征存在对应关系的人脸特征确定为目标人脸特征时，执行以下操作：从所述多个人脸特征中，确定存在有对应的人脸标识的人脸特征；并且，确定所述声纹特征对应的声纹标识；根据所述对应关系，将与所述声纹标识具有对应关系的人脸标识对应的人脸特征，确定为目标人脸特征。
100.在一种可选的实施方式中，程序414还用于使得处理器402在基于所述人脸特征、
所述声纹特征及所述语音频谱数据，确定用于指示所述语音频谱数据中的噪音数据的频谱掩码时，执行以下操作：对所述人脸特征和所述声纹特征进行特征融合，获得声纹人脸融合特征；并且，对所述语音频谱数据进行特征提取，获得频谱特征；以所述声纹人脸融合特征和所述频谱特征为输入，利用预先训练完成的神经网络模型获得频谱掩码概率图，其中，所述频谱掩码概率图中的每个概率值用于指示所述语音频谱数据中对应位置的数据为噪音数据的概率。
101.在一种可选的实施方式中，程序414还用于使得处理器402在根据所述频谱掩码，对所述语音频谱数据进行语音增强处理时，执行以下操作：将所述频谱掩码与所述语音频谱数据进行矩阵乘法运算，根据运算结果获得增强语音频谱数据；对所述增强语音频谱数据进行逆傅里叶变换，获得对应的增强语音数据。
102.在一种可选的实施方式中，程序414还用于使得处理器402在获取所述目标人脸对应的人脸特征及声纹特征时，执行以下操作：对所述目标人脸进行人脸识别，根据人脸识别结果获得所述目标人脸的人脸标识；确定与所述人脸标识相对应的声纹标识，获取所述声纹标识对应的声纹特征。
103.在一种可选的实施方式中，程序414还用于使得处理器402在获取包含有多个人脸的人脸图像数据和语音频谱数据时，执行以下操作：通过多模态智能语音设备获取包含有多个人脸的人脸图像数据和语音频谱数据。
104.程序414中各步骤的具体实现可以参见上述语音数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
105.通过本实施例的智能语音设备，在人多嘈杂环境下使用智能语音设备时，将语音与图像相结合，首先基于人脸图像数据和语音频谱数据融合后的数据确定出向智能语音设备发出语音指令的目标用户，即目标人脸对应的用户；进而，基于目标人脸对应的人脸特征、声纹特征和语音频谱数据，获得频谱掩码；再通过频谱掩码进行语音增强。因即使在嘈杂环境下，也不会对人脸图像数据产生影响，仍可较为准确地确定出目标用户，在此基础上，确定出可用于指示非该目标用户的语音的噪音数据的频谱掩码，通过该频谱掩码尽可能地将非该目标用户的语音过滤掉，从而达到对目标用户的语音进行增强的效果。由此，使得即使在嘈杂环境下使用智能语音设备，用户也能与智能语音设备进行正常交互，提升用户体验。
106.需要指出，根据实施的需要，可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本技术实施例的目的。
107.上述根据本技术实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，
ram、rom、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的语音数据处理方法。此外，当通用计算机访问用于实现在此示出的语音数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的语音数据处理方法的专用计算机。
108.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术实施例的范围。
109.以上实施方式仅用于说明本技术实施例，而并非对本技术实施例的限制，有关技术领域的普通技术人员，在不脱离本技术实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本技术实施例的范畴，本技术实施例的专利保护范围应由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：车载语音处理系统及方法、存储介质、终端与流程

语音数据处理方法、装置、智能设备及计算机存储介质与流程

相关文献

最热文献