基于场景识别的语音处理方法及其装置、介质和系统与流程

2021-07-16 21:13:00 来源：中国专利 TAG：人工智能介质语音识别装置

1.本申请涉及人工智能领域，特别涉及一种基于场景识别的语音处理方法及其装置、介质和系统。

背景技术：

2.在利用录像设备进行录像、视频直播或视频通话时，因录像设备所处的环境不同，麦克风采集到的环境噪声差异较大，对目标声音的影响也不同。但是，目前业界对录像设备采集的音频的降噪，仅仅基于音频或者图像进行场景判断，对于不同的场景，例如：室内，演播厅，马路上，车里，海边，餐厅等，声音种类存在随机性和偶然性，很难准确识别声音种类，且容易造成对场景的误判，准确率低，用户体验较差。

技术实现要素：

3.本申请实施例提供了一种基于场景识别的语音处理方法及其装置、介质和系统。
4.第一方面，本申请实施例提供了一种于场景识别的语音处理方法，所述方法包括：
5.在检测到所述电子设备进行视频录入的情况下，获取当前录入的视频中的图像数据和音频数据；对所述图像数据和音频数据进行特征提取，得到所述图像数据的图像特征和所述音频数据的音频特征；对提取出来的所述图像特征和音频特征进行识别，识别出所述电子设备当前录入视频所处的场景类别；基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据。如此，基于图像特征和音频特征一起进行识别，识别出的场景类型更加准确，避免仅仅通过图像特征或语音特征进行识别而造成的场景误判，提交场景识别准确率。另外，根据识别出的场景类别，对电子设备实时录入的视频中的音频数据进行处理，可以达到每个场景的最优体验，避免对不同场景下的音频数据都进行同样的处理，而出现的损伤或误处理问题。
6.在上述第一方面的一种可能的实现中，上述方法还包括：所述对所述图像数据和音频数据进行特征提取，得到所述图像数据的图像特征和所述音频数据的音频特征，包括：
7.对所述图像数据进行结构化处理得到所述图像数据的图像特征，并且对所述音频数据进行傅里叶变换得到所述音频数据的音频特征。在一些实施例中，可以通过三维卷积神经网络模型对样本图像进行特征提取。在一些实施例中，还可以在对音频数据进行傅里叶变换之前对音频数据进行预加重、分帧等预处理。
8.在上述第一方面的一种可能的实现中，上述方法还包括：所述基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据，包括：
9.基于识别出的场景类别，选择与所述场景类别对应的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式；基于选择出的降噪处理算法、均衡处理方式、自动增益控制方式和动态范围控制方式对所述电子设备实时录入的视频中的音频数据进行处理；输出处理后的音频数据和对应的图像数据。在一些实施例中，当识别出场景类别
后，可以根据需要选择与场景类别对应的上述处理方法中的其中一种或几种。
10.在上述第一方面的一种可能的实现中，上述方法还包括：所述电子设备进行视频录入的情况包括：视频拍摄、视频直播或视频通话。
11.在上述第一方面的一种可能的实现中，上述方法还包括：确定出所述电子设备进行视频录入的情况为视频直播或者视频通话；
12.基于当前录入的视频中的音频数据，识别出进行视频直播或者视频通话的用户的人声；并且
13.所述基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据，包括：
14.基于识别出的场景类别和所述用户的人声，对所述电子设备实时录入的视频中的音频中的人声进行增强处理，对所述音频中人声以外的声音做降噪处理，并输出处理后的音频数据和对应的图像数据。如此当用户在不同的场景中进行视频拍摄、视频直播或视频通话时，可以针对不同的场景适配不同的人声增强算法，还可以对不同场景中的噪声适配不同的降噪处理方法，如此可以提高信噪比，提高用户体验。
15.在上述第一方面的一种可能的实现中，上述方法还包括：所述基于当前录入的视频中的音频数据，识别出进行视频直播或者视频通话的用户的人声，包括：
16.基于当前录入的视频中的音频数据，通过信号处理和nn网络的方法中的至少一种，识别出进行视频直播或者视频通话的用户的人声。由于在视频录入的时候，音频的随机性较大，通过上述方法进行人声识别，可以避免将视频直播或视频通话场景中其他的人声(例如过往行人的声音，围观者的声音等)误判为当前正在进行视频直播或视频通话的用户的人声，提高人声识别准确率。
17.在上述第一方面的一种可能的实现中，上述方法还包括：基于当前录入的视频中的图像数据，识别出进行视频直播或者视频通话的用户的人像；
18.所述用户的人像是通过以下方式识别出来的：
19.对当前录入的视频中的图像数据进行识别；
20.当识别出所述图像数据中对应一个人像的尺寸大于预设阈值时，识别出该人像为进行视频直播或者视频通话的用户的人像。如此，可以避免将拍摄场景中的行人误判为当前在进行视频直播或视频通话的用户，提高人像识别准确率。
21.第二方面，本申请实施例提供了一种于场景识别的语音处理方法，所述方法包括：
22.获取待处理视频；对所述待处理视频中的至少部分视频中的图像数据和音频数据进行特征提取，以得到所述图像数据的图像特征和音频数据的音频特征；对提取出来的所述图像特征和音频特征进行识别，识别出所述待处理视频中场景的场景类别；基于识别出的场景类别，对所述待处理视频中的音频数据进行处理。如此，对于已有的视频(例如通过网络下载的视频或通过手机等电子设备录制好的视频)，可以通过对该视频中的场景进行识别，针对不同的场景选择对应的音频后处理方法，以使用户在观看视频的时候，获取最优的视听体验。
23.第三方面，本申请实施例提供了一种基于场景识别的语音处理装置，所述装置包括：
24.检测模块，用于在检测到所述电子设备进行视频录入的情况下，获取当前录入的
视频中的图像数据和音频数据；
25.第一特征提取模块，用于对所述图像数据和音频数据进行特征提取，得到所述图像数据的图像特征和所述音频数据的音频特征；
26.第一识别模块，用于对提取出来的所述图像特征和音频特征进行识别，确定出所述电子设备当前录入视频所处的场景类别；
27.第一音频处理模块，用于基于识别出的场景类别，对所述电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据。
28.第四方面，本申请实施例提供了一种基于场景识别的语音处理装置，所述装置包括：
29.获取模块，用于获取待处理视频；
30.第二特征提取模块，用于对所述待处理的视频中的至少部分视频中的图像数据和音频数据进行特征提取，以得到所述图像数据的图像特征和音频数据的音频特征；
31.第二识别模块，用于对提取出来的所述图像特征和音频特征进行识别，识别出所述待处理的视频中场景的场景类别；
32.第二音频处理模块，用于基于识别出的场景类别，对所述待处理视频中的音频数据进行处理。
33.第五方面，本申请实施例提供一种机器可读介质，所述机器可读介质上存储有指令，该指令在机器上执行时使机器执行上述第一方面及第二方面可能的各实现中的基于场景识别的语音处理方法。
34.第六方面，本申请实施例提供一种系统，包括：
35.存储器，用于存储由系统的一个或多个处理器执行的指令，以及
36.处理器，是系统的处理器之一，用于执行上述第一方面及第二方面可能的各实现中的基于场景识别的语音处理方法。
附图说明
37.图1根据本申请的一些实施例，示出了一种语音处理场景；
38.图2a根据本申请的一些实施例，示出了一种采用样本图像特征对第一神经网络模型进行训练的流程图；
39.图2b根据本申请的一些实施例，示出了一种采用图2a所示的图像场景类别和样本音频特征对第二神经网络模型进行联合训练的流程图；
40.图2c根据本申请的一些实施例，示出了一种手机降噪的流程图；
41.图3根据本申请的一些实施例，示出了本申请提供的基于场景识别的语音处理方法的流程图；
42.图4根据本申请的一些实施例，示出了本申请提供的基于场景的语音处理方法应用于视频直播或视频通话时的流程图；
43.图5根据本申请的一些实施例，示出了一种基于场景识别的语音处理装置的结构示意图；
44.图6根据本申请的一些实施例，示出了另一种基于场景识别的语音处理装置的结构示意图；
45.图7根据本申请的一些实施例，示出了一种手机的结构示意图；
46.图8根据本申请的一些实施例，示出了一种系统的框图；
47.图9根据本申请一些实施例，示出了一种片上系统(soc)的框图。
具体实施方式
48.本申请的说明性实施例包括但不限于基于场景识别的语音处理方法及其装置、介质和系统。
49.可以理解，如本文所使用的，术语“模块”可以指代或者包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。
50.可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。
51.下面将结合附图对本申请的实施例作进一步地详细描述。
52.根据本申请的一些实施例公开了一种语音处理场景100。图1示出了该场景的示意图。如图1所示，当用户使用手机10进行录像时，通过录像内容(例如通过手机的摄像头采集到的图像数据和麦克风采集到的音频数据)可以准确判断出用户所处的场景类别，例如判断出用户处于海边、餐厅、音乐厅、会议室、车里、马路上等不同的场景中的哪个场景。由于手机在录像时，因所处的环境不同，麦克风采集到的环境噪声差异较大，对用户感兴趣的声音的影响也不同，若对音频降噪处理不合理，会影响用户体验。因此可以针对不同的场景类别，适配不同的降噪处理算法。例如，当用户录像所在的场景为海边时，风声或海浪声较大，可以通过降噪处理算法1对风声和海浪声进行抑制，得到经由降噪处理后的音频1，以提升目标声音的信噪比；当用户录像所在的场景为餐厅时，餐具碰撞的声音和周围用餐人员的声音比较嘈杂，可以通过降噪处理算法2对餐具碰撞的声音和周围用餐人员的声音进行降噪，得到经由降噪处理后的音频2；当用户录像所在的场景为音乐厅时，为了更好的欣赏乐器或表演者的声音，可以通过降噪处理算法3对台下观众交头接耳的声音及接打电话的声音等进行降噪，得到经由降噪处理后的音频3；当用户录像所在的场景为会议室时，为了使参会者清晰地听到会上讲述者的声音，可以通过降噪处理算法4对会议室中可能存在的窃窃私语的声音、咳嗽声、会议室周围建筑施工的声音等等进行降噪，得到经由降噪处理后的音频4。从而达到对应场景的最佳音频效果，提升用户体验。
53.可以理解，图1所示的语音处理场景100仅仅是示例性的，并非限制性的，在其他实施例中，用户所处的环境还可以是公园、商场等场景，在此不再一一列举。
54.可以理解，图1所示的实施例，是以用户通过手机进行录像为例，对本申请实施例的基于场景识别的语音处理方法进行说明，在其他实施例中，还可以将本申请的基于场景识别的语音处理方法用于当用户使用其他具有录像或具有图像采集和音频采集功能的电子设备进行视频直播或视频通话等应用中。其中，电子设备包括但不限于摄像机、平板电脑、台式计算机、可穿戴智能设备、增强现实设备、超级移动个人计算机(ultra-mobile personal computer，umpc)或者个人数字助理(personal digital assistant，pda)等。
55.下面结合图1和图2，详细介绍在一些实施例中，采用本申请的基于场景识别的语音处理方法对音频进行处理的过程。
56.1)场景识别模型的训练
57.在图2a所示的实施例中，对采集到的大量的样本图像数据进行特征提取(212)，其中，大量的样本图像可以为通过手机的摄像头采集的大量的不同场景下的图像，通过对大量的样本图像中的物体进行特征提取，得到对应不同场景下的物体的样本图像特征。例如，当摄像头拍摄的视频场景为在某条马路上时，则可以对该场景中的车辆、路灯、马路等物体进行特征提取，得到对应马路场景中的车辆、路灯、马路等物体的特征数据；当摄像头拍摄的视频场景为某海边时，则可以对该场景中的海水、沙滩、船只等物体进行特征提取，得到对应海边场景中的海水、沙滩、船只等物体的特征；当摄像头拍摄的的视频场景为某个音乐厅时，则可以对该场景中的乐器、舞台、看台上的座位等物体进行特征提取，得到对应该场景中的乐器、舞台、看台上的座位等的特征。
58.可以理解，对样本图像进行特征提取，不局限于对物体的特征进行提取，还可以包括对样本图像的空间布局和背景等(例如天空、草地、森林等)进行特征提取。
59.在一些实施例中，可以通过三维卷积神经网络模型对样本图像进行特征提取，同时在时间和空间维度上进行卷积操作，以在获取样本图像中的每一帧图像的视觉特征的同时，获取相邻图像帧随时间推移的关联性，能够充分提取样本图像的特征信息。
60.将提取的样本图像特征数据输入第一神经网络模型进行训练(214)。在提取出样本图像的特征之后，将样本图像的特征对第一神经网络模型进行训练，将第一神经网络模型的输出与样本图像特征的期望结果进行对比，直到第一神经网络模型的输出与样本图像特征的期望结果的差值小于一定的阈值，从而完成对第一神经网络模型的训练。
61.其中，第一神经网络模型可以为任意一种人工神经网络模型，例如cnn(convolutional neural network，卷积神经网络)、dnn(deep neural networks，深度神经网络)以及rnn(recurrent neural networks，循环神经网络)、bnn(binary neural network，二值神经网络)等。
62.当第一神经网络模型训练完成后，输出对应多个不同场景的图像场景类别(216)。可以理解，在训练之前，可以对不同的拍摄场景进行分类，得到不同的拍摄场景对应的图像场景类别，将每个拍摄场景中的图像特征和图像场景类别一一对应，例如拍摄场景中有行驶的车辆，交通信号灯等物体时，可以把车辆、交通信号灯等物体的特征数据和马路场景对应起来，将马路场景中的车辆、交通信号灯等物体的特征数据输入第一神经网络模型进行训练，使得输出能够表征马路场景的场景类别。又例如拍摄场景中有大量的餐具、用餐人员等时，可以把餐具、用餐人员等的特征数据和餐厅场景对应起来，将餐具、用餐人员等的特征数据输入第一神经网络模型进行训练，使得输出能够表征餐厅场景的图像场景类别。
63.参考图2b，在得到利用第一神经网络模型输出的图像场景类别后，为了避免仅仅基于图像进行场景识别带来的误判的情况，可以结合图像场景类别和从该场景中采集的音频信号对第二神经网络模型进行联合训练，以降低场景误判率。具体地，利用图像场景类别和音频对第二神经网络模型进行联合训练的过程如下：
64.对采集到的大量的样本音频特征进行特征提取(222)。在一些实施例中，在对采集到的大量的样本音频信号进行分析和处理之前，可以对其进行预加重、分帧、加窗等预处理
操作，以保证后续音频处理得到的信号更均匀、平滑，提高音频处理质量。为了提取音频信号中的各个频率成分的音频信号的特征，可以对加窗后的音频信号进行傅里叶变换，获取音频信号的频谱和相位等样本音频特征。例如，对图1中所示的通过手机的麦克风采集的音乐厅中的各种音频分量(例如钢琴声、观众咳嗽声、鼓掌声等等)进行分帧处理，加20ms汉明窗，取10ms帧移，并逐帧进行傅里叶变换，获取各个音频分量的频谱和相位等信息。
65.将经由第一神经网络模型输出的多个图像场景类别和与每个图像场景类别对应的样本音频特征输入第二神经网络模型，对第二神经网络模型进行训练(224)。即将经由图2a所示的第一神经网络模型训练输出的多个图像场景类别和对应每个场景类别的音频信号提出的音频特征进行联合训练。例如，将对图1所示的通过手机的麦克风采集的音乐厅中的各种音频分量(例如钢琴声、观众咳嗽声、鼓掌声等等)提取的音频特征和表征音乐厅这个场景类别的数据(例如可以是按照预设的规则设定的场景标志)，对目标神经网络进行训练，将第二神经网络模型的输出与期望结果进行对比，直到第二神经网络模型的输出与期望结果的差值小于一定的阈值，从而完成对第二神经网络模型的训练。如此，通过先对图像特征进行训练得到场景类别，再结合音频特征和场景类别进行联合训练，生成最终的场景类别，可以大大降低场景判断的误判率。
66.其中，第二神经网络模型可以为任意一种人工神经网络模型，例如cnn(convolutional neural network，卷积神经网络)、dnn(deep neural networks，深度神经网络)以及rnn(recurrent neural networks，循环神经网络)、bnn(binary neural network，二值神经网络)等。
67.需要注意的是，在对第二神经网络模型进行训练时，输入的音频特征所属的场景类别和输入的图像场景类别一一对应，例如输入的音频特征所属的场景为a，输入的图像场景类别为a，则第二神经网络模型训练完成后输出的场景类别也是a。
68.在将经由图2a所示的第一神经网络模型训练输出的多个场景类别和对应每个场景类别的音频信号提出的音频特征进行联合训练后，输出对应多个不同场景的场景类别(226)。例如，在图1所示的实施例中，在海边拍摄的视频b，提取视频b的图像特征b1和音频特征b2，基于上述的训练，在对图像特征b1进行训练后，得到的场景类别为b，然后把得到的场景类别b和音频特征b2输入第二神经网络模型进行联合训练，希望第二神经网络模型在训练完成后输出的场景类别也是b。
69.可以理解，上述将样本图像特征输入第一神经网络模型进行训练，得到对应多个不同场景的图像场景类别，然后再将经由第一神经网络模型输出的多个图像场景类别和与每个图像场景类别对应的样本音频特征输入第二神经网络模型，对第二神经网络模型进行训练，以得到对应多个不同场景的最终的场景类别的描述仅仅是示例性的，并非限制性的。在一些实施例中，还可以将样本图像特征和样本音频特征同时输入同一个神经网络模型，对该模型进行联合训练，以得到对应多个不同场景的场景类别。
70.2)在识别出待识别场景后，基于该场景进行降噪等处理
71.在一些实施例中，上述第一神经网络模型和第二神经网络模型可以在服务器或计算机中进行训练，当上述第一神经网络模型和第二神经网络模型训练完成后，可以将训练好的神经网络模型移植到手机中，当用户使用手机进行视频拍摄、视频直播或视频通话时，可以通过移植到手机中的神经网络模型对用户当前进行视频录入的场景进行识别，在识别
出待识别场景后，基于该场景进行降噪等处理。
72.具体地，在图2c所示的实施例中，当用户使用手机进行视频拍摄、视频直播或视频通话时，在检测到手机进行视频录入的情况下，根据录入视频中的图像数据和音频数据对应的特征图像特征和音频特征，通过移植到手机中的神经网络模型进行识别，输出最终的场景识别标志(232)。其中，场景识别标志可以为预先设定的以区分不同场景的符号等标志。例如，海边对应的场景识别标志为s1，餐厅对应的场景识别标志为s2，音乐厅对应的场景识别标志为s3，会议室对应的场景识别标志为s4。
73.然后可以基于上述场景标志选择对应的降噪处理算法(234)，基于该降噪处理算法对手机实时录入的视频中的音频数据进行处理(236)。例如，在图1所示的实施例中，当通过移植到手机中的神经网络模型进行识别出手机当前录入视频的场景为海边时，可以选择对应的降噪处理算法1，以抑制风噪。当通过移植到手机中的神经网络模型进行识别出手机当前录入视频的场景为餐厅时，可以选择对应的降噪处理算法2，对餐厅中的噪音分量进行强抑制。当通过移植到手机中的神经网络模型进行识别出手机当前录入视频的场景为音乐厅时，为了对演奏的音乐进行保真，可以选择放大从音乐厅采集的音频中的高频分量，减小低频分量。当通过移植到手机中的神经网络模型进行识别出手机当前录入视频的场景为会议室(比较安静)时，可以选择对应的降噪处理算法4，对会议室中的音频进行弱降噪，对与会的发言人员的声音进行保真。如此，本申请基于场景识别的的语音处理方法可以针对不同的场景自适应适配不同的降噪处理方法，从而针对不同场景能得到较好的音频处理效果，避免一套降噪处理方法要兼顾多个场景的处理而出现的损伤和误处理，提升用户体验。
74.在一些实施例中，针对音频的降噪处理方法可以采用数字信号处理方法，对手机实时录入的音频数据进行降噪处理。在一些实施例中，可以针对不同的场景，采用自适应滤波技术滤除音频信号中的噪声，例如，采用最小均方(least mean square，简称lms)自适应滤波技术进行音频降噪。
75.在图2c所示的实施例中，还可以对经由降噪处理算法处理后的音频数据进行均衡(equalizer，简称eq)处理(238)、自动增益控制(automatic gain control，简称agc)处理(240)和动态范围控制(dynamic range control，简称drc)处理(242)，并输出处理后的音频信号。其中，eq是通过对音频数据中的某一个或多个频段进行增益或衰减，达到调整音色的目的。针对不同的场景可以将eq中的频率、增益等参数进行调整，以对音频中各频段的分量进行优化。agc通过调整不同场景对应的音频数据中的各个频段的分量的响度增益因子和增益权重，可以调整目标声音的信号大小，达到最佳听感响度。drc通过对不同场景下的音频的幅度提供压缩和放大能力，可以使声音听起来更柔和或者更大声。
76.下面详细介绍手机10采用本申请的基于场景识别的语音处理技术，对手机10接收到的音频信号进行实时降噪处理的详细过程。
77.例如，用户在海边使用手机10拍摄视频，在拍摄的过程中，对拍摄到的视频中的音频数据进行降噪的过程如下：
78.1)获取手机10实时采集的视频中的图像数据和音频数据。例如，用户在海边用手机10进行录像，其中图像数据是通过手机10的摄像头进行拍摄从而获得的，音频数据是通过手机10的麦克风采集的。
79.2)对上述图像数据和音频数据进行特征提取，得到图像数据的特征和音频数据的
音频特征，其中，图像数据对应的图像特征是通过三维卷积神经网络模型进行提取的，音频数据对应的音频特征是采用前述傅里叶变换的方法进行提取的。
80.3)对提取出来的图像特征和音频特征进行识别，确定手机10当前在拍摄的场景为海边。通过移植到手机10中的已经训练好的神经网络模型对前述图像特征和音频特征进行识别，识别出用户拍摄视频的场景为海边。
81.4)选择对应海边场景的降噪处理算法1，以抑制风噪。并且可以对经过降噪处理算法1降噪后的音频适配海边场景下的均衡处理方式、自动增益控制方式和动态范围控制方式，对抑制风噪后的音频进行调整。如此，当用户在海边使用手机10进行拍摄视频时，拍摄的视频中的音频就没有很强的风噪，拍摄的音频效果就比较清晰悦耳，提升用户体验。
82.又例如，用户在餐厅使用手机10拍摄视频，在拍摄的过程中，对拍摄到的视频中的音频数据进行实时降噪的过程如下：
83.1)获取手机10实时采集的视频中的图像数据和音频数据。例如，用户在餐厅中用手机10进行录像，其中，图像数据是通过手机10的摄像头进行拍摄从而获得的，音频数据是通过手机10的麦克风采集的。
84.2)对上述图像数据和音频数据进行特征提取，得到图像数据对应的图像特征和音频数据对应的音频特征，图像数据的图像特征是通过三维卷积神经网络模型进行提取的，音频特征是采用前述傅里叶变换的方法进行提取的。
85.3)对提取出来的图像特征和音频特征进行识别，确定手机10当前在拍摄的场景为餐厅。通过移植到手机10中的已经训练好的神经网络模型对前述提取的图像数据的图像特征和音频特征进行识别，识别出用户拍摄视频的场景为餐厅。
86.4)选择对应餐厅场景的降噪处理算法2，对餐厅中的噪声进行强降噪。并且可以对经过降噪处理算法2降噪后的音频适配餐厅场景下的均衡处理方式、自动增益控制方式和动态范围控制方式，对进行强降噪后的音频进行调整。如此，当用户在餐厅使用手机10进行拍摄视频时，拍摄的视频中的嘈杂的就餐人员和餐具碰撞的声音就能够被抑制掉，提升用户体验。
87.可以理解，上述对用户使用手机10在海边和餐厅场景下采用本申请的基于场景识别的语音处理技术进行视频拍摄的描述仅仅是示例性的，并非限制性的。
88.下面详细介绍用户使用手机10采用本申请的基于场景识别的语音处理技术进行视频直播时，对手机10当前接收到的音频中的噪声和当前进行直播的用户的人声进行处理的详细过程。
89.1)确定出手机10进行视频录入的情况为视频直播。当检测到手机10的直播软件(例如抖音、快手、火山小视频等)被打开时，可以确定手机10当前要进行视频直播。
90.由于当用户在使用手机10进行视频直播时，不同场景下的环境背景噪声组成不同，对直播的影响也不同，例如当用户在餐厅中进行直播时，餐厅的噪声较强，若对餐厅的噪声进行强降噪，用户在直播时，声音会更加明显、清晰。当用户在海边进行直播时，海边的风声较大，若对风声进行强降噪，则同样会使直播的声音效果更好。因此，在用户在进行视频直播时，可以通过手机10当前录入的该场景下的视频中的图像数据和音频数据，以便后续进行对当前直播的场景进行识别，以及对当前进行直播的用户的人声、人像进行识别。
91.2)基于手机10当前录入的视频中的图像数据和音频数据，通过对图像数据和音频
数据进行特征提取后(对图像数据和音频数据进行特征提取的具体方法可以参考上述对图2a和图2b中对图像数据和音频数据进行特征提取的方法的描述，详细描述请参见上文，在此不再赘述)，得到图像特征和音频特征，通过手机10中移植的已训练好的神经网络模型对该图像特征和音频特征进行识别，确定出当前用户使用手机10进行视频直播的场景类别。并且基于前述图像特征和音频特征分别对当前进行视频直播的人像和人声进行识别(例如通过移植到手机10中的神经网络模型进行识别)，在一些实施例中，可以基于当前录入的视频中的音频数据，通过信号处理和nn网络的方法中的至少一种，识别出进行视频直播或者视频通话的用户的人声。当识别出图像数据中对应一个人像的尺寸大于预设的阈值时，识别出该人像为进行视频直播或者视频通话的用户的人像。
92.此处需要说明的是，当用户进行视频直播时，之所以设定阈值，是为了使用户的人像和用户在进行视频直播时的场景中其他行人的人像进行区分，防止误判。
93.如此，可以基于识别出的场景类别和用户的人声，对手机10实时录入的视频中的音频中的人声进行增强处理，对音频中人声以外的声音做降噪等处理，并输出处理后的音频数据和对应的图像数据，如此可以提高视频直播时人声的信噪比，达到较好的直播效果。例如在图1所示的实施例中，识别出视频直播的对应的场景为海边时，可以选择对应的降噪处理算法1，以抑制风噪。当识别出视频直播的对应的场景为餐厅时，可以选择对应的降噪处理算法2，对餐厅中的噪音分量进行强抑制。以针对不同的场景对背景噪声做不同的处理，达到较好的背景声音处理效果。
94.在一些实施例中，若进行视频直播的用户直播的内容是唱歌，为了使其歌声更加优美，还可以采用eq对其音频中的某一个或多个频段进行增益或衰减，以调整音色，或通过drc对其声音的幅度进行放大或压缩，使其歌声听起来较清晰或更柔和。
95.以上所述为对手机10接收到的音频信号进行实时降噪处理的详细过程。可以理解，在一些实施例中，还可以采用本申请提供的基于场景识别的语音处理方法对已有的一段视频中的音频进行降噪处理，例如，用手机10等具备录像功能的电子设备录好的视频片段、从网络上下载的视频片段以及通过监控摄像头摄制的监控视频等。
96.下面以对手机10录好的视频片段为例，详细介绍采用本申请提供的基于场景识别的语音处理方法对一录好的视频片段中的音频进行降噪处理的过程。
97.例如，用户在马路边使用手机10录制的时长为3秒钟的视频片段，对该3秒钟的视频片段中的音频数据进行降噪的过程如下：
98.1)对该3秒钟的视频片段中的图像数据和音频数据进行特征提取，得到图像数据的特征和音频数据的音频特征，其中，图像数据对应的图像特征可以通过三维卷积神经网络模型进行提取，音频数据对应的音频特征可以采用前述傅里叶变换的方法进行提取。
99.2)对提取出来的图像特征和音频特征进行识别，通过移植到手机10中的已经训练好的神经网络模型对前述图像特征和音频特征进行识别，识别出该视频片段是在马路边拍摄的。
100.3)选择对应马路场景的降噪处理算法，以抑制过往车辆的鸣笛声、发动机的轰鸣声等比较刺耳且嘈杂的噪声。并且可以对经过降噪处理后的音频适配马路场景下的均衡处理方式、自动增益控制方式和动态范围控制方式，对已经抑制掉车辆的鸣笛声、发动机的轰鸣声的音频进行调整。如此，当用户观看此段视频时，没有车辆的鸣笛声、发动机的轰鸣声
等噪声，播放的视频中用户感兴趣的音频听起来较为清晰、舒服，提升用户体验。
101.下面结合图1所示的语音处理场景，对本申请实施例提供的基于场景识别的语音处理方法的流程进行详细介绍，如图3所示，具体地，包括：
102.1)在检测到电子设备进行视频录入的情况下，获取当前录入的视频中的图像数据和音频数据(302)。可以理解，视频中的图像数据和音频数据为在同一场景下采集到的。
103.2)对图像数据和音频数据进行特征提取，得到图像数据的图像特征和音频数据的音频特征(304)。可以采用与上述对图2a和图2b中对样本图像和样本音频进行特征提取的相同的方法对当前录入的视频中的图像数据和音频数据进行特征提取。详细描述请参见上文，在此不再赘述。
104.3)对提取出来的图像特征和音频特征进行识别，确定出电子设备当前录入视频所处的场景类别(306)。场景识别的具体过程请参见上述对图2c中的相关描述，在此不再赘述。
105.4)基于识别出的场景类别，对电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据(308)。其中，针对音频的降噪处理方法可以采用数字信号处理方法，对待处理的音频进行降噪处理。也可以针对不同的场景，可以采用自适应滤波技术滤除音频信号中的噪声，例如，采用最小均方(least mean square，简称lms)自适应滤波技术进行音频降噪。在对音频进行降噪处理后，还可以对经由降噪处理算法处理后的音频信号至少进行均衡处理、自动增益控制处理和动态范围控制处理中的至少一种处理，并输出处理后的音频信号。
106.下面结合图1所示的语音处理场景，对本申请实施例提供的基于场景识别的语音处理方法应用于视频直播或视频通话的处理过程进行详细介绍，如图4所示，具体地，包括：
107.1)确定出电子设备进行视频录入的情况为视频直播或者视频通话(402)。例如，当检测到手机10的直播软件(例如抖音、快手、火山小视频等)被打开时，可以确定手机10当前在进行视频直播。当检测到手机10的即时通信软件(如微信、qq、网络电话(voip)、skype，face time等)被打开时，可以确定手机10当前在进行视频通话。
108.2)对图像数据和音频数据进行特征提取，得到图像数据的图像特征和音频数据的音频特征(404)。其中，对图像数据和音频数据进行特征提取的具体方法可以参考上述对图2a和图2b中对样本图像和样本音频进行特征提取的方法。详细描述请参见上文，在此不再赘述。
109.3)对提取出来的图像特征和音频特征进行识别，确定出电子设备当前进行视频直播或视频通话的场景类别，并且识别出进行视频直播或视频通话的用户的人声(406)。其中，场景识别方法可以采用和上述图2c中相同的方法，用户人声识别的方法可以采用上述对手机10当前接收到的音频中的噪声和当前进行直播的用户的人声进行处理的详细介绍中相同的方法，详细描述请参见上文，在此不再赘述。
110.4)基于识别出的场景类别和用户的人声，对电子设备实时录入的视频中的音频中的人声进行增强处理，对音频中人声以外的声音做降噪处理，并输出处理后的音频数据和对应的图像数据(408)。如此可以提高视频直播或视频通话时人声的信噪比，提升用户体验。
111.图5根据本申请的一些实施例，提供了一种基于场景识别的语音处理装置500的结
构示意图。如图5所示，基于场景识别的语音处理装置500包括：
112.检测模块502，用于在检测到电子设备进行视频录入的情况下，获取当前录入的视频中的图像数据和音频数据。
113.特征提取模块504，用于对图像数据和音频数据进行特征提取，得到图像数据的图像特征和音频数据的音频特征。
114.识别模块506，用于对提取出来的图像特征和音频特征进行识别，确定出电子设备当前录入视频所处的场景类别。
115.音频处理模块508，用于基于识别出的场景类别，对电子设备实时录入的视频中的音频数据进行处理，并输出处理后的音频数据和对应的图像数据。
116.可以理解，图5所示的基于场景识别的语音处理装置500与本申请提供的基于场景识别的语音处理方法相对应，以上关于本申请提供的基于场景识别的语音处理方法的具体描述中的技术细节依然适用于图5所示的基于场景识别的语音处理装置500，具体描述请参见上文，在此不再赘述。
117.图6根据本申请的一些实施例，提供了一种基于场景识别的语音处理装置600的结构示意图。如图6所示，基于场景识别的语音处理装置600包括：
118.获取模块602，用于获取待处理视频数据。
119.第二特征提取模块604，用于对待处理视频中的至少部分视频中的图像数据和音频数据进行特征提取，以得到图像数据的图像特征和音频数据的音频特征。
120.第二识别模块606，用于对提取出来的图像特征和音频特征进行识别，识别出待处理视频中场景的场景类别。
121.第二音频处理模块608，用于基于识别出的场景类别，对待处理视频中的音频数据进行处理。
122.图6所示的基于场景识别的语音处理装置600与针对录好的视频采用本申请提供的基于场景识别的语音处理方法相对应，具体描述请参见上文，在此不再赘述。
123.图7根据本申请的一些实施例，示出了一种手机10的结构示意图。如图7所示的手机10可以是一台智能手机，包括处理器110、电源模块140、存储器180，移动通信模块130、无线通信模块120、传感器模块190、音频模块150、接口模块160、按键101以及触摸显示屏102等。图7所示的手机10还包括至少一个摄像头170，用以录入视频或采集图像。
124.可以理解的是，本发明实施例示意的结构并不构成对手机10的具体限定。在本申请另一些实施例中，手机10可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。
125.音频模块150用于将数字音频信号转换成模拟音频信号输出，或者将模拟音频输入转换为数字音频信号。音频模块150还可以用于对音频信号编码和解码。在一些实施例中，音频模块150可以设置于处理器110中，或将音频模块150的部分功能模块设置于处理器110中。在一些实施例中，音频模块150可以包括扬声器、听筒、模拟的麦克风或数字的麦克风(可实现拾音功能)以及耳机接口。在本申请实施例中，手机10可以通过麦克风接收不同场景中的音频信号，并且可通过手机的操作系统获取到麦克风采集到的不同场景下的音频数据，并保存在内存空间上。
126.摄像头170用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给isp(image signal processing，图像信号处理)转换成数字图像信号。手机10可以通过isp，摄像头170，视频编解码器，gpu(graphic processing unit，图形处理器)，触摸显示屏102以及应用处理器等实现拍摄功能。在本申请实施例中，手机10可以通过摄像头170在多个场景下进行录像，也可以通过打开摄像头170进行视频直播或视频通话等，并且还可以对通过摄像头170在多个不同场景下采集到的视频中的图像数据进行特征提取，以进行场景识别。
127.处理器110可以包括一个或多个处理单元，例如，可以包括中央处理器cpu(central processing unit)、图像处理器gpu(graphics processing unit)、数字信号处理器dsp、微处理器mcu(micro-programmed control unit)、ai(artificial intelligence，人工智能)处理器或可编程逻辑器件fpga(field programmable gate array)等的处理模块或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器110中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器110中的存储单元为高速缓冲存储器180，处理器110中可以内嵌已训练好的神经网络模型已进行场景识别、人脸人像识别等。
128.电源模块140可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器110。电源管理模块接收电源和/或充电管理模块的输入，为处理器110，显示屏102，摄像头170，及无线通信模块120等供电。
129.移动通信模块130可以包括但不限于天线、功率放大器、滤波器、lna(low noise amplify，低噪声放大器)等。移动通信模块130可以提供应用在手机10上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块130可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块130还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，移动通信模块130的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块130至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
130.无线通信模块120可以包括天线，并经由天线实现对电磁波的收发。无线通信模块120可以提供应用在手机10上的包括无线局域网(wireless localarea networks，wlan)(如无线保真(wireless fidelity，wi-fi)网络)，蓝牙(bluetooth，bt)，全球导航卫星系统(global navigation satellite system，gnss)，调频(frequency modulation，fm)，近距离无线通信技术(near field communication，nfc)，红外技术(infrared，ir)等无线通信的解决方案。手机10可以通过无线通信技术与网络以及其他设备进行通信。在一些实施例中，手机10的移动通信模块130和无线通信模块120也可以位于同一模块中。
131.触摸显示屏102用于显示人机交互界面、图像、视频等。传感器模块190可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。接口模块160包括外部存储器接口、通用串行总线(universal serial bus，usb)接口及用户标识模块(subscriber identification module，sim)卡接口等。
132.在一些实施例中，手机10还包括按键101、马达以及指示器等。其中，按键101可以包括音量键、开/关机键等。马达用于使手机10产生振动效果，例如在用户的手机10被呼叫的时候产生振动，以提示用户接听手机10来电。指示器可以包括激光指示器、射频指示器、led指示器等。
133.图8所示为根据本申请的一些实施例的系统800的框图。图8示意性地示出了根据多个实施例的示例系统800。在一些实施例中，系统800可以包括一个或多个处理器804，与处理器804中的至少一个连接的系统控制逻辑808，与系统控制逻辑808连接的系统内存812，与系统控制逻辑808连接的非易失性存储器(nvm)816，以及与系统控制逻辑808连接的网络接口820。
134.在一些实施例中，处理器804可以包括一个或多个单核或多核处理器。在一些实施例中，处理器804可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。
135.在一些实施例中，系统控制逻辑808可以包括任意合适的接口控制器，以向处理器804中的至少一个和/或与系统控制逻辑808通信的任意合适的设备或组件提供任意合适的接口。
136.在一些实施例中，系统控制逻辑808可以包括一个或多个存储器控制器，以提供连接到系统内存812的接口。系统内存812可以用于加载以及存储数据和/或指令。在一些实施例中系统800的内存812可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(dram)。
137.nvm/存储器816可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，nvm/存储器816可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如hdd(hard disk drive，硬盘驱动器)，cd(compact disc，光盘)驱动器，dvd(digital versatile disc，数字通用光盘)驱动器中的至少一个。
138.nvm/存储器816可以包括安装系统800的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口820通过网络访问nvm/存储816。
139.特别地，系统内存812和nvm/存储器816可以分别包括：指令824的暂时副本和永久副本。指令824可以包括：由处理器804中的至少一个执行时导致系统800实施如图3-5所示的方法的指令。在一些实施例中，指令824、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑808，网络接口820和/或处理器804中。
140.网络接口820可以包括收发器，用于为系统800提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口820可以集成于系统800的其他组件。例如，网络接口820可以集成于处理器804，系统内存812，nvm/存储器816，和具有指令的固件设备(未示出)中的至少一种，当处理器804中的至少一个执行所述指令时，系统800实现如图4所示的基于场景识别的语音处理方法。
141.网络接口820可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口820可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。
142.在一个实施例中，处理器804中的至少一个可以与用于系统控制逻辑808的一个或多个控制器的逻辑封装在一起，以形成系统封装(sip)。在一个实施例中，处理器804中的至少一个可以与用于系统控制逻辑808的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(soc)。
143.系统800可以进一步包括：输入/输出(i/o)设备832。i/o设备832可以包括用户界面，使得用户能够与系统800进行交互；外围组件接口的设计使得外围组件也能够与系统800交互。在一些实施例中，系统800还包括传感器，用于确定与系统800相关的环境条件和位置信息的至少一种。
144.根据本申请的实施例，图9示出了一种soc(system on chip，片上系统)900的框图。在图9中，相似的部件具有同样的附图标记。另外，虚线框是更先进的soc的可选特征。在图9中，soc 900包括：互连单元950，其被耦合至应用处理器910；系统代理单元970；总线控制器单元980；集成存储器控制器单元940；一组或一个或多个协处理器920，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(sram)单元930；直接存储器存取(dma)单元960。在一个实施例中，协处理器920包括专用处理器，诸如例如网络或通信处理器、压缩引擎、gpgpu、高吞吐量mic处理器、或嵌入式处理器等等。
145.本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
146.可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(dsp)、微控制器、专用集成电路(asic)或微处理器之类的处理器的任何系统。
147.程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。
148.在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(cd-roms)、磁光盘、只读存储器(rom)、随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
149.在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味
着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。
150.需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。
151.需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
152.虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于场景识别的语音处理方法及其装置、介质和系统与流程

相关文章

最热文献