音效增强方法、装置及系统与流程

2022-06-25 08:44:19 来源：中国专利 TAG：

1.本公开涉及音频处理领域，尤其涉及一种音效增强方法、装置及系统。

背景技术：

2.相关技术中，当前麦克风降噪和声音增强通常借助自身的算法和算力，麦克风自身算力有限，很难部署复杂的算法，因此音效较难提升到最佳状态；由于人心理、生理、精神状态的差异，发出的声音在音频、音色等方面也会有所不同，传统的声音增强方法在做处理时并未考虑这些，而是盲目的进行算法增强，因此发声效果必定不是最佳。

技术实现要素：

3.本公开提供一种音效增强方法、装置及系统，以至少解决相关技术中麦克风自身算力有限，很难部署复杂算法导致音效提升效果不理想的问题。本公开的技术方案如下：根据本公开实施例的第一方面，提供一种音效增强方法，包括：音频设备接收音频数据；音频设备基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；音频设备将目标音频发送至目标设备；音频设备接收目标设备发送的第二音效调整参数；音频设备基于第二音效调整参数随目标音频进行调整，并输出调整后的目标音频。可选地，第一音效调节参数包括以下至少之一：音色调节参数，音调调节参数以及音频调节参数，音频设备基于音效调节参数对音频数据进行调节的步骤包括：依据音色参数，对音频数据的音色进行调节；依据音调调节参数，对音频数据的音调进行调节；依据音频调节参数，对音频数据的音频进行调节。可选地，音频设备基于第一音效调节参数对音频数据进行调节的步骤之前，音效增强方法还包括：获取由目标设备发送的第三音效调节参数，并将第三音效调整参数作为第一音效调整参数，其中，第三音效调节参数为目标设备基于最近一次音效调整过程确定的。可选地，获取由目标设备发送的第三音效调节参数的步骤包括：在最近一次音效增强过程中，发送目标音频至目标设备；接收目标设备发送的第三音效调节参数，其中，第三音效调节参数为目标设备在基于音效增强模型对目标音频进行音效增强的过程中确定的音效调节参数，标准音频为目标音源在标准条件下发出的音频。可选地，音频设备将目标音频发送至目标设备的步骤包括：确定环境噪声音量值的大小；发送环境噪声音量值的大小至目标设备，其中，环境噪声音量值的大小用于确定目标音频的音量调节参数。可选地，确定环境噪声音量值的大小的步骤包括：在采集音频数据之前，采集预设时间段内的环境噪声，并计算预设时间段内的环境噪声音量值的平均值，以及将平均值作为发送给目标设备的环境噪声音量值。可选地，确定环境噪声音量值的大小的步骤还包括：，在采集音频数据的过程中，
采集环境噪声音量值。可选地，在采集音频数据的过程中，采集环境噪声的音量值的步骤包括：确定音频数据对应的音频数据中的空白时间段，其中，空白时间段为音频数据中没有声音的时间段；在空白时间段中采集环境噪声的音量值，并将采集到的环境噪声的音量值作为发送给目标设备的环境噪声音量值。根据本公开实施例的第二方面，提供一种音效增强方法，包括：目标设备接收音频设备发送的目标音频；目标设备基于音效增强模型和目标音频，确定第二音效调节参数，音效增强模型是基于不同条件下采集到的目标音源发出的音频和标准音频训练得到的；目标设备发送第二音频调节参数至音频设备。可选地，目标设备基于音效增强模型和目标音频，确定第二音效调节参数的步骤中包括：基于音效增强模型和目标音频，确定增强音频；比较增强音频和目标音频，确定第二音效调节参数,其中，第二音效调节参数包括以下至少之一：音色调节参数，音调调节参数，音频调节参数。可选地，第二音效调节参数还包括音量调节参数，其中，目标设备基于音效增强模型和目标音频，确定第二音效调节参数的步骤还包括：接收音频设备发送的环境噪声音量值；确定增强音频的音量值，并基于增强音频的音量值和环境噪声音量值确定音量调节参数。可选地，目标设备基于音效增强模型和目标音频，确定第二音效调节参数的步骤之前，方法还包括：接收训练音频数据，其中，训练音频数据包括在不同条件下采集到的目标音源发出的音频和标准音频；将目标音源发出的音频作为输入音频输入到初始音效增强模型得到预测增强音频，基于预测增强音频和标准音频对目标设备中的初始音效增强模型进行训练得到音效增强模型。根据本公开实施例的第三方面，提供一种音效增强装置，包括：拾音模块，被配置为执行接收目标对象的音频数据；第一处理模块，被配置为执行基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；通信模块，被配置为执行将目标音频发送至目标设备，以及接收目标设备发送的第二音效调整参数，其中，音效调整参数为至少基于音频数据和目标对象的标准音频数据确定的；第二处理模块，被配置为执行基于第二音效调整参数对目标音频进行调整；输出模块，被配置为执行输出调整后的目标音频。可选地，第一音效调节参数包括以下至少之一：音色调节参数，音调调节参数以及音频调节参数，第一处理模块基于第一音效调节参数对音频数据进行调节的步骤包括：依据音色参数，对音频数据的音色进行调节；依据音调调节参数，对音频数据的音调进行调节；依据音频调节参数，对音频数据的音频进行调节。可选地，通信模块还被配置为执行基于第一音效调节参数对音频数据进行调节的步骤之前，获取由目标设备发送的第三音效调节参数，并将第三音效调整参数作为第一音效调整参数，其中，第三音效调节参数为目标设备基于最近一次音效调整过程确定的。可选地，获取由目标设备发送的第三音效调节参数的步骤包括：在最近一次音效增强过程中，发送目标音频至目标设备；接收目标设备发送的第三音效调节参数，其中，第三音效调节参数为目标设备在基于音效增强模型对目标音频进行音效增强后,比较音效增
强后的目标音频和音效增强前的目标音频确定的音效调节参数。可选地，通信模块将目标音频发送至目标设备的步骤包括：确定环境噪声音量值；发送环境噪声音量值至目标设备，其中，环境噪声音量值用于确定目标音频的音量调节参数。可选地，确定环境噪声音量值的步骤包括：在采集音频数据之前，采集预设时间段内的环境噪声，并计算预设时间段内的环境噪声音量值的平均值，以及将平均值作为发送给目标设备的环境噪声音量值。可选地，确定环境噪声音量值的步骤还包括：在采集音频数据的过程中，采集环境噪声音量值。可选地，在采集音频数据的过程中，采集环境噪声的音量值的步骤包括：确定音频数据对应的音频数据中的空白时间段，其中，空白时间段为音频数据中没有声音的时间段；在空白时间段中采集环境噪声的音量值，并将采集到的环境噪声的音量值作为发送给目标设备的环境噪声音量值。根据本公开实施例的第四方面，提供一种音效增强装置，包括：接收模块，被配置为执行接收音频设备发送的目标音频；处理模块，被配置为执行基于标准音频和目标音频，确定音效调节参数，音效增强模型是基于不同条件下采集到的目标音源发出的音频和标准音频训练得到的；发送模块，被配置为执行发送音效调节参数至音频设备。可选地，处理模块基于音效增强模型和目标音频，确定第二音效调节参数的步骤中包括：基于音效增强模型和目标音频，确定增强音频；比较增强音频和目标音频，确定第二音效调节参数，其中，第二音效调节参数包括以下至少之一：音色调节参数，音调调节参数，音频调节参数。可选地，第二音效调节参数还包括音量调节参数，其中，处理模块基于音效增强模型和目标音频，确定第二音效调节参数的步骤还包括：接收音频设备发送的环境噪声音量值；确定增强音频的音量值，并基于增强音频的音量值和环境噪声音量值确定音量调节参数。可选地，处理模块基于音效增强模型和目标音频，确定第二音效调节参数的步骤之前，还被配置为执行：接收训练音频数据，其中，训练音频数据包括在不同条件下采集到的目标音源发出的音频和标准音频；将目标音源发出的音频作为输入音频输入到初始音效增强模型得到预测增强音频，基于预测增强音频和标准音频对目标设备中的初始音效增强模型进行训练得到音效增强模型。根据本公开实施例的第五方面，提供一种音频采集设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现音效增强方法。根据本公开实施例的第六方面，提供一种音效增强设备，包括：处理器；用于存储处理器可执行指令的存储器;其中，处理器被配置为执行指令，以实现如权利要求9至12中任一项的音效增强方法。。根据本公开实施例的第七方面，提供了一种音效增强系统，包括：音频采集设备，其中，音频采集设备用于执行音效增强方法；音频增强设备，其中，音频增强设备用于执行音效增强方法。根据本公开实施例的第八方面，提供一种计算机可读存储介质，当计算机可读存
储介质中的指令由音频采集设备的处理器执行时，使得音频采集设备能够执行音效增强方法。根据本公开实施例的第九方面，提供一种计算机程序产品，包括计算机程序，其特征在于，计算机程序被处理器执行时实现音效增强方法。本公开的实施例提供的技术方案至少带来以下有益效果：本公开提供了一种音效增强方法，通过音频设备接收音频数据；音频设备基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；音频设备将目标音频发送至目标设备；音频设备接收目标设备发送的第二音效调整参数；音频设备基于第二音效调整参数随目标音频进行调整，并输出调整后的目标音频的方式，实现了多设备协同对音频的音效进行增强，从而解决了现有技术中由于音频采集设备算力不足而无法运行较复杂的算法导致的音效增强效果不佳的问题。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
4.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。图1是根据一示例性实施例示出的一种音效增强方法的流程图；图2是根据一示例性实施例示出的另一种音效增强方法的流程图；图3是根据一示例性实施例示出的一种音效增强装置的流程图；图4是根据一示例性实施例示出的另一种音效增强装置的框图；图5是根据一示例性实施例示出的一种音频采集设备的框图；图6是根据一示例性实施例示出的一种音效增强设备的框图；图7是根据一示例性实施例示出的一种音效增强实例的流程图。
具体实施方式
5.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种音效增强方法的流程图，如图1所示，音效增强方法用于音频采集设备，如麦克风中，包括以下步骤。在步骤s11中，音频设备接收音频数据；在本公开的一些示例中，上述音频设备可以是麦克风或其他带有音频采集电路的
电子设备，音频数据为未经过任何处理的音频数据。在步骤s12中，音频设备基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；在本公开的一些示例中，第一音效调节参数包括以下至少之一：音色调节参数，音调调节参数以及音频调节参数，音频设备基于第一音效调节参数对音频数据进行调节的步骤包括：依据音色参数，对音频数据的音色进行调节；依据音调调节参数，对音频数据的音调进行调节；依据音频调节参数，对音频数据的音频进行调节。在本公开的一些示例中，由于可以对目标音频的音色，音调和音频三个角度进行调节，从而使得进行了音效调节后的目标音频更符合目标对象的实际需求。在本公开的一些示例中，上述第一音效调节参数可以为基于历史数据预先设置好的音效调节参数。具体而言，可以基于历次对目标对象的音频数据的调整过程及反馈结果来确定第一音效调节参数。在本公开的一些示例中，上述反馈结果可以为经过基于第一音效调节参数的初步调节后，再次调节时音频数据各数据的调节幅度。可以选择调节幅度小于一定阈值的初次调整过程中的多组初步调节参数，来确定本次调节时的第一音效调节参数。在本公开的另一些实施例中，音频设备基于第一音效调节参数对音频数据进行调节的步骤之前，还可以从目标设备处获取第一音效调节参数。具体地，音频设备可以获取由目标设备发送的第三音效调节参数，并将第三音效调整参数作为第一音效调整参数，其中，第三音效调节参数为目标设备基于最近一次音效调整过程确定的。在本公开的一些示例中，由于目标对象在持续发生的过程中，其状态通常不会有较大改变，因此，在目标对象持续发生的过程中，可以基于目标对象在发声过程中的停顿，将目标对象发出的音频分为多段，并将上一段音频的第二音效调节参数作为上述第三音效调节参数，并发送给音频设备作为下一段音频的第一调节参数，从而提高对音效进行增强的效率。在本公开的一些示例中，获取由目标设备发送的第三音效调节参数的步骤包括：在最近一次音效增强过程中，发送目标音频至目标设备；接收目标设备发送的音效调节参数，其中，音效调节参数为目标设备在基于标准音频对目标音频进行音效增强的过程中确定的音效调节参数，标准音频为目标音源在标准条件下发出的音频，其中，所述标准条件下发出的音频可以为目标音源在无噪声或噪声水平极低的情况下发出的可清晰辨识的音频。在步骤s13中，音频设备将目标音频发送至目标设备；在本公开的一些示例中，上述目标设备可以是计算机，服务器等具有一定运算能力的电子设备。上述音频设备和目标设备之间，可以通过蓝牙或wifi来进行无线连接，也可以采用有线连接的方式。在本公开的另一些示例中，上述目标设备也可以是云服务器。具体地，音频设备可以通过有线或无线连接的方式接入互联网中，从而与云服务器实现连接，并将采集到的音频数据发送给云服务器，由云端基于音频设备发送的音频数据和目标设备的标准音频来确定上述第三音效调节参数。在步骤s14中，音频设备接收目标设备发送的第二音效调整参数；在本公开的一些示例中，在上述音频设备将目标音频发送到目标设备之后，目标
设备可以基于深度学习模型来对目标音频进行增强并确定第二音效调节参数。具体地，上述深度学习模型可以为卷积神经网络模型在本公开的一些示例中，在使用卷积神经网络和目标音频对上述目标音频进行增强之前，还可以对所述卷积神经网络进行训练。在对卷积神经网络进行训练时，所使用的训练数据可以为目标对象在不同的状态下被采集到的音频数据，上述音频数据为未经过处理的音频。在对卷积神经网络进行训练时，还可以将用户的标准音频作为对照组来对训练结果进行判定。例如，当输入的训练数据为目标对象在a状态下的音频数据时，可以选择使用a状态下对应的标准音频和卷积神经网络输入的结果进行比较，在比较时可以从音频数据的音色特征，音调特征和音频特征三个方面进行比较，并基于比较结果来调整卷积神经网络的相应参数，直到最终卷积神经网络输出的结果与作为对照组的标准音频之间的相似度达到预设条件。在本公开的一些实施例中，为了提高音效增强效果，可以选择使用多个卷积神经网络分别对音频数据的音色，音调和音频（也就是音频数据的频率）三个方面各自进行调整。同时，考虑到音频数据在音色，音调和音频这三个方面的属性之间可能存在关联性，即在对其中某个方面的属性进行调整时，可能导致其他两个方面的属性也发生相应的变化，因此，在通过多个卷积神经网络分别得到音色调整后的音频数据，音调调整后的音频数据和音频调整后的音频数据后，还可以将上述三种数据再输入到另一个卷积神经网络或其他深度学习模型中，由该模型基于输入的音色调整后的音频数据，音调调整后的音频数据和音频调整后的音频数据来输出在音色，音调和音频三个方面均调整过的音频数据。在本公开的一些实施例中，目标设备在得到上述三个方面均调整过的音频数据的过程中，还会基于调整后的音频数据和音频设备发送的音频数据进行比对，从而确定第二音效调节参数。第二音频调节参数中至少包括音频调节参数，音色调节参数和音调调节参数。在本公开的一些示例中，上述第二音频调节参数中还可以包括音量调节参数。具体地，目标设备在确定音量调节参数时，首先需要接收音频设备发送的当前环境的噪声音量值。具体地，音频设备发送当前环境噪声音量值的方法如下：确定环境噪声音量值；发送环境噪声音量值至目标设备，其中，环境噪声音量值用于确定目标音频的音量调节参数。具体地，目标设备可以基于环境噪声的音量值来从本地数据库或云服务器中查找在当前环境噪声音量值下，目标音频的音量值需要达到多少才能让其他对象听清楚，从而确定目标音频的音量放大倍数，也就是上述音量调节参数。在本公开的一些示例中，通过环境噪声的音量值来确定目标音频的音量放大倍数，可以使得音量放大后的目标音频可以被其他对象听清楚，并且不至于让其他对象感到音量过大。在本公开的一些实施例中，上述确定环境噪声音量值时，可以选择在采集音频数据之前，采集预设时间段内的环境噪声，并计算预设时间段内的环境噪声音量值的平均值，其中，环境噪声音量值的平均值即为发送给目标设备的环境噪声音量值；以及，在采集音频数据的过程中，采集环境噪声音量值。在本公开的一些示例中，采用环境噪声音量值的平均值作为计算参考可以更全选地反映当前环境的噪声水平。
在本公开的一些示例中，上述在采集音频数据的过程中，采集环境噪声音量值的方法如下：确定音频数据对应的音频数据中的空白时间段，其中，空白时间段为不包含音频数据的时间段；在空白时间段中采集环境噪声音量值，并将采集到的环境噪声的音量值作为发送给目标设备的环境噪声音量值。通过在空白时间段中采集环境噪声音量值，可以在确定环境时避免目标音频带来的干扰。并且由于采集环境噪声的过程与对目标音频进行音效调节的过程可近似认为在同一时间段进行，因此可更准确地确定当前环境的环境噪声音量值。在本公开的一些示例中，目标设备在接收到音频设备发送的环境噪声音量值后，可以基于环境噪声的音量值和目标设备发送的目标音频的音量值，确定目标音频的音量调节参数。在步骤s15中，音频设备基于第二音效调整参数对目标音频进行调整，并输出调整后的目标音频。具体地，音频设备在输出调整好后的目标音频时，可以选择直接播放调整后的目标音频，或者基于用户的需要将调整后的目标音频发送到其他设备中。图2是根据一示例性实施例示出的另一种音效增强方法，如图2所示，该音效增强方法适用于上述目标设备中，包括以下步骤：在步骤s21中，目标设备接收音频设备发送的目标音频；在本公开的一些示例中，目标设备和音频设备之间的连接方式可以为有线连接或无线连接，目标设备可以通过蓝牙，wifi或数据线等接收音频设备发送的目标音频。在步骤s22中，目标设备基于音效增强模型和目标音频，确定第二音效调节参数，所述音效增强模型是基于不同条件下采集到的目标音源发出的音频和标准音频训练得到；在本公开的一些示例中，目标设备基于音效增强模型和目标音频，确定第二音效调节参数的具体方式包括：基于音效增强模型和目标音频，确定增强音频；比较增强音频和目标音频，确定第二音效调节参数。在本公开的一些示例中，目标设备基于音效增强模型和目标音频，确定音效调节参数的步骤之前，还需要对存储在目标设备中的机器学习模型（音效增强模型）进行训练，具体训练方式如下：接收训练音频数据，其中，所述训练音频数据包括在不同条件下采集到的目标音源发出的音频和标准音频；将所述标准音频作为标注音频，以及将所述目标音源发出的音频作为输入音频，对所述目标设备中的所述音效增强模型进行训练，其中，所述音效增强模型用于对所述目标音频进行增强。在本公开的一些示例中，还可以通过如下的方式对上述机器学习模型进行训练：接收训练音频数据，其中，训练音频数据包括在不同条件下采集到的目标音源发出的音频；基于训练音频数据对目标设备中的机器学习模型进行训练，其中，机器学习模型用于对目标音频进行增强。在本公开的一些示例中，上述基于训练音频数据对目标设备中的机器学习模型进行训练的步骤包括：基于标准音频，对机器学习模型的训练结果进行评价；依据评价结果，调整机器学习模型的模型参数。在本公开的一些示例中，上述评价结果可以是机器学习模型的输出结果与标准音频的相似度。
在本公开的一些示例中，目标设备在通过机器学习模型得到增强后的目标音频后，可以基于增强后的目标音频和音频设备发送的目标音频进行比较，从而确定第二音效调节参数中的音质调节参数，音频调节参数和音调调节参数。具体地，目标设备可以分别采集增强后的目标音频的第一音质特征参数，第一音频特征参数和第一音调特征参数，以及音频设备发送的目标音频的第二音质特征参数，第二音频特征参数和第二音调特征参数，从而通过比较上述第一音质特征参数和第二音质特征参数，第一音频特征参数和第二音频特征参数，第一音调特征参数和第二音调特征参数来确定上述音质调节参数，音频调节参数和音调调节参数。具体地，上述机器学习模型可以为卷积神经网络模型，标准音频为预先存储的目标对象在各种状态下发出的可以被清晰识别的音频。可选地，目标对象在不同的状态下，如不同的生理、心理、精神状态下对应的标准音频并不相同。在本公开的一些示例中，由于目标对象在不同的状态下对应的标准音频并不相同，为了提高模型的音效增强效果，可以设置多组不同的卷积神经网络来对应不同状态下的音频数据。具体地，由于目标对象在不同的状态下对应的卷积神经网络不同，因此，目标设备在对音频设备发送的目标音频进行增强并确定第二音效调节参数之前，还需要先确定当前接收到的目标音频是目标对象在什么状态下发出的。为了确定目标对象在发出目标音频时的状态，目标设备可以通过一个机器学习模型对目标音频的状态来进行识别。在本公开的一些示例中，上述用于确定目标对象在发出目标音频时的状态的机器学习模型可以是一个语义识别模型。该语义识别模型可以通过识别目标音频中的特定语气词来确定当前发声的目标对象的状态。具体地，上述语义识别模型中可以包括输入层，文本转化层，特征词提取层，判断层和结果输出层。其中，输入层用于接收音频数据，文本转化层用于将音频数据转化成文本数据，特征词提取层用于从文本数据中检测并提取特定的语气词，判断层用于基于提取的语气词来确定目标对象的状态，结果输出层用于输出判断层确定的目标对象的状态。在本公开的一些示例中，除了通过特定语气词来识别目标对象的状态之外，还可以通过检测目标音频数据的音调和频率等是否处于目标状态区间来确定目标对象的状态。具体地，目标设备中可以预存目标对象在不同状态下所发出的目标音频数据所对应的音调区间或频率数据的对照表格，从而在接收到音频设备的音频数据后，基于音频数据的音调特征或频率特征在确定对应的发声状态。在本公开的一些实施例中，上述对照表格也可以存储在音频设备中，并由音频设备来确定目标音频所对应的状态。在步骤s23中，目标设备发送第二音效调节参数至音频设备。图3是根据一示例性实施例示出的一种音效增强装置框图。参照图3，该装置包括拾音模块131，第一处理模块132，通信模块133，第二处理模块134和输出模块135。该拾音模块131被配置为执行接收音频数据；该第一处理模块132被配置为执行基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；
该通信模块133被配置为执行将目标音频发送至目标设备，以及接收目标设备发送的第二音效调整参数；该第二处理模块134，被配置为执行基于第二音效调整参数对目标音频进行调整；该输出模块135，被配置为执行输出调整后的目标音频。该输出模块135被配置为执行基于第二音效调整参数对目标音频进行调整，并输出调整后的目标音频。在本公开的一些示例中，上述第一音效调节参数包括以下至少之一：音色调节参数，音调调节参数以及音频调节参数，上述第一处理模块132基于第一音效调节参数对音频数据进行调节的步骤包括：依据音色参数，对音频数据的音色进行调节；依据音调调节参数，对音频数据的音调进行调节；依据音频调节参数，对音频数据的音频进行调节。在本公开的一些示例中，上述通信模块133还被配置为执行基于第一音效调节参数对音频数据进行调节的步骤之前，获取由目标设备发送的第三音效调节参数，并将第三音效调整参数作为第一音效调整参数，其中，第三音效调节参数为目标设备基于最近一次音效调整过程确定的。在本公开的一些示例中，上述获取由目标设备发送的第三音效调节参数的步骤包括：在最近一次音效增强过程中，发送目标音频至目标设备；接收目标设备发送的第三音效调节参数，其中，第三音效调节参数为目标设备在基于音效增强模型对目标音频进行音效增强后,比较音效增强后的目标音频和音效增强前的目标音频确定的音效调节参数。在本公开的一些示例中，通信模块133将目标音频发送至目标设备的步骤包括：确定环境噪声音量值；发送环境噪声音量值至目标设备，其中，环境噪声音量值用于确定目标音频的音量调节参数。在本公开的一些示例中，确定环境噪声音量值的步骤包括：在采集音频数据之前，采集预设时间段内的环境噪声，并计算预设时间段内的环境噪声音量值的平均值，以及将平均值作为发送给目标设备的环境噪声音量值。在本公开的一些示例中，确定环境噪声音量值的步骤还包括：在采集音频数据的过程中，采集环境噪声音量值。在本公开的一些示例中，在采集音频数据的过程中，采集环境噪声的音量值的步骤包括：确定音频数据对应的音频数据中的空白时间段，其中，空白时间段为音频数据中没有声音的时间段；在空白时间段中采集环境噪声的音量值，并将采集到的环境噪声的音量值作为发送给目标设备的环境噪声音量值。图4是根据一示例性实施例示出的另一种音效增强装置框图。参照图4，该装置包括接收模块141，处理模块142和发送模块143。该接收模块141被配置为执行接收音频设备发送的目标音频；该处理模块142被配置为执行基于音效增强模型和目标音频，确定音效调节参数，所述音效增强模型是基于不同条件下采集到的目标音源发出的音频和标准音频训练得到的；该发送模块143被配置为执行发送音效调节参数至音频设备。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
在本公开的一些示例中，上述处理模块142基于音效增强模型和目标音频，确定第二音效调节参数的步骤中包括：基于音效增强模型和目标音频，确定增强音频；比较增强音频和目标音频，确定第二音效调节参数，其中，第二音效调节参数包括以下至少之一：音色调节参数，音调调节参数，音频调节参数。在本公开的一些示例中，第二音效调节参数还包括音量调节参数，其中，处理模块基于音效增强模型和目标音频，确定第二音效调节参数的步骤还包括：接收音频设备发送的环境噪声音量值；确定增强音频的音量值，并基于增强音频的音量值和环境噪声音量值确定音量调节参数。在本公开的一些示例中，处理模块142基于音效增强模型和目标音频，确定第二音效调节参数的步骤之前，还被配置为执行：接收训练音频数据，其中，训练音频数据包括在不同条件下采集到的目标音源发出的音频和标准音频；将目标音源发出的音频作为输入音频输入到初始音效增强模型得到预测增强音频，基于预测增强音频和标准音频对目标设备中的初始音效增强模型进行训练得到音效增强模型。图5是根据一示例性实施例示出的一种音频采集设备，包括：音频接收电路150，用于接收音频数据；处理器152；用于存储所述处理器可执行指令的存储器154；其中，所述处理器152被配置为执行所述指令，以实现基于第一音效调节参数对所述音频数据进行调节，得到音效增强后的目标音频，其中，所述第一音效调节参数为所述音频设备中预先设置的参数；基于所述第二音效调整参数对所述目标音频进行调整；通讯模块156，用于将所述目标音频发送至所述目标设备；接收所述目标设备发送的第二音效调整参数。在本公开的一些示例中，还提供了一种音频采集设备，包括：处理器；用于存储所述处理器可执行指令的存储器;其中，所述处理器被配置为执行所述指令，以实现如下音效增强方法：音频设备接收音频数据；音频设备基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；音频设备将目标音频发送至目标设备；音频设备接收目标设备发送的第二音效调整参数；音频设备基于第二音效调整参数随目标音频进行调整，并输出调整后的目标音频。图6是根据一示例性实施例示出的一种音效增强设备，其特征在于，包括；通讯模块160，用于接收音频采集设备发送的音频，以及发送音效调节参数至所述音频采集设备；处理器162；用于存储所述处理器可执行指令的存储器164;其中，所述处理器162被配置为执行所述指令，以实现基于音效增强模型和所述目标音频，确定所述第二音效调节参数。在本公开的一些示例中，还提供了一种音效增强设备，包括：处理器；用于存储所述处理器可执行指令的存储器;其中，所述处理器被配置为执行所述指令，以实现如下音效增强方法：目标设备接收音频设备发送的目标音频；目标设备基于音效增强模型和目标音频，确定第二音效调节参数；目标设备发送音频调节参数至音频设备。在本公开的一些示例中，还提供了一种音效增强系统，包括：音频采集设备，其中，音频采集设备用于执行如下音效增强方法：音频设备接收音频数据；音频设备基于第一音效调节参数对音频数据进行调节，得到音效增强后的目标音频，其中，第一音效调节参数为音频设备中预先设置的参数；音频设备将目标音频发送至目标设备；音频设备接收目标设备发送的第二音效调整参数；音频设备基于第二音效调整参数随目标音频进行调整，并输出调整后的目标音频；音频增强设备，其中，音频增强设备用于执行如下音效增强方法：目
标设备接收音频设备发送的目标音频；目标设备基于音效增强模型和目标音频，确定第二音效调节参数；目标设备发送音频调节参数至音频设备。图7是根据一示例性实施例示出的音效增强系统实际工作时的流程图，其中，该音效增强系统由图5所示的音频采集设备和图6所示的音频增强设备连接组成。如图7所示，该音效增强系统在工作时音频采集设备和音频增强设备会分别执行以下步骤：步骤s71，音频采集设备和音频增强设备握手组网。其中，音频采集设备和音频增强设备之间可以采用蓝牙，局域网等无线组网的方式握手组网，也可以采用通过数据线或网线连接的方式组网。步骤s72，音频采集设备采集环境噪声。具体地，音频采集设备在组网完成后，可以采集目标对象当前所处环境的环境噪声音量值，并将环境噪声音量值发送给音频增强设备。在本公开地一些示例中，由于环境噪声音量值并不是固定不变的，此时音频采集设备发送给音频增强设备的环境噪声音量值可以是在预设时间段内环境噪声音量值随时间变化而变化的统计表格。在本公开地一些示例中，音频采集设备也可以选择计算预设时间段内的当前环境噪声音量值的平均值，并将该平均值作为当前环境噪声音量值发送至音频增强设备。在本公开地一些示例中，音频采集设备除了在目标对象发声之前采集当前环境的噪声音量值外，还可以选择在目标对象发声的间隙采集当前环境的噪声音量值并发送给音频增强设备。在本公开的一些示例中，音频采集设备也可以选择直接将采集到的当前环境的噪声音频数据直接发送给音频增强设备，并由音频增强设备基于噪声音频数据确定噪声音频的音量值，从而确定相应的音量调节参数。步骤s73，音频采集设备依据第一音效调节参数对初始音频进行初步调节。在本公开的一些示例中，上述第一音效调节参数可以为基于历史数据预先设置好的音效调节参数，或者是由目标设备发送的第三音效调节参数，并将第三音效调整参数作为第一音效调节参数，其中，音效调节参数为目标设备基于最近一次音效调整过程确定的。步骤s74，音频增强设备接收音频采集设备发送的初步调节后的音频数据，以及环境噪声音频数据。其中，音频增强设备所述接收的环境噪声音频数据可以是完整的环境噪声音频数据，也可以是仅有音量值的环境噪声音频数据。步骤s75，音频增强设备基于标准音频对接收到的音频数据进行再次调节，并得到第二音效调节参数。在本公开的一些示例中，在上述音频设备将目标音频发送到目标设备之后，目标设备可以基于深度学习模型和预先存储的目标对象的标准音频，也就是上述目标对象的标准音频数据，来对目标音频进行增强并确定第二音效调节参数。具体地，上述深度学习模型可以为卷积神经网络模型，上述标准音频为目标对象在各种状态下发出的可以被清晰识别的音频。可选地，目标对象在不同的状态下，如不同的生理、心理、精神状态下对应的标准音频并不相同。在本公开的一些示例中，在使用卷积神经网络和目标音频对上述目标音频进行增
强之前，还可以对所述卷积神经网络进行训练。在对卷积神经网络进行训练时，所使用的训练数据可以为目标对象在不同的状态下被采集到的音频数据，上述音频数据为未经过处理的音频。在对卷积神经网络进行训练时，还可以将用户的标准音频作为对照组来对训练结果进行判定。例如，当输入的训练数据为目标对象在a状态下的音频数据时，可以选择使用a状态下对应的标准音频和卷积神经网络输入的结果进行比较，在比较时可以从音频数据的音色特征，音调特征和音频特征三个方面进行比较，并基于比较结果来调整卷积神经网络的相应参数，直到最终卷积神经网络输出的结果与作为对照组的标准音频之间的相似度达到预设条件。在本公开的一些实施例中，为了提高音效增强效果，可以选择使用多个卷积神经网络分别对音频数据的音色，音调和音频（也就是音频数据的频率）三个方面各自进行调整。同时，考虑到音频数据在音色，音调和音频这三个方面的属性之间可能存在关联性，即在对其中某个方面的属性进行调整时，可能导致其他两个方面的属性也发生相应的变化，因此，在通过多个卷积神经网络分别得到音色调整后的音频数据，音调调整后的音频数据和音频调整后的音频数据后，还可以将上述三种数据再输入到另一个卷积神经网络或其他深度学习模型中，由该模型基于输入的音色调整后的音频数据，音调调整后的音频数据和音频调整后的音频数据来输出在音色，音调和音频三个方面均调整过的音频数据。在本公开的一些实施例中，目标设备在得到上述三个方面均调整过的音频数据的过程中，还会基于调整后的音频数据和音频设备发送的音频数据进行比对，从而确定第二音效调节参数。第二音频调节参数中至少包括音频调节参数，音色调节参数和音调调节参数。步骤s76，音频增强设备基于噪声音频数据确定音量调节参数。在本公开的一些示例中，上述第二音频调节参数中还可以包括音量调节参数。具体地，目标设备在确定音量调节参数时，首先需要接收音频设备发送的当前环境的噪声音量值。具体地，音频设备发送当前环境噪声音量值的方法如下：确定环境噪声音量值；发送环境噪声音量值至目标设备，其中，环境噪声音量值用于确定目标音频的音量调节参数。步骤s77，音频增强设备发送第二音效调节参数至音频采集设备。步骤s78，音频采集设备基于第二音效调节参数对初步调节后的音频数据数据进行再次调节，得到目标音频数据。在本公开的一些示例中，上述步骤s76和步骤s75之前的顺序可以调换，即先执行步骤s76，再执行步骤s75。在本公开的一些示例中，上述音效增强系统在实际的应用过程中，可以将目标对象的音频数据分为多段。例如，可以基于目标对象在讲话时的停顿将音频数据分为多段。然后可以对每一段音频数据均可以执行如图7所示的音效增强流程，并将每一段音频数据对应的第二音效调节参数作为下一段音频数据在进行初步调节时的第一音效调节参数。在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，当计算机可读存储介质中的指令由如图5所示的音频采集设备执行时，音频接收可执行如图1所示地音效调节方法。当计算机可读存储介质中的指令由如图6所示的可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、随机存取
存储器（ram）、cd-rom、磁带、软盘和光数据存储设备等。在示例性实施例中，还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如图1或图2所示的音效增强方法。本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音效增强方法、装置及系统与流程

相关文献

最热文献