农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

音频数据的处理方法、装置、设备及可读存储介质与流程

2021-07-27 15:30:00 来源：中国专利 TAG：数据处理音视频装置可读音频

本申请涉及多媒体音视频技术领域，尤其涉及一种音频数据的处理方法、装置、设备及可读存储介质。

背景技术：

语音包从源端传送到目的端的传输时间不同会引起通话时延抖动的问题，目前，常用的技术手段为将源端输出的语音包存入消抖动缓存器，目的端从消抖动缓存器中读取语音包。

目前，增加消抖动缓存器能够有效的解决时延抖动，但是在缓存过多的情况下，为了防止延时增大，目前的解决方法是丢弃导致上溢的语音包，但是丢弃的语音包会存在丢字现象，导致语音质量的降低。

因此，如何减小延时且提高语音质量是目前亟需解决的问题。

技术实现要素：

本申请提供了一种音频数据的处理方法、装置、设备及可读存储介质，目的在于减小延时且提高语音质量，如下：

一种音频数据的处理方法，包括：

响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，所述待处理语音包为待写入缓存的语音包；所述目标数量为所述缓存中语音包的数量；

若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，所述第一过滤条件包括：所述待处理语音包为静音包，所述静音包为语音能量值小于第一预设能量值的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述待处理语音包为声纹语音包，将所述待处理语音包写入所述缓存，所述声纹语音包为包括声纹的语音包。

可选地，还包括：

若所述目标数量小于所述第一上溢阈值，将所述待处理语音包写入所述缓存。

可选地，还包括：

响应于达到预设监测时机时，未接收到所述待处理语音包，判断所述目标数量是否小于预设的下溢阈值；

若所述目标数量小于所述下溢阈值，向所述缓存写入空语音包，所述空语音包包括所述静音包。

可选地，所述若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述目标数量小于预设的第二上溢阈值，若满足所述第一过滤条件，将所述待处理语音包丢弃；

所述第一过滤条件还包括：在所述缓存中序位最后的连续n个语音包均为所述静音包，所述n为第一预设数值。

可选地，还包括：

若所述目标数量大于或等于所述第二上溢阈值，且所述目标数量小于预设的第三上溢阈值，若满足预设的第二过滤条件，将所述待处理语音包丢弃；

所述第二过滤条件包括：所述待处理语音包为背景音包，且所述缓存中序位最后的连续m个语音包均为所述背景音包，所述m为第二预设数值，所述背景音包为不包括声纹的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第三上溢阈值，若满足预设的第三过滤条件，将所述待处理语音包丢弃；

所述第三过滤条件包括：所述待处理语音包为所述背景音包。

一种音频数据的处理装置，包括：

上溢判断单元，响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，所述待处理语音包为待写入所述缓存中的语音包；所述目标数量为缓存中语音包的数量；

过滤单元，用于若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，所述第一过滤条件包括：所述待处理语音包为静音包，所述静音包为语音能量值小于预设能量值的语音包。

一种音频数据的处理设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现音频数据的处理方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现音频数据的处理方法的各个步骤。

由上述技术方案可以看出，本申请实施例提供的音频数据的处理方法、装置、设备及可读存储介质，响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，其中，待处理语音包为待写入缓存中的语音包，目标数量为缓存中语音包的数量，若目标数量大于或等于第一上溢阈值，且满足预设的第一过滤条件，将待处理语音包丢弃。其中，第一过滤条件包括：待处理语音包为静音包，静音包为语音能量值小于预设能量值的语音包。由上可见，由于待处理语音包为待写入缓存中的语音包，当目标数量大于第一上溢阈值时，将待处理语音包丢弃能够减小延时，且由于待处理语音包为静音包，也即待处理语音包的语音能量值小于预设能量值，所以丢弃待处理语音包不影响语音质量，相比于直接丢弃待处理语音包，避免丢字现象，提高了语音质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音频数据的处理方法的具体实施方式的流程示意图；

图2为本申请实施例提供的又一种音频数据的处理方法的具体实施方式的流程示意图；

图3为本申请实施例提供的一种缓存方法的具体实施方式的流程示意图；

图4为本申请实施例提供的一种音频数据的处理方法的流程示意图；

图5为本申请实施例提供的一种音频数据的处理装置的结构示意图；

图6为本申请实施例提供的一种音频数据的处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的一种语音数据的处理方法应用于但不限于对源端输出的语音包进行数据处理的场景，具体应用于语音数据的处理装置，该语音数据的处理装置分别与源端和消抖动缓存器(简称为缓存)通信相连，其中，源端指的是语音数据的输出端，语音数据的处理装置的待处理语音数据为源端输出的语音包。

图1示例了本申请实施例提供的一种可选的语音数据的处理方法的具体实现流程。具体可以包括：

s101、获取待处理语音包。

本实施例中，待处理语音包为源端输出的、待写入缓存的语音包。

s102、获取待处理语音包的类型，并将类型作为待处理语音包的标签。

本实施例中，待处理语音包为声纹语音包、静音包、或背景音包中的一种。其中，静音包为语音能量值小于第一预设能量值(第一预设能量值为接近于0的数值)的语音包，背景音包为不包括声纹的语音包，声纹语音包为包括声纹的语音包。

可选的一种获取待处理语音包的类型的方法包括1～3，如下：

1、至少依据待处理语音包中语音数据的能量值判断待处理语音包的类型是否是静音包。

具体的，根据预设的类型与能量值的对应关系，确定待处理语音包的语音类型。例如，能量值在第一预设范围(大于或等于0，且小于第一预设能量值，其中第一预设能量值为接近于0的数值)之内的待处理语音包为待处理语音包为静音包。

需要说明的是，可以利用vad(voiceactivitydetection，语音静音检测)技术判断待处理语音包的类型是否是静音包，具体可以参见现有技术。

2、至少依据待处理语音包中语音数据的频率值，判断待处理语音包是否是声纹语音包。

需要说明的是，可以利用vd(voicedetection，语音检测)技术判断待处理语音包的类型是否是声纹语音包，具体可以参见现有技术。

3、若待处理语音包不属于声纹语音包，则确定待处理语音包为背景音包。

需要说明的是，静音包可能也为声纹语音包，但是由于静音包的语音能量值小于第一预设能量值，接近于0，所以，将能量值小于第一预设能量值且包括声纹的语音包作为静音包处理。

s103、获取缓存中语音包的数量，记为目标数量。

本实施例中，缓存中语音包的数量的获取方法包括多种，可选的，可以通过监测缓存的输入端口输入的语音包和输出端口输出的语音包，得到缓存中的语音包的数量。具体可以参见现有技术。

需要说明的是，本实施例中获取目标数量的时机为：响应于获取到待处理语音包时，获取目标数据。

s104、若目标数量小于预设的第一上溢阈值，将待处理语音包和待处理语音包的标签写入缓存。

本实施例中，目标数量小于第一上溢阈值时，即缓存内的语音包不存在上溢的现象，且时延正常。

s105、若目标数量大于或等于第一上溢阈值，且小于预设的第二上溢阈值，判断是否满足第一预设条件。

本实施例中，若目标数量大于或等于第一上溢阈值，且小于预设的第二上溢阈值，缓存内的语音包存在上溢现象，且上溢的程度为轻度上溢。

本实施例中，第一预设条件包括：缓存中序位最后的连续n个标签均为静音包，且待处理语音包为静音包。需要说明的是，缓存中语音包的序位指示语音包写入的时间，先写入的语音包的序位靠前。

其中，n为第一预设数量，需要说明的是，n 1个连续的静音包定义为连片静音包。

s106、若满足第一预设条件，丢弃待处理语音包，并将待处理语音包的标签写入缓存。

本实施例中，满足第一预设条件时，目标数量大于或等于第一上溢阈值，且小于预设的第二上溢阈值，缓存中序位最后的连续n个标签均为静音包，且待处理语音包为静音包，

s107、若不满足第一预设条件，将待处理语音包和待处理语音包的标签写入缓存。

需要说明的是，当满足第一预设条件时，将待处理语音包丢弃能够防止加剧上溢且保证语音质量。

s108、若目标数量大于或等于第二上溢阈值，且小于预设的第三上溢预设阈值，判断是否满足第二预设条件。

本实施例中，第二预设条件包括：

1、待处理语音包为待处理语音包为静音包。或者，2、待处理语音包为背景音包，且缓存中序位最后的连续m个标签均为背景音包。

其中，m为第二预设数量，需要说明的是，m 1个连续的背景音包定义为连片背景音包。

s109、若满足第二预设条件，丢弃待处理语音包，并将待处理语音包的标签写入缓存。

s110、若不满足第二预设条件，将待处理语音包和待处理语音包的标签写入缓存。

s111、若目标数量大于或等于预设的第三上溢阈值，判断是否满足第三预设条件。

本实施例中，第三预设条件包括：待处理语音包为待处理语音包为静音包，或者，待处理语音包为背景音包。

s112、若满足第三预设条件，丢弃待处理语音包，并将待处理语音包的标签写入缓存。

s113、若不满足第三预设条件，将待处理语音包和待处理语音包的标签写入缓存。

根据图1所示的流程，将本申请实施例提供的一种语音数据的处理方法，响应于接收的待处理语音包，依据目标数量以及待处理语音包的类型，对待处理语音包进行处理，目的在于，能够在目标数量属于不同数量范围内，也即不同的上溢程度时，丢弃符合对应条件的语音包，能够减小延时并且保证语音质量。具体总结如下：

若目标数量小于第一上溢阈值，将待处理语音包写入缓存。

若目标数量大于或等于第一上溢阈值，且待处理语音包为声纹语音包，将待处理语音包写入所述缓存，声纹语音包为包括声纹的语音包。可见，对比现有技术中，直接丢弃语音包减少延时的方法，避免了丢字导致的语音质量降低。

进一步，若目标数量大于或等于第一上溢阈值且小于第二上溢阈值，若满足所述第一过滤条件，将待处理语音包丢弃，第一过滤条件包括：待处理语音包为静音包，且在缓存中序位最后的连续n个语音包的类型均为静音包。

若目标数量大于或等于第二上溢阈值且小于预设的第三上溢阈值，若待处理语音包为静音包，将待处理语音包丢弃，若待处理语音包不为静音包，但满足第二过滤条件，将待处理语音包丢弃。第二过滤条件包括：待处理语音包为背景音包，且缓存中序位最后的连续m个语音包的类型均为所述背景音包。

若目标数量大于或等于第三上溢阈值，若待处理语音包为静音包，将待处理语音包丢弃，若待处理语音包不为静音包，但满足第三过滤条件，将待处理语音包丢弃。第三过滤条件包括：待处理语音包为背景音包。

需要说明的是，图1仅示例了本实施例提供的一种语音数据的处理方法的具体实现流程，在其他场景下，本申请还包括其他的可选具体实现流程，例如，获取目标数量的时机包括可选的多个时机(也即预设监测时机)，例如：t1、在监测到缓存的输出端口被调用(也即有语音包从缓存中读出)时，获取目标数量。t2、如图1所示的流程中的响应于接收到待处理语音数据(也即有语音包从源端中输出)，获取目标数量。t3、按照预设周期获取目标数量，t4、初始时刻。

图2示例了本实施例提供的另一种可选的语音数据的处理方法的具体实现流程，具体包括：

s201、响应于监测到缓存的输出端口被调用，获取缓存中语音包的数量。

需要说明的是，监测缓存的输出端口是否被调用的方法可以参见现有技术。

s202、若缓存中语音包的小于预设的下溢阈值，向缓存中写入目标数量的空语音包。

本实施例中，目标数量为下溢阈值与缓存中的语音包的差值。

需要说明的是，空语音包指的是类型为静音包的语音包，生成空语音包的方法可以参见现有技术。

例如，下溢阈值为5，若缓存中语音包的数量为3，则向缓存中写入2个空数据包，使得缓存中的语音包的数量不小于下溢阈值，避免产生下溢。

s203、响应于接收到待处理语音数据，执行第一预设流程。

本实施例中，第一预设流程包括图1所示的s102～s113，具体可以参见上述实施例，本实施例对此不做赘述。

需要说明的是，图2所示的流程与图1相比，增加了对缓存是否存在下溢的判断，在缓存中的语音包小于下溢阈值时，向缓存中写入空语音包，能够避免产生下溢。

以音频播放的应用场景为例，本实施例提供了一种基于图2所示的一种语音数据的处理方法的缓存流程，如图3示例了缓存方法的执行过程示例图。

s301、根据缓存中的语音包的数量，判断缓存状态。

具体的，根据缓存中的语音包的数量和多个预设阈值之间的关系，确定缓存状态，缓存状态包括补包状态、普通状态、第一紧缩缓存状态、第二紧缩缓存状态、和第三紧缩缓存状态。

具体的，缓存中的语音包的数量小于下溢阈值，缓存状态为补包状态。

缓存中的语音包的数量大于或等于下溢阈值，且小于预设的第一上溢阈值，缓存状态为普通状态。

缓存中的语音包的数量大于或等于第一上溢阈值，且小于第二上溢阈值，缓存状态为第一紧缩缓存状态。

缓存中的语音包的数量大于或等于第二上溢阈值，且小于第三上溢预设阈值，缓存状态为第二紧缩缓存状态。

缓存中的语音包的数量大于或等于第三上溢阈值，缓存状态为第三紧缩缓存状态。

s302、若缓存状态为补包状态，向缓存中写入空语音包(静音包)，直至缓存中的语音包的数量不小于下溢阈值，目的在于避免缓存中出现下溢现象。

s303、若缓存状态是普通状态，响应于接收到待处理语音包，将待处理语音包写入缓存。

可以理解的是，当缓存状态为普通状态时，不存在上溢，也不存在下溢。此时属于理想的缓存状态，所以本实施例直接将待处理语音包写入缓存即可。

需要说明的是，本方法还可以将待处理语音包的类型作为标签，写入缓存，具体参见上述实施例。

s303、若缓存状态是第一紧缩缓存状态，响应于接收到待处理语音包，过滤连片静音包。

具体的，判断待处理语音包是否属于连片静音包。

需要说明的是，连片静音包指的是连续的预设数量的语音包的类型均为静音包，待处理语音包属于连片静音包指的是待处理语音包与位于待处理语音包之前的至少一个语音包组成连片静音包。

若待处理语音包属于连片静音包，则将待处理语音包丢弃。

需要说明的是，第一紧缩缓存状态下，缓存中语音包数量达到第一上溢阈值，延时将增大，但是延时增大的程度低。本方法将属于连片静音包的待处理语音包丢弃，目的在于缩短延时的同时，保证语音质量。

s304、若缓存状态是第二紧缩缓存状态，响应于接收到待处理语音包，过滤静音包和连片背景音包。

具体的，判断待处理语音包的类型是否是静音包，或待处理语音包是否属于连片背景音包，需要说明的是，连片背景音包指的是连续的预设数量的语音包的类型均为背景音包，待处理语音包属于连片背景音包指的是待处理语音包与位于待处理语音包之前的至少一个语音包组成连片背景音包。

若待处理语音包属于连片背景音包或者待处理语音包的类型是静音包，则将待处理语音包丢弃。

需要说明的是，第二紧缩缓存状态下，缓存中语音包数量达到第二上溢阈值，延时将增大，并且相对于第一紧缩缓存状态延时增大的程度高。本方法将静音包，或者属于连片背景音的待处理语音包丢弃，目的在于缩短延时的同时，保证语音质量。

s305、若缓存状态是第三紧缩缓存状态，响应于接收到待处理语音包，过滤静音包和背景音包。

具体的，判断待处理语音包的类型是否是静音包或背景音包中任一个，若是，则将待处理语音包丢弃。

需要说明的是，第三紧缩缓存状态下，缓存中语音包数量达到第三上溢阈值，延时将增大，并且相对于第二紧缩缓存状态延时增大的程度高。本方法将静音包，或者背景音包丢弃，目的在于缩短延时的同时，保证语音质量。

综上，本实施例将紧缩缓存状态分成三个等级：第一紧缩缓存状态、第二紧缩缓存状态和第三紧缩缓存状态，由于各等级的缓存状态下，延时增大的程度不同，过滤语音包的条件不同，在减小播放延时的同时能够保证不丢字，提高播放语音质量。

需要说明的是，本实施例提供的一种语音数据的处理方法不局限于应用于音频播放的场景下，还可以应用其他场景，例如，应用于会议的混音，在混音的每一路输入的缓存，均采用本申请提供的一种语音数据的处理方法，降低混音输入时延，避免丢字，提高混音质量。再例如，应用于对接第三方系统的语音网关，降低了输出第三方系统时的语音时延。

进一步需要说明的是，本申请实施例提供的语音数据的处理方法不限于图1和图2所示的流程，在可选的一种场景下，在丢弃待处理语音包之后，按照被丢弃的待处理语音包的时间，记录待处理语音包的标签即可，无需将标签写入缓存。在可选的另一种场景下，s108～s113为可选步骤。

综上所述，将本实施例提供的一种语音数据的处理方法，总结概括为图4所示的流程，具体可以包括：

s401、响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值。

本实施例中，待处理语音包为待写入缓存中的语音包，目标数量为缓存中语音包的数量。

需要说明的是，获取目标数量的方法包括多种，具体参见现有技术。

s401、若目标数量大于或等于第一上溢阈值，且满足预设的第一过滤条件，将待处理语音包丢弃。

本实施例中，第一过滤条件包括：待处理语音包为静音包，其中，静音包为语音能量值小于第一预设能量值的语音包。判断待处理语音包的类型是否为静音包的方法包括多种，例如，可以利用vad(voiceactivitydetection，语音静音检测)技术判断待处理语音包的类型是否是静音包，具体可以参见现有技术。

由上述技术方案可以看出，本申请实施例提供的一种音频数据的处理方法，响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，其中，待处理语音包为待写入缓存中的语音包，目标数量为缓存中语音包的数量，若目标数量大于或等于第一上溢阈值，且满足预设的第一过滤条件，将待处理语音包丢弃。其中，第一过滤条件包括：待处理语音包为静音包，静音包为语音能量值小于预设能量值的语音包。由上可见，由于待处理语音包为待写入缓存中的语音包，当目标数量大于第一上溢阈值时，将待处理语音包丢弃能够减小延时，且由于待处理语音包为静音包，也即待处理语音包的语音能量值小于预设能量值，所以丢弃待处理语音包不影响语音质量，相比于直接丢弃待处理语音包，避免丢字现象，提高了语音质量。

图5示出了本申请实施例提供的一种音频数据的处理装置的结构示意图，如图5所示，该装置可以包括：

上溢判断单元501，响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，所述待处理语音包为待写入所述缓存中的语音包；所述目标数量为缓存中语音包的数量；

过滤单元502，用于若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，所述第一过滤条件包括：所述待处理语音包为静音包，所述静音包为语音能量值小于预设能量值的语音包。可选地，还包括：

第一写入单元，用于若所述目标数量大于或等于所述第一上溢阈值，且所述待处理语音包为声纹语音包，将所述待处理语音包写入所述缓存，所述声纹语音包为包括声纹的语音包。

可选地，还包括：

第二写入单元，用于若所述目标数量小于所述第一上溢阈值，将所述待处理语音包写入所述缓存。

可选地，还包括：

第三写入单元，用于响应于达到预设监测时机时，未接收到所述待处理语音包，判断所述目标数量是否小于预设的下溢阈值；

若所述目标数量小于所述下溢阈值，向所述缓存写入空语音包，所述空语音包包括所述静音包。

可选地，过滤单元用于若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，包括：过滤单元具体用于：

若所述目标数量大于或等于所述第一上溢阈值，且所述目标数量小于预设的第二上溢阈值，若满足所述第一过滤条件，将所述待处理语音包丢弃；

所述第一过滤条件还包括：在所述缓存中序位最后的连续n个语音包均为所述静音包，所述n为第一预设数值。

可选地，过滤单元还用于：

若所述目标数量大于或等于所述第二上溢阈值，且所述目标数量小于预设的第三上溢阈值，若满足预设的第二过滤条件，将所述待处理语音包丢弃；

所述第二过滤条件包括：所述待处理语音包为背景音包，且所述缓存中序位最后的连续m个语音包均为所述背景音包，所述m为第二预设数值，所述背景音包为不包括声纹的语音包。

可选地，过滤单元还用于：

若所述目标数量大于或等于所述第三上溢阈值，若满足预设的第三过滤条件，将所述待处理语音包丢弃；

所述第三过滤条件包括：所述待处理语音包为所述背景音包。

图6示出了该音频数据的处理设备的结构示意图，该设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本申请实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器601可能是一个中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器603可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可执行存储器存储的程序，实现本申请实施例提供的一种音频数据的处理方法的各个步骤，如下：

一种音频数据的处理方法，包括：

响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，所述待处理语音包为待写入缓存的语音包；所述目标数量为所述缓存中语音包的数量；

若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，所述第一过滤条件包括：所述待处理语音包为静音包，所述静音包为语音能量值小于第一预设能量值的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述待处理语音包为声纹语音包，将所述待处理语音包写入所述缓存，所述声纹语音包为包括声纹的语音包。

可选地，还包括：

若所述目标数量小于所述第一上溢阈值，将所述待处理语音包写入所述缓存。

可选地，还包括：

响应于达到预设监测时机时，未接收到所述待处理语音包，判断所述目标数量是否小于预设的下溢阈值；

若所述目标数量小于所述下溢阈值，向所述缓存写入空语音包，所述空语音包包括所述静音包。

可选地，所述若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述目标数量小于预设的第二上溢阈值，若满足所述第一过滤条件，将所述待处理语音包丢弃；

所述第一过滤条件还包括：在所述缓存中序位最后的连续n个语音包均为所述静音包，所述n为第一预设数值。

可选地，还包括：

若所述目标数量大于或等于所述第二上溢阈值，且所述目标数量小于预设的第三上溢阈值，若满足预设的第二过滤条件，将所述待处理语音包丢弃；

所述第二过滤条件包括：所述待处理语音包为背景音包，且所述缓存中序位最后的连续m个语音包均为所述背景音包，所述m为第二预设数值，所述背景音包为不包括声纹的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第三上溢阈值，若满足预设的第三过滤条件，将所述待处理语音包丢弃；

所述第三过滤条件包括：所述待处理语音包为所述背景音包。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的计算机程序，计算机程序被处理器执行时，实现本申请实施例提供的一种音频数据的处理方法的各个步骤，如下：

一种音频数据的处理方法，包括：

响应于接收到待处理语音包，判断目标数量是否大于或等于预设的第一上溢阈值，所述待处理语音包为待写入缓存的语音包；所述目标数量为所述缓存中语音包的数量；

若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，所述第一过滤条件包括：所述待处理语音包为静音包，所述静音包为语音能量值小于第一预设能量值的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述待处理语音包为声纹语音包，将所述待处理语音包写入所述缓存，所述声纹语音包为包括声纹的语音包。

可选地，还包括：

若所述目标数量小于所述第一上溢阈值，将所述待处理语音包写入所述缓存。

可选地，还包括：

响应于达到预设监测时机时，未接收到所述待处理语音包，判断所述目标数量是否小于预设的下溢阈值；

若所述目标数量小于所述下溢阈值，向所述缓存写入空语音包，所述空语音包包括所述静音包。

可选地，所述若所述目标数量大于或等于所述第一上溢阈值，且满足预设的第一过滤条件，将所述待处理语音包丢弃，包括：

若所述目标数量大于或等于所述第一上溢阈值，且所述目标数量小于预设的第二上溢阈值，若满足所述第一过滤条件，将所述待处理语音包丢弃；

所述第一过滤条件还包括：在所述缓存中序位最后的连续n个语音包均为所述静音包，所述n为第一预设数值。

可选地，还包括：

若所述目标数量大于或等于所述第二上溢阈值，且所述目标数量小于预设的第三上溢阈值，若满足预设的第二过滤条件，将所述待处理语音包丢弃；

所述第二过滤条件包括：所述待处理语音包为背景音包，且所述缓存中序位最后的连续m个语音包均为所述背景音包，所述m为第二预设数值，所述背景音包为不包括声纹的语音包。

可选地，还包括：

若所述目标数量大于或等于所述第三上溢阈值，若满足预设的第三过滤条件，将所述待处理语音包丢弃；

所述第三过滤条件包括：所述待处理语音包为所述背景音包。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音频数据的处理方法、装置、设备及可读存储介质与流程

相关文章

最热文献