音频数据的筛选方法、装置及系统与流程

2022-11-28 14:10:20 来源：中国专利 TAG：

1.本技术涉及音频数据处理技术领域，具体而言，涉及一种音频数据的筛选方法、装置、系统及计算机可读存储介质。

背景技术：

2.当前随着ai智能技术的发展，并且随着语音技术的高速发展，在不同行业中都出现了巨量的音频数据。但是音频质量参差不齐，需要大量的人员或平台进行人工鉴别，虽然现在有大量的音频质检功能，但是在超大数据量的情况下，依然面临着质检速度慢，效果一般的窘境。
3.针对大数据量的场景下，音频质量筛选速度非常慢，大概5亿左右的音频数据仅仅运行一次就需要大概一周左右的时间，如果判定音频质量的话，按照目前业内大部分的处理方法是需要通过主观判定的方法，也就是需要大量的人力去主观判断音频质量，这样花费的时间又要更长。

技术实现要素：

4.本技术的主要目的在于提供一种音频数据的筛选方法、装置、系统及计算机可读存储介质，以解决现有方案中音频筛选的效率较差问题。
5.根据本发明实施例的一个方面，提供了一种音频数据的筛选方法，该方法包括：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，所述最终质量分数和所述音频数据一一对应，其中，逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数，最终质量分数指的是所述音频数据的整体进行预测的分数；至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型；采用所述训练模型，对所有所述音频数据进行筛选，确定出目标音频数据，所述目标音频数据为多个所述音频数据中至少一个。
6.可选地，在采用双向长短时记忆网络模型，对所有所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数之前，所述方法还包括：采用快速傅里叶变换算法对所有所述音频数据进行处理，提取与所述音频数据对应的频谱特征。
7.可选地，在至少根据所述逐帧级别输出分数和所述最终质量分数之前，所述方法还包括：调取预定数量的噪声中至少部分，以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上，得到混合音频数据，其中，所述噪声为第一预定音频数据，所述纯净语音数据集为第二预定音频数据的数据集；根据所述混合音频数据，确定主观语音质量评估评分。
8.可选地，至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型包括：根据所述最终质量分数和所述主观语音质量评估评分，确定整体均方误差；根据信噪比和所述逐帧级别输出分数，确定权值，其中，所述权值用于表征期望的预测结果；根据所述逐帧级别输出分数、所述信噪比和所述权值，确定逐帧级别均方误差，其中，所述信噪比为
在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的；根据所述整体均方误差、所述逐帧级别均方误差、所述权值和所述混合音频数据，构建所述训练模型。
9.可选地，根据所述逐帧级别输出分数、所述信噪比和所述权值，确定逐帧级别均方误差包括：根据所述权值和所述逐帧级别输出分数，确定目标逐帧级别输出分数，其中，所述目标逐帧级别输出分数为所述逐帧级别输出分数中与所述权值最接近的分数；根据所述目标逐帧级别输出分数和所述信噪比，确定逐帧级别均方误差。
10.可选地，根据信噪比和所述逐帧级别输出分数，确定权值，包括：根据公式确定所述权值，其中，sq_npr为所述信噪比，y_wts为所述逐帧级别输出分数，w为所述权值。
11.可选地，采用双向长短时记忆网络模型，对所有所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数包括：采用双向长短时记忆网络模型，对所有的所述频谱特征进行处理，得到逐帧级别输出分数和最终质量分数。
12.根据本发明实施例的另一方面，还提供了一种音频数据的筛选装置，该装置包括获取单元、构建单元和筛选单元，获取单元用于获取多个音频数据，并采用双向长短时记忆网络模型，对所有的所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，所述最终质量分数和所述音频数据一一对应，其中，逐帧级别输出分数指的是对所述音频数据中的每帧分别进行预测的分数，最终质量分数指的是所述音频数据的整体进行预测的分数；构建单元用于至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型；筛选单元用于采用所述训练模型，对所有所述音频数据进行筛选，确定出目标音频数据，所述目标音频数据为多个所述音频数据中至少一个。
13.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的音频数据的筛选方法
14.根据本发明实施例的另一方面，还提供了一种音频数据的筛选系统，音频数据的筛选系统包括一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的音频数据的筛选方法。
15.在本发明实施例中，通过采用双向长短时记忆网络模型，对所有的所述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据所述逐帧级别输出分数和所述最终质量分数，构建训练模型，最后采用所述训练模型，对所有所述音频数据进行筛选，确定出目标音频数据，所述目标音频数据为多个所述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
附图说明
16.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
17.图1示出了根据本技术实施例的音频数据的筛选方法的流程图；
18.图2示出了根据本技术实施例的音频数据的筛选装置的示意图；
19.图3示出了根据本技术实施例的音频数据的筛选方案的流程图。
具体实施方式
20.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
21.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
22.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
24.正如背景技术中所说的，现有技术中需要大量的人力去主观判断音频质量，这样花费的时间又要更长，为了解决现有方案中音频筛选的效率较差问题，本技术的一种典型的实施方式中，提供了一种音频数据的筛选方法、装置、系统及计算机可读存储介质。
25.根据本技术的实施例，提供了一种音频数据的筛选方法。
26.图1是根据本技术实施例的音频数据的筛选方法的流程图。如图1所示，该方法包括以下步骤：
27.步骤s101，获取多个音频数据，并采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，上述最终质量分数和上述音频数据一一对应，其中，逐帧级别输出分数指的是对上述音频数据中的每帧分别进行预测的分数，最终质量分数指的是上述音频数据的整体进行预测的分数；
28.步骤s102，至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型；
29.步骤s103，采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个。
30.上述步骤中，通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的
处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。另外对多个音频数据进行处理时，可以先对多个音频数据分包，每包中包括多个音频数据中的多个，同时处理多个包，加快处理速度。
31.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
32.在本技术的一种实施例中，在采用双向长短时记忆网络模型，对所有上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数之前，上述方法还包括：采用快速傅里叶变换算法对所有上述音频数据进行处理，提取与上述音频数据对应的频谱特征。便于后续对频谱特征做处理。
33.在本技术的一种实施例中，在至少根据上述逐帧级别输出分数和上述最终质量分数之前，上述方法还包括：调取预定数量的噪声中至少部分，以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上，得到混合音频数据，其中，上述噪声为第一预定音频数据，上述纯净语音数据集为第二预定音频数据的数据集；根据上述混合音频数据，确定主观语音质量评估评分。
34.具体地，例如使用st-cmds作为中文纯净语音数据集，并从100种噪声中随机挑选，以不同信噪比(snr，signal-noise ratio)的形式加入到中文纯净语音数据的随机位置上，这种噪音添加方法可以有效地模拟真实场景中的噪声，最后计算得到pesq评分值，其中pesq为perceptual evaluation of speech quality，即主观语音质量评估。
35.在本技术的一种实施例中，至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型包括：根据上述最终质量分数和上述主观语音质量评估评分，确定整体均方误差；根据信噪比和上述逐帧级别输出分数，确定权值，其中，上述权值用于表征期望的预测结果；根据上述逐帧级别输出分数、上述信噪比和上述权值，确定逐帧级别均方误差，其中，上述信噪比为在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的；根据上述整体均方误差、上述逐帧级别均方误差、上述权值和上述混合音频数据，构建上述训练模型。
36.具体地，考虑到噪声在每一帧上的不平稳现象对预测结果的影响从而确定了逐帧级别均方误差，主观语音质量评估评分作为求整体均方误差所用到的真实值，最终质量分数作为求整体均方误差所用到的网络预测值，信噪比作为求逐帧级别均方误差所用到的真实值，从逐帧级别输出分数中选取一个与上述权值最为接近的分数，作为求逐帧级别均方误差所用到的网络预测值。
37.在本技术的一种实施例中，根据上述逐帧级别输出分数、上述信噪比和上述权值，确定逐帧级别均方误差包括：根据上述权值和上述逐帧级别输出分数，确定目标逐帧级别输出分数，其中，上述目标逐帧级别输出分数为上述逐帧级别输出分数中与上述权值最接近的分数；根据上述目标逐帧级别输出分数和上述信噪比，确定逐帧级别均方误差。
38.具体地，例如，逐帧级别输出分数为2、3、4和5，权值为1，因为2与1最为接近，因此选取2作为求逐帧级别均方误差所用到的网络预测值。
39.在本技术的一种实施例中，根据信噪比和上述逐帧级别输出分数，确定权值，包
括：根据公式确定上述权值，其中，sq_npr为上述信噪比，y_wts为上述逐帧级别输出分数，w为上述权值。np.sum为求和函数，混合音频数据和音频数据的权值在计算帧级别的均方误差时会形成不同的明显的分组信息，这样就可以达到“设立一个权值区分不同水平的帧级分数对预测结果的重要性”的要求。
40.在本技术的一种实施例中，采用双向长短时记忆网络模型，对所有上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数包括：采用双向长短时记忆网络模型，对所有的上述频谱特征进行处理，得到逐帧级别输出分数和最终质量分数。每个音频数据都会有一个最终质量分数和多个逐帧级别输出分数。
41.本技术实施例还提供了一种音频数据的筛选装置，需要说明的是，本技术实施例的音频数据的筛选装置可以用于执行本技术实施例所提供的用于音频数据的筛选方法。以下对本技术实施例提供的音频数据的筛选装置进行介绍。
42.图2是根据本技术实施例的音频数据的筛选装置的示意图。如图2所示，该装置包括获取单元10、构建单元20和筛选单元30，获取单元10用于获取多个音频数据，并采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，上述最终质量分数和上述音频数据一一对应，其中，逐帧级别输出分数指的是对上述音频数据中的每帧分别进行预测的分数，最终质量分数指的是上述音频数据的整体进行预测的分数；构建单元20用于至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型；筛选单元30用于采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个。
43.上述装置中，通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
44.在本技术的一种实施例中，该装置还包括提取单元，在采用双向长短时记忆网络模型，对所有上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数之前，提取单元用于采用快速傅里叶变换算法对所有上述音频数据进行处理，提取与上述音频数据对应的频谱特征。便于后续对频谱特征做处理。
45.在本技术的一种实施例中，该装置还包括调取单元和确定单元，在至少根据上述逐帧级别输出分数和上述最终质量分数之前，调取单元用于调取预定数量的噪声中至少部分，以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上，得到混合音频数据，其中，上述噪声为第一预定音频数据，上述纯净语音数据集为第二预定音频数据的数据集；确定单元用于根据上述混合音频数据，确定主观语音质量评估评分。
46.具体地，例如使用st-cmds作为中文纯净语音数据集，并从100种噪声中随机挑选，以不同信噪比(snr，signal-noise ratio)的形式加入到中文纯净语音数据的随机位置上，这种噪音添加方法可以有效地模拟真实场景中的噪声，最后计算得到pesq评分值，其中pesq为perceptual evaluation of speech quality，即主观语音质量评估。
47.在本技术的一种实施例中，构建单元包括第一确定模块、第二确定模块、第三确定模块和构建模块，第一确定模块用于根据上述最终质量分数和上述主观语音质量评估评分，确定整体均方误差；第二确定模块用于根据信噪比和上述逐帧级别输出分数，确定权值，其中，上述权值用于表征期望的预测结果；第三确定模块用于根据上述逐帧级别输出分数、上述信噪比和上述权值，确定逐帧级别均方误差，其中，上述信噪比为在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的；构建模块用于根据上述整体均方误差、上述逐帧级别均方误差、上述权值和上述混合音频数据，构建上述训练模型。
48.具体地，考虑到噪声在每一帧上的不平稳现象对预测结果的影响从而确定了逐帧级别均方误差，主观语音质量评估评分作为求整体均方误差所用到的真实值，最终质量分数作为求整体均方误差所用到的网络预测值，信噪比作为求逐帧级别均方误差所用到的真实值，从逐帧级别输出分数中选取一个与上述权值最为接近的分数，作为求逐帧级别均方误差所用到的网络预测值。
49.在本技术的一种实施例中，第三确定模块包括第一确定子模块和第二确定子模块，第一确定子模块用于根据上述权值和上述逐帧级别输出分数，确定目标逐帧级别输出分数，其中，上述目标逐帧级别输出分数为上述逐帧级别输出分数中与上述权值最接近的分数；第二确定子模块用于根据上述目标逐帧级别输出分数和上述信噪比，确定逐帧级别均方误差。
50.具体地，例如，逐帧级别输出分数为2、3、4和5，权值为1，因为2与1最为接近，因此选取2作为求逐帧级别均方误差所用到的网络预测值。
51.在本技术的一种实施例中，第二确定模块包括第三确定子模块，第三确定子模块用于根据公式确定上述权值，其中，sq_npr为上述信噪比，y_wts为上述逐帧级别输出分数，w为上述权值。np.sum为求和函数，混合音频数据和音频数据的权值在计算帧级别的均方误差时会形成不同的明显的分组信息，这样就可以达到“设立一个权值区分不同水平的帧级分数对预测结果的重要性”的要求。
52.在本技术的一种实施例中，获取单元包括处理模块，处理模块用于采用双向长短时记忆网络模型，对所有的上述频谱特征进行处理，得到逐帧级别输出分数和最终质量分数。每个音频数据都会有一个最终质量分数和多个逐帧级别输出分数。
53.上述音频数据的筛选装置包括处理器和存储器，上述获取单元、构建单元和筛选单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
54.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有方案中音频筛选的效率较差问题。
55.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
56.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述音频数据的筛选方法。
57.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述音频数据的筛选方法。
58.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，上述最终质量分数和上述音频数据一一对应，其中，逐帧级别输出分数指的是对上述音频数据中的每帧分别进行预测的分数，最终质量分数指的是上述音频数据的整体进行预测的分数；至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型；采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个。本文中的设备可以是服务器、pc、pad、手机等。
59.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：获取多个音频数据，并采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，其中，上述最终质量分数和上述音频数据一一对应，其中，逐帧级别输出分数指的是对上述音频数据中的每帧分别进行预测的分数，最终质量分数指的是上述音频数据的整体进行预测的分数；至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型；采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个。
60.本技术还提供了一种音频数据的筛选系统，音频数据的筛选系统包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的音频数据的筛选方法。通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
61.为了本领域技术人员能够更加清楚地了解本技术的技术方案，以下将结合具体的实施例来说明本技术的技术方案和技术效果。
62.实施例
63.根据本技术的实施例还提供了一种音频数据的筛选方案，图3是根据本技术实施例的音频数据的筛选方案的流程图，如图3所示，该方案包括以下步骤：
64.步骤1：获取多个音频数据，采用快速傅里叶变换算法对所有上述音频数据进行处理，提取与上述音频数据对应的频谱特征；
65.步骤2：采用双向长短时记忆网络模型，对所有的上述频谱特征进行处理，得到逐帧级别输出分数和最终质量分数，其中，上述最终质量分数和上述音频数据一一对应，其中，逐帧级别输出分数指的是对上述音频数据中的每帧分别进行预测的分数，最终质量分数指的是上述音频数据的整体进行预测的分数；
66.步骤3：调取预定数量的噪声中至少部分，以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上，得到混合音频数据；根据上述混合音频数据，确定主观语音质量评估评分，其中，上述噪声为第一预定音频数据，上述纯净语音数据集为第二预定音频数据的数据集；
67.步骤4：根据上述最终质量分数和上述主观语音质量评估评分，确定整体均方误差；
68.步骤5：根据信噪比和上述逐帧级别输出分数，确定权值，其中，上述权值用于表征期望的预测结果；
69.步骤6：根据上述逐帧级别输出分数、上述信噪比和上述权值，确定逐帧级别均方误差，其中，上述信噪比为在以不同信噪比的形式加入到纯净语音数据集的纯净语音数据的随机位置上的情况下确定的；
70.步骤7：根据上述整体均方误差、上述逐帧级别均方误差、上述权值和上述混合音频数据，构建上述训练模型；
71.步骤8：采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个；
72.步骤9：将上述目标音频数据存储至存储设备的目标目录中。
73.通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
74.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
75.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
76.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
77.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
78.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
79.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
80.1)、本技术的音频数据的筛选方法，通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
81.2)、本技术的音频数据的筛选装置，通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
82.3)、本技术的音频数据的筛选系统，通过采用双向长短时记忆网络模型，对所有的上述音频数据进行处理，得到逐帧级别输出分数和最终质量分数，再至少根据上述逐帧级别输出分数和上述最终质量分数，构建训练模型，最后采用上述训练模型，对所有上述音频数据进行筛选，确定出目标音频数据，上述目标音频数据为多个上述音频数据中至少一个，使得对音频数据的处理省去了人力的主观判断，从而降低了人力消耗，另外通过构建训练模型来对音频数据进行处理，从而提高了音频筛选的效率，进而解决了现有方案中音频筛选的效率较差问题。
83.以上所述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：识别信息生成方法、装置、电子设备和计算机可读介质与流程

音频数据的筛选方法、装置及系统与流程

相关文献

最热文献