一种基于深度学习的音频码流压缩方法和装置与流程

2022-04-27 02:35:18 来源：中国专利 TAG：

1.本技术涉及音频数据处理技术领域，尤其涉及一种基于深度学习的音频码流压缩方法和装置。

背景技术：

2.目前对音频的压缩方式主要是根据屏蔽效应和人耳听觉范围，将被屏蔽的声音和人耳听不见的声音给去除。这样的编码方式可以将码流压缩至很小，但是很难从已经压缩过的码流还原出未压缩过的完整码流，故当需要完整码流时只能重新传输完整码流，带来一些资源的浪费。因此，亟需解决这一技术问题。

技术实现要素：

3.鉴于上述问题，提出了本技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于深度学习的音频码流压缩方法和装置，可以通过训练好的深度学习算法的框架还原出未压缩的码流，这样就省去了当需要完整品质的码流时重新传输的情况，节约了资源。所述技术方案如下：
4.第一方面，提供了一种基于深度学习的音频码流压缩方法，包括：
5.对利用深度学习算法压缩后的码流进行反向还原，比对所述深度学习算法压缩还原前后码流的还原度；
6.根据所述还原度来对所述深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过所述深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；
7.根据所述优化迭代次数判断所述深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。
8.在一种可能的实现方式中，所述利用判断得到的深度学习算法对音频码流进行压缩处理，包括：
9.若判断所述深度学习算法需要进行更换，则利用更换后的算法对音频码流进行压缩处理；
10.若判断所述深度学习算法不需要进行更换，则利用所述深度学习算法对音频码流进行压缩处理。
11.在一种可能的实现方式中，利用如下公式对利用深度学习算法压缩后的码流进行反向还原，比对所述深度学习算法压缩还原前后码流的还原度：
[0012][0013]
其中h表示未进行优化迭代前所述深度学习算法压缩还原前后码流的还原度；da表示原始第a个未压缩的二进制形式的音频码流数据；da(i)表示原始第a个未压缩的音频码流数据中第i位的二进制数；p(da)表示利用深度学习算法对原始第a个未压缩的音频码
流数据进行压缩后的二进制形式的数据；p-1
[p(da)]表示利用深度学习算法对p(da)进行反向解压缩后的二进制形式的数据；p-1
[p(da)](i)表示利用深度学习算法对p(da)进行反向解压缩后的数据中第i位的二进制数；n表示原始第a个未压缩的音频码流数据中二进制数的位数；m表示原始未压缩的音频码流数据个数；||表示求取绝对值；
[0014]
若h＝1，表示当前深度学习算法的还原度最高，则不需要对所述深度学习算法进行优化迭代；
[0015]
若h＜1，表示当前深度学习算法的还原度未达到要求，则需要对所述深度学习算法进行优化迭代。
[0016]
在一种可能的实现方式中，利用如下公式判断所述深度学习算法是否完成优化迭代：
[0017][0018]
其中g(k 1)表示对所述深度学习算法进行第k 1次优化迭代的控制值；k表示所述深度学习算法当前已经完成优化迭代的次数；δk(h)表示完成第k次优化迭代后所述深度学习算法压缩还原前后码流的还原度；
[0019]
若g(k 1)＝0，表示所述优化迭代并未完成，即所述深度学习算法需要继续控制进行第k 1次优化迭代；
[0020]
若g(k 1)＝1，表示所述优化迭代已经完成，则所述深度学习算法不需要继续控制进行第k 1次优化迭代。
[0021]
在一种可能的实现方式中，利用如下公式根据所述优化迭代次数判断所述深度学习算法是否需要进行更换：
[0022][0023]
其中f表示所述深度学习算法的控制更换值；t表示设定的允许优化迭代的最长时间；t0表示所述深度学习算法进行第一次优化迭代的初始时刻；t0表示所述深度学习算法进行一次优化迭代所需要的时间；∩表示取交集；∪表示取并集；表示向下取整；
[0024]
若f＝1，表示当前所述深度学习算法不符合对所述音频码流数据进行压缩以及反向还原的要求则需要进行更换新的算法重新进行上述步骤；
[0025]
若f＝0，表示当前所述深度学习算法符合对所述音频码流数据进行压缩以及反向还原的要求则不需要进行更换新的算法。
[0026]
第二方面，提供了一种基于深度学习的音频码流压缩装置，包括：
[0027]
比对模块，用于对利用深度学习算法压缩后的码流进行反向还原，比对所述深度学习算法压缩还原前后码流的还原度；
[0028]
优化迭代模块，用于根据所述还原度来对所述深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过所述深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；
[0029]
压缩模块，用于根据所述优化迭代次数判断所述深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。
[0030]
在一种可能的实现方式中，所述压缩模块还用于：
[0031]
若判断所述深度学习算法需要进行更换，则利用更换后的算法对音频码流进行压缩处理；
[0032]
若判断所述深度学习算法不需要进行更换，则利用所述深度学习算法对音频码流进行压缩处理。
[0033]
在一种可能的实现方式中，所述比对模块还用于：
[0034]
利用如下公式对利用深度学习算法压缩后的码流进行反向还原，比对所述深度学习算法压缩还原前后码流的还原度：
[0035][0036]
其中h表示未进行优化迭代前所述深度学习算法压缩还原前后码流的还原度；da表示原始第a个未压缩的二进制形式的音频码流数据；da(i)表示原始第a个未压缩的音频码流数据中第i位的二进制数；p(da)表示利用深度学习算法对原始第a个未压缩的音频码流数据进行压缩后的二进制形式的数据；p-1
[p(da)]表示利用深度学习算法对p(da)进行反向解压缩后的二进制形式的数据；p-1
[p(da)](i)表示利用深度学习算法对p(da)进行反向解压缩后的数据中第i位的二进制数；n表示原始第a个未压缩的音频码流数据中二进制数的位数；m表示原始未压缩的音频码流数据个数；||表示求取绝对值；
[0037]
若h＝1，表示当前深度学习算法的还原度最高，则不需要对所述深度学习算法进行优化迭代；
[0038]
若h＜1，表示当前深度学习算法的还原度未达到要求，则需要对所述深度学习算法进行优化迭代。
[0039]
在一种可能的实现方式中，所述优化迭代模块还用于：
[0040]
利用如下公式判断所述深度学习算法是否完成优化迭代：
[0041][0042]
其中g(k 1)表示对所述深度学习算法进行第k 1次优化迭代的控制值；k表示所述深度学习算法当前已经完成优化迭代的次数；δk(h)表示完成第k次优化迭代后所述深度学习算法压缩还原前后码流的还原度；
[0043]
若g(k 1)＝0，表示所述优化迭代并未完成，即所述深度学习算法需要继续控制进行第k 1次优化迭代；
[0044]
若g(k 1)＝1，表示所述优化迭代已经完成，则所述深度学习算法不需要继续控制进行第k 1次优化迭代。
[0045]
在一种可能的实现方式中，所述压缩模块还用于：
[0046]
利用如下公式根据所述优化迭代次数判断所述深度学习算法是否需要进行更换：
[0047][0048]
其中f表示所述深度学习算法的控制更换值；t表示设定的允许优化迭代的最长时间；t0表示所述深度学习算法进行第一次优化迭代的初始时刻；t0表示所述深度学习算法进行一次优化迭代所需要的时间；∩表示取交集；∪表示取并集；表示向下取整；
[0049]
若f＝1，表示当前所述深度学习算法不符合对所述音频码流数据进行压缩以及反向还原的要求则需要进行更换新的算法重新进行上述步骤；
[0050]
若f＝0，表示当前所述深度学习算法符合对所述音频码流数据进行压缩以及反向还原的要求则不需要进行更换新的算法。
[0051]
借由上述技术方案，本技术实施例提供的基于深度学习的音频码流压缩方法和装置，首先对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度；根据还原度来对深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；根据优化迭代次数判断深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。可以看到，本技术实施例可以通过训练好的深度学习算法的框架还原出未压缩的码流，这样就省去了当需要完整品质的码流时重新传输的情况，节约了资源。
附图说明
[0052]
为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
[0053]
图1示出了根据本技术实施例的基于深度学习的音频码流压缩方法的流程图；
[0054]
图2示出了根据本技术实施例的基于深度学习的音频码流压缩装置的结构图。
具体实施方式
[0055]
下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例，然而应当理解，可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本技术，并且能够将本技术的范围完整的传达给本领域的技术人员。
[0056]
需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。
[0057]
本技术实施例提供了一种基于深度学习的音频码流压缩方法，如图1所示，该基于深度学习的音频码流压缩方法可以包括以下步骤s101至s103：
[0058]
步骤s101，对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法
压缩还原前后码流的还原度；
[0059]
步骤s102，根据还原度来对深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；
[0060]
步骤s103，根据优化迭代次数判断深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。
[0061]
本技术实施例首先对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度；根据还原度来对深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；根据优化迭代次数判断深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。可以看到，本技术实施例将传统的屏蔽效应和人耳听觉范围压缩方式替换为基于深度学习的压缩方式，即通过训练深度学习算法框架压缩码流，可以通过训练好的深度学习算法的框架还原出未压缩的码流，这样就省去了当需要完整品质的码流时重新传输的情况，节约了资源。
[0062]
本技术实施例中提供了一种可能的实现方式，上文步骤s101中对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度，具体可以利用如下公式对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度：
[0063][0064]
其中h表示未进行优化迭代前深度学习算法压缩还原前后码流的还原度；da表示原始第a个未压缩的二进制形式的音频码流数据；da(i)表示原始第a个未压缩的音频码流数据中第i位的二进制数；p(da)表示利用深度学习算法对原始第a个未压缩的音频码流数据进行压缩后的二进制形式的数据；p-1
[p(da)]表示利用深度学习算法对p(da)进行反向解压缩后的二进制形式的数据；p-1
[p(da)](i)表示利用深度学习算法对p(da)进行反向解压缩后的数据中第i位的二进制数；n表示原始第a个未压缩的音频码流数据中二进制数的位数；m表示原始未压缩的音频码流数据个数；||表示求取绝对值；
[0065]
若h＝1，表示当前深度学习算法的还原度最高，则不需要对深度学习算法进行优化迭代；
[0066]
若h＜1，表示当前深度学习算法的还原度未达到要求，则需要对深度学习算法进行优化迭代。
[0067]
本实施例可以对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度，一是可以判断是否需要对当前的算法进行优化迭代，二是可以知晓当前算法的还原准确程度，以了解其算法当前的功能状态。
[0068]
本技术实施例中提供了一种可能的实现方式，上文步骤s102中可以利用如下公式判断深度学习算法是否完成优化迭代：
[0069]
[0070]
其中g(k 1)表示对深度学习算法进行第k 1次优化迭代的控制值；k表示深度学习算法当前已经完成优化迭代的次数；δk(h)表示完成第k次优化迭代后深度学习算法压缩还原前后码流的还原度；
[0071]
若g(k 1)＝0，表示优化迭代并未完成，即深度学习算法需要继续控制进行第k 1次优化迭代；
[0072]
若g(k 1)＝1，表示优化迭代已经完成，则深度学习算法不需要继续控制进行第k 1次优化迭代。
[0073]
本实施例中，步骤s102中提及的预设阈值可以根据实际需求来设置，如预设阈值为100％等，本实施例对此不做限制。本实施例根据判断深度学习算法是否完成优化迭代，其目的是为了保证优化迭代后的深度学习算法还原度可以达到百分之百，以确保其算法工作的可靠性。
[0074]
本技术实施例中提供了一种可能的实现方式，上文步骤s103中根据优化迭代次数判断深度学习算法是否需要进行更换，具体可以利用如下公式根据优化迭代次数判断深度学习算法是否需要进行更换：
[0075][0076]
其中f表示深度学习算法的控制更换值；t表示设定的允许优化迭代的最长时间；t0表示深度学习算法进行第一次优化迭代的初始时刻；t0表示深度学习算法进行一次优化迭代所需要的时间；∩表示取交集；∪表示取并集；表示向下取整；
[0077]
若f＝1，表示当前深度学习算法不符合对音频码流数据进行压缩以及反向还原的要求则需要进行更换新的算法重新进行上述步骤；
[0078]
若f＝0，表示当前深度学习算法符合对音频码流数据进行压缩以及反向还原的要求则不需要进行更换新的算法。
[0079]
本实施例中，可以根据优化迭代次数判断深度学习算法是否需要进行更换，进而及时的发现当前算法是否符合目的进而自动检测自动进行更换。
[0080]
本技术实施例中提供了一种可能的实现方式，上文步骤s103中利用判断得到的深度学习算法对音频码流进行压缩处理，具体可以包括以下步骤a1至a2：
[0081]
步骤a1，若判断深度学习算法需要进行更换，则利用更换后的算法对音频码流进行压缩处理；
[0082]
步骤a2，若判断深度学习算法不需要进行更换，则利用深度学习算法对音频码流进行压缩处理。
[0083]
本实施例可以通过训练好的深度学习算法的框架还原出未压缩的码流，这样就省去了当需要完整品质的码流时重新传输的情况，节约了资源。
[0084]
需要说明的是，实际应用中，上述所有可能的实施方式可以采用结合的方式任意组合，形成本技术的可能的实施例，在此不再一一赘述。
[0085]
基于上文各个实施例提供的基于深度学习的音频码流压缩方法，基于同一发明构思，本技术实施例还提供了一种基于深度学习的音频码流压缩装置。
[0086]
图2示出了根据本技术实施例的基于深度学习的音频码流压缩装置的结构图。如图2所示，该基于深度学习的音频码流压缩装置可以包括比对模块210、优化迭代模块220以及压缩模块230。
[0087]
比对模块210，用于对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度；
[0088]
优化迭代模块220，用于根据还原度来对深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；
[0089]
压缩模块230，用于根据优化迭代次数判断深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。
[0090]
本技术实施例中提供了一种可能的实现方式，上文图2展示的压缩模块230还用于：
[0091]
若判断深度学习算法需要进行更换，则利用更换后的算法对音频码流进行压缩处理；
[0092]
若判断深度学习算法不需要进行更换，则利用深度学习算法对音频码流进行压缩处理。
[0093]
本技术实施例中提供了一种可能的实现方式，上文图2展示的比对模块210还用于：
[0094]
利用如下公式对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度：
[0095][0096]
其中h表示未进行优化迭代前深度学习算法压缩还原前后码流的还原度；da表示原始第a个未压缩的二进制形式的音频码流数据；da(i)表示原始第a个未压缩的音频码流数据中第i位的二进制数；p(da)表示利用深度学习算法对原始第a个未压缩的音频码流数据进行压缩后的二进制形式的数据；p-1
[p(da)]表示利用深度学习算法对p(da)进行反向解压缩后的二进制形式的数据；p-1
[p(da)](i)表示利用深度学习算法对p(da)进行反向解压缩后的数据中第i位的二进制数；n表示原始第a个未压缩的音频码流数据中二进制数的位数；m表示原始未压缩的音频码流数据个数；||表示求取绝对值；
[0097]
若h＝1，表示当前深度学习算法的还原度最高，则不需要对深度学习算法进行优化迭代；
[0098]
若h＜1，表示当前深度学习算法的还原度未达到要求，则需要对深度学习算法进行优化迭代。
[0099]
本技术实施例中提供了一种可能的实现方式，上文图2展示的优化迭代模块220还用于：
[0100]
利用如下公式判断深度学习算法是否完成优化迭代：
[0101]
[0102]
其中g(k 1)表示对深度学习算法进行第k 1次优化迭代的控制值；k表示深度学习算法当前已经完成优化迭代的次数；δk(h)表示完成第k次优化迭代后深度学习算法压缩还原前后码流的还原度；
[0103]
若g(k 1)＝0，表示优化迭代并未完成，即深度学习算法需要继续控制进行第k 1次优化迭代；
[0104]
若g(k 1)＝1，表示优化迭代已经完成，则深度学习算法不需要继续控制进行第k 1次优化迭代。
[0105]
本技术实施例中提供了一种可能的实现方式，上文图2展示的压缩模块230还用于：
[0106]
利用如下公式根据优化迭代次数判断深度学习算法是否需要进行更换：
[0107][0108]
其中f表示深度学习算法的控制更换值；t表示设定的允许优化迭代的最长时间；t0表示深度学习算法进行第一次优化迭代的初始时刻；t0表示深度学习算法进行一次优化迭代所需要的时间；∩表示取交集；∪表示取并集；表示向下取整；
[0109]
若f＝1，表示当前深度学习算法不符合对音频码流数据进行压缩以及反向还原的要求则需要进行更换新的算法重新进行上述步骤；
[0110]
若f＝0，表示当前深度学习算法符合对音频码流数据进行压缩以及反向还原的要求则不需要进行更换新的算法。
[0111]
本技术实施例首先对利用深度学习算法压缩后的码流进行反向还原，比对深度学习算法压缩还原前后码流的还原度；根据还原度来对深度学习算法压缩还原进行优化迭代，直至优化迭代到所有音频码流经过深度学习算法压缩还原后还原度达到预设阈值，并在优化迭代的过程中记录其优化迭代次数；根据优化迭代次数判断深度学习算法是否需要进行更换，进而利用判断得到的深度学习算法对音频码流进行压缩处理。可以看到，本技术实施例将传统的屏蔽效应和人耳听觉范围压缩方式替换为基于深度学习的压缩方式，即通过训练深度学习算法框架压缩码流，可以通过训练好的深度学习算法的框架还原出未压缩的码流，这样就省去了当需要完整品质的码流时重新传输的情况，节约了资源。
[0112]
所属领域的技术人员可以清楚地了解到，上述描述的系统、装置、模块的具体工作过程，可以参考前述方法实施例中的对应过程，为简洁起见，在此不另赘述。
[0113]
本领域普通技术人员可以理解：本技术的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干程序指令，用以使得一电子设备(例如个人计算机，服务器，或者网络设备等)在运行所述程序指令时执行本技术各实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0114]
或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的电子设备)来完成，所述程序指令可以存储于一
计算机可读取存储介质中，当所述程序指令被电子设备的处理器执行时，所述电子设备执行本技术各实施例所述方法的全部或部分步骤。
[0115]
以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：在本技术的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于深度学习的音频码流压缩方法和装置与流程

相关文献

最热文献