音频数据编解码方法和相关装置及计算机可读存储介质与流程

2022-11-30 08:36:43 来源：中国专利 TAG：

技术特征：
1.一种音频数据编码方法，其特征在于，包括：获取待编码的音频数据；利用编码神经网络对所述待编码的音频数据进行处理以生成第一潜在变量；对所述第一潜在变量进行量化处理以得到第二潜在变量；根据所述第一潜在变量和所述第二潜在变量得到潜在变量补偿参数；将所述潜在变量补偿参数进行编码，并将所述潜在变量补偿参数的编码结果写入码流；将所述第二潜在变量进行编码，并将所述第二潜在变量的编码结果写入码流。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一潜在变量和所述第二潜在变量得到潜在变量补偿参数，包括：确定第三潜在变量或所述第二潜在变量中满足预设条件的元素，所述第三潜在变量是通过对所述第二潜在变量进行去量化处理而得到；根据所述第一潜在变量和所述第二潜在变量或根据所述第一潜在变量和所述第三潜在变量得到所述满足预设条件的元素的量化误差；根据所述量化误差得到所述潜在变量补偿参数。3.根据权利要求2所述的方法，其特征在于，所述第三潜在变量或所述第二潜在变量包括第一元素；所述满足预设条件包括：所述第一元素的值小于或等于预设值；其中，当所述第一元素是所述第二潜在变量中的元素时，所述第一元素的值是量化值，或当所述第一元素是所述第三潜在变量中的元素时，所述第一元素的值是去量化值。4.根据权利要求2所述的方法，其特征在于，根据所述第一潜在变量和所述第二潜在变量得到所述满足条件的元素的量化误差包括：根据所述第一潜在变量中第一元素的第一值以及所述第二潜在变量中所述第一元素的第二值确定所述第一元素的量化误差；或所述根据所述第一潜在变量和所述第三潜在变量得到所述满足预设条件的元素的量化误差包括：根据所述第一潜在变量中第一元素的第一值以及所述第三潜在变量中所述第一元素的第三值确定所述第一元素的量化误差。5.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为全连接神经网络或卷积神经网络，所述卷积神经网络仅包括一个通道；所述潜在变量补偿参数为标量，其中，所述标量用于指示所述第二潜在变量中满足预设条件的所有元素的量化误差，或所述标量用于指示所述第三潜在变量中满足预设条件的所有元素的量化误差。6.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少两个通道，所述第二潜在变量与所述至少两个通道对应，所述至少两个通道包括第一通道，所述第二潜在变量是一个m
×
n矩阵；其中，所述潜在变量补偿参数为标量，所述标量用于指示所述第二潜在变量中满足预设条件
的所有元素的量化误差；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，所述矢量元素中的第一矢量元素与所述第一通道对应，所述第一矢量元素用于指示所述m
×
n矩阵的子矩阵中满足预设条件的所有元素的量化误差，所述第一通道对应于所述子矩阵，所述子矩阵的元素数量小于m
×
n。7.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第二潜在变量与所述至少三个通道对应，所述第二潜在变量是一个m
×
n矩阵；所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和第一通道，其中，所述第一矢量元素用于指示所述m
×
n矩阵的第一子矩阵中满足预设条件的所有元素的量化误差，所述第一矢量元素还用于指示所述m
×
n矩阵的第二子矩阵中满足预设条件的所有元素的量化误差，其中，所述第一子矩阵与所述第一通道对应，所述第二子矩阵与所述第二通道对应，所述第一子矩阵的元素数量小于m
×
n，所述第二子矩阵的元素数量小于m
×
n。8.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少两个通道，所述第三潜在变量与所述至少两个通道对应，所述至少两个通道包括第一通道，所述第三潜在变量是一个m
×
n矩阵；其中，所述潜在变量补偿参数为标量，所述标量用于指示所述第三潜在变量中满足预设条件的所有元素的量化误差；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，所述矢量元素中的第一矢量元素与所述第一通道对应，所述第一矢量元素用于指示所述m
×
n矩阵的子矩阵中满足预设条件的所有元素的量化误差，所述第一通道对应所述子矩阵，所述子矩阵的元素数量小于m
×
n。9.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第三潜在变量与所述至少三个通道对应，所述第三潜在变量是一个m
×
n矩阵；所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和第一通道，其中，所述第一矢量元素用于指示所述m
×
n矩阵的第一子矩阵中满足预设条件的所有元素的量化误差，所述第一矢量元素还用于指示所述m
×
n矩阵的第二子矩阵中满足预设条件的所有元素的量化误差，其中，所述第一子矩阵与所述第一通道对应，所述第二子矩阵与所述第二通道对应，所述第一子矩阵的元素数量小于m
×
n，所述第二子矩阵的元素数量小于m
×
n。10.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网
络，所述卷积神经网络包括至少两个通道，所述第二潜在变量与所述至少两个通道中的第一通道对应；其中，所述潜在变量补偿参数为标量，所述标量用于指示与所述至少两个通道对应的至少两个潜在变量中满足预设条件的所有元素的量化误差，所述至少两个潜在变量包括所述第二潜在变量；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，所述矢量元素包括与所述第一通道对应的第一矢量元素，所述第一矢量元素用于指示所述第二潜在变量中满足预设条件的所有元素的量化误差。11.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第二潜在变量与所述至少三个通道中的第一通道对应；其中，所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和所述第一通道，所述第一矢量元素用于指示所述第二潜在变量中满足预设条件的所有元素的量化误差，所述第一矢量元素还用于指示所述第二通道对应的另一潜在变量中满足预设条件的所有元素的量化误差。12.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少两个通道，所述第三潜在变量与所述至少两个通道中的第一通道对应；其中，所述潜在变量补偿参数为标量，所述标量用于指示与所述至少两个通道对应的至少两个潜在变量中满足预设条件的所有元素的量化误差，所述至少两个潜在变量包括所述第三潜在变量；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，与所述第一通道对应的矢量元素用于指示所述第三潜在变量中满足预设条件的所有元素的量化误差。13.根据权利要求2至4任一所述的方法，其特征在于，所述编码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第三潜在变量与所述至少三个通道中的第一通道对应；其中，所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和所述第一通道，所述第一矢量元素用于指示所述第三潜在变量中满足预设条件的所有元素的量化误差，所述第一矢量元素还用于指示所述第二通道对应的另一潜在
变量中满足预设条件的所有元素的量化误差。14.根据权利要求7或9所述的方法，其特征在于，所述方法还包括：将所述第一矢量元素与所述第一通道和所述第二通道的对应关系写入码流。15.一种音频数据解码方法，其特征在于，包括：基于码流得到潜在变量补偿参数和第三潜在变量；根据所述潜在变量补偿参数对所述第三潜在变量进行补偿处理以得到重构的第一潜在变量；利用解码神经网络对所述重构的第一潜在变量进行处理以生成解码音频数据。16.根据权利要求15所述的方法，其特征在于，所述基于码流得到潜在变量补偿参数和第三潜在变量，包括：从码流中解码出潜在变量补偿参数和第二潜在变量，所述第二潜在变量中的当前元素的值是量化值；对所述第二潜在变量进行去量化处理得到第三潜在变量。17.根据权利要求16所述的方法，其特征在于，所述根据所述潜在变量补偿参数对所述第三潜在变量进行补偿处理以得到重构的第一潜在变量，包括：根据所述第二潜在变量或第三潜在变量确定所述第三潜在变量中满足预设条件的元素；根据所述潜在变量补偿参数对所述第三潜在变量中满足预设条件的元素进行补偿处理以得到重构的第一潜在变量。18.根据权利要求17所述的方法，其特征在于，根据所述潜在变量补偿参数对所述第三潜在变量中满足预设条件的元素进行补偿处理以得到重构的第一潜在变量，包括：产生随机噪声；根据所述潜在变量补偿参数对产生的所述随机噪声进行幅度或能量调整得到幅度或能量调整后的随机噪声；根据所述幅度或能量调整后的随机噪声对所述第三潜在变量中满足预设条件的元素进行补偿处理以得到重构的第一潜在变量。19.根据权利要求17或18所述的方法，其特征在于，所述根据第二潜在变量或第三潜在变量确定所述第三潜在变量中满足预设条件的元素，包括：确定所述第二潜在变量中满足预设条件的元素；其中，所述第三潜在变量中满足预设条件的元素，与所述第二潜在变量中满足预设条件的元素的位置对应。20.根据权利要求17至19任一所述的方法，其特征在于，所述第三潜在变量或所述第二潜在变量包括第一元素；所述满足预设条件包括：当所述第一元素的值小于或等于预设值，其中，当所述第一元素是所述第二潜在变量中的元素时，所述第一元素的值是量化值，或当所述第一元素是所述第三潜在变量中的元素时，所述第一元素的值是去量化值。21.根据权利要求17至19任一所述的方法，其特征在于，所述解码神经网络为全连接神经网络或卷积神经网络，所述卷积神经网络仅包括一个通道；所述潜在变量补偿参数为标量，其中，所述标量用于对所述第三潜在变量中满足预设条件的所有元素进行补偿。22.根据权利要求17至19任一所述的方法，其特征在于，所述解码神经网络为卷积神经网络，所述卷积神经网络包括至少两个通道，所述第三
潜在变量与所述至少两个通道对应，所述至少两个通道包括第一通道，所述第三潜在变量是一个m
×
n矩阵；其中，所述潜在变量补偿参数为标量，所述标量用于对所述第三潜在变量中满足预设条件的所有元素进行补偿；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，所述矢量元素中的第一矢量元素与所述第一通道对应，所述第一矢量元素用于对所述m
×
n矩阵的子矩阵中满足预设条件的所有元素的进行补偿，所述第一通道对应所述子矩阵，所述子矩阵的元素数量小于m
×
n。23.根据权利要求17至19任一所述的方法，其特征在于，所述解码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第三潜在变量与所述至少三个通道对应，所述第三潜在变量是一个m
×
n矩阵；其中，所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和第一通道，所述第一矢量元素用于对所述m
×
n矩阵的第一子矩阵中满足预设条件的所有元素进行补偿，所述第一矢量元素还用于对所述m
×
n矩阵的第二子矩阵中满足预设条件的所有元素进行补偿，所述第一子矩阵与所述第一通道对应，所述第二子矩阵与所述第二通道对应，所述第一子矩阵的元素数量小于m
×
n，所述第二子矩阵的元素数量小于m
×
n。24.根据权利要求17至19任一所述的方法，其特征在于，所述解码神经网络为卷积神经网络，所述卷积神经网络包括至少两个通道，所述第三潜在变量与所述至少两个通道中的第一通道对应；其中，所述潜在变量补偿参数为标量，所述标量用于对所述至少两个通道对应的至少两个潜在变量中满足预设条件的所有元素进行补偿，其中，所述至少两个潜在变量包括所述第三潜在变量；或，所述潜在变量补偿参数为矢量，所述矢量的维数等于所述卷积神经网络的通道数，所述矢量中的矢量元素与所述至少两个通道一一对应，所述矢量中的与所述第一通道对应的矢量元素用于对所述第三潜在变量中满足预设条件的所有元素进行补偿。25.根据权利要求17至19任一所述的方法，其特征在于，所述解码神经网络为卷积神经网络，所述卷积神经网络包括至少三个通道，所述第三潜在变量与所述至少三个通道中的第一通道对应；其中，所述潜在变量补偿参数为矢量，所述矢量的维数小于所述卷积神经网络的通道数，所述矢量中的第一矢量元素与所述至少三个通道中的至少两个通道对应，所述至少两个通道包括第二通道和所述第一通道，所述第一矢量元素用于对所述第三潜在变量中满足预设条
件的所有元素进行补偿，所述第一矢量元素还用于所述第二通道对应的另一潜在变量中满足预设条件的所有元素进行补偿。26.一种音频编码器，其特征在于，包括：获取单元，用于获取待编码的音频数据；参数处理单元，用于利用编码神经网络对所述待编码的音频数据进行处理，以生成第一潜在变量；对所述第一潜在变量进行量化处理以得到第二潜在变量；根据所述第一潜在变量和所述第二潜在变量得到潜在变量补偿参数；编码单元，用于将所述潜在变量补偿参数进行编码，并将所述潜在变量补偿参数的编码结果写入码流；将所述第二潜在变量进行编码，并将所述第二潜在变量的编码结果写入码流。27.一种音频解码器，其特征在于，包括：参数处理单元，用于基于码流得到潜在变量补偿参数和第三潜在变量；根据所述潜在变量补偿参数对所述第三潜在变量进行补偿处理以得到重构的第一潜在变量；解码单元，还用于利用解码神经网络对所述重构的第一潜在变量进行处理以生成解码音频数据。28.一种音频编码器，其特征在于，包括：包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求1至14中任一项所述的方法。29.一种音频解码器，其特征在于，包括：包括处理器，所述处理器和存储器耦合，所述存储器存储有程序，当所述存储器存储的程序指令被所述处理器执行时实现权利要求15至25中任一项所述的方法。30.一种通信系统，其特征在于，包括：音频编码器和音频解码器；所述音频编码器为如权利要求26或28中任一项所述的音频编码器；所述音频解码器为如权利要求27或29中任一项所述的音频解码器。31.一种计算机可读存储介质，包括程序，当所述程序在计算机上运行时，使得所述计算机执行如权利要求1-14中任一项所述的方法。32.一种计算机可读存储介质，包括程序，当所述程序在计算机上运行时，使得所述计算机执行如权利要求15-24中任一项所述的方法。33.一种网络设备，包括处理器和存储器，其特征在于，所述处理器与存储器耦合，用于读取并执行所述存储器中存储的指令，实现如权利要求1-24中任一项的方法。34.如权利要求33所述的网络设备，其特征在于，所述网络设备为芯片或片上系统。35.一种计算机可读存储介质，其特征在于，存储有如权利要求1-14中任一项所述方法所获得的码流。

技术总结
本申请实施例提供音频数据编解码方法和相关装置及计算机可读存储介质。一种音频数据编码方法，可包括：获取待编码的音频数据；利用编码神经网络对待编码的音频数据进行处理以生成第一潜在变量；对所述第一潜在变量进行量化处理以得到第二潜在变量；根据所述第一潜在变量和所述第二潜在变量得到潜在变量补偿参数；将所述潜在变量补偿参数进行编码，并将所述潜在变量补偿参数的编码结果写入码流；将第二潜在变量进行编码，将所述第二潜在变量的编码结果写入码流。本申请实施例方案有利于降低解码神经网络的相关输入失真，从而提升最终解码信号的质量。码信号的质量。码信号的质量。

技术研发人员：夏丙寅李佳蔚王喆
受保护的技术使用者：华为技术有限公司
技术研发日：2021.05.29
技术公布日：2022/11/29

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：多声道音频信号的编码方法和装置与流程

音频数据编解码方法和相关装置及计算机可读存储介质与流程

相关文献

最热文献