一种基于深度学习的音域平衡方法、装置及系统与流程

2022-02-20 04:25:59 来源：中国专利 TAG：

技术特征：
1.一种基于深度学习的音域平衡方法，其特征在于，所述方法包括：对音频数据进行特征提取得到音频数据特征；基于所述音频数据特征，利用训练好的音域平衡模型，生成音域平衡结果。2.如权利要求1所述的音域平衡方法，其特征在于，所述音域平衡模型包括：基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行评估，得到音域平衡模型；和/或基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到音域平衡模型。3.如权利要求1所述的音域平衡方法，其特征在于，所述音域平衡模型训练的方法包括：基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征；将所述音乐数据的数据特征作为输入层数据，所述类别标签特征作为输出层数据，训练得到音域平衡模型。4.如权利要求2所述的音域平衡方法，其特征在于，所述生成音域平衡结果包括：对用户偏好音频数据进行特征提取得到偏好数据特征并作为输入数据，输入所述音域平衡模型，得到所述用户偏好音频数据的类别标签特征；将所述用户偏好音频数据的类别标签特征还原成所述用户偏好音频数据的类别标签，形成用户偏好类别画像；根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合，得到用户的在线音域平衡结果。5.如权利要求4所述的音域平衡方法，其特征在于，所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度，包括各类别音频数据所占的比例或权重。6.如权利要求2所述的音域平衡方法，其特征在于，所述音域平衡模型训练的方法包括：基于音频数据库中大众用户偏好的音频作为训练集，进行特征提取得到所述音乐数据库的音频数据特征；将所述音频数据特征作为可视层输入，训练一个受限玻尔兹曼机rbm；基于所述训练好的受限玻尔兹曼机rbm，将所述训练集的音频数据特征输入受限玻尔兹曼机rbm可视层，得到隐层特征；并将所述隐层特征输入已经训练好的聚类模型进行分类，生成平均隐层特征；基于所述平均隐层特征和所述受限玻尔兹曼机rbm进行一次反向运算，得到音频数据库的平均音频数据特征；基于用户偏好音乐列表中的音频进行特征提取，并将提取的用户偏好音频特征作为可视层输入，训练一个用户偏好受限玻尔兹曼机rbm。7.如权利要求6所述的音域平衡方法，其特征在于，所述生成音域平衡均衡结果方法还包括：基于所述训练好的用户偏好受限玻尔兹曼机rbm，将所述用户偏好音乐特征输入rbm可视层，得到用户偏好隐层特征；并将所述用户偏好隐层特征输入所述聚类模型进行分类，生成用户偏好平均隐层特征；基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机rbm进行一次反向运算，
得到用户偏好平均音频特征。根据所述用户偏好平均音频特征与所述音乐数据库的平均音频特征得到用户的音域平衡均衡结果。8.如权利要求7所述的音域平衡方法，其特征在于，所述生成音域平衡结果还包括根据所述用户偏好平均音频特征与所述音乐数据库的平均音频特征进行对比，根据二者的偏离趋势对音域平衡进行增强或衰减，然后得到最终的音域平衡结果。9.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。10.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取的方法包括fft，stft，mfcc，一帧或多帧时域波形或人工设计的其他特征中的至少一种。11.如权利要求1所述的音域平衡方法，其特征在于，所述音频数据特征提取包括时域或频域特征。12.如权利要求1所述的音域平衡方法，其特征在于，所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平衡模型。13.一种基于深度学习的音域平衡装置，其特征在于，包括特征提取模块和音域平衡模块；所述特征提取模块，用于获取音频并进行特征提取以得到音频数据特征；所述音域平衡模块，用于基于所述特征提取模块提取的所述音频数据特征，利用训练好的音域平衡模型，生成音域平衡结果。14.如权利要求13所述的音域平衡装置，其特征在于，所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块；所述在线音域平衡模块，用于基于音乐数据库和用户偏好音乐列表，采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估，得到在线音域平衡模型；结合已有的音乐风格的均衡器得到用户的在线音域平衡均衡结果；所述离线音域平衡模块，用于基于用户偏好音乐列表，对用户偏好音乐自身的特征提取，采用无监督的深度学习方法，得到离线音域平衡模型；并生成用户的离线音域平衡均衡结果。15.一种基于深度学习的音域平衡系统，所述系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-12中任一项所述的基于深度学习的音域平衡方法。

技术总结
本发明提供了发明提供了一种基于深度学习的音域平衡方法、装置、及系统，所述方法包括：对音频数据进行特征提取得到音频数据特征；基于所述音频数据特征，利用训练好的音域平衡模型，生成所述待处理的音频数据的推荐音域平衡结果。本发明基于深层神经网络和无监督深度学习，解决无分类标签音乐和未知风格音乐的音域平衡的问题，并结合对用户偏好的统计，实现更合理的多类别音域平衡设计，满足个性化需求。需求。需求。

技术研发人员：姚青山秦宇喻浩文卢峰
受保护的技术使用者：安克创新科技股份有限公司
技术研发日：2018.06.05
技术公布日：2022/1/7

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：控制语音的识别方法及目标角色的控制方法、相关装置与流程

一种基于深度学习的音域平衡方法、装置及系统与流程

相关文献

最热文献