基于音频的场景识别方法、装置、设备及存储介质与流程

2021-09-28 20:30:00 来源：中国专利 TAG：音频处理识别装置场景音频

技术特征：
1.一种基于音频的场景识别方法，其特征在于，所述方法包括：确定音频的当前音频帧包括的第一音源和第二音源，所述第一音源为带谐波的音源，所述第二音源为不带谐波的音源；统计第一音源数量和第二音源数量，所述第一音源数量是指所述当前音频帧包括的第一音源的数量，所述第二音源数量是指所述当前音频帧包括的第二音源的数量；根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景。2.如权利要求1所述的方法，其特征在于，所述确定音频的当前音频帧包括的第一音源和第二音源，包括：根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，所述共振峰记录表包括所述当前音频帧的多个共振峰的三元组，所述三元组包括对应的共振峰的频率、幅度和带宽；根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源。3.如权利要求2所述的方法，其特征在于，所述根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，包括：将所述当前音频帧由时域转换到频域，得到所述当前音频帧的频谱图；基于所述频谱图，确定所述当前音频帧的多个共振峰；以三元组的形式记录所述多个共振峰中每个共振峰的频率、幅度和带宽，得到多个三元组；将所述多个三元组进行组合，得到所述当前音频帧的共振峰记录表。4.如权利要求2所述的方法，其特征在于，所述根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源，包括：将所述共振峰记录表确定为目标共振峰记录表；从所述目标共振峰记录表中确定频率最高的共振峰，得到第一共振峰；若所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第一音源，若所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第二音源；从所述目标共振峰记录表中删除与所确定的音源对应的所有共振峰的三元组；将执行删除操作后的共振峰记录表确定为目标共振峰记录表，返回所述从所述目标共振峰记录表中确定频率最高的共振峰的步骤，直到所述共振峰记录表中不存在三元组为止。5.如权利要求4所述的方法，其特征在于，所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，包括：若所述目标共振峰记录表中存在第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，其中，所述第二共振峰是所述多个共振峰中带宽大于或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰，每个第三共振峰的频率小于所述第二共振峰的频率；若所述至少一个第三共振峰中存在目标第三共振峰，则确定所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，所述目标第三共振峰是指带宽大于或等于
所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰。6.如权利要求5所述的方法，其特征在于，所述至少一个第三共振峰的数量为多个，所述至少一个第三共振峰中存在目标第三共振峰，包括：按照频率从大到小的顺序，对所述多个第三共振峰进行排序；按照排序后的多个第三共振峰从前往后的顺序，从所述多个第三共振峰中选择一个第三共振峰；每选择一个第三共振峰，将当前选择的第三共振峰的带宽和幅度与所述第二共振峰的带宽和幅度进行对比；若当前选择的第三共振峰的带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度，则将当前选择的第三共振峰确定为所述目标共振峰，终止选择操作。7.如权利要求4所述的方法，其特征在于，所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，包括：若所述目标共振峰记录表中不存在第二共振峰，确定所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，所述第二共振峰是所述多个共振峰中带宽大于或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰；或者，若所述目标共振峰记录表中存在所述第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，若所述至少一个第三共振峰中不存在目标第三共振峰，确定目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，其中，所述目标第三共振峰是指带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰，每个第三共振峰的频率小于所述第二共振峰的频率。8.如权利要求1所述的方法，其特征在于，所述根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景，包括：若所述当前音频帧为非静音音频帧，确定所述第一音源数量和所述第二音源数量之和，得到所述当前音频帧的音源总数量；若所述音源总数量小于或等于所述第一参考阈值，获取静音时长，其中，在所述当前音频帧之前包括非静音音频帧的情况下，所述静音时长是指当前音频帧与前一个非静音音频帧之间包括的静音音频帧的总时长，或者，在所述当前音频帧之前不包括非静音音频帧的情况下，所述静音时长是指当前音频帧之前的所有静音音频帧的总时长；响应于所述静音时长大于第二参考阈值，确定所述当前音频帧所对应的场景为人声场景。9.如权利要求8所述的方法，其特征在于，所述方法还包括：响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量大于或等于第三参考阈值，确定所述当前音频帧所对应的场景为综艺场景；或者，响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量小于所述第三参考阈值，确定所述当前音频帧所对应的场景为单乐器演奏场景。10.如权利要求1所述的方法，其特征在于，所述根据所述第一音源数量和所述第二音
源数量，确定所述当前音频帧所对应的场景，包括：统计每个第一音源的谐波数量；获取所述当前音频帧的能量总值、第一能量值和第二能量值，所述第一能量值为所述当前音频帧中频率高于噪声频率阈值的音频频段的能量值，所述第二能量值为所述当前音频帧中频率低于参考频率阈值的音频频段的能量值；根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景。11.如权利要求10所述的方法，其特征在于，所述根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景，包括：基于所述第一音源数量与所述第二音源数量，确定所述当前音频帧中的第二音源的音源比例；基于每个第一音源的谐波数量、所述第一音源数量和参考谐波数量阈值，确定所述当前音频帧的谐波数量比例；基于所述第一能量值与所述能量总值，确定所述当前音频帧的噪声比例；基于所述第二能量值与所述能量总值，确定所述当前音频帧中的指定音频的音频比例；基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景。12.如权利要求11所述的方法，其特征在于，所述基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景，包括：获取多组加权系数，每组加权系数对应一种场景，且每组加权系数包括所述音源比例的加权系数、所述谐波数量比例的加权系数、所述噪声比例的加权系数以及所述音频比例的加权系数；分别基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例和每组加权系数，确定每组加权系数对应的概率，得到所述多个场景的概率；将得到的多个概率中最大概率对应的场景确定为所述当前音频帧所对应的场景。13.一种基于音频的场景识别装置，其特征在于，所述装置包括：第一确定模块，用于确定音频的当前音频帧包括的第一音源和第二音源，所述第一音源为带谐波的音源，所述第二音源为不带谐波的音源；统计模块，用于统计第一音源数量和第二音源数量，所述第一音源数量是指所述当前音频帧包括的第一音源的数量，所述第二音源数量是指所述当前音频帧包括的第二音源的数量；第二确定模块，用于根据所述第一音源数量和所述第二音源数量，确定所述当前音频帧所对应的场景。14.如权利要求13所述的装置，其特征在于，所述第一确定模块用于：根据所述当前音频帧，确定所述当前音频帧的共振峰记录表，所述共振峰记录表包括所述当前音频帧的多个共振峰的三元组，所述三元组包括对应的共振峰的频率、幅度和带宽；
根据所述多个共振峰的三元组，确定所述当前音频帧包括的第一音源和第二音源。15.如权利要求14所述的装置，其特征在于，所述第一确定模块用于：将所述当前音频帧由时域转换到频域，得到所述当前音频帧的频谱图；基于所述频谱图，确定所述当前音频帧的多个共振峰；以三元组的形式记录所述多个共振峰中每个共振峰的频率、幅度和带宽，得到多个三元组；将所述多个三元组进行组合，得到所述当前音频帧的共振峰记录表。16.如权利要求14所述的装置，其特征在于，所述第一确定模块用于：将所述共振峰记录表确定为目标共振峰记录表；从所述目标共振峰记录表中确定频率最高的共振峰，得到第一共振峰；若所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第一音源，若所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，将所述第一共振峰对应的音源确定为一个第二音源；从所述目标共振峰记录表中删除与所确定的音源对应的所有共振峰的三元组；将执行删除操作后的共振峰记录表确定为目标共振峰记录表，返回所述从所述目标共振峰记录表中确定频率最高的共振峰的步骤，直到所述共振峰记录表中不存在三元组为止。17.如权利要求16所述的装置，其特征在于，所述第一确定模块用于：若所述目标共振峰记录表中存在第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，其中，所述第二共振峰是所述多个共振峰中带宽大于或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰，每个第三共振峰的频率小于所述第二共振峰的频率；若所述至少一个第三共振峰中存在目标第三共振峰，则确定所述目标共振峰记录表中存在与所述第一共振峰对应同一音源的共振峰，所述目标第三共振峰是指带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰。18.如权利要求17所述的装置，其特征在于，所述第一确定模块用于：所述至少一个第三共振峰的数量为多个，按照频率从大到小的顺序，对所述多个第三共振峰进行排序；按照排序后的多个第三共振峰从前往后的顺序，从所述多个第三共振峰中选择一个第三共振峰；每选择一个第三共振峰，将当前选择的第三共振峰的带宽和幅度与所述第二共振峰的带宽和幅度进行对比；若当前选择的第三共振峰的带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度，则将当前选择的第三共振峰确定为所述目标共振峰，终止选择操作。19.如权利要求16所述的装置，其特征在于，所述第一确定模块用于：若所述目标共振峰记录表中不存在第二共振峰，确定所述目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，所述第二共振峰是所述多个共振峰中带宽大于
或等于所述第一共振峰的带宽、幅度大于或等于所述第一共振峰的幅度，且频率低于所述第一共振峰的频率的共振峰；或者，若所述目标共振峰记录表中存在所述第二共振峰，基于所述第一共振峰的频率和所述第二共振峰的频率，从所述多个共振峰中确定至少一个第三共振峰，若所述至少一个第三共振峰中不存在目标第三共振峰，确定目标共振峰记录表中不存在与所述第一共振峰对应同一音源的共振峰，其中，所述目标第三共振峰是指带宽大于或等于所述第二共振峰的带宽、且幅度大于或等于所述第二共振峰的幅度的第三共振峰，每个第三共振峰的频率小于所述第二共振峰的频率。20.如权利要求13所述的装置，其特征在于，所述第二确定模块用于：若所述当前音频帧为非静音音频帧，确定所述第一音源数量和所述第二音源数量之和，得到所述当前音频帧的音源总数量；若所述音源总数量小于或等于所述第一参考阈值，获取静音时长，其中，在所述当前音频帧之前包括非静音音频帧的情况下，所述静音时长是指当前音频帧与前一个非静音音频帧之间包括的静音音频帧的总时长，或者，在所述当前音频帧之前不包括非静音音频帧的情况下，所述静音时长是指当前音频帧之前的所有静音音频帧的总时长；响应于所述静音时长大于第二参考阈值，确定所述当前音频帧所对应的场景为人声场景。21.如权利要求20所述的装置，其特征在于，所述第二确定模块还用于：响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量大于或等于第三参考阈值，确定所述当前音频帧所对应的场景为综艺场景；或者，响应于所述静音时长小于或等于所述第二参考阈值，若所述第一音源数量小于所述第三参考阈值，确定所述当前音频帧所对应的场景为单乐器演奏场景。22.如权利要求13所述的装置，其特征在于，所述第二确定模块用于：统计每个第一音源的谐波数量；获取所述当前音频帧的能量总值、第一能量值和第二能量值，所述第一能量值为所述当前音频帧中频率高于噪声频率阈值的音频频段的能量值，所述第二能量值为所述当前音频帧中频率低于参考频率阈值的音频频段的能量值；根据所述第一音源数量、所述第二音源数量、每个第一音源的谐波数量、所述当前音频帧的能量总值、所述第一能量值和所述第二能量值，确定所述当前音频帧所对应的场景。23.如权利要求22所述的装置，其特征在于，所述第二确定模块用于：基于所述第一音源数量与所述第二音源数量，确定所述当前音频帧中的第二音源的音源比例；基于每个第一音源的谐波数量、所述第一音源数量和参考谐波数量阈值，确定所述当前音频帧的谐波数量比例；基于所述第一能量值与所述能量总值，确定所述当前音频帧的噪声比例；基于所述第二能量值与所述能量总值，确定所述当前音频帧中的指定音频的音频比例；基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例，确定所述当前音频帧所对应的场景。
24.如权利要求23所述的装置，其特征在于，所述第二确定模块用于：获取多组加权系数，每组加权系数对应一种场景，且每组加权系数包括所述音源比例的加权系数、所述谐波数量比例的加权系数、所述噪声比例的加权系数以及所述音频比例的加权系数；分别基于所述音源比例、所述谐波数量比例、所述噪声比例、所述音频比例和每组加权系数，确定每组加权系数对应的概率，得到所述多个场景的概率；将得到的多个概率中最大概率对应的场景确定为所述当前音频帧所对应的场景。25.一种设备，其特征在于，所述设备包括存储器和处理器，所述存储器用于存放计算机程序，所述处理器用于执行所述存储器上所存放的计算机程序，以实现上述权利要求1-12任一所述方法的步骤。26.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-12任一所述的方法的步骤。

技术总结
本申请公开了一种基于音频的场景识别方法、装置、设备及存储介质，属于音频处理技术领域。所述方法包括：确定音频的当前音频帧包括的第一音源和第二音源，第一音源为带谐波的音源，第二音源为不带谐波的音源。统计第一音源数量和第二音源数量，第一音源数量是指所述当前音频帧包括的第一音源的数量，第二音源数量是指所述当前音频帧包括的第二音源的数量。根据第一音源数量和第二音源数量，确定当前音频帧所对应的场景。如此，可以将当前音频帧中的多种音源进行分类，然后根据每种音源的数量确定当前音频帧所对应的场景，避免出现将包括多种音源的同一个场景识别为多个场景的情况，提高了基于音频的场景识别的准确率。高了基于音频的场景识别的准确率。高了基于音频的场景识别的准确率。

技术研发人员：邢文峰
受保护的技术使用者：海信视像科技股份有限公司
技术研发日：2020.03.24
技术公布日：2021/9/27

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于对比学习的端到端音障语音识别方法与流程

基于音频的场景识别方法、装置、设备及存储介质与流程

相关文章

最热文献