基于人员隐私保护的视频水声检测方法及装置与流程

2022-08-03 14:04:55 来源：中国专利 TAG：

技术特征：
1.一种基于人员隐私保护的视频水声检测方法，其特征在于，包括：获取采集到的视频数据中的音频数据；使用声道混合的方法将音频数据中的消除人声处理，将声道混合分为四个参数，分别为：新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2；将a1、a2、b1、b2四个数值分别设为：100,-100,-100,100；将消除人声处理后的整段的音频数据分割成数段音频数据，每段音频数据时长为2s；对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理；对处理后的每段音频数据求取梅尔倒谱矩阵；将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。2.如权利要求1所述的基于人员隐私保护的视频水声检测方法，其特征在于，对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中，所述归一化、分帧、加窗包括：找出音频数据中信号的绝对值的最大值，将原信号除以该最大值，使信号的正负幅值限制在 1到-1之间；将音频数据进行划分，划分成n个帧，并对每个帧进行海明窗滤波。3.如权利要求2所述的基于人员隐私保护的视频水声检测方法，其特征在于，对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中，所述去噪处理包括：将音频信号在频域中根据公式：算出纯净信号功率谱，其中，yw(ω)表示带噪信号功率，nw(ω)表示噪声功率，表示纯净信号的功率谱，其中w是下标表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。4.如权利要求1所述的基于人员隐私保护的视频水声检测方法，其特征在于，将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中，所述预先训练的隐马尔科夫模型的训练过程如下：将采集到的用于训练的音频进行预处理，将整段的用于训练的音频分割成每段时长2s的音频段，对音频段进行人工筛选，筛选出有出现水生的音频段，作为正样本保存，其余的音频段作为负样本保存；将样正样本和负样本进行归一化处理，再将正样本和负样本的数据进行划分，划分成n个帧，并对每个帧进行海明窗滤波；将正样本和负样本在频域中根据以下公式算出纯净信号功率谱：其中，yw(ω)表示带噪信号功率，nw(ω)表示噪声功率，表示纯净信号的功率谱，其中w是下标表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得纯净信号的功率谱通过相位恢复后再采用逆傅
里叶变换来恢复时域信号；将处理好的正样本和负样本输入到隐马尔科夫模型进行训练，设置初始参数，然后进行迭代，用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ)，并累加得到∑1中，再用baum—welch算法对模型参数进行重估，得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1，将σ1和σ2结果进行比较，判断差值是否小于预设阈值；如果是，则无需进行重估计算，将作为计算结果输出，否则将作为新的初值代入p(0/λ)中的λ做新一轮运算，将所有声音的样本进行如上处理后导入到参考模板库中，最后的一个bp文件，模型保存在文件中。5.如权利要求1所述的基于人员隐私保护的视频水声检测方法，其特征在于，将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中，梅尔倒谱矩阵作为观察值序列，利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ)，其中p(0/λ)最大的模型所对应的声音样本即为识别结果。6.一种基于人员隐私保护的视频水声检测装置，其特征在于，包括：获取单元，用于获取采集到的视频数据中的音频数据；消除单元，用于使用声道混合的方法将音频数据中的消除人声处理，将声道混合分为四个参数，分别为：新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2；将a1、a2、b1、b2四个数值分别设为：100,-100,-100,100；分割单元，用于将消除人声处理后的整段的音频数据分割成数段音频数据，每段音频数据时长为2s；处理单元，用于对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理；求取单元，用于对处理后的每段音频数据求取梅尔倒谱矩阵；识别单元，用于将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。7.如权利要求6所述的基于人员隐私保护的视频水声检测装置，其特征在于，所述处理单元，用于按照以下方式对分割后的每段音频数据进行归一化、分帧、加窗处理：找出音频数据中信号的绝对值的最大值，将原信号除以该最大值，使信号的正负幅值限制在 1到-1之间；将音频数据进行划分，划分成n个帧，并对每个帧进行海明窗滤波。8.如权利要求7所述的基于人员隐私保护的视频水声检测装置，其特征在于，所述处理单元，用于按照以下方式对分割后的每段音频数据进行去噪处理：将音频信号在频域中根据公式：算出纯净信号功率谱，其中，yw(ω)表示带噪信号功率，nw(ω)表示噪声功率，表示纯净信号的功率谱，其中w是下标表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。9.如权利要求6所述的基于人员隐私保护的视频水声检测装置，其特征在于，所述预先
训练的隐马尔科夫模型的训练过程如下：将采集到的用于训练的音频进行预处理，将整段的用于训练的音频分割成每段时长2s的音频段，对音频段进行人工筛选，筛选出有出现水生的音频段，作为正样本保存，其余的音频段作为负样本保存；将样正样本和负样本进行归一化处理，再将正样本和负样本的数据进行划分，划分成n个帧，并对每个帧进行海明窗滤波；将正样本和负样本在频域中根据以下公式算出纯净信号功率谱：其中，yw(ω)表示带噪信号功率，nw(ω)表示噪声功率，表示纯净信号的功率谱，其中w是下标表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号；将处理好的正样本和负样本输入到隐马尔科夫模型进行训练，设置初始参数，然后进行迭代，用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ)，并累加得到∑1中，再用baum—welch算法对模型参数进行重估，得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1，将σ1和σ2结果进行比较，判断差值是否小于预设阈值；如果是，则无需进行重估计算，将作为计算结果输出，否则将作为新的初值代入p(0/λ)中的λ做新一轮运算，将所有声音的样本进行如上处理后导入到参考模板库中，最后的一个bp文件，模型保存在文件中。10.如权利要求6所述的基于人员隐私保护的视频水声检测装置，其特征在于，所述识别单元，用于将梅尔倒谱矩阵作为观察值序列，利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ)，其中p(0/λ)最大的模型所对应的声音样本即为识别结果。

技术总结
本发明公开一种基于人员隐私保护的视频水声检测方法及装置。该方法将声道混合分为新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2；将a1、a2、b1、b2四个数值分别设为：100,-100,-100,100；将消除人声处理后的整段的音频数据分割成数段音频数据，每段音频数据时长为2S后进行归一化、分帧、加窗、去噪处理，求取梅尔倒谱矩阵；将梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别；使用隐马尔可夫模型训练一个识别水声的模型，加入用户隐私保护装置，在采集声音的基础上，保护用户的隐私。隐私。隐私。

技术研发人员：武文孟庆超王俊杰
受保护的技术使用者：南京惠积信息科技有限公司
技术研发日：2022.03.21
技术公布日：2022/8/2

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

基于人员隐私保护的视频水声检测方法及装置与流程

相关文献

最热文献