一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人员隐私保护的视频水声检测方法及装置与流程

2022-08-03 14:04:55 来源:中国专利 TAG:


1.本发明涉及导管定位技术领域,尤其涉及一种基于人员隐私保护的视频水声检测方法及装置。


背景技术:

2.目前在声音检测算法领域,常用的算法有基于参数模型的隐马尔可夫模型(hmm)的方法。hmm是马尔科夫链的一种,它的状态不能被直接观察到,只能通过观测向量序列观察到,每个观测向量都是通过概率密度分布表现为各种状态,每一个观测向量是由一个具有响应概率密度分布的状态序列产生。自从20世纪80年代,hmm被应用于声音识别,取得巨大成功。随着时间的发展,hmm在多领域中都取得不错的成绩。视频水声检测在很多领域有着广泛的应用,但目前的声音识别项目中,大部分都不注重声音隐私保护,在输入的音频中,可能出现用户隐私,如果声音音频文件被泄露,会造成隐私泄露的风险。因此,有必要提出一种基于人员隐私保护的视频水声检测方法及装置,以解决上述问题。


技术实现要素:

3.本发明提供一种基于人员隐私保护的视频水声检测方法及装置,以解决目前的声音识别项目中,大部分都不注重声音隐私保护,在输入的音频中,可能出现用户隐私,如果声音音频文件被泄露,会造成隐私泄露的风险的问题。
4.第一方面,本发明提供一种基于人员隐私保护的视频水声检测方法,包括:
5.获取采集到的视频数据中的音频数据;
6.使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,-100,-100,100;
7.将消除人声处理后的整段的音频数据分割成数段音频数据,每段音频数据时长为2s;
8.对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理;
9.对处理后的每段音频数据求取梅尔倒谱矩阵;
10.将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
11.进一步地,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述归一化、分帧、加窗包括:
12.找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在 1到-1之间;
13.将音频数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波。
14.进一步地,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理的步骤中,所述去噪处理包括:
15.将音频信号在频域中根据公式:
[0016][0017]
算出纯净信号功率谱,其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0018]
进一步地,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,所述预先训练的隐马尔科夫模型的训练过程如下:
[0019]
将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2s的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存;
[0020]
将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波;
[0021]
将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:
[0022]
其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0023]
将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ),并累加得到∑1中,再用baum—welch算法对模型参数进行重估,得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1,将σ1和σ2结果进行比较,判断差值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入p(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。
[0024]
进一步地,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别的步骤中,梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ),其中p(0/λ)最大的模型所对应的声音样本即为识别结果。
[0025]
第二方面,本发明提供一种基于人员隐私保护的视频水声检测装置,包括:
[0026]
获取单元,用于获取采集到的视频数据中的音频数据;
[0027]
消除单元,用于使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2;将a1、a2、b1、b2四个数值分别设为:100,-100,-100,100;
[0028]
分割单元,用于将消除人声处理后的整段的音频数据分割成数段音频数据,每段
音频数据时长为2s;
[0029]
处理单元,用于对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理;
[0030]
求取单元,用于对处理后的每段音频数据求取梅尔倒谱矩阵;
[0031]
识别单元,用于将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
[0032]
进一步地,所述处理单元,用于按照以下方式对分割后的每段音频数据进行归一化、分帧、加窗处理:找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在 1到-1之间;将音频数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波。
[0033]
进一步地,所述处理单元,用于按照以下方式对分割后的每段音频数据进行去噪处理:
[0034]
将音频信号在频域中根据公式:
[0035][0036]
算出纯净信号功率谱,其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0037]
进一步地,所述预先训练的隐马尔科夫模型的训练过程如下:
[0038]
将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2s的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存;
[0039]
将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波;
[0040]
将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:
[0041]
其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0042]
将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ),并累加得到∑1中,再用baum—welch算法对模型参数进行重估,得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1,将σ1和σ2结果进行比较,判断差值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入p(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。
[0043]
进一步地,所述识别单元,用于将梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ),其中p(0/λ)最大的模型所对应的声音样本即为识别结果。
[0044]
本发明的有益效果如下:本发明提供的一种基于人员隐私保护的视频水声检测方法及装置,在识别水声的基础上,保护用户的隐私内容,使用隐马尔可夫模型训练一个识别水声的模型,在此基础上,加入用户隐私保护装置,实现在采集声音的基础上,保护用户的隐私。
附图说明
[0045]
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0046]
图1为本发明实施例提供的基于人员隐私保护的视频水声检测方法流程图;
[0047]
图2为本发明实施例提供的基于人员隐私保护的视频水声检测装置示意图。
具体实施方式
[0048]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合附图,详细说明本发明各实施例提供的技术方案。
[0049]
请参阅图1,本发明提供一种基于人员隐私保护的视频水声检测方法,包括:
[0050]
步骤s101,获取采集到的视频数据中的音频数据。
[0051]
步骤s102,使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1(a1left)、新左声道里原右声道所占的百分数a2(a2right)、新右声道里原左声道所占的百分数b1(b1left)、新右声道里原右声道所占的百分数b2(b2right);将a1、a2、b1、b2四个数值分别设为:100,-100,-100,100。
[0052]
其中,a1,a2,b1,b2这四个数的数值处理前在-100到100之间,则新左声道采样值:newleft=a1left/100 a2right/100,新右声道采样值:newright=b1left/100 b2right/100。需要消除100%的人声,那么将声道混合的四个数值设为为:100,-100,-100,100。这样,就实现了人声消除,即实现隐私保护功能。
[0053]
步骤s103,将消除人声处理后的整段的音频数据分割成数段音频数据,每段音频数据时长为2s。
[0054]
步骤s104,对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理。
[0055]
在本实施例中,所述归一化、分帧、加窗包括:找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在 1到-1之间;将音频数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波。
[0056]
由于样本的采集来源于实际生活中,采集到的样本不仅仅有水声,因此需要降噪处理。在本实施例中,所述去噪处理包括:将音频信号在频域中根据公式:
[0057][0058]
算出纯净信号功率谱,其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0059]
步骤s105,对处理后的每段音频数据求取梅尔倒谱矩阵。
[0060]
具体地,求出处理后的每段音频数据的13维mfcc特征参数,即得到13维mfcc特征参数构成的梅尔倒谱矩阵。
[0061]
步骤s106,将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
[0062]
具体地,所述预先训练的隐马尔科夫模型的训练过程如下:
[0063]
将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2s的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存。
[0064]
将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波。
[0065]
将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:
[0066]
其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0067]
将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ),并累加得到∑1中,再用baum—welch算法对模型参数进行重估,得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1,将σ1和σ2结果进行比较,判断差值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入p(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。
[0068]
识别时,梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ),其中p(0/λ)最大的模型所对应的声音样本即为识别结果。
[0069]
请参阅图2,本发明还提供一种基于人员隐私保护的视频水声检测装置,包括:
[0070]
获取单元201,用于获取采集到的视频数据中的音频数据。
[0071]
消除单元202,用于使用声道混合的方法将音频数据中的消除人声处理,将声道混合分为四个参数,分别为:新左声道里原左声道所占的百分数a1、新左声道里原右声道所占
的百分数a2、新右声道里原左声道所占的百分数b1、新右声道里原右声道所占的百分数b2。将a1、a2、b1、b2四个数值分别设为:100,-100,-100,100。
[0072]
分割单元203,用于将消除人声处理后的整段的音频数据分割成数段音频数据,每段音频数据时长为2s。
[0073]
处理单元204,用于对分割后的每段音频数据进行归一化、分帧、加窗、去噪处理。
[0074]
求取单元205,用于对处理后的每段音频数据求取梅尔倒谱矩阵。
[0075]
识别单元206,用于将所述梅尔倒谱矩阵输入预先训练的隐马尔科夫模型进行水声识别。
[0076]
在本实施例中,所述处理单元,用于按照以下方式对分割后的每段音频数据进行归一化、分帧、加窗处理:找出音频数据中信号的绝对值的最大值,将原信号除以该最大值,使信号的正负幅值限制在 1到-1之间;将音频数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波。
[0077]
在本实施例中,所述处理单元,用于按照以下方式对分割后的每段音频数据进行去噪处理:
[0078]
将音频信号在频域中根据公式:
[0079][0080]
算出纯净信号功率谱,其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0081]
在本实施例中,所述预先训练的隐马尔科夫模型的训练过程如下:
[0082]
将采集到的用于训练的音频进行预处理,将整段的用于训练的音频分割成每段时长2s的音频段,对音频段进行人工筛选,筛选出有出现水生的音频段,作为正样本保存,其余的音频段作为负样本保存;
[0083]
将样正样本和负样本进行归一化处理,再将正样本和负样本的数据进行划分,划分成n个帧,并对每个帧进行海明窗滤波;
[0084]
将正样本和负样本在频域中根据以下公式算出纯净信号功率谱:
[0085]
其中,yw(ω)表示带噪信号功率,nw(ω)表示噪声功率,表示纯净信号的功率谱,其中w是下标表示经过加窗处理后的信号,a为谱减功率修正系数,b为谱减噪声系数,获得纯净信号的功率谱通过相位恢复后再采用逆傅里叶变换来恢复时域信号。
[0086]
将处理好的正样本和负样本输入到隐马尔科夫模型进行训练,设置初始参数,然后进行迭代,用viterbi算法计算hmm输出所有训练声音观测序列的概率p(0/λ),并累加得到∑1中,再用baum—welch算法对模型参数进行重估,得到再用viterbi算法计算hmm输出所有训练声音观测序列的概率并累加得到σ1,将σ1和σ2结果进行比较,判断差
值是否小于预设阈值;如果是,则无需进行重估计算,将作为计算结果输出,否则将作为新的初值代入p(0/λ)中的λ做新一轮运算,将所有声音的样本进行如上处理后导入到参考模板库中,最后的一个bp文件,模型保存在文件中。
[0087]
在本实施例中,所述识别单元,用于将梅尔倒谱矩阵作为观察值序列,利用viterbi算法求参考模板库中各个模型输出该观察值序列的概率p(0/λ),其中p(0/λ)最大的模型所对应的声音样本即为识别结果。
[0088]
本发明实施例还提供一种存储介质,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现本发明提供的基于人员隐私保护的视频水声检测方法的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:rom)或随机存储记忆体(英文:randomaccessmemory,简称:ram)等。
[0089]
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0090]
以上所述的本发明实施方式并不构成对本发明保护范围的限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献