一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于作业现场的音频数据结构化转化方法与流程

2021-10-24 09:07:00 来源:中国专利 TAG:音频 数据 地说 作业 结构化


1.本发明涉及音频数据技术领域,更具体地说,它涉及一种基于作业现场的音频数据结构化转化方法。


背景技术:

2.在电力行业中,随着能源互联网、智能电网、泛在电力物联网的建设和发展,各种网络拓扑变得更加复杂。特别在电力作业现场智能化监控上,现场语音等音频数据被广泛地进行采集,因此也产生了海量的音频数据。但目前电力作业现场的音频采集分析系统仅实现了数据采集,海量音频需要耗费大量的人工来进行处理和分析,同时存在无法智能音频数据挖掘、无法有效表达与管理和高效检索等弊病。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容的音频检索以及辅助视频分析等应用的关键。
3.现有技术的缺陷和不足:
4.电力作业现场的音频数据主要以语音数据为主,所以作业现场音频数据的结构化也应该以语音内容为基础。虽然近几年出现了一些基于音频智能分析产品作为人工筛查分析的有力补充,但缺乏大规模应用的标准,分析精度差,作用十分有限。


技术实现要素:

5.本发明要解决的技术问题是针对现有技术的上述不足,本发明的目的是提供一种分析精度高的基于作业现场的音频数据结构化转化方法。
6.本发明的技术方案是:一种基于作业现场的音频数据结构化转化方法,包括:
7.获取电力作业现场环境中的原始音频;
8.利用梅尔倒谱系数对所述原始音频进行特征提取得到mfcc特征;
9.利用入狄利克雷过程高斯混合模型对所述原始音频进行处理得到dpgmm后验图;
10.将所述dpgmm后验图与mfcc特征连接起来作为所述原始音频的音频结构化的增强特征,并得到语音文本;
11.利用catboost算法对所述语音文本进行多标签分类得到多标签分类信息;
12.将所述多标签分类信息存入数据库,以方便后续的关键字检索以及更深入的音频分析。
13.作为进一步地改进,在所述入狄利克雷过程高斯混合模型中采用无限高斯混合模型:
[0014][0015]
其中,p(x
i

k
,∑
k
)为高斯分布的概率密度函数,π
k
为对应高斯分布的混合权重参数,权重值为正数,上式可以写成:
[0016][0017]
采用折棍子模型(stick breaking)对混合权重进行采样取值,对高斯分布
的均值和方差取自正态



wishart(niw)分布niw(μ0,λ,∑0,ν);
[0018]
其中,均值置信度为μ0、方差置信度为∑0、均值置信度为λ和方差置信度为v;
[0019]
通过混合权重对高斯聚类指标隐藏变量z
i
进行采样,通过z
i
指示的高斯聚类对每个数据点x
i
进行采样;所述入狄利克雷过程高斯混合模型的联合分布可以描述为:
[0020]
dpgmm(α,niw(μ0,λ,∑0,ν))。
[0021]
进一步地,对所述语音文本进行多标签分类具体包括:
[0022]
利用word2vec词嵌入方法对训练样本集的语音文本数据进行向量化处理得到向量化文本数据,word2vec词嵌入维度为180

220;
[0023]
将所述向量化文本数据输入catboost的多分类模型catboostclassfier()进行训练;
[0024]
将训练好的多分类模型catboostclassfier()输入sklearn的onevsrestclassifier模型进行训练得到多标签分类器;
[0025]
将所述语音文本输入所述多标签分类器得到多标签分类信息。
[0026]
进一步地,所述word2vec词嵌入维度为200。
[0027]
进一步地,所述训练样本集包括tmc2007数据集、rcv1

v2数据集、ictdata数据集。
[0028]
进一步地,还包括;建立音频索引库,所述音频索引库中的索引项记录有所述数据库中各标签分类信息的关键属性值以及可以直接访问该标签分类信息的指针。
[0029]
进一步地,对获取的原始音频进行格式统一转化为wav格式,采样率为22050hz,精度为16位,并进行去静音和加窗处理。
[0030]
有益效果
[0031]
本发明与现有技术相比,具有的优点为:
[0032]
本发明通过mfcc

dpgmm特征提取法对音频数据进行特征提取,然后基于catboost算法进行音频文件多标签处理,实现对作业现场音频数据的结构化处理,分析精度好,最后将结构化描述信息存入数据库,方便后续的关键字检索以及更深入的音频分析。
附图说明
[0033]
图1为本发明的流程图;
[0034]
图2为mfcc特征提取法与mfcc

dpgmm特征提取法对样本1的效果对比图;
[0035]
图3为mfcc特征提取法与mfcc

dpgmm特征提取法对样本2的效果对比图。
具体实施方式
[0036]
下面结合附图中的具体实施例对本发明做进一步的说明。
[0037]
参阅图1

3,一种基于作业现场的音频数据结构化转化方法,包括:
[0038]
获取电力作业现场环境中的原始音频;
[0039]
利用梅尔倒谱系数mfcc(mel

scale frequency cepstral coefficients,简称mfcc)对原始音频进行特征提取得到mfcc特征;
[0040]
利用入狄利克雷过程高斯混合模型dpgmm(dirichlet process gaussian mixture model,简称dpgmm)对原始音频进行处理得到dpgmm后验图;dpgmm后验图维数较高,每一帧的概率通常集中在一维或二维上,其他维大多为零。mfcc在所有维度上都充满了
声学细节,但dpgmm后验图在维度上具有判别性;它们在功能组合中相互补充,mfcc

dpgmm特征提取法如图1所示;
[0041]
将dpgmm后验图与mfcc特征连接起来作为原始音频的音频结构化的增强特征,并得到语音文本;
[0042]
利用catboost算法对语音文本进行多标签分类得到多标签分类信息;
[0043]
将多标签分类信息存入数据库,以方便后续的关键字检索以及更深入的音频分析。
[0044]
在一个实施例中,预先制定过滤表,过滤表同保存了需要过滤的频段或特定音频种类;在利用梅尔倒谱系数mfcc进行提取mfcc特征之前,先对获取的原始音频进行格式统一转化为wav格式,采样率为22050hz,精度为16位,并进行去静音和加窗处理;根据过滤表对处理后的原始音频进行过滤,可以进一步减少音频数据量,提高后序数据结构化转化效率。
[0045]
dpgmmc聚类方法可以很好地区分音素,因为它动态地改变高斯的数量,直到每个高斯以最高的概率拟合整个语音语料库的一个分段模式,从而清楚地区分不同分段模式的语言单元。在入狄利克雷过程高斯混合模型中采用无限高斯混合模型gmm:
[0046][0047]
其中,p(x
i

k
,∑
k
)为高斯分布的概率密度函数,π
k
为对应高斯分布的混合权重参数,权重值为正数,上式可以写成:
[0048][0049]
采用折棍子模型(stick breaking)对混合权重进行采样取值,对高斯分布的均值和方差取自正态



wishart(niw)分布niw(μ0,λ,∑0,v);
[0050]
其中,均值置信度为μ0、方差置信度为∑0、均值置信度为λ和方差置信度为v;
[0051]
通过混合权重对高斯聚类指标隐藏变量z
i
进行采样,通过z
i
指示的高斯聚类对每个数据点x
i
进行采样;入狄利克雷过程高斯混合模型的联合分布可以描述为:
[0052]
dpgmm(α,niw(μ0,λ,∑0,v))。
[0053]
分别采用两个不同的作业现场语音样本集作为进行测试,采用不同特征提取法的验证集语音识别准确率如图2、3所示,可见mfcc

dpgmm特征提取法在收敛速度和最后的精度上都优于传统的mfcc特征提取法。
[0054]
对语音文本进行多标签分类具体包括:
[0055]
利用word2vec词嵌入方法对训练样本集的语音文本数据进行向量化处理得到向量化文本数据,word2vec词嵌入维度为180

220;优选的,word2vec词嵌入维度为200。
[0056]
将向量化文本数据输入catboost的多分类模型catboostclassfier()进行训练;
[0057]
将训练好的多分类模型catboostclassfier()输入sklearn的onevsrestclassifier模型进行训练得到多标签分类器;
[0058]
将语音文本输入多标签分类器得到多标签分类信息。
[0059]
训练样本集包括tmc2007数据集、rcv1

v2数据集、ictdata数据集。其中,tmc2007和rcv1

v2是非电力领域文本的国际公开训练数据集,而ictdata则是电力作业现场语音文本训练集。将样本集按8:2的比例划分为训练集和验证集,训练集数据用于模型训练,验证
集数据用于模型性能评估。对比经典的多标签算法br lr和ml

knn,可以看出catboost在电力作业现场语音文本分类的优越性。具体的验证集性能评价指标结果表1和表2所示。
[0060]
精确率tmc2007rcv1

v2ictdatabr lr0.780.850.83ml

knn0.770.810.84catboost0.80.830.86
[0061]
表1
[0062][0063][0064]
表2
[0065]
本发明还包括;建立音频索引库,音频索引库中的索引项记录有数据库中各标签分类信息的关键属性值以及可以直接访问该标签分类信息的指针,音频索引库的记录与数据库中的标签分类信息关联,且保持对应关系,当用户请求查询时,通过音频索引库中的索引项可以快速检索到对应的多标签分类信息。
[0066]
以上仅是本发明的优选实施方式,应当指出对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些都不会影响本发明实施的效果和专利的实用性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜