一种基于作业现场的音频数据结构化转化方法与流程

2021-10-24 09:07:00 来源：中国专利 TAG：音频数据地说作业结构化

技术特征：
1.一种基于作业现场的音频数据结构化转化方法，其特征在于，包括：获取电力作业现场环境中的原始音频；利用梅尔倒谱系数(mfcc)对所述原始音频进行特征提取得到mfcc特征；利用入狄利克雷过程高斯混合模型(dpgmm)对所述原始音频进行处理得到dpgmm后验图；将所述dpgmm后验图与mfcc特征连接起来作为所述原始音频的音频结构化的增强特征，并得到语音文本；利用catboost算法对所述语音文本进行多标签分类得到多标签分类信息；将所述多标签分类信息存入数据库，以方便后续的关键字检索以及更深入的音频分析。2.根据权利要求1所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，在所述入狄利克雷过程高斯混合模型中采用无限高斯混合模型(gmm)：其中，p(x
i
|μ
k
，∑
k
)为高斯分布的概率密度函数，π
k
为对应高斯分布的混合权重参数，权重值为正数，上式可以写成：采用折棍子模型(stick breaking)对混合权重进行采样取值，对高斯分布的均值和方差取自正态
‑
逆
‑
wishart(niw)分布niw(μ0，λ，∑0，v)；其中，均值置信度为μ0、方差置信度为∑0、均值置信度系数为λ和方差置信度为系数v；通过混合权重对高斯聚类指标隐藏变量z
i
进行采样，通过z
i
指示的高斯聚类对每个数据点x
i
进行采样；所述入狄利克雷过程高斯混合模型的联合分布可以描述为：dpgmm(α，niw(μ0，λ，∑0，v))。3.根据权利要求1所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，对所述语音文本进行多标签分类具体包括：利用word2vec词嵌入方法对训练样本集的语音文本数据进行向量化处理得到向量化文本数据，word2vec词嵌入维度为180
‑
220；将所述向量化文本数据输入catboost的多分类模型catboostclassfier()进行训练；将训练好的多分类模型catboostclassfier()输入sklearn的onevsrestclassifier模型进行训练得到多标签分类器；将所述语音文本输入所述多标签分类器得到多标签分类信息。4.根据权利要求3所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，所述word2vec词嵌入维度为200。5.根据权利要求3所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，所述训练样本集包括tmc2007数据集、rcv1
‑
v2数据集、ictdata数据集。6.根据权利要求1所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，还包括；建立音频索引库，所述音频索引库中的索引项记录有所述数据库中各标签分类信息的关键属性值以及可以直接访问该标签分类信息的指针。
7.根据权利要求1所述的一种基于作业现场的音频数据结构化转化方法，其特征在于，对获取的原始音频进行格式统一转化为wav格式，采样率为22050hz，精度为16位，并进行去静音和加窗处理。

技术总结
本发明公开了一种基于作业现场的音频数据结构化转化方法，涉及音频数据技术领域，解决现有音频分析产品精度差的技术问题，方法包括：获取电力作业现场环境中的原始音频；利用梅尔倒谱系数MFCC对原始音频进行特征提取得到MFCC特征；利用入狄利克雷过程高斯混合模型DPGMM对原始音频进行处理得到DPGMM后验图；将DPGMM后验图与MFCC特征连接起来作为原始音频的音频结构化的增强特征，并得到语音文本；利用Catboost算法对语音文本进行多标签分类得到多标签分类信息；将多标签分类信息存入数据库，以方便后续的关键字检索以及更深入的音频分析。本发明通过MFCC

技术研发人员：王天师李华刘文韬罗其锋张春梅谭伟谭莹莹包达志魏俊锋黄国柱
受保护的技术使用者：广东电网有限责任公司中山供电局
技术研发日：2021.07.15
技术公布日：2021/10/23

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于特征迁移学习的锂电池健康状况监测方法与流程

一种基于作业现场的音频数据结构化转化方法与流程

相关文献

最热文献