一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于MVGG-CTC的关键词搜索方法与流程

2021-10-09 14:50:00 来源:中国专利 TAG:关键词 方法 语音识别 mvgg ctc

一种基于mvgg

ctc的关键词搜索方法
技术领域
1.本发明属于语音识别技术领域,具体涉及一种基于mvgg

ctc的关键词搜索方法。


背景技术:

2.随着网络通信技术的迅速发展,音视频媒体已经成为一种主流的信息传播形式,其高效流通和快速交互等特点越来越突显。舆论信息的传播和交互已达到前所未有的程度,在给人们带来便捷的同时,其中不良舆论信息的传播所产生的负面影响也越来越显著,诸如色情、恐怖、暴力等舆论信息的传播不仅违背公序良俗,也为社会公共安全带来巨大威胁和隐患,这也是我国相关部门所重点关注的问题。如何在保证信息自由流通的同时有效地加强监测和坚决防止不良舆论信息的传播,以及有效引导化解舆论危机对维护社会稳定、促进国家发展具有重要的现实意义,也是摆在信息科学工作者面前的新课题、新挑战。
3.对于音视频媒体舆论信息的监控,最有效的方法就是对其音频的关键词进行实时监测并建立关键词搜索系统,其中关键词搜索系统是针对连续语音数据进行自动识别并监测是否包含敏感关键词,并对含有关键词的语音片段建立关键词倒排索引,以便后期人工核实。该方法包含了语音信号预处理和特征提取、语言模型和声学模型的建立、语言解码器以及倒排索引的构建等等,其中:
4.1)语音信号预处理和特征提取是为了对语音信号数据进行前端预处理,包括特征提取、静音检测以及混合多环境混响的语音增强三部分组成,其中语音信号特征提取常采用语谱图特征、filterbank(滤波器组)特征、mfcc(梅尔倒谱系数)特征或plp(感知线性预测)特征等方法,静音检测采用的技术有基于snr(信噪比)的vad(噪音检测)方法、基于gmm(混合高斯模型)的vad(噪音检测)方法以及基于dnn(深度神经网络)的静音检测方法等;多环境混响的语音增强主要包括室内混响增强、室外噪音增强以及音乐噪音增强等等。
5.2)传统的声学模型有传统gmm

hmm(混合高斯模型

隐马尔可夫模型)、hmm

dnn(隐马尔可夫模型

深度神经网络模型)等,而这些模型是由多个模型级联组成,不仅降低了效率且在级联过程中降低了准确度。
6.3)现有技术中的wfst(加权有限状态解码器)虽然有着较好的速度和准确率,但是应用于模型中仍然需要对各个模块分别训练,因为模型复杂且中间环节会损失一些关键信息,导致结果往往也差强人意。
7.4)对于检索技术最常见的就是关系数据库,绝大多数模型软件都应用了关系数据库,其更新查询比较出色,但对于大量数据的处理是不擅长的。基于以上现状,最为迫切的就是降低模型的复杂性,提高关键词搜索的效率以及解决模型存在的各种缺陷。


技术实现要素:

8.为解决上述问题,本发明提供了一种基于mvgg

ctc的关键词搜索方法,所述方法包括步骤:
9.获取语音数据;
10.对所述语音数据进行预处理;
11.将所述语音数据输入mvgg

ctc模型中训练;
12.构建语音模型和词典;
13.将所述mvgg

ctc模型输出的拼音序列转化为连续文字;
14.利用倒排索引构建语音关键词搜索库;
15.在所述语音关键词搜索库中输入关键词进行检索;
16.获取所述语音关键词搜索库输出的检索结果。
17.优选地,所述对所述语音数据进行预处理包括步骤:
18.对所述语音数据进行特征提取;
19.对所述语音数据进行静音检测;
20.对所述语音数据进行多环境混响增强。
21.优选地,所述将所述语音数据输入mvgg

ctc模型中训练包括步骤:
22.构建mvgg模型;
23.构建连接时序分类器;
24.将所述语音数据依次输入所述mvgg模型和所述连接时序分类器;
25.获取所述连接时序分类器输出的拼音序列。
26.优选地,所述构建语音模型和词典包括步骤:
27.构建一元言模型和二元语言模型;
28.把所述一元语言模型的汉字构建成拼音词典。
29.优选地,所述将所述mvgg

ctc模型输出的拼音序列转化为连续文字包括步骤:
30.构建马尔可夫模型;
31.基于恐慌补偿的维特比算法构建解码器;
32.将所述拼音序列依次输入所述马尔可夫模型和所述解码器;
33.获取所述解码器输出的连续文字。
34.优选地,所述利用倒排索引构建语音关键词搜索库包括步骤:
35.识别所述语音数据中每段语音所对应的文字序列;
36.构建倒排索引库;
37.构建搜索程序。
38.本技术提供的一种基于mvgg

ctc的关键词搜索方法具有如下有益效果:
39.(1)改进了网络结构,提升了语音识别的效率与准确度;
40.(2)提升模型的鲁棒性;
41.(3)能够实现快速关键词检索的智能自动识别。
附图说明
42.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
43.图1为本发明提供的一种基于mvgg

ctc的关键词搜索方法的流程示意图;
44.图2为本发明提供的一种基于mvgg

ctc的关键词搜索方法中频谱图提取流程示意图;
45.图3为本发明提供的一种基于mvgg

ctc的关键词搜索方法中mvgg

ctc网络结构示意图;
46.图4为本发明提供的一种基于mvgg

ctc的关键词搜索方法中倒排索引结构示意图。
具体实施方式
47.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
48.如图1

4,在本技术实施例中,本发明提供了一种基于mvgg

ctc的关键词搜索方法,所述方法包括步骤:
49.s1:获取语音数据;
50.在本技术实施例中,语音数据可以通过多种存储设备进行获取。
51.s2:对所述语音数据进行预处理;
52.在本技术实施例中,所述对所述语音数据进行预处理包括步骤:
53.对所述语音数据进行特征提取;
54.对所述语音数据进行静音检测;
55.对所述语音数据进行多环境混响增强。
56.在本技术实施例中,当对所述语音数据进行预处理时,通过对接收的输入语音信号提取声学特征,所述声学特征包括语谱图特征、filterbank(滤波器组)特征、mfcc(梅尔倒谱系数)特征或plp(感知线性预测)特征其中的任意一种;对输入模型的训练和测试的语音数据使用基于信噪比snr(信噪比)的静音检测方法、基于gmm(高斯混合模型)的静音检测方法或基于dnn(深度神经网络)的静音检测方法其中的任意一种,实现去除音频信号中的非语音段;使用多环境混响的语音增强方式把包括室内混响、室外噪音以及音乐噪音等增强至原有训练语料中进行扩充以便达到更好的拟合效果和泛化能力。
57.s3:将所述语音数据输入mvgg

ctc模型中训练;
58.在本技术实施例中,所述将所述语音数据输入mvgg

ctc模型中训练包括步骤:
59.构建mvgg模型;
60.构建连接时序分类器;
61.将所述语音数据依次输入所述mvgg模型和所述连接时序分类器;
62.获取所述连接时序分类器输出的拼音序列。
63.在本技术实施例中,当将所述语音数据输入mvgg

ctc模型中训练时,对步骤s1处理后的训练语音特征进入mvgg

ctc模型中训练,该模型识别语音特征到拼音序列。其训练过程如以下步骤:对于原始vgg网络进行修改在每层网络间增加批标准化层并调整卷积核大小和全连接层维度,以便加速和适配语音特征信号的训练,其具体结构包含16个卷积层、6个池化层、18个batchnormalization(批标准化)层以及2个全连接层,最后通过softmax归
一化得到语音神经元特征向量用于计算ctc损失函数。对于ctc连接时序分类,以给定一个输入序列为条件,其网络输出是标签序列对应输入序列所有可能方式的概率分布。其目标函数p(y|x)通过以下形式计算:
[0064][0065]
首先计算该式代表给定长度为t的输入序列x,输出为a序列的概率,a
t
代表t时刻的拼音标签,输入语音神经元特征向量维度是200维向量,每个时间点默认输出的拼音维度是1424(即1423个拼音和1个空白块)。
[0066][0067]
然后计算是由于a序列中的连续空白块移除的过程会导致序列重复的现象,如a(c_a__t)和a(_c__at)移除空白块都是a(cat),移除空白块的序列为最终输出序列,对移除空白块后相同的序列分布概率进行求和计算。
[0068]
基于以上公式,ctc根据如下公式获得最可能的序列:
[0069]
h(x)=argmaxp(a|x),
[0070]
对于语音段特征输入x={x1,x2,...,x
t
},经过[0013]~[0017]过程,输出拼音序列为y={y1,y2,...,y
n
}。
[0071]
s4:构建语音模型和词典;
[0072]
在本技术实施例中,所述构建语音模型和词典包括步骤:
[0073]
构建一元言模型和二元语言模型;
[0074]
把所述一元语言模型的汉字构建成拼音词典。
[0075]
在本技术实施例中,当构建语音模型和词典时,使用基于统计的方法构建一元、二元语言模型,用于计算单字与两字词分别的概率;然后利用pypinyin工具把一元语言模型中的汉字转录成为拼音词典,具体形式是每个拼音对应其相应的多个汉字。
[0076]
s5:将所述mvgg

ctc模型输出的拼音序列转化为连续文字;
[0077]
在本技术实施例中,所述将所述mvgg

ctc模型输出的拼音序列转化为连续文字包括步骤:
[0078]
构建马尔可夫模型;
[0079]
基于恐慌补偿的维特比算法构建解码器;
[0080]
将所述拼音序列依次输入所述马尔可夫模型和所述解码器;
[0081]
获取所述解码器输出的连续文字。
[0082]
在本技术实施例中,当将所述mvgg

ctc模型输出的拼音序列转化为连续文字时,对于mvgg

ctc模型输出的拼音序列使用基于恐慌补偿的维特比解码器转化成连续的文字;该步骤分为以下两个分步骤:构建马尔可夫模型,用于计算词与词之间的转移概率;构建基于恐慌补偿的维特比算法构建解码器,用于实现连续拼音序列解码成文字序列。
[0083]
s6:利用倒排索引构建语音关键词搜索库;
[0084]
在本技术实施例中,所述利用倒排索引构建语音关键词搜索库包括步骤:
[0085]
识别所述语音数据中每段语音所对应的文字序列;
[0086]
构建倒排索引库;
[0087]
构建搜索程序。
[0088]
在本技术实施例中,当利用倒排索引构建语音关键词搜索库时,对所需要识别语音数据通过步骤s1到步骤s5对每段语音进行自动识别得到所对应的文字序列,其形式为:(语音id,创建时间,文字序列);然后构建倒排索引库,对于每句话中的每个词作为索引id,其对应的属性是一个创建时间和语音id的集合,其形式为:{索引id,[(创建时间1,语音id1),(创建时间2,语音id2),
……
,(创建时间n,语音idn)]};接着构建搜索程序,利用jieba工具对输入的信息进行分词,对分词的结果传入倒排索引库中进行搜索,返回查询到的创建时间和语音id的序列。
[0089]
s7:在所述语音关键词搜索库中输入关键词进行检索;
[0090]
s8:获取所述语音关键词搜索库输出的检索结果。
[0091]
在本技术实施例中,根据输入的关键词进行检索,输出待识别的关键词所属语音id及其详细信息,作为检索结果。至此整个系统流程完成。
[0092]
本技术提供的一种基于mvgg

ctc的关键词搜索方法具有如下有益效果:
[0093]
(1)改进了网络结构,提升了语音识别的效率与准确度;
[0094]
(2)提升模型的鲁棒性;
[0095]
(3)能够实现快速关键词检索的智能自动识别。
[0096]
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜