一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于时序马尔科夫过程的自适应音量优化方法与流程

2022-06-11 23:07:10 来源:中国专利 TAG:


1.本发明涉及声音信号处理技术领域,尤其涉及一种基于时序马尔科夫过程的自适应音量优化方法。


背景技术:

2.公共场所如广场、公共汽车站、地铁等具有人流量大、地域广等特点,且公共场所的安全防范一直受到各国政府和人民的广泛关注。目前以视频监控为主的监控技术为公共场所的安全防范起到了积极的作用,然而视频监控技术存在监控死角、阴雨天监控模糊等问题。众所周知,在异常事件发生时常常伴随着尖叫声、枪声、玻璃破碎声、爆炸声等异常声音,因此音频监控与视频监控的协作运行已经成为公共场所安全监控领域的发展方向。
3.而在进行以语音识别为基础的多人实录系统中,室内环境结构、麦克风硬件、说话人位置和声音,都显著影响现场识别效果,各因素的变动容易造成收音微弱、麦克风串音,进而导致明显的识别率下降和识别结果错误等。
4.例如,中国专利cn202010825664.7公开了声音优化方法及声音优化系统。系统能够根据客户属性为其配置相应的声音优化模式,将人工坐席或语音机器人的音色音调转换为目标优化模式,提升客户体验;但是对于音源的识别效率并没有有效改进。


技术实现要素:

5.本发明主要解决现有的技术中多音源识别效率低的问题;提供一种基于时序马尔科夫过程的自适应音量优化方法。
6.本发明的上述技术问题主要是通过下述技术方案得以解决的:一种基于时序马尔科夫过程的自适应音量优化方法,包括以下步骤:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;将音源信号进行自适应音源增益、噪音识别和串音识别;将优化后的音源信号进行音源输出。通过自适应音源增益、噪音识别和串音识别实现准确的音源识别,实时分析各通道的音源音量,判断出保持理想识别效果的音量增益参数,实时分析多路通道的声学信息,判断各通道是否存有干扰语音,并进行相应的防串音抑制,提高声音识别率,对于硬件要求低,不受周围环境影响,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
7.作为优选,所述的声音采集单元为相互之间距离小于1m的多个有线麦克风或相互之间距离大于5m的多个无线麦克风。降低无线传输造成的音源接收干扰。
8.作为优选,音源信号采集的方法为:在同一时间帧内将全部通道的音源信号进行汇集。降低音源采集对于硬件的要求,减少成本。
9.作为优选,所述的音源增益的方法为:获取当前帧某一音源通道内的音源信号,并获取该帧音源信号声音提供者k帧历史帧信号,将k 1帧音源信号输入前馈记忆网络得到增益后的音源信号。
10.作为优选,所述的串音识别的方法为:对各通道的特征数据进行相似度计算,对相似度高的通道,再通过时序马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,将识别出的时间上有向后延迟的相似通道判定为串音通道。
11.作为优选,取每个通道在当前时间的特征和历史时间帧上的特征进行异常检测,识别出麦克风突然采集声音的过程,并计算该过程是串音发生的概率,将串音发生概率和串音通道判定结果进行加权计算,得到最终的串音识别结果。
12.作为优选,前馈记忆网络的损失函数为二元逻辑损失函数。通过二元逻辑损失函数进行样本调整,实现前馈记忆网络的参数调整。
13.本发明的有益效果是:通过自适应音源增益、噪音识别和串音识别实现准确的音源识别,实时分析各通道的音源音量,判断出保持理想识别效果的音量增益参数,实时分析多路通道的声学信息,判断各通道是否存有干扰语音,并进行相应的防串音抑制,提高声音识别率,对于硬件要求低,不受周围环境影响,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
附图说明
14.图1是本发明实施例的音量优化方法的流程框图。
具体实施方式
15.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
16.需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
17.为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
18.实施例1:一种基于时序马尔科夫过程的自适应音量优化方法,如图1所示,包括以下步骤:
19.s1:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;声音采集单元为相互之间距离小于1m的多个有线麦克风或相互之间距离大于5m的多个无线麦克风,音源信号采集的方法为:在同一时间帧内将全部通道的音源信号进行汇集,通过采音麦克风及相关拾音组件采集的各通道语音信号,分别提取声源的数字信号和声学信息;在实际应
用中,因采集设备已被标记区分,因此可以取到每个讲话人实时的语音数字信号。
20.s2:对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;根据提供的预设的特征量化和分析,确定原信号的音量指标,例如:对于某个通道的数据其共有4000个数,取窗口大小为200,窗口总数为20,则将获得维度为20
×
200的窗口数据,该数据再通过特征融合,最后表达为一个长度为512的矢量在对所有通道进行如上操作后,将输出维度为4
×
512的特征数据。
21.s3:将音源信号进行自适应音源增益、噪音识别和串音识别;音源增益的方法为:获取当前帧某一音源通道内的音源信号,并获取该帧音源信号声音提供者k帧历史帧信号,将k 1帧音源信号输入前馈记忆网络得到增益后的音源信号,具体为:对某个通道的发言人在当前桢采集到的声学数字信号除词之外,还需k帧该发言人的历史桢信号共k 1帧信号通过前馈记忆网络,网络经过多层前向神经网络和记忆网络,输出长度为h的表征局部声学信息特征的浮点数向量和维度为h的表征历史声学信息特征的浮点数向量二者加权激活后输出一个浮点数其中relu是一种激活函数,,w、b是训练好的参数,如p=0.5,则l
out
=0.5
·
l
in
。根据本方法提供的增益策略,每个通道的音源都将根据自身特征实时确定独有的增益参数,增益后的音源在感官上具有清晰稳定的收听效果,不存在无法听清和爆破音等情况,在现实应用中也对识别增效、音源留底起到了显著作用。
22.其中,噪音识别的方法为:根据每个音源通道的特征提取结果进行音源分类,建立分类模型,设置噪音阈值,计算音源通道的数字信号功率以及输出分类模型结果,具体为:对某通道的声学数字信号,首先计算其功率,如再对其经过特征数据提取后进入分类模型,输出其为噪音音源的概率若二者有其一超过给定阈值,则判定该通道为环境噪音音源,其分类模型的设定方法为根据历史数据或者大量实验数据进行数据特征整合后建立的大数据融合分类模型,具有一定的可靠性。
23.其中,串音识别的方法为:对各通道的特征数据进行相似度计算,对相似度高的通道,再通过时序马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,将识别出的时间上有向后延迟的相似通道判定为串音通道;取每个通道在当前时间的特征和历史时间帧上的特征进行异常检测,识别出麦克风突然采集声音的过程,并计算该过程是串音发生的概率,将串音发生概率和串音通道判定结果进行加权计算,得到最终的串音识别结果;其具体过程为:存在4个通道的特征数据,两两进行相似度计算,假设第2通道、第3通道、第4通道的相似度较高,s
2,3
=80%,s
2,4
=85%,s
3,4
=73%,,即第2通道和第3通道有80%是相似的,第2通道和第4通道有85%是相似的,第3通道和第4通道有73%是相似的,然后对3个通道的原始采集到的声学数字信号进行时序对齐,对齐的过程是计算相似通道对之间相似的部分发生在哪些时间段上,并取概率最大的对齐路径,假设对齐后第3通道和第4通道均延后于第2通道,则第3通道和第4通道则是相对于第2通道的串音通道,对某通道,在该时间桢上的特征数据为512维的
取k桢历史特征数据对该k 1帧的特征进行时序上的前馈记忆网络建模,结果将输出一个概率,表示综合历史k桢的数据模式来看,发生串音的概率,如p=0.87,将串音发生概率和串音通道判定结果进行加权计算,得到最终的串音识别结果,对串音通道进行标记,其加权数值根据实际实验获得。
24.s4:将优化后的音源信号进行音源输出,在特定时间桢上的所有麦克风通道音源有3中处理结果,一是正常音源,二是环境噪音音源,三是串音音源,将环境噪声音源的识别结果置空,将串音音源的识别结果输送给图像处理单元,将正常音源输入语音识别模块进行语音识别,结合图像采集单元采集的人脸信息,进行正常音源与说话角色的匹配;其匹配方法为:图像处理单元获取图像采集单元采集的图像信息、串音通道音源和正常音源,提取串音音源与正常音源相同的声纹信息,获取两个通过记录音源信息的时刻,进行声源位置的标记,结合图像信息进行声源角色确认,并进行正常音源匹配,输出匹配结果。
25.本发明提供了一种弱化采音硬件参数、实录室内环境、目标发言人姿态行为等限制、且综合考虑了声音信号采集和串音现象发生原因的防串音方法和产品,适配于广泛的实际使用场景,有效避免多人参与、多人同时说话易造成的串音现象,提高音源识别效率的同时降低硬件成本。
26.实施例2:本实施例的音源增益方法为:首先设定多个区间,对应不同的放大倍数,如
[0027][0028]
其中,f(x)是增益倍数,是采集到的说话人的某时刻某帧的声音数字信号均值。
[0029]
例如:对于某一特定人的一帧声音数据:
[0030]
l=[l1,l2,

,l
4000
]
[0031]
计算4000个数的均值:
[0032][0033]
根据区间放大倍数,f(x)=2,对l*2得到增益后的声学信号。
[0034]
本实施例的音源增益方法相比于实施例1的音源增益方法,本实施例需要提前设置各声音信号均值音量的放大倍数,通用性较差,且具有一定延迟性,容易产生杂音,导致文字识别准确性降低。
[0035]
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献