技术特征:
1.一种通道注意力传播与聚合下的声纹识别方法,其特征在于:该方法包括以下步骤:
s1:原始语音离散信号的二阶小波散射变换;
s2:多尺度特征的声纹映射编码;
s3:声纹编码的相似度评估。
2.根据权利要求1所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述s1具体为:
小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的,记小波f(t)为中心频率归一化为1的带通滤波器,通过扩张小波f(t)得到小波滤波器组fλ(t):
fλ(t)=λf(λt)(1)
在零阶,由式(2)计算小波系数,该系数对于音频信号接近于零;在计算一阶小波系数时,设置q1=8,相当于定义具有与梅尔频率滤波器组相同频率尺度的小波;同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数:
s0x(t)=x*φ(t)(2)
由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数:
小波
级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征s:
s=concatnate(s1x(t,λ1),s2x(t,λ1,λ2))(5)
该特征为相同信号提供了不同尺度特征;该散射特征包括了对数梅尔特征以及更高阶特征,保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。
3.根据权利要求2所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述s2具体为:
设计残差连接下的平均分组交替规则,实现声纹特征的全局信息复用,构建适用于不同组别的小尺度卷积核,获取声纹特征的局部信息,降低残差网络参数量;采用“压缩-扩张”操作进一步筛选声纹特征的有用信息,提高声纹特征的可分性;
在残差连接交替卷积和注意力模块resa2net模块模块中,以倒谱系数表征的单个声纹特征通过点卷积运算,转换成n组特征子集,表示为
原始x-vector系统中的帧级特征的时间上下文限制为15帧,引入一维“压缩-扩张”模块与扩张卷积级联,对全局的通道相互依赖性建模,将全局空间信息转换至通道描述中,学习通道间的非线性相互作用与非互斥关系;
一维“压缩-扩张”模块的第一部分是对输入yt的“压缩”操作:
在“扩张”阶段,使用s中的描述计算每个通道的权重:
d=σ(w2f(w1s b1) b2)(8)
其中σ(·)表示sigmoid函数,f(·)表示mish激活函数,
原始x-vector系统使用最后一层的帧级特征层映射计算汇总统计信息,对于每一个帧级特征层,利用所提出的系统将其聚合连接;
c和t分别对应中间特征映射的通道数和时间维度,d为扩张卷积的扩张空间,s为训练集说话人数量;在多层特征聚合mfa后,将聚合后的帧级特征送入统计池化层,经过该层的输出即为声纹编码;
在网络权值初始化时,在全连接层的权重上引入正则性约束:
其中w是网络最后一层的权重,z为一个n维的向量
提高以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。
4.根据权利要求3所述的一种通道注意力传播与聚合下的声纹识别方法,其特征在于:所述s3具体为:
根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码,按式(11)对不同声纹编码δk与δh进行相似度计算,以完成声纹识别:
技术总结
本发明涉及一种通道注意力传播与聚合下的声纹识别方法,属于信号处理领域。该方法包括以下步骤:S1:原始语音离散信号的二阶小波散射变换;S2:多尺度特征的声纹映射编码;S3:声纹编码的相似度评估。本发明通过小波散射变换获取多尺度的短时语音特征,采用基于通道注意力传播和聚合的时延神经网络对多尺度特征进行映射得到声纹编码,以提高声纹识别的准确性与鲁棒性。本研究兼顾了长时与短时语音的处理,为含有短时语音数据的声纹识别,提供了新的技术手段,亦可迁移到其他语音处理领域,作为声纹编码的获取方法之一。
技术研发人员:李鹏华;田鹏;刘行谋;陈旭赢;李祖栋;卢楠;王宁;鲁鑫;高翔
受保护的技术使用者:重庆邮电大学
技术研发日:2021.04.06
技术公布日:2021.07.06
本文用于企业家、创业者技术爱好者查询,结果仅供参考。