一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于双曲线空间的声纹识别方法及系统与流程

2022-05-11 14:59:49 来源:中国专利 TAG:


1.本发明涉及声纹识别技术领域,具体涉及一种基于双曲线空间的声纹识别方法及系统。


背景技术:

2.声纹识别是一种基于语音特征的生物识别技术。不同人的发声器官例如肺、气管、声带、口腔、鼻腔、咽腔等在尺寸和形态方面存在的生理差异,利用每个人语音中包含的独特信息,可以进行个人身份的识别和验证。
3.现有技术中,声纹识别技术通过提取声纹的特征,将特征映射到嵌入空间,进行声纹识别。然而,现有技术中大多数的嵌入空间通常基于欧几里得空间,因此未考虑到语音特征的固有层次结构,导致进行较小维度的识别比较困难。例如,一方面相似语调和相似说话方式的人的主要特征很容易聚集,导致声纹难以识别,另一方面个人的声音可能会随着自身的音调、音高和情感原因而发生变化,导致声纹难以识别。


技术实现要素:

4.本发明的目的就在于解决上述背景技术的问题,而提出一种基于双曲线空间的声纹识别方法及系统,通过放大特征之间的区别,可以进行更小维度的声纹识别。
5.本发明的目的可以通过以下技术方案实现:
6.本发明实施例第一方面,首先提供了一种基于双曲线空间的声纹识别方法,所述方法包括:
7.获取待识别的声纹信息进行预处理,得到第一声纹信息;
8.提取所述第一声纹信息的特征,得到第一特征;
9.将所述第一特征与预设的协方差矩阵相乘,得到目标特征;
10.根据预设的双曲线空间模型,计算所述目标特征和预设的声纹识别特征之间的相似度;
11.根据所述目标特征和预设的声纹识别特征之间的相似度输出声纹识别结果。
12.可选地,获取待识别的声纹信息进行预处理,得到第一声纹信息,包括:
13.获取时域的语音信号作为待识别的声纹信息,对所述待识别的声纹信息进行预加重处理,得到第一预处理声纹信息;
14.对所述第一预处理声纹信息进行分帧处理,得到第二预处理声纹信息;
15.对所述第二预处理声纹信息的每帧语音信号进行加窗,得到第三预处理声纹信息;
16.对所述第三预处理声纹信息进行快速傅里叶变换,得到第一声纹信息。
17.可选地,提取所述第一声纹信息的特征,得到第一特征,包括:
18.使用mel滤波器对所述第一声纹信息进行滤波,得到mel域频谱;所述mel滤波器为高斯滤波器;
19.对mel域频谱取log对数,然后进行离散余弦变换,得到第一特征。
20.可选地,在将所述第一特征与预设的协方差矩阵相乘,得到目标特征之前,所述方法还包括:
21.获取多个待训练的声纹信息进行预处理,得到第二声纹信息;
22.提取所述第二声纹信息的特征,作为声纹识别特征;
23.针对每一声纹识别特征,计算该声纹识别特征的协方差矩阵。
24.可选地,所述双曲线空间模型为庞加莱球型模型{x∈rn| ||x||<1},其中rn表示n维欧式空间,||x||表示欧氏距离;
25.根据预设的双曲线空间模型,计算所述目标特征和预设的声纹识别特征之间的相似度,包括:
26.获取所述目标特征和预设的声纹识别特征在欧式空间的坐标;
27.根据所述庞加莱球型模型的空间距离公式计算所述目标特征和预设的声纹识别特征之间的相似度;所述庞加莱球型模型的空间距离公式为其中u和v分别表示所述目标特征和预设的声纹识别特征在欧式空间的坐标。
28.本发明实施例第二方面,还提供了一种基于双曲线空间的声纹识别系统,包括第一预处理模块、声纹特征提取模块、sof模块、双曲线空间模型和结果输出模块;
29.所述第一预处理模块,用于获取待识别的声纹信息进行预处理,得到第一声纹信息;
30.所述声纹特征提取模块,用于提取所述第一声纹信息的特征,得到第一特征;
31.所述sof模块,用于将所述第一特征与预设的协方差矩阵相乘,得到目标特征;
32.所述双曲线空间模型,用于根据预设的双曲线空间模型,计算所述目标特征和预设的声纹识别特征之间的相似度;
33.所述结果输出模块,用于根据所述目标特征和预设的声纹识别特征之间的相似度输出声纹识别结果。
34.可选地,所述第一预处理模块包括:
35.预加重子模块,用于获取时域的语音信号作为待识别的声纹信息,对所述待识别的声纹信息进行预加重处理,得到第一预处理声纹信息;
36.分帧子模块,用于对所述第一预处理声纹信息进行分帧处理,得到第二预处理声纹信息;
37.加窗子模块,用于对所述第二预处理声纹信息的每帧语音信号进行加窗,得到第三预处理声纹信息;
38.快速傅里叶子模块,用于对所述第三预处理声纹信息进行快速傅里叶变换,得到第一声纹信息。
39.可选地,所述声纹特征提取模块包括:
40.频谱转换子模块,用于使用mel滤波器对所述第一声纹信息进行滤波,得到mel域频谱;所述mel滤波器为高斯滤波器;
41.特征提取子模块,用于对mel域频谱取log对数,然后进行离散余弦变换,得到第一特征。
42.可选地,所述第一预处理模块,还用于获取多个待训练的声纹信息进行预处理,得到第二声纹信息;
43.所述声纹特征提取模块,还用于提取所述第二声纹信息的特征,作为声纹识别特征;
44.所述sof模块,还用于针对每一声纹识别特征,计算该声纹识别特征的协方差矩阵。
45.可选地,所述双曲线空间模型为庞加莱球型模型{x∈rn|||x||<1},其中rn表示n维欧式空间,||x||表示欧氏距离;
46.所述双曲线空间模型包括:
47.欧式空间子模块,用于获取所述目标特征和预设的声纹识别特征在欧式空间的坐标;
48.相似度计算子模块,用于根据所述庞加莱球型模型的空间距离公式计算所述目标特征和预设的声纹识别特征之间的相似度;所述庞加莱球型模型的空间距离公式为其中u和v分别表示所述目标特征和预设的声纹识别特征在欧式空间的坐标。
49.基于本发明实施例提供的基于双曲线空间的声纹识别方法,获取待识别的声纹信息进行预处理,得到第一声纹信息;提取第一声纹信息的特征,得到第一特征;将第一特征与预设的协方差矩阵相乘,得到目标特征;根据预设的双曲线空间模型,计算目标特征和预设的声纹识别特征之间的相似度;根据相似度输出声纹识别结果。通过将目标特征映射到双曲线空间模型,可以放大特征之间的区别,进行更小维度的声纹识别,且目标特征为第一特征与预设的协方差矩阵相乘而得,目标特征相较于第一特征更加平滑,因此使用目标特征进行声纹识别更加精准。
附图说明
50.下面结合附图对本发明作进一步的说明。
51.图1为本发明实施例提供的一种基于双曲线空间的声纹识别方法的流程图;
52.图2为本发明实施例提供的另一种基于双曲线空间的声纹识别方法的流程图;
53.图3为本发明实施例提供的另一种基于双曲线空间的声纹识别方法的流程图;
54.图4为本发明实施例提供的另一种基于双曲线空间的声纹识别方法的流程图;
55.图5为本发明实施例提供的另一种基于双曲线空间的声纹识别方法的流程图;
56.图6为本发明实施例还提供了一种基于双曲线空间的声纹识别系统的系统框图。
具体实施方式
57.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
58.本发明实施例提供了一种基于双曲线空间的声纹识别方法。参见图1,图1为本发明实施例提供的一种基于双曲线空间的声纹识别方法的流程图,该方法包括:
59.s101,获取待识别的声纹信息进行预处理,得到第一声纹信息。
60.s102,提取第一声纹信息的特征,得到第一特征。
61.s103,将第一特征与预设的协方差矩阵相乘,得到目标特征。
62.s104,根据预设的双曲线空间模型,计算目标特征和预设的声纹识别特征之间的相似度。
63.s105,根据目标特征和预设的声纹识别特征之间的相似度输出声纹识别结果。
64.基于本发明实施例提供的基于双曲线空间的声纹识别方法,通过将目标特征映射到双曲线空间模型,可以放大特征之间的区别,进行更小维度的声纹识别,且目标特征为第一特征与预设的协方差矩阵相乘而得,目标特征相较于第一特征更加平滑,因此使用目标特征进行声纹识别更加精准。
65.一种实现方式中,通过提取第一声纹信息的mfcc(mel frequency cepstral coefficient,梅尔倒谱系数)、lpcc(linear predictive cepstral coefficient,线性预测倒谱系数)、plp(perceptual linear prediction,感知线性预测),可以作为第一声纹信息的特征。
66.在一个实施例中,参见图2,在图1的基础上步骤s101包括:
67.s1011,获取时域的语音信号作为待识别的声纹信息,对待识别的声纹信息进行预加重处理,得到第一预处理声纹信息。
68.s1012,对第一预处理声纹信息进行分帧处理,得到第二预处理声纹信息。
69.s1013,对第二预处理声纹信息的每帧语音信号进行加窗,得到第三预处理声纹信息。
70.s1014,对第三预处理声纹信息进行快速傅里叶变换,得到第一声纹信息。
71.一种实现方式中,对待识别的声纹信息进行预加重的目的是对声纹信息的高频部分进行加重,去除口唇辐射的影响,增加声纹信息的高频分辨率,保持从低频到高频的整个频带中,能用同样的信噪比求频谱,提高信号传输质量。预加重处理可以将声纹信息通过一个高通滤波器:x
p
(n)=x(n)-k(n-1),k可以取0-1之间的任何数字,语音处理通常使用0.9-0.97。
72.对第一预处理声纹信息进行分帧处理的时间间隔可以为20ms-40ms之间,可以由技术人员根据经验进行设置。
73.对第二预处理声纹信息的每帧语音信号进行加窗,将每帧语音信号与一个平滑的窗函数相乘,可以使每帧两端平滑地衰减到零,降低傅里叶变换后旁瓣的强度,获得更高质量的频谱。常用的窗函数有矩形窗、汉明窗、汉宁窗、高斯窗等。例如,汉明窗为其中α=0.53836,β=0.46164。
74.通过对第三预处理声纹信息进行快速傅里叶变换,可以将第三预处理声纹信息从时域转换为频域。
75.在一个实施例中,参见图3,在图2的基础上步骤s102包括:
76.s1021,使用mel滤波器对第一声纹信息进行滤波,得到mel域频谱;mel滤波器为高斯滤波器。
77.s1022,对mel域频谱取log对数,然后进行离散余弦变换,得到第一特征。
78.一种实现方式中,通过提取第一声纹信息的mfcc作为第一特征。由于人类听觉系统是一个特殊的非线性系统,可以以不同灵敏度响应不同频率信号,mel滤波器可以将目标语音信号从线性频谱映射到基于听觉感知的mel非线性频谱中。
79.将普通频率转化到mel频率的公式(1):
[0080][0081]
mel滤波器为高斯滤波器(2):
[0082][0083]
其中k
bi
为滤波器边界点,σi为标准偏差,α表示控制方差的参数。
[0084]
一种实现方式中,对mel域频谱取对数可以增强声音信号中的低频信号,进而从低频信号中提取更多隐藏的特征。离散余弦变换(discrete cosine transform,dct)为快速傅里叶逆变换,通过dct可以得到一些系数向量,即为倒谱系数。
[0085]
在一个实施例中,参见图4,在图1的基础上步骤s103之前,该方法还包括:
[0086]
s106,获取多个待训练的声纹信息进行预处理,得到第二声纹信息。
[0087]
s107,提取第二声纹信息的特征,作为声纹识别特征。
[0088]
s108,针对每一声纹识别特征,计算该声纹识别特征的协方差矩阵。
[0089]
一种实现方式中,步骤s106中对多个待训练的声纹信息进行预处理,与上述步骤s1011-s1014的操作相同。
[0090]
一种实现方式中,步骤s107中提取第二声纹信息的特征,与上述步骤s1021-s1022的操作相同。
[0091]
一种实现方式中,待训练的声纹信息带有分类标签,分类标签用于标识声纹信息的所属人信息。
[0092]
一种实现方式中,通过sof(self-organising fuzzy logic,自组织模糊逻辑)分类器可以计算声纹识别特征的协方差矩阵。
[0093]
在一个实施例中,双曲线空间模型为庞加莱球型模型{x∈rn|||x||<1},其中rn表示n维欧式空间,||x||表示欧氏距离;
[0094]
参见图5,在图4的基础上步骤s104包括:
[0095]
s1041,获取目标特征和预设的声纹识别特征在欧式空间的坐标。
[0096]
s1042,根据庞加莱球型模型的空间距离公式计算目标特征和预设的声纹识别特征之间的相似度。
[0097]
庞加莱球型模型的空间距离公式(3):
[0098][0099]
其中u和v分别表示目标特征和预设的声纹识别特征在欧式空间的坐标。
[0100]
一种实现方式中,庞加莱球型模型的黎曼张量为公式(4):
[0101][0102]
其中,ge为欧几里得张量。
[0103]
通过将目标特征和预设的声纹识别特征映射到欧式空间,可以得到相应的欧式空间的坐标。通过公式(4)可以将欧式空间映射到庞加莱球型模型,即可得到庞加莱球型模型的空间距离公式(3)。通过庞加莱球型模型的空间距离公式(3),可以使用目标特征和预设的声纹识别特征在欧式空间的坐标,计算目标特征和预设的声纹识别特征之间的相似度。
[0104]
基于相同的发明构思,本发明实施例还提供了一种基于双曲线空间的声纹识别系统。参见图6,图6为本发明实施例还提供了一种基于双曲线空间的声纹识别系统的系统框图,包括第一预处理模块601、声纹特征提取模块602、sof模块603、双曲线空间模型604和结果输出模块605;
[0105]
第一预处理模块601,用于获取待识别的声纹信息进行预处理,得到第一声纹信息;
[0106]
声纹特征提取模块602,用于提取第一声纹信息的特征,得到第一特征;
[0107]
sof模块603,用于将第一特征与预设的协方差矩阵相乘,得到目标特征;
[0108]
双曲线空间模型604,用于根据预设的双曲线空间模型,计算目标特征和预设的声纹识别特征之间的相似度;
[0109]
结果输出模块605,用于根据目标特征和预设的声纹识别特征之间的相似度输出声纹识别结果。
[0110]
基于本发明实施例提供的基于双曲线空间的声纹识别系统,通过将目标特征映射到双曲线空间模型,可以放大特征之间的区别,进行更小维度的声纹识别,且目标特征为第一特征与预设的协方差矩阵相乘而得,目标特征相较于第一特征更加平滑,因此使用目标特征进行声纹识别更加精准。
[0111]
在一个实施例中,第一预处理模块601包括:
[0112]
预加重子模块,用于获取时域的语音信号作为待识别的声纹信息,对待识别的声纹信息进行预加重处理,得到第一预处理声纹信息;
[0113]
分帧子模块,用于对第一预处理声纹信息进行分帧处理,得到第二预处理声纹信息;
[0114]
加窗子模块,用于对第二预处理声纹信息的每帧语音信号进行加窗,得到第三预处理声纹信息;
[0115]
快速傅里叶子模块,用于对第三预处理声纹信息进行快速傅里叶变换,得到第一声纹信息。
[0116]
在一个实施例中,声纹特征提取模块602包括:
[0117]
频谱转换子模块,用于使用mel滤波器对第一声纹信息进行滤波,得到mel域频谱;mel滤波器为高斯滤波器;
[0118]
特征提取子模块,用于对mel域频谱取log对数,然后进行离散余弦变换,得到第一特征。
[0119]
在一个实施例中,第一预处理模块601,还用于获取多个待训练的声纹信息进行预处理,得到第二声纹信息;
[0120]
声纹特征提取模块602,还用于提取第二声纹信息的特征,作为声纹识别特征;
[0121]
sof模块603,还用于针对每一声纹识别特征,计算该声纹识别特征的协方差矩阵。
[0122]
在一个实施例中,双曲线空间模型为庞加莱球型模型;
[0123]
双曲线空间模型604包括:
[0124]
欧式空间子模块,用于获取目标特征和预设的声纹识别特征在欧式空间的坐标;
[0125]
相似度计算子模块,用于根据庞加莱球型模型的空间距离公式计算目标特征和预设的声纹识别特征之间的相似度;庞加莱球型模型的空间距离公式为其中u和v分别表示目标特征和预设的声纹识别特征在欧式空间的坐标。
[0126]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0127]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0128]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例
的部分说明即可。
[0129]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献