一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种声纹鉴定特征音段智能提取方法和系统与流程

2021-06-11 21:44:00 来源:中国专利 TAG:鉴定 技术 提取 语音 特征
一种声纹鉴定特征音段智能提取方法和系统与流程

本发明涉及语音识别技术、语音同一性鉴定技术,尤其涉及一种声纹鉴定特征音段智能提取方法和系统。



背景技术:

语音同一性鉴定又称声纹鉴定,指通过比较,分析,对声像资料记载的语音的同一性问题所进行的科学判断。当前司法鉴定中,声纹鉴定方法主要基于检材语音和样本语音中相同语音的听觉特征和频谱特征的比较检验,其中,供比较检验的蕴含特定语音特征的相同语音称之为特征音段,可以是相同语句、相同的短语、词组或字的语音。特征音段的有效提取是声纹鉴定中的主要且重要的工作内容,然而,现有的特征音段的提取均是基于鉴定专家的人为听辨分析,特征音段提取效率低下,准确性受不同鉴定人的经验能力水平制约。然而,当前的自然语音处理技术得到了长足的发展,可以有效应用于声纹鉴定中的特征音段的准确高效智能提取,提高声纹鉴定效率和准确性。



技术实现要素:

针对法庭科学和司法鉴定等领域对声纹鉴定新技术新方法的需求,本发明提供一种声纹鉴定特征音段智能提取方法和系统,以解决现有的声纹鉴定中特征音段的人为听辨分析选取方法中存在的效率低下、准确性得不到保障等问题,通过语音识别技术、语音特征提取和相似性计算方法实现声纹鉴定中特征音段的有效准确智能提取,提高声纹鉴定实施效能。

本发明是通过如下技术方案实现的:

一种声纹鉴定特征音段智能提取方法,包括如下步骤:

步骤a、使用语音识别技术对检材语音和样本语音进行语音文本转写和文本语音定位,形成检材语音文本和样本语音文本,以及检材语音文本和样本语音文本的文本语音定位信息;

步骤b、在所述的检材语音文本和所述的样本语音文本中进行相同文本检索,并通过所述的文本语音定位信息获取相同文本所对应所述的检材语音和所述的样本语音中的相同语音片段定位信息;

步骤c、对所述的检材语音和所述的样本语音中的相同语音片段进行不同语音特征提取,并根据提取的不同语音特征逐一进行相同语音的语音相似性计算,获取所述的检材语音和所述的样本语音中的相同语音片段的基于不同特征的不同相似性计算结果;

步骤d、根据所述的相似性程度计算结果,选取相应的检材语音和样本语音中的相同文本语音片段作为特征音段进行声纹鉴定中的听觉比较检验和频谱比较检验。

进一步地,所述语音特征包括:共振峰特征、梅尔频率倒谱系数特征、基频特征、短时平均能量特征、短时平均过零率特征、短时平均振幅特征和基于深度学习方法提取的语音特征中的至少一个。

一种声纹鉴定特征音段智能提取系统,包括:

语音识别模块,用于使用语音识别技术对检材语音和样本语音进行语音文本转写和文本语音定位,形成检材语音文本和样本语音文本,以及检材语音文本和样本语音文本的文本语音定位信息;

相同文本检索模块,用于在所述的检材语音文本和所述的样本语音文本中进行相同文本检索,并通过所述的文本语音定位信息获取相同文本所对应所述的检材语音和所述的样本语音中的相同语音片段定位信息;

语音相似性计算模块,用于对所述的检材语音和所述的样本语音中的相同语音片段进行不同语音特征提取,并根据提取的不同语音特征逐一进行相同语音的语音相似性计算,获取所述的检材语音和所述的样本语音中的相同语音片段的基于不同特征的不同相似性计算结果;

特征音段选取模块,用于根据所述的相似性程度计算结果,选取相应的检材语音和样本语音中的相同文本语音片段作为特征音段进行声纹鉴定中的听觉比较检验和频谱比较检验。

进一步地,所述语音特征包括:共振峰特征、梅尔频率倒谱系数特征、基频特征、短时平均能量特征、短时平均过零率特征、短时平均振幅特征和基于深度学习方法提取的语音特征中的至少一个。

与现有技术相比,本发明提供的一种声纹鉴定特征音段智能提取方法和系统,通过语音识别技术实现语音文本转换,通过相同语音文本检索进而定位相同语音片段,并通过相同语音片段的不同语音特征提取和语音相似性计算,最终实现声纹鉴定中特征音段的高效准确智能的选取。

附图说明

图1是本发明一种声纹鉴定特征音段智能提取方法的流程示意图。

图2是本发明一种声纹鉴定特征音段智能提取系统的组成原理示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步详细说明。

本实施例提供了一种声纹鉴定特征音段智能提取方法。整个工作流程如图1所示,包括如下步骤:

步骤a、使用语音识别技术对检材语音和样本语音进行语音文本转写和文本语音定位,形成检材语音文本和样本语音文本,以及检材语音文本和样本语音文本的文本语音定位信息;本实施例中,检材语音和样本语音时长分别为3.395秒和3.677秒,采样率均为48000赫兹,进行语音识别的结果分别为“你好,我是张三,来自于中国北京。”和“你好,我是李四,中国上海人。”,其中,检材语音文本中包含13个字,分别为“1你”、“2好”、“3我”、“4是”、“5张”、“6三”、“7来”、“8自”、“9于”、“10中”、“11国”、“12北”、“13京”,为后续描述方便,对每个文本字依据出现顺序进行了编号;通过语音识别方法得到的文本语音定位结果如下:(1)“你”字在检材语音中起止位置为“0.187至0.406秒”;(2)“好”字在检材语音中起止位置为“0.406至0.672秒”;(3)“我”字在检材语音中起止位置为“0.710至0.929秒”,其它类似。样本语音文本中包含11个字,分别为“1你”、“2好”、“3我”、“4是”、“5李”、“6四”、“7中”、“8国”、“9上”、“10海”、“11人”,为后续描述方便,对每个文本字依据出现顺序进行了编号;通过语音识别方法得到的文本语音定位结果如下:(1)“你”字在样本语音中起止位置为“0.052至0.266秒”;(2)“好”字在样本语音中起止位置为“0.266至0.516秒”;(3)“我”字在样本语音中起止位置为“0.817至1.011秒”,其它类似。在计算机程序实施中,语音信号通常是以一维向量形式存储,则起止位置点信息则为一维向量元素的起止位置编号。

步骤b、在所述的检材语音文本和所述的样本语音文本中进行相同文本检索,并通过所述的文本语音定位信息获取相同文本所对应所述的检材语音和所述的样本语音中的相同语音片段定位信息;本实例中,以检材语音文本为对象在样本语音文本中进行相同文本检索,包括相同单字检索、句子中相同连续多字检索。本实施例中,相同文本检索结果包括:(1)具有相同单字的文本包括检材语音文本中“1你”、“2好”、“3我”、“4是”、“10中”、“11国”单字分别于样本语音文本中“1你”、“2好”、“3我”、“4是”、“7中”、“8国”单字相同;(2)句子中相同连续双字包括检材语音文本中“1你2好”、“3我4是”、“10中11国”双字分别于样本语音文本中“1你2好”、“3我4是”、“7中8国”双字相同;检材语音文本句子中无连续3个及以上字与样本语音文本句子中的连续3个及以上字相同。相同单字文本在检材语音和样本语音中的起止位置信息参见步骤a;句子中相同连续多字的起止位置信息分别使用第一个字的起始位置和最后一个字的结束位置,比如,本实施例中,检材语音文本中的“1你2好”对应的位置信息为“0.187至0.672秒”,样本语音文本中的“1你2好”对应的位置信息为“0.052至0.516秒”。

步骤c、对所述的检材语音和所述的样本语音中的相同语音片段进行不同语音特征提取,并根据提取的不同语音特征逐一进行相同语音的语音相似性计算,获取所述的检材语音和所述的样本语音中的相同语音片段的基于不同特征的不同相似性计算结果;本实施例中,选取的语音特征为共振峰特征,分别提取检材语音和样本语音中相同文本语音的第1至第4共振峰的频率均值。比如,检材语音和样本语音中的相同单字“1你”和“1你”语音,其第1至第4共振峰的频率均值分别为(355,2160,3049,4097赫兹)和(392,2261,2978,4103赫兹),在后续的第1至第4共振峰的频率均值特征的相似性计算中,两者在第1至第4共振峰的频率均值差值为(-37,-101,71,-6赫兹);检材语音和样本语音中的相同连续双字“10中11国”和“7中8国”语音,其第1至第4共振峰的频率均值分别为(509,1446,2946,3925赫兹)和(497,1360,3037,3788赫兹),在后续的第1至第4共振峰的频率均值特征的相似性计算中,两者在第1至第4共振峰的频率均值差值为(12,86,-91,137赫兹)。上述选取的语音特征为共振峰特征,使用共振峰的频率均值作为共振峰特征的计算指标,其特征相似性计算方法直接使用频率均值的差值,除此之外,共振峰特征的计算指标也可以使用共振峰其他统计特征指标,或者直接使用共振峰曲线数值等;特征相似性计算方法可以使用其它相似性计算方法,比如,针对直接使用第1至第4共振峰曲线数值作为特征计算指标的情况,其相应的特征相似性计算方法可以使用多维向量的相似性计算方法,比如欧氏距离或者相关性计算方法等。在其它语音特征方面,涉及具体实施的特征计算指标和特征相似性计算方法存在上述类似情况。又比如,选取的语音特征为基频特征,分别提取检材语音和样本语音中相同文本语音的基频均值作为基频特征的计算指标。例如,检材语音和样本语音中的相同单字“1你”和“1你”语音,其基频均值分别为142和148赫兹,在后续的基频均值特征的相似性计算中,选取基频均值差值作为相似性计算方法,两者的基频均值差值为-6赫兹;检材语音和样本语音中的相同连续双字“10中11国”和“7中8国”语音,其基频均值分别为137和134赫兹,在后续的基频均值特征的相似性计算中,两者的基频均值差值为3赫兹。又比如,选取的语音特征为短时平均振幅特征,这里用音强特征表示短时平均振幅特征,用音强均值来作为计算指标,分别提取检材语音和样本语音中相同文本语音的音强均值。例如,检材语音和样本语音中的相同单字“1你”和“1你”语音,其音强均值分别为74和74分贝,在后续的音强均值特征的相似性计算中,两者的音强均值差值为0分贝;检材语音和样本语音中的相同连续双字“10中11国”和“7中8国”语音,其音强均值分别为71和70分贝,在后续的音强均值特征的相似性计算中,两者的音强均值差值为1分贝。又比如,选取的语音特征为梅尔频率倒谱系数特征,分别提取检材语音和样本语音中相同文本语音的梅尔频率倒谱系数特征,则提取的特征值则为多维向量,即特征矩阵,在后续的相同文本语音的梅尔频率倒谱系数特征矩阵的相似性计算方法实施中,可以选取欧式距离、相关度计算方法,或者基于机器学习方法的特征矩阵相似性计算方法,比如基于神经网络的特征矩阵相似性计算方法等。

步骤d、根据所述的相似性程度计算结果,选取相应的检材语音和样本语音中的相同文本语音片段作为特征音段进行声纹鉴定中的听觉比较检验和频谱比较检验。本实施例中,选取共振峰特征中第三和第四共振峰均值差异绝对值均小于100赫兹的相同文本语音作为特征音段,则检材语音和样本语音中的相同连续双字“10中11国”和“7中8国”语音符合要求,两者第三和第四共振峰均值差异绝对值分别为71和6赫兹,而检材语音和样本语音中的相同单字“1你”和“1你”语音不符合要求,两者第三和第四共振峰均值差异绝对值分别为91和137赫兹。又比如,可以选取第一至第四共振峰曲线数值相关性均达到80%及以上相似性程度的相同文本语音片段作为特征音段。又比如,选取基频特征中基频均值差异绝对值均小于3分贝的相同文本语音作为特征音段,则检材语音和样本语音中的相同连续双字“10中11国”和“7中8国”语音符合要求,以及相同单字“1你”和“1你”语音亦符合要求。

基于上述声纹鉴定特征音段智能提取方法,本发明另一实施例还提供了一种声纹鉴定特征音段智能提取系统。如图2所示,该声纹鉴定特征音段智能提取系统包括:

语音识别模块1,用于使用语音识别技术对检材语音和样本语音进行语音文本转写和文本语音定位,形成检材语音文本和样本语音文本,以及检材语音文本和样本语音文本的文本语音定位信息;

相同文本检索模块2,用于在所述的检材语音文本和所述的样本语音文本中进行相同文本检索,并通过所述的文本语音定位信息获取相同文本所对应所述的检材语音和所述的样本语音中的相同语音片段定位信息;

语音相似性计算模块3,用于对所述的检材语音和所述的样本语音中的相同语音片段进行不同语音特征提取,并根据提取的不同语音特征逐一进行相同语音的语音相似性计算,获取所述的检材语音和所述的样本语音中的相同语音片段的基于不同特征的不同相似性计算结果;

特征音段选取模块4,用于根据所述的相似性程度计算结果,选取相应的检材语音和样本语音中的相同文本语音片段作为特征音段进行声纹鉴定中的听觉比较检验和频谱比较检验。

其中,所述语音特征包括:共振峰特征、梅尔频率倒谱系数特征、基频特征、短时平均能量特征、短时平均过零率特征、短时平均振幅特征和基于深度学习方法提取的语音特征中的至少一个。

该声纹鉴定特征音段智能提取系统中的各模块与上述声纹鉴定特征音段智能提取方法中的各步骤对应,用于执行上述声纹鉴定特征音段智能提取方法中的各步骤,各模块具体执行的动作可参见上述声纹鉴定特征音段智能提取方法中的各步骤。

上述实施例仅为优选实施例,并不用以限制本发明的保护范围,在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜