基于层级多语音学特征融合模型的精神状态检测方法与流程

2022-02-22 18:14:14 来源：中国专利 TAG：

1.本发明涉及精神状态检测技术领域，特别涉及一种基于层级多语音学特征融合模型的精神状态检测方法。

背景技术：

2.近年来，随着提升社会治安治理能力的需要，公安系统往往需要对嫌疑人做初步的精神鉴定，因此自动精神状态检测技术可以为精神鉴定提供帮助。鉴于公安系统往往会对嫌疑人采取问答式的记录，利用问答式的语音数据来检测精神状态成为了本发明关注的重点。
3.然而现有的基于语音信号建模的精神状态检测技术利用传统的分类器难以从不同样本的语音信号中区分出某种精神状态呈阳性或者是阴性。随着深度学习技术的发展，使用深度神经网络对从语音信号中提取的语音学特征挖掘出精神状态相关的深层特征表达成为了主流方法。然而一方面不同的语音学特征从不同角度反映了语音信号的特性，仅用少量的特征对于精神状态的检测来说可能会导致偏差从而影响检测效果，如何更好地利用多个不同种类语音学特征之间的互补性，构建融合模型提升精神状态检测能力是一个尚待解决的问题。另一方面由于精神状态检测中问答式的语音数据往往比较冗长，现有技术的不足之处在于，直接对全局信息建模会导致模型参数过大，并且难以从中挖掘出精神状态相关的特征表示，简单地将语音信号等长分割虽然一定程度上扩充了数据量，但是每个分段数据无法表示每个样本，且不同问题回答对于精神状态的检测不一定相关性很高，造成数据存在一定的冗余性。

技术实现要素：

4.本发明的目的克服现有技术存在的不足，为实现以上目的，采用一种基于层级多语音学特征融合模型的精神状态检测方法，以解决上述背景技术中提出的问题。
5.一种基于层级多语音学特征融合模型的精神状态检测方法，包括：
6.对原始语音数据进行预处理，以及语音学特征提取，得到语音学特征集；
7.根据得到的语音学特征集输入建立的层级融合模型，进行特征水平融合和回答水平融合，得到所有样本的特征表示；
8.将得到的样本的特征表示输入分类器进行样本的精神状态判定。
9.作为本发明的进一步的方案：所述数据预处理以及语音学特征提取，得到语音特征集的具体步骤包括：
10.建立精神状态检测任务，得到映射函数f，所述映射函数f的预测结果yi为：
11.yi＝f(xi),yi∈{0,1}；
12.其中，yi＝1表示精神状态呈阳性，yi＝0表示精神状态呈阴性；
13.将原始语音数据根据被问问题的回答部分分割成若干个语音数据片段；
14.根据得到的若干个语音数据片段进行样本信息定义：
15.xi＝{q1,a1,
…
,qj,aj,
…
,qn,an}；
16.其中，n表示问题的数量、qj(j∈[1,n])表示每个样本xi中的第j个问题、aj(j∈[1,n])表示每个样本xi中对应于qj的第j个回答；
[0017]
根据若干个被问问题qj移除问题片段，得到仅保留回答片段的样本x
′i为：x
′i＝{a1,
…
,aj,
…
,an}；
[0018]
根据回答片段aj提取语音学特征集hj，表示为：
[0019]
其中，k表示语音学特征种类的数量，j是在x
′i中划分的语音片段的索引；
[0020]
根据得到的语音学特征集hj进行归一化和标准化。
[0021]
作为本发明的进一步的方案：所述根据得到的语音学特征集hj进行归一化和标准化的具体步骤包括：
[0022]
获取提取的语音学特征集，并对每种特征m∈[1,k]进行归一化，所述归一化公式为：
[0023][0024]
再根据上述结果进行标准化，所述标准化公式为：
[0025][0026]
作为本发明的进一步的方案：所述特征水平融合的具体步骤包括：
[0027]
获取进行预处理的语音学特征集hj输入层级融合模型；
[0028]
对每种特征建立卷积神经网络，并提取每种特征的深度特征，所述深度特征表示为：
[0029][0030]
其中，l∈(1,k)表示第l个cnn产生的特征向量，所述卷积神经网络包括一维卷积神经网络和二维卷积神经网络，二维卷积神经网络的输出表示为h、w、c分别代表网络输出特征的高度、宽度和通道数；
[0031]
同时采用通道感知的注意力机制，对网络输出学习出不同通道的重要性，并结合全局平均池化编码为一个全局的特征向量
[0032]
再利用sigmoid形式的gating机制得到每个通道的权值：
[0033]
其中，r为超参数；
[0034]
将每个通道权值乘以网络输出的特征：
[0035]
对每种特征学习出不同的权重：
[0036]
其中，w
t
、p均为可学习的参数，代表第l种特征的权值；
[0037]
通过加权融合得到每个回答片段的融合表示为：
[0038]
作为本发明的进一步的方案：所述回答水平融合的具体步骤包括：
[0039]
在回答水平上进行注意力机制的融合，对得到的不同回答片段的特征表示学习出不同的权值代表不同回答部分的重要性：
[0040][0041]
其中，w
t
、p均为可学习的参数，代表第j种回答部分的权值；
[0042]
再加权融合计算出每个样本的特征表示为：
[0043]
将每个样本的特征表示输入至分类器中判断样本的精神状态是否呈阳性，所述分类器为：yi＝classifier(di)。
[0044]
与现有技术相比，本发明存在以下技术效果：
[0045]
通过采用上述的技术方案，利用从原始语音数据中提取的不同语音学特征，同时在特征层面进行多语音学特征融合以及在回答层面进行语音片段的融合来获得每个样本数据的精神状态特征表示，从而有效地提升模型对精神状态检测的效果。对每个问题的回答内容进行分割，然后对每个分割的语音片段提取若干类型的语音学特征，利用卷积神经网络结合通道感知的注意力机制得到每种特征的表示，再利用注意力机制对不同特征的表示进行加权融合得到每个回答片段的向量表示，进而对不同回答片段表示进行融合然后送入分类器预测精神状态。通过上述设计，减小了需要构建的深度神经网络的大小的同时提升了模型检测精神状态的能力。也减少数据冗余对于检测效果的影响。
附图说明
[0046]
下面结合附图，对本发明的具体实施方式进行详细描述：
[0047]
图1为本技术公开的一些实施例的精神状态检测方法的步骤示意图；
[0048]
图2为本技术公开的一些实施例的精神状态检测框架图；
[0049]
图3为本技术公开的一些实施例的数据预处理流程图。
具体实施方式
[0050]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0051]
对于精神状态检测可以认为是一个二分类问题，然而由于数据具有问答形式的特
点，部分被问问题于某种精神状态并不相关，造成数据冗长，且与精神状态相关的特征潜藏于语音信号中，传统的分类器难以直接从不同样本的语音信号中有效区分阳性样本和阴性样本，而且不同的初始语音学特征在长度和维度上的差异性导致难以直接有效地融合，与某种精神状态相关性较弱的特征一定程度上还可能成为噪声。为了解决上述问题，现有的方法大多利用少量的语音学特征，直接对语音数据进行等长分割来解决数据过长导致的模型参数庞大的问题，从而对不同的深度神经网络进行有监督学习，但是这样一方面对于精神状态检测问题本身来说没有针对每个样本进行良好的建模，另一方面利用少量的特征可能只能片面地反映数据与精神状态的联系，从而影响模型本身的泛化能力以及鲁棒性。
[0052]
请参考图1和图2，本发明实施例中，一种基于层级多语音学特征融合模型的精神状态检测方法，包括：
[0053]
s1、对原始语音数据进行预处理，以及语音学特征提取，得到语音学特征集；具体步骤包括：
[0054]
s11、建立精神状态检测任务，得到映射函数f，并将每一个样本的数据xi输入到映射函数f得到预测结果yi，所述映射函数f的预测结果yi为：
[0055]
yi＝f(xi),yi∈{0,1}；
[0056]
其中，yi＝1表示精神状态呈阳性，yi＝0表示精神状态呈阴性；
[0057]
s12、将原始语音数据根据被问问题的回答部分分割成若干个语音数据片段；
[0058]
具体的，如图3所示，一个样本的采访数据由若干个问题和回答组成，因此直接对全局数据进行建模会导致模型参数过多，且难以从冗长的数据中挖掘到精神状态相关的特征表示，需对数据进行预处理；
[0059]
s13、根据得到的若干个语音数据片段，一个样本xi可以看作是由一系列的问题和回答组成，进行样本信息定义表示为：
[0060]
xi＝{q1,a1,
…
,qj,aj,
…
,qn,an}；
[0061]
其中，n表示问题的数量、qj(j∈[1,n])表示每个样本xi中的第j个问题、aj(j∈[1,n])表示每个样本xi中对应于qj的第j个回答；
[0062]
s14、根据每个回答的开始和结束时间可以从原始语音信号中划分出若干个回答片段，再根据若干个被问问题移除问题片段，得到回答片段x
′i为：x
′i＝{a1,
…
,aj,
…
,an}；
[0063]
在得到了语音数据xi中的每个回答片段后，需要对每个片段提取若干中语音学特征，对每一个回答片段aj提取语音学特征集hj，表示为：
[0064]
其中，k表示语音学特征种类的数量，j是在x
′i中划分的语音片段的索引；
[0065]
具体实施步骤中，在本发明中提取了4种类型的手工特征，分别是低级描述符，高级统计特征，bag-of-audiowords(boaw)和声谱特征。低级描述符使用了梅尔频率倒谱系数(mfcc)以及特征集egemaps，其中mfcc以25毫秒为一个音频帧，使用汉明窗分帧，采样率设置为10ms，由fft功率谱计算的26个梅尔谱带计算得到，描述的是描述了倒谱在梅尔尺度上的能量，而egemaps包含与频率相关的特征(音调、抖动、共振峰)、与能量相关的特征(闪烁、响度、谐波与噪声比)、光谱参数(α比、哈马堡比、谱斜率-500hz和500-1500hz、共振峰1,2,3相对能量)、h1-h2和h1-a3之间的谐波差及其统计特征，以及六个与语速相关的时间特征。高级统计特征是由mfcc和egemaps计算出的变异算术平均值以及相关系数。boaw利用
openxbow工具包生成，其将音频归纳为由不同拟音频单词组成的信息。声谱图是音频信号的可视化表示，表示频率分量随时间变化的幅度，通过短时傅里叶变换(stft)生成。
[0066]
s15、根据得到的语音学特征集hj进行归一化和标准化。具体步骤包括：
[0067]
获取提取的语音学特征集hj，并对每种特征m∈[1,k]进行归一化，并将数值约束到[0，1]的范围内，所述归一化公式为：
[0068][0069]
再根据上述结果进行标准化，所述标准化公式为：
[0070][0071]
s2、根据得到的语音学特征集输入建立的层级融合模型，进行特征水平融合和回答水平融合，得到所有样本的特征表示；
[0072]
s21、特征水平融合的具体步骤包括：
[0073]
获取进行预处理的语音学特征集hj输入层级融合模型；
[0074]
分别对每种特征建立卷积神经网络，并提取每种特征的深度特征，所述深度特征表示为：
[0075][0076]
其中，l∈(1,k)表示第l个cnn产生的特征向量，所述卷积神经网络包括一维卷积神经网络和二维卷积神经网络；
[0077]
具体实施步骤中，低级描述符由于具有时序一维信号的特性，本发明对其设计了一维卷积神经网络，使用的一维卷积神经网络由9个卷积块组成，在每个卷积块中包含两个相同的结构，即由一维卷积层、批标准化、relu激活函数以及dropout层组成，卷积核长度为5，层与层之间采用跳跃连接以减少模型需要的层数，加快收敛，不同层的输出维度为[64,64,64,64,128,128,128,256,256]。
[0078]
而对于其它种类特征：
[0079]
本发明均设计采用10层的二维卷积神经网络，与上述一维卷积神经网络结构相似，每个卷积块中包含两个相同的结构由一维卷积层、批标准化、relu激活函数以及dropout层组成，卷积核长度为5x5，同样采用跳跃连接结构，不同层输出的维度分别为：[64,64,64,64,128,128,128,256,256,256]。
[0080]
其中，二维卷积神经网络的输出表示为h、w、c分别代表网络输出特征的高度、宽度和通道数；
[0081]
同时采用通道感知的注意力机制，对网络输出学习出不同通道的重要性，并结合全局平均池化编码为一个全局的特征向量
[0082]
再利用sigmoid形式的gating机制得到每个通道的权值：
[0083]
其中，采用两个全连接层的结构，r为超参数，用于调节全连接层的降维程度，以降低模型复杂度并提升泛化能力；
[0084]
将每个通道权值乘以网络输出的特征，从而使得不同通道具有不同的重要程度，提升通道的辨别能力：
[0085]
在对每种特征本身进行通道感知注意力机制后，对不同的特征进行特征水平的融合，对每种特征学习出不同的权重：
[0086]
其中，w
t
、p均为可学习的参数，代表第l种特征的权值；
[0087]
随后通过加权融合得到每个回答片段的融合表示为：
[0088]
s22、所述回答水平融合的具体步骤包括：
[0089]
具体实施步骤中，特征水平融合仅代表了一个语音片段不同语音学特征互补信息融合后的表示，但是并不能代表一个样本的特征，因为问答数据中存在着与精神状态不相关的问答部分，不同的问题与回答具有不同的重要性，基于这点，本发明的第二层融合在更高的语义建模层面
[0090]
在回答水平上进行注意力机制的融合，对得到的不同回答片段的特征表示学习出不同的权值代表不同回答部分的重要性：
[0091][0092]
其中，w
t
、p均为可学习的参数，代表第j种回答部分的权值；
[0093]
再加权融合计算出每个样本的特征表示为：
[0094]
s3、将得到的样本的特征表示输入分类器进行样本的精神状态判定。
[0095]
将每个样本的特征表示输入至分类器中判断样本的精神状态是否呈阳性，所述分类器为：yi＝classifier(di)。
[0096]
具体的，采用的是两层全连接结构作为分类器预测每个样本的结果。
[0097]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种适配神经导航的引流管的制作方法

基于层级多语音学特征融合模型的精神状态检测方法与流程

相关文献

最热文献