一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于卷积神经网络和胶囊网络的潜在情绪识别方法与流程

2022-11-19 12:28:00 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,具体涉及一种潜在情绪识别方法。


背景技术:

2.伴随着人类社会智能化程度的提高,人机交互的场景越来越普遍,这对机器理解人类情绪状态的能力提出了更高的要求。目前,可以用于情绪识别的信号模态包括脑电图、心电图以及血容量脉冲等内在信号,以及面部表情(微表情)、眼动、语音等外在信号。虽然后者更容易获取,但研究表明人类个体可以误导性地产生这些外在信号而隐藏真实的情绪。脑电信号具有能够不被隐藏而反映真实情绪的优点,眼动信号也是一种非侵入式的和准确的情绪研究数据源,随着脑电、眼动信号采集技术的发展以及可穿戴设备的不断迭代,脑电和眼动信号将被更加广泛地应用于情绪识别的研究。
3.现阶段,应用于脑电信号处理的包括手工特征提取和深度学习方法。对于手工特征泛化能力低且使用单模态识别效果有待提高的问题,深度学习方法能够自动且根据任务需要提取输入信号的特征并进行融合。而卷积神经网络是最为常用的深度学习分类方法,它在上个世纪八十年代被提出,其卷积层对于处理不同时间位置的数据模式非常有效;在2011年g.e.hinton首次提出了胶囊网络,它解决了卷积神经网络无法识别区域之间和物体之间相对位置的问题,以包含物品各种属性信息、位置信息和其他纹理信息在内的胶囊为单位,对信号的特征包含得更加全面,有利于提高神经网络模型对情绪识别的性能。


技术实现要素:

4.有鉴于此,本发明的主要目的在于提出一种基于卷积神经网络和胶囊网络的潜在情绪识别方法,自动提取脑电和眼动双模态信号的特征,提高信息利用率,从而增加情绪识别的准确性。
5.一种基于卷积神经网络和胶囊网络的潜在情绪识别方法,其特征在于,包括如下步骤:
6.s1对实验数据集seed iv进行预处理;将数据集中每个通道的脑电信号数据进行统一化处理,并将脑电信号的时间信息和电极位置信息转化为三维时空张量;下采样眼动瞳孔数据,并重构为合适形状的张量;
7.s2用cnn分别对脑电信号的三维时空张量和眼动信号的张量进行卷积、最大池化和非线性激活操作,提取出这两个信号中的特征信息,并将所得的这两个三维张量调整为合适的形状;
8.s3将s2中得到的重构之后的张量数据,在一个维度上进行拼接,得到双模态的融合特征;将这个拼接张量分割出若干的底层胶囊作为胶囊网络的输入;
9.s4将同时包含着脑电信号和眼动信号特征的底层胶囊,经过投票路由算法和squash激活函数训练,得到高层情绪胶囊,再由这些高层情绪胶囊向量共同决定最终的情绪分类结果;
10.s5对不同的共享矩阵初始化方法、迭代次数和学习率参数进行对比实验,使用两种验证法统计valence和arousal两个维度的准确率,找到最佳的神经网络模型。
11.其中,所述s1中,
12.同时对脑电信号的时间信息和电极空间信息进行提取:使用了一个矩阵映射62个通道电极空间拓扑信息,若没有数据则以空值填入;沿时间维度将原始脑电信号下采样为若干时空帧,并重新调整为合适形状的三维时空张量,其他空值部分使用径向基函数进行数据的插值填充。
13.其中,所述s2中,
14.两支不同结构的cnn分别对脑电信号和眼动信号进行特征的提取:对于脑电信号的三维时空张量,使用三维卷积核来进行卷积,且并行了8次同样的操作来准备张量的重构;对眼动瞳孔信号则使用二维卷积核;同时,它们都选择最大池化操作,激活函数均使用整流线性单元relu。
15.其中,所述s4中,
16.通过投票路由算法和squash激活函数进行权重矩阵的更新,从而迭代得到高层情绪胶囊,具体为:
17.假设第i个底层胶囊输出向量表示为ui,经过可训练的权重矩阵w
ij
获得预测向量其中j表示对应于第j个高层情绪胶囊,过程为:
18.然后使用参数c
ij
乘以所有的预测向量获得sj,过程为:其中c
ij
定义为
[0019][0020]
其中b
ij
表示第i个底层胶囊投票至第j个高层情绪胶囊的概率;之后再使用特定的非线性激活函数squash将向量sj转化为向量vj,公式为:
[0021][0022]
其主要功能是在保持sj最终方向不变的同时,其模长不超过1;
[0023]
接着将vj与相乘得到一个标量,使用这个标量去迭代更新b
ij
,直到达到迭代次数,过程表示为:
[0024]
迭代完成之后得到的全部vj即为高层情绪胶囊。
[0025]
其中,所述s5中,
[0026]
通过不断调整共享矩阵初始化方法、迭代次数和学习率这三种参数,来获得更好的分类准确率,具体为:
[0027]
由于每个底层胶囊首先通过共享矩阵计算倾向概率,对共享矩阵进行初始化时,分别采用random normal、random uniform、truncated normal和orthogonal四种方法进行对比,观察其影响;每次情绪胶囊通过学习率更新投票标量,设置学习率为0.1、0.01、0.001和0.0001四个参数,选择情绪识别准确率最高的学习率;胶囊网络通过正向传播不断更新权重参数,分别设置迭代次数为1、2、3、4和5,选择结果更好的迭代次数。
[0028]
本发明的技术效果:
[0029]
本发明使用卷积神经网络提取脑电信号和眼动信号的底层信息,特征融合后构成一个包含脑电信号和眼动信号特征的底层胶囊,最后所有底层胶囊共同决定了情绪胶囊,最终得到情绪识别的分类结果,在seed iv多模态数据集的valence和arousal最高准确率分别为91.5%和92.4%,优于其他相似类型的研究。
附图说明
[0030]
附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
[0031]
图1是本发明由脑电信号与眼动信号进行情绪识别的架构图;
[0032]
图2是本发明所用seed iv数据集的电极位置空间映射图;
[0033]
图3是本发明胶囊网络模型投票路由算法的原理图;
[0034]
图4是本发明神经网络模型的具体结构图。
具体实施方式
[0035]
下面通过具体实施例和附图对本发明做进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
[0036]
针对脑电信号模态的手工特征需要先验知识、主观选定故而泛化能力不足、使用单一模态情绪识别结果不可靠的问题,本发明公开了一种基于卷积神经网络和胶囊网络的潜在情绪识别方法,利用卷积神经网络和胶囊网络等深度学习方法,提取脑电信号与眼动信号两种模态的通用深度特征用于提高情绪识别的泛化能力。
[0037]
为使得本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明做进一步阐述。
[0038]
图1是本发明由脑电信号与眼动信号进行情绪识别的架构图,如图1所示,一种基于卷积神经网络和胶囊网络的潜在情绪识别方法,其具体步骤如下:
[0039]
s1:对seed iv数据集进行预处理。首先截取62个通道原始信号中间同等数量的数据点,并使用径向基(rbf)函数进行扩充。同时利用脑电信号的时间信息和电极空间信息,构成脑电的三维时空张量;下采样眼动瞳孔数据,并重构为合适形状的张量。
[0040]
s1.1:数据集包括62个通道的脑电信号数据,但每个通道采集的脑电数量不统一,故对每个通道截取原始信号中间的10000个数据点,并使用径向基(rbf)函数填充至长度为12000个数据点。
[0041]
s1.2:脑电采集电极所放置的拓扑关系,反映了脑电信号产生的脑区之间的拓扑信息,故将脑电信号的时间信息与电极空间信息结合起来。如图2所示,用一个9
×
9大小的矩阵映射seed iv数据集中62个电极的空间拓扑信息,在t时刻,将每个电极测得的数据填入对应位置,其他位置填入空值;再沿时间维度,以120hz下采样形成一个9
×9×
120的时空帧,并重构(reshape)为64
×
64
×
120的三维时空张量,有空值部分用径向基函数填充。
[0042]
s1.3:seed iv数据集中,以_pupil结尾的mat文件中包含24个矩阵,记录了垂直和水平方向瞳孔的大小和色散4个维度的数据,以300hz下采样这4个维度的眼动数据,并使用
径向基函数进行数值填充,得到400
×
4的眼动矩阵,再重构为400
×4×
1的张量数据。
[0043]
s2:使用卷积神经网络对所得到的脑电三维时空张量和眼动信号张量数据进行底层特征信息的提取,张量数据的形状变换如图4所示。
[0044]
s2.1:使用256个9
×9×
120大小的卷积核对64
×
64
×
120的脑电信号的三维时空张量提取底层特征信息,输出为56
×
56
×
256的特征图,再经过2
×
2的最大池化层,大小变为28
×
28
×
256。为了约束脑电信号特征与胶囊网络之间的匹配关系,接着使用16个9
×9×
256大小的三维卷积核对上一层的输出进行卷积,得到20
×
20
×
16的三维张量,重复8次这样的卷积,最终得到8个20
×
20
×
16大小的三维张量,并重构为3200个1
×
16的向量。
[0045]
s2.2:使用卷积神经网络提取眼动信号的底层特征信息,第一层使用200个5
×
2大小的卷积核进行卷积,并经过4
×
1的最大池化层;第二层使用400个4
×
2的卷积核,经过2
×
1的最大池化层;第三层使用800个3
×
2的卷积核,经过2
×
1的最大池化层;第四层使用1600个4
×
1的卷积核,经过2
×
1的最大池化层;第五层使用3200个3
×
1的卷积核,经过2
×
1的最大池化层。所有卷积-池化操作均使用relu激活函数,并将最后神经网络输出重构为3200个1
×
4的向量。
[0046]
s3:将s2所得的两个张量数据进行异构,得到3200
×1×
(16 4)的三维张量,作为胶囊网络的底层胶囊,每个底层胶囊是一个1
×
20的向量,该向量同时包括脑电信号和眼动信号的特征。
[0047]
s4:将s3得到的底层胶囊,经过投票路由算法和squash激活函数训练,最终得到两个1
×
40的高层情绪胶囊,由这些包含40个数值的高层情绪胶囊共同决定最终的情绪分裂结果。
[0048]
s4.1:利用投票路由算法和squash激活函数的训练过程如图3所示,其具体计算步骤如下:
[0049]
第一步,假设ui表示胶囊网络的第i个输入,经过可训练权重矩阵w
ij
加工后得到预测向量过程为j表示对应于第j个高层情绪胶囊。
[0050]
第二步,将步骤1所得的预测向量乘以对应权重参数c
ij
后再求和,得到向量sj,具体过程为:其中c
ij
定义为
[0051][0052]
第三步,使用特定的非线性激活函数,也即squash函数,将向量sj转化为vj,其主要作用是在保持sj最终方向不变的同时,模长度不超过1,具体公式为:
[0053][0054]
第四步,将vj与相乘得到一个标量,使用这个标量去迭代更新b
ij
,过程表示为:
[0055]
第五步,用更新后的b
ij
代入第二步,用新的c
ij
继续迭代后面的步骤,直到达到既定的迭代步数,得到最终的高层情绪胶囊的结果,再由这些高层情绪胶囊向量共同决定情绪分类结果。
[0056]
s5:对共享矩阵初始化方法、迭代次数和学习率参数进行情绪独立二分类实验,使用5-fold交叉验证法和留一交叉验证法统计valence和arousal两个维度的准确率,找到最佳的神经网络模型。
[0057]
s5.1:对于投票路由算法中的共享矩阵,分别采用random normal、random uniform、truncated normal和orthogonal四种初始化方法进行对比,选择能使情绪分类准确率最高的。
[0058]
s5.2:每次情绪胶囊输出向量通过学习率更新投票标量,设置学习率为0.1、0.01、0.001和0.0001,分别训练网络,选择结果最优的。
[0059]
s5.3:胶囊网络通过正向传播不断更新权重参数,但增加迭代次数并不能持续增加识别准确率,分别设置迭代次数为1、2、3、4、5,训练网络从而选择最优的迭代次数。
[0060]
s5.4:使用5-fold交叉验证法来统计valence和arousal两个维度的平均准确率,并验证神经网络模型性能,具体为:将样本数据随机分为5簇,每次使用其中的4簇进行训练,剩下的一簇用于测试,依次循环5次。设置三组基准模型,分别为脑电时间特征简单相加、脑电三维时空张量输入到3d cnn、脑电三维时空张量输入到本发明提出的模型,计算他们在seed iv上的平均准确率,与脑电三维时空张量 眼动特征输入本发明提出的模型得到的平均准确率对比。
[0061]
s5.5:使用留一交叉验证方法得到跨主体最高准确率,并与同类型情绪识别研究进行比较。
[0062]
为验证本发明的有效性,本发明的仿真实验是基于pytorch框架的python实现的,计算机系统配置为:win10 64-bit处理器,nvidia tesla v100 gpu,实验ide使用pycharm编辑器。
[0063]
图4是本发明神经网络的具体架构,如前所述,本发明使用seed iv数据集验证模型性能,数据集中valence和arousal以0值为界限分别标记为“low”和“high”两个标签,共1080组实验数据,80%作为训练集,20%作为测试集,最终在seed iv数据集valence和arousal最高准确率分别为91.5%和92.4%,优于其他类型的研究。
[0064]
上述技术方案仅体现了本发明技术方案的优选技术方案,本技术领域的技术人员可以基于本发明的原理对其中某些部分所做出的一些变形和改进,这些变动均属于本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献