一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于改进SMOTE算法的脑电信号样本扩充方法、介质及系统

2022-05-18 11:14:41 来源:中国专利 TAG:

基于改进smote算法的脑电信号样本扩充方法、介质及系统
技术领域
1.本发明属于脑电信号的样本扩充及分类方法技术领域,特别是一种基于改进smote算法的脑电信号样本扩充方法。


背景技术:

2.脑-机接口(brain computer,bci)可以将生物电信号转换为外部设备的控制信号,实现大脑直接控制外部设备。该技术在医疗、军事、娱乐以及教育等领域都有广泛的应用前景。但目前医疗领域中,脑-机接口技术是帮助残疾人恢复部分身体机能的前沿技术之一。
3.高质量脑电信号的采集,一方面依赖于先进的脑电信号采集设备,另一方面则依赖受试者长时间高度集中的注意力,也就是受试者的心理和精神状态,这在很大程度上影响到采集的脑电信号质量与数量。目前常被使用的脑电信号公开数据集中每一个受试者的样本量约在300-800个左右。使用机器学习以及深度学习等方法进行分类,数据集的样本数量是决定模型泛化能力以及拟合能力的重要因素之一。在图像识别领域,样本扩充方法已经广为使用,通常是通过对图像进行旋转、翻转以及剪裁等方式将一个图片拓展成多张图片,有效的增加数据量。但是如脑电信号这样采集困难的多通道时序样本,传统的样本扩充方法并不适用。
4.目前公开的针对脑电信号的样本扩充方法主要存在以下问题:第一,模拟图像的样本扩充方法对脑电信号进行样本扩充方法主要有切片,切片交换,时域变换、频域变换等。对于多通道时序信号样本(脑电信号样本),使用模拟图像的样本扩充方法会大幅度地破环原始信号中的时频域信息,生成的样本会影响整体数据集的质量;第二,进行样本扩充时没有充分考虑原始样本的信息,导致一些低质量样本以及无关样本也会被选择为扩充的原始样本,从而降低样本集的整体质量。
5.因此,需要一种新的针对脑电信号样本的样本扩充方法。
6.常用的smote算法主要应用于不平衡样本的过采样,常用于分类任务中,数据集中不同标签样本数量严重不平衡的情况。而我们使用的脑电信号样本数据集的不同标签样本数量是可控的,平衡的,故这一点是不容易想到应用于脑电信号样本扩充。smote算法应用于脑电信号样本扩充技术主要有以下几个难题:
7.1、原始smote算法使用欧式距离对样本进行领域求取,而脑电信号作为多通道时序信号(原始数据为二维数据矩阵数据),直接采用欧式距离不能准确真实表示领域信息,故采用一种更适用于表示时间序列距离的方法进行改建,采用dtw。
8.2、原始smote算法直接对样本进行合成,这种合成方式容易造成样本重叠,基于深度学习在进行分类学习时,处于不同标签样本交界的样本特征对网络的参数影响更大,因此增加样本选择条件,将处于不同标签样本交界的样本筛选出来作为原始数据进行人工合成,从而增加交界处样本的数量,从整体上改变样本的分布,以适用于深度学习方法。
9.3、原始smote方法直接通过两个相同标签的样本路径上取一个点作为新的样本,
这种新样本合成技术完全不适用于脑电信号,这种方式会改变原始信号中包含的时域频域信息与特征,为了保证新合成的样本与原始样本不一样并保留其特征,采用一种新的方式进行样本合成。
10.申请公开号,cn112084935a,一种基于扩充高质量脑电样本的情绪识别方法,其特征在于:所述方法包括如下步骤:步骤s1:基于情绪状态已识别者及其脑电信号和对应的情绪状态、待识别者的部分脑电信号和对应的情绪状态,对于已识别者和待识别者的脑电信号进行特征提取,并分别形成已识别者和待识别者的脑电样本集合;步骤s2:计算已识别者和待识别者脑电样本之间的平均弗雷歇距离,使用基于平均弗雷歇距离的脑电样本选择算法筛选出已识别者高质量脑电样本;步骤s3:以筛选后得到的已识别者高质量脑电样本的特征作源域,待识别者脑电样本的特征作目标域,使用基于脑电样本的特征迁移算法得到待识别者和已识别者合并之后的脑电样本集合;步骤s4:建立基于回声状态网络的情绪识别模型,用迁移后得到的脑电样本集合训练情绪识别模型;步骤s5:将训练好的基于回声状态网络的情绪识别分类模型对待识别者当前的脑电信号的特征进行识别,得到待识别者的当前情绪状态。
11.技术上的区别:
12.1、求取距离的目的不同:对比文件中的距离求取的目的是为了获得已识别与未识别样本之间的相似程度;本发明使用距离求取的目的是为了求取样本的领域信息。
13.2、高质量样本判断条件不同:对比文件中为了判断高质量样本设定阈值,该阈值的作用是判断已识别样本与待识别样本的相似程度高低判断,从而将相似度高的样本作为高质量样本,其主要目的是在已识别样本中寻找与待识别样本相似的样本;本发明判断原始样本质量高低的判定方式是原始样本的领域k个样本的标签分布决定,其主要目的是寻找处于不同标签样本交界处的样本。
14.3、生成新样本的方式不同,对比文件使用的信号样本合成方式为特征迁移,该方法虽然使合成的样本保留了原始样本的特征,但是并不保证其样本的分布;本发明使用的是一种幅频加噪技术,在保证原始信号特征不被改变的情况下,由于生成的信号重合成后与原始样本相似度高,因此能在一定程度上保证样本的分布,从而使新合成的样本能够有效的改变原始训练集中的样本分布情况(思想是基于深度学习在进行分类学习时,处于不同标签样本交界的样本特征对网络的参数影响更大)。
15.4、对比文件的缺陷是在进行样本质量筛选以及新样本合成时使用了未识别的样本,也就是测试数据集;但是本发明在进行样本筛选以及样本合成时并不设计未分类样本(测试数据集)。


技术实现要素:

16.本发明旨在解决以上现有技术的问题。提出了一种基于改进smote算法的脑电信号样本扩充方法。本发明的技术方案如下:
17.一种基于改进smote算法的脑电信号样本扩充方法,其包括以下步骤:
18.使用脑电信号采集仪器采集脑电信号数据;
19.对脑电信号进行包括带通滤波、基线校验、归一化在内的方法进行预处理,预处理后的信号组成数据集并划分为测试数据集与训练数据集;
20.使用改进的合成少数类过采样技术(synthetic minority oversampling technique,smote)对经过预处理后的脑电信号进行样本筛选并作为原始样本,改进的smote算法:首先,原始smote算法使用传统欧式距离对样本的领域进行求取,但是欧氏距离不适用于时间序列样本,因此为了更好的获取时序样本的领域信息,使用动态时间规整算法求取样本领域求取样本领域信息;然后,为了使新合成的人工样本分布可控,将样本按照一定条件分成safe、danger以及noise三种类型,为人工样本合成做准备;
21.使用幅频加噪技术对在原始样本的基础上合成人工样本,从而实现数据集的样本扩充,将人工样本与划分出来的训练数据集合并成为新的训练数据集;
22.利用卷积神经网络进行性能测试。
23.进一步的,所述使用脑电信号采集仪器采集不同受试者的脑电信号数据,具体包括以下步骤:选取5名健康受试者使用脑电信号采集仪器收集脑电数据,其中脑电信号采集仪器有32个电极通道,电极的均匀的分布在大脑上,采样频率为1000hz,单个样本采集周期持续5秒,选取第3秒后1.5秒时间段采集到的数据作为初始样本,其中每种标签样本均采集180次。
24.进一步的,所述对脑电信号进行预处理具体包括以下步骤:对得到的数据集进行预处理,首先使用butterworth滤波器对脑电信号进行8-32hz的带通滤波,去除工频干扰以及大部分眼电伪迹;接着选取信号每个样本的前0.5秒作为基线信号,后1秒中的信息作为样本并对其进行基线校准,得到基线校准后的1秒信号样本,最后对其进行归一化;将将预处理后的信号组成数据集并以3:7的比例划分为测试数据集与训练数据集。
25.进一步的,所述使用改进的smote算法对经过预处理后的脑电信号进行样本筛选并作为原始样本,具体包括:
26.将脑电信号sn∈rc×
t
用一维时序sn={s1,s2,

,si}进行表示,si代表电极i采集到的信号;c代表不同电极,t代表电极上采集的脑电信号;
27.按照以下方式求取sn的领域样本,得到距离sn最近的k个样本;
28.原始smote算法中采用的是欧氏距离对样本距离进行求取,其公式为:
[0029][0030]
在该算法中,输入样本为时间序列样本,因此使用动态时间规整算法求取脑电信号样本之间的距离,其公式为:
[0031][0032]
上式中gi和hj分别为两个时序样本,i、j分别为样本长度。
[0033]
进一步的,所述将样本按照一定条件分成safe、danger以及noise三种类型,具体包括以下步骤:
[0034]
为了使合成的人工样本与处于边界的样本相似,需要根据样本的k个领域信息对样本进行分类:对于样本s,k个样本中与样本s为不同标签的领域样本为k-n个,则与样本s
为相同标签的领域样本为n个,将领域相同标签样本与k的比值作为判断参数c;设置区间a=[a1,a2],其中0《a1《a2《1;若c《a1,则认为样本s为noise类样本;若c》a2,则认为样本s为safe类样本;若c∈a,则认为样本s为danger类样本;其中danger类样本代表的是处于边界的样本;对训练数据集中的每一个样本重复以上步骤,得到danger类样本集。
[0035]
进一步的,所述使用幅频加噪技术对在原始样本的基础上合成人工样本,从而实现数据集的样本扩充,将人工样本与划分出来的训练数据集合并成为新的训练数据集,具体包括:
[0036]
将danger类样本集作为样本扩充的原始数据集,使用幅频加噪技术对在原始样本的基础上合成人工样本;先采用stft算法提取脑电信号记录的频谱图像,将x(t)表示为从脑电信号样本xi的一个电极采集的时间序列,信号x(t)的stft定义如下:
[0037][0038]
其中ω(t-τ)为窗口函数,z(t,f)为二维复矩阵,包含x(t)在时刻t和频率f的幅值和相位信息;将z(t,f)中得到的每个时刻t和频率f的幅值与相位分别表示为a
t,f
,高斯噪声表示为e~n(μ,σ),接着将噪声添加到幅值中,即将新的幅值与原有相位进行重构得到时序新的x(t);按照此步骤应用于每个电极,最终获得新的样本;若添加不同强度的噪音,则可以在一个原始样本的基础上合成多个人工样本;对每一个原始数据集中的样本重复以上步骤的操作,得到人工合成原始数据集样本量3-4倍的样本。
[0039]
进一步的,所述利用卷积神经网络进行性能测试,具体包括:
[0040]
将得到的新的训练数据集作为输入先对卷积神经网络进行预训练,训练前将卷积神经网络中的参数初始化并将训练数据集中的数据送入网络进行迭代训练,卷积神经网络根据训练数据更新参数,直到训练时分类准确度达到要求后停止训练并保存网络参数。
[0041]
进一步的,还包括得到脑电信号的分类准确率的步骤,具体为:
[0042]
使用测试数据集作为预训练结束的卷积神经网络的输入,将输出值与测试数据集的标签进行对比,得到脑电信号的分类准确率。
[0043]
一种计算机可读存储介质,其计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如任一项所述的基于改进smote算法的脑电信号样本扩充方法。
[0044]
一种基于改进smote算法的脑电信号样本扩充方法,其包括:
[0045]
采集模块:用于使用脑电信号采集仪器采集脑电信号数据;
[0046]
预处理模块:用于对脑电信号进行包括带通滤波、基线校验、归一化在内的方法进行预处理,预处理后的信号组成数据集并划分为测试数据集与训练数据集;
[0047]
样本筛选分类模块:用于使用改进的smote算法对经过预处理后的脑电信号进行样本筛选并作为原始样本,改进的smote算法:首先,原始smote算法使用传统欧式距离对样本的领域进行求取,但是欧氏距离不适用于时间序列样本,因此为了更好的获取时序样本的领域信息,使用动态时间规整算法求取样本领域求取样本领域信息;然后,为了使新合成的人工样本分布可控,将样本按照一定条件分成safe、danger以及noise三种类型,为人工
样本合成做准备;
[0048]
样本扩充模块:使用幅频加噪技术对在原始样本的基础上合成人工样本,从而实现数据集的样本扩充,将人工样本与划分出来的训练数据集合并成为新的训练数据集;
[0049]
测试模块:用于利用卷积神经网络进行性能测试。
[0050]
对比模块:用于使用测试数据集作为预训练结束的卷积神经网络的输入,将输出值与测试数据集的标签进行对比,得到脑电信号的分类准确率。
[0051]
本发明的优点及有益效果如下:
[0052]
本发明对传统smote方法进行了改进,使用dtw将knn领域求取算法中的欧式距离算法替换(欧式距离对样本进行领域求取(多应用于一维样本),而脑电信号作为多通道时序信号(原始数据为二维数据矩阵数据),使用欧式距离计算领域并不适用,故采用一种更适用于表示时间序列距离的方法进行改建,采用dtw。smote主要应用领域不在时序信号上。),对于多通道时序信号的脑电信号而言,能够更加准确的反映样本之间的关系,从而更加准确地获取脑电信号样本的领域信息。使用领域样本信息对样本进行判断,将样本分成danger、safe、noise三种类别,其中noise视为噪音样本,safe视为无关样本,danger视为边界样本。对于深度学习而言,为了实现更好的预测,大多数分类算法都试图在训练过程中尽可能准确地学习每个类的边界。因此对边界样本进行数据增强能有效的改变样本分布,从而提高深度学习模型泛化能力。同时,合成新样本采用了幅频加噪方法,该方法能在有效合成新样本的时候保证样本中的振幅与相位不被破坏,同时也保证了信号蕴含的时频域信息的完整,并在一定程度上提高深度学习模型的鲁棒性。本发明能有效扩充脑电信号数据集中的样本数量,同时保证合成样本的质量,从而在数据层面上提升基于深度学习方法的脑电信号的特征提取及分类的准确率。
[0053]
创新点:
[0054]
1、原始smote算法使用欧式距离对样本进行领域求取(多应用于一维样本),而脑电信号作为多通道时序信号(原始数据为二维数据矩阵数据),直接采用欧式距离不能准确真实表示领域信息,故采用一种更适用于表示时间序列距离的方法进行改建,采用dtw。原始smote算法适用于不平衡数据集,而脑电信号数据不属于不平衡数据集的范畴,换句话说原始smote算法的领域不包含脑电信号样本扩充。
[0055]
2、原始smote算法直接对样本进行合成,这种合成方式容易造成样本重叠,同时样本分布混乱,基于深度学习在进行分类学习时,处于不同标签样本交界的样本特征对网络的参数影响更大,因此增加样本选择条件,将处于不同标签样本交界的样本筛选出来作为原始数据进行人工合成,从而增加交界处样本的数量,从整体上改变样本的分布,以适用于深度学习方法。
[0056]
3、原始smote方法直接通过两个相同标签的样本路径上取一个点作为新的样本,这种新样本合成技术完全不适用于脑电信号,这种方式会改变原始信号中包含的时域频域信息与特征,为了保证新合成的样本与原始样本不一样并保留其特征,采用幅频加噪方法进行样本合成。目前样本扩充的方式灵感来源于图像识别中数据增强,主要是切片、时域交换等方法,也有部分直接给原始样本增加噪音。但是以上方式生成新样本虽然操作简单,但是对于时序信号样本而言,会破坏原始信号中包含的特征,为了保证新合成的样本不破坏且生成的样本与原始样本有所区别,故采用幅频加噪方法。这种方式能最大程度满足以上
要求。
附图说明
[0057]
图1是本发明提供优选实施例基于改进smote算法的脑电信号样本扩充方法流程图。
具体实施方式
[0058]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0059]
本发明解决上述技术问题的技术方案是:
[0060]
本发明提出一种基于改进smote算法的脑电信号样本扩充方法,在原始样本集的基础上对样本进行有效选择并生成新样本。本发明的目的是在于改进smote方法,对样本进行择优选择,在训练数据集的基础上筛选高质量样本并对其进行扩充,有效的增加了脑电信号数据集样本数量少,以及传统脑电样本扩充方法生成的新样本质量底的难题,并在一定程度上改变原始数据集的样本分布,有利于提升机器学习以及深度学习的模型学习效果。使扩充后的训练数据集能有效提高深度学习模型的泛化能力从而提升分类准确率。
[0061]
本发明的技术方案是:如图1所示,一种基于改进smote算法的脑电信号样本扩充方法,其包括以下步骤:(1)、使用脑电信号采集仪器采集不同受试者的脑电信号数据:选取5名健康受试者使用脑电信号采集仪器收集脑电数据,其中脑电信号采集仪器电极按照国际10-20标准安放,采样频率为1000hz,采样通道为32。采集过程如下:受试者佩戴已经安装好电极的电极帽后坐在椅子上进行放松,技术人员涂抹导电膏;受试者观察屏幕上的图像,进行左手与右手运动想象训练,该训练持续一段时间,此时收集到的数据不作为实验数据;受试者准备充分后,开始正式采集流程,每一个数据的采集周期为5秒,其中前2秒为休息时间,第3秒开始时显示器上显示受试者需要想象的图片(左手想象与右手想象),第5秒结束时一个采集周期结束。其中第3秒开始到第5秒结束之间采集到的数据中选取稳定的1秒信号作为样本。其中左手运动想象标签与右手想象标签样本均采集180次。
[0062]
(2)、脑电信号中含有各种噪音与肌电伪迹,本发明使用以下方法对脑电信号进行预处理,首先使用butterworth滤波器对脑电信号进行8-32hz的带通滤波,可以有效去除工频干扰以及大部分眼电伪迹。接着选取信号每个样本的前0.5秒作为基线信号,后1秒中的信息作为样本并对其进行基线校准,得到基线校准后的1秒信号样本,最后对其进行归一化。将将预处理后的信号组成数据集并以3:7的比例划分为测试数据集与训练数据集。
[0063]
(3)、使用改进的smote方法对经过预处理后的脑电信号训练数据集进行领域求取,首先将脑电信号sn∈rc×
t
(c代表不同电极,t代表电极上采集的脑电信号)用一维时序sn={s1,s2,

,si}(si代表电极i采集到的信号)进行表示;然后使用动态时间规整(dynamic time warping,dtw)算法求取脑电信号样本之间的距离,接着按照以下方式求取sn的领域样本,得到距离sn最近的k个样本。
[0064]
[0065]
上式中g(样本长度为i)与h(样本长度为j)为两个时序样本。
[0066]
(4)大多数分类算法都试图在训练过程中尽可能准确地学习每个类的边界。因此为了使合成的人工样本与处于边界的样本相似,需要根据样本的k个领域信息对样本进行分类:以样本s为例,k个样本中与样本s为不同标签的领域样本为k-n个,则与样本s为相同标签的领域样本为n个,将领域相同标签样本与k的比值作为判断参数c;设置区间a=[a1,a2](其中0《a1《a2《1);若c《a1,则认为样本s为noise类样本;若c》a2,则认为样本s为safe类样本;若c∈a,则认为样本s为danger类样本。其中danger类样本代表的是处于边界的样本。对训练数据集中的每一个样本重复步骤(3)与步骤(4),得到danger类样本集。
[0067]
(5)、将danger类样本集作为样本扩充的原始数据集,使用幅频加噪技术对在原始样本的基础上合成人工样本。先采用stft算法提取脑电信号记录的频谱图像,将x(t)表示为从脑电信号样本xi的一个电极采集的时间序列。信号x(t)的stft定义如下:
[0068][0069]
其中ω(t-τ)为窗口函数,z(t,f)为二维复矩阵,包含x(t)在时刻t和频率f的幅值和相位信息。将z(t,f)中得到的每个时刻t和频率f的幅值与相位分别表示为a
t,f
,高斯噪声表示为e~n(μ,σ),接着将噪声添加到幅值中,即将新的幅值与原有相位进行重构得到时序新的x(t)。按照此步骤应用于每个电极,最终获得新的样本。若添加不同强度的噪音,则可以在一个原始样本的基础上合成多个人工样本。对每一个原始数据集中的样本重复步骤(5)的操作,可以最多人工合成原始数据集样本量3-4倍的样本。
[0070]
(6)将新的训练数据集作为输入先对卷积神经网络进行预训练,训练前将卷积神经网络中的参数初始化并将训练数据集中的数据送入网络进行迭代训练,卷积神经网络根据训练数据更新参数,直到训练时分类准确度达到要求后停止训练并保存网络参数。
[0071]
(7)、最后使用测试数据集作为预训练结束的卷积神经网络的输入,将输出值与测试数据集的标签进行对比,得到脑电信号的分类准确率。
[0072]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0073]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0074]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0075]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献