一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向听觉诱发的端到端脑电信号解码方法与流程

2021-11-05 22:52:00 来源:中国专利 TAG:


1.本发明涉及脑电数据分析领域,特别是涉及一种面向听觉诱发的端到端脑电信号解码方法。


背景技术:

2.听觉诱发脑机接口的研究工作在很早就已经展开,2004年,hinterberger提出了一种脑机接口系统,该系统基于皮层慢电位并且采用听觉刺激作为诱发方式,受试者可以自主进行电位调节,该系统的识别率为59%。2008年,tibingen实验室在提出了基于体感运动节律的脑机接口系统,同样采用听觉诱发,但是该范式下受试者的脑电识别正确率仅为55.96%。在此之后,tubingen脑机接口实验室在2009年提出了基于经典p300范式的听觉脑机接口,该系统采用字符输入方式,并且脑电识别正确率达到68%。为了提高听觉诱发脑机接口的识别准确率,2013年,namba等人发现assr与α波相结合能够使bci系统的分类正确率明显提高,此后nakamura等人提出了使用由文本到语音(text

to
‑‑
speech,tts)软件合成人造语音刺激来构建基于assr的bci系统。此项研究是第一次将人造语音应用于基于assr的bci系统,该系统的分类识别率有了较大提高,但是最高也仅为78.6%。2019年1月,美国哥伦比亚大学的研究人员提出了一种将脑电转化为语音的技术,该研究基于深度学习模型和声码器的技术,通过将脑电波输入深度学习模型将其转化为语音形式,从而完成语音重建,实验结果表明该模型识别准确率为75%,达到了听觉bci系统中较高的准确率,使用侵入式电极,并且需要采集人类下颌、嘴唇和舌头等多部位动作相关的肌肉活动,过程比较繁琐。
3.综上所述,现有听觉诱发脑机接口主要存在以下问题:
4.(1)听觉诱发bci的研究主要集中在基于p300、听觉稳态响应(assr)和基于选择注意等方面,实验范式还不够完善,需要根据实际应用场景建立特定的脑机接口。
5.(2)目前听觉诱发脑机接口中传统的分类算法存在识别准确率较低,模型泛化性较差等问题,造成了脑机接口中的“bci盲”(脑机接口分类识别准确率低于70%)问题,识别率还有很大的上升空间。
6.(3)现有人机交互系统主要依赖特定的通讯设备进行沟通,这类设备包括辅助器具和神经假体,但是,这样的沟通过程显然无法与人类正常的说话过程相比,降低人与外界环境沟通的效率。


技术实现要素:

7.本发明的目的是提供一种面向听觉诱发的端到端脑电信号解码方法,以解决上述现有技术存在的问题,使准确的快速的传达出大脑信息。
8.为实现上述目的,本发明提供了如下方案:
9.本发明提供了一种面向听觉诱发的端到端脑电信号解码方法,包括以下步骤:
10.s1、获取待测人员的脑电数据以及解码后的语音数据;
11.s2、对所述脑电数据和语音数据进行预处理;
12.s3、对预处理后的数据进行分类识别,获得脑电数据集、脑电/语音数据集和语音数据集;
13.s4、构建双dualgan网络模型,基于所述脑电数据集、所述脑电/语音数据集和所述语音数据集对所述双dualgan网络模型进行训练,获得训练好的所述双dualgan网络模型,对所述待测人员的脑电数据进行解码,获得语音信号。
14.优选地,所述s1中,脑电数据的获取过程为:首先对待测人员的听觉神经进行刺激,通过所述刺激引起中枢神经系统的生物电反应,产生电信号从而获得待测人员的所述脑电数据。
15.优选地,所述s2中,脑电数据预处理的过程为:对所述脑电数据进行滤波,获取预处理后的所述脑电数据。
16.优选地,所述s3中,分类识别的方法为:将预处理后的所述脑电数据和所述解码后的语音数据进行混合,组成多维混合矩阵,作为所述脑电/语音数据集;将预处理后的所述脑电数据作为脑电数据集;将预处理后的所述语音数据作为语音数据集。
17.优选地,所述双dualgan网络模型包括两个dualgan网络,分别为第一dualgan网络和第二dualgan网络,所述第一dualgan网络包括第一生成器、第二生成器、第一鉴别器和第二鉴别器;所述第二dualgan网络包括所述第三生成器、第四生成器、所述第一鉴别器和第三鉴别器;所述第一dualgan网络和所述第二dualgan网络共用所述第一鉴别器。
18.优选地,所述第一dualgan网络用于处理所述脑电数据集和所述脑电/语音数据集,所述第一dualgan网络处理所述脑电数据集的具体方法为:
19.所述脑电数据集基于所述第一生成器获得第一脑电信号,所述第一鉴别器对所述第一脑电信号进行评估,获得第一隶属度得分;
20.所述第一脑电信号基于所述第二生成器获得第二脑电信号,计算所述第二脑电信号和所述脑电数据集之间绝对差的平均值,作为第一重构损失;
21.基于所述第一隶属度得分,对所述第一生成器、所述第一dualgan网络的正向路径进行优化。
22.优选地,所述第一dualgan网络处理所述脑电/语音数据集的具体方法为:
23.所述脑电/语音数据集基于所述第二生成器获得第一脑电/语音信号,所述第二鉴别器对所述第一脑电/语音信号进行评估,获得第二隶属度得分;
24.所述第一脑电/语音信号基于所述第一生成器获得第二脑电/语音信号,计算所述第二脑电/语音信号和所述脑电/语音数据集之间绝对差的平均值,作为第二重构损失;
25.基于所述第二隶属度得分,对所述第二生成器、所述第一dualgan网络的反向路径进行优化
26.优选地,所述第二dualgan网络用于处理所述语音数据集和所述脑电/语音数据集,所述第二dualgan网络处理所述语音数据集的具体方法为:
27.所述语音数据集基于所述第三生成器获得第一语音信号,所述第一鉴别器对所述第一语音信号进行评估,获得第三隶属度得分;
28.所述第一语音信号基于所述第四生成器获得第二语音信号,计算所述第二语音信号和所述语音数据集之间绝对差的平均值,作为第三重构损失;
29.基于所述第三隶属度得分,对所述第三生成器、所述第二dualgan网络的正向路径进行优化。
30.优选地,所述第二dualgan网络用于处理所述脑电/语音数据集,所述第二dualgan网络处理所述脑电/语音数据集的具体方法为:
31.所述脑电/语音数据集基于所述第三生成器获得第三脑电/语音信号,所述第三鉴别器对所述第三脑电/语音信号进行评估,获得第四隶属度得分;
32.所述第三脑电/语音信号基于所述第四生成器获得第四脑电/语音信号,计算所述第四脑电/语音信号和所述脑电/语音数据集之间绝对差的平均值,作为第四重构损失;
33.基于所述第四隶属度得分,对所述第三生成器、所述第二dualgan网络的正向路径进行优化。
34.优选地,所述第一生成器、所述第二生成器、所述第三生成器和所述第四生成器均采用相同的网络结构,为u

net结构,配置有相同数量的下采样层和上采样层;所述第一鉴别器、所述第二鉴别器和所述第三鉴别器均采用patchgan结构。
35.本发明公开了以下技术效果:
36.本发明能够对不同任务下的脑电活动进行解码。最终将不同任务下的脑电信号重构为语音信号,重构语音信号与标签语音信号相似度可达0.95以上,模型对不同的性别和年龄段内的人群具有一定的泛化性。结果表明,基于双dualgan的模型算法在人机交互方面具有一定的可行性和有效性,该方法可为脑机接口的研究扩展提供新的思路,未来可用于神经语音等医疗和康复领域。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
38.图1为本发明实施例的端到端脑电转语音模型示意图;
39.图2为本发明实施例的双dualgan网络架构示意图。
具体实施方式
40.现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
41.应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
42.在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见的。本技术说明书和实施例仅是示例性的。
43.关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
44.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
46.如图1所示,本发明为一种面向听觉诱发的端到端脑电信号解码方法,包括以下步骤:s1、获取待测人员的脑电数据以及解码后的语音数据;s2、对所述脑电数据和语音数据进行预处理;s3、对预处理后的数据进行分类识别,获得脑电数据集、脑电/语音数据集和语音数据集;s4、构建双dualgan网络模型,基于所述脑电数据集、所述脑电/语音数据集和所述语音数据集对所述双dualgan网络模型进行训练,获得训练好的所述双dualgan网络模型,对所述待测人员的脑电数据进行解码,获得语音信号。
47.跨感觉通道刺激的脑机接口为解码脑电活动研究提供了重要思路。针对听觉诱发脑机接口存在的问题,本实施例设计了一种新的听觉脑机接口系统,该系统使用数字素材的听觉刺激,受自然语言翻译和图像翻译的研究启发,借鉴图像翻译领域的对偶思想,将脑电和语音两种信号互做标记,训练端到端的跨域映射模型,实现了不同任务下脑电信号与语音信号的端到端解码。
48.优选地,所述s1中,脑电数据的获取过程为:首先对待测人员的听觉神经进行刺激,通过所述刺激引起中枢神经系统的生物电反应,产生电信号从而获得待测人员的所述脑电数据。
49.优选地,所述s2中,脑电数据预处理的过程为:对所述脑电数据进行滤波,获取预处理后的所述脑电数据。
50.优选地,所述s3中,分类识别的方法为:将预处理后的所述脑电数据和所述解码后的语音数据进行混合,组成多维混合矩阵,作为所述脑电/语音数据集;将预处理后的所述脑电数据作为脑电数据集;将预处理后的所述语音数据作为语音数据集。
51.优选地,所述双dualgan网络模型包括两个dualgan网络,分别为第一dualgan网络和第二dualgan网络,所述第一dualgan网络包括第一生成器、第二生成器、第一鉴别器和第二鉴别器;所述第二dualgan网络包括所述第三生成器、第四生成器、所述第一鉴别器和第三鉴别器;所述第一dualgan网络和所述第二dualgan网络共用所述第一鉴别器。
52.优选地,所述第一dualgan网络用于处理所述脑电数据集和所述脑电/语音数据集,所述第一dualgan网络处理所述脑电数据集的具体方法为:
53.所述脑电数据集基于所述第一生成器获得第一脑电信号,所述第一鉴别器对所述第一脑电信号进行评估,获得第一隶属度得分;
54.所述第一脑电信号基于所述第二生成器获得第二脑电信号,计算所述第二脑电信号和所述脑电数据集之间绝对差的平均值,作为第一重构损失;
55.基于所述第一隶属度得分,对所述第一生成器、所述第一dualgan网络的正向路径进行优化。
56.优选地,所述第一dualgan网络处理所述脑电/语音数据集的具体方法为:
57.所述脑电/语音数据集基于所述第二生成器获得第一脑电/语音信号,所述第二鉴别器对所述第一脑电/语音信号进行评估,获得第二隶属度得分;
58.所述第一脑电/语音信号基于所述第一生成器获得第二脑电/语音信号,计算所述第二脑电/语音信号和所述脑电/语音数据集之间绝对差的平均值,作为第二重构损失;
59.基于所述第二隶属度得分,对所述第二生成器、所述第一dualgan网络的反向路径进行优化
60.优选地,所述第二dualgan网络用于处理所述语音数据集和所述脑电/语音数据集,所述第二dualgan网络处理所述语音数据集的具体方法为:
61.所述语音数据集基于所述第三生成器获得第一语音信号,所述第一鉴别器对所述第一语音信号进行评估,获得第三隶属度得分;
62.所述第一语音信号基于所述第四生成器获得第二语音信号,计算所述第二语音信号和所述语音数据集之间绝对差的平均值,作为第三重构损失;
63.基于所述第三隶属度得分,对所述第三生成器、所述第二dualgan网络的正向路径进行优化。
64.优选地,所述第二dualgan网络用于处理所述脑电/语音数据集,所述第二dualgan网络处理所述脑电/语音数据集的具体方法为:
65.所述脑电/语音数据集基于所述第三生成器获得第三脑电/语音信号,所述第三鉴别器对所述第三脑电/语音信号进行评估,获得第四隶属度得分;
66.所述第三脑电/语音信号基于所述第四生成器获得第四脑电/语音信号,计算所述第四脑电/语音信号和所述脑电/语音数据集之间绝对差的平均值,作为第四重构损失;
67.基于所述第四隶属度得分,对所述第三生成器、所述第二dualgan网络的正向路径进行优化。
68.优选地,所述第一生成器、所述第二生成器、所述第三生成器和所述第四生成器均采用相同的网络结构,为u

net结构,配置有相同数量的下采样层和上采样层;所述第一鉴别器、所述第二鉴别器和所述第三鉴别器均采用patchgan结构。
69.双dualgan网络架构
70.dualgan模型只能对具有共同特征的两组图像进行翻译,而脑电和语音信号隶属于不同域,因而将dualgan模型直接用于脑电和语音的标记训练,会因为无法建立对应映射关系而造成脑电与语音信号不匹配,对此我们提出了一种双dualgan网络算法,用于脑电信号和语言信号之间的转换,在dualgan网络基础上,通过加入一个过渡域v,使得脑电和语音信号之间建立桥接,经过训练得到跨域映射模型,实现脑电与语音信号的端到端输入与输出映射。算法网络架构如图2所示。
71.dualgan包含两个生成器和两个鉴别器,如域u和域v组成的对偶框架,而双dualgan是由两个dualgan网络组合而成,工作原理如下:
72.第一个dualgan:
73.定义经过预处理之后的脑电数据作为域u的原始数据:脑电real,语音数据为域w的原始数据:语音real。模型开始训练前,由模型特征提取部分读取两边real数据获得脑电和语音信号的数据,然后按照一定的比例组成多维混合矩阵,作为域v(过渡域)混合样本原
始数据:脑电/语音real,并且三个域原始real数据设定为同维度。
74.(1)脑电real经过生成器a生成脑电2:g
a
(u,z),其中,脑电2包含一定的随机噪声z。鉴别器a会评估生成脑电2的隶属度得分进而作为前向gan生成的优化目标,同时也会优化生成器a。
75.(2)脑电2再经过生成器b生成脑3:g
b
(g
a
(u,z),z'),同样,脑3也包含一定的随机噪声z'。作为域u的重构,生成的脑电3会与脑电real会进行比较,计算原始数据与重构数据之间绝对差的平均值,作为重构损失b。
76.(3)脑/语real经过生成器b生成脑/语2:g
b
(u,z'),同样,鉴别器b会评估生成脑/语2的隶属度得分进而作为反向gan生成的优化目标,同时优化生成器b。
77.(4)生成的脑/语2会通过生成器a生成脑/语3:g
a
(g
b
(u,z'),),作为域v的重构,生成的脑/语3会与脑/语real进行比较,计算原始数据与重构数据之间绝对差的平均值,将其作为重构损失a。
78.经过上述过程,在得到不同的鉴别器隶属度得分和相应的重构损失后,生成器将被优化成为最优以模拟域v输出,从而使相应的鉴别器无法鉴别生成数据的真伪,同时将两个重建损失最小化,使模型达到最优效果。
79.第二个dualgan:
80.当第一个dualgan训练完成之后,第二个dualgan开始训练,训练过程与第一个dualgan类似,不同的是,脑电信号和混合信号的对抗训练使用生成器a和生成器b,并且利用鉴别器a和鉴别器b学习优化域u和域v之间数据的训练,而混合信号和语音信号的对抗训练则使用生成器c和生成器d,利用鉴别器a和鉴别器c优化域v和域w之间的训练,其中,两个dualgan网络共用一个鉴别器a,用于模型两个网络分时段训练。
81.(1)语real经过生成器d生成语2,随后经过生成器c重构为语音3。鉴别器a会评估生成语音2的隶属度得分来优化生成器d,而作为域w的重构,生成的语音3会与语音real会进行比较,作为重构损失c。
82.(2)脑/语real也会经过生成器c生成脑/语2,并且通过生成器d重构为域v的脑/语3,针对这一过程,鉴别器c会评估生成脑/语2的隶属度得分来优化生成器c,同样生成的脑/语3会与脑/语real进行比较,将其作为重构损失。在第二个dualgan工作完成之后,会同样得到不同的鉴别器隶属度得分和对应的重构损失后,生成器将被优化成为最优以模拟域w输出,并且第二个dualgan网络生成的语音2会与第一个dualgan生成的脑电2通过一定的比例混合生成最终的多维混合矩阵来作为最终训练模型中间过渡层的结果。
83.双dualgan模型中两个dualgan网络采用相同的生成器网络结构,损失函数定义相同,所有生成器均采用u

net结构,配置有相同数量的下采样和上采样层,这样便于输入和输出之间共享信息,同时也避免了信息的丢失。而鉴别器同样都采用patchgan结构,该架构可以很好的提取信号局部特征,在重构信号的时候会保全全局和低频信息,并且patchgan结构需要比较少的参数,对输入信号的矩阵维度没有限制。
84.在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
85.以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献