一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种反馈式语音刺激记忆系统的制作方法

2021-08-13 19:22:00 来源:中国专利 TAG:记忆 语音 刺激 反馈 设备
一种反馈式语音刺激记忆系统的制作方法

本发明属于记忆设备领域,尤其涉及一种反馈式语音刺激记忆系统。



背景技术:

在英语的学习过程中,由于英语是一门语言类课程,在学习的过程中需要大量的记忆单词、语法等内容,才能学好英语,但是目前几乎没有针对英语学习过程中,专门根据学生的语音反馈的方式,增强记忆效果的装置,导致英语学习只能依靠自己的自己硬背,学习效率低,记忆效果不明显。

现有的英语学习设备一般是采用录制好的或者网上下载的词语、语法进行重复播放,学习者跟读的学习方式进行学习,采用此种方式,导致学习者的精神难以集中,在学习的过程中容易跑神,导致记忆效果难以提高,记忆效果较差。

中国专利申请号201810440869.6公开了一种交互式英语学习系统,所述一种交互式英语学习系统,包括多个移动端,服务器,数据存储设备,所述移动端内设置有移动端通讯模块,所述移动端通过通讯模块与服务器电连接,所述服务器与数据存储设备电连接,所述移动端内设置有触摸显示屏集成单元,处理器,该触摸显示屏集成单元由音频模块,显示屏,手写模块、工具模块、数据库模块及同步设备组成,所述处理器与音频模块电连接,所述显示屏与处理器电连接,所述手写模块与处理器电连接,所述工具模块与处理器电连接,所述数据库模块与处理器电连接,所述同步设备与处理器电连接。上述技术方案通过交互式学习,通过设置手写模块进行交互学习,虽然有助于进行增强记忆,但是并不能得到有效的反馈信息,及时加深听觉记忆,记忆学习效果有待提升。



技术实现要素:

针对现有技术不足,本发明的目的在于提供了一种反馈式语音刺激记忆系统,通过设置控制模块控制输入模块进行语音输入,之后对语音信号进行增强处理,并且进行语音合成处理,增加语音的可读懂度,识别性更高;增强语音信号质量,提升语音信号的可读懂度,增强语音反馈记忆效果;通过对语音信号数据进行修剪,增加语音信号数据的正确率和准确性,增加后续翻译和语音输出的准确性。

本发明提供如下技术方案:

一种反馈式语音刺激记忆系统;包括控制模块、语音输入模块、输出模块;语音输入之后对其进行识别,识别之后对输入的语音信号进行分析处理,通过对语音信号分析处理之后,增加语音的可读懂度,识别性更高;

语音信号分析处理之后通过设置的语音合成模块对语音信号进行合成处理,减少语音信号因为时变的影响,增加听觉反馈的清晰度;

语音合成模块连接有提取模块,提取模块对关键词进行检索,检索之后通过连接的翻译模块对语音信号进行翻译成英语同时进行输出反馈至学习者;语音输入模块、分析处理模块、合成模块、提取模块、翻译模块、输出模块依次进行连接,通过信号线进行通讯,且均与控制模块连接,与控制模块之间进行通讯和信号控制。

优选的,语音合成的步骤为:首先经过分析处理模块对语音信号数据进行处理,提取语音信号的时域、频域、时频域特征;在时域上构建期望的幅度值,频域上构建期望的相位谱,根据幅度值和相位谱,得到语音信号的时频域波形。

优选的,语音信号的分析处理模块包括语音信号预处理、语音信号特征提取、语音信号增强处理。

优选的,语音信号预处理包括原是语音输入,对语音高频部分进行提升,然后对语音信号按照16khz进行重新采样;对于重新采样的语音信号数据进行分帧、加窗处理,根据每帧语音信号的短时能量进行区分语音的静音段和语音段,对语音段进行特征提取。

优选的,语音信号增强处理采用神经网络建立语音信号增强模型,通过神经网络增强模型对语音信号进行处理,增强语音信号质量,提升语音信号的可读懂度,增强语音反馈记忆效果。

优选的,所述特征参数的提取方法如下:

a,分析处理模块获取语音信号预处理之后的语音段的信号数据;

b,统计语音信号能量计数值,能量计数值是将语音段数据幅值大于阈值的部分加到能量计数上;

c,将能量计数值与存储最大值比较,若大于最大值则进行替换,并记录最大能量计数值;

d,判断语音段信号是否结束,若语音停止输入则事件结束,此时将记录的语音段信号数据的幅值、能量计数值进行存储并用于语音信号增强处理。

优选的,通过神经网络增强模型对语音信号进行处理之后,分析处理模块采用迭代法对语音信号数据进行修剪,增加语音信号数据的正确率和准确性,增加后续翻译和语音输出的准确性。

优选的,所述控制模块采用stm32单片机,所述语音输入模块(lb3320)、翻译模块(icm20602)、输出模块(扬声器)之间依次进行单向串口通信;所述stm32单片机与语音输入模块、翻译模块、输出模块之间进行双向串口通信。

优选的,学习者输入汉语或者英语语音之后,系统自动调用百度识别api对出入的语音进行识别,识别为语音信号之后,通过分析处理模块对语音信号进行预处理,预处理的过程为:a1预加重,对语音信号高频部分进行提升,对语音信号数据进行滤波处理,滤波之后的语音信号频率h满足h=1-bz-1;上述式中b为预加重系数,取值范围为0.89-1;z为语音信号数据的初始频率;经过预加重之后语音信号x2(n)表示为x2(n)=x1(n)-λ·x(n-1);上式中x1(n)为输入语音信号数据,λ为调节关系,取值范围0.76-0.97;通过对语音信号的预加重,消除了发生过程中的嘴唇震动的噪音,减小了噪音对语音数据的影响,增加语音信号数据的准确性;a2,重新采样,将预加重之后的数据进行重新采样,统一采用16khz对语音信号数据重新采样;a3,分帧处理,在语音信号时域波形上,以短时步长对语音信号进行切割,得到小段的语音信号参数,将参数组合成整体语音信号时序上的特征参数,完成分帧处理;a4加窗处理,将重新组合的整体语音信号帧与窗函数相乘,窗函数采用余弦窗w(n)=0.56-0.36cos(2πn/(n-1));窗长与帧长相等;则加窗后的语音信号y满足,y=x(n)-w(n);x(n)表示单个语音信号帧,上述式中满足0<n<n,n为每帧语音信号采样点数,通过此方式降低语音帧两端的急剧变化的信号对语音信号分析的影响,消除高频干扰;a5语音信号检测,通过语音信号段的每帧短时能量作为特征提取的阈值,将每十帧语音信号段短时能量进行均值计算,将此短时能量均值作为特征提取过程中的能量幅值阈值,消除静音段的影响,从而消除语音信号段的不可靠数据,提升语音信号的准确性。

经过预处理之后对语音信号进行特征提取,提取语音段信号数据的幅值、能量计数值,根据语音段信号数据的幅值、能量计数值设定神经网络语音信号增强,减低噪音干扰;神经网络具体将经过预处理之后的语音信号作为输入,干净语音信号作为输出,输入层神经元数量设为90个,输出层神经元数量设为90个,将经过特征提取的语音信号数据中随即提取八万个特征向量作为输入,隐藏层数设置为三层,每个隐藏层神经元数量为500个;隐藏层数过多,容易在训练过程中陷入局部最优解,造成经过训练的语音信号数据出现过度拟合现象,因此选择三层隐藏层,有助于语音信号增强之后的语音可读懂度提升。

另外,分析处理模块采用迭代法对语音信号数据进行修剪的过程为:首先根据特征提取的幅值的绝对值,设置语音信号参数修剪的阈值,当幅值的绝对值小于阈值时,零致处理,使用一组掩蔽矩阵进行修剪,对应语音信号参数的绝对值小于修剪阈值的项权重值归零,高于修建于子的对应权重值为1;其次对于经过神经网络训练之后的数据进行二次修剪,修剪方式同上;最后,将增强后的语音信号数据的正确率作为判断阈值,当正确率小于阈值时,将上一次神经网络输出的干净语音数据进行输出,若正确率大于阈值,则更新修剪阈值,重新进行修剪;直到修剪完成。通过对神经网络训练模型的修剪,对语音信号数据进行增强,提升语音信号数据的正确率,提升语音反馈的准确性。

另外,分析处理模块进行数据分析的整体流程为语音信号数据输入之后,经过带通滤波去除低频环境下的噪音,之后对语音信号数据进行线性相消消除刺激声干扰,然后进行阈值判断,与阈值进行对比,叠加平均值,去除脉冲噪声提升信噪比,然后进行动态跟踪滤波,合成新的语音信号数据,最后进行傅里叶变换,获取时域、频域图、幅度相位特征。

另外,在语音合成的过程中,在时域上构建期望的幅度值时,设置为频率的常函数,幅度值不随频率变化;在频域上构建相位谱,通过群延迟进行构建,语音信号数据每一个频率发生的瞬间t,当时间从0变化到t秒时,如果频率从f1增加到f2,则瞬间t满足t=t(f-f1)/(f2-f1);上式中t为频率从f1增加到f2的时长;因此相位谱φ满足φ=-πtf(f-f1)/(f2-f1);经过语音合成之后,语音信号数据频率连续、分辨率高、发声效率高,语音信号的瞬时频率在一个频段范围内按照一定规律由低到高进行连续变化,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,提升学习者的记忆能力和记忆效果;语音合成之后提取语音信号的关键词,并进行知识库检索关键信息,之后通过设置的翻译模块将提取的关键信息翻译成英语,通过检索到的关键词与对应文本的内容调用百度ai平的api接口进行英汉转换,最后通过设置的输出模块将英语进行输出反馈至学习者,通过对语音的分析处理与语音合成两者相互结合,共同作用,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,语音信号数据进行增强,提升语音信号数据的正确率,提升语音反馈的准确性,提升学习效果。

与现有技术相比,本发明具有以下有益效果:

(1)本发明一种反馈式语音刺激记忆系统,通过设置控制模块控制输入模块进行语音输入,之后对语音信号进行增强处理,并且进行语音合成处理,增加语音的可读懂度,识别性更高;增强语音信号质量,提升语音信号的可读懂度,增强语音反馈记忆效果。

(2)本发明一种反馈式语音刺激记忆系统,通过对语音信号数据进行修剪,增加语音信号数据的正确率和准确性,增加后续翻译和语音输出的准确性。

(3)本发明一种反馈式语音刺激记忆系统,通过语音信号段的每帧短时能量作为特征提取的阈值,将每十帧语音信号段短时能量进行均值计算,将此短时能量均值作为特征提取过程中的能量幅值阈值,消除静音段的影响,从而消除语音信号段的不可靠数据,提升语音信号的准确性。

(4)本发明一种反馈式语音刺激记忆系统,通过限定预加重之后语音信号与输入语音信号数据之间的关系,消除了发生过程中的嘴唇震动的噪音,减小了噪音对语音数据的影响,增加语音信号数据的准确性。

(5)本发明一种反馈式语音刺激记忆系统,通过在频域上构建相位谱,限定瞬时时间、频率之间的关系,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,提升学习者的记忆能力和记忆效果。

(6)本发明一种反馈式语音刺激记忆系统,通过对语音的分析处理与语音合成两者相互结合,共同作用,提升语音信号的辨识度,提升语音信号数据的正确率,提升语音反馈的准确性,进一步增强反馈记忆的效果。

附图说明

为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明的系统框架结构图。

图2是本发明的语音信号预处理流程图。

图3是本发明的神经网络拓扑结构图。

图4是本发明的语音信号迭代修剪流程图。

图5是本发明的语音信号数据分析处理数据流程图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述。显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。

实施例一:

如图1所示,一种反馈式语音刺激记忆系统;包括控制模块、语音输入模块、输出模块;语音输入之后对其进行识别,识别之后对输入的语音信号进行分析处理,通过对语音信号分析处理之后,增加语音的可读懂度,识别性更高;

语音信号分析处理之后通过设置的语音合成模块对语音信号进行合成处理,减少语音信号因为时变的影响,增加听觉反馈的清晰度;

语音合成模块连接有提取模块,提取模块对关键词进行检索,检索之后通过连接的翻译模块对语音信号进行翻译成英语同时进行输出反馈至学习者;语音输入模块、分析处理模块、合成模块、提取模块、翻译模块、输出模块依次进行连接,通过信号线进行通讯,且均与控制模块连接,与控制模块之间进行通讯和信号控制。

语音合成的步骤为:首先经过分析处理模块对语音信号数据进行处理,提取语音信号的时域、频域、时频域特征;在时域上构建期望的幅度值,频域上构建期望的相位谱,根据幅度值和相位谱,得到语音信号的时频域波形。

语音信号的分析处理模块包括语音信号预处理、语音信号特征提取、语音信号增强处理。

所述控制模块采用stm32单片机,所述语音输入模块(lb3320)、翻译模块(icm20602)、输出模块(扬声器)之间依次进行单向串口通信;所述stm32单片机与语音输入模块、翻译模块、输出模块之间进行双向串口通信。

实施例二:

如图2所示,在实施例一的基础上,语音信号预处理包括原是语音输入,对语音高频部分进行提升,然后对语音信号按照16khz进行重新采样;对于重新采样的语音信号数据进行分帧、加窗处理,根据每帧语音信号的短时能量进行区分语音的静音段和语音段,对语音段进行特征提取。

学习者输入汉语或者英语语音之后,系统自动调用百度识别api对出入的语音进行识别,识别为语音信号之后,通过分析处理模块对语音信号进行预处理,预处理的过程为:a1预加重,对语音信号高频部分进行提升,对语音信号数据进行滤波处理,滤波之后的语音信号频率h满足h=1-bz-1;上述式中b为预加重系数,取值范围为0.89-1;z为语音信号数据的初始频率;经过预加重之后语音信号x2(n)表示为x2(n)=x1(n)-λ·x(n-1);上式中x1(n)为输入语音信号数据,λ为调节关系,取值范围0.76-0.97;通过对语音信号的预加重,消除了发生过程中的嘴唇震动的噪音,减小了噪音对语音数据的影响,增加语音信号数据的准确性;a2,重新采样,将预加重之后的数据进行重新采样,统一采用16khz对语音信号数据重新采样;a3,分帧处理,在语音信号时域波形上,以短时步长对语音信号进行切割,得到小段的语音信号参数,将参数组合成整体语音信号时序上的特征参数,完成分帧处理;a4加窗处理,将重新组合的整体语音信号帧与窗函数相乘,窗函数采用余弦窗w(n)=0.56-0.36cos(2πn/(n-1));窗长与帧长相等;则加窗后的语音信号y满足,y=x(n)-w(n);x(n)表示单个语音信号帧,上述式中满足0<n<n,n为每帧语音信号采样点数,通过此方式降低语音帧两端的急剧变化的信号对语音信号分析的影响,消除高频干扰;a5语音信号检测,通过语音信号段的每帧短时能量作为特征提取的阈值,将每十帧语音信号段短时能量进行均值计算,将此短时能量均值作为特征提取过程中的能量幅值阈值,消除静音段的影响,从而消除语音信号段的不可靠数据,提升语音信号的准确性。

实施例三:

如图3-4所示,语音信号增强处理采用神经网络建立语音信号增强模型,通过神经网络增强模型对语音信号进行处理,增强语音信号质量,提升语音信号的可读懂度,增强语音反馈记忆效果。

所述特征参数的提取方法如下:

a,分析处理模块获取语音信号预处理之后的语音段的信号数据;

b,统计语音信号能量计数值,能量计数值是将语音段数据幅值大于阈值的部分加到能量计数上;

c,将能量计数值与存储最大值比较,若大于最大值则进行替换,并记录最大能量计数值;

d,判断语音段信号是否结束,若语音停止输入则事件结束,此时将记录的语音段信号数据的幅值、能量计数值进行存储并用于语音信号增强处理。

通过神经网络增强模型对语音信号进行处理之后,分析处理模块采用迭代法对语音信号数据进行修剪,增加语音信号数据的正确率和准确性,增加后续翻译和语音输出的准确性。

经过预处理之后对语音信号进行特征提取,提取语音段信号数据的幅值、能量计数值,根据语音段信号数据的幅值、能量计数值设定神经网络语音信号增强,减低噪音干扰;神经网络具体将经过预处理之后的语音信号作为输入,干净语音信号作为输出,输入层神经元数量设为90个,输出层神经元数量设为90个,将经过特征提取的语音信号数据中随即提取八万个特征向量作为输入,隐藏层数设置为三层,每个隐藏层神经元数量为500个;隐藏层数过多,容易在训练过程中陷入局部最优解,造成经过训练的语音信号数据出现过度拟合现象,因此选择三层隐藏层,有助于语音信号增强之后的语音可读懂度提升。

分析处理模块采用迭代法对语音信号数据进行修剪的过程为:首先根据特征提取的幅值的绝对值,设置语音信号参数修剪的阈值,当幅值的绝对值小于阈值时,零致处理,使用一组掩蔽矩阵进行修剪,对应语音信号参数的绝对值小于修剪阈值的项权重值归零,高于修建于子的对应权重值为1;其次对于经过神经网络训练之后的数据进行二次修剪,修剪方式同上;最后,将增强后的语音信号数据的正确率作为判断阈值,当正确率小于阈值时,将上一次神经网络输出的干净语音数据进行输出,若正确率大于阈值,则更新修剪阈值,重新进行修剪;直到修剪完成。通过对神经网络训练模型的修剪,对语音信号数据进行增强,提升语音信号数据的正确率,提升语音反馈的准确性。

实施例四

如图5所示,分析处理模块进行数据分析的整体流程为语音信号数据输入之后,经过带通滤波去除低频环境下的噪音,之后对语音信号数据进行线性相消消除刺激声干扰,然后进行阈值判断,与阈值进行对比,叠加平均值,去除脉冲噪声提升信噪比,然后进行动态跟踪滤波,合成新的语音信号数据,最后进行傅里叶变换,获取时域、频域图、幅度相位特征。

实施例五

在语音合成的过程中,在时域上构建期望的幅度值时,设置为频率的常函数,幅度值不随频率变化;在频域上构建相位谱,通过群延迟进行构建,语音信号数据每一个频率发生的瞬间t,当时间从0变化到t秒时,如果频率从f1增加到f2,则瞬间t满足t=t(f-f1)/(f2-f1);上式中t为频率从f1增加到f2的时长;因此相位谱φ满足φ=-πtf(f-f1)/(f2-f1);经过语音合成之后,语音信号数据频率连续、分辨率高、发声效率高,语音信号的瞬时频率在一个频段范围内按照一定规律由低到高进行连续变化,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,提升学习者的记忆能力和记忆效果;语音合成之后提取语音信号的关键词,并进行知识库检索关键信息,之后通过设置的翻译模块将提取的关键信息翻译成英语,通过检索到的关键词与对应文本的内容调用百度ai平的api接口进行英汉转换,最后通过设置的输出模块将英语进行输出反馈至学习者,通过对语音的分析处理与语音合成两者相互结合,共同作用,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,语音信号数据进行增强,提升语音信号数据的正确率,提升语音反馈的准确性,提升学习效果。

通过上述技术方案得到的装置是一种反馈式语音刺激记忆系统,通过设置控制模块控制输入模块进行语音输入,之后对语音信号进行增强处理,并且进行语音合成处理,增加语音的可读懂度,识别性更高;增强语音信号质量,提升语音信号的可读懂度,增强语音反馈记忆效果;通过对语音信号数据进行修剪,增加语音信号数据的正确率和准确性,增加后续翻译和语音输出的准确性;通过语音信号段的每帧短时能量作为特征提取的阈值,将每十帧语音信号段短时能量进行均值计算,将此短时能量均值作为特征提取过程中的能量幅值阈值,消除静音段的影响,从而消除语音信号段的不可靠数据,提升语音信号的准确性;通过限定预加重之后语音信号与输入语音信号数据之间的关系,消除了发生过程中的嘴唇震动的噪音,减小了噪音对语音数据的影响,增加语音信号数据的准确性;通过在频域上构建相位谱,限定瞬时时间、频率之间的关系,提升语音信号的辨识度,增加耳蜗神经中枢的敏感性,通过语音信号合成,引发听觉传出神经系统的兴奋,有助于对大脑形成反馈式记忆,提升学习者的记忆能力和记忆效果;通过对语音的分析处理与语音合成两者相互结合,共同作用,提升语音信号的辨识度,提升语音信号数据的正确率,提升语音反馈的准确性,进一步增强反馈记忆的效果。

本发明中未详细阐述的其它技术方案均为本领域的现有技术,在此不再赘述。

以上所述仅为本发明的优选实施方式而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化;凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜