一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向VR直播场景的双重自适应智能语音识别方法与流程

2022-11-30 11:43:29 来源:中国专利 TAG:

面向vr直播场景的双重自适应智能语音识别方法
技术领域
1.本发明涉及语音识别技术领域,具体涉及面向vr直播场景的双重自适应智能语音识别方法。


背景技术:

2.在如今的直播场景中声音信息是重要的信息来源之一,然而由于声音具有即时性,人们可能由于种种原因而受到干扰导致不能完整接收到声音信息,因此将声音信息转换成文字信息就非常有必要性。目前直播环境下主要采用自动语音识别技术将将声音信息转化为字幕的形式表现出来,但是传统的语音识别技术主要在清净语音信号上取得很大进展,在噪声场景下其性能可能会显著下降,同时在直播场景下对于字幕的延迟性能也有很大的需求。
3.现有技术中,提高语音识别主流方法有两种,第一种是在语音识别的前端加入包括光谱法和维纳滤波法等对语音进行增强,然而语音增强通常会得到一个次优解,且会产生过于平滑的语音导致语音失真
4.第二种是方法是采用多条件训练,使用不同类型的数据训练语音识别模型,然而这会使复杂性和计算成本大大增加,并且性能受到失真的影响。
5.其中,语音识别模型大多是采用具有编解码器结构的transformer模型,相比较于传统的循环神经网络,它采用自注意机制来捕获输入序列中每对元素之间的依赖关系,有效地打破了距离的限制,降低里计算复杂度。 transformer采用编解码器框架,编码器和解码器都由自注意网络组成,且使用交叉注意机制进行连接。然而transformer模型中的解码器在解码之前需要完整的输入语音,因此,在直播场景中可能存在很大的延迟,难以实现实时的语音识别功能。


技术实现要素:

6.有鉴于此,本发明要解决的问题是提供面向vr直播场景的双重自适应智能语音识别方法。
7.为解决上述技术问题,本发明采用的技术方案是:
8.面向vr直播场景的双重自适应智能语音识别方法,包括:
9.s101、获取纯净语音和混合语音;
10.s102、根据短时傅里叶变换,确定纯净语音的幅度谱和混合语音的幅度谱;
11.s103、根据纯净语音的幅度谱和混合语音的幅度谱,计算掩膜值;
12.s104、根据掩膜值,对纯净语音进行增强,得到增强纯净语音;
13.s105、将增强纯净语音和混合语音输入至构建的循环特征融合网络,循环特征融合网络输出统一特征;
14.s106、根据统一特征、增强纯净语音和混合语音,形成融合特征向量;
15.s107、将融合特征向量输入至构建的语音识别网络,语音识别网络输出语音特征
向量;
16.s108、通过线性映射和softmax函数,将语音特征向量转换为文字信息。
17.在本发明中,步骤s102具体包括:
18.根据计算混合语音的幅度谱;
19.根据计算纯净语音的幅度谱;
20.其中,y为混合语音的幅度谱,x为纯净语音的幅度谱,y(n)为混合语音,x(n)纯净语音,w(n)为长度为n的分析窗,l为采样量,t为时间帧,t为时间帧的总数,t=0....t-1,f为频率间隔,f为频率间隔总数,f=0....f-1,f=(f/n)*fs,fs为采样频率。
21.在本发明中,步骤s103具体包括:
22.根据公式m=x/y,计算掩膜值;
23.其中,m为掩膜值,x为纯净语音的幅度谱,y为混合语音的幅度谱。
24.在本发明中,步骤s104具体包括:
25.根据公式x
*
=m

y,确定增强纯净语音;
26.x
*
为增强纯净语音,m为掩膜值,y为混合语音,

为逐点矩阵乘法。
27.在本发明中,在步骤s104之后,还包括:
28.增强纯净语音和混合语音分别经过一个mel滤波器,并对其取对数,确定出增强纯净语音的mfcc特征和混合语音的mfcc特征;
29.公式如下:
30.o
enhanced
=log(mel(x
*
));
31.o
original
=log(mel(y));
32.其中,o
enhanced
表示增强纯净语音的mfcc特征,o
original
表示混合语音的mfcc特征。
33.在本发明中,在步骤s104之后,还包括:
34.采用两个并行双向长短时记忆网络,提取o
enhanced
和o
original
的深层次特征向量;
35.公式如下:
36.β
enhanced
=b(o
enhanced
);
37.β
original
=b(o
original
);
38.其中,b(
·
)为并行双向长短时记忆网络,β
enhanced
为增强纯净语音的深层次特征向量,β
original
为混合语音的深层次特征向量。
39.在本发明中,循环特征融合网络具体包括:重置门、改良门、自适应选择模块和相关性融合模块;
40.根据重置门的输出、改良门的输出、自适应选择模块的输出,确定相关性融合模块的输出;
41.重置门的表达式为:r=σ(wr·
(β,h
p
));其中,r为重置门的输出,σ为 sigmoid函数,wr为重置门的权重,β表示输入的深层次特征向量,p为阶段,h
p
为隐藏参数;
42.改良门的表达式为:z=σ(wz·
(β,h
p
));其中,z为改良门的输出,σ为 sigmoid函
数,wz为改良门的权重,β表示输入的深层次特征向量,p为阶段,h
p
为隐藏参数;
43.自适应选择模块的表达式为:h

p
=r
⊙hp
,其中,为自适应选择模块的输出,r为重置门的输出,

为逐点矩阵乘法,wh为自适应选择模块的权重,β表示输入的深层次特征向量,h
p
为隐藏参数;
44.相关性融合模块的表达式为:其中,f
grf
为相关性融合模块的输出。
45.在本发明中,融合特征向量的公式如下:
46.o
grf
=concat(β
original
,f
grf
,β
enhanced
);
47.其中,o
grf
为融合特征向量,f
grf
为循环特征融合网络输出的统一特征,β
enhanced
为增强纯净语音的深层次特征向量,β
original
为混合语音的深层次特征向量。
48.在本发明中,构建语音识别网络的方法具体包括:
49.向编码器内输入步长为1、卷积大小为3
×
3,采用激励函数relu处理;
50.对输入的融合特征向量进行处理得到扁平特征,并对扁平特征进行线性变换,得到向量x;
51.在编码器所包括的多头注意力模块和位置前馈模块中引入ln层,并使用残差连接,编码器输出为:x
output
=x sub(ln(x));
52.根据公式计算自适应注意能量e
i,j
,其中,kj为第j个编码器输出的键值,q
i-1
为上一个编码器输出的匹配值,dk为维度大小;
53.根据公式p
i,j
=sigmoid(e
i,j
),生成停止概率p
i,j

54.根据公式计算每个头输出的掩码向量c
i,j

55.对所有头的输出进行整合处理,并用矩阵的形式表达,公式如下:
56.h=shiftright(consume(p)>1);
57.multihead(q,k,v)=h

pv;
58.其中,p为停止概率p
i,j
的矩阵表达,q为编码器输出的匹配值的矩阵表达,k为编码器输出的键值的矩阵表达,v为编码器输出的信息值的矩阵表达,consume为累和函数,shiftright为右移函数,h为由掩码向量计算出的停止掩码的矩阵表达,

为逐点矩阵乘法。
59.在本发明中,采用如下公式确定停止概率p
i,j
的大小:
[0060][0061]
[0062]
δt=sigmoid(t
1-t
j-1
);
[0063]
其中,t是设置的截止步长,si表示头生成当前输出所需的编码器数目, s
i-1
是上一次截所需要的编码器的数目,α是自适应阈值,β是时间修正参数, t1是输入的语音序列的时间长度,t
j-1
是上一步解码器解码的时间长度。
[0064]
本发明具有的优点和积极效果是:
[0065]
如此,在本发明中,通过计算掩膜值,能够对纯净语音进行增强,提高纯净语音的质量,有利于后续通过语音识别网络将纯净语音转换为文字,提高转换的准确率;通过循环特征融合网络,能够将混合语音和增强纯净语音进行融合,以提取出抗噪声性能更好的语音;通过构建的语音识别网络,具体地,在解码器端增加了双重自适应多头注意力模块,不仅实现了将语音转换为文字,还解决实时语音识别中延迟大的问题。
附图说明
[0066]
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
[0067]
图1是本发明的面向vr直播场景的双重自适应智能语音识别方法的整体流程图。
具体实施方式
[0068]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
需要说明的是,当组件被称为“固定于”另一个组件,它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件,它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0070]
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0071]
面向vr直播场景的双重自适应智能语音识别方法,如图1所示,包括:
[0072]
s101、获取纯净语音和混合语音;
[0073]
其中,纯净语音即为在vr直播场景下目标说话人的语音;混合语音可以是通过将目标说话人的语音、其他无关说话人的语音和噪声的语音进行混合得到。
[0074]
并且,获取纯净语音和混合语音的方式,可以采用本领域技术人员所熟知的任一种能够获取到纯净语音和混合语音的方法,在此并不做具体限定,例如可以但不限于为通过智能语音设备采集。
[0075]
s102、根据短时傅里叶变换,确定纯净语音的幅度谱和混合语音的幅度谱;
[0076]
步骤s102具体包括:
[0077]
根据计算混合语音的幅度谱;
[0078]
根据计算纯净语音的幅度谱;
[0079]
其中,y为混合语音的幅度谱,x为纯净语音的幅度谱,y(n)为混合语音,x(n)纯净语音,w(n)为长度为n的分析窗,l为采样量,t为时间帧,t为时间帧的总数,t=0....t-1,f为频率间隔,f为频率间隔总数, f=0....f-1,f=(f/n)*fs,fs为采样频率。
[0080]
s103、根据纯净语音的幅度谱和混合语音的幅度谱,计算掩膜值;
[0081]
步骤s103具体包括:
[0082]
根据公式m=x/y,计算掩膜值;
[0083]
其中,m为掩膜值,x为纯净语音的幅度谱,y为混合语音的幅度谱。
[0084]
s104、根据掩膜值,对纯净语音进行增强,得到增强纯净语音;
[0085]
步骤s104具体包括:
[0086]
根据公式x
*
=m

y,确定增强纯净语音;
[0087]
x
*
为增强纯净语音,m为掩膜值,y为混合语音,

为逐点矩阵乘法。
[0088]
在步骤s104之后,还包括:
[0089]
增强纯净语音和混合语音分别经过一个mel滤波器,并对其取对数,确定出增强纯净语音的mfcc特征和混合语音的mfcc特征;
[0090]
公式如下:
[0091]oenhanced
=log(mel(x
*
));
[0092]ooriginal
=log(mel(y));
[0093]
其中,o
enhanced
表示增强纯净语音的mfcc特征,o
original
表示混合语音的mfcc特征。
[0094]
具体地,在确定出增强纯净语音的mfcc特征和混合语音的mfcc特征后,还包括:
[0095]
采用两个并行双向长短时记忆网络,提取o
enhanced
和o
original
的深层次特征向量;
[0096]
公式如下:
[0097]
β
enhanced
=b(o
enhanced
);
[0098]
β
original
=b(o
original
);
[0099]
其中,b(
·
)为并行双向长短时记忆网络,β
enhanced
为增强纯净语音的深层次特征向量,β
original
为混合语音的深层次特征向量。
[0100]
s105、将增强纯净语音和混合语音输入至构建的循环特征融合网络,循环特征融合网络输出统一特征;
[0101]
循环特征融合网络具体包括:重置门、改良门、自适应选择模块和相关性融合模块;
[0102]
根据重置门的输出、改良门的输出、自适应选择模块的输出,确定相关性融合模块的输出;
[0103]
重置门的表达式为:r=σ(wr·
(β,h
p
));其中,r为重置门的输出,σ为 sigmoid函数,wr为重置门的权重,β表示输入的深层次特征向量,p为阶段,h
p
为隐藏参数;
[0104]
改良门的表达式为:z=σ(wz·
(β,h
p
));其中,z为改良门的输出,σ为 sigmoid函数,wz为改良门的权重,β表示输入的深层次特征向量,p为阶段,h
p
为隐藏参数;
[0105]
自适应选择模块的表达式为:h

p
=r
⊙hp
,其中,为自适应选择模块的输出,r为重置门的输出,

为逐点矩阵乘法,wh为自适应选择模块的权重,β表示输入的深层次特征向量,h
p
为隐藏参数;
[0106]
相关性融合模块的表达式为:其中f
grf
为相关性融合模块的输出。
[0107]
具体地,将重置门的输出r带入至自适应选择模块的表达式中,即可得到自适应选择模块的输出,将自适应选择模块的输出和改良门的输出z带入至相关性融合模块的表达式中,即可得到相关性融合模块的输出。
[0108]
s106、根据统一特征、增强纯净语音和混合语音,形成融合特征向量;
[0109]
融合特征向量的公式如下:
[0110]ogrf
=concat(β
original
,f
grf
,β
enhanced
);
[0111]
其中,o
grf
为融合特征向量,f
grf
为循环特征融合网络输出的统一特征,β
enhanced
为增强纯净语音的深层次特征向量,β
original
为混合语音的深层次特征向量。
[0112]
s107、将融合特征向量输入至构建的语音识别网络,语音识别网络输出语音特征向量;
[0113]
需要说明的是,语音识别网络是由编码器和解码器构成的。
[0114]
编码器是由多头注意力模块和位置前馈模块组成,多头注意力模块是由尺度点积注意力模块组成;
[0115]
尺度点积注意力模块的表达式为:
[0116]
其中,q、k、v分别为表示匹配值、键值和信息值的矩阵形式,dk表示维度大小,softmax为激活函数。
[0117]
利用多头注意力模块将尺度点积注意力分散到不同的空间,以从不同的位置联合获取信息,多头注意力模块的表达式为:
[0118]
multihead(q,k,v)=concat(head1,...,headh)wo[0119][0120]
其中,和wo是投影矩阵的参数,h是多头的数目。
[0121]
解码器是由双重自适应多头注意力模块、多头注意力模块和位置前馈模块组成。
[0122]
构建语音识别网络的方法具体包括:
[0123]
向编码器内输入步长为1、卷积大小为3
×
3,采用激励函数relu处理;
[0124]
对输入的融合特征向量进行处理得到扁平特征,并对扁平特征进行线性变换,得到向量x;
[0125]
在编码器所包括的多头注意力模块和位置前馈模块中引入ln层,并使用残差连接,编码器输出为:x
output
=x sub(ln(x));
[0126]
根据公式计算自适应注意能量e
i,j
,其中,kj为第j个编码器输出的键值,q
i-1
为上一个编码器输出的匹配值,dk为维度大小;
[0127]
根据公式p
i,j
=sigmoid(e
i,j
),生成停止概率p
i,j

[0128]
根据公式计算每个头输出的掩码向量c
i,j

[0129]
对所有头的输出进行整合处理,并用矩阵的形式表达,公式如下:
[0130]
h=shiftright(consume(p)》1);
[0131]
multihead(q,k,v)=h

pv;
[0132]
其中,p为停止概率p
i,j
的矩阵表达,q为编码器输出的匹配值的矩阵表达,k为编码器输出的键值的矩阵表达,v为编码器输出的信息值的矩阵表达,consume为累和函数,shiftright为右移函数,h为由掩码向量计算出的停止掩码的矩阵表达,

为逐点矩阵乘法。
[0133]
此外,针对停止概率p
i,j
,从j=1开始计算p
i,j
的累加,一旦停止概率p
i,j
大于1就立即停止接受编码器的输入。然而,在编码器每个头的行为不同,一些头可能会一直产生极其小的概率导致无法结束,因此,可以将上一步骤截止的位置s
i-1
和设定的一个截止步长t相加来克服这个问题。并且,若对所有头部使用相同的停止概率阈值,那么会导致准确性下降,因此,在本发明中,采用自适应阈值根据情况调控所需停止概率的大小来保证准确性。
[0134]
采用如下公式确定停止概率p
i,j
的大小:
[0135][0136][0137]
δt=sigmoid(t
1-t
j-1
);
[0138]
其中,t是设置的截止步长,si表示头生成当前输出所需的编码器数目, s
i-1
是上一次截所需要的编码器的数目,α是自适应阈值,β是时间修正参数, t1是输入的语音序列的时间长度,t
j-1
是上一步解码器解码的时间长度。
[0139]
s108、通过线性映射和softmax函数,将语音特征向量转换为文字信息。
[0140]
如此,在本发明中,通过计算掩膜值,能够对纯净语音进行增强,提高纯净语音的质量,有利于后续通过语音识别网络将纯净语音转换为文字,提高转换的准确率;通过循环特征融合网络,能够将混合语音和增强纯净语音进行融合,以提取出抗噪声性能更好的语音;通过构建的语音识别网络,具体地,在解码器端增加了双重自适应多头注意力模块,不仅实现了将语音转换为文字,还解决实时语音识别中延迟大的问题。
[0141]
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献