基于神经网络的多尺度融合的发音评测模型优化方法与流程

2022-10-26 16:37:32 来源：中国专利 TAG：

技术特征：
1.基于神经网络的多尺度融合的发音评测模型优化方法，其特征在于，包括如下步骤：步骤一，声学模型模型设计与选取：选择端到端语音识别模型作为声学模型，用来计算待评测音频的gop分数；此外，需要设计构造发音评测训练数据集，用于后续模型的训练；步骤二，基于神经网络的gop分数的计算：在完成步骤一所述的语音识别模型之后，用步骤一的语音识别模型对待评测的语音进行识别，并利用神经网络的输出计算gop分数：公式(1)将神经网络输出所构造的平均帧级别的后验概率作为gop评分；这里的p(s
t
,o
t
)是神经网络模型最后一层softmax层的输出，其中o指的是语音的观测序列，o
t
是对应t时刻语音帧的观测序列，t
s
和t
e
分别表示音素p的开始帧和结束帧，s
t
是通过强制对齐后帧t的状态标签；步骤三，多尺度卷积神经网络的构造1)韵律相关特征的提取：提取每一帧的上述相关的韵律声学特征，并作为卷积神经网络的输入，假设待评测语音分给为n帧，且每一帧包含上述m维相关的韵律相关特征，则输入为n*m的矩阵；2)多尺度神经网络构造，采用一维卷积来对原始的卷积特征进行分析和提取：设置t(1，2，
…
,t)个不同尺度的卷积神经网络，每一个卷积网络的卷积核大小为c1*1,c2*1,
…
,c
t
*1，其中每个卷积核的个数都为m；步骤四，基于注意力机制的多特征融合：1)对于步骤三所学习到的t个不同尺度的韵律特征，假设这t个特征表示为s＝[s1,s2,
…
,s
t
],按照以下公式(2)的注意力机制，可以计算得到的最后特征表示e：q＝q
′
w
q
,k＝sw
k
,v＝sw
v
其中，q’是神经网络随机初始化的向量，w
q
,w
k
，w
v
是神经网络随机初始的矩阵用于对q
′
和s进行线性变换，线性变换后将会得到查询向量q，比较向量k和内容向量v，f是指对向量的维度进行缩减,d
m
指的是向量的维度，a指的是注意力机制的评分函数，本发明采用softmax激活作为评分函数，用来将结果固定到0-1的区间之内，随着神经网络的不断学习进行更新，最终可以实现对不同的尺度的特征进行融合；2)将融合特征计算得到的评分score
e
和gop评分进行进一步融合，如下公式(3)所示:score
final
＝α*score
e
(1-α)*gopα＝sigmod(w
α
s
t 1
b
α
)
ꢀꢀꢀꢀ
(3)其中，s
t 1
为步骤一所用的基于神经网络识别模型的softmax前的输出，w
α
和b
α
也是在评测模型中随机初始的矩阵用来进行线性变换,α是score
e
对应的权重，(1-α)则是gop评分对应的权重，最后得到的score
final
则是综合考虑了不同的韵律声学特征以及gop的最终评测结果，sigmod为激活函数，用来保证α是处于0-1之间的权重值。2.根据权利要求1所述的优化方法，其特征在于，评测步骤：1)接收待评测音频，通过步骤一计算得到gop分数和识别模型softmax前的输出s
t 1
；2)提取韵律相关特征，并经过不同尺度的cnn提取相应的深层特征；
3)通过注意力机制融合不同尺度的特征；4)将融合特征得分和原始gop分数融合得到最终的评分。

技术总结
本发明是语音发音评测领域，具体涉及基于神经网络的多尺度融合的发音评测模型优化方法，利用神经网络和多尺度融合技术对发音评测系统进行优化。主要包括:声学模型模型设计与选取、基于神经网络的GOP分数的计算、多尺度卷积神经网络的构造以及基于注意力机制的多特征融合，最后语音评测。考虑韵律信息的全局性和局部性，采用不同尺度的CNN网络，对不同粒度的韵律相关的发音特征进行了挖掘。采取注意力机制模型对不同尺度的发音特征和后验概率相关的特征进行融合，实现多尺度融合的发音特征。征。征。

技术研发人员：张句贡诚王宇光关昊天
受保护的技术使用者：苏州智言信息科技有限公司
技术研发日：2022.06.30
技术公布日：2022/10/25

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种GIS声纹信号采集装置的制作方法

基于神经网络的多尺度融合的发音评测模型优化方法与流程

相关文献

最热文献