一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种语音区分方法及其语音记录装置与流程

2021-06-18 20:18:00 来源:中国专利 TAG:区分 语音 音频

技术特征:

1.一种语音区分方法,其特征在于,所述方法包括:

从多通道音频数据中获取单人声学特征;

采用预设的循环递归神经网络获取所述单人声学特征的中间状态,并将所述中间状态存入状态序列缓冲区;

在所述状态序列缓冲区中,对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类;

计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差;

确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

2.如权利要求1所述的方法,其特征在于,所述循环递归神经网络采用监督式学习训练方式获得。

3.如权利要求2所述的方法,其特征在于,所述循环递归神经网络采用监督式学习训练方式获得,包括:

为语音信号分配一个说话人标签,并记录所述说话人标签对应的语音信号的起止时间;

提取所述语音信号的声学特征;

将所述声学特征及其所述说话人标签,送入循环递归神经网络中,使用损失函数以及优化器对所述循环递归神经网络进行优化。

4.如权利要求1至3中任意一项所述的方法,其特征在于,所述状态序列缓冲区的空间大小为一预设容量值,所述方法还包括:

若所述状态序列缓冲区的空间大小达到所述预设容量值,在用于存放中间状态的状态序列缓冲区中,计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离;

移除最小的所述欧氏距离对应的中间状态。

5.如权利要求4所述的方法,其特征在于,所述方法还包括:

加入新的中间状态;

重新计算所述状态序列缓冲区中的聚类的聚类中心。

6.如权利要求1所述的方法,其特征在于,所述确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签,包括:

若最小的所述加权均方差对应的聚类已有标签,则确定所述已有标签为所述中间状态的聚类标签;

若最小的所述加权均方差对应的聚类没有标签,则给所述最小的所述加权均方差对应的聚类分配新的标签,并确定所述新的标签为所述中间状态的聚类标签。

7.一种语音记录装置,其特征在于,所述语音记录包括:

声学特征获取单元,从多通道音频数据中提取单人声学特征;

中间状态缓存单元,采用预设的循环递归神经网络获取所述单人声学特征的中间状态,并将所述中间状态存入状态序列缓冲区;在所述状态序列缓冲区中,对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类;计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差;确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。

8.如权利要求7所述的语音记录装置,其特征在于,所述循环递归神经网络采用监督式学习训练方式获得。

9.如权利要求8所述的语音记录装置,其特征在于,所述语音记录装置还包括,循环递归神经网络获得单元,用于为语音信号分配一个说话人标签,并记录所述说话人标签对应的语音信号的起止时间;提取所述语音信号的声学特征;将所述声学特征及其所述说话人标签,送入循环递归神经网络中,使用损失函数以及优化器对所述循环递归神经网络进行优化。

10.如权利要求7至9中任意一项所述的语音记录装置,其特征在于,所述状态序列缓冲区的空间大小为一预设容量值;

则所述中间状态缓存单元,还用于若所述状态序列缓冲区的空间大小达到所述预设容量值,在存放中间状态的状态序列缓冲区中,计算至少一个所述聚类中所有的中间状态和所述聚类的聚类中心之间的欧氏距离;移除最小的所述欧氏距离对应的中间状态。

11.如权利要求10所述的语音记录装置,其特征在于,所述中间状态缓存单元,还包括:加入新的中间状态;重新计算所述状态序列缓冲区中的聚类的聚类中心。

12.如权利要求7所述的语音记录装置,其特征在于,所述中间状态缓存单元,用于确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签,具体包括:

所述中间状态缓存单元,具体用于若最小的所述加权均方差对应的聚类已有标签,则确定所述已有标签为所述中间状态的聚类标签;若最小的所述加权均方差对应的聚类没有标签,则给所述最小的所述加权均方差对应的聚类分配新的标签,并确定所述新的标签为所述中间状态的聚类标签。

13.一种语音记录设备,其特征在于,所述语音记录设备包括:处理器以及存储器;所述处理器调用所述存储器中的程序,执行上述权利要求1至6中任意一项所述的语音区分方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音分析方法的程序,所述语音分析方法的程序被处理器执行时实现上述权利要求1至6中任意一项所述的语音区分方法。


技术总结
一种语音区分方法及其语音记录装置。其包括:从多通道音频数据中获取单人声学特征;采用预设的循环递归神经网络获取所述单人声学特征的中间状态,并将所述中间状态存入状态序列缓冲区;在所述状态序列缓冲区中,对所述状态序列缓冲区中所有的中间状态运行聚类算法并获得至少一个聚类;计算所述单人声学特征的中间状态和每一个所述聚类的聚类中心的加权均方差;确定最小的所述加权均方差对应的聚类的聚类标签为所述单人声学特征的中间状态的聚类标签。本申请提供的方案的方便对聚类过程进行优化,提升区分准确率。

技术研发人员:陈文明;陈新磊;张洁;张世明
受保护的技术使用者:深圳壹秘科技有限公司
技术研发日:2021.02.04
技术公布日:2021.06.18
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜