一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

以声音特征为条件的声学模型的制作方法

2021-11-15 17:28:00 来源:中国专利 TAG:

技术特征:
1.一种推断话音音频中的音素概率的由计算机实现的方法,该方法包括:从关键短语的第一话音片段编码第一声音嵌入以生成第一向量;存储所述第一向量;利用将以下各项作为输入的声学模型来推断所述音素概率:在所述第一话音片段之后不久的第二话音片段;以及存储的第一向量。2.如权利要求1所述的方法,其中所述声学模型是在话音音频的标记样本上被训练的,每个样本具有对应的关键短语声音嵌入。3.如权利要求2所述的方法,其中训练样本包括多种语音与多种噪声剖面相混合,所述关键短语声音嵌入是用与其对应的话音音频样本相同的混合噪声剖面来计算的。4.如权利要求1所述的方法,其中所述编码使用与所述声学模型联合训练的编码器模型。5.如权利要求1所述的方法,还包括:从所述第一话音片段编码第二声音嵌入以生成第二向量;并且存储第二向量,其中所述声学模型将存储的第二向量作为另一输入。6.一种计算机化的话音处理系统,能够:接收完整关键短语的话音音频;从所述关键短语的话音音频编码声音嵌入;并且在接收到所述完整关键短语之后不久将所述声音嵌入存储在存储器设备中,其中:所述编码器模型是与其输出以所述声音嵌入为条件的声学模型联合训练的。7.如权利要求6所述的设备,还能够:在所述关键短语的话音片段之后不久接收未知短语的话语的话音音频;并且通过网络将存储的声音嵌入和所述话语的话音音频传输到话音识别服务器。8.如权利要求6所述的设备,还能够:在所述关键短语的话音片段之后不久接收未知短语的话语的话音音频;并且利用所述声学模型在所述话语的话音音频和所述声音嵌入上推断音素概率。

技术总结
本公开涉及以声音特征为条件的声学模型。话音识别的系统和方法捕捉具有关键短语及其后紧接的话语的话音音频的片段。编码器使用关键短语片段来计算声音嵌入,该声音嵌入被存储。用于话音识别的声学模型利用以声音嵌入作为输入条件的模型来从话语音频信号推断音素。声音嵌入可被保持,直到另一关键短语被捕捉或者会话结束为止。可以从与噪声混合的话音数据记录来联合训练声学模型和编码器,混合噪声的剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。剖面对于关键短语片段和话语片段是相同的。


技术研发人员:高孜哲 莫轲文
受保护的技术使用者:声音猎手公司
技术研发日:2021.04.26
技术公布日:2021/11/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献