一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

使用说话者相关语音模型的说话者感知的制作方法

2021-08-13 19:37:00 来源:中国专利 TAG:

技术特征:

1.一种由一个或多个处理器实现的方法,所述方法包括:

基于受训练的说话者无关语音模型(si语音模型)来训练说话者相关语音模型(sd语音模型),其中所述sd语音模型对相应客户端装置的任何用户可个性化,并且其中训练所述sd语音模型包括:

识别捕获目标用户的一个或多个口头话语的音频数据的实例;

确定所述目标用户的说话者嵌入;

通过将所述音频数据的实例与不是来自所述目标用户的一个或多个额外声音组合来生成音频数据的嘈杂实例;

使用所述si语音模型处理所述音频数据的实例,以生成说话者无关输出(si输出);

使用所述sd语音模型处理所述音频数据的所述嘈杂实例以及所述说话者嵌入,以生成说话者相关输出(sd输出);

基于所述si输出和所述sd输出来生成损失;以及

基于所生成的损失来更新所述sd语音模型的一个或多个部分。

2.根据权利要求1所述的方法,其中,基于所述受训练的si语音模型来训练所述sd语音模型进一步包括:

识别捕获额外目标用户的一个或多个额外口头话语的额外音频数据的实例;

确定所述额外目标用户的额外说话者嵌入;

通过将所述额外音频数据的实例与不是来自所述额外目标用户的一个或多个额外声音组合来生成所述额外音频数据的嘈杂实例;

使用所述si语音模型处理所述额外音频数据的实例,以生成额外说话者无关输出(额外si输出);

使用所述sd语音模型处理所述额外音频数据的所述嘈杂实例以及所述额外说话者嵌入,以生成额外说话者相关输出(额外sd输出);

基于所述额外si输出和所述额外sd输出来生成额外损失;以及

基于所生成的额外损失来更新所述sd语音模型的所述一个或多个部分。

3.根据任一前述权利要求所述的方法,进一步包括在训练所述sd语音模型之后:

使所述sd语音模型存储于给定客户端装置的本地存储装置中并且部署在所述给定客户端装置处;

其中,响应于所述sd语音模型存储于所述本地存储装置中并且部署在所述给定客户端装置处,所述给定客户端装置基于使用所述受训练的sd语音模型处理音频数据的本地实例以及本地说话者嵌入来执行一个或多个动作,所述本地说话者嵌入对应于与所述客户端装置相关联的不同用户。

4.根据权利要求3所述的方法,其中,所述si语音模型是说话者无关话音活动检测模型,其中,所述sd语音模型是说话者相关话音活动检测模型(sdvad模型),并且所述方法进一步包括:

在所述客户端装置处检测所述音频数据的本地实例,所述音频数据的本地实例捕获所述客户端装置的所述不同用户的一个或多个口头话语,其中,使用所述客户端装置的一个或多个麦克风捕获所述音频数据的本地实例;

在所述客户端装置处使用所述sdvad模型处理所述音频数据的本地实例以及所述本地说话者嵌入,以生成指示所述音频数据是否包括所述不同用户的话音活动的输出;以及

响应于确定所述音频数据包括所述不同用户的话音活动而执行所述一个或多个动作,执行所述一个或多个动作包括使用额外语音模型处理所述音频数据的本地实例。

5.根据权利要求4所述的方法,其中,所述额外语音模型是热词检测模型和/或自动语音识别引擎模型。

6.根据权利要求3所述的方法,其中,所述si语音模型是说话者无关自动语音识别模型,其中,所述sd语音模型是说话者相关自动语音识别模型(sdasr模型),并且所述方法进一步包括:

在所述客户端装置处检测所述音频数据的本地实例,所述音频数据的本地实例捕获所述客户端装置的所述不同用户的一个或多个口头话语,其中,使用所述客户端装置的一个或多个麦克风捕获所述音频数据的本地实例;

在所述客户端装置处使用所述sdasr模型处理所述音频数据的本地实例以及所述本地说话者嵌入,以生成指示仅用于所述不同用户的所述一个或多个口头话语的已识别文本的输出;以及

基于由所述输出指示的所述已识别文本来执行所述一个或多个动作。

7.根据权利要求3所述的方法,其中,所述si语音模型是语音无关热词检测模型,其中,所述sd语音模型是说话者相关热词检测模型(sd热词检测模型),并且所述方法进一步包括:

在所述客户端装置处检测所述音频数据的本地实例,所述音频数据的本地实例捕获所述客户端装置的所述不同用户的一个或多个口头话语,其中使用所述客户端装置的一个或多个麦克风捕获所述音频数据的本地实例;

在所述客户端装置处使用所述sd热词检测模型处理所述音频数据的本地实例以及所述说话者嵌入,以生成指示所述音频数据是否包括所述不同用户说出的热词的输出;以及

响应于确定所述音频数据包括所述不同用户说出的所述热词而执行所述一个或多个动作,执行所述一个或多个动作包括使用额外语音模型处理所述音频数据的本地实例。

8.根据权利要求7所述的方法,其中,所述额外语音模型是话音活动检测模型和/或自动语音识别模型。

9.根据任一前述权利要求所述的方法,其中,将所述音频数据的实例映射到标签,所述标签指示所述目标用户对应于捕获所述目标用户的所述一个或多个口头话语的所述音频数据的实例,并且其中,确定所述目标用户的所述说话者嵌入包括基于所述标签来选择所述目标用户的所述说话者嵌入。

10.根据任一前述权利要求所述的方法,其中,确定所述目标用户的所述说话者嵌入包括:

使用说话者嵌入模型处理捕获所述目标用户的所述一个或多个口头话语的所述音频数据的实例的一个或多个部分,以生成所述目标用户的所述说话者嵌入。

11.根据任一前述权利要求所述的方法,其中,不是来自所述目标用户的所述一个或多个额外声音包括一个或多个背景噪音,并且其中,通过将所述音频数据的实例与不是来自所述目标用户的所述一个或多个额外声音组合来生成所述音频数据的嘈杂实例包括将所述音频数据的实例与所述一个或多个背景噪音组合。

12.根据任一前述权利要求所述的方法,其中,不是来自所述目标用户的所述一个或多个额外声音包括不是所述目标用户的用户说出的一个或多个话语,并且其中,通过将所述音频数据的实例与不是来自所述目标用户的所述一个或多个额外声音组合来生成所述音频数据的嘈杂实例包括将所述音频数据的实例与不是所述目标用户的用户说出的所述一个或多个话语组合。

13.根据任一前述权利要求所述的方法,其中,在训练所述sd语音模型期间冻结所述受训练的si语音模型。

14.根据任一前述权利要求所述的方法,其中,基于所述si输出和所述sd输出生成所述损失包括基于所述si输出和所述sd输出生成交叉熵损失,并且其中,基于所生成的损失来更新所述sd模型的所述一个或多个部分包括基于所述交叉熵损失来更新所述sd模型的所述一个或多个部分。

15.根据权利要求1所述的方法,其中,所述sd语音模型具有与所述si语音模型相同的网络拓扑。

16.根据权利要求1所述的方法,其中,所述sd语音模型不具有与所述si语音模型相同的网络拓扑,并且其中,所述sd语音模型的拓扑比所述si语音模型更紧凑。

17.一种由一个或多个处理器实现的方法,所述方法包括:

接收捕获客户端装置的用户的一个或多个口头话语的音频数据的实例,其中,使用所述客户端装置的一个或多个麦克风捕获所述音频数据的实例;

确定对应于所述客户端装置的目标用户的说话者嵌入;

使用说话者相关话音活动检测模型(sdvad模型)处理所述音频数据的实例以及所述说话者嵌入,以生成指示所述音频数据是否包括所述客户端装置的所述目标用户的话音活动的输出,其中,所述sdvad模型对所述客户端装置的任何用户可个性化;以及

基于所述输出来执行一个或多个动作。

18.根据权利要求17所述的方法,其中,基于所述输出来执行所述一个或多个动作包括:

基于所述输出确定所述音频数据是否包括所述目标用户的话音活动;

响应于确定所述音频数据包括所述客户端装置的所述目标用户的话音活动,使用额外语音模型来处理所述音频数据的实例。

19.根据权利要求18所述的方法,其中,所述额外语音模型是热词检测模型和/或自动语音识别模型。

20.根据权利要求17所述的方法,其中,基于所述输出来执行所述一个或多个动作包括:

基于所述输出来确定所述音频数据是否包括所述目标用户的话音活动;

响应于确定所述音频数据不包括所述客户端装置的所述目标用户的话音活动:

确定对应于所述客户端装置的额外目标用户的额外说话者嵌入;以及

使用所述sdvad模型处理所述音频数据的实例以及所述额外说话者嵌入,以生成指示所述音频数据是否包括所述客户端装置的所述额外目标用户的话音活动的额外输出。

21.根据权利要求17所述的方法,其中,基于所述输出来执行所述一个或多个动作包括:

基于所述输出来确定所述音频数据是否包括所述目标用户的话音活动;

响应于确定所述音频数据不包括所述客户端装置的所述目标用户的话音活动,丢弃所述音频数据的实例,而无需对所述音频数据的实例执行任何进一步处理。

22.一种计算机程序,所述计算机程序包括指令,所述指令在由计算系统的一个或多个处理器执行时使所述计算系统执行根据任一前述权利要求所述的方法。

23.一种客户端装置,所述客户端装置包括一个或多个处理器,所述一个或多个处理器执行存储于所述客户端装置的存储器中的指令以执行根据权利要求1至21中的任一项所述的方法。

24.一种计算机可读存储介质,所述计算机可读存储介质存储可由计算系统的一个或多个处理器执行的指令以执行根据权利要求1至21中的任一项所述的方法。


技术总结
本文所公开的技术使能够训练和/或利用对客户端装置的任何用户可个性化的说话者相关(SD)语音模型。各种实施方式包括通过使用所述SD语音模型处理对应于目标用户的说话者嵌入以及音频数据的实例来将所述目标用户的SD语音模型个性化。通过使用所述SD语音模型处理对应于额外目标用户的额外说话者嵌入以及音频数据的另一实例,可以针对所述额外目标用户将所述SD语音模型个性化。额外或替代实施方式包括使用师生学习基于说话者无关语音模型来训练所述SD语音模型。

技术研发人员:伊格纳西奥·洛佩斯·莫雷诺;王泉;杰森·佩莱卡诺斯;利·万;亚历山大·格伦斯坦;哈坎·伊尔道盖恩
受保护的技术使用者:谷歌有限责任公司
技术研发日:2019.12.04
技术公布日:2021.08.13
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜