农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

完全监督的说话者日志化的制作方法

2021-08-17 13:49:00 来源：中国专利 TAG：说话监督公开日志 speakerdiarization

技术特征：

1.一种方法(500)，包括：

在数据处理硬件(200)处接收语音话语(120)；

由所述数据处理硬件(200)将所述语音话语(120)分段成多个分段(220)；

对于所述语音话语(120)的每个分段(220)：

由所述数据处理硬件(200)从所述分段(220)提取说话者判别嵌入(240)；以及

由所述数据处理硬件(200)使用概率生成模型(300)来预测所述分段(220)的可能说话者(262)的概率分布，所述概率生成模型(300)被配置成接收所提取的说话者判别嵌入(240)作为特征输入，所述概率生成模型(300)在训练语音话语(120)的语料库上被训练，每个训练语音话语(120)被分段成多个训练分段(220t)，每个训练分段(220t)包括对应的说话者判别嵌入(240)和对应的说话者标签(250)；以及

由所述数据处理硬件(200)基于对应分段的可能说话者(262)的所述概率分布，将说话者标签(250)指配给(220)所述语音话语(120)的每个分段(220)。

2.根据权利要求1所述的方法(500)，其中，所述概率生成模型(300)通过应用与距离相关的中国餐馆过程来预测每个分段(220)的可能说话者(262)的概率分布。

3.根据权利要求1或2所述的方法(500)，其中，预测所述分段(220)的可能说话者(262)的概率分布包括，当所述分段(220)出现在所述多个分段(220)中的初始分段(220)之后时：

预测与指配给先前相邻分段(220)的所述说话者标签(250)相关联的当前说话者(10)对于所述分段(220)不会改变的概率；

针对与先前指配给一个或多个先前分段(220)的对应说话者标签(250)相关联的每个现有说话者(10)，预测与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述现有说话者(10)的概率；以及

预测与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为新说话者(10)的概率。

4.根据权利要求3所述的方法(500)，其中，与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述现有说话者(10)的所述概率与先前被指配了与所述现有说话者(10)相关联的所述对应说话者标签(250)的实例的数量成比例。

5.根据权利要求3或4所述的方法(500)，其中，与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述新说话者(10)的所述概率与说话者(10)指配概率参数α成比例。

6.根据权利要求1至5中的任一项所述的方法(500)，其中，所述概率生成模型(300)还被配置成，针对出现在所述多个分段(220)中的初始分段(220)之后的每个分段(220)，接收从先前相邻分段(220)提取的所述说话者判别嵌入(240)以及指配给所述先前相邻分段(220)的所述说话者标签(250)作为特征输入，所述特征输入用于预测说话者(10)不会针对所述对应分段(220)而改变的概率。

7.根据权利要求1至6中的任一项所述的方法(500)，其中，将所述说话者标签(250)指配给所述语音话语(120)的每个分段(220)包括：通过针对对应分段(220)的可能说话者(10)的概率分布执行贪婪搜索，来将所述说话者标签(250)指配给所述语音话语(120)的每个分段(220)。

8.根据权利要求1至7中的任一项所述的方法(500)，其中，从所述分段(220)提取所述说话者判别嵌入(240)包括：从所述分段(220)提取d向量。

9.根据权利要求1至8中的任一项所述的方法(500)，其中，从所述分段(220)提取所述说话者判别嵌入(240)包括：从所述分段(220)提取i向量。

10.根据权利要求1-9中的任一项所述的方法(500)，其中，所述概率生成模型(300)包括递归神经网络rnn。

11.根据权利要求10所述的方法(500)，其中，所述rnn包括：

具有n个门控递归单元gru单体的隐藏层，每个gru单体被配置成应用双曲正切(tanh)激活；以及

两个完全连接层，每个完全连接层具有n个节点并且被配置成应用所述隐藏层的整流线性单元(relu)激活。

12.根据权利要求1至11中的任一项所述的方法(500)，还包括：

由所述数据处理硬件(200)将所述语音话语(120)转录成对应的文本(152)；以及

由所述数据处理硬件(200)基于指配给所述语音话语(120)的每个分段(220)的所述说话者标签(250)来注释所述文本。

13.根据权利要求1-12中的任一项所述的方法(500)，其中，将所述语音话语(120)分段成多个分段(220)包括：将所述语音话语(120)分段成多个固定长度分段(220)。

14.根据权利要求1-13中的任一项所述的方法(500)，其中，将所述语音话语(120)分段成多个分段(220)包括：将所述语音话语(120)分段成多个可变长度分段(220)。

15.一种系统(100)，包括：

数据处理硬件(200)；以及

存储器硬件(114、146)，所述存储器硬件(114、146)与所述数据处理硬件(200)通信并且存储指令，所述指令在由所述数据处理硬件(200)执行时使所述数据处理硬件(200)执行操作，所述操作包括：

接收语音话语(120)；

将语音话语(120)分段成多个分段(220)；

对于所述语音话语(120)的每个分段(220)：

从所述分段(220)提取说话者判别嵌入(240)；以及

使用概率生成模型(300)来预测所述分段(220)的可能说话者(262)的概率分布，所述概率生成模型(300)被配置成接收所提取的说话者判别嵌入(240)作为特征输入，所述概率生成模型(300)在训练语音话语(120)的语料库上被训练，每个训练语音话语(120)被分段成多个训练分段(220t)，每个训练分段(220t)包括对应的说话者判别嵌入(240)和对应的说话者标签(250)；以及

基于对应分段的可能说话者(262)的所述概率分布，将说话者标签(250)指配给所述语音话语(120)的每个分段(220)。

16.根据权利要求15所述的系统(100)，其中，所述概率生成模型(300)通过应用与距离相关的中国餐馆过程来预测每个分段(220)的可能说话者(262)的概率分布。

17.根据权利要求15或16所述的系统(100)，其中，预测所述分段(220)的可能说话者(262)的概率分布包括，当所述分段(220)出现在所述多个分段(220)中的初始分段(220)之后时：

预测与指配给先前相邻分段(220)的所述说话者标签(250)相关联的当前说话者(10)对于所述分段(220)不会改变的概率；

针对与先前指配给一个或多个先前分段(220)的对应说话者标签(250)相关联的每个现有说话者(10)，预测与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述现有说话者(10)的概率；以及

预测与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为新说话者(10)的概率。

18.根据权利要求17所述的系统(100)，其中，与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述现有说话者(10)的所述概率与先前指配了与所述现有说话者(10)相关联的所述对应说话者标签(250)的实例的数量成比例。

19.根据权利要求17或18所述的系统(100)，其中，与指配给所述先前相邻分段(220)的所述说话者标签(250)相关联的所述当前说话者(10)将改变为所述新说话者(10)的所述概率与说话者(10)指配概率参数α成比例。

20.根据权利要求15-19中的任一项所述的系统(100)，其中，所述概率生成模型(300)还被配置成，针对出现在所述多个分段(220)中的初始分段(220)之后的每个分段(220)，接收从先前相邻分段(220)提取的所述说话者判别嵌入(240)以及指配给所述先前相邻分段(220)的所述说话者标签(250)作为特征输入，所述特征输入用于预测说话者(10)不会针对所述对应分段(220)而改变的概率。

21.根据权利要求15至20中的任一项所述的系统(100)，其中，将所述说话者标签(250)指配给所述语音话语(120)的每个分段(220)包括：通过针对对应分段(220)的可能说话者(10)的概率分布执行贪婪搜索，将所述说话者标签(250)指配给所述语音话语(120)的每个分段(220)。

22.根据权利要求15-21中的任一项所述的系统(100)，其中，从所述分段(220)提取所述说话者判别嵌入(240)包括：从所述分段(220)提取d向量。

23.根据权利要求15-22中的任一项所述的系统(100)，其中，从所述分段(220)提取所述说话者判别嵌入(240)包括：从所述分段(220)提取i向量。

24.根据权利要求15-23中的任一项所述的系统(100)，其中，所述概率生成模型(300)包括递归神经网络rnn。

25.根据权利要求24所述的系统(100)，其中，所述rnn包括：

具有n个门控递归单元gru单体的隐藏层，每个gru单体被配置成应用双曲正切(tanh)激活；以及

两个完全连接层，每个完全连接层具有n个节点并且被配置成应用所述隐藏层的整流线性单元(relu)激活。

26.根据权利要求15至25中的任一项所述的系统(100)，其中，所述操作还包括：

将所述语音话语(120)转录成对应的文本(152)；以及

基于指配给所述语音话语(120)的每个分段(220)的所述说话者标签(250)来注释所述文本。

27.根据权利要求15-26中的任一项所述的系统(100)，其中，将所述语音话语(120)分段成多个分段(220)包括：将所述语音话语(120)分段成多个固定长度分段(220)。

28.根据权利要求15-27中的任一项所述的系统(100)，其中，将所述语音话语(120)分段成多个分段(220)包括：将所述语音话语(120)分段成多个可变长度分段(220)。

技术总结
一种方法(500)包括接收语音话语(120)并且将所述语音话语分段成多个分段(220)。对于所述语音话语的每个分段，该方法还包括从所述分段提取说话者判别嵌入(240)并且使用被配置成接收所提取的说话者判别嵌入作为特征输入的概率生成模型(300)来预测关于所述分段的可能说话者(262)的概率分布。所述概率生成模型在训练语音话语的语料库上被训练，每个训练语音话语被分段成多个训练分段(220T)。每个训练分段包括对应的说话者判别嵌入和对应的说话者标签(250)。该方法还包括基于对应的分段的可能说话者的所述概率分布来将说话者标签指配给所述语音话语的每个分段。

技术研发人员：王崇;张奥南;王泉;朱祯耀
受保护的技术使用者：谷歌有限责任公司
技术研发日：2019.11.12
技术公布日：2021.08.17

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种具备预加热功能的乐器盒的制作方法

完全监督的说话者日志化的制作方法

相关文章

最热文献