农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵磁盘包装食品玩具

首页 > 乐器声学设备的制造及制作,分析技术 > 正文

自适应日志模型和用户界面的制作方法

2022-03-14 04:24:47 来源：中国专利 TAG：

技术特征：

1.一种方法，其特征在于，包括：

由计算设备接收在初始时间窗口期间捕获的并且表示第一语音和第二语音的第一音频波形；

由所述计算设备接收指示(i)所述第一语音对应于第一发言者和(ii)所述第二语音对应于第二发言者的第一类型的身份数据；

由所述计算设备基于所述第一语音、所述第二语音以及所述第一类型的所述身份数据来确定日志模型，所述日志模型被配置为区分所述第一发言者的语音与所述第二发言者的语音；

由所述计算设备接收并且仅接收指示第三语音的源发言者的所述第一类型的另外的身份数据，在随后的时间窗口期间捕获的并且表示所述第三语音的第二音频波形；

由所述计算设备通过所述日志模型并且独立于所述第一类型的所述另外的身份数据来确定所述第三语音的所述源发言者，其中，所述源发言者被确定为所述第一发言者或所述第二发言者；以及

由所述计算设备基于所述第三语音和所确定的所述源发言者来更新所述日志模型。

2.根据权利要求1所述的方法，其特征在于，进一步包括：

通过所述计算设备的用户界面并且在接收所述身份数据和所述第一音频波形之前，显示用于输入所述身份数据的视觉提示。

3.根据权利要求2所述的方法，其特征在于，所述第二音频波形在不显示所述另外的身份数据的所述视觉提示的情况下被接收。

4.根据权利要求2-3中任一项所述的方法，其特征在于，所述第一音频波形表示所述第一发言者的第一多个语音和所述第二发言者的第二多个语音，并且其中，所述方法还包括：

确定所述日志模型区分所述第一多个语音和所述第二多个语音的准确度；

确定所述准确度超过阈值准确度；以及

基于确定所述准确度超过所述阈值准确度，修改所述用户界面以从中移除所述视觉提示。

5.根据权利要求2-4中任一项所述的方法，其特征在于，所述视觉提示包括指示(i)所述第一发言者将在所述初始时间窗口期间说话持续至少第一时间段和(ii)所述第二发言者将在所述初始时间窗口期间说话持续至少第二时间段的指令，其中，所述第一时间段和所述第二时间段是互斥的，并且其中，接收所述身份数据包括：

在所述第一时间段期间捕获表示所述第一语音的所述第一音频波形的第一部分；以及

在所述第二时间段期间捕获表示所述第二语音的所述第一音频波形的第二部分。

6.根据权利要求1-4中任一项所述的方法，其特征在于，接收所述身份数据包括：

通过所述计算设备的用户界面接收对与所述第一发言者相对应的第一按钮的选择，其中，响应于对所述第一按钮的选择而捕获表示所述第一语音的所述第一音频波形的第一部分；以及

通过所述用户界面接收对与所述第二发言者相对应的第二按钮的选择，其中，响应于对所述第二按钮的选择而捕获表示所述第二语音的所述第一音频波形的第二部分。

7.根据权利要求1-6中任一项所述的方法，其特征在于，接收所述身份数据包括：

从相机设备接收表示说出所述第一语音的所述第一发言者的第一图像帧，其中，基于表示说出所述第一语音的所述第一发言者的所述第一图像帧，将表示所述第一语音的所述第一音频波形的第一部分与所述第一发言者相关联；以及

从所述相机设备接收表示说出所述第二语音的所述第二发言者的第二图像帧，其中，基于表示说出所述第二语音的所述第二发言者的所述第二图像帧，将表示所述第二语音的所述第一音频波形的第二部分与所述第二发言者相关联。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述日志模型包括：

波形嵌入模型，被配置为(i)接收波形的一部分作为输入，以及(ii)生成包括表示所述波形的所述部分的特性的多个值的嵌入向量；以及

向量分类模型，包括以下中的一个或多个：(i)基于所述嵌入向量的最近质心模型，(ii)基于所述嵌入向量的k最近邻模型，或(iii)基于所述嵌入向量的高斯分布朴素贝叶斯模型。

9.根据权利要求8所述的方法，其特征在于，所述向量分类模型包括所述最近质心模型，并且其中，确定所述日志模型包括：

通过所述波形嵌入模型生成第一多个嵌入向量，所述第一多个嵌入向量与表示所述第一语音的所述第一音频波形的相应第一部分相对应；

通过所述波形嵌入模型生成第二多个嵌入向量，所述第二多个嵌入向量与表示所述第二语音的所述第一音频波形的相应第二部分相对应；以及

确定(i)基于所述第一多个嵌入向量的第一质心和(ii)基于所述第二多个嵌入向量的第二质心。

10.根据权利要求9所述的方法，其特征在于，确定所述第三语音的所述源发言者包括：

通过所述波形嵌入模型生成第三嵌入向量，所述第三嵌入向量与表示所述第三语音的所述第二音频波形的第三部分相对应；

确定(i)所述第三嵌入向量与所述第一质心之间的第一距离和(ii)所述第三嵌入向量与所述第二质心之间的第二距离；

确定所述第一距离小于所述第二距离；以及

基于确定所述第一距离小于所述第二距离，确定所述第一发言者是所述第三语音的所述源发言者。

11.根据权利要求8所述的方法，其特征在于，所述向量分类模型包括高斯分布朴素贝叶斯模型，并且其中，确定所述日志模型包括：

通过所述波形嵌入模型生成第一多个嵌入向量，所述第一多个嵌入向量与表示所述第一语音的所述第一音频波形的相应第一部分相对应；

通过所述波形嵌入模型生成第二多个嵌入向量，所述第二多个嵌入向量与表示所述第二语音的所述第一音频波形的相应第二部分相对应；以及

确定(i)基于所述第一多个嵌入向量的第一平均值和第一标准偏差，以及(ii)基于所述第二多个嵌入向量的第二平均值和第二标准偏差。

12.根据权利要求11所述的方法，其特征在于，确定所述第三语音的所述源发言者包括：

通过所述波形嵌入模型生成第三嵌入向量，所述第三嵌入向量与表示所述第三语音的所述第二音频波形的第三部分相对应；

(i)基于所述第一平均值和所述第一标准偏差来确定所述第三嵌入向量属于所述第一多个嵌入向量的第一概率，以及(ii)基于所述第二平均值和所述第二标准偏差来确定所述第三嵌入向量属于所述第二多个嵌入向量的第二概率；

确定所述第一概率高于所述第二概率；以及

基于确定所述第一概率高于所述第二概率，确定所述第一发言者是所述第三语音的所述源发言者。

13.根据权利要求8所述的方法，其特征在于，确定所述日志模型包括(i)通过所述波形嵌入模型生成与表示所述第一语音的所述第一音频波形的相应第一部分相对应的第一多个嵌入向量，以及(ii)通过所述波形嵌入模型生成与表示所述第二语音的所述第一音频波形的相应第二部分相对应的第二多个嵌入向量，其中，所述向量分类模型包括所述k最近邻模型，并且其中，确定所述第三语音的所述源发言者包括：

通过所述波形嵌入模型生成第三嵌入向量，所述第三嵌入向量与表示所述第三语音的所述第二音频波形的第三部分相对应；

确定与所述第三嵌入向量最近的k个点；

针对所述k个点中的每个相应点，确定所述相应点是属于所述第一多个嵌入向量还是属于所述第二多个嵌入向量；以及

基于属于所述第一多个嵌入向量或所述第二多个嵌入向量的每个相应点来确定所述源发言者。

14.根据权利要求8-13中任一项所述的方法，其特征在于，更新所述日志模型包括：

确定所述第三语音的第三多个嵌入；以及

更新所述向量分类模型以在其中包括所述第三多个嵌入的至少一部分。

15.根据权利要求1-14中任一项所述的方法，其特征在于，更新所述日志模型包括：

确定所述日志模型在确定所述第三语音的所述源发言者时的置信度；

确定所述置信度超过阈值置信度；以及

基于确定所述置信度超过所述阈值置信度来更新所述日志模型。

16.根据权利要求1-15中任一项所述的方法，其特征在于，形成所述日志模型的每个语音被分配所述模型内的相应权重，并且其中，更新所述日志模型包括：

向所述第三语音分配第三权重，所述第三权重低于(i)分配给所述第一语音的第一权重或(ii)分配给所述第二语音的第二权重中的至少一个。

17.根据权利要求1-16中任一项所述的方法，其特征在于，进一步包括：

接收指示(i)所述第一语音对应于第一发言者和(ii)所述第二语音对应于第二发言者的第二类型的身份数据；

接收指示所述第三语音的所述源发言者的所述第二类型的另外的身份数据；以及

基于所述第二类型的所述另外的身份数据，通过所述日志模型验证所述源发言者的确定。

18.根据权利要求17所述的方法，其特征在于，所述第一类型的所述身份数据表示通过所述计算设备的用户界面提供的输入，并且其中，所述第二类型的所述身份数据包括通过连接到所述计算设备的相机捕获的图像数据。

19.一种系统，其特征在于，包括：

麦克风；以及

被配置为执行操作的处理器，所述操作包括：

从所述麦克风接收在初始时间窗口期间捕获的并且表示第一语音和第二语音的第一音频波形；

接收指示(i)所述第一语音对应于第一发言者和(ii)所述第二语音对应于第二发言者的第一类型的身份数据；

基于所述第一语音、所述第二语音和所述第一类型的所述身份数据来确定日志模型，所述日志模型被配置为区分所述第一发言者的语音和所述第二发言者的语音；

从所述麦克风接收并且仅接收指示第三语音的源发言者的所述第一类型的另外的身份数据，在随后的时间窗口期间捕获的并且表示所述第三语音的第二音频波形；

通过所述日志模型并且独立于所述第一类型的所述另外的身份数据来确定所述第三语音的所述源发言者，其中，所述源发言者被确定为所述第一发言者或所述第二发言者；以及

基于所述第三语音和所确定的所述源发言者来更新所述日志模型。

20.一种其上存储有指令的非暂时性计算机可读存储介质，其特征在于，所述指令在由计算设备执行时使所述计算设备执行以下操作：

接收在初始时间窗口期间捕获的并且表示第一语音和第二语音的第一音频波形；

接收指示(i)所述第一语音对应于第一发言者和(ii)所述第二语音对应于第二发言者的第一类型的身份数据；

基于所述第一语音、所述第二语音和所述第一类型的所述身份数据来确定日志模型，所述日志模型被配置为区分所述第一发言者的语音和所述第二发言者的语音；

接收在随后的时间窗口期间捕获的并且表示第三语音的第二音频波形，其中，所述第二音频波形是仅接收指示第三语音的源发言者的所述第一类型的另外的身份数据而接收的；

通过所述日志模型并且独立于所述第一类型的所述另外的身份数据来确定所述第三语音的所述源发言者，其中，所述源发言者被确定为所述第一发言者或所述第二发言者；以及

基于所述第三语音和所确定的所述源发言者来更新所述日志模型。

技术总结
计算设备接收表示第一语音和第二语音的第一音频波形。该计算设备接收身份数据，该身份数据指示第一语音对应于第一发言者并且第二语音对应于第二发言者。所述计算设备基于所述第一语音、所述第二语音和所述身份数据来确定被配置为区分所述第一发言者的语音和所述第二发言者的语音的日志模型。计算设备仅通过接收指示第三语音的源发言者的另外的身份数据来接收表示第三语音的第二音频波形。计算设备通过日志模型并且独立于第一类型的另外的身份数据来确定第三语音的源发言者。计算设备基于第三语音和所确定的源发言者来更新日志模型。

技术研发人员：亚伦·唐斯巴赫;德克·帕德菲尔德;
受保护的技术使用者：谷歌有限责任公司;
技术研发日：2019.07.01
技术公布日：2022.03.11

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多模态智能音频设备系统注意力表达的制作方法

自适应日志模型和用户界面的制作方法

相关文献

最热文献