发声对象确定方法、装置、计算设备和介质与流程

2022-02-22 07:35:20 来源：中国专利 TAG：

技术特征：
1.一种发声对象确定方法，包括：获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n个音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；n为大于或等于1的整数；根据所述目标声纹特征确定所述第二目标音频段的目标发声对象。2.根据权利要求1所述的方法，其中，所述目标位置信息包括所述第二发声对象与预设音频采集器之间的相对位置信息。3.根据权利要求1所述的方法，其中，所述确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征之前，所述方法还包括：对所述第一目标音频段中的音频帧对应的发声对象的位置信息进行滤波，得到滤波后的位置信息；基于所述滤波后的位置信息，确定所述第一位置信息。4.根据权利要求1所述的方法，其中，所述根据所述目标声纹特征确定所述第二目标音频段的目标发声对象，包括：在预设声音数据库中存在与所述目标声纹特征的匹配度满足第一预设匹配条件的第一声纹特征的情况下，将所述第一声纹特征对应的发声对象确定为所述第二目标音频段的目标发声对象；在所述第一声纹特征与所述目标声纹特征的匹配度满足第二预设匹配条件的情况下，利用所述目标声纹特征更新所述目标发声对象在所述预设声音数据库中对应的声纹特征；其中，所述第二预设匹配条件对应需要满足的匹配度大于所述第一预设匹配条件对应需要满足的匹配度。5.根据权利要求4所述的方法，其中，在所述目标位置信息与所述第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，所述第一预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度大于第一预设声纹匹配度阈值；所述第二预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度大于第二预设声纹匹配度阈值，其中，所述第二预设声纹匹配度阈值大于所述第一预设声纹匹配度阈值；在所述目标位置信息与所述第一位置信息之间的匹配度小于所述第二预设位置匹配度阈值的情况下，所述第一预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度大于第三预设声纹匹配度阈值；所述第二预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度大于第四预设声纹匹配度阈值；其中，所述第四预设声纹匹配度阈值大于所述第三预设声纹匹配度阈值，所述第一预设声纹匹配度阈值小于所述第二预设声纹匹配度阈值，所述第二预设声纹匹配度阈值小于所述第四预设声纹匹配度阈值。6.根据权利要求4所述的方法，其中，所述方法还包括：在所述预设声音数据库中的每个声纹特征与所述目标声纹特征的匹配度均满足第三
预设匹配条件的情况下，则在所述预设声音数据库中存储所述目标声纹特征以及所述目标声纹特征对应的发声对象之间的对应关系，并将所述目标声纹特征对应的发声对象确定为所述第二目标音频段的目标发声对象；其中，所述第三预设匹配条件用于表征所述预设声音数据库中的声纹特征与所述目标声纹特征不匹配。7.根据权利要求6所述的方法，其中，在所述目标位置信息与所述第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，所述第三预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度小于第五预设声纹匹配度阈值；在所述目标位置信息与所述第一位置信息之间的匹配度小于所述第二预设位置匹配度阈值的情况下，所述第三预设匹配条件包括所述预设声音数据库中的声纹特征与所述目标声纹特征的匹配度小于第六预设声纹匹配度阈值；其中，所述第五预设声纹匹配度阈值小于所述第六预设声纹匹配度阈值。8.一种发声对象确定方法，包括：获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取所述第一目标音频段的目标声纹特征，其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧；根据所述目标声纹特征确定所述第一目标音频段的目标发声对象。9.一种发声内容起点确定方法，包括：获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将所述目标音频帧确定为所述第二发声对象发声内容的起点；其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧。10.一种发声对象标识变更方法，包括：获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；变更所述第二发声对象的标识和所述目标发声对象的标识，所述标识用于表征发声对象的发声状态。11.一种会话记录生成方法，包括：获取音频会话数据中第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
确定所述目标位置信息与所述音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取所述音频会话数据中第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；将所述目标发声对象与所述第二目标音频段对应的文字内容进行关联，得到所述目标发声对象的会话记录。12.一种发声对象确定装置，其中，所述装置包括：获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n个音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；n为大于或等于1的整数；第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象。13.一种发声对象确定装置，包括：获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取所述第一目标音频段的目标声纹特征，其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧；第一确定模块，用于根据所述目标声纹特征确定所述第一目标音频段的目标发声对象。14.一种发声内容起点确定装置，包括：获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；第一确定模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将所述目标音频帧确定为所述第二发声对象发声内容的起点；其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧。15.一种发声对象标识变更装置，包括：获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹
配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；变更模块，用于变更所述第二发声对象的标识和所述目标发声对象的标识，所述标识用于表征发声对象的发声状态。16.一种会话记录生成装置，包括：获取模块，用于获取音频会话数据中第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；提取模块，用于确定所述目标位置信息与所述音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取所述音频会话数据中第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；关联模块，用于将所述目标发声对象与所述第二目标音频段对应的文字内容进行关联，得到所述目标发声对象的会话记录。17.一种计算设备，其中，所述计算设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如权利要求1-11任意一项所述的方法。18.一种计算机存储介质，其中，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-11任意一项所述的方法。

技术总结
本发明公开了一种发声对象确定方法、装置、计算设备和介质。该方法，包括：获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前N个音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；N为大于或等于1的整数；根据目标声纹特征确定第二目标音频段的目标发声对象。能够提高确定发声对象的准确性。性。性。

技术研发人员：郑斯奇王宪亮索宏彬
受保护的技术使用者：阿里巴巴集团控股有限公司
技术研发日：2020.07.28
技术公布日：2022/2/6

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：人声分离方法、装置和电子设备与流程

发声对象确定方法、装置、计算设备和介质与流程

相关文献

最热文献