一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种说话人分离方法及其相关设备与流程

2021-09-07 22:44:00 来源:中国专利 TAG:及其相关 语音 分离 说话 方法

技术特征:
1.一种说话人分离方法,其特征在于,所述方法包括:获取待分离语音数据;其中,所述待分离语音数据包括至少一个说话人的语音信息;将所述待分离语音数据输入预先构建的语音分离模型,得到所述语音分离模型输出的至少一个语音分离数据,以使各个语音分离数据所携带语音信息的说话人不同;根据所述至少一个语音分离数据,确定所述待分离语音数据的说话人分离结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个语音分离数据,确定所述待分离语音数据的说话人分离结果,包括:根据所述至少一个语音分离数据和预先训练好的语音活性检测模型,确定所述至少一个语音分离数据的语音边界信息;分别按照各个语音分离数据的语音边界信息对各个语音分离数据进行说话人标注,得到各个语音分离数据的说话人标注结果;根据所述至少一个语音分离数据的说话人标注结果,确定所述待分离语音数据的说话人分离结果。3.根据权利要求2所述的方法,其特征在于,若所述语音分离数据的个数为n,则第n个语音分离数据的语音边界信息的确定过程,包括:对所述第n个语音分离数据进行频谱特征提取,得到所述第n个语音分离数据的频谱特征和所述第n个语音分离数据对应的映射关系;其中,所述第n个语音分离数据对应的映射关系用于描述所述第n个语音分离数据中各帧音频数据与所述第n个语音分离数据的频谱特征中各个数据特征之间的对应关系;其中,n为正整数,n≤n,n为正整数;将所述第n个语音分离数据的频谱特征输入所述语音活性检测模型,得到所述语音活性检测模型输出的所述第n个语音分离数据对应的语音边界检测结果;根据所述第n个语音分离数据对应的语音边界检测结果和所述第n个语音分离数据对应的映射关系,确定所述第n个语音分离数据的语音边界信息。4.根据权利要求2所述的方法,其特征在于,若所述语音分离数据的个数为n,则第n个语音分离数据的说话人标注结果的确定过程,包括:按照所述第n个语音分离数据的语音边界信息,对所述第n个语音分离数据进行语音边界标注,得到所述第n个语音分离数据的语音边界标注结果;其中,n为正整数,n≤n,n为正整数;确定所述第n个语音分离数据对应的说话人标识,以使所述第n个语音分离数据对应的说话人标识不同于n个语音分离数据中除了所述第n个语音分离数据以外其他任一语音分离数据对应的说话人标识;根据所述第n个语音分离数据的语音边界标注结果和所述第n个语音分离数据的对应的说话人标识,确定所述第n个语音分离数据的说话人标注结果。5.根据权利要求4所述的方法,其特征在于,若所述第n个语音分离数据包括m帧音频数据,则所述第n个语音分离数据中第m帧音频数据的说话人标注结果的确定过程,包括:若所述第n个语音分离数据中第m帧音频数据的语音边界标注结果满足预设标注条件,则将所述第n个语音分离数据的对应的说话人标识,确定为所述第n个语音分离数据中第m帧音频数据的说话人标注结果;其中,m为正整数,m≤m,m为正整数;若所述第n个语音分离数据中第m帧音频数据的语音边界标注结果不满足预设标注条
件,则将所述第n个语音分离数据中第m帧音频数据的语音边界标注结果,确定为所述第n个语音分离数据中第m帧音频数据的说话人标注结果。6.根据权利要求2所述的方法,其特征在于,若所述语音分离数据的个数为n,则所述待分离语音数据的说话人分离结果的确定过程,包括:将n个语音分离数据的说话人标注结果按照预设合并方式进行合并,得到所述待分离语音数据的说话人分离结果。7.根据权利要求1所述的方法,其特征在于,所述语音分离模型的构建过程,包括:获取所述样本语音和所述样本语音对应的至少一个实际语音分离数据;将所述样本语音输入待训练模型,得到所述待训练模型输出的所述样本语音对应的至少一个预测语音分离数据;根据所述至少一个预测语音分离数据和所述至少一个实际语音分离数据,确定所述待训练模型的预测损失值;根据所述待训练模型的预测损失值,更新所述待训练模型,并继续执行所述将所述样本语音输入待训练模型的步骤,直至在达到预设停止条件之后,根据所述待训练模型,确定所述语音分离模型。8.根据权利要求7所述的方法,其特征在于,若所述样本语音的个数为g,则所述待训练模型的预测损失值的确定过程,包括:根据第g个样本语音对应的至少一个预测语音分离数据和所述第g个样本语音对应的至少一个实际语音分离数据,确定所述第g个样本语音对应的预测损失;其中,g为正整数,g≤g,g为正整数;根据g个样本语音对应的预测损失之间的和值,确定所述待训练模型的预测损失值。9.根据权利要求8所述的方法,其特征在于,若所述实际语音分离数据的个数为k,且所述预测语音分离数据的个数为k,则所述第g个样本语音对应的预测损失的确定过程,包括:确定所述第g个样本语音对应的t个候选数据对应关系;其中,所述第g个样本语音对应的第t个候选数据对应关系用于描述所述第g个样本语音对应的k个实际语音分离数据与所述第g个样本语音对应的k个预测语音分离数据之间的对应关系;其中,t为正整数,t≤t,t为正整数;根据所述第g个样本语音对应的第t个候选数据对应关系、所述第g个样本语音对应的k个实际语音分离数据和所述第g个样本语音对应的k个预测语音分离数据,确定所述第g个样本语音对应的第t个数据匹配对集合;其中,所述第t个数据匹配对集合包括k个数据匹配对;t为正整数,t≤t;根据所述第t个数据匹配对集合中第1个数据匹配对之间的损失距离至所述第t个数据匹配对集合中第k个数据匹配对之间的损失距离,确定所述第g个样本语音对应的第t个候选损失;其中,t为正整数,t≤t;将所述第g个样本语音对应的第1个候选损失至所述第g个样本语音对应的第t个候选损失中最小值,确定为所述第g个样本语音对应的预测损失。10.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述待分离语音数据进行频谱特征提取,得到所述待分离语音数据的频谱特征;根据所述待分离语音数据的频谱特征和预先训练好的语音活性检测模型,确定所述待
分离语音数据对应的至少一个频谱特征切片;根据所述至少一个频谱特征切片,确定所述待分离语音数据对应的说话人分离参考结果;所述根据所述至少一个语音分离数据,确定所述待分离语音数据的说话人分离结果,包括:根据所述至少一个语音分离数据和所述说话人分离参考结果,确定所述待分离语音数据的说话人分离结果。11.根据权利要求10所述的方法,其特征在于,所述根据所述至少一个语音分离数据和所述说话人分离参考结果,确定所述待分离语音数据的说话人分离结果,包括:根据所述至少一个语音分离数据,确定所述待分离语音数据对应的说话人分离候选结果;根据所述说话人分离候选结果和所述说话人分离参考结果,确定所述说话人分离候选结果的分离错误表征值;若所述说话人分离候选结果的分离错误表征值低于预设错误阈值,则将所述说话人分离候选结果,确定为所述待分离语音数据的说话人分离结果;若所述说话人分离候选结果的分离错误表征值不低于预设错误阈值,则将所述说话人分离参考结果,确定为所述待分离语音数据的说话人分离结果。12.根据权利要求11所述的方法,其特征在于,所述说话人分离候选结果的分离错误表征值的确定过程,包括:确定所述待分离语音数据对应的h个候选标识对应关系;其中,所述待分离语音数据对应的第h个候选标识对应关系用于表示所述说话人分离候选结果中至少一个说话人标识与所述说话人分离参考结果中至少一个说话人标识之间的对应关系;h为正整数,h≤h,h为正整数;根据所述待分离语音数据对应的第h个候选标识对应关系、所述说话人分离候选结果和所述说话人分离参考结果,确定所述待分离语音数据对应的第h个匹配语音段集合;其中,h为正整数,h≤h;根据所述待分离语音数据对应的第h个匹配语音段集合,确定所述待分离语音数据对应的第h个候选错误表征值;其中,h为正整数,h≤h;将所述待分离语音数据对应的第1个候选错误表征值至所述待分离语音数据对应的第h个候选错误表征值中最小值,确定为所述说话人分离候选结果的分离错误表征值。13.根据权利要求12所述的方法,其特征在于,若所述第h个语音段集合包括f个匹配语音段,则所述待分离语音数据对应的第h个候选错误表征值的确定过程,包括:根据所述第h个语音段集合中第f个匹配语音段、所述说话人分离候选结果、所述说话人分离参考结果、和所述第h个候选标识对应关系,确定所述第h个语音段集合中第f个匹配语音段对应的错误表征值;其中,f为正整数,f≤f,f为正整数;根据所述第h个语音段集合中第1个匹配语音段对应的错误表征值至所述第h个语音段集合中第f个匹配语音段对应的错误表征值之间的和值,确定所述待分离语音数据对应的第h个候选表征值。14.根据权利要求13所述的方法,其特征在于,所述第h个语音段集合中第f个匹配语音
段对应的错误表征值的确定过程,包括:根据所述说话人分离候选结果,确定所述第h个语音段集合中第f个匹配语音段对应的第一说话人标识和所述第h个语音段集合中第f个匹配语音段对应的第一说话人个数;根据所述说话人分离参考结果,确定所述第h个语音段集合中第f个匹配语音段对应的第二说话人标识和所述第h个语音段集合中第f个匹配语音段对应的第二说话人个数;根据所述第h个候选标识对应关系、所述第h个语音段集合中第f个匹配语音段对应的第一说话人标识、和所述第h个语音段集合中第f个匹配语音段对应的第二说话人标识,确定所述第h个语音段集合中第f个匹配语音段对应的说话人匹配个数;根据所述第h个语音段集合中第f个匹配语音段对应的第一说话人个数、所述第h个语音段集合中第f个匹配语音段对应的第二说话人个数、所述第h个语音段集合中第f个匹配语音段对应的说话人匹配个数、和所述第h个语音段集合中第f个匹配语音段的时长,确定所述第h个语音段集合中第f个匹配语音段对应的错误表征值。15.一种说话人分离装置,其特征在于,包括:语音获取单元,用于获取待分离语音数据;其中,所述待分离语音数据包括至少一个说话人的语音信息;语音分离单元,用于将所述待分离语音数据输入预先构建的语音分离模型,得到所述语音分离模型输出的至少一个语音分离数据,以使各个语音分离数据所携带语音信息的说话人不同;说话人分离单元,用于根据所述至少一个语音分离数据,确定所述待分离语音数据的说话人分离结果。16.一种设备,其特征在于,所述设备包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1至14任一项所述的方法。17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1至14任一项所述的方法。18.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1至14任一项所述的方法。

技术总结
本申请公开了一种说话人分离方法及其相关设备,该方法包括:在获取到包括至少一个说话人的语音信息的待分离语音数据之后,可以先将该待分离语音数据输入预先构建的语音分离模型,得到该语音分离模型输出的至少一个语音分离数据,以使各个语音分离数据所携带语音信息的说话人不同(也就是,不同语音分离数据用于记录不同说话人的语音信息);再根据该至少一个语音分离数据,确定该待分离语音数据的说话人分离结果,以使该说话人分离结果能够准确地表示出该待分离语音数据中每一个说话人对应的语音片段,如此能够有效地避免因无法准确地识别出重叠音频数据对应的多个说话人而导致的不良影响,从而能够有效地提高说话人分离准确性。准确性。准确性。


技术研发人员:孙磊 方昕 吴明辉 李永超 刘俊华
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2021.07.12
技术公布日:2021/9/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜