一种语音处理方法、介质及系统与流程

2021-07-16 17:42:00 来源：中国专利 TAG：多个介质语音实施方法

技术特征：
1.一种语音处理方法，其特征在于，包括：接收多个语音输入并从所述多个语音输入中提取多个语音特征；基于所述多个语音特征确定多个说话人特征；将所述多个说话人特征聚类为至少一个说话人特征类别，其中，所述至少一个说话人特征类别与至少一个说话人一一对应，并且所述至少一个说话人特征类别中的每个说话人特征类别包括所述多个说话人特征中的至少一个说话人特征；基于所述至少一个说话人特征类别，确定至少一个说话人模板，其中，所述至少一个说话人模板与所述至少一个说话人一一对应；和接收来自当前说话人的当前语音输入，并且基于所述当前语音输入和所述至少一个说话人模板，确定所述当前说话人是否与所述至少一个说话人中的一个说话人匹配。2.如权利要求1所述的语音处理方法，其特征在于，所述基于所述多个语音特征确定多个说话人特征，包括：基于所述多个语音特征，通过声纹模型确定所述多个说话人特征；其中，所述声纹模型包括混合高斯-通用背景模型、i-vector模型、联合因子分析模型中的至少一种，并且所述多个说话人特征包括所述混合高斯-通用背景模型的超均值矢量、所述i-vector模型的i-vector矢量、所述联合因子分析模型的与说话人相关的超矢量中的至少一种。3.如权利要求1或2所述的语音处理方法，其特征在于，所述基于所述至少一个说话人特征类别，确定至少一个说话人模板，包括：确定所述每个说话人特征类别内的所述至少一个说话人特征的均值或加权和；将所述至少一个说话人特征的至少一个均值或加权和作为所述至少一个说话人模板。4.如权利要求1-3中任一项所述的语音处理方法，其特征在于，所述将所述多个说话人特征聚类为至少一个说话人特征类别，包括：基于所述多个说话人特征中每两个说话人特征之间的相似度，所述多个说话人特征中两个说话人特征之间的偏移，以及所述多个说话人特征的密度分布中的至少一种，将所述多个说话人特征聚类为所述至少一个说话人特征类别。5.如权利要求1-4中任一项所述的语音处理方法，其特征在于，所述接收来自当前说话人的当前语音输入，并且基于所述当前语音输入和所述至少一个说话人模板，确定所述当前说话人是否与所述至少一个说话人中的一个说话人匹配，包括：接收来自所述当前说话人的所述当前语音输入，并从所述当前语音输入中提取当前语音特征；基于所述当前语音特征确定当前说话人特征；确定所述当前说话人特征是否与所述至少一个说话人模板中的一个说话人模板匹配；在确定所述当前说话人特征与所述一个说话人模板匹配的情况下，确定所述当前说话人与所述一个说话人模板对应的说话人匹配。6.如权利要求3所述的语音处理方法，其特征在于，所述接收来自当前说话人的当前语音输入，并且基于所述当前语音输入和所述至少一个说话人模板，确定所述当前说话人是否与所述至少一个说话人中的一个说话人匹配，包括：基于所述当前说话人特征与所述至少一个说话人模板中的每个说话人模板之间的相
似度，确定所述当前说话人是否与所述至少一个说话人中的一个说话人匹配。7.如权利要求1-6中任一项所述的语音处理方法，其特征在于，还包括：在确定所述当前说话人与所述一个说话人匹配的情况下，确定所述当前说话人的当前说话人特征的数量以及所述至少一个说话人特征类别中与所述一个说话人相对应的一个说话人类别中的所述至少一个说话人特征的数量之和是否等于第一阈值；在确定所述数量之和不等于所述第一阈值的情况下，基于所述当前说话人特征和与所述一个说话人特征类别中的所述至少一个说话人特征，更新与所述一个说话人相对应的所述说话人模板。8.如权利要求1-7中任一项所述的语音处理方法，其特征在于，还包括：在确定所述当前说话人与所述一个说话人匹配的情况下，确定所述当前说话人的当前说话人特征的数量以及所述至少一个说话人特征类别中与所述一个说话人相对应的一个说话人类别中的所述至少一个说话人特征的数量之和是否等于第一阈值；在确定所述数量之和等于所述第一阈值的情况下，将所述当前说话人特征加入所述多个说话人特征，形成经更新的多个说话人特征；将所述经更新的多个说话人特征聚类为经更新的至少一个说话人特征类别，其中，所述经更新的至少一个说话人特征类别与经更新的至少一个说话人一一对应，并且所述经更新的至少一个说话人特征类别中的每个经更新的说话人特征类别包括所述经更新的多个说话人特征中的至少一个说话人特征；基于所述至少一个经更新的说话人特征类别，确定经更新的至少一个说话人模板，其中所述经更新的至少一个说话人模板与经更新的至少一个说话人一一对应。9.如权利要求1-8中任一项所述的语音处理方法，其特征在于，还包括：在确定所述当前说话人不与所述至少一个说话人匹配的情况下，确定所述当前说话人的当前说话人特征的数量以及未包括在所述至少一个说话人特征类别中的至少一个说话人特征的数量之和是否大于或等于第二阈值；在确定所述数量之和大于或等于所述第二阈值的情况下，将所述当前说话人特征和所述未包括在所述至少一个说话人特征类别中的至少一个说话人特征聚类为至少一个其他说话人特征类别，其中，所述至少一个其他说话人特征类别与至少一个其他说话人一一对应；基于所述至少一个其他说话人特征类别，确定至少一个其他说话人模板，其中，所述至少一个其他说话人模板与所述至少一个其他说话人一一对应。10.如权利要求1-9中任一项所述的语音处理方法，其特征在于，还包括：在确定所述当前说话人不与所述至少一个说话人匹配的情况下，确定所述当前说话人的当前说话人特征的数量以及未包括在所述至少一个说话人类别中的至少一个说话人特征的数量之和是否大于或等于第二阈值；在确定所述数量之和大于或等于所述第二阈值的情况下，将所述当前说话人特征以及所述未包括在所述至少一个说话人类别中的至少一个说话人特征加入所述多个说话人特征，形成经更新的多个说话人特征；将所述经更新的多个说话人特征聚类为经更新的至少一个说话人特征类别；基于所述经更新的至少一个说话人特征类别，确定经更新的至少一个说话人模板，其
中所述经更新的至少一个说话人模板与经更新的至少一个说话人一一对应。11.如权利要求1-10中任一项所述的语音处理方法，其特征在于，还包括，在确定所述当前说话人与所述多个说话人中的一个说话人匹配的情况下，通过与所述当前说话人的交互，获取所述当前说话人的当前用户标识；和将所述当前用户标识和所述至少一个说话人特征类别中的一个说话人特征类别以及所述至少一个说话人模板中的一个说话人模板相关联，其中所述一个说话人特征类别以及所述一个说话人模板与所述一个说话人相对应。12.如权利要求11所述的语音处理方法，其特征在于，所述当前用户标识包括所述当前说话人的姓名、性别、年龄、权限、喜好中的至少一种。13.如权利要求11或12所述的语音处理方法，其特征在于，还包括：接收来自下一个说话人的下一个语音输入，并且基于所述下一个语音输入和所述至少一个说话人模板，确定所述下一个说话人是否与所述至少一个说话人中的所述一个说话人匹配；在确定所述下一个说话人与所述一个说话人匹配的情况下，用所述当前用户标识识别所述下一个说话人。14.如权利要求8或10所述的语音处理方法，其特征在于，还包括：在所述至少一个经更新的说话人特征类别中的一个经更新的说话人特征类别包括多个说话人特征并且所述多个说话人特征与多个用户标识相关联的情况下，确定与所述多个说话人特征中最大数量的说话人特征相关联的一个用户标识；和将所述一个用户标识与所述至少一个经更新的说话人模板中的一个说话人模板相关联，其中所述一个经更新的说话人模板与所述一个经更新的说话人特征类别相对应，其中，所述多个用户标识中的每个用户标识包括说话人的姓名、性别、年龄、权限、喜好中的至少一种。15.如权利要求1-14中任一项所述的语音处理方法，其特征在于，还包括：基于所述当前说话人的所述当前语音输入，确定所述当前说话人的声音属性；和在确定所述当前说话人与所述多个说话人中的一个说话人匹配的情况下，将所述声音属性和与所述一个说话人相对应的说话人特征类别相关联。16.如权利要求15所述的语音处理方法，其特征在于，所述声音属性包括声音的年龄属性、声音的性别属性中的至少一种。17.一种机器可读介质，其特征在于，在所述介质上存储有指令，当所述指令在所述机器上运行时，使得所述机器执行权利要求1至16中任意一项所述的语音处理方法。18.一种系统，其特征在于，包括：处理器；存储器，在所述存储器上存储有指令，当所述指令被所述处理器运行时，使得所述系统执行权利要求1至16中任意一项所述的语音处理方法。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音处理方法、介质及系统与流程

相关文章

最热文献