角色分离方法、电子设备及计算机存储介质与流程

2022-04-16 14:05:29 来源：中国专利 TAG：

1.本技术实施例涉及语音处理技术领域，尤其涉及角色分离方法、电子设备及计算机存储介质。

背景技术：

2.在许多应用场景中，例如会议场景、语音通话场景等，为了向用户反馈发言人的角色信息，需要根据发言人的语音数据确定其身份或角色。通常根据不同角色的声纹特征，可以区分不同角色的语音数据。但是，在实现上述角色分离的过程中，如果两个发言人的声纹特征较为相近，在角色分离时就会产生比较大的误差，向用户反馈错误信息。

技术实现要素：

3.有鉴于此，本技术实施例提供一种角色分离方案，以解决上述部分或全部问题。
4.根据本技术实施例的第一方面，提供了一种角色分离方法，包括：获取目标语音数据的声源信息及声纹特征；根据声源信息确定与声源位置对应的至少一个候选位置；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。
5.根据本技术实施例的第二方面，提供了一种角色分离装置，包括：获取模块，用于获取目标语音数据的声源信息及声纹特征；候选模块，用于根据声源信息确定与声源位置对应的至少一个候选位置；相似度模块，用于计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；角色分离模块，用于根据相似度确定目标语音数据对应的目标角色。
6.根据本技术实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的角色分离方法对应的操作。
7.根据本技术实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的角色分离方法。
8.本技术实施例提供的角色分离方案，获取目标语音数据的声源信息及声纹特征；根据声源信息确定与声源位置对应的至少一个候选位置；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。因为首先根据声源信息所指示的声源位置筛选出了候选位置，减少了运算量，再计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，根据相似度确定目标角色，兼顾了声源位置和声纹特征，角色分离的准确性更高。
附图说明
9.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
10.图1为本技术实施例一提供的一种角色分离方法的应用场景示意图；
11.图2为本技术实施例一提供的一种角色分离方法的流程图；
12.图3为本技术实施例一提供的一种角色分离方法的流程框图；
13.图4为本技术实施例二提供的一种角色分离装置的结构图；
14.图5为本技术实施例三提供的一种电子设备的结构图。
具体实施方式
15.为了使本领域的人员更好地理解本技术实施例中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术实施例一部分实施例，而不是全部的实施例。基于本技术实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本技术实施例保护的范围。
16.下面结合本技术实施例附图进一步说明本技术实施例具体实现。
17.实施例一
18.本技术实施例一提供一种角色分离方法，应用于终端设备，为了便于理解，对本技术实施例一所提供的角色分离方法的应用场景进行说明，参照图1所示，图1为本技术实施例一提供的一种角色分离方法的场景示意图。图1所示的场景中包括电子设备101以及用户102。
19.图1所示的场景可以是一个会议室，在用户发言时，电子设备101获取目标语音数据的声源信息和声纹特征，根据声源信息确定声源位置对应的候选位置，计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，根据相似度确定发言用户的角色，即目标角色。
20.电子设备101可以接入网络，通过网络与云端连接，并进行数据交互。本技术中，网络包括局域网(英文：local area network，lan)、广域网(英文：wide area network，wan)、移动通信网络；如万维网(英文：world wide web，www)、长期演进(英文：long term evolution，lte)网络、2g网络(英文：2th generation mobile network)、3g网络(英文：3th generation mobile network)，5g网络(英文：5th generation mobile network)等。云端可以包括通过网络连接的各种设备，例如，服务器、中继设备、端到端(英文：device-to-device，d2d)设备等。当然，此处只是示例性说明，并不代表本技术局限于此。
21.结合上述图1所示的场景，本技术实施例一提供一种角色分离方法，应用于电子设备，需要说明的是，图1只是本技术角色分离方法的一种示例性应用场景，并不代表本技术角色分离方法必须应用于图1所示的场景，参照图2所示，图2为本技术实施例一提供的一种角色分离方法的流程图，该方法包括以下步骤：
22.步骤201、获取目标语音数据的声源信息及声纹特征。
23.需要说明的是，目标语音数据指的是需要确定角色的语音数据，该语音数据按照时间可以分为至少一个数据帧。声源信息用于指示目标语音数据的声音来源的位置，即发出语音的用户所在的位置，声纹特征用于指示发出语音的用户的声波频谱特征，发出语音
的用户即为需要确定角色的用户。
24.可选地，在一种实现方式中，声源信息可以根据麦克风接收的声波，利用声源定位技术进行确定。另外，可选地，声纹特征可以利用神经网络模型对目标语音数据进行特征提取得到。当然，此处只是示例性说明。
25.可选地，在获取初始语音数据时，可以根据初始语音数据的声源信息对初始语音数据进行分割，将同一个声源位置的语音片段作为目标初始语音数据。例如，如果初始语音数据包含两个声源位置的语音数据，则在声源位置变化处进行切分，得到两个语音片段，这两个语音片段都可以作为目标语音数据确定角色。每个目标语音数据都只包含一个用户的语音，进一步提高角色分离的准确性。
26.步骤202、根据声源信息确定与声源位置对应的至少一个候选位置。
27.需要说明的是，与声源位置对应的至少一个候选位置可以是根据声源信息筛选出来，用于判断该候选位置对应的角色是否为目标角色的位置。示例性地，在一些应用场景中，可以将与声源位置的方位变化差值小于等于预设变化差值的位置作为候选位置；在另一些应用场景中，可以将所有位置作为候选位置。当然，此处只是示例性说明。
28.可选地，在一种示例中，可以先判断目标语音数据的帧数是否足够，如果目标语音的帧数太少，可以直接根据声源位置与历史语音数据的位置的方位差确定目标角色；如果目标语音的帧数足够，可以进一步确定候选位置。例如，根据声源信息确定与声源位置对应的至少一个候选位置，包括：当目标语音数据的帧数大于预设帧数时，确定目标语音数据是否为第一个语音数据；如果目标语音数据不是第一个语音数据，则根据声源信息确定与声源位置对应的至少一个候选位置；否则，根据目标语音数据的声源信息生成新的位置作为候选位置。预设帧数可以根据具体情况设定，可选地，预设帧数可以大于等于50，或者预设帧数大于等于100等。
29.可选地，基于上述示例，在一种实现方式中，如果目标语音数据不是第一个语音数据，则根据声源信息确定与声源位置对应的至少一个候选位置，包括：如果目标语音数据不是第一个语音数据，根据声源信息计算目标语音数据相对于方位最接近的位置的方位变化差值；如果方位变化差值大于预设变化差值，则将已经存在的位置确定为候选位置；否则，将方位最接近的位置确定为候选位置。如果方位变化差值大于预设变化差值，说明方位最接近的位置与声源位置在空间上相距较远，不是同一个用户，此时，很可能是目标语音数据对应的用户移动了位置，因此，将其他已经存在的位置作为候选位置进一步筛选，保证了在用户位置移动时，依旧可以使得角色确定的准确性较高。
30.在一个示例中，若目标语音数据不是第一个语音数据，且方位变化差值大于预设变化差值，则如上所述，会将已经存在的位置确定为候选位置，进而，执行下述步骤203和204，以根据候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，来确定目标角色。因如上所述，有可能存在用户移动位置的情况，此种情况下，可以记录目标语音数据与候选位置的对应关系。这样，对于一个包括多个角色的、具有多段目标语音数据的语音段，在确定了每个目标语音数据对应的目标角色后，可以进一步根据目标角色与候选位置的对应关系，即可确定某个特定目标角色在语音段中对应于哪些目标语音数据，这些目标语音数据的位置发生的变化情况如何。也即，在确定了目标角色后，可以记录目标角色与相似度最高的声纹特征的候选位置的对应关系；根据所述对应关系，判断目标角色对应的
多个(两个及两个以上)目标语音数据(包括该目标角色对应的当前目标语音数据和历史目标语音数据)中的候选位置是否发生了变化；若发生了变化，则可以根据所述变化确定目标角色的位置变化信息。
31.步骤203、计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度。
32.需要说明的是，声纹特征的相似度可以通过计算两个声纹特征的欧氏距离得到，也可以通过概率线性判别分析(英文：probabilistic linear discriminant analysis，plda)打分得到。
33.步骤204、根据相似度确定目标语音数据对应的目标角色。
34.需要说明的是，相似度越高，候选位置对应的角色与目标语音数据对应的角色是同一个角色的可能性就越大。因此，可以根据相似度大小来确定目标角色，示例性地，根据相似度确定目标语音数据对应的目标角色，包括：将候选位置对应的角色中，声纹特征的相似度最大的角色确定为目标角色。将与目标语音数据的声纹特征相似度最大的角色确定为目标角色，更为精准地分离了目标角色。
35.基于上述步骤202中的示例，此处，列举两种场景分别说明如何确定目标角色。
36.可选地，在第一种场景中，根据相似度确定目标语音数据对应的目标角色，包括：如果目标语音数据不是第一个语音数据，根据声源信息计算目标语音数据相对于方位最接近的位置的方位变化差值；如果方位变化差值小于等于预设变化差值，且相似度大于预设相似度，将相似度对应的角色确定为目标角色；如果方位变化差值小于等于预设变化差值，且相似度小于等于预设相似度，则计算候选位置所在区域内的其他位置对应的声纹特征与目标语音数据的声纹特征的相似度，将相似度大于预设相似度的声纹特征对应的角色确定为目标角色。在目标语音数据不是第一个语音数据时，说明已经存在历史语音数据，即已经存在有其他角色，则需要判断目标语音数据对应的角色是否为已经发过言的其他角色，避免遗漏。如果方位变化差值小于等于预设变化差值，说明与声源位置方位最接近的位置距离声源位置很近，很有可能是同一个角色，但如果方位变化差值大于预设变化差值，说明与声源位置方位最接近的位置距离声源位置较远，很有可能是发言者移动了位置，需要在候选位置所在区域内的其他位置进行筛选。方位变化差值可以利用声源位置到参考点的线段，以及方位最接近的位置(候选位置)到参考点的线段，这两个线段所形成的夹角大小来表示，示例性地，预设变化差值可以是40度。
37.其中，发言者是否移动了位置的判断可以以目标语音数据与候选位置的对应关系为依据进行判断。此种情况下，需要在每次确定目标角色时，还记录目标语音数据与方位最接近的位置的对应关系，根据同一目标角色在不同目标语音数据中的位置是否发生了变化确定其是否移动了位置。
38.例如，对于一段包含多个角色的语音段，可以根据如前所述的声源位置变化进行切分，得到多个语音片段，本示例中设定包括语音片段1、语音片段2和语音片段3，其中的每一个语音片段都可以作为一个目标语音数据。或者，可以根据声纹特征的改变，对所述语音段进行切分，示例性，也设定为切分成语音片段1、语音片段2和语音片段3。
39.假设，通过前述过程，确定语音片段1的目标角色为a，同时记录其对应的方位最接近的位置x；确定语音片段2的目标角色为b，同时记录其对应的方位最接近的位置y；确定语
音片段3的目标角色为a，同时记录其对应的方位最接近的位置z。可见，在该段语音段中，目标角色a发言了两次，且移动了位置。
40.在第一种场景中，进一步可选地，该方法还包括：如果对于候选位置所在区域内的其他位置，声纹特征的相似度均小于等于预设相似度，则计算其他区域内的位置对应的声纹特征与目标语音数据的声纹特征的相似度，将相似度大于预设相似度的声纹特征对应的角色确定为目标角色；如果其他区域内的位置对应的声纹特征的相似度均小于等于预设相似度，则为目标语音数据生成新的角色作为目标角色。在第一种场景中，首先判断方位最接近的位置(即候选位置)；如果方位最接近的位置的方位变化差值大于预设变化差值，则扩大范围，判断方位最接近的位置所在区域的其他位置；如果所在区域的其他位置对应的声纹特征的相似度小于等于预设相似度，则进一步扩大范围，判断其他区域的位置，直到确定出目标角色，这样基于声源位置层层扩大，既保证了准确性，又避免遗漏。还需要说明的是，区域可以是扇形的，可以用不同角度进行区分，例如，45度对应的扇形是一个区域，则可以将一个场景分为8个区域。一个区域内可以有至少一个位置，或者也可以没有设定位置，可以根据用户发言逐渐建立新的位置。
41.基于此，本技术实施例的一种可行的角色分离方案可以实现为：获取目标语音数据的声源信息及声纹特征；确定声源信息所指示的声源位置所属的空间分区，并确定该空间分区中与所述声源位置对应的至少一个候选位置；其中，该空间分区为目标语音数据对应的发言人所处物理空间被按照预设角度进行空间划分后形成的多个空间区域中的一个；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。其中，预设角度可以由本领域技术人员根据实际需求设定，本技术实施例对此不作限制。
42.进一步可选地，所述确定空间分区中与所述声源位置对应的至少一个候选位置可以实现为：判断该空间分区中是否具有与所述声源位置对应的候选位置；若具有，则将所述候选位置确定为该空间分区中与所述声源位置对应的候选位置；若不具有，则根据所述声源位置，在该空间分区中建立候选位置。
43.再次参照图1，图1中，发言人所处物理空间被按照45度角均分为3个空间区域，也即8个空间分区。假设，根据目标语音数据的声源信息确定对应的声源位置所属的空间分区为第一分区，即图1中“ ”号圆形所在的分区，则在确定候选位置时，先从该第一分区中确定与声源位置对应的候选位置(可能有一个或多个)，图1中与声源位置同处于第一分区中的存在一个候选位置，则可优先计算该候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；再根据该相似度确定目标语音数据对应的目标角色。当然，若同一空间分区中的候选位置对应的相似度均较低，则可继续计算其它空间分区中的候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，如图1中所示的与第一分区相邻的下方分区中的候选位置所示。
44.而假设，在第一分区中不存在任何候选位置，则此种情况下，还可基于声源位置在该第一分区中创建新的候选位置，例如，可将声源位置直接创建为候选位置，以在后续需要时使用。
45.通过上述方式，可以更为准确、有效地进行目标角色的确定，以及，对候选位置进行补充和完善，提高方案整体效率。
46.可选地，在第二种场景中，该方法还包括：当目标语音数据的帧数小于等于预设帧数时，根据声源信息在历史语音数据中确定与目标语音数据方位最接近的候选语音数据；计算目标语音数据与候选语音数据之间的方位差，如果方位差小于预设阈值，则将候选语音数据对应的角色确定为目标角色。如果目标语音数据的帧数小于等于预设帧数，此时，可能无法根据声纹特征的相似度进行判断，因为帧数太少，计算相似度准确性较低，因此，可以直接根据历史语音数据的方位进行判断。需要说明的是，在本技术中，目标语音数据与候选语音数据之间的方位差指的是目标语音数据对应的声源位置，与候选语音数据对应的位置之间的方位差，也可以理解为方位变化差值。方位差可以利用声源位置到参考点的线段，以及方位最接近的候选语音数据对应的位置到参考点的线段，这两个线段所形成的夹角大小来表示，示例性地，预设阈值可以是5度。
47.结合上述步骤201-204所描述的角色分离方法，此处，列举一具体应用场景进行详细说明，如图3所示，图3为本技术实施例一提供的一种角色分离方法的流程框图。在获取目标语音数据后，先判断目标语音数据的帧数是否大于预设帧数(预设帧数可以是100)；若小于等于预设帧数，则与历史语音数据进行比较，确定方位最接近的候选语音数据，判断候选语音数据与目标语音数据之间的方位差是否小于预设阈值(预设阈值为5)，若小于预设阈值，则候选语音数据对应的角色即为目标角色，若大于等于预设阈值，则无法判断。
48.如果目标语音数据的帧数大于预设帧数，则进一步判断目标语音数据是否为第一个语音数据，如果是第一个语音数据，则为目标语音数据建立新的角色作为目标角色，还可以基于目标语音数据的声源位置建立新的位置，并建立新的区域。如果目标语音数据不是第一个语音数据，则遍历所有区域的位置，确定与目标语音数据的声源位置方位最接近的位置，并计算声源位置及其方位最接近的位置的方位变化差值。判断方位变化差值是否大于预设变化差值(方位变化差值可以是40度)。如果方位变化差值大于预设变化差值，则将目标语音数据的声纹特征与其他区域的所有位置的声纹特征进行比对，计算相似度，如果相似度大于预设相似度，则将相似度对应位置的角色确定为目标角色，如果相似度小于等于预设相似度，则为目标语音数据生成新的角色作为目标角色，还可以为目标语音数据生成新的位置和新的区域。
49.如果方位变化差值小于等于预设变化差值，可以进一步判断方位变化差值是否小于差值下限(差值下限可以是10度)，如果小于差值下限，则可以确定方位最接近的位置所对应的角色即为目标角色，如果方位变化差值大于等于差值下限，则将方位最接近的位置对应的声纹特征与目标语音数据的声纹特征进行比对，计算相似度，判断相似度是否大于预设相似度，如果大于，则方位最接近的位置对应的角色即为目标角色，如果相似度小于等于预设相似度，则将方位最接近的位置所在区域的其他位置作为候选位置，扩大比对范围。
50.计算候选位置对应的声纹特征与目标语音数据的声纹特征之间的相似度。如果相似度大于预设相似度，则将相似度对应候选位置的角色作为目标角色，如果相似度小于等于预设相似度，则将其他所有区域的位置作为候选位置，进一步扩大比对范围。计算候选位置对应的声纹特征与目标语音数据的声纹特征之间的相似度。如果相似度大于预设相似度，则将相似度对应候选位置的角色作为目标角色。如果所有的区域内的候选位置都比对完，没有相似度大于预设相似度的位置，则为目标语音数据生成新的角色作为目标角色，并基于声源位置设置新的位置。还需要说明的是，如果一个区域内有2个以上的候选位置的声
纹特征，与目标语音数据的声纹特征的相似度大于预设相似度，则在这几个候选位置中，将相似度最大的候选位置对应的角色确定为目标角色。
51.本技术实施例提供的角色分离方法，获取目标语音数据的声源信息及声纹特征；根据声源信息确定与声源位置对应的至少一个候选位置；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。因为首先根据声源信息所指示的声源位置筛选出了候选位置，减少了运算量，再计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，根据相似度确定目标角色，兼顾了声源位置和声纹特征，角色分离的准确性更高。
52.实施例二
53.基于上述实施例一所描述的方法，本技术实施例二提供一种角色分离装置，用于执行上述实施例一所描述的方法，参照图4所示，该角色分离装置40包括：
54.获取模块401，用于获取目标语音数据的声源信息及声纹特征；
55.候选模块402，用于根据声源信息确定与声源位置对应的至少一个候选位置；
56.相似度模块403，用于计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；
57.角色分离模块404，用于根据相似度确定目标语音数据对应的目标角色。
58.可选地，在一种实施例中，角色分离模块404，用于将候选位置对应的角色中，声纹特征的相似度最大的角色确定为目标角色。
59.可选地，在一种实施例中，候选模块402，用于当目标语音数据的帧数大于预设帧数时，确定目标语音数据是否为第一个语音数据；如果目标语音数据不是第一个语音数据，则根据声源信息确定与声源位置对应的至少一个候选位置；否则，根据目标语音数据的声源信息生成新的位置作为候选位置。
60.可选地，在一种实施例中，候选模块402，用于如果目标语音数据不是第一个语音数据，根据声源信息计算目标语音数据相对于方位最接近的位置的方位变化差值；如果方位变化差值大于预设变化差值，则将已经存在的位置确定为候选位置；否则，将方位最接近的位置确定为候选位置。
61.可选地，在一种实施例中，角色分离模块404，用于如果目标语音数据不是第一个语音数据，根据声源信息计算目标语音数据相对于方位最接近的位置的方位变化差值；如果方位变化差值小于等于预设变化差值，且相似度大于预设相似度，将相似度对应的角色确定为目标角色；如果方位变化差值小于等于预设变化差值，且相似度小于等于预设相似度，则计算候选位置所在区域内的其他位置对应的声纹特征与目标语音数据的声纹特征的相似度，将相似度大于预设相似度的声纹特征对应的角色确定为目标角色。
62.可选地，在一种实施例中，角色分离模块404，还用于如果对于候选位置所在区域内的其他位置，声纹特征的相似度均小于等于预设相似度，则计算其他区域内的位置对应的声纹特征与目标语音数据的声纹特征的相似度，将相似度大于预设相似度的声纹特征对应的角色确定为目标角色；如果其他区域内的位置对应的声纹特征的相似度均小于等于预设相似度，则为目标语音数据生成新的角色作为目标角色。
63.可选地，在一种实施例中，角色分离模块404，还用于当目标语音数据的帧数小于等于预设帧数时，根据声源信息在历史语音数据中确定与目标语音数据方位最接近的候选
语音数据；计算目标语音数据与候选语音数据之间的方位差，如果方位差小于预设阈值，则将候选语音数据对应的角色确定为目标角色。
64.本技术实施例提供的装置，获取目标语音数据的声源信息及声纹特征；根据声源信息确定与声源位置对应的至少一个候选位置；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。因为首先根据声源信息所指示的声源位置筛选出了候选位置，减少了运算量，再计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，根据相似度确定目标角色，兼顾了声源位置和声纹特征，角色分离的准确性更高。
65.实施例三
66.基于上述实施例一所描述的方法，本技术实施例三提供一种电子设备，用于执行上述实施例一所描述的任一方法，参照图5所示，图5为本技术实施例三提供的一种电子设备的结构示意图，本技术具体实施例并不对电子设备的具体实现做限定。
67.如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(communications interface)504、存储器(memory)506、以及通信总线508。
68.其中：
69.处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
70.通信接口504，用于与其它电子设备如终端设备或服务器进行通信。
71.处理器502，用于执行程序510，具体可以执行上述方法实施例中的相关步骤。
72.具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。
73.处理器502可能是中央处理器cpu，或者是特定集成电路asic(application specific integrated circuit)，或者是被配置成实施本技术实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。
74.存储器506，用于存放程序510。存储器506可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。
75.程序510具体可以用于使得处理器502执行前述实施例中任一方法。
76.程序510中各步骤的具体实现可以参见上述速度检测方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。
77.本技术实施例提供的电子设备，获取目标语音数据的声源信息及声纹特征；根据声源信息确定与声源位置对应的至少一个候选位置；计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度；根据相似度确定目标语音数据对应的目标角色。因为首先根据声源信息所指示的声源位置筛选出了候选位置，减少了运算量，再计算候选位置对应的角色的声纹特征与目标语音数据的声纹特征的相似度，根据相似度确定目标角色，兼顾了声源位置和声纹特征，角色分离的准确性更高。
78.实施例四
79.基于上述实施例一所描述的方法，本技术实施例四提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一中所描述的任一方法。
80.需要指出，根据实施的需要，可将本技术实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本技术实施例的目的。
81.上述根据本技术实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，ram、rom、闪存等)，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的角色分离方法。此外，当通用计算机访问用于实现在此示出的角色分离方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的角色分离方法的专用计算机。
82.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术实施例的范围。
83.以上实施方式仅用于说明本技术实施例，而并非对本技术实施例的限制，有关技术领域的普通技术人员，在不脱离本技术实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本技术实施例的范畴，本技术实施例的专利保护范围应由权利要求限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音分类模型的训练方法、装置、设备及存储介质与流程

角色分离方法、电子设备及计算机存储介质与流程

相关文献

最热文献