发声对象确定方法、装置、计算设备和介质与流程

2022-02-22 07:35:20 来源：中国专利 TAG：

1.本发明涉及数据处理领域，尤其涉及一种发声对象确定方法、装置、计算设备和介质。

背景技术：

2.在日常生活、会议以及电话对话等很多场景下，都存在对话语音。在实际应用中，为了能够对语音信号作更为准确的分析，不仅需要进行语音识别，还需要对语音进行角色分离，以判定每部分语音的发声对象。在确定语音的发声对象之后，会产生更为广阔的应用空间。例如，对于多人大会议室的场景，通过对会议中的语音进行角色分离，则可以快速完成会议记录，记录出会议室中的每个发言人所发言的内容。
3.目前，大多通过声纹识别技术实现确定发声对象，但是准确度较低。因此，急需提供一种准确度较高的发声对象确定方法。

技术实现要素：

4.本发明实施例提供一种发声对象确定方法、装置、计算设备和介质，能够解决确定发声对象的准确度低下的问题。
5.根据本发明实施例的第一方面，提供一种发声对象确定方法，包括：
6.获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
7.确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n个音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；n为大于或等于1的整数；
8.根据所述目标声纹特征确定所述第二目标音频段的目标发声对象。
9.根据本发明实施例的第二方面，提供一种发声对象确定方法，包括：
10.获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
11.确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取所述第一目标音频段的目标声纹特征，其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧；
12.根据所述目标声纹特征确定所述第一目标音频段的发声对象。
13.根据本发明实施例的第三方面，提供一种发声内容起点确定方法，包括：
14.获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
15.确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将所述目标音频帧确定为所述第二发声对象发声内容的起点；
16.其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一
发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧。
17.根据本发明实施例的第四方面，提供一种发声对象标识变更方法，包括：
18.获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
19.确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；
20.根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；
21.变更所述第二发声对象的标识和所述目标发声对象的标识，所述标识用于表征发声对象的发声状态。
22.根据本发明实施例的第五方面，提供一种会话记录生成方法，包括：
23.获取音频会话数据中第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
24.确定所述目标位置信息与所述音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取所述音频会话数据中第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；
25.根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；
26.将所述目标发声对象与所述第二目标音频段对应的文字内容进行关联，得到所述目标发声对象的会话记录。
27.根据本发明实施例的第六方面，提供一种发声对象确定装置，包括：
28.获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
29.提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n个音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；n为大于或等于1的整数；
30.第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象。
31.根据本发明实施例的第七方面，提供一种发声对象确定装置，包括：
32.获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
33.提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取所述第一目标音频段的目标声纹特征，其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧；
34.第一确定模块，用于根据所述目标声纹特征确定所述第一目标音频段的发声对象。
35.根据本发明实施例的第八方面，提供一种发声内容起点确定装置，包括：
36.获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
37.第一确定模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将所述目标音频帧确定为所述第二发声对象发声内容的起点；
38.其中，所述第一目标音频段包括第一发声对象发出的全部连续音频帧，所述第一发声对象为发出所述目标音频帧的前一音频帧的发声对象；所述第一目标音频段的终点为所述目标音频帧的前一音频帧。
39.根据本发明实施例的第九方面，提供一种发声对象标识变更装置，包括：
40.获取模块，用于获取第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
41.提取模块，用于确定所述目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；
42.第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；
43.变更模块，用于变更所述第二发声对象的标识和所述目标发声对象的标识，所述标识用于表征发声对象的发声状态。
44.根据本发明实施例的第十方面，提供一种会话记录生成装置，包括：
45.获取模块，用于获取音频会话数据中第二发声对象发出的目标音频帧以及所述第二发声对象的目标位置信息；
46.提取模块，用于确定所述目标位置信息与所述音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取所述音频会话数据中第二目标音频段的目标声纹特征，其中，所述第一目标音频段包括所述目标音频帧的前n音频帧；所述第一目标音频段中的音频帧的发声对象和所述第二目标音频段中的音频帧的发声对象相同；所述第一目标音频段为所述第二目标音频段的至少一部分；
47.第一确定模块，用于根据所述目标声纹特征确定所述第二目标音频段的目标发声对象；
48.关联模块，用于将所述目标发声对象与所述第二目标音频段对应的文字内容进行关联，得到所述目标发声对象的会话记录。
49.根据本发明实施例的第十一方面，提供了一种计算设备，包括：处理器以及存储有计算机程序指令的存储器；
50.处理器执行计算机程序指令时实现如上述第一方面、第二方面、第三方面、第四方面或第五方面提供的方法。
51.根据本发明实施例的第十二方面，提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如上述第一方面、第二方面、
第三方面、第四方面或第五方面提供的方法。
52.根据本发明实施例，在确定发出目标音频帧的第二发声对象的目标位置信息和第一目标音频段对应的第一位置信息不匹配的情况下，则可以判定发出第一目标音频段的第一发声对象和目标音频帧的第二发声对象不同。接着，提取第一发声对象发出的第二目标音频段的目标声纹特征，并根据目标声纹特征确定第二目标音频段的目标发声对象，即确定第一发声对象的身份，以实现角色分离。通过将声纹识别技术和声源定位技术相互结合，可以提升发声对象确定的准确率，从而提高对发声对象确定的准确度。
附图说明
53.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
54.图1为本技术第一方面提供的发声对象确定方法的应用场景示意图；
55.图2为本技术第一方面提供的发声对象确定方法一实施例的的流程示意图；
56.图3为本技术提供的声纹匹配的流程示意图；
57.图4为本技术第二方面提供的发声对象确定方法的流程示意图；
58.图5为本技术第三方面提供的发声内容起点确定方法的一实施例的流程示意图；
59.图6为本技术第四方面提供的发声对象标识变更方法的一实施例的流程示意图；
60.图7为本技术第五方面提供的会话记录生成方法的一实施例的流程示意图；
61.图8为本技术第六方面提供的发声对象确定装置的一实施例的结构示意图；
62.图9为本技术第七方面提供的发声对象确定装置的一实施例的结构示意图；
63.图10为本技术第八方面提供的发声内容起点确定装置的一实施例的结构示意图；
64.图11为本技术第九方面提供的发声对象标识变更装置的一实施例的结构示意图；
65.图12为本技术第十方面提供的会话记录生成装置的一实施例的结构示意图；
66.图13为本技术提供的计算设备的硬件结构一实施例的示意图。
具体实施方式
67.下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
68.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
69.图1是本技术提供的发声对象确定方法的应用场景示意图。例如，图1所示的是会议室场景。会议室中包括多个参加会议的人员。图1中仅示意性的示出3个参会人员，即参会人员a、参会人员b和参会人员c，对于参会人员个数不做限定。为了便于后续对会议过程中的语音内容进行快速提取，可以对整个会议过程中多个参会人员的语音进行角色分离。
70.在参会人员发出音频信号的过程中，会议室中预设的音频采集器便可以采集到该音频信号。当音频采集器获取参会人员发出的音频信号之后，则可以按照预设时长将音频采集器采集的参会人员发出的音频信号进行分帧处理，则可以得到参会人员发出的音频帧。
71.在本技术的实施例中，将音频采集器当前采集到的音频帧作为目标音频帧。
72.需要说明的是，在本技术的实施例中，为了实现精确确定发声对象，还需要获取发出目标音频帧的发声对象的位置信息。对于每个目标音频帧，可以通过声源定位技术确定发出该目标音频帧的发声对象的位置信息。例如可以利用会议室中预先安装的音频采集器，获取发出目标音频帧的发声对象的位置信息。
73.声源定位技术是指获取声源的位置信息的技术。在一些实施例中，声源位置信息可以为发声对象与预设音频采集器之间的相对位置信息。例如，声源位置信息可以包括发声对象与预设音频采集器之间的夹角。
74.在一些实施例中，预设音频采集器可以为麦克风阵列，声源定位技术可以为麦克风阵列声源定位。麦克风阵列由几个到上千个麦克风，按照一定规则排列组成。通过麦克风阵列接收到音频信号后，采用时延估计方法来定位声源。具体地，通过麦克风阵列接收音频信号，并计算每个麦克风接收的音频信号相对于参考点接收的音频信号的时延，并根据计算出的时延完成对声源的定位。
75.例如，在会议的0～t1时段内，参会人员b发言。在会议的t1～t2时段内，参会人员a在发言，在t2～t3时段内，参会人员c发言。其中，t3时刻晚于t2时刻，t2时刻晚于t1时刻。会议室中的音频采集器会实时采集会议室中的参会人员发出的音频帧。
76.在本技术的实施例中，当会议室的音频采集器获取到第1个音频帧以及发出第1个音频帧的发声对象的位置信息d1之后，则将第1个音频帧作为第一发声对象发声内容的起点。
77.接着，音频采集器继续获取第2个音频帧，以及发出第2个音频帧的发声对象的位置信息d2。当目标音频帧为第2个音频帧时，第一目标音频段包括第1个音频帧。然后将第2个音频帧的位置信息d2与第1个音频帧的位置信息d1进行匹配。若位置信息d2与位置信息d1匹配，则可以确定第1个音频帧和第2个音频帧的发声对象均是第一发声对象，则继续获取第3个音频帧和发出第3个音频帧的发声对象的位置信息d3。
78.当第3个音频帧为目标音频帧时，例如第一目标音频段可以包括第1个音频帧和第2个音频帧。由于第1个音频帧和第2个音频帧的发声对象相同，则第二目标音频段可以包括第1个音频帧和第2个音频帧。
79.接着，将第3个音频帧的位置信息d3与第一目标音频段对应的第一位置信息进行匹配。例如，第一目标音频段对应的第一位置信息可以是发出第1个音频帧的发声对象的位置信息和发出第2个音频帧的发声对象的位置信息的均值d’。若第3个音频帧的位置信息d3与位置信息d’相匹配，则可以确定第1个音频帧～第3个音频帧的发声对象均为第一发声对
象。
80.依次类推，按照上述方法可以确定哪些音频帧的发声对象是第一发声对象。假设依照上述方法已确定第1个音频帧～第m1个音频帧的发声对象均为第一发声对象，则继续获取第m1 1个音频帧，即目标音频帧，以及发出该目标音频帧的发声对象的目标位置信息d
m1 1
。
81.当目标音频帧为第m1 1个音频帧时，第一目标音频段可以包括目标音频帧的前n个音频帧，n为大于1或等于1的正整数。则第一目标音频段可以包括第m1-n个音频帧～第m1个音频帧之间的音频帧。其中，m1为正整数。需要说明的是，若在目标音频帧之前获取的音频帧的个数小于n，则第一目标音频段包括目标音频帧之前的所有音频帧。
82.当目标音频帧为第m1 1个音频帧时，第二目标音频段可以是第一目标音频段的发声对象发出的所有音频帧，或者部分音频帧。且第二目标音频段包括第一目标音频段。例如，第二目标音频段包括第1个音频帧～第m1个音频帧之间的所有音频帧。
83.作为一个示例，m1＝1000，n＝500。若第1001个音频帧为目标音频帧，第一目标音频段包括第500个音频帧～第1000个音频帧之间的音频帧，第二目标音频段包括第1个音频帧～第1000个音频帧之间的音频帧。
84.例如，第一目标音频段对应的第一位置信息可以为发出第500个音频帧～第1000个音频帧之间的每个音频帧的发声对象的位置信息的平均值d”。接着，将发出第1001个音频帧的参会人员的位置信息d
1001
与位置信息d”进行匹配。若位置信息d
1001
与位置信息d”不匹配，则可以确定发出第1001个音频帧的发声对象与发出第1个音频帧～第1000个音频帧的第一发声对象不同，即代表会议室中发言人员发生了切换。则可以将第1000个音频帧作为第一发声对象发声内容的终点，并将第1001个音频帧作为第二发声对象的发声内容的起点。
85.接着，可以提取第一发声对象的发声内容的起点至终点之间的音频帧，即第1个音频帧～第1000个音频帧，即第二目标音频段。再接着，提取第二目标音频段的目标声纹特征，并基于目标声纹特征确定第1个音频帧～第1000个音频帧对应的目标发声对象，即第一发声对象。由于参会人员b先发言，因此根据第1个音频帧～第1000个音频帧的目标声纹特征，可以确定第1个音频帧～第1000个音频帧对应的发声对象为参会人员b。
86.其中，利用声纹特征识别发声对象是利用了声纹识别技术。声纹识别技术是指通过发声对象的声纹特征，识别发声对象的身份的技术。声纹是指携带言语信息的声波频谱。
87.接着，继续获取下一个目标音频帧，按照上述的方法，可以得出第二发声对象的终点。例如，若第1001个音频帧～第2000个音频帧的发声对象均为第二发声对象，且确定发出第2001个音频帧的发声对象的目标位置信息与发出第1500个音频帧～第2000个音频帧中每个音频帧的发声对象的位置信息的均值不匹配，则第2000个音频帧为第二发声对象发声内容的终点。通过提取第1001个音频帧～第2000个音频帧的目标声纹特征，可以根据该声纹特征确定第1001个音频帧～第2000个音频帧的目标发声对象。由于参会人员a是第二个发言人员，因此，可以确定第1001个音频帧～第2000个音频帧的发声对象是参会人员a。类似地，也可以确定参会人员c发出的音频帧。
88.在本技术的实施例中，通过结合声纹识别技术和声源定位技术，可以实现精确地确定发声内容对应的发声对象。
89.需要说明的是，本说明书实施例提供的发声对象确定方法除了应用到上述会议室中确定发声对象的场景，还可以应用于其他场景中，例如审讯场景、访谈场景、课堂场景等不同的场景，在此仅以应用到上述会议室场景为例进行说明。
90.基于上述涉及的应用场景，下面结合图2对本技术实施例提供的发声对象确定方法进行详细说明。
91.图2示出本技术第一方面提供的发声对象确定方法的流程示意图。
92.如图2所示，本技术实施例提供的发声对象确定方法200包括：
93.步骤210，获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
94.步骤220，确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n个音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；n为大于或等于1的整数；
95.步骤230，根据目标声纹特征确定第二目标音频段的目标发声对象。
96.首先对步骤210的具体实现方式进行介绍。
97.在本技术的实施例中，语音数据流包括具有时序的一系列的采样点值。采样点值通过将原始的模拟声音信号按照特定的音频采样率采样获得。一系列的采样点值即可以描述声音。音频采样率则是一秒钟内所采集的采样点的数量，单位为赫兹(hz)。音频采样率越高所能描述的声波频率就越高。其中，音频帧包括具有时序的、数量固定的采样点值。
98.当发声对象发出音频信号之后，预设的音频采集器便可以采集到该音频信号。当从音频采集器获取发声对象发出的音频信号之后，则可以按照预设时长将音频采集器采集的目标音频信号进行分帧处理，将目标音频信号分为若干帧音频信号，则可以得到发声对象发出的每个音频帧。在本技术的实施例中，将音频采集器获取的当前音频帧确定为目标音频帧。
99.在本技术的实施例中，利用声源定位技术可以获取发出目标音频帧的发声对象的位置信息。关于声源定位技术的叙述可参考上述叙述，在此不再赘述。
100.作为一个示例，音频采集器为麦克风阵列，当发声对象发出音频信号后，麦克风阵列中的麦克风便可以采集到该音频信号。为了对音频信号进行实时处理，当获取各个麦克风阵列采集的音频信号后，可以按照预设时长将各个麦克风阵列采集的目标音频信号进行分帧处理。然后将当前得到的音频帧作为目标音频帧。由于麦克风阵列中的各个麦克风与发声对象的距离一般不同，所以麦克风阵列中的各个麦克风接收到目标音频帧的时间也不同，便可以根据各个麦克风接收相应目标音频帧的时间差，计算出发出目标音频帧的发声对象的目标位置信息。
101.下面介绍步骤220的具体实现方式。
102.在本技术的实施例中，若发声对象由发声对象a切换成发声对象b，由于发声对象a与发声对象b的位置不同，则发声对象a的位置信息与发声对象b的位置信息不同。为了准确地判断出发声对象是否发生切换，则需要判断发出目标音频帧的第二发声对象的目标位置信息与发出目标音频帧的前一音频帧的第一发声对象的位置信息是否匹配。
103.由于发出目标音频帧的前一音频帧的第一发声对象发出的音频帧可能包括多帧，
因此为了提高对发声对象是否发生切换进行判断的准确性，可以将包括目标音频帧的前n个音频帧的第一目标音频段对应的第一位置信息与目标位置信息进行匹配。
104.其中，第一目标音频段包括目标音频帧的前n个音频帧，且第一目标音频段中每个音频帧的发声对象均相同。也就是说，第一目标音频段的发声对象为发出目标音频帧的前一音频帧的第一发声对象。换句话说，第一目标音频段中每个音频帧对应的发声对象为同一个，即第一发声对象。
105.需要说明的是，若目标音频帧之前获取的第一发声对象发出的音频帧的个数小于n，则将第一发声对象发出的全部连续的音频帧作为第一目标音频段，且第一目标音频段的终点是目标音频帧的前一帧。
106.在一些实施例中，第一目标音频段对应的第一位置信息是基于第一目标音频段中的音频帧对应的发声对象的位置信息确定的。例如，第一位置信息是基于第一目标音频段中每个音频帧对应的发声对象的位置信息的均值确定的。
107.例如，发声对象的位置信息为发声对象与预设麦克风阵列之间的夹角。则，第一位置信息为第一目标音频段对应的第一夹角，第一夹角则为第一目标音频段中每个音频帧对应的发声对象与预设麦克风阵列之间的夹角的均值。
108.在本技术的实施例中，目标位置信息与第一位置信息是否匹配，可以用目标位置信息与第一位置信息的差值是否在预设数值范围内进行判断。若该差值在预设数值范围内，则代表目标位置信息与第一位置信息匹配，若该差值超出预设数值范围，则代表目标位置信息与第一位置信息不匹配。
109.其中，目标位置信息与第一位置信息之间的匹配度可以用目标位置信息与第一位置信息的差值进行表征。即，目标位置信息与第一位置信息之间的匹配度为目标位置信息与第一位置信息的差值。
110.在本技术的另一些实施例中，目标位置信息与第一位置信息之间的匹配度可以用目标位置信息与第一位置信息的差值与第一位置信息的比值进行表征。若目标位置信息与第一位置信息的差值与第一位置信息的比值在预设比值范围内，则代表目标位置信息与第一位置信息相匹配。若目标位置信息与第一位置信息的差值与第一位置信息的比值不在预设比值范围内，则代表目标位置信息与第一位置信息不匹配。
111.对于判断目标位置信息与第一位置信息是否匹配的具体实现方式不做限定。
112.在本技术的实施例中，在目标位置信息与第一位置信息不匹配的情况下，则代表发出目标音频帧的第二发声对象与第一目标音频段的发声对象不同，则代表发声对象可能切换，则可以进一步利用声纹识别技术确定第一目标音频段的发声对象。
113.由于第一目标音频段可能只是第一发声对象(即目标音频帧的前一音频帧的发声对象)发出的部分音频信号，在进行语音流角色分离时，需要对该第一发声对象发出的第二目标音频段进行角色分离。
114.作为一个示例，第二目标音频段包括第一目标音频段，且第二目标音频段中音频帧的发声对象与第一目标音频段中的音频帧的发声对象相同。也就是说，第二目标音频段中每个音频帧的发声对象与第一目标音频段中的每个音频帧的发声对象均相同，即均为第一发声对象。
115.在一些实施例中，通过上述的目标位置信息与第一位置信息是否匹配的方式，可
以判断出目标音频帧的发声对象与第一目标音频段的发声对象是否可能相同。若目标位置信息与第一位置信息不匹配，则可以认为目标音频帧为第二发声对象的发声内容的起点，即发出的第一个音频帧，目标音频帧的前一音频帧为第一目标音频段的发声对象，即第一发声对象的发声内容的终点，即发出的最后一个音频帧。因此，根据相类似的方法也可以预先得到第一目标音频段的发声对象，即第一发声对象发声内容的起点，即第一发声对象所发出的第一个音频帧。
116.若目标位置信息与第一位置信息不匹配，则可以第一发声对象所发出的第一个音频帧与目标音频帧的前一音频帧之间的至少部分连续的音频帧确定为第二目标音频段。
117.例如，可以将第一目标音频段的发声对象所发出的第一个音频帧与目标音频帧的前一音频帧之间的所有音频帧确定为第二目标音频段。也就是说，被确定的第二目标音频段的起点和终点分别是前后两次位置信息不匹配的发生点。若发声对象的位置信息为发声对象与麦克风阵列之间的夹角，则被确定的第二目标音频段的起点和终点分别是前后两次角度转变时的发生点。
118.需要说明的是，第一目标音频段和第二目标音频段均包括多个连续的音频帧。
119.当检测到位置信息发生变化时，则将前后两次位置信息发生变化的发生点之间的音频段确定为第二目标音频段，然后提取第二目标音频段的目标声纹特征。
120.在本技术的实施例中，若目标位置信息与第一位置信息匹配，则代表第二发声对象即是第一目标音频段的发声对象，即第一目标音频段对应的发声对象与目标音频帧对应的发声对象是同一个，则重新获取下一个音频帧，并将下一个音频帧作为目标音频帧，以及获取发出该目标音频帧的第二发声对象的目标位置信息，即返回步骤210。
121.需要说明的是，当重新获取目标音频帧之后，则步骤220中的第一目标音频段将会更新，即第一目标音频段将会包括上一个目标音频帧，且第一目标音频段对应的第一位置信息也会随之发生更新。
122.下面介绍步骤230的具体实现方式。
123.在本技术的实施例中，会预先建立一个声音数据库，该声音数据库中包括发声对象与声纹特征的对应关系，以及发声对象与音频信号的对应关系。
124.当获取第二目标音频段的目标声纹特征之后，为了确定该第二目标音频段的发声对象，则需要将目标声纹特征与预设声音数据库中的每个声纹特征进行匹配，并将预设声音数据库中与目标声纹特征匹配的声纹特征对应的发声对象，确定为第二目标音频段对应的目标发声对象。并且，可以将第二目标音频段确定为目标发声对象所对应的音频信号，即将第二目标音频段添加为目标发声对象所对应的音频信号。
125.在本技术的一些实施例中，步骤230包括：在预设声音数据库中存在与目标声纹特征的匹配度满足第一预设匹配条件的第一声纹特征的情况下，将第一声纹特征对应的发声对象确定为第二目标音频段对应的目标发声对象；在第一声纹特征与目标声纹特征的匹配度满足第二预设匹配条件的情况下，利用目标声纹特征更新目标发声对象在预设声音数据库中对应的声纹特征。
126.其中，第二预设匹配条件对应需要满足的匹配度大于第一预设匹配条件对应需要满足的匹配度。
127.在本技术的实施例中，当第一声纹特征与目标声纹特征的匹配度满足第二预设匹
配条件的情况下，才利用目标声纹特征更新目标发声对象在预设声音数据库中对应的声纹特征，可以提高目标发声对象对应的声纹特征的丰富性和准确性，以提高声纹识别的准确性。
128.作为一个示例，第一预设匹配条件为预设声音数据库中的声纹特征与目标声纹特征的匹配度大于80％，第二预设匹配条件为预设声音数据库中的声纹特征与目标声纹特征的匹配度大于90％。
129.在本技术的实施例中，当第一声纹特征与目标声纹特征的匹配度不满足第二预设匹配条件的条件下，则不利用目标声纹特征更新目标发声对象在预设声音数据库中对应的声纹特征，则只将第二目标音频段确定为目标发声对象发出的音频信号。
130.在本技术的实施例中，若存在多个第一声纹特征，则将与目标声纹特征的匹配度最高的第一声纹特征对应的发声对象确定为第二目标音频段对应的发声对象。
131.在本技术的一些实施例中，在目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二位置预设匹配度阈值的情况下，第一预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第一预设声纹匹配度阈值；第二预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第二预设声纹匹配度阈值，其中，第二预设声纹匹配度阈值大于第一预设声纹匹配度阈值。
132.在目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值的情况下，第一预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第三预设声纹匹配度阈值；第二预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第四预设声纹匹配度阈值。
133.其中，第四预设声纹匹配度阈值大于第三预设声纹匹配度阈值，第一预设声纹匹配度阈值小于第二预设声纹匹配度阈值，第二预设声纹匹配度阈值小于第四预设声纹匹配度阈值，第一预设声纹匹配度阈值小于第三预设声纹匹配度阈值。
134.在本技术的实施例中，当目标位置信息与第一位置信息的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值时，用于代表目标位置信息与第一位置信息不匹配，但是目标位置信息与第一位置信息比较近似。当目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值时，代表目标位置信息与第一位置信息不匹配，且目标位置信息与第一位置信息相差很大。
135.当目标位置信息与第一位置信息比较近似时，则代表第二发声对象与第一目标音频段的发声对象可能相同，即目标音频帧的发声对象和第二目标音频段的发声对象可能是同一人，因此可以将声纹匹配的阈值设置的稍微低一点。当目标位置信息与第一位置信息相差很大时，则代表第二发声对象与第一目标音频段的发声对象可能不同，即目标音频帧的发声对象和第二目标音频段的发声对象可能不是同一人，因此可以将声纹匹配的阈值设置的稍微高一点。即第一预设声纹匹配度阈值小于第三预设声纹匹配度阈值，第二预设声纹匹配度阈值小于第四预设声纹匹配度阈值，通过如此设置，可以提高发声对象确定的准确性。
136.在本技术的一些实施例中，本技术实施例提供的发声对象确定方法还包括：在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均满足第三预设匹配条件的情况下，则在预设声音数据库中存储目标声纹特征以及目标声纹特征对应的发声对象之间的
对应关系，并将目标声纹特征对应的发声对象确定为第二目标音频段的目标发声对象；其中，第三预设匹配条件用于表征预设声音数据库中的声纹特征与目标声纹特征不匹配。
137.在本技术的实施例中，当预设声音数据库中的每个声纹特征与目标声纹特征均不匹配的情况下，则代表预设声音数据库中的每个声纹特征对应的发声对象均不是第二目标音频段对应的发声对象。
138.在一些实施例中，可以从预先建立的声纹特征与发声对象的对应关系中，确定目标声纹特征对应的发声对象。然后将目标声纹特征以及目标声纹特征对应的发声对象之间的对应关系更新至预设声音数据库。也就是说，将目标声纹特征对应的发声对象在预设声音数据库中进行了注册。
139.在本技术的另一些实施例中，本技术实施例提供的发声对象确定方法还包括：在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均满足第四预设匹配条件但不满足第三预设匹配条件的情况下，舍弃第二目标音频段。
140.其中，第四预设匹配条件也用于表征预设声音数据库中的声纹特征与目标声纹特征不匹配，但是第四预设匹配条件对应需要满足的不匹配程度小于第三预设匹配条件对应需要满足的不匹配程度。
141.也就是说，当预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均满足第四预设匹配条件但不满足第三预设匹配条件的情况下，为了提高后续对发声对象确定的准确性，则不对第二目标音频段的目标声纹特征以及目标声纹特征对应的发声对象进行注册。
142.在本技术的一些实施例中，在目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，第三预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第五预设声纹匹配度阈值。
143.在目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值的情况下，第三预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第六预设声纹匹配度阈值。
144.其中，第五预设声纹匹配度阈值小于第六预设声纹匹配度阈值。
145.在本技术的一些实施例中，在目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，第四预设匹配条件为预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第七预设声纹匹配度阈值。
146.在目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值的情况下，第四预设匹配条件为预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第八预设声纹匹配度阈值。
147.其中，第七预设声纹匹配度阈值小于第八预设声纹匹配度阈值。
148.当目标位置信息与第一位置信息比较近似时，则代表第二发声对象与第一目标音频段对应的发声对象可能相同，即目标音频帧的发声对象和第二目标音频段的发声对象可能是同一人，因此可以将声纹匹配的不匹配阈值设置的稍微低一点，以提高发声对象确定的准确性。当目标位置信息与第一位置信息相差很大时，则代表第二发声对象与第一目标音频段对应的发声对象可能不同，即目标音频帧的发声对象和第二目标音频段的发声对象可能不是同一人，因此可以将声纹不匹配阈值设置的稍微高一点。也就是说，第五预设声纹
匹配度阈值小于第六预设声纹匹配度阈值，第七预设声纹匹配度阈值小于第八预设声纹匹配度阈值。通过如此设置，可以提高发声对象确定的准确性。
149.也就是说，当目标位置与第一位置信息不匹配的情况下，目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值，以及目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值，可以代表两种不匹配程度。其中，目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值代表目标位置信息与第一位置信息不匹配程度稍低一些，目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值代表目标位置信息与第一位置信息不匹配程度稍高一些。
150.针对目标位置信息与第一位置信息的不匹配程度稍低和稍高的两种情况，则在进行声纹匹配时均对应四个预设声纹匹配度阈值。当目标位置信息与第一位置信息的不匹配程度稍低时，代表目标位置信息与第一位置信息比较近似，在这种情况下对应的四个阈值，即第一预设声纹匹配度阈值、第二预设声纹匹配度阈值、第五预设声纹匹配度阈值和第七预设声纹匹配度阈值。当目标位置信息与第一位置信息的不匹配程度稍高时，代表目标位置信息与第一位置信息相差较大，在这种情况下对应的四个声纹匹配阈值，即第三预设声纹匹配度阈值、第四预设声纹匹配度阈值、第六预设声纹匹配度阈值和第八预设声纹匹配度阈值。并且，在目标位置信息与第一位置信息的不匹配程度稍低时所对应的四个预设匹配度阈值均要小于，目标位置信息与第一位置信息的不匹配程度稍低时分别对应的四个预设匹配度阈值。也就是说，第一预设声纹匹配度阈值小于第三预设声纹匹配度阈值，第二预设声纹匹配度阈值小于第四预设声纹匹配度阈值，第五预设声纹匹配度阈值小于第六预设声纹匹配度阈值，第七预设声纹匹配度阈值小于第八预设声纹匹配度阈值。
151.需要说明的是，第七预设声纹匹配度阈值小于第一预设声纹匹配度阈值，且第八预设声纹匹配度阈值小于第三预设声纹匹配阈值。
152.图3示出本技术实施例提供的声纹匹配的流程示意图。例如发声对象的位置信息为与麦克风阵列之间的角度，则目标位置信息即为第二发声对象与麦克风阵列之间的目标角度。第一位置信息即为第一目标音频段对应的第一角度。
153.参见图3，当目标角度与第一角度之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，即目标角度与第一角度比较近似，采用较低的预设声纹匹配度阈值进行声纹比对。
154.也就是说，在预设声音数据库中存在与目标声纹特征的匹配度满足大于第二预设声纹匹配度阈值的第一声纹特征的情况下，则判定第一声纹特征对应的发声对象与第二目标音频段的发声对象为同一个的概率非常高，则利用目标声纹特征更新目标发声对象对应的声纹特征。
155.在预设声音数据库中存在与目标声纹特征的匹配度满足大于第一预设声纹匹配度阈值且小于第二预设声纹匹配度阈值的第一声纹特征的情况下，则判定第一声纹特征对应的发声对象与第二目标音频段的发声对象为同一个的概率较高，但概率低于上述匹配度大于第二预设声纹匹配度阈值的情况，因此不利用目标声纹特征更新目标发声对象对应的声纹特征。
156.在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均小于第五预设
声纹匹配度阈值，则判定预设声音数据库中的每个声纹特征对应的发声对象均不是目标声纹特征对应的发声对象的概率非常高，则在预设声音数据库中存储目标声纹特征以及目标声纹特征对应的发声对象之间的对应关系，即对目标声纹特征以及目标声纹特征对应的发声对象进行注册。
157.在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均小于第七预设声纹匹配度阈值且大于第五预设声纹匹配度阈值，则判定预设声音数据库中的每个声纹特征对应的发声对象均不是目标声纹特征对应的发声对象的概率较高，但低于上述匹配度小于第五预设声纹匹配度阈值的情况，因此舍弃第二目标音频段，不对目标声纹特征以及目标声纹特征对应的发声对象进行注册。
158.继续参见图3，当目标角度与第一角度之间的匹配度小于第二预设位置匹配度阈值的情况下，即目标角度与第一角度不同，采用较高的预设声纹匹配度阈值进行声纹比对。
159.也就是说，在预设声音数据库中存在与目标声纹特征的匹配度满足大于第四预设声纹匹配度阈值的第一声纹特征的情况下，则判定第一声纹特征对应的发声对象与第二目标音频段的发声对象为同一个的概率非常高，则利用目标声纹特征更新目标发声对象对应的声纹特征。
160.在预设声音数据库中存在与目标声纹特征的匹配度满足大于第三预设声纹匹配度阈值且小于第四预设声纹匹配度阈值的第一声纹特征的情况下，则判定第一声纹特征对应的发声对象与第二目标音频段的发声对象为同一个的概率较高，但概率低于上述匹配度大于第四预设声纹匹配度阈值的情况，因此不利用目标声纹特征更新目标发声对象对应的声纹特征。
161.在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均小于第八预设匹配度阈值，则判定预设声音数据库中的每个声纹特征对应的发声对象均不是目标声纹特征对应的发声对象的概率非常高，则在预设声音数据库中存储目标声纹特征以及目标声纹特征对应的发声对象之间的对应关系，即对目标声纹特征以及目标声纹特征对应的发声对象进行注册。
162.在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均小于第十预设匹配度阈值且大于第八预设匹配度阈值，则判定预设声音数据库中的每个声纹特征对应的发声对象均不是目标声纹特征对应的发声对象的概率较高，但低于上述匹配度小于第六预设声纹匹配度阈值的情况，因此舍弃第二目标音频段，不对目标声纹特征以及目标声纹特征对应的发声对象进行注册。
163.在本技术的实施例中，通过结合目标位置信息与第一位置信息之间的匹配程度，利用两套预设声纹匹配度阈值进行声纹匹配，可以实现对发声对象确定的准确性。
164.在本技术的一些实施例中，为了提高对发声对象确定的准确性，在步骤220之前，本技术实施例提供的发声对象确定方法还包括：对第一目标音频段中的音频帧对应的发声对象的位置信息进行滤波，得到滤波后的位置信息；基于滤波后的位置信息，确定第一位置信息。
165.在一些实施例中，可以通过中值滤波器对第一目标音频段中的每个音频帧对应的发声对象的位置信息进行滤波，得到每个音频帧对应的发声对象经过滤波后的位置信息。
166.其中，中值滤波的思想是，每个音频帧对应的发声对象的位置信息，可以用与该音
频帧的预设大小的邻域内的所有音频帧对应的发声对象的位置信息的统计中值来代替。
167.作为一个示例，若发声对象的位置信息为声源与麦克风阵列之间的夹角，则第一位置信息为每个音频帧对应的发声对象经过滤波后的夹角的平均值。
168.在本技术的实施例中，通过对第一目标音频段中的每个音频帧对应的发声对象的位置信息进行滤波，可以将一些噪音和毛刺过滤掉，使位置信息更加平稳，得到平滑的位置信息，从而提高对发声对象确定的准确性。
169.在本技术的另一些实施例中，还可以采用其他方式对第一目标音频段中的每个音频帧对应的发声对象的位置信息进行滤波，例如可以采用均值滤波器。
170.图4示出本技术第二方面提供的发声对象确定方法的流程示意图。如图4所示，本技术第二方面提供发声对象确定方法400包括：
171.步骤410，获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
172.步骤420，确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第一目标音频段的目标声纹特征，其中，第一目标音频段包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象；第一目标音频段的终点为目标音频帧的前一音频帧；
173.步骤430，根据目标声纹特征确定第一目标音频段的目标发声对象。
174.在本技术的实施例中，步骤410的具体实现方式与步骤210的具体实现方式相类似，在此不再赘述。
175.在本技术的实施例中，步骤420的具体实现方式与步骤220的具体实现方式相类似。其中，在步骤420中，与步骤220的不同之处在于，第一目标音频段包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象；第一目标音频段的终点为目标音频帧的前一音频帧。
176.而在步骤220中，第一目标音频段是包括目标音频帧之前第一发声对象发出的前n个音频帧，即不一定是第一发声对象发出的全部连续音频帧。
177.在本技术的实施例中，由于第一发声对象发出的全部连续音频帧对应的第一位置信息中包括的位置信息更加丰富，因此第一位置信息更能精确地体现出第一发声对象的位置信息。因此将该第一位置信息与目标位置信息进行匹配，可以更加精确地判断是否发声对象发生了切换，进而可以提高角色分离的准确性。
178.在本技术的实施例中，步骤430的具体实现方式与步骤230的具体实现方式相类似，根据第一目标音频段的目标声纹特征，即可以确定第一发声对象的身份，在此不再赘述。
179.在本发明实施例的实施例中，在确定发出目标音频帧的第二发声对象的目标位置信息和第一目标音频段对应的第一位置信息不匹配的情况下，则可以判定发出第一目标音频段的第一发声对象和目标音频帧的第二发声对象不同。接着，提取第一目标音频段的目标声纹特征，并根据目标声纹特征确定第二目标音频段的目标发声对象，即确定第一发声对象的身份，以实现角色分离。通过将声纹识别技术和声源定位技术相互结合，可以提升发声对象确定的准确率，从而提高对发声对象确定的准确度。
180.在本技术的实施例中，第二方面提供的发声对象确定方法的具体实施方式与第一
方面提供的发声对象方法的具体实施方式相类似，在此不再赘述。
181.在本技术的实施例中，若想要实现角色分离，则需要确定每个发声对象发声内容的起点和终点，以对每个发声对象的发声内容进行分离，从而实现角色分离，因此本技术提供一种发声内容起点的确定方法。图5示出本技术第三方面提供的发声内容起点确定方法的流程示意图。如图5所示，本技术第三方面提供的发声内容起点确定方法500，包括：
182.步骤510，获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
183.步骤520，确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将目标音频帧确定为第二发声对象发声内容的起点；
184.其中，第一目标音频段包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象；第一目标音频段的终点为目标音频帧的前一音频帧。
185.在本技术的实施例中，步骤510的具体实现方式与步骤210的具体实现方式相类似，在此不再赘述。
186.在步骤520中，当确定目标位置信息与第一目标音频段对应的第一位置信息不匹配的情况下，则确定发声对象发声了切换，即发声对象由第一发声对象切换为第二发声对象。因此，可以将目标音频帧的前一音频帧作为第一发声对象的发声内容的终点，而将目标音频帧作为第二发声对象的发声内容的起点，以用于后续提取第二发声对象的全部发声内容。
187.在本技术的实施例中，通过利用目标音频帧的发声对象的目标位置信息与第一发声对象的全部连续音频帧对应的第一位置信息进行匹配，可以确定发声对象是否发生切换，从而可以确定每个发声对象的发声内容的起点和终点，进而可以实现确定每个发声对象的发声内容，实现角色分离。
188.在一些场景下，会有不同的发声对象进行发声，例如在会议室场景下，会有不同的参会人员发言。为了提高会议的效率，可以提示当前的发声对象，以使其他用户得知当前的发声对象的身份。因此，需要提供一种发声对象标识变更方法，以提示当前发声对象的身份。图6示出本技术第四方面提供的发声对象标识变更方法的流程示意图。如图6所示，本技术第四方面提供的发声对象标识变更方法600，包括：
189.步骤610，获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
190.步骤620，确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；
191.步骤630，根据目标声纹特征确定第二目标音频段的目标发声对象；
192.步骤640，变更第二发声对象的标识和目标发声对象的标识，标识用于表征发声对象的发声状态。
193.在本技术的实施例中，步骤610的具体实现方式与步骤210的具体实现方式相类似，步骤620的具体实现方式与步骤220的具体实现方式相类似，步骤630的具体实现方式与
步骤230的具体实现方式相类似，在此不再赘述。
194.在本技术的实施例中，当确定目标位置信息与第一目标音频段对应的第一位置信息不匹配的情况下，则可以确定发声对象发生了切换。也就是说，发声对象从第二目标音频段的目标发声对象切换为目标音频帧的第二发声对象。
195.因此，可以变更第二发声对象的标识和目标发声对象的标识，以提示发声对象由目标发声对象切换为第二发声对象。其中，发声对象的标识用于表征发声对象的发声状态。
196.作为一个示例，发声对象的标识可以为发声对象的图像的亮度。例如，发声对象的图像的亮度为第一预设亮度时，用于标识该发声对象目前处于发声状态。若发声对象的图像的亮度为第二预设亮度时，用于标识该发声对象目前处于未发声状态。
197.在本技术的实施例中，若当前发声对象由目标发声对象切换为第二发声对象，则将目标发声对象的图像的亮度由第一预设亮度变更为第二预设亮度，用于表征目标发声对象停止发声。第二发声对象的图像的亮度由第二预设亮度变更为第一预设亮度，用于表征第二发声对象开始发声。
198.在本技术的另一些实施例中，发声对象的标识可以为发声对象的标签。例如，发声对象的标签为第一预设标签时，用于标识该发声对象目前处于发声状态。若发声对象的标签为第二预设标签时，用于标识该发声对象目前处于未发声状态。
199.在本技术的实施例中，若当前发声对象由目标发声对象切换为第二发声对象，则将目标发声对象的标签由第一预设标签变更为第二预设标签，用于表征目标发声对象停止发声。第二发声对象的标签由第二预设标签变更为第一预设标签，用于表征第二发声对象开始发声。
200.在本技术的实施例中，通过利用目标音频帧的发声对象的目标位置信息与第一目标音频段对应的第一位置信息进行匹配，可以确定第二发声对象是否与第二目标音频段的发声对象相同，即确定当前发声对象是否发生切换。在确定发声对象发生切换的情况下，变更第二发声对象的标识和目标发声对象的标识，可以提示当前发声对象的身份。
201.在一些会话场景下，当获取该会话场景下的音频会话数据之后，需要对该音频会话数据进行处理，得到会话记录，以便对该次会话的内容进行记录。因此，本技术提供了一种会话记录生成方法。图7示出本技术第五方面提供的会话记录生成方法的流程示意图。如图7所示，本技术第五方面提供的会话记录生成方法700，包括：
202.步骤710，获取音频会话数据中第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
203.步骤720，确定目标位置信息与音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取音频会话数据中第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；
204.步骤730，根据目标声纹特征确定第二目标音频段的目标发声对象；
205.步骤740，将目标发声对象与第二目标音频段对应的文字内容进行关联，得到目标发声对象的会话记录。
206.在本技术的实施例中，步骤710的具体实现方式与步骤210的具体实现方式相类似，步骤720的具体实现方式与步骤220的具体实现方式相类似，步骤730的具体实现方式与
步骤230的具体实现方式相类似，在此不再赘述。
207.需要说明的是，可以利用音频采集器采集会话场景中的音频会话数据。为了便于会话记录的生成，在采集音频会话数据的过程中，也获取该音频会话数据中的每个音频帧的发声对象的位置信息。
208.在本技术的实施例中，当确定目标位置信息与音频会话数据中第一目标音频段对应的第一位置信息不匹配，则确定目标音频帧的发声对象与第一目标音频段的发声对象不同，则需要将第一目标音频段的发声对象的发声内容提取出来。由于发声对象发声切换，因此可以将目标音频帧作为第二发声对象的发声内容的起点，而将目标音频帧的前一帧作为第一目标音频段的发声对象的发声内容的终点。关于第一目标音频段和第二目标音频段之间的关系，可以参考第一方面提供的发声对象确定方法的实施例的叙述。
209.当基于目标声纹特征确定第二目标音频段的目标发声对象之后，将第二目标音频段对应的文字内容与目标发声对象相关联，从而得到目标发声对象的会议记录。
210.在本技术的实施例中，通过上述方法可以提取出音频会话数据中每个发声对象对应的第二目标音频段，因此可以得到音频会话数据的会议记录。
211.为了提高会议记录的完整性，第二目标音频段可以包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象。
212.在本技术的实施例中，当确定目标位置信息与音频会话数据中第一目标音频段对应的第一位置信息不匹配，则确定目标音频帧的发声对象与第一目标音频段的发声对象不同，因此可以将与第一目标音频段的发声对象相同的第二目标音频段对应的文字内容与目标对象关联，从而形成会议记录，以便后续对音频会话数据的记录进行提取，提高了便利性。
213.在本技术的实施例中，本技术实施例提供的发声对象确定方法的执行主体可以是发声对象确定装置。需要说明的是，本技术实施例中以发声对象确定装置执行发声对象确定方法为例，说明本技术实施例提供的发声对象确定装置。
214.图8为第六方面提供的发声对象确定装置的结构示意图。如图8所示，该发声对象确定装置800包括：
215.获取模块810，用于获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
216.提取模块820，用于确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n个音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；n为大于或等于1的整数；
217.第一确定模块830，用于根据目标声纹特征确定第二目标音频段的目标发声对象。
218.根据本发明实施例，在确定发出目标音频帧的第二发声对象的目标位置信息和第一目标音频段对应的第一位置信息不匹配的情况下，则可以判定发出第一目标音频段的第一发声对象和目标音频帧的第二发声对象不同。接着，提取第一发声对象发出的第二目标音频段的目标声纹特征，并根据目标声纹特征确定第二目标音频段的目标发声对象，即确定第一发声对象的身份，以实现角色分离。通过将声纹识别技术和声源定位技术相互结合，可以提升发声对象确定的准确率，从而提高对发声对象确定的准确度。
219.在本技术的一些实施例中，目标位置信息包括第二发声对象与预设音频采集器之间的相对位置信息。
220.在本技术的一些实施例中，发声对象确定装置800还包括：
221.滤波模块，用于对第一目标音频段中的音频帧对应的发声对象的位置信息进行滤波，得到滤波后的位置信息；
222.第二确定模块，用于基于滤波后的位置信息，确定第一位置信息。
223.在本技术的一些实施例中，第一确定模块830用于：
224.在预设声音数据库中存在与目标声纹特征的匹配度满足第一预设匹配条件的第一声纹特征的情况下，将第一声纹特征对应的发声对象确定为第二目标音频段的目标发声对象；
225.在第一声纹特征与目标声纹特征的匹配度满足第二预设匹配条件的情况下，利用目标声纹特征更新目标发声对象在预设声音数据库中对应的声纹特征；
226.其中，第二预设匹配条件对应需要满足的匹配度大于第一预设匹配条件对应需要满足的匹配度。
227.在本技术的一些实施例中，在目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，第一预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第一预设声纹匹配度阈值；第二预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第二预设声纹匹配度阈值，其中，第二预设声纹匹配度阈值大于第一预设声纹匹配度阈值。
228.在目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值的情况下，第一预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第三预设声纹匹配度阈值；第二预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度大于第四预设声纹匹配度阈值。
229.其中，第四预设声纹匹配度阈值大于第三预设声纹匹配度阈值，第一预设声纹匹配度阈值小于第二预设声纹匹配度阈值，第二预设声纹匹配度阈值小于第四预设声纹匹配度阈值。
230.在本技术的一些实施例中，发声对象确定装置400还包括：
231.处理模块，用于在预设声音数据库中的每个声纹特征与目标声纹特征的匹配度均满足第三预设匹配条件的情况下，则在预设声音数据库中存储目标声纹特征以及目标声纹特征对应的发声对象之间的对应关系，并将目标声纹特征对应的发声对象确定为第二目标音频段的目标发声对象；
232.其中，第三预设匹配条件用于表征预设声音数据库中的声纹特征与目标声纹特征不匹配。
233.在本技术的一些实施例中，在目标位置信息与第一位置信息之间的匹配度小于第一预设位置匹配度阈值且大于第二预设位置匹配度阈值的情况下，第三预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第五预设声纹匹配度阈值。
234.在目标位置信息与第一位置信息之间的匹配度小于第二预设位置匹配度阈值的情况下，第三预设匹配条件包括预设声音数据库中的声纹特征与目标声纹特征的匹配度小于第六预设声纹匹配度阈值。
235.其中，第五预设声纹匹配度阈值小于第六预设声纹匹配度阈值。
236.根据本发明实施例的发声对象确定装置800的其他细节与以上第一方面提供的发声对象确定方法类似，在此不再赘述。
237.图9为第七方面提供的发声对象确定装置的结构示意图。如图9所示，该发声对象确定装置900包括：
238.获取模块910，用于获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
239.提取模块920，用于确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第一目标音频段的目标声纹特征，其中，第一目标音频段包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象；第一目标音频段的终点为目标音频帧的前一音频帧；
240.第一确定模块930，用于根据目标声纹特征确定第一目标音频段的目标发声对象。
241.在本发明实施例的实施例中，在确定发出目标音频帧的第二发声对象的目标位置信息和第一目标音频段对应的第一位置信息不匹配的情况下，则可以判定发出第一目标音频段的第一发声对象和目标音频帧的第二发声对象不同。接着，提取第一目标音频段的目标声纹特征，并根据目标声纹特征确定第二目标音频段的目标发声对象，即确定第一发声对象的身份，以实现角色分离。通过将声纹识别技术和声源定位技术相互结合，可以提升发声对象确定的准确率，从而提高对发声对象确定的准确度。
242.根据本发明实施例的发声对象确定装置900的其他细节与以上第二方面提供的发声对象确定方法类似，在此不再赘述。
243.图10为第八方面提供的发声内容起点确定装置的结构示意图。如图10所示，该发声内容起点确定装置1000包括：
244.获取模块1010，用于获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
245.第一确定模块1020，用于确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则将目标音频帧确定为第二发声对象发声内容的起点；
246.其中，第一目标音频段包括第一发声对象发出的全部连续音频帧，第一发声对象为发出目标音频帧的前一音频帧的发声对象；第一目标音频段的终点为目标音频帧的前一音频帧
247.在本技术的实施例中，通过利用目标音频帧的发声对象的目标位置信息与第一发声对象的全部连续音频帧对应的第一位置信息进行匹配，可以确定发声对象是否发生切换，从而可以确定每个发声对象的发声内容的起点和终点，进而可以实现确定每个发声对象的发声内容，实现角色分离。
248.根据本发明实施例的发声对象确定装置1000的其他细节与以上第三方面提供的发声内容起点确定方法类似，在此不再赘述。
249.图11为第九方面提供的发声对象标识变更装置的结构示意图。如图11所示，该发声对象标识变更装置1100包括：
250.获取模块1110，用于获取第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
251.提取模块1120，用于确定目标位置信息与第一目标音频段对应的第一位置信息不匹配，则提取第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；
252.第一确定模块1130，用于根据目标声纹特征确定第二目标音频段的目标发声对象；
253.变更模块1140，用于变更第二发声对象的标识和目标发声对象的标识，标识用于表征发声对象的发声状态。
254.在本技术的实施例中，通过利用目标音频帧的发声对象的目标位置信息与第一目标音频段对应的第一位置信息进行匹配，可以确定第二发声对象是否与第二目标音频段的发声对象相同，即确定当前发声对象是否发生切换。在确定发声对象发生切换的情况下，变更第二发声对象的标识和目标发声对象的标识，可以提示当前发声对象的身份。
255.根据本发明实施例的发声对象标识变更装置1100的其他细节与以上第四方面提供的发声对象标识变更方法类似，在此不再赘述。
256.图12为第十方面提供的会话记录生成装置的结构示意图。如图12所示，该会话记录生成装置1200包括：
257.获取模块1210，用于获取音频会话数据中第二发声对象发出的目标音频帧以及第二发声对象的目标位置信息；
258.提取模块1220，用于确定目标位置信息与音频会话数据中第一目标音频段对应的第一位置信息不匹配，则提取音频会话数据中第二目标音频段的目标声纹特征，其中，第一目标音频段包括目标音频帧的前n音频帧；第一目标音频段中的音频帧的发声对象和第二目标音频段中的音频帧的发声对象相同；第一目标音频段为第二目标音频段的至少一部分；
259.第一确定模块1230，用于根据目标声纹特征确定第二目标音频段的目标发声对象；
260.关联模块1240，用于将目标发声对象与第二目标音频段对应的文字内容进行关联，得到目标发声对象的会话记录。
261.在本技术的实施例中，当确定目标位置信息与音频会话数据中第一目标音频段对应的第一位置信息不匹配，则确定目标音频帧的发声对象与第一目标音频段的发声对象不同，因此可以将与第一目标音频段的发声对象相同的第二目标音频段对应的文字内容与目标对象关联，从而形成会议记录，以便后续对音频会话数据的记录进行提取，提高了便利性。
262.根据本发明实施例的会话记录生成装置1200的其他细节与以上第四方面提供的会话记录生成方法类似，在此不再赘述。
263.结合图2～图12描述的第一方面、第二方面、第三方面、第四方面和第五方面中任一方面提供的方法以及第六方面、第七方面、第八方面、第九方面和第十方面中任一方面提供的装置可以由计算设备来实现。图13为根据发明实施例的计算设备1300的硬件结构示意图。
264.如图13所示，计算设备1300包括输入设备1301、输入接口1302、处理器1303、存储
器1304、输出接口1305、以及输出设备1306。其中，输入接口1302、处理器1303、存储器1304、以及输出接口1305通过总线1310相互连接，输入设备1301和输出设备1306分别通过输入接口1302和输出接口1305与总线1310连接，进而与计算设备1300的其他组件连接。
265.具体地，输入设备1301接收来自外部的输入信息，并通过输入接口1302将输入信息传送到处理器1303；处理器1303基于存储器1304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1304中，然后通过输出接口1305将输出信息传送到输出设备1306；输出设备1306将输出信息输出到计算设备1300的外部供用户使用。
266.其中，处理器1303可以包括：中央处理器(central processing unit，cpu)、网络处理器(network processing unit，npu)、张量处理器(tensor processing unit，tpu)、现场可编程门阵列(field programmable gate array，fpga)芯片或者人工智能(artificial intelligence，ai)芯片等类型的处理器，该附图仅为示例性说明，并不局限于文中列举的类型的处理器。
267.也就是说，图13所示的计算设备也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现第一方面至第十方面中任意方面的任一实施例。
268.本发明实施例还提供一种计算机存储介质，该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现本发明实施例提供的发声对象确定方法。
269.以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
270.还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
271.以上，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：人声分离方法、装置和电子设备与流程

发声对象确定方法、装置、计算设备和介质与流程

相关文献

最热文献