电话信道数据快速提取方法、装置及计算机可读存储介质与流程

2022-04-13 17:33:02 来源：中国专利 TAG：

1.本技术涉及计算机信息技术领域，尤其涉及一种电话信道数据快速提取方法、装置及计算机可读存储介质。

背景技术：

2.人工智能领域通常需要大量的数据来支撑，例如训练样本、输入层数据等，都需要进行包含采集、清洗、分类、标记、构建等预处理，这些预处理工作主要靠人工来实现，因此无论是算法模型的训练还是模型应用所需的数据，都需要投入大量的人力成本，且比较耗时。
3.人工智能技术在电话通话的应用中同样会遇到类似的问题，电话信道数据主要分为两大类：一种为双声道数据，两个声道分别存放打电话两端的说话人的音频，另一种是单声道数据，两个说话人的音频都放在同一个信道中。在双人通话的场景下，针对第一种情况可以直接通过声道分离提取出两个说话人的音频数据，但针对第二种情况目前只能采用人工手动标记的方式，将音频进行分割、识别再合成的方式来实现不同说话人音频数据的采集，并且单声道数据在实际应用中占有很大的比例，如何实现对单声道数据中各说话人的音频数据的快速提取，是亟待解决的问题。

技术实现要素：

4.针对上述问题，本技术的实施例提供了一种电话信道数据快速提取方法，所述方法包含步骤：获取待提取信道数据中的有效音频，其中所述待提取信道数据为至少两人通话过程中采集到的信道数据；将所述有效音频分割为若干片段；通过比对相邻所述片段的声纹特征，确定出属于第一说话人的片段以及说话人变更片段；根据所述第一说话人的片段以及所述变更片段，对所述有效音频中属于所述第一说话人的片段进行聚类，得到所述第一说话人的有效音频。
5.在一实施中，所述将所述有效音频分割为若干片段包含基于数据长度或时间长度对所述有效音频依次分割，得到固定长度的各个所述片段。
6.在一实施中，相邻两个所述片段中包含部分相同数据。
7.在一实施中，所述通过比对相邻两个所述片段的声纹特征，确定出属于第一说话人的片段以及说话人变更片段包含：确定所述第一说话人的声纹特征；基于声纹识别模型依次对各个所述片段进行识别，得到各所述的片段的声纹特征；滑动比对前后相邻的两个所述片段的声纹特征，确定该两个所述片段是否属于同一说话人，以确定各个所述片段中属于所述第一说话人的片段以及不属于所述第一说话人的片段；将所述不属于第一说话人的片段确定为说话人变更片段。
8.在一实施中，所述确定所述第一说话人的声纹特征包含：预先收集所述第一说话人的语音音频，基于所述声纹识别模型对所述语音音频进行计算，得到所述第一说话人的声纹特征；或者，将所述有效音频中的第一个片段对应的声纹特征确定为所述第一说话人
的声纹特征。
9.在一实施中，所述根据所述第一说话人的片段以及所述变更片段，对所述有效音频中属于所述第一说话人的片段进行聚类，得到所述第一说话人的有效音频包含：按顺序从所述第一说话人的片段中确定出连续的n个片段，作为基础聚类片段；从所述基础聚类片段的最后位置往后依次获取其他片段，作为新聚类片段，直到所述基础聚类片段与所述新聚类片段中变更片段的占比超过预设比例为止；对所述基础聚类片段和所述新聚类片段进行聚类，得到所述第一说话人的有效音频。
10.在一实施中，所述方法还包含将所述变更片段确定为属于第二说话人的片段，对所述第二说话人的片段进行聚类，得到所述第二说话人的有效音频。
11.在一实施中，所述所述方法还包含：将所述变更片段确定为属于其他说话人的片段；获取其他说话人的声纹特征；确定各个片段所属的说话人；分别对各个所述说话人的片段进行聚类，得到各个说话人的有效音频。
12.基于同样的发明构思，本技术还提供了一种电话信道数据快速提取装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所提供的电话信道数据快速提取方法。
13.此外，本技术另提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述实施例所提供的电话信道数据快速提取方法。
14.基于本技术实施例所提供的电话信道数据快速提取方法、装置及计算机可读存储介质，可实现对电话信道数据的自动快速提取，无需人工介入，显著提升了数据提取效率。
附图说明
15.一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。
16.图1绘示本技术实施例一所提供的电话信道数据快速提取方法流程图；
17.图2绘示本技术实施例一所提供方法中有效音频分割过程示意图；
18.图3绘示本技术实施例一中步骤s103的实施方法；
19.图4绘示本技术实施例一中滑动比对过程示意图；
20.图5绘示本技术实施例二所提供的电话信道数据快速提取方法流程图。
具体实施方式
21.为使本技术实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本技术的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本技术各实施方式中，为了使读者更好地理解本技术而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本技术所要求保护的技术方案。
22.在本技术实施例中所提供的电话信道数据快速提取方法，通过对电话信道数据进行有效音频提取，以初步过滤非人声噪声数据，通过将有效音频分割为片段，并对片段识
别，确定出属于第一说话人的片段和变更片段，进而根据第一说话人的片段以及变更片段，对有效音频中属于第一说话人的片段进行聚类，得到第一说话人的有效音频，整个过程无需人工介入，可自动快速完成，在提取属于说话人的有效音频过滤了干扰数据，使得最终提取出的音频数据更加准确。以下将结合具体的应用场景，对本技术实施例进行详细说明。
23.实施例一
24.在本实施例中，待提取信道数据中的说话人为第一说话人和第二说话人，基于本实施例所提供的方法，可分别将属于第一说话人和第二说话人的音频进行快速有效的提取。具体请参考图1，图1绘示本技术实施例一所提供的电话信道数据快速提取方法流程图。如图1所示，所述方法包含步骤：
25.s101，获取待提取信道数据中的有效音频。
26.具体而言，待提取信道数据可以为两人通话过程中采集到的单声道信道数据。在本实施例中，可vad(voice activity detection,语音活动检测)技术对数据清洗，保留有效音频，其中，有效音频是指有包含语音的音频数据，可以理解的是电话通话过程中，通常会存在背景音、静默音等非语音音频数据被一并收集，该些音频数据会成为人声识别的干扰，因此通过对待提取信道中的有效音频进行提取，可对待提取信道数据中的非语音噪声数据进行过滤，以降低对后续识别的干扰，保证识别准确度。可以理解的是，本技术实施例并不对提取有效音频的技术进行限定，可根据实际需求在现有技术中进行选取。
27.s102，将所述有效音频分割为若干片段。
28.在一实施中，可依照有效音频的时间顺序依次将有效音频分割为固定长度的片段，其中，固定长度可以时间为衡量单位，也可以为数据量为衡量单位，以时间为例，可将有效音频分割多个时长为1s长的片段。较佳的，为了提高后续聚类结果的准确度，在分割片段的过程中，可设置重叠窗口，即相邻两个片段中包含部分相同数据。具体可参照图2中的示例，相邻两个片段中包含0.5s的重叠，如此一来，在后续对连续片段进行聚类时，由于两个片段中存在相同的数据，获得的聚类结果将更加具有连续性，也更真实准确。
29.s103，通过比对相邻所述片段的声纹特征，确定出属于第一说话人的片段以及说话人变更片段。
30.在本步骤中，需要获取各个片段的声纹特征，在实施中，可预先构建声纹识别模型，声纹识别模型可自行训练或采用开源出的模型，如选用目前主流的ecapa-tdnn等经过验证可靠的模型或多算法融合的模型，然后自行构建电话信道数据集进行训练，将训练符合测试预期的模型作为声纹识别模型。当声纹识别模型准备好后，可分别将各个片段作为输入层，经过声纹识别模型的计算识别得到各个片段的声纹特征，进而通过基于声纹特征确定出属于第一说话人的片段。具体可参照图3所示，图3绘示本技术实施例一中步骤s103的实施方法。如图3所示，所述方法包含：
31.s301，确定所述第一说话人的声纹特征。
32.根据不同的应用场景，确定第一说话人的声纹特征的方法有所区别。
33.在一个应用场景中，说话人的身份是已知的，那么可通过预先收集第一说话人的语音音频，基于上述声纹识别模型对语音音频进行计算，得到第一说话人的声纹特征。
34.在另一个应用场景中，说话人的身份是未知的，那么可将有效音频中的第一个片段对应的声纹特征确定为第一说话人的声纹特征。
35.s302，基于声纹识别模型依次对各个所述片段进行识别，得到各所述的片段的声纹特征。
36.s303，滑动比对前后相邻的两个所述片段的声纹特征，确定该两个所述片段是否属于同一说话人，以确定各个所述片段中属于所述第一说话人的片段以及不属于所述第一说话人的片段。
37.其中滑动比对的方式具体为按照各片段在有效音频中的位置顺序依次将后一片段与前一片段进行比对，确定这两个片段是否属于同一说话人，并对识别结果进行标记。其中滑动比对的过程可参照图4。
38.在一实施中，确定属于第一说话人的片段的方法可包含，将各个片段的声纹特征值与第一说话人的声纹特征值进行比较，若差值在第一阈值之内，则可确定该片段属于第一说话人，否则，不属于第一说话人。
39.在另一实施中，由于本实施例针对的应用场景为两人通话场景，各片段不是属于第一说话人，则属于第二说话人，如此一来，可直接通过滑动比对确定两个相邻的片段的声纹特征的差值是否在第二阈值之内，若是，则确定属于同一人，否则确定为不同说话人的片段，如此可获取说话人的变更点，并对其进行标记，从而确定出分别属于第一说话人和第二说话人的片段。
40.可以理解的是，第一阈值和第二阈值的大小可根据声纹识别模型的特性进行设定，本技术不做限制。
41.s304，将所述不属于第一说话人的片段确定为说话人变更片段。
42.可以理解的是，在本实施例的应用场景下，说话人变更片段即为第二说话人的片段。
43.s104，根据所述第一说话人的片段以及所述变更片段，对所述有效音频中属于所述第一说话人的片段进行聚类，得到所述第一说话人的有效音频。
44.在实施中，可按顺序从第一说话人的片段中确定出连续的n个片段(n为大于1的正整数)，作为基础聚类片段；然后从所述基础聚类片段的最后位置往后依次获取其他片段，作为新聚类片段，直到所述基础聚类片段与所述新聚类片段中变更片段的占比超过预设比例为止，再对所述基础聚类片段和所述新聚类片段进行聚类，得到所述第一说话人的有效音频。
45.在一个示例中，有效音频被分割为片段1,2,3...100，根据上述方法，确定出片段1至20,30至35,37至50为第一说话人片段，假设n为10，那么可先获取1-10作为基础聚类片段，然后获取11，并计算1-11中变更片段的占比为0，若预设比例为10％，那么可将片段11记录为新聚类片段，并依次以相同的方法对片段12-20进行判断；而当记录到片段21时，由于21为变更片段，那么1-21中的变更片段占比为4.7％，尚未超过预设比例，则可将片段21作为新聚类片段，并继续往后判断，直到变更片段的占比超过10％，即第23个片段为止，由此可将片段11-22作为新聚类片段，进而可对片段1-22进行聚类，得到第一说话人的有效音频。接着可通过相同的方法继续对剩余的片段进行聚类，从而获取有效音频中属于第一说话人的全部音频。
46.在实施中，聚类的方法可包含iac、ahc、k-means以及谱聚类等，或者基于每个人的说话特点，提取特征进行聚类等。
47.s105，将所述变更片段确定为属于第二说话人的片段，对所述第二说话人的片段进行聚类，得到所述第二说话人的有效音频。
48.可以理解的是，在两个人通话的场景下，可直接将变更片段确定为第二说话人的片段，基于上述相同的聚类方法，可实现对第二说话人的有效音频的提取。
49.由此可见，基于本实施例所提供的方法，可对仅包含两个说话人的信道数据进行快速有效的自动提取，以分别获取不同说话人的有效音频，节省了人工成本，提升了作业效率。更进一步的，本方法可适用于说话人已知或未知的场景，应用范围广泛灵活，且通过在分割片段时设置重叠窗口，可保证数据的连续性，从而为识别和聚类提供良好的数据基础，使得提取出的有效音频更真实准确。
50.实施例二
51.在本实施例中，待提取信道数据中的说话人可为两个以上，即第一说话人以及至少两个其他说话人，基于本实施例所提供的方法，可分别将属于各个说话人的音频进行快速有效的提取。具体请参考图5，图5绘示本技术实施例二所提供的电话信道数据快速提取方法流程图。如图5所示，所述方法包含步骤：
52.s501，获取待提取信道数据中的有效音频。
53.其中，本实施例中的待提取信道数据可以是包含两个以上说话人的单声道信道数据，或者是两人以上通话过程中收集到的双声道信道数据。
54.s502，将所述有效音频分割为若干片段。
55.s503，通过比对相邻所述片段的声纹特征，确定出属于第一说话人的片段以及说话人变更片段。
56.s504，根据所述第一说话人的片段以及所述变更片段，对所述有效音频中属于所述第一说话人的片段进行聚类，得到所述第一说话人的有效音频。
57.上述步骤s501-s504的具体实现方式与实施例一中的步骤s101-s104相同，具体说明可参照上文所述，不再赘述。
58.本实施与上述实施例一的区别在于，对变更片段的处理，可以理解的是，变更片段中包含至少两个说话人的片段，因此需要进一步确认出变更片段中属于各个说话人的片段，方法包含：
59.s505，将所述变更片段确定为属于其他说话人的片段。
60.s506，获取其他说话人的声纹特征。
61.s507，确定各个片段所属的说话人。
62.s508，分别对各个所述说话人的片段进行聚类，得到各个说话人的有效音频。
63.具体而言，根据不同的应用场景，获取其他人的声纹特征也有所不同。当其他说话人的数量和身份已知的情况下，则可基于各个说话人的声纹特征确定出各个说话人的片段，判断方法与第一说话人的判断方法相同，不再赘述。
64.而当其他说话人的数量、身份未知的情况下，则需要先从变更片段中确定出第二说话人的声纹特征，即可将变更片段中的第一片段对应的声纹特征作为第二说话人的声纹特征，进而将对所有变更片段进行对比识别，以确定出变更片段中属于第二说话人的片段。具体的方法可对应参照步骤s503中的方法，以从变更片段划分为第二说话人的片段和非第二说话人片段。
65.更进一步的，当从变更片段中识别出的非第二说话人片段中存在连续n个片段，那么可继续基于相同的方法从变更片段中识别出第三人、甚至第四人的片段。可以理解的是，若变更片段中不存在连续n个片段，则无需对变更片段进行进一步识别处理，直接将其识别为无效数据。
66.当获取到各个说话人的片段后，可分别按照说话人身份对各片段进行聚类，以得到各说话人的有效音频，其中聚类的具体方法可参照实施例一中的聚类方法，不再赘述。
67.在本实时例中，提供了说话人为两人以上的电话信道数据快速提取方法，可以在实现说话人的数量、身份已知或者未知的情况下，实现从信道数据中自动快速提取出各说话人对应的有效音频的方法。
68.基于同样的发明构思，本技术的实施例还提供了一种电话信道数据快速提取装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所提供的电话信道数据快速提取方法。
69.本实施例所提供的电话信道数据快速提取装置，可对接收到的待提取信道数据进行处理，以自动快速提取出各个说话人的有效音频，适用于两人或两人以上、说话人数量、身份已知和未知的所有场景，不仅节省了人工成本，提升提取效率，还可适配各种应用需求。
70.此外，本技术另一实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时，实现上述方法实施例。
71.本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
72.以上所述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于PVDF/PI压电梁的反射声束调节单元

电话信道数据快速提取方法、装置及计算机可读存储介质与流程

相关文献

最热文献