语音处理方法、装置、存储介质及计算机设备与流程

2021-07-16 19:54:00 来源：中国专利 TAG：语音装置计算机方法申请

1.本申请涉及语音技术领域，具体涉及一种语音处理方法、装置、存储介质及计算机设备。

背景技术：

2.在电话销售、客服、催收等众多电话通话的场景中，存在海量的录音文件，通过目前成熟的自动语音识别(automatic speech recognition，asr)技术可将音频转化为对话文本。如何从这些场景的文本中快速、准确的筛选出用户最关心的问题，以及如何对上述对话文本进行分类，已经成为业界的重要研究课题之一。

技术实现要素：

3.本申请实施例提供一种语音处理方法、装置、存储介质及计算机设备，可以采用主题词对表示语音数据对应的文本的语义信息，以按照文本语义进行自动聚类，提升分类速度和分类准确率。
4.第一方面，提供一种语音处理方法，所述方法包括：获取语音数据集，所述语音数据集包含多个坐席与用户进行单次通话的语音数据；将目标语音数据分割成多个语音片段，其中所述目标语音数据为所述语音数据集中当前被处理的语音数据；对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；从所述多个文本数据中筛选出有效通话文本数据；根据所述有效通话文本数据进行主题词对的提取，以得到所述目标语音数据对应的主题词对，其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词；遍历处理所述语音数据集中的每一所述语音数据，并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
5.第二方面，提供一种语音处理装置，所述装置包括：处理单元，用于获取语音数据集，所述语音数据集包含多个坐席与用户进行单次通话的语音数据；分割单元，用于将目标语音数据分割成多个语音片段，其中所述目标语音数据为所述语音数据集中当前被处理的语音数据；语音识别单元，用于对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；筛选单元，用于从所述多个文本数据中筛选出有效通话文本数据；处理单元，用于根据所述有效通话文本数据进行主题词对的提取，以得到所述目标语音数据对应的主题词对，其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词；聚类单元，用于遍历处理所述语音数据集中的每一所述语音数据，并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
6.第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如第一方面所述的语音处理方法中的步骤。
7.第四方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如第一方面所述的语音处理方法中的步骤。
8.本申请实施例提供一种语音处理方法、装置、存储介质及计算机设备，通过获取语音数据集，语音数据集包含多个坐席与用户进行单次通话的语音数据；将目标语音数据分割成多个语音片段，其中目标语音数据为所述语音数据集中当前被处理的语音数据；对目标语音数据对应的多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；从多个文本数据中筛选出有效通话文本数据；根据有效通话文本数据进行主题词对的提取，以得到目标语音数据对应的主题词对，其中主题词对包括主题词以及与主题词具有依存关系的目标词；遍历处理语音数据集中的每一语音数据，并将语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。本申请实施例对一个批次的语音数据集进行处理，一个批次包含多个单次通话的语音数据，对单次通话的语音数据进行筛选以及提取主题词对等操作，对一个批次的语音数据集进行聚类，其中对单次通话的语音数据进行筛选以及提取词对等操作时，将单次通话的语音数据进行语音识别后，得到多个文本数据，然后从多个文本数据中筛选出有效通话文本数据，并从有效通话文本数据中提取出主题词对，最后将语音数据集中具有相同主题词对的语音数据对应文本数据进行聚类，采用主题词对表示语音数据对应的文本的语义信息，以按照文本语义进行自动聚类，无需准备大量训练数据，能自动聚类，也不需要预先指定文本有多少个类别等先决条件，大大提升了分类速度和分类准确率。
附图说明
9.为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1为本申请实施例提供的语音处理方法的流程示意图。
11.图2为本申请实施例提供的语音处理装置的结构示意图。
12.图3为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
13.下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
14.本申请实施例提供一种语音处理方法、装置、计算机设备和存储介质。具体地，本申请实施例的语音处理方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(personal computer，pc)、个人数字助理(personal digital assistant，pda)等终端设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者
分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络服务、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。
15.在电话销售、客服、催收等众多电话通话的场景中，存在海量的录音文件，通过目前成熟的自动语音识别(automatic speech recognition，asr)技术可将音频转化为对话文本。如何从这些场景的文本中快速、准确的筛选出用户最关心的问题，以及如何对上述对话文本进行分类，已经成为业界的重要研究课题之一。
16.对这些对话文本实现自动分类用户话术，该部分话术可以应用于机器人。
17.常用的文本分类方法大致分为两类：有监督学习和无监督学习。
18.对于有监督的分类方法，需要预先定义好文本的类别，给出训练样本训练模型，比如textcnn，bert模型等，之后再使用训练好的模型对未知文本进行分类。具体的，首先训练样本的标注需要一定的工作成本，其次，需要工作人员对样本很熟悉，有很好的总结能力，且必须提前定义好样本的分类个数，模型一旦训练完成，分类个数不能再改变。
19.对于无监督的分类方法，无需样本标注，可采取诸如k
‑
means算法等对样本直接进行分类。例如，常用的k
‑
means算法需要事先规定中心个数(即分类个数)，中心个数直接影响分类效果，一旦中心个数规定完成，模型训练结束，同样不能增加分类。而对于其他的无需提前定义分类的个数的聚类方法如层次法，其算法的停止条件难以限定。
20.因此，本申请实施例提出了一种语音处理方法、装置、存储介质及计算机设备，可以将单次通话的语音数据进行语音识别后，得到多个文本数据，然后从多个文本数据中筛选出有效通话文本数据，并从有效通话文本数据中提取出主题词对，最后将具有相同主题词对的语音数据对应文本数据进行聚类，采用主题词对表示语音数据对应的文本的语义信息，以按照文本语义进行自动聚类，无需准备大量训练数据，能自动聚类，也不需要预先指定文本有多少个类别等先决条件，大大提升了分类速度和分类准确率。
21.以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。
22.本申请各实施例提供了一种语音处理方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以语音处理方法由服务器执行为例来进行说明。
23.请参阅图1，图1为本申请实施例提供的语音处理方法的流程示意图。需要说明的是，本申请实施例的语音处理方法可应用于本申请实施例的语音处理装置，该语音处理别装置可被配置于计算机设备上。具体流程可以如下：
24.步骤101，获取语音数据集，所述语音数据集包含多个坐席与用户进行单次通话的语音数据。
25.其中，在电话销售、客服、催收等众多电话通话的场景中，存在坐席向用户发起的通话或者用户向坐席发起的通话，该单次通话可以为坐席向用户发起的单次完整通话，该单次通话也可以为用户向坐席发起的单次完整通话。获取到的坐席与用户进行单次通话的语音数据，一般为录音文件，该语音数据的格式可以为wav、wma、ape、flac、aac、act、rec、aiff、msc、mp3等格式。
26.例如，每次处理的是一个批次的通话，获取到的一个批次的通话构成语音数据集，
该语音数据集可以包含多个单次通话录音。
27.步骤102，将目标语音数据分割成多个语音片段，其中所述目标语音数据为所述语音数据集中当前被处理的语音数据。
28.在一些实施例中，所述将所述语音数据分割成多个语音片段，包括：
29.识别所述语音数据中的静音帧，并根据所述静音帧将所述语音数据分割成多个语音片段。
30.例如，在获取到一个批次的语音数据集后，需要依次对单次通话的语音数据进行筛选以及提取主题词对等操作。该目标语音数据可以为目标语音数据为语音数据集中当前被处理的任一语音数据。
31.例如，获取到的单次通话的原始语音数据通常为双声道、时长多数在1～15分钟的wav格式的语音，可以通过调用语音端点检测(voice activity detection，vad)算法将长音频截断成几秒钟的短音频。vad端点检测主要任务是从带有噪声的语音数据中准确的定位出语音的开始和结束点，因为语音中含有较长的静音片段，可以通过静音片段将单通语音数据中的实际语音区分出来。可以通过vad对上述持续的语音数据中的每帧语音信号进行语音识别，以识别出所述语音数据中的静音帧，并根据所述静音帧将所述语音数据分割成多个语音片段。比如当检测到连续的多个静音帧达到预设帧数时，将达到预设帧数的多个静音帧中的首帧和末帧作为切分点，将所述语音数据分割成多个语音片段。即以静音片段作为切分点来分割语音片段。
32.步骤103，对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据。
33.例如，将目标语音数据对应的多个语音片段(短音频)传入到自动语音识别(automatic speech recognition，asr)算法模型中进行语音识别，将多个语音片段转化为文本数据。比如，我们对单条语音数据(长音频)对应的多个语音片段进行语音识别后，得到如下对话文本：
34.坐席：您好，我们是xxx，此次我们致电您是为了xxx；
35.用户：xxxxx；
36.坐席：xxxx；
37.用户：
……
。
38.步骤104，从所述多个文本数据中筛选出有效通话文本数据。
39.在一些实施例中，所述从所述多个文本数据中筛选出有效通话文本数据，包括：
40.识别出所述多个文本数据中的无效文本数据；
41.将所述多个文本数据中的无效文本数据删除，以从所述多个文本数据中筛选出有效通话文本数据。
42.在一些实施例中，所述识别出所述多个文本数据中的无效文本数据，包括：
43.当所述目标语音数据的通话时间小于预设时间时，或者所述目标语音数据对应的文本总长度小于预设文本长度时，或者所述目标语音数据的通话者身份仅为单方通话者时，将所述目标语音数据对应的所述多个文本数据中的所有文本数据识别为无效文本数据；或者
44.当所述目标语音数据的通话时间大于或等于预设时间，且所述目标语音数据的通
话者身份不为单方通话者时，将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据；或者
45.当所述目标语音数据对应的文本总长度大于或等于预设文本长度，且所述目标语音数据的通话者身份不为单方通话者时，将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据。
46.例如，获取到的语音数据存在部分用户接听后发现是销售，马上挂机等情况，单次通话非常短，这类通话不包含用户表达自身意愿的语义信息，这种单次通话非常短的语音数据，可以表现为坐席双方通话时间过短，或者单次通话的语音数据对应的文本字数过短的情形。因此，当目标语音数据的通话时间小于预设时间时，或者目标语音数据对应的文本总长度小于预设文本长度时，可以将目标语音数据对应的多个文本数据中的所有文本数据识别为无效文本数据，即该单次通话非常短的语音数据被识别为无效通话，需要删除。
47.例如，单次通话的语音数据中只包含用户或者坐席单方面的数据，同样不涉及双方对某话题的讨论，比如只有坐席单方面本身的文本内容、无用户的回复反馈内容的通话，或者只有用户单方面本身的文本内容，都可以视为无效通话，需要删除。因此，将目标语音数据对应的多个文本数据中的所有文本数据识别为无效文本数据。
48.例如，当目标语音数据对应的文本总长度大于或等于预设文本长度，且目标语音数据的通话者身份不为单方通话者时，可以将该目标语音数据识别为合理的单次通话，对于合理的单通电话，需要根据文本数据来删除出现介绍词的首末句，比如介绍词可以包括“您好”、“我是”、“再见”等。因首末句通常不包含有效信息，属于接听电话的礼貌性寒暄语句，因此，可以将多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据。其中，首末句包括首句和末句。
49.通过将多个文本数据中的无效文本数据删除，留存下来的文本数据即为本申请实施例定义的有效通话对应的有效对话文本部分，即从多个文本数据中筛选出有效通话文本数据。
50.步骤105，根据所述有效通话文本数据进行主题词对的提取，以得到所述目标语音数据对应的主题词对，其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词。
51.在一些实施例中，步骤105可以通过步骤1051至步骤1056来实现，具体为：
52.步骤1051，对所述有效通话文本数据进行分词处理，以筛选出所述有效通话文本数据中属于非停用词的多个候选名词。
53.其中，在单独处理语音数据集中的单条通话的语音数据时，根据对不同场景的历史文本数据的分析，得出大多数通话录音都是只存在一个明确的沟通主题，主题词一般都是名词且会在单次通话中多次出现。因此，可以对有效通话文本数据的坐席和用户双方分别使用分词工具进行分词处理，以筛选出有效通话文本数据中属于非停用词的候选名词。其中，停用词是指文本中不影响句意的常见词语，比如“我们”、“一个”、“那么”、“因此”等。其中，分词工具采用的是中文处理开源库或者中文处理开源工具包，比如结巴(jieba)分词工具、语言技术平台ltp、汉语分词系统nlpir、中文词法分析工具包thulac等。
54.其中，在对有效通话文本数据进行分词处理之前，可以先对有效通话文本数据进行角色分类，以区分出文本数据中每个文本分句的通话者身份是坐席还是用户，以完成有
效通话文本数据的角色分类。然后再对有效通话文本数据的坐席和用户双方身份分别使用分词工具进行分词处理。
55.步骤1052，从所述多个候选名词中确定出所述目标语音数据的主题词。
56.在一些实施例中，可以获取所述多个候选名词中每一候选名词的出现频率，以将所述多个候选名词中出现频率最高的候选名词确定为所述目标语音数据的主题词。
57.在一些实施例中，可以获取将所述多个候选名词中每一候选名词对应的用户提及次数，将所述多个候选名词中用户提到次数最多的候选名词，确定为所述目标语音数据的主题词。
58.例如，可以统计该通电话录音中出现频率最高的候选名词，以作为主题词。统计出现频率最高的候选名词时，为针对所有候选名词进行统计，不区分坐席和用户。通话场景中，一般坐席和用户双方都会围绕一个明确的主题进行沟通，沟通过程中会多次提及某个名词，因此将该通电话录音最高频的名词确定为主题词。
59.例如，可以统计该通电话录音中被用户提到次数最多的候选名词，以作为主题词。通话场景中，特别是客服场景，一般用户对需要沟通的主题会多次强调，而坐席再解答过程中可能是针对主题直接回答问题，回答问题时不一定会提到主题词，因此，可以只统计该通电话录音中被用户提到次数最多的候选名词。
60.步骤1053，对所述有效通话文本数据进行分句处理，以得到含有所述主题词的目标分句。
61.其中，一个有效通话文本数据中，可能含有多个分句，有些分句可能含有主题词，有些分句未含有主题词，因此需要对有效通话文本数据进行分句处理，以区分出含有主题词的目标分句。包含主题词的目标分句就是主题词句。
62.步骤1054，对所述含有所述主题词的目标分句进行句式分类处理，以确定所述目标分句的句式类型。
63.在一些实施例中，所述对所述含有所述主题词的目标分句进行句式分类，以确定所述目标分句的句式类型，包括：
64.对所述含有所述主题词的目标分句进行疑问句和陈述句的句式分类，以确定所述目标分句的句式类型。
65.其中，不同的场景中，出现的句式类型也会不同。比如在销售场景，用户多出现问句询问产品情况。在客服场景，用户多出现陈述句表达对某件事的看法。因此，可以根据句式中是否出现疑问词(比如：吗、是不是、怎么等)来进行句式分类，以划分出含有所述主题词的目标分句是疑问句还是陈述句。
66.步骤1055，基于所述目标分句的句式类型对所述目标分句进行依存分析处理，以从所述目标分句中提取出与所述主题词具有依存关系的目标词。
67.其中，根据依存分析，得到与主题词(名词)依存的动词或者形容词作为目标词，即与主题词具有依存关系的目标词可以为动词或者形容词。
68.例如，在实际电话通话的场景中，双方会明确表达其意愿，单条文本长度相对较短，语法结构清晰。因此，对疑问句类和陈述句类的句式分别进行依存分析处理，找到主题词依赖的动词或者形容词组成主题词对。比如用户说：“我想要提升一下我的信用额度”，提取的主题词是“额度”，与主题词具有依存关系的动词是“提升”。
69.步骤1056，根据所述主题词和所述目标词，构建所述主题词对。
70.比如用户说：“我想要提升一下我的信用额度”，提取的主题词是“额度”，与主题词具有依存关系的动词是“提升”，则构建的主题词对是“额度
‑
提升”。例如，依存分析处理工具可以采用汉语言处理包(han language processing，hanlp)，hanlp是处理中文文本的常见开源库。
71.在一些实施例中，所述根据所述主题词和所述目标词，构建所述主题词对，包括：
72.根据预设同义词表，对所述主题词和/或所述目标词进行同义词替换；
73.根据所述同义词替换后的主题词和目标词，构建所述主题词对。
74.例如，为了达到更好的聚类效果，可以根据预设同义词表对主题词对进行同义词替换，比如“提升＝提高”，因此主题词对“额度
‑
提升”与主题词对“额度
‑
提高”为相同主题词对。
75.步骤106，遍历处理所述语音数据集中的每一所述语音数据，并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
76.其中，根据上述步骤102至步骤105，遍历处理语音数据集中的每一语音数据，每处理一条单次通话的语音数据，就会得到一个主题词对，采用主题词对表示语音数据对应的文本的语义信息。在得到语音数据集中所有语音数据对应的主题词对后，将语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类合并，按照文本语义进行自动聚类。
77.其中，在利用本申请实施例处理其他批次的语音数据集时，在获取到当前处理的语音数据集中所有语音数据对应的主题词对后，同样将具有相同主题词对的语音数据对应的文本数据进行聚类合并，按照文本语义进行自动聚类。若在原有的聚类类别中可以找到相同主题词对的类别，则聚类到原有的相同主题词对的类别中；若在原有的聚类类别中没有相同主题词对的类别，则将当前得到的新的主题词对作为新的类别进行增加。
78.在通话场景中，一般音频文本较多，单通对话话题单一，全量对话的分类个数未知，文本语言也较为简单。可以先通过通话时长、文本字数、首末句等条件先过滤无关文本，然后通过词频统计单次通话的主题词，根据依存分析关系来获取带有主题词文本的关联动词或者关联形容词，以“主题词
‑
动词”或者“主题词
‑
形容词”等主题词对来表示文本语义信息，最终按照文本语义信息进行自动聚类。通过将具有相同主题词对的语音数据对应的文本数据进行聚类，可以归类常见事件或者用户关注度高的事件，以使得在机器人应用中优先推荐处理常见事件或者用户关注度高事件对应的问题。
79.上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。
80.本申请实施例通过获取语音数据集，语音数据集包含多个坐席与用户进行单次通话的语音数据；将目标语音数据分割成多个语音片段，其中目标语音数据为所述语音数据集中当前被处理的语音数据；对目标语音数据对应的多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；从多个文本数据中筛选出有效通话文本数据；根据有效通话文本数据进行主题词对的提取，以得到目标语音数据对应的主题词对，其中主题词对包括主题词以及与主题词具有依存关系的目标词；遍历处理语音数据集中的每一语音数据，并将语音数据集中具有相同主题词对的语音数据对应的文本数据进行
聚类。本申请实施例对一个批次的语音数据集进行处理，一个批次包含多个单次通话的语音数据，对单次通话的语音数据进行筛选以及提取主题词对等操作，对一个批次的语音数据集进行聚类，其中对单次通话的语音数据进行筛选以及提取词对等操作时，将单次通话的语音数据进行语音识别后，得到多个文本数据，然后从多个文本数据中筛选出有效通话文本数据，并从有效通话文本数据中提取出主题词对，最后将语音数据集中具有相同主题词对的语音数据对应文本数据进行聚类，采用主题词对表示语音数据对应的文本的语义信息，以按照文本语义进行自动聚类，无需准备大量训练数据，能自动聚类，也不需要预先指定文本有多少个类别等先决条件，大大提升了分类速度和分类准确率。
81.为便于更好的实施本申请实施例的语音处理方法，本申请实施例还提供一种语音处理装置。请参阅图2，图2为本申请实施例提供的语音处理装置的结构示意图。其中，该语音处理装置200可以包括：
82.处理单元201，用于获取语音数据集，所述语音数据集包含多个坐席与用户进行单次通话的语音数据；
83.分割单元202，用于将目标语音数据分割成多个语音片段，其中所述目标语音数据为所述语音数据集中当前被处理的语音数据；
84.语音识别单元203，用于对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；
85.筛选单元204，用于从所述多个文本数据中筛选出有效通话文本数据；
86.处理单元205，用于根据所述有效通话文本数据进行主题词对的提取，以得到所述目标语音数据对应的主题词对，其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词；
87.聚类单元206，用于遍历处理所述语音数据集中的每一所述语音数据，并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
88.在一些实施例中，所述处理单元205包括：
89.第一处理子单元2051，用于对所述有效通话文本数据进行分词处理，以筛选出所述有效通话文本数据中属于非停用词的多个候选名词；
90.确定子单元2052，用于从所述多个候选名词中确定出所述目标语音数据的主题词；
91.第二处理子单元2053，用于对所述有效通话文本数据进行分句处理，以得到含有所述主题词的目标分句；
92.第三处理子单元2054，用于对所述含有所述主题词的目标分句进行句式分类处理，以确定所述目标分句的句式类型；
93.第四处理子单元2055，基于所述目标分句的句式类型对所述目标分句进行依存分析处理，以从所述目标分句中提取出与所述主题词具有依存关系的目标词；
94.构建子单元2055，用于根据所述主题词和所述目标词，构建所述主题词对。
95.在一些实施例中，所述确定子单元2052，用于：
96.获取所述多个候选名词中每一候选名词的出现频率，以将所述多个候选名词中出现频率最高的候选名词确定为所述目标语音数据的主题词；或者
97.获取将所述多个候选名词中每一候选名词对应的用户提及次数，将所述多个候选
名词中用户提到次数最多的候选名词，确定为所述目标语音数据的主题词。
98.在一些实施例中，所述第三处理子单元2054，用于：
99.对所述含有所述主题词的目标分句进行疑问句和陈述句的句式分类，以确定所述目标分句的句式类型。
100.在一些实施例中，所述构建子单元2055，用于：
101.根据预设同义词表，对所述主题词和/或所述目标词进行同义词替换；
102.根据所述同义词替换后的主题词和目标词，构建所述主题词对。
103.在一些实施例中，所述筛选单元204，用于：
104.识别出所述多个文本数据中的无效文本数据；
105.将所述多个文本数据中的无效文本数据删除，以从所述多个文本数据中筛选出有效通话文本数据。
106.在一些实施例中，所述筛选单元204，用于识别出所述多个文本数据中的无效文本数据，具体包括：
107.当所述目标语音数据的通话时间小于预设时间时，或者所述目标语音数据对应的文本总长度小于预设文本长度时，或者所述目标语音数据的通话者身份仅为单方通话者时，将所述目标语音数据对应的所述多个文本数据中的所有文本数据识别为无效文本数据；或者
108.当所述目标语音数据的通话时间大于或等于预设时间，且所述目标语音数据的通话者身份不为单方通话者时，将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据；或者
109.当所述目标语音数据对应的文本总长度大于或等于预设文本长度，且所述目标语音数据的通话者身份不为单方通话者时，将所述多个文本数据中含有介绍词的首末句所属的文本数据识别为无效文本数据。
110.在一些实施例中，所述分割单元202，用于识别所述语音数据中的静音帧，并根据所述静音帧将所述语音数据分割成多个语音片段。
111.上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。
112.应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图2所示的装置可以执行上述语音处理方法实施例，并且装置中的各个单元的前述和其它操作和/或功能分别实现上述方法实施例的相应流程，为了简洁，在此不再赘述。
113.相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、智能电视、智能音箱、穿戴式智能设备、个人计算机等设备。该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。如图3所示，图3为本申请实施例提供的计算机设备的结构示意图。该计算机设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程
序。其中，处理器301与存储器302电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
114.处理器301是计算机设备300的控制中心，利用各种接口和线路连接整个计算机设备300的各个部分，通过运行或加载存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行计算机设备300的各种功能和处理数据，从而对计算机设备300进行整体监控。
115.在本申请实施例中，计算机设备300中的处理器301会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能：
116.获取语音数据集，所述语音数据集包含多个坐席与用户进行单次通话的语音数据；将目标语音数据分割成多个语音片段，其中所述目标语音数据为所述语音数据集中当前被处理的语音数据；对所述目标语音数据对应的所述多个语音片段进行语音识别以得到多个文本数据，其中每一语音片段对应一个文本数据；从所述多个文本数据中筛选出有效通话文本数据；根据所述有效通话文本数据进行主题词对的提取，以得到所述目标语音数据对应的主题词对，其中所述主题词对包括主题词以及与所述主题词具有依存关系的目标词；遍历处理所述语音数据集中的每一所述语音数据，并将所述语音数据集中具有相同主题词对的语音数据对应的文本数据进行聚类。
117.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
118.在一些实施例中，如图3所示，计算机设备300还包括：显示单元303、射频电路304、音频电路305、输入单元306以及电源307。其中，处理器301分别与显示单元303、射频电路304、音频电路305、输入单元306以及电源307电性连接。本领域技术人员可以理解，图3中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
119.显示单元303可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元303可以包括显示面板和触控面板。
120.射频电路304可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。
121.音频电路305可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路305可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路305接收后转换为音频数据，再将音频数据输出处理器301处理后，经射频电路304以发送给比如另一计算机设备，或者将音频数据输出至存储器302以便进一步处理。音频电路305还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。
122.输入单元306可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
123.电源307用于给计算机设备300的各个部件供电。在一些实施例中，电源307可以通
过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源307还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
124.尽管图3中未示出，计算机设备300还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。
125.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
126.本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。
127.为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种语音处理方法中的步骤。
128.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
129.其中，该存储介质可以包括：只读存储器(read only memory，rom)、随机存取记忆体(random access memory，ram)、磁盘或光盘等。
130.由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。
131.以上对本申请实施例所提供的一种语音处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音处理方法、装置、存储介质及计算机设备与流程

相关文章

最热文献