电话语音的处理系统的制作方法

2021-07-09 14:38:00 来源：中国专利 TAG：人机交互语音电话系统

1.本发明涉及人机交互领域，尤其涉及一种电话语音的处理系统。

背景技术：

2.自动化客服已经深入了各行各业，能够进行简单的问题检索和显示，但仍然不够智能，为了能够进行相关的人工智能对话的更加智能化，需要提出一种新的电话语音的会话处理的系统。

技术实现要素：

3.为此，需要提供一种进行相关的人工智能对话的电话语音的处理方法，以解决在现有技术中人机交互过程中用户体验不佳的问题；
4.为实现上述目的，发明人提供了一种电话语音的处理系统，包括语音处理服务器、用户端，
5.所述语音处理服务器包括音频检测单元、音频切分单元、语音识别进程、语音合成进程，所述音频检测单元用于获取用户音频，并进行vad检测，检测用户音频的语音起始点和静音停顿点，所述音频切分单元用于根据语音起始点和静音停顿点切分出音频段落，并将音频段落送入语音识别进程，所述语音识别进程用于将音频段落转换为文本；
6.所述语音识别进程用于转换的文本送入智能对话流程，并获得文本形式的对话返回结果；
7.所述语音合成进程用于将文本形式的对话返回结果合成语音数据，并将合成后的语音数据发送至电话网关，从而发送至用户端；用户端对合成后的语音数据进行播送，同时所述音频检测单元始终检测用户语音起始点，若检测到用户说话的语音起始点，则停止发送所述合成后的语音数据。
8.具体地，还包括sip服务器，sip服务器用于登记保存语音识别服务器的地址标识；
9.电话网关获取用户电话接入信号；
10.电话网关向sip服务器发送invite请求，并在sip服务器发送响应后停止发送invite请求；
11.sip服务器根据预设的语音处理服务器地址，转发invite请求至语音处理服务器；
12.语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道。
13.进一步地，在语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道之后，语音处理服务器立即发送欢迎词音频数据，通过建立的语音通道发送至电话网关，从而发送至用户电话端。
14.具体地，所述音频检测单元检测到用户说话的语音起始点时，先持续监测用户说话的语音静音停顿点，如果在时间tstop内未检测到语音静音停顿点，语音合成进程才停止发送所述合成后的语音数据。
15.进一步地，语音合成进程执行停止发送操作后，立即发送响应音频数据，通过建立
的语音通道发送至电话网关。
16.可选地，语音处理服务器关联多个语音识别服务进程，所述音频切分单元切分出语音起始点和静音停顿点部分的音频后，轮流送入不同的语音识别服务进程。
17.进一步地，包括存储介质，所述存储介质存储有计算机程序，所述计算机程序在被运行时执行的智能对话流程具体包括步骤：对所述文本输入执行意图理解，根据意图理解的结果选择将文本输入送入开域对话及问答流程、任务式对话流程；
18.其中，开域对话及问答流程如下，
19.对文本输入计算第一句子向量；
20.根据第一句子向量与答案库中的问题的句子向量比对结果，找出与第一句子向量相似度最高的答案库中的问题；
21.返回该问题的答案；
22.任务式对话流程的步骤如下：
23.对文本输入计算第二句子向量；
24.根据第二句子向量与任务式对话库中任务代表句子的句子向量比对结果，找出相似度最高的任务代表句子，获取任务代表句子对应的任务；
25.获取任务代表句子对应的任务所要获取的信息；
26.检测所述文本输入中是否包含所述要获取的信息；
27.如果没有，则提示用户补充信息，直至所有要获取的信息均被检测到。
28.构建标注语料库，并用该语料库训练一个开域对话模型，在进入开域对话流程时直接使用该开域对话模型返回结果。
29.具体地，所述开域对话流程的答案库通过语料库训练获得，所述语料库通过如下方式标注：
30.切分步骤：
31.获取n个待标注音频文件f1，f2，f3...fn，对每个待标注音频文件fi，计算mi个切分点，并将fi切分为mi 1个音频片段，i取值为1，2，3
……
n，与所述待标注音频文件的数量一致，将所有待标注音频文件切分形成的音频片段乱序处理，生成乱序处理后的音频片段集合as；
32.记录所有待标注音频文件的切分点位置，以及所述切分点位置与所述切分位置对应的所述音频片段集合as中的元素的对应关系，形成切分记录rs；
33.处理步骤：
34.获取乱序处理后的音频片段集合as，
35.对乱序后的音频片段进行标注处理，形成标注记录ls；
36.合成步骤：
37.获取标注记录ls，
38.获取切分记录rs，利用rs将ls中的标注内容重组排列，使得重组后的标注内容的顺序与所述待标注音频文件的内容一致，形成重组标注记录rls；重组标注记录rls作为语料库，所述切分记录rs对所述处理步骤隔离。
39.具体地，所述乱序处理后的音频片段集合as中，每两个相邻的音频片段以大于等于p1的概率不属于同一个待标注音频文件，以大于或等于p2的概率不是同一个待标注音频
文件的相邻两个音频片段。
40.进一步地，生成乱序处理后的音频片段集合as之后还包括如下步骤：
41.将音频片段集合as的内的音频片段随机重命名，记录重命名后的音频文件和原待标注音频文件的对应关系，将音频片段集合as的音频片段以文件名首字母顺序排序。
42.通过上述方案我们实现了一种电话语音的会话处理系统，能够通过处理输入的语音音频，并进行分析，并通过处理结果进行响应，从而提升用户的使用体验。
附图说明
43.图1为本发明具体实施方式所述的人工智能对话方法流程图；
44.图2为本发明具体实施方式所述的电话语音处理方法流程图；
45.图3为本发明具体实施方式所述的电话语音处理系统模块图。
具体实施方式
46.为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。
47.在图2所示的实施例中，一种电话语音的处理方法，包括如下步骤，
48.s200获取用户语音，并进行vad检测，检测用户说话的语音起始点和静音停顿点，根据语音起始点和静音停顿点切分出音频段落。语音活动检测(voice activity detection,vad)又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用。s201将音频段落送入语音识别服务进程，由语音识别进程将音频段落转换为文本；s202将语音识别进程转换的文本送入智能对话系统流程，并获得文本形式的对话返回结果；s203将文本形式的对话返回结果送入语音合成进程，这里的语音合成进程为将文本通过合成数字音轨的方式合成拟人声得到语音数据。s204将合成后的语音数据发送至电话网关，从而发送至用户端；用户端在收到合成后的语音数据之后进行播放。同时在发送合成后的语音数据时，始终检测用户语音起始点，若语音处理服务器检测到用户说话的语音起始点，则停止发送所述合成后的语音数据。用户端为用于接收语音输入的相关终端，可以是电话、手机、头戴式话筒等多种实施方式。通过上述方案，能够将用户语音的音频根据起始点及停顿点的信息切分成音频段落，提升了对用户说话语音的识别的智能度。同时在检测到用户输入语音音频的起始点时，停止发送合成后的语音数据，从而停止播送合成音频，提供了被用户打断的响应功能，从而避免播送语音与用户语音的混响影响输入音频获取，另一方面也提升了用户的使用体验，提升了本方案的实用性。
49.具体的一些实施例中，还包括步骤，设置语音处理服务器，将语音识别服务器的地址标识发送至sip服务器登记保存；电话网关获取用户端的接入信号；电话网关向sip服务器发送invite请求，并在sip服务器发送响应后停止发送invite请求；sip服务器根据预设的语音处理服务器地址，转发invite请求至语音处理服务器；语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道。sip(session initiation protocol，会话初始协议)是由ietf(internet engineering task force，因特网工程任务组)制定的多媒体通信协议。通过上述sip服务器进行语音处理服务器与用户电话所述语音通道用于建
立用户端与语音处理服务器的连接，通过上述连接方式，能够更好地进行语音数据的传输。
50.进一步的一些实施例中，在步骤：语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道之后，语音处理服务器立即发送欢迎词音频数据，通过建立的语音通道发送至电话网关，从而发送至用户电话端。通过发送欢迎词音频数据，能够给出语音处理服务器的语音识别进程的初始化时间，同时提升用户的使用体验。
51.为了防止被用户的机械式响应如清嗓、“嗯”或“哦”式应答误打断正常的合成的语音的播送，在语音处理服务器检测到用户说话的语音起始点时，先持续监测用户说话的语音静音停顿点，如果在时间tstop内未检测到语音静音停顿点，才执行进行步骤：停止发送所述合成后的语音数据。还可以进行步骤，在语音处理服务器检测到用户说话的语音起始点时，检测分析用户说话的有效音频数，当有效音频数超过阈值时，也可以进行步骤，停止发送所述合成后的语音数据。tstop的长短可以根据实际情况设置，如设置为1s、1.2s等，在经过约1s的时间长度之后才停止播送所述合成后的语音数据。有效音频数的设置也可以根据实际需要设计，如设置为4
‑
6个音节等。通过对误打断的检测识别方案，提升了用户体验，提升了本方案的实用性。而在进一步的优选的实施例中，在语音处理服务器执行停止发送操作后，说明用户的语音起始点打断了合成后语音的播送，这时候还可以立即发送响应音频数据，如回复“您请说”的播送，通过建立的语音通道发送至电话网关，用户能够在打断之后获得一个良好的反馈，也能够显著提升用户满意度。
52.进一步地，在语音识别服务器端可以包括多个语音识别服务进程，语音处理服务器切分出语音起始点和静音停顿点的音频片段后，依次送入不同的语音识别服务进程。增加语音识别服务进程数能够获得更多处于空闲状态的语音识别服务进程，切分出的音频片段能够被更快地响应处理。
53.请参阅图1，一种人工智能对话方法，包括如下步骤，获取用户语音输入，将用户语音输入识别、转化为文本输入，
54.s100对所述文本输入执行意图理解，根据意图理解的结果选择将文本输入送入开域对话及问答流程s110、任务式对话流程s120；
55.其中，开域对话及问答流程如下，
56.s111对文本输入计算第一句子向量；
57.s112根据第一句子向量与答案库中的问题的句子向量比对结果，找出与第一句子向量相似度最高的答案库中的问题；
58.s113返回该问题的答案；这样就能够解决识别输入文本获得对应的答案输出的技术效果，解决人工智能对话的问题。
59.任务式对话流程的步骤如下：
60.s121对文本输入计算第二句子向量；
61.s122根据第二句子向量与任务式对话库中任务代表句子的句子向量比对结果，找出相似度最高的任务代表句子，获取任务代表句子对应的任务；
62.s123获取任务代表句子对应的任务所要获取的信息；
63.s124检测所述文本输入中是否包含所述要获取的信息；
64.如果没有，则s125提示用户补充信息，直至所有要获取的信息均被检测到。所述的句子向量为将句子文本进行向量化表达的结果，通过上述任务式对话步骤，能够通过句子
向量比对的处理方式，获得文本输入中的信息最接近的任务代表句子，通过所述代表句子获取代表句子的任务，从而获取任务对应的信息，能够用于满足必要信息获取的需求。
65.在另一些具体的实施例中，还包括步骤，在任务式对话步骤开始时，首先对用户分配一个临时id，并保存每个id与要获取的信息的获取状态的对应表。通过对用户分配id的做法，能够区分不同的对话任务进程，避免不同任务之间的影响。
66.其他一些进一步的实施例中，还包括步骤，在意图理解的部分设置优先级，即当开域对话及问答流程、或任务式对话流程均可被选择时，按任务式对话、开域对话及问答的优先级处理。通过设置优先级流程能够更好地处理文本信息输入进行人工智能对话的需求。
67.为了更好地进行人工智能的训练，还包括步骤，构建标注语料库，并用该语料库训练一个开域对话模型，在进入开域对话及问答流程时直接使用该开域对话模型返回结果。这里的标注可以是对语料的预处理，可以是赋予标签，如文件名、时长、情感倾向等等，还可以是对语料添加若干句子向量，即标注是对语料进行原文本外的信息附加，标注是可以由人工完成，也可以通过计算机程序自动完成。
68.在语音识别、对话系统等模型训练中，需要把音频人工转写为文本，或者先自动转写为文本，再由人工校验核对，完成后再进行模型训练，上述工作称为音频标注。本发明实施例提供的方案包括切分步骤steps、处理步骤stepp和合成步骤stepc。在具体的实施例中，所述开域对话及问答流程的答案库通过语料库训练获得，所述语料库通过如下方式标注：
69.切分步骤：
70.获取n个待标注音频文件f1，f2，f3...fn，这些待标注音频文件的一个来源是电话录音，譬如银行客服电话、健康咨询电话等，每个音频文件通常是一整个电话的录音，因此包含了一定的隐私安全信息。
71.对每个待标注音频文件fi，计算mi个切分点，并将fi切分为mi 1个音频片段，i取值为1，2，3
……
n，与所述待标注音频文件的数量一致，与所述待标注音频文件的数量一致，切分方式可以是按固定时长切分，更优的方式是可以通过vad语音端点检测，以每个vad检测的开始端点为切分点，进一步的优化可以是将切分后的音频片段合并为时长大致相当的片段，譬如合并切分后的音频片段，使得合并后的音频片段的最大时长不超过最小时长的2倍。这样处理的技术效果包括容易计算切分人员的工作量。
72.将所有待标注音频文件切分形成的音频片段乱序处理，生成乱序处理后的音频片段集合as；注意集合as是可被排序的，包括通过文件名字母顺序、文件时长大小、文件修改时间等；
73.记录所有待标注音频文件的切分点位置，以及所述切分点位置与所述切分位置对应的所述音频片段集合as中的元素的对应关系，形成切分记录rs；
74.处理步骤stepp：
75.获取乱序处理后的音频片段集合as，
76.对乱序后的音频片段进行标注处理，形成标注记录ls；
77.合成步骤：
78.获取标注记录ls，
79.获取切分记录rs，
80.利用rs将ls中的标注内容重组排列，使得重组后的标注内容的顺序与所述待标注音频文件的内容一致，形成重组标注记录rls；重组标注记录rls作为语料库，所述切分记录rs对所述处理步骤stepp隔离。通过上述设计的标注过程，能够使得音频文件的整体与音频片段的对应关系相对于标注步骤保密或隔离，在这一点上能够使得在标注时不会泄露整段的音频文件，也让自动标注的程序对音频片段的处理不会被音频文件影响。
81.在进一步的其他一些实施例中，所述乱序处理后的音频片段集合as中，每两个相邻的音频片段以大于等于p1的概率不属于同一个待标注音频文件，以大于或等于p2的概率不是同一个待标注音频文件的相邻两个音频片段。通过上述避免相邻的音频片段过于接近从而导致不必要的信息泄露。
82.为了让音频片段集合中的音频片段的文件名被用于音频片段的还原，生成乱序处理后的音频片段集合as之后还包括如下步骤：
83.将音频片段集合as的内的音频片段随机重命名，记录重命名后的音频文件和原待标注音频文件的对应关系，将音频片段集合as的音频片段以文件名首字母顺序排序。同样的，为了避免其他信息造成不必要的信息泄露，还可以将音频片段的时间戳也进行随机生成，按照新生成的时间戳进行随机排序。还可以对所述音频片段集合as中的每个音频片段的时长进行随机微调，或对所述音频片段集合as中的每个音频片段的文件创建修改时间进行修改混淆。
84.所述乱序处理后的音频片段集合as中，每两个相邻的音频片段以大于或等于p1的概率不属于同一个待标注音频文件，以大于或等于p2的概率不是同一个待标注音频文件的相邻两个切分。譬如，p1为0.8且p2为0.9，更优的，p1为0.99且p2为0.999。具体处理方式可以是先将音频片段集合as的音频文件随机重命名，并记录重命名后的文件和原文件的对应关系，该对应关系被设置为标注人员不可见，譬如可以保存至切分记录rs中，然后将音频片段集合as的音频文件以文件名字母顺序排序，然后执行校验重排操作：获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合s1，获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合2，如果n(s1)/n(as)>1
‑
p1，则将属于s1的音频片段文件再次随机重命名，如果n(s2)/n(as)>1
‑
p2，则将属于s2的音频片段文件再次随机重命名,其中n(？)表示音频片段集合中的音频文件总数。可以执行以上校验重排操作多次，直到满足条件“每两个相邻的音频片段以大于或等于p1的概率不属于同一个待标注音频文件，以大于或等于p2的概率不是同一个待标注音频文件的相邻两个切分”为止。这样处理的好处包括使得标注人员不容易找出具有关联性的音频片段，从而提高了安全保密性。
85.为进一步提高安全保密性，还可以进一步对每个音频片段的时长进行随机微调，包括通过添加静音段、重采样/改变采样率等方法。也可以进一步对文件创建修改的时间进行修改混淆。
86.在其他一些进一步的实施例中，还执行校验重排操作：
87.获取两个相邻的音频片段属于同一个待标注音频文件的音频片段集合s1，获取两个相邻的音频片段是同一个待标注音频文件的相邻两个切分的音频片段集合s2，如果n(s1)/n(as)>1
‑
p1，则将属于s1的音频片段文件再次随机重命名；
88.如果n(s2)/n(as)>1
‑
p2，则将属于s2的音频片段文件再次随机重命名,其中n(s1)
表示音频片段集合s1中符合的音频文件总数，n(s2)表示音频片段集合s2中符合的音频文件总数；
89.执行所述校验重排操作，直到满足条件“每两个相邻的音频片段以大于或等于p1的概率不属于同一个待标注音频文件，以大于或等于p2的概率不是同一个待标注音频文件的相邻两个切分”为止。通过上述方案进行的校验重排，能够使得音频片段集合中的随机性能够得到保证，防止信息泄露的发生。
90.在一些实施例中，p1为0.8且p2为0.9。
91.另一个实施例中，p1为0.99且p2为0.999。
92.所述切分记录rs对所述处理步骤stepp隔离，具体为，仅负责执行处理步骤的stepp的子设备，被设置为不获取所述切分记录rs的相关内容。
93.又或，所述切分记录rs对所述处理步骤stepp隔离，具体为，仅负责执行处理步骤的stepp的子设备，被设置为可以获得切分记录rs的加密后的表现形式，如切分记录rs相关的切分后的音频文件片段的数据包，但不获取可以用于解密的所述切分记录rs的加密形式的密钥信息。
94.又或，所述切分记录rs对所述处理步骤stepp隔离，具体为，仅负责执行处理步骤的stepp的子设备，被设置为不获取所述切分记录rs的内容，但可以获取由rs通过不可逆推原始内容的操作处理后获得指纹信息。
95.语料库的标注过程中，n个待标注音频文件的内容是语音录音。
96.在如图3所示的实施例中，我们还提供一种电话语音的处理系统，包括语音处理服务器30、用户端31，
97.所述语音处理服务器包括音频检测单元301、音频切分单元302、语音识别进程303、语音合成进程304，所述音频检测单元用于获取用户音频，并进行vad检测，检测用户音频的语音起始点和静音停顿点，所述音频切分单元用于根据语音起始点和静音停顿点切分出音频段落，并将音频段落送入语音识别进程，所述语音识别进程用于将音频段落转换为文本；
98.所述语音识别进程303用于转换的文本送入智能对话流程，并获得文本形式的对话返回结果；所述语音合成进程304用于将文本形式的对话返回结果合成语音数据，并将合成后的语音数据发送至电话网关，从而发送至用户端；用户端对合成后的语音数据进行播送，同时所述音频检测单元始终检测用户语音起始点，若检测到用户说话的语音起始点，则停止发送所述合成后的语音数据。
99.具体地，还包括sip服务器32，sip服务器用于登记保存语音识别服务器的地址标识；
100.电话网关获取用户电话接入信号；
101.电话网关向sip服务器发送invite请求，并在sip服务器发送响应后停止发送invite请求；
102.sip服务器根据预设的语音处理服务器地址，转发invite请求至语音处理服务器；
103.语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道。
104.进一步地，在语音处理服务器发送接听响应，由sip服务器转发至电话网关，建立语音通道之后，语音处理服务器立即发送欢迎词音频数据，通过建立的语音通道发送至电
话网关，从而发送至用户电话端。
105.具体地，所述音频检测单元检测到用户说话的语音起始点时，先持续监测用户说话的语音静音停顿点，如果在时间tstop内未检测到语音静音停顿点，语音合成进程才停止发送所述合成后的语音数据。
106.进一步地，语音合成进程执行停止发送操作后，立即发送响应音频数据，通过建立的语音通道发送至电话网关。
107.可选地，语音处理服务器关联多个语音识别服务进程，所述音频切分单元切分出语音起始点和静音停顿点部分的音频后，轮流送入不同的语音识别服务进程。
108.进一步地，包括存储介质，所述存储介质存储有计算机程序，所述计算机程序在被运行时执行的智能对话流程及其具体步骤参照前述技术方案。
109.需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种大容量音频文件可逆信息隐藏方法及系统与流程

电话语音的处理系统的制作方法

相关文章

最热文献