一种交互式语音应答系统及方法与流程

2022-03-09 05:05:36 来源：中国专利 TAG：

1.本发明涉及ivr应用技术领域，具体是一种交互式语音应答系统及方法。

背景技术：

2.ivr(interactive voice response)即互动式语音应答，您只须用电话即可进入服务中心，可以根据操作提示收听手机娱乐产品，也可以根据用户输入的内容播放有关的信息。ivr可应用于许多行业。企业顾客可在任何时间打电话获取他们希望得到的信息，无须等到上班时间或联系某个固定负责人，ivr利用先进的cti技术使电话成为与企业或机构联系的桥梁，以满足这些企业或机构日益增长的提高运营效率的需要。
3.现在各大厂商都会有自己的售后服务系统，对于小厂商，一般采取人工的售后服务，但是对于一些客户量极大的厂商，人工售后服务所需要的成本极高，而且效率很低；对于一些重复的问题，工作人员往复解释，会渐渐的失去耐心，从而影响服务质量，因此，借助计算机和网络技术，提供了一种ivr交互式语音应答系统很有意义。

技术实现要素：

4.本发明的目的在于提供一种交互式语音应答系统及方法，以解决上述背景技术中提出的问题。
5.为实现上述目的，本发明提供如下技术方案：
6.一种交互式语音应答系统，所述系统包括：
7.用户终端，用于接收用户发送的输入信号，根据所述用户的输入信号生成含有用户信息的咨询请求，并将所述含有用户信息的咨询请求向控制端发送；实时获取用户发送的语音信号，并对所述语音信号进行人声识别；当所述语音信号为人声信号时，将所述语音信号转换为音频信号，并向控制端发送；接收控制端发送的解答信息并显示；接收控制端发送的含有图像获取频率的图像获取请求，根据所述图像获取频率获取用户的人脸图像，并将所述人脸图像向控制端发送；
8.控制端，用于接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道；
9.其中，所述用户信息包括用户终端位置和用户账户余额。
10.作为本发明技术方案进一步的限定：所述用户终端包括：
11.交互模块，用于接收用户发送的输入信号，根据所述用户的输入信号生成含有用户信息的咨询请求，并将所述含有用户信息的咨询请求向控制端发送；
12.转换模块，用于实时获取用户发送的语音信号，并对所述语音信号进行人声识别；
当所述语音信号为人声信号时，将所述语音信号转换为音频信号，并向控制端发送；
13.显示模块，用于接收控制端发送的解答信息并显示；
14.图像获取模块，用于接收控制端发送的含有图像获取频率的图像获取请求，根据所述图像获取频率获取用户的人脸图像，并将所述人脸图像向控制端发送。
15.作为本发明技术方案进一步的限定：所述控制端包括：
16.连接模块，用于接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；
17.应答模块，用于接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；
18.频率发送模块，用于根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；
19.图像处理模块，用于接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道。
20.作为本发明技术方案进一步的限定：所述转换模块包括：
21.文本生成单元，用于实时获取用户发送的语音信号，将所述语音信号输入训练好的语音识别模型，得到识别文本；
22.第一判断单元，用于根据识别文本判断所述语音信号是否为有意信号；
23.信息点确定单元，用于当所述语音信号为有意信号时，根据预设的振幅阈值确定语音信号信息点；
24.第二判断单元，用于根据所述语音信号信息点判断所述有意信号是否为人声信号。
25.作为本发明技术方案进一步的限定：所述第二判断单元包括：
26.振幅获取子单元，用于获取若干个语音信号信息点的振幅；
27.相位差获取子单元，用于获取若干个相邻语音信号信息点的相位差；
28.计算子单元，用于分别计算已获取的所述振幅和所述相位差的均值，并根据所述均值计算方差；
29.比对子单元，用于将计算到的方差与预设的方差阈值进行比对，根据比对结果判断所述有意信号是否为人声信号。
30.作为本发明技术方案进一步的限定：所述连接模块包括：
31.标准确定单元，用于读取所述用户信息中的用户终端位置，根据所述用户终端位置确定收费标准；
32.时长计算单元，用于读取所述用户信息中的用户账户余额，根据所述用户账户余额和所述收费标准确定用户使用时长；
33.执行单元，用于当所述用户使用时长大于预设的时长阈值时，建立控制端与用户终端的连接通道。
34.作为本发明技术方案进一步的限定：所述频率发送模块包括：
35.接收单元，用于接收用户终端发送的音频信号；
36.波动分析单元，用于将所述音频信号输入训练好的波动分析模型中，确定所述音
频信号的波动幅度；
37.读取单元，用于根据所述波动幅度在预设的频率表中读取图像获取频率。
38.作为本发明技术方案进一步的限定：所述图像处理模块包括：
39.表情提取单元，用于提取当前帧人脸图像对当前反馈信息的微表情，
40.判定单元，用于根据所述微表情确定当前帧人脸图像的满意度，并对多帧人脸图像的满意度进行统计，当所述满意度低于阈值时，判定当前用户对所述反馈信息的评价为不满意；
41.执行单元，用于建立人工服务通道，并向所述咨询终端提供人工服务界面。
42.作为本发明技术方案进一步的限定：所述表情提取单元包括：
43.图像处理子单元，用于对所述人脸图像提取局部纹理特征和深度特征；
44.表情识别子单元，用于将所述局部纹理特征以及所述深度特征进行级联融合得到融合特征，并将所述融合特征输入训练好的分类器中进行分类得到所述融合特征对应的微表情。
45.本发明技术方案还提供了一种交互式语音应答方法，所述方法应用于控制端，所述方法包括：
46.接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；
47.接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；
48.根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；
49.接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道；
50.其中，所述用户信息包括用户终端位置和用户账户余额。
51.与现有技术相比，本发明的有益效果是：本发明通过用户终端获取用户信息，通过控制端提供语音应答服务，通过用户终端定时获取用户的人脸图像，并通过控制端对所述人脸图像进行分析，根据分析结果提供人工服务，本发明将人工应答和人工智能应答结合起来，应答效率高，应答效果极好，便于推广。
附图说明
52.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。
53.图1示出了交互式语音应答系统的架构图。
54.图2示出了交互式语音应答系统中用户终端的组成结构框图。
55.图3示出了交互式语音应答系统中控制端的组成结构框图。
56.图4示出了用户终端中转换模块的组成结构框图。
57.图5示出了转换模块中第二判断单元的组成结构框图。
58.图6示出了控制端中连接模块的组成结构框图。
59.图7示出了控制端中频率发送模块的组成结构框图。
60.图8示出了控制端中图像处理模块的组成结构框图。
61.图9示出了图像处理模块中表情提取单元的组成结构框图。
62.图10示出了交互式语音应答方法的流程框图。
具体实施方式
63.为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
64.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
65.应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述不同的模块/单元，但这些模块/单元不应限于这些术语。这些术语仅用来将同一类型的模块/单元彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一判断单元也可以被称为第二判断单元，不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。类似地，第二判断单元也可以被称为第一判断单元。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
66.实施例1
67.图1示出了交互式语音应答系统的架构图，本发明实施例中，一种交互式语音应答系统，所述系统包括：
68.用户终端10，用于接收用户发送的输入信号，根据所述用户的输入信号生成含有用户信息的咨询请求，并将所述含有用户信息的咨询请求向控制端发送；实时获取用户发送的语音信号，并对所述语音信号进行人声识别；当所述语音信号为人声信号时，将所述语音信号转换为音频信号，并向控制端发送；接收控制端发送的解答信息并显示；接收控制端发送的含有图像获取频率的图像获取请求，根据所述图像获取频率获取用户的人脸图像，并将所述人脸图像向控制端发送；
69.控制端20，用于接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道；
70.其中，所述用户信息包括用户终端位置和用户账户余额。
71.ivr(interactive voice response)即互动式语音应答，您只须用电话即可进入服务中心，可以根据操作提示收听手机娱乐产品，也可以根据用户输入的内容播放有关的
信息。ivr可应用于许多行业。企业顾客可在任何时间打电话获取他们希望得到的信息，无须等到上班时间或联系某个固定负责人，ivr利用先进的cti技术使电话成为与企业或机构联系的桥梁，以满足这些企业或机构日益增长的提高运营效率的需要。
72.现在各大厂商都会有自己的售后服务系统，对于小厂商，一般采取人工的售后服务，但是对于一些客户量极大的厂商，人工售后服务所需要的成本极高，而且效率很低；对于一些重复的问题，工作人员往复解释，会渐渐的失去耐心，从而影响服务质量，因此，借助计算机和网络技术，提供了一种ivr交互式语音应答系统很有意义。
73.图2示出了交互式语音应答系统中用户终端的组成结构框图，所述用户终端10包括：
74.交互模块11，用于接收用户发送的输入信号，根据所述用户的输入信号生成含有用户信息的咨询请求，并将所述含有用户信息的咨询请求向控制端发送；
75.转换模块12，用于实时获取用户发送的语音信号，并对所述语音信号进行人声识别；当所述语音信号为人声信号时，将所述语音信号转换为音频信号，并向控制端发送；
76.显示模块13，用于接收控制端发送的解答信息并显示；
77.图像获取模块14，用于接收控制端发送的含有图像获取频率的图像获取请求，根据所述图像获取频率获取用户的人脸图像，并将所述人脸图像向控制端发送。
78.上述内容是对用户终端中的各项功能进行细化，交互模块11用于接收用户的输入信号，所述输入信号可以是键入信号，也可以是触屏信号，具体不做限定；转换模块12的目的是将语音信号转换为音频信号，但是在转换工作之前，需要对语音信号进行人声识别，这样可以防止一些访问人员通过播放一些音频，恶意占用系统资源；显示模块13的功能较为简单；图像获取模块14是本发明的创新点，本发明技术方案旨在建立基于人工智能的交互式应答系统，但是在目前的人工智能技术背景下，对于某些特殊的问题，人工处理更加妥善，而对于什么时候需要人工处理，就是图像获取模块14所要完成的功能。
79.图3示出了交互式语音应答系统中控制端的组成结构框图，所述控制端20包括：
80.连接模块21，用于接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；
81.应答模块22，用于接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；
82.频率发送模块23，用于根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；
83.图像处理模块24，用于接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道。
84.连接模块21对咨询请求进行一个简单的验证之后，建立控制端与用户终端的连接通道；应答模块22是本发明的核心模块，用于完成基础功能，也就是交互式语音应答；对于具体的技术方案，通过一些公开的现有技术即可实现，因其不是本发明的创新点，在此不再赘述；频率发送模块23是图像处理模块24的一个辅助模块，用于调整图像获取频率，其因变量是用户的音频信号，举例来说，用户声音越大越暴躁，图像获取频率越高，对用户的状态
判断也越准确；图像处理模块24，用于接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道。所述预定条件指的是下限，满意度低到一定程度时，提供人工服务渠道。
85.图4示出了用户终端中转换模块的组成结构框图，所述转换模块12包括：
86.文本生成单元121，用于实时获取用户发送的语音信号，将所述语音信号输入训练好的语音识别模型，得到识别文本；
87.第一判断单元122，用于根据识别文本判断所述语音信号是否为有意信号；
88.信息点确定单元123，用于当所述语音信号为有意信号时，根据预设的振幅阈值确定语音信号信息点；
89.第二判断单元124，用于根据所述语音信号信息点判断所述有意信号是否为人声信号。
90.对于语音信号，有一类是无意义的声音，还有一类是有意义的重复音频；具体的，无意义的声音可以是嘈杂的噪声，有意义的声音可以一些下载的音频；对于前者，筛选过程很简单，只需要进行传统的语音识别，然后判断是否有意义即可；而对于后者，需要通过一些特征点进行判断。可以想到，下载的音频其稳定性较高，而真正的用户进行咨询时，往往会有思考时间，反映在语言上，就是会有多处停顿，反映在音频上，就是音频的稳定性不同。
91.图5示出了转换模块中第二判断单元的组成结构框图，所述第二判断单元124包括：
92.振幅获取子单元1241，用于获取若干个语音信号信息点的振幅；
93.相位差获取子单元1242，用于获取若干个相邻语音信号信息点的相位差；
94.计算子单元1243，用于分别计算已获取的所述振幅和所述相位差的均值，并根据所述均值计算方差；
95.比对子单元1244，用于将计算到的方差与预设的方差阈值进行比对，根据比对结果判断所述有意信号是否为人声信号。
96.上述内容提供了一种具体的稳定性判断方案，其原理是通过振幅和相位差来判断波形稳定性；而稳定性在数学上可以用方差进行表示。
97.图6示出了控制端中连接模块的组成结构框图，所述连接模块21包括：
98.标准确定单元211，用于读取所述用户信息中的用户终端位置，根据所述用户终端位置确定收费标准；
99.时长计算单元212，用于读取所述用户信息中的用户账户余额，根据所述用户账户余额和所述收费标准确定用户使用时长；
100.执行单元213，用于当所述用户使用时长大于预设的时长阈值时，建立控制端与用户终端的连接通道。
101.上述内容解决的问题是收费问题，用户使用本系统当然是有前提的，前提就是用户的账户中余额足够；值得一提的是，上述收费标准可以根据不同情况进行分类，有些项目收费为零，就是免费，甚至有些项目可以设置为负数，起到拓客的作用。
102.图7示出了控制端中频率发送模块的组成结构框图，所述频率发送模块23包括：
103.接收单元231，用于接收用户终端发送的音频信号；
104.波动分析单元232，用于将所述音频信号输入训练好的波动分析模型中，确定所述
音频信号的波动幅度；
105.读取单元233，用于根据所述波动幅度在预设的频率表中读取图像获取频率。
106.上述内容提供了一种具体的频率确定方案，借助训练好的波动分析模型，可以得到音频信号的波动幅度，然后根据所述波动幅度在预设的频率表中读取图像获取频率，所述频率表也是预先设定的；上述波动分析模型和频率表均可以通过实验进行确定。
107.图8示出了控制端中图像处理模块的组成结构框图，所述图像处理模块24包括：
108.表情提取单元241，用于提取当前帧人脸图像对当前反馈信息的微表情，
109.判定单元242，用于根据所述微表情确定当前帧人脸图像的满意度，并对多帧人脸图像的满意度进行统计，当所述满意度低于阈值时，判定当前用户对所述反馈信息的评价为不满意；
110.执行单元243，用于建立人工服务通道，并向所述咨询终端提供人工服务界面。
111.图9示出了图像处理模块中表情提取单元的组成结构框图，所述表情提取单元241包括：
112.图像处理子单元2411，用于对所述人脸图像提取局部纹理特征和深度特征；
113.表情识别子单元2412，用于将所述局部纹理特征以及所述深度特征进行级联融合得到融合特征，并将所述融合特征输入训练好的分类器中进行分类得到所述融合特征对应的微表情。
114.微表情可以比较真实的反映一个人心理状态，因此，本发明技术方案对微表情进行分析，判断用户心理状态，当用户不满意时，开启人工服务端口；当然，如果用户比较满意，那么系统进行的操作主要是记录存储等方面的工作，在此不再细述。
115.实施例2
116.图10示出了交互式语音应答方法的流程框图，本发明实施例中，一种交互式语音应答系统，所述方法包括：
117.步骤s100：接收用户终端发送的含有用户信息的咨询请求，根据所述用户信息建立控制端与用户终端的连接通道；
118.步骤s100通过连接模块21完成；
119.步骤s200：接收用户终端发送的音频信号，将所述音频信号输入存储在所述控制端中的至少一个应答模型，生成与所述音频信号对应的解答信息并发送至用户终端；
120.步骤s200通过应答模块22完成；
121.步骤s300：根据用户音频信号确定图像获取频率，并向用户终端发送含有图像获取频率的图像获取请求；
122.步骤s300通过频率发送模块23完成；
123.步骤s400：接收用户终端发送的人脸图像，对所述人脸图像进行微表情识别，确定所述用户对所述解答信息的满意度，当所述满意度满足预定条件时，提供人工服务渠道；
124.步骤s400通过图像处理模块24完成。
125.其中，所述用户信息包括用户终端位置和用户账户余额。
126.上述交互式语音应答方法所能实现的功能均由计算机设备完成，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现所述交互式语音应答方
法的功能。
127.处理器从存储器中逐条取出指令、分析指令，然后根据指令要求完成相应操作，产生一系列控制命令，使计算机各部分自动、连续并协调动作，成为一个有机的整体，实现程序的输入、数据的输入以及运算并输出结果，这一过程中产生的算术运算或逻辑运算均由运算器完成；所述存储器包括只读存储器(read-0nly memory，r0m)，所述只读存储器用于存储计算机程序，所述存储器外部设有保护装置。
128.示例性的，计算机程序可以被分割成一个或多个模块，一个或者多个模块被存储在存储器中，并由处理器执行，以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在终端设备中的执行过程。
129.本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。
130.所称处理器可以是中央处理单元(cent ral processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，上述处理器是上述终端设备的控制中心，利用各种接口和线路连接整个用户终端的各个部分。
131.上述存储器可用于存储计算机程序和/或模块，上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等；存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smartmedia card，smc)，安全数字(secure digital，sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
132.终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取介质中。基于这样的理解，本发明实现上述实施例系统中的全部或部分模块/单元，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于计算机可读介质中，该计算机程序在被处理器执行时，可实现上述各个系统实施例的功能。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
133.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而
且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
134.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于人工智能数据采集的样本监控装置的制作方法

一种交互式语音应答系统及方法与流程

相关文献

最热文献