一种语音通信方法、系统、设备及存储介质与流程

2021-06-08 15:16:00 来源：中国专利 TAG：语音通信智能电话申请

1.本申请涉及智能电话技术领域，特别是涉及一种语音通信方法、系统、设备及存储介质。

背景技术：

2.在相关技术中，电话机的适用对象主要是普通民众，且一般应用于企业或者组织内部，仅完成基本的通话沟通功能、记录通话信息等。
3.然而，为了提高通话效率，获取更多有效信息，需要客服事先了解客户的相关信息，才能进行精准地信息获取。因此，需要客服进行信息统计、客户跟踪、业务回访、客服话术等工作。但是，这些工作需要依靠人工的方式进行解决，导致效率低。从而在与客户通话中，无法及时判断客户意图，导致无法获取有效信息。
4.目前针对相关技术中无法及时判断客户意图、无法获取有效信息的问题，尚未提出有效的解决方案。

技术实现要素：

5.本申请实施例提供了一种语音通信方法、系统、设备及存储介质，以至少解决相关技术中无法及时判断客户意图、无法获取有效信息的问题。
6.第一方面，本申请实施例提供了一种语音通信方法，包括：
7.获取第一语音者的第一声纹信息以及第二语音者的第二声纹信息；
8.识别所述第一声纹信息，判断所述第一语音者是否为已注册用户；
9.在所述第一语音者为已注册用户的情况下，获取并显示所述第一语音者的相关信息以供所述第二语音者参考；
10.根据所述第一声纹信息、所述第二声纹信息，分离所述第一语音者与所述第二语音者之间的实时通话信息，以获得第一音频信息、第二音频信息，其中，所述第一音频信息为所述第一语音者的语音信息，所述第二音频信息为所述第二语音者的语音信息；
11.识别所述第一音频信息以获得第一文本信息、识别所述第二音频信息以获得第二文本信息；
12.判断所述第一文本信息、所述第二文本信息是否包括关键信息；
13.在所述第一文本信息和/或所述第二文本信息包括所述关键信息的情况下，生成并显示问题文本信息，以使所述第二语音者向所述第一语音者提问并获取与所述问题文本信息相对应的答案信息；
14.在获取所述答案信息的情况下，更新所述第一语音者的所述相关信息。
15.在其中一些实施例中，识别所述第一音频信息以获得第一文本信息、识别所述第二音频信息以获得第二文本信息包括：
16.生成与所述第一文本信息相对应的第一时间戳、与所述第二文本信息相对应的第二时间戳；
17.根据所述第一时间戳、所述第二时间戳的相对时间顺序，将所述第一文本信息和所述第二文本信息组装形成第一对话日志。
18.在其中一些实施例中，在更新所述第一语音的所述相关信息之后，所述方法还包括：
19.生成所述第一语音者与所述第二语音者的通话录音信息；
20.分离所述通话录音信息，以获得第三音频信息、第四音频信息，其中，所述第三音频信息为第一语音者的语音信息，所述第四音频信息为第二语音者的语音信息；
21.识别所述第三音频信息以获得第三文本信息、识别所述第四音频信息以获得第四文本信息；
22.检索数据库，判断所述第三文本信息、所述第四文本信息是否包括敏感信息；
23.在所述第三文本信息包括所述敏感信息的情况下，对所述第三文本信息进行标注，并更新所述第一语音者的相关信息；和/或
24.在所述第四文本信息包括所述敏感信息的情况下，对所述第四文本信息进行标注，并生成与所述第二语音者相关的警告信息。
25.在其中一些实施例中，识别所述第三音频信息以获得第三文本信息、识别所述第四音频信息以获得第四文本信息包括：
26.生成与所述第三文本信息相对应的第三时间戳、与所述第四文本信息相对应的第四时间戳；
27.根据所述第三时间戳、所述第四时间戳的相对时间顺序，将所述第三文本信息和所述第四文本信息组装形成第二对话日志。
28.在其中一些实施例中，在识别所述第一声纹信息，判断所述第一语音者是否为已注册用户之后，所述方法还包括：
29.在所述第一语音者为未注册用户的情况下，获取所述第一声纹信息的第一声纹特征；
30.获取所述第一语音者的相关信息，并与所述第一声纹特征进行绑定；
31.在所述相关信息与所述第一声纹特征进行绑定后，将所述第一语音者标记为已注册用户。
32.在其中一些实施例中，在识别所述第一音频信息以获得第一文本信息、识别所述第二音频信息以获得第二文本信息之后，所述方法还包括：
33.判断所述第一文本信息、所述第二文本信息是否包括敏感信息；
34.在所述第一文本信息包括敏感信息的情况下，生成并显示建议文本信息，以使所述第二语音者向所述第一语音者提供建议；和/或
35.在所述第二文本信息包括敏感信息的情况下，切断所述第一语音者与所述第二语音者之间的第一通话连接，建立所述第一语音者与第三语音者的第二通话连接。
36.第二方面，本申请实施例提供了一种语音通信系统，包括：
37.智能话机单元，用于获取第一语音者的第一声纹信息以及第二语音者的第二声纹信息；
38.业务服务单元，用于识别所述第一声纹信息，判断所述第一语音者是否为已注册用户，并在所述第一语音者为已注册用户的情况下，获取所述第一语音者的相关信息以供
所述第二语音者参考；
39.角色分离单元，用于分离所述第一语音者与所述第二语音者之间的实时通话信息，以获得第一音频信息、第二音频信息，其中，所述第一音频信息为第一语音者的语音信息，所述第二音频信息为第二语音者的语音信息；
40.语音识别单元，用于识别所述第一音频信息以获得第一文本信息、识别所述第二音频信息以获得第二文本信息；
41.话务质检单元，用于判断所述第一文本信息、所述第二文本信息是否包括关键信息，在所述第一文本信息和/或所述第二文本信息包括所述关键信息的情况下，生成问题文本信息，以使所述第二语音者向所述第一语音者提问并获取与所述问题文本信息相对应的答案信息；
42.其中，所述智能话机单元还用于显示所述第一语音者的相关信息、所述问题文本信息，所述业务服务单元还用于在获取所述答案信息的情况下，更新所述第一语音者的所述相关信息。
43.在其中的一些实施例中，所述业务服务单元还用于生成所述第一语音者与所述第二语音者的通话录音信息；
44.所述角色分离单元还用于分离所述通话录音信息，以获得第三音频信息、第四音频信息，其中，所述第三音频信息为第一语音者的语音信息，所述第四音频信息为第二语音者的语音信息；
45.所述语音识别单元还用于识别所述第三音频信息以获得第三文本信息、识别所述第四音频信息以获得第四文本信息；
46.所述话务质检系统还用于检索数据库，判断所述第三文本信息、所述第四文本信息是否包括敏感信息；
47.其中，所述业务服务单元还用于在所述第三文本信息包括所述敏感信息的情况下，对所述第三文本信息进行标注，并更新所述第一语音者的相关信息；和/或在所述第四文本信息包括所述敏感信息的情况下，对所述第四文本信息进行标注，并生成与所述第二语音者相关的警告信息。
48.第三方面，本申请实施例提供了一种计算机设备，包括：
49.至少一个处理器；
50.以及与所述至少一个处理器通信连接的存储器；
51.其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行如上所述的语音通信方法。
52.第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如上所述的语音通信方法。
53.相比于相关技术，本申请实施例提供的一种语音通信方法、系统、设备及存储介质，可以对用户与客服之间的通话进行实时分离、语音识别，并反馈给客服精准问题以及相关话术，便于客服及时判断客户意图、获取客户有效信息；利用实时分离以及语音识别，可以线上直接刻画客户画像，便于客服调整话术。
附图说明
54.此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：
55.图1是根据本申请实施例的终端的结构框图；
56.图2是根据本申请实施例的语音通信方法的流程图(一)；
57.图3是根据本申请实施例的语音通信方法的流程图(二)；
58.图4是根据本申请实施例的语音通信方法的流程图(三)；
59.图5是根据本申请实施例的语音通信方法的流程图(四)；
60.图6是根据本申请实施例的语音通信方法的流程图(五)；
61.图7是根据本申请实施例的语音通信方法的流程图(六)；
62.图8是根据本申请实施例的语音通信系统的结构框图；
63.图9是根据本申请具体实施例的语音通信系统及方法的结构框图。
具体实施方式
64.为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。
65.显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。
66.在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。
67.除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对
象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。
68.图1是根据本申请实施例的终端的结构框图。如图1所示，如图1所示，该终端包括：射频(radio frequency，简称为rf)电路110、存储器120、输入单元130、显示单元140、传感器150、音频电路160、无线保真(wireless fidelity，简称为wifi)模块170、处理器180、以及电源190等部件。本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
69.下面结合图1对终端的各个构成部件进行具体的介绍：
70.rf电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器180处理；另外，将设计上行的数据发送给基站。通常，rf电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，简称为lna)、双工器等。此外，rf电路110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，简称为gsm)、通用分组无线服务(general packet radio service，简称为gprs)、码分多址(code division multiple access，简称为cdma)、宽带码分多址(wideband code division multiple access，简称为wcdma)、长期演进(long term evolution，简称为lte)、电子邮件、短消息服务(short messaging service，简称为sms)等。
71.存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行移动终端的各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
72.输入单元130可用于接收输入的数字或字符信息，以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地，输入单元130可包括触控面板131以及其他输入设备132。触控面板131，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板131上或在触控面板131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板131。除了触控面板131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
73.显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端的各种菜单。显示单元140可包括显示面板141，可选的，可以采用液晶显示器(liquid crystal display，简称为lcd)、有机发光二极管(organic light
‑
emitting diode，简称为oled)等
形式来配置显示面板141。进一步的，触控面板131可覆盖显示面板141，当触控面板131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中，触控面板131与显示面板141是作为两个独立的部件来实现终端的输入和输入功能，但是在某些实施例中，可以将触控面板131与显示面板141集成而实现移动终端的输入和输出功能。
74.终端还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
75.音频电路160中的扬声器161，传声器162可提供用户与终端之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经rf电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。
76.wifi属于短距离无线传输技术，终端通过wifi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图1示出了wifi模块170，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略，或者替换为其他的短距离无线传输模块，例如zigbee模块、或者wapi模块等。
77.处理器180是终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理单元；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。
78.终端还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
79.尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。
80.图2是根据本申请实施例的语音通信方法的流程图(一)。如图2所示，一种语音通信方法，包括：
81.步骤s202、获取第一语音者的第一声纹信息以及第二语音者的第二声纹信息；
82.步骤s204、识别第一声纹信息，判断第一语音者是否为已注册用户；
83.步骤s206、在第一语音者为已注册用户的情况下，获取并显示第一语音者的相关信息以供第二语音者参考；
84.步骤s208、根据第一声纹信息、第二声纹信息，分离第一语音者与第二语音者之间
的实时通话信息，以获得第一音频信息、第二音频信息，其中，第一音频信息为第一语音者的语音信息，第二音频信息为第二语音者的语音信息；
85.步骤s210、识别第一音频信息以获得第一文本信息、识别第二音频信息以获得第二文本信息；
86.步骤s212、判断第一文本信息、第二文本信息是否包括关键信息；
87.步骤s214、在第一文本信息和/或第二文本信息包括关键信息的情况下，生成并显示问题文本信息，以使第二语音者向第一语音者提问并获取与问题文本信息相对应的答案信息；
88.步骤s216、在获取答案信息的情况下，更新第一语音者的相关信息。
89.其中，对于步骤s202，第一语音者为客户，第二语音者为客服。
90.在步骤s202中，因为每个语音者的声纹信息是唯一确定的，因此，通过声纹信息可以判断语音者的身份信息。获取声纹信息的目的是便于后续对第一语音者、第二语音者进行特征判断，以快速从已有的数据库中检索到与之相匹配的相关信息，便于对后续过程中定位第一语音者、第二语音者，以及对第一语音者进行信息更新、对第二语音者进行评价的个。
91.此外，获取第二声纹信息的目的是，对客服进行识别，从而对客服的通话进行记录，以对客服进行评价。
92.在步骤s204～步骤s206中，判断第一语音者是否为已注册用户的目的是快速获取第一语音者的相关信息，在第一语音者是已注册用户的情况下，帮助第二语音者快速了解第一语音者的相关信息，从而更精准地进行对话。
93.其中，第一语音者的相关信息包括身份信息、通话记录、既往问答等信息。
94.在步骤s208中，根据第一声纹信息和第二声纹信息可以对第一语音者与第二语音者的对话进行实时分离，从而得到与第一语音者相对应的第一音频信息、与第二语音者相对应的第二音频信息。由于第一声纹信息和第二声纹信息的特征不同，且第一语音者与第二语音者的对话环境简单，因此，可以准确无误的对实时通话信息进行分离，确保第一音频信息不包括第二语音者的语音信息、第二音频信息不包括第一语音者的语音信息。
95.在步骤s210中，识别音频信息得到文本信息的目的是将音频信息转换呈文本信息，减少数据存储量，提高存储效率，便于后期进行回溯。
96.在步骤s212中，关键信息包括但不限于话术用语、知识库问答对、脏话、敏感词等。
97.在步骤s214中，通过关键信息的识别提取，能够快速生成问题文本信息，帮助第二语音者进行快速提问，以引导第一语音者提供相关信息，从而提高对话效率，避免第二语音者犯错或提问不得体导致的沟通效率低下等问题。
98.在步骤s216中，根据第一语音者提供的答案信息，可以对第一语音者的相关信息进行更新，从而获取第一语音者更为精准的用户侧画像，进而使第二语音者更加精准地进行提问或进行推荐。
99.与相关技术中的语音通信方法相比，本实施例的语音通信方法可以快速获取客户的既往信息以及提取关键信息，提高对话效率，并进一步刻画第一语音者，得到更精准的信息。
100.图3是根据本申请实施例的语音通信方法的流程图(三)。如图3所示，在该语音通
信方法中，识别第一音频信息以获得第一文本信息、识别第二音频信息以获得第二文本信息包括：
101.步骤s302、生成与第一文本信息相对应的第一时间戳、与第二文本信息相对应的第二时间戳；
102.步骤s304、根据第一时间戳、第二时间戳的相对时间顺序，将第一文本信息和第二文本信息组装形成第一对话日志。
103.在本实施例中，在识别文本信息过程中，提取实时通话信息的时间信息，可以获得多个音频片段。其中，第一音频信息包括多段第一音频片段，第二音频信息包括多段第二音频片段。在整个实时通话信息中，每个音频片段的起始时间不同、终止时间不同，即每个音频片段具有确定的时间关系。
104.相对应地，第一文本信息包括多段与第一音频片段相对应的第一文本片段，第二文本信息包括多段与第二音频片段相对应的第二文本片段，每个文本片段都有相对应的时间戳，包括起始时间、终止时间，因此通过不同文本片段的时间戳可以判断文本片段的相对时间顺序，进而生成与实时通话信息相对应且标记第一语音者、第二语音者的第一对话日志。
105.在本实施例中，通过时间戳判断文本信息的相对时间顺序并形成第一对话日志，可以帮助第二语音者在通话过程中可以快速回溯本次通话重点。
106.图4是根据本申请实施例的语音通信方法的流程图(三)。如图4所示，在更新第一语音的所述相关信息之后，语音通信方法还包括：
107.步骤s402、生成第一语音者与第二语音者的通话录音信息；
108.步骤s404、分离通话录音信息，以获得第三音频信息、第四音频信息，其中，第三音频信息为第一语音者的语音信息，第四音频信息为第二语音者的语音信息；
109.步骤s406、识别第三音频信息以获得第三文本信息、识别第四音频信息以获得第四文本信息；
110.步骤s408、检索数据库，判断第三文本信息、第四文本信息是否包括敏感信息；
111.步骤s410、在第三文本信息包括敏感信息的情况下，对第三文本信息进行标注，并更新第一语音者的相关信息；和/或
112.在第四文本信息包括敏感信息的情况下，对第四文本信息进行标注，并生成与第二语音者相关的警告信息。
113.在本实施例中，在通话结束后，会生成通话录音信息，此时对通话录音信息进行与实时语音信息相同的分离、识别操作，便于对第一语音者、第二语音者进行事后分析、事后审查。
114.在步骤s408～s410中，敏感信息包括但不限于脏话、敏感词(如违法犯罪相关的词语)。
115.若第一语音者的第三文本信息包括敏感词，则对该第一语音者进行标注，如更新第一语音者的性格、脾气等，甚至是将第一语音者标注为危险客户，及时上报有关机关进行审查。
116.若第二语音者的第四文本信息包括敏感词，则对该第二语音者进行标注，并对第二语音者进行警告，以纠正第二语音者的用语习惯，防止第二语音者在于第一语音者通话
过程中再次说出上述敏感词。
117.在本实施例中，通过对通话录音信息进行分离、语音识别，以便监管者进行通话信息质检，减少业务风险。
118.图5是根据本申请实施例的语音通信方法的流程图(四)。如图5所示，识别第三音频信息以获得第三文本信息、识别第四音频信息以获得第四文本信息包括：
119.步骤s502、生成与第三文本信息相对应的第三时间戳、与第四文本信息相对应的第四时间戳；
120.步骤s504、根据第三时间戳、第四时间戳的相对时间顺序，将第三文本信息和第四文本信息组装形成第二对话日志。
121.在本实施例中，在识别文本信息过程中，提取通话录音信息的时间信息，可以获得多个音频片段。其中，第三音频信息包括多段第三音频片段，第四音频信息包括多段第四音频片段。在整个实时通话信息中，每个音频片段的起始时间不同、终止时间不同，即每个音频片段具有确定的时间关系。
122.相对应地，第三文本信息包括多段与第三音频片段相对应的第三文本片段，第四文本信息包括多段与第四音频片段相对应的第四文本片段，每个文本片段都有相对应的时间戳，包括起始时间、终止时间，因此通过不同文本片段的时间戳可以判断文本片段的相对时间顺序，进而生成与实时通话信息相对应且标记第一语音者、第二语音者的第二对话日志。
123.在本实施例中，通过时间戳判断文本信息的相对时间顺序并形成第二对话日志，可以帮助第二语音者的监管者对通话信息进行质检。
124.图6是根据本申请实施例的语音通信方法的流程图(五)。如图6所示，在识别第一声纹信息，判断第一语音者是否为已注册用户之后，语音通信方法还包括：
125.步骤s602、在第一语音者为未注册用户的情况下，获取第一声纹信息的第一声纹特征；
126.步骤s604、获取第一语音者的相关信息，并与第一声纹特征进行绑定；
127.步骤s606、在相关信息与第一声纹特征进行绑定后，将第一语音者标记为已注册用户。
128.本实施例是针对未注册用户的注册步骤，通过提取未注册用户的第一声纹特征，并结合在后续通话中获取的第一语音者的相关信息，将第一声纹特征与相关信息绑定并注册，以便在下次通话时，可以在数据库中快速检索到该注册用户，以供第二语音者进行浏览。
129.在本实施例中，通过自动化的提取、注册流程，减少第二语音者的工作量，并提高信息的准确率，从而获得精准的用户画像。
130.图7是根据本申请实施例的语音通信方法的流程图(六)。如图7所示，在识别第一音频信息以获得第一文本信息、识别第二音频信息以获得第二文本信息之后，语音通信方法还包括：
131.步骤s702、判断第一文本信息、第二文本信息是否包括敏感信息；
132.步骤s704、在第一文本信息包括敏感信息的情况下，生成并显示建议文本信息，以使第二语音者向第一语音者提供建议；和/或
133.在第二文本信息包括敏感信息的情况下，切断第一语音者与第二语音者之间的第一通话连接，建立第一语音者与第三语音者的第二通话连接。
134.其中，第三语音者为客服。
135.在本实施例中，若是第一语音者的语音中出现敏感词，则第二语音者就会婉转地提供建议，避免第一语音者继续说出敏感词。若是第二语音者的语音中出现敏感词，为了降低通话风险，则由第三语音者与第一语音者进行通话。
136.具体地，若第二语音者说出脏话，为了防止后续对话变成吵架或互骂、以及安抚第一语音者的情绪，需要将第二语音者进行替换，由第三语音者继续通话，第三语音者能够获取第一语音者与第二语音者的第一对话文本，以了解通话内容、相关问题原因等，进而完成与第一语音者的对话。
137.相对应地，第三语音者有第三声纹特征。
138.在对第三语音者与第一语音者的实时通话信息进行分离时，可以获得第一音频信息和第五音频信息，第一音频信息对应于第一语音者，第五音频信息对应于第三语音者。
139.在对第一音频信息、第二音频信息、第五音频信息进行语音识别时，可以获得第一文本信息(包括第一时间戳)、第二文本信息(第二时间戳)、第五文本信息(第五时间戳)，将第一文本信息、第二文本信息和第五文本信息组装成第三对话日志。
140.在对第二语音者与第一语音者以及第三语音者与第一语音者的通话录音信息进行分离时，可以获得第三音频信息、第四音频信息和第六音频信息，第三音频信息对应于第一语音者、第四音频信息对应于第二语音者、第六音频信息对应于第三语音者。
141.在对第三音频信息、第四音频信息、第六音频信息进行语音识别时，可以获得第三文本信息(包括第三时间戳)、第四文本信息(第四时间戳)、第六文本信息(第六时间戳)，将第三文本信息、第四文本信息和第六文本信息组装成第四对话日志。
142.在本实施例中，可以对对话进行实时监控，防止出现吵架、对骂等增加业务风险的问题。
143.图8是根据本申请实施例的语音通信系统的结构框图。如图8所示，该语音通信系统包括：
144.智能话机单元810，用于获取第一语音者的第一声纹信息以及第二语音者的第二声纹信息；
145.业务服务单元820，与智能话机单元810通信连接，用于识别第一声纹信息，判断第一语音者是否为已注册用户，并在第一语音者为已注册用户的情况下，获取第一语音者的相关信息以供第二语音者参考；
146.角色分离单元830，与业务服务单元820通信连接，用于分离第一语音者与第二语音者之间的实时通话信息，以获得第一音频信息、第二音频信息，其中，第一音频信息为第一语音者的语音信息，第二音频信息为第二语音者的语音信息；
147.语音识别单元840，与业务服务单元820通信连接，用于识别第一音频信息以获得第一文本信息、识别第二音频信息以获得第二文本信息；
148.话务质检单元850，与业务服务单元820通信连接，用于判断第一文本信息、第二文本信息是否包括关键信息，在第一文本信息和/或第二文本信息包括关键信息的情况下，生成问题文本信息，以使第二语音者向第一语音者提问并获取与问题文本信息相对应的答案
信息；
149.其中，智能话机单元810还用于显示第一语音者的相关信息、问题文本信息，业务服务单元820还用于在获取答案信息的情况下，更新第一语音者的所述相关信息。
150.在其中的一些实施例中，语音识别单元840还与角色分离单元830通信连接。
151.在其中的一些实施例中，话务质检单元850还与语音识别单元840通信连接。
152.在其中的一些实施例中，该语音通信系统还包括存储单元，存储单元至少与业务服务单元820通信连接。
153.在其中的一些实施例中，存储单元还与角色分离单元830、语音识别单元840、话务质检单元850通信连接。
154.在其中的一些实施例中，业务服务单元820还用于生成第一语音者与第二语音者的通话录音信息；
155.角色分离单元830还用于分离通话录音信息，以获得第三音频信息、第四音频信息，其中，第三音频信息为第一语音者的语音信息，第四音频信息为第二语音者的语音信息；
156.语音识别单元840还用于识别第三音频信息以获得第三文本信息、识别第四音频信息以获得第四文本信息；
157.话务质检系统850还用于检索数据库，判断第三文本信息、第四文本信息是否包括敏感信息；
158.其中，业务服务单元820还用于在第三文本信息包括敏感信息的情况下，对第三文本信息进行标注，并更新第一语音者的相关信息；和/或在第四文本信息包括敏感信息的情况下，对第四文本信息进行标注，并生成与第二语音者相关的警告信息。
159.在其中的一些实施例中，语音通信系统还包括业务报表单元和数据统计单元。
160.其中，业务报表单元分别与业务服务单元、存储单元通信连接，用于形成业务报表；数据统计单元分别与业务服务单元、存储单元通信连接，用于进行数据统计。
161.该语音通信系统对应于上述实施例中的语音通信方法，其技术效果如上所述，在此不再赘述。
162.另外，本申请实施例的语音通信方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。
163.在一些实施例中，处理器可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，简称为asic)，或者可以被配置成实施本申请实施例的一个或多个集成电路。
164.在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(hard disk drive，简称为hdd)、软盘驱动器、固态驱动器(solid state drive，简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(non
‑
volatile)存储器。在特定实施例中，存储器包括只读存储器(read
‑
only memory，简称为rom)和随机存取存储器(random access memory，简称为ram)。在合适的情况下，该rom可以是掩模编程的rom、可编程rom
(programmable read
‑
only memory，简称为prom)、可擦除prom(erasable programmable read
‑
only memory，简称为eprom)、电可擦除prom(electrically erasable programmable read
‑
only memory，简称为eeprom)、电可改写rom(electrically alterable read
‑
only memory，简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下，该ram可以是静态随机存取存储器(static random
‑
access memory，简称为sram)或动态随机存取存储器(dynamic random access memory，简称为dram)，其中，dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory，简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory，简称为edodram)、同步动态随机存取内存(synchronous dynamic random
‑
access memory，简称sdram)等。
165.存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。
166.处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种语音通信方法。
167.在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。
168.通信接口用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
169.总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制，总线可包括图形加速接口(accelerated graphics port，简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture，简称为eisa)总线、前端总线(front side bus，简称为fsb)、超传输(hyper transport，简称为ht)互连、工业标准架构(industry standard architecture，简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count，简称为lpc)总线、存储器总线、微信道架构(micro channel architecture，简称为mca)总线、外围组件互连(peripheral component interconnect，简称为pci)总线、pci
‑
express(pci
‑
x)总线、串行高级技术附件(serial advanced technology attachment，简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus，简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。
170.另外，结合上述实施例中的语音通信方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音通信方法。
171.图9是根据本申请具体实施例的语音通信系统及方法的结构框图。如图9所示，语音通信系统包括智能话机(对应于智能话机单元810)、业务服务(对应于业务服务单元820)、角色分离(对应于角色分离单元830)、语音识别(对应于语音识别单元840)、话务质检
(对应于话务质检单元850)。
172.在本实施例中，仅针对通话录音信息进行质检。
173.在本实施例中，智能话机的功能是：提供来电、去电的通话功能；提供对客户名片编辑和更新功能；提供记录通话记录和通话录音功能；提供业务上对来电及去电的任务管理功能；提供终端设备状态管理及消息处理。
174.在本实施例中，业务服务的功能是：组织、项目、客户信息管理及同步；提供对终端话机的管理和监控，包括话机启用禁用归属分配、设备状态监控等；客户信息及通话记录的管理及更新；角色分离及语音识别的流程管理；提供话术模板、知识库、敏感词等其他业务功能。
175.在本实施例中，角色分离的功能是：提供对说话人录音的角色分离，通过分离后，可得到单独说话人音频。角色分离服务是根据说话人身份将语音自动切分成片段的技术，主要解决“谁在什么时候说”的问题，即在语音流中确定每个说话人对应的发音位置。主要针对的是多个话者不在同一时刻发声的场景，即不存在或很少存在重叠音的情形下，按照角色分离录音的技术方案。
176.在本实施例中，语音识别的功能是：对分离后音频文件送往语音识别引擎中，进行语音识别，转写成识别文本。同时识别文本携带识别结果的相对时间戳，该时间戳的大小体现识别文本的相对先后关系。通过识别后的文本时间戳大小的比对排序，则可以组装为对话日志。
177.在本实施例中，话务质检的功能是：对语音识别后的文本，进行敏感词检测，包括脏话、敏感词、话术用语、知识库回答等。话术质检主要由nlp(自然语言处理，natural language processing)技术实现，是指从自然语言中解析出语义信息，并将该语义信息组织为机器可使用的表征形式
‑
语义意图。后台配置敏感词并加载到缓存中，对语音识别后的文件，使用nlp技术做语义理解和检测。
178.此外，语音通信系统还包括业务报表和数据统计。
179.其中，业务报表的功能是：针对日常产生数据，实时记录在数据库中，根据对业务要求，编写数据库脚本，通过进行数据清洗、筛选等操作，可提供系统数据的各种业务报表，并在管理系统中在线实时的查看可视化数据报表。业务数据多维度专业化统计，前端渲染展示业务数据，为统计分析提供数据支撑。
180.数据统计的功能是：针对系统基础数据存储记录，根据业务监控需求编写数据统计脚本，进行数据清洗和筛选，并通过定时任务进行对基础数据的统计，刷新统计结果，提供客户对系统运营情况的总体数据统计。
181.对于本申请而言，其具有以下优点：
182.通话过程中，实时收集更新客户信息，及时提取更多的价值信息；
183.对收集到的客户信息，直接线上加工处理，刻画用户画像；
184.通过在线平台统计分析，可用于客户跟踪业务回访，能及时有效的应用在后续业务场景中；
185.实时在线数据报表，更快更准确定位数据统计。
186.以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存
在矛盾，都应当认为是本说明书记载的范围。
187.以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：可伸缩式扬琴琴竹的制作方法
下一篇：一种新型的仿飞蛾鳞片消声装置的制作方法

一种语音通信方法、系统、设备及存储介质与流程

相关文章

最热文献