一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种对话挖掘方法、装置、电子设备及介质与流程

2022-10-13 03:48:08 来源:中国专利 TAG:


1.本技术涉及自然语言处理技术领域,具体而言,涉及一种对话挖掘方法、装置、电子设备及介质。


背景技术:

2.在人人交互场景中,服务方坐席的问答能力将直接决定整个对话的流畅度和客户的满意度。专业坐席可熟记业务规则,在自身经验的指导下自如应答并解决客户的各种业务提问,而对于刚入门的坐席,这是艰难的。针对这种参差不齐的业务水平现状,坐席可以通过搜索客户问题的关键字,从而从业务规则中查找答案。但是,这种方法会影响坐席答复即时性,同时,业务规则并不能直接作为答案,更不是高质量答案,只能给坐席有限的参考意见。


技术实现要素:

3.有鉴于此,本技术的目的在于提供一种对话挖掘方法、装置、电子设备及介质,能够从客户方和服务方的历史会话数据中,挖局出高质量的问答,以将高质量的问答作为参考推送给接收到相同提问的坐席。
4.本技术实施例提供的一种对话挖掘方法,所述方法包括以下步骤:获取目标业务领域中客户方和服务方会话中的对话文本,所述对话文本包括客户文本和答复文本;针对所述对话文本,从多个非同质化的维度提取客户文本的多个有效问特征,以及提取答复文本的多个有效答特征;根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件;当判断客户文本符合有效问条件且答复文本符合有效答条件时,确定所述对话文本为目标对话,将所述目标对话添加至目标业务领域的问答资料库中。
5.在一些实施例中,所述的对话挖掘方法中,所述多个有效问特征包括:文本类型特征、文本长度特征、客户文本语法是否完整特征、客户文本向量特征;文本类型特征表征客户文本是否有疑问意图;所述多个有效答特征包括:答复文本向量特征、答复文本语法是否完整特征、答复和问题中的业务词汇是否属于同一个业务范围特征、答案和问题中关键字重复度特征、指导术语密集度特征。
6.在一些实施例中,所述的对话挖掘方法中,所述文本类型特征,是通过以下方法提取的:根据预设判断规则判断所述客户文本是否为疑问句,若是,则确定文本类型特征为疑问类型特征;若否,则将所述客户文本输入至训练好的意图识别模型,以识别客户文本是否有
疑问意图,确定文本类型特征。
7.在一些实施例中,所述的对话挖掘方法中,所述客户文本向量特征和答复文本特征向量,是通过以下方式提取的:根据第一预处理规则,对所述客户文本和答复文本进行预处理,保留客户文本和答复文本的目标词汇;基于目标业务领域的业务词典,确定客户文本中每一目标词汇的词频,得到客户文本特征向量;以及确定答复文本中每一目标词汇的词频,得到答复文本特征向量。
8.在一些实施例中,所述的对话挖掘方法中,根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件,包括:将所述多个有效问特征输入至训练好的有效问识别模型,并根据有效问识别模型的输出结果判断所述客户文本是否符合有效问条件;不同的有效问特征在所述有效问识别模型中的权重指标不同;将所述多个有效答特征输入至训练好的有效答识别模型,并根据有效答识别模型的输出结果判断所述答复文本是否符合有效答条件;不同的有效答特征在所述有效答识别模型中的权重指标不同;其中,所述有效问识别模型和有效答识别模型均采用xgboost模型得到。
9.在一些实施例中,所述的对话挖掘方法在将所述目标对话添加至目标业务领域的问答资料库中后,所述方法还包括:响应接收到目标业务领域的客户问题,从所述问答资料库存储的目标对话中,确定出与客户问题的意图相似度满足预设相似度条件的至少一个目标客户文本;确定与所述目标客户文本对应的目标问题答案,并将所述目标客户文本和目标答复文本推荐至服务方的会话界面。
10.在一些实施例中,所述的对话挖掘方法中,将所述目标对话添加至目标业务领域的问答资料库中后,所述方法还包括:响应接收到服务方对所述目标对话的评价操作,更新所述问答资料库中目标对话的质量分数,以根据所述目标对话的质量分数,确定针对客户问题所推荐的目标对话的优先级。
11.在一些实施例中,还提供一种对话挖掘装置,所述装置包括:获取模块,用于获取目标业务领域中客户方和服务方会话中的对话文本,所述对话文本包括客户文本和答复文本;提取模块,用于针对所述对话文本,从多个非同质化的维度提取客户文本的多个有效问特征,以及提取答复文本的多个有效答特征;判断模块,用于根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件;确定模块,用于当判断客户文本符合有效问条件且答复文本符合有效答条件时,确定所述对话文本为目标对话,将所述目标对话添加至目标业务领域的问答资料库中。
12.在一些实施例中,还提供一种电子设备,所述电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器
与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行所述的对话挖掘方法的步骤。
13.在一些实施例中,还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的对话挖掘方法的步骤。
14.本技术实施例提供一种对话挖掘方法、装置、电子设备及介质,从目标业务领域中客户方和服务方会话中的对话文本中,挖掘出高质量的对话文本,并将高质量的对话文本添加至目标业务领域的问答资料库中,并且在接收到客户方属于该目标业务领域的问题时,直接识别该问题的意图,从问答资料库中识别出相似的问题,并将识别出的相似问题和该相似问题的高质量答案推送至坐席的会话界面,不需要坐席自行提取关键字以及进行检索操作,且推送的高质量答案中不仅包含业务规则,也包含了优秀坐席经过思索之后的高质量措辞,降低了坐席自行组织语言的难度,从而提高了坐席答复的及时性和答复效率,也提高了坐席的答复质量。
附图说明
15.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
16.图1示出了本技术实施例所述对话挖掘方法的方法流程图;图2示出了本技术实施例所述提取文本类型特征的方法流程图;图3示出了本技术实施例所述提取客户文本向量特征和答复文本特征向量的方法流程图;图4示出了本技术实施例所述另一种对话挖掘方法的方法流程图;图5示出了本技术实施例所述对话挖掘装置的结构示意图;图6示出了本技术实施例所述电子设备的结构示意图。
具体实施方式
17.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,应当理解,本技术中附图仅起到说明和描述的目的,并不用于限定本技术的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本技术中使用的流程图示出了根据本技术的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本技术内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
18.另外,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
19.需要说明的是,本技术实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
20.在人人交互场景中,服务方坐席的问答能力将直接决定整个对话的流畅度和客户的满意度。专业坐席可熟记业务规则,在自身经验的指导下自如应答并解决客户的各种业务提问,而对于刚入门的坐席,这是艰难的。针对这种参差不齐的业务水平现状,坐席可以通过搜索客户问题的关键字,从而从业务规则中查找答案。
21.但是,这种方法需要坐席的终端设备接收到客户问题后,判断出问题中的关键字,然后再根据关键字进行检索,得到相关的业务规则,一来经验少的坐席不一定能准确提取出关键字,二来这些步骤本来就会占用时间,因此,会影响坐席答复即时性。
22.同时,坐席检索得到相关的业务规则后,并不能将生硬的业务规则直接作为答案,还需要进行一定的加工,转换为更有人情味的答案,也就是说,检索得到的业务规则只能给坐席有限的参考意见,经验有限的新坐席不仅需要知道业务规则,还需要沟通技巧。
23.这里,所述坐席,也可以是客服、客户经理、顾问等负责解答客户方提问的人员。
24.基于此,本技术实施例提供一种对话挖掘方法,从目标业务领域中客户方和服务方会话中的对话文本中,挖掘出高质量的对话文本,并将高质量的对话文本添加至目标业务领域的问答资料库中,并且在接收到客户方属于该目标业务领域的问题时,直接识别该问题的意图,从问答资料库中识别出相似的问题,并将识别出的相似问题和该相似问题的高质量答案推送至坐席的会话界面,不需要坐席自行提取关键字以及进行检索操作,且推送的高质量答案中不仅包含业务规则,也包含了优秀坐席经过思索之后的高质量措辞,降低了坐席自行组织语言的难度,从而提高了坐席答复的及时性和答复效率,也提高了坐席的答复质量。
25.请参照图1,图1示出了本技术实施例所述对话挖掘方法的方法流程图,具体的,所述对话挖掘方法包括以下步骤s101-s104:s101、获取目标业务领域中客户方和服务方会话中的对话文本,所述对话文本包括客户文本和答复文本;s102、针对所述对话文本,从多个非同质化的维度提取客户文本的多个有效问特征,以及提取答复文本的多个有效答特征;s103、根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件;s104、当判断客户文本符合有效问条件且答复文本符合有效答条件时,确定所述对话文本为目标对话,将所述目标对话添加至目标业务领域的问答资料库中。
26.在本技术实施例中,所述对话挖掘方法可以运行于终端设备或者是服务器;其中,终端设备可以为服务方终端设备,当对话挖掘方法运行于服务器时,该实体定位方法则可以基于云交互系统来实现与执行,其中,云交互系统至少包括服务器和客户端设备(也即终端设备)。
27.具体的,以应用于服务器为例,当实体定位方法运行于服务器上时,对话挖掘方法用于从历史会话数据中,筛选出质量符合要求的高质量对话文本。
28.在所述步骤s101中,所述获取目标业务领域中客户方和服务方会话中的对话文本,包括:
获取目标业务领域中的对话数据,并清洗所述对话数据,得到对话文本。
29.其中,所述清洗对话数据,是使用正则、对话块拼接等方法清洗文本的字面噪音。
30.所述字面噪音,例如一些杂乱的字符串、重复的词语等等。例如,“请问什么时间shijian可以到账boisyanrfq #”这样的客户文本中,shijian可能是客户输入时的笔误,字符串boisyanrfq #可能是一个无法识别的表情。
31.字面噪音会影响对话文本的特征提取效果,例如影响判断文本的语义,从而导致无法准确判断该对话文本是否属于高质量对话,因此,需要清洗所述对话数据。
32.所述目标业务领域,例如保险销售领域、汽车推荐领域、金融服务领域等等,每个目标业务领域对应的业务规则不同。一个公司可以有多个目标业务领域,并针对每一个领域制定不同的业务规则,例如同时包括保险销售领域和金融服务领域。
33.这里,在满足预设获取条件时,从历史对话数据中,获取所述获取目标业务领域中客户方和服务方会话中的历史对话数据。
34.所述预设获取条件包括:达到预设获取时长,接收到对话获取信号等。
35.所述达到预设获取时长,即每间隔一段时间,就从该时间段中所产生的历史会话数据中,筛选出高质量的对话文本,从而不断更新目标业务领域的问答资料库,使得问答资料库中的数据越来越丰富,越来越能够满足客服经理的需求。
36.在所述步骤s102中,从多个非同质化的维度提取客户文本的多个有效问特征,也就是说,所提取的有效问特征是非同质化的特征。
37.所述多个有效问特征包括:文本类型特征、文本长度特征、客户文本语法是否完整特征、客户文本向量特征;文本类型特征表征客户文本是否有疑问意图。
38.在构造客户文本的特征时,是否疑问、是否可构成问题其实是一个核心特征。本技术实施例中,若客户文本带有疑问意图,则文本类型特征为1,反之,若客户文本不带有疑问意图,则文本类型为0。
39.对于自然语言而言,文本中是否含有疑问意图时难以识别的。客户发送的文本,有一些属于明显的疑问句,有一些则是隐含的提问。例如,客户想咨询备用金提现到储蓄卡的规则,可能直接进提问,客户文本为:请问怎么把备用金提现到储蓄卡;也可能进行陈述,例如:我的备用金想提现到储蓄卡。
40.对于本技术实施例来讲,客户文本含有疑问意图,才能作为高质量的对话文本,因此,文本类型特征是有效问特征中的一个核心特征。
41.基于此,本技术实施例中,请参照图2,图2示出了本技术实施例所述提取文本类型特征的方法流程图;具体的,所述文本类型特征是通过以下方法提取的:s201、根据预设判断规则判断所述客户文本是否为疑问句,若是,则确定文本类型特征为疑问类型特征;s202、若否,则将所述客户文本输入至训练好的意图识别模型,以识别客户文本是否有疑问意图,确定文本类型特征。
42.这里,本技术实施首先通过一些正则表达匹配,判断用户一次判断所述客户文本是否为明显的疑问句,例如“请问怎么把备用金提现到储蓄卡”这样的客户文本,可以直接判断出文本类型特征为疑问类型特征,确定文本类型特征为1。对于“我的备用金想提现到储蓄卡”这种隐含的疑问意图,则一次判断无法得出结论,通过训练好的意图识别模型确定
文本类型特征。
43.意图识别模型计算过程相对于正则表达匹配而言,更加复杂,占用的计算资源更多,而实际进行对话挖掘时,需要对大量对话进行处理,通过一次判断可以从大量对话中筛选出明显的疑问句,仅仅对于不明显的疑问进行二次识别,从而降低意图识别模型的计算量,兼顾了文本类型特征的特征提取精度和节约计算资源。
44.本技术实施例提取出的文本长度特征,表征客户文本的文字数目特征。
45.在一些实施例中,所述文本长度特征直接表征文字数目,采用文字数目作为文本长度特征,例如“我的备用金想提现到储蓄卡”,文本长度特征为12。
46.在一些实施例中,所述文本长度特征表征文字数目是否符合预设长度条件;这里,文本长度特征用0或1表示,当所述客户文本的文字数目小于等于预设最高数目,且大于等于预设最低数目时,文本长度特征为1;反之,若客户文本的文字数目大于预设最高数目,或者小于预设最低数目,则文本长度特征为0。
47.本技术所述实施例的目的是要从大量对话中挖掘出高质量对话,高质量对话中必须包含足够丰富的信息,能够清楚表达想咨询的业务问题,因此,文本的字数必须大于等于预设最低数目;同时,高质量对话还要求客户提问比较简洁,没有用的信息不能太多,比如一些人在咨询客服问题时,用一些互联网梗,如发疯文学“我又在和你抱怨什么呢,你只是一个打工人, 你又不能决定什么,我只是想把备用金提现到储蓄卡罢了,你只会那一套话术,你不在乎的,你不会懂的,你又要轻巧地避过我的话题,你只觉得我麻烦,你只想赶紧跟我结束话题,你不在乎,你不在乎,你什么都不懂”。这种用户问题,不仅作为高质量对话供坐席参考。
48.因此,本技术实施例通过限制用户文本的长度,挑选出长度合适的用户文本,使得挖掘出的高质量对话中既包含足够丰富的信息,又能简洁、清楚的表达想咨询的业务问题。
49.所述客户文本语法是否完整特征,本技术实施例中通过传统语言学的句子成分分析完成,缺少句子成为的0,句子完整则为1。
50.对于主语缺失、宾语缺乏等不符合语法结构树的用户问题,本技术实施例中选择丢弃该用户问题,因为这样的用户问题的信息是分散的,还需要结合上下文信息才能清楚表达其想咨询目的,不属于能够给予坐席参考和知指导的高质量对话。
51.由于构建的客户文本的特征和答复文本的特征同属于自然语言处理,目的又都是筛选出高质量的对话,因此,构建客户文本的特征的任务和构造答复文本的特征的任务,有一些重叠。客户文本向量特征和答复文本特征向量,是通过相同的方法构造的。客户文本语法是否完整特征、答复文本语法是否完整特征,表征的意义接近,也是通过相同的方法构造的。
52.针对所述客户文本向量特征和答复文本特征向量,请参照图3,图3示出了本技术实施例所述提取客户文本向量特征和答复文本特征向量的方法流程图;具体的,所述提取客户文本向量特征和答复文本特征向量的方法,包括以下步骤s301-s302;s301、根据第一预处理规则,对所述客户文本和答复文本进行预处理,保留客户文本和答复文本的目标词汇;s302、基于目标业务领域的业务词典,确定客户文本中每一目标词汇的词频,得到客户文本特征向量;以及确定答复文本中每一目标词汇的词频,得到答复文本特征向量。
53.所述目标业务领域的业务词典包括目标业务领域的业务词汇和每一业务词汇的权重。不同目标业务领域,对应不同的业务词典。
54.业务词典中的业务词汇从会话高频词汇中,通过人工标注的方法得到;业务词汇的权重可以通过计算词汇在会话中的tf-idf值得到。
55.对于所述客户文本和答复文本,按照第一预处理规则对其进行预处理,主要包括进行分词和词性标注;然后将得到的结果进行停用词过滤,然后保留指定词性的词汇,比如普通名词、银行特有命名实体、动词、名动词等。
56.预处理之后,基于业务词典,得到客户文本特征向量s,或者答复文本特征向量s;, 为客户文本或答复文本中保留下来且属于业务词典的目标词汇的词频;如果按照字典顺序第i处词语不在句子中,则为0。
57.例如,目标业务领域的业务词典为1000维,则;若业务词典中第三个业务词汇未出现在客户文本中,则客户文本特征向量s中,为0。
58.对于答复文本语法是否完整特征,相同的,本技术实施例中通过传统语言学的句子成分分析完成,缺少句子成为的0,句子完整则为1。
59.对于主语缺失、宾语缺乏等不符合语法结构树的答复文本,本技术实施例中选择丢弃该答复文本,这种答复文本不属于能够给予坐席参考和知指导的高质量答复。
60.但是,答复文本和客户文本一问一答,具有不同的特点,因此,在构造答复文本的特征时,也需要根据答复文本的特点,构造一些与客户文本不同的特征。本技术实施例中,答复和问题中的业务词汇是否属于同一个业务范围特征、答案和问题中关键字重复度特征、指导术语密集度特征,都是与客户文本特征维度不同的特征。
61.当客户提出一个问题时,服务方不同的客服往往会做出不同的答复,要筛选高质量的对话,就要保证答复确实解决了问题,避免鸡同鸭讲,答非所问,或者一些低质量问答中,没有从专业角度回答问题。
62.基于此,针对答复文本,构造答复和问题中的业务词汇是否属于同一个业务范围特征,以保证答复文本解答了客户问题。
63.这里,所述业务范围,是目标业务领域中的一个较小的范围,一个目标业务领域包括多个业务范围;例如:金融服务领域包括:存款业务范围、取款业务范围、基金购买业务范围、基金合同业务范围等等。
64.在一些实施例中,所述业务范围具体为目标业务领域的业务词汇组;例如到账、赎回、购买、基金为一个业务词汇组,属于基金购买业务范围。若客户问题中包含“到账”,而答复文本中包含“赎回”,则说明该答复文本有很大概率有效答复了客户问题。反之,若客户问题中包含“到账”,而答复文本中没有包含“赎回、购买、基金、到账”中的任一词汇,则说明该答复文本可能没有有效答复客户问题。
65.而且,从业务角度而言,期望答复中包括专业的业务词汇,从而给经验少的坐席一些指导,因此,本技术实施例中构建构造答复和问题中的业务词汇是否属于同一个业务范围特征。
66.在一些实施例中,若答复和问题中的业务词汇属于同一个业务范围,例如客户问题中包含“到账”,答复文本中包含“赎回,则答复和问题中的业务词汇是否属于同一个业务
范围特征为1;反之,若答复和问题中的业务词汇不属于同一个业务范围,则答复和问题中的业务词汇是否属于同一个业务范围特征为0。
67.在自然语言中,一个问题和它的答案在语义上以某种适当的方式相似,本技术实施例中,确定答案中包含多少个客户问题关键字,将答案和问题的关键字重复度作为一个重要的特征。
68.这里,所述关键字重复度,可以为答复文本与客户文本中相同的词语的个数。
69.在一些实施例中,可以先对答复文本与客户文本进行停用词过滤,将极其普遍、很少单独表达文本信息的停用词过滤掉,例如,过滤掉“这样”“那样”“的”等对于理解语义基本没有帮助的词语;并将答复文本与客户文本中保留文本中的相同词语的个数作为关键字重复度。
70.这里,现有技术中通过语义识别可以计算两个文本的相似度,但是,对于本技术而言,客户问题文本和答复文本本质上是两个不同场景下的文本,高质量的对话中两者相似度并不一定很高,甚至可能很低,例如:“这件衣服会缩水吗”的问题,答复文本可以是“这件衣服是做过缩水预测的,所以不会出现这样的情况,请您放心”。如果分析两个文本的语义,则相似度很低。但是答复文本中出现“衣服”“缩水”,则说明该答复确实回答了该问题。
71.因此,通过关键字重复度来判断问题和它的答案在语义相似度,作为高质量对话的参考,更为合适。
72.在客服问答中,一个问题的答复可能以许多不同的答案形式出现,每个答案中蕴含的信息量和具体信息都有所不同,因此,从业务期望角度,蕴含更多知识和操作细则的问答可能更具有指导意义。
73.基于此,本技术实施例中,构建指导术语密集度特征,用于表征答案中蕴含的知识和操作细则的丰富度。
74.具体的,指导术语密集度特征为指导术语的数目。指导术语的数目越多,则说明该答案质量越高,指导术语的数目越少,则说明该答案质量相对较低。
75.在所述步骤s103中,根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件,包括:将所述多个有效问特征输入至训练好的有效问识别模型,并根据有效问识别模型的输出结果判断所述客户文本是否符合有效问条件;不同的有效问特征在所述有效问识别模型中的权重指标不同;将所述多个有效答特征输入至训练好的有效答识别模型,并根据有效答识别模型的输出结果判断所述答复文本是否符合有效答条件;不同的有效答特征在所述有效答识别模型中的权重指标不同;其中,所述有效问识别模型和有效答识别模型均采用xgboost模型得到。
76.所述基于xgboost模型所构建的有效问识别模型和有效答识别模型,对于非同质化特征有很好学习效果。
77.机器学习中的xgboost的全称是extreme gradient boosting,它是经过优化的分布式梯度提升算法,在算法的弱学习器模型选择上,对比gbdt只支持决策树,它还可以直接很多其他的弱学习器。在算法的损失函数上,除了本身的损失,还加上了正则化部分。在算法的优化方式上,gbdt的损失函数只对误差部分做负梯度(一阶泰勒)展开,而xgboost损失
函数对误差部分做二阶泰勒展开,更加准确。在模型训练过程中,使用了网格搜索方法进行参数搜索。
78.对于有效问识别模型,不同的有效问特征在所述有效问识别模型中的权重指标不同,也就是说,不同有效问特征对应的参数在训练过程中的重要程度不同,不同有效问特征对有效问识别模型的影响程度不同。
79.同样的,对于有效答识别模型,不同的有效答特征在所述有效答识别模型中的权重指标不同,也就是说,不同有效答特征对应的参数在训练过程中的重要程度不同,不同有效答特征对有效答识别模型的影响程度不同。
80.本技术实施例中,有效问特征的重要程度由低到高排序如下:文本类型特征、文本长度特征、客户文本语法是否完整特征、客户文本向量特征。
81.有效答特征的重要程度由低到高排序如下:答复和问题中的业务词汇是否属于同一个业务范围特征、答案和问题中关键字重复度特征、答复文本语法是否完整特征、答复文本向量特征、指导术语密集度特征。
82.请参照图4,图4示出了本技术实施例所述另一种对话挖掘方法的方法流程图;在本技术实施例中,将所述目标对话添加至目标业务领域的问答资料库中后,所述方法还包括以下步骤s401-s402;s401、响应接收到目标业务领域的客户问题,从所述问答资料库存储的目标对话中,确定出与客户问题的意图相似度满足预设相似度条件的至少一个目标客户文本;s402、确定与所述目标客户文本对应的目标问题答案,并将所述目标客户文本和目标答复文本推荐至服务方的会话界面。
83.从所述问答资料库存储的目标对话中,确定出与客户问题的意图相似度满足预设相似度条件的至少一个目标客户文本;具体的,将所述客户问题输入至训练好的答案推荐模型,通过所述答案推荐模型,从问答资料库中的目标业务领域的目标对话中,寻找客户问题同语义的客户问题。
84.确定出同语义的客户问题后,将所述同语义的客户问题对应的优质答复文本推荐至服务方的会话界面,也就是推送到服务方坐席的终端设备的人家交互界面上,以使让入门的坐席参考优质答复文本,更好的解答用户的各种提问。
85.将所述目标客户文本和目标答复文本推荐至服务方的会话界面时,根据所述目标对话的质量分数,将目标对话按照质量分数由高到低的顺序依次进行展示,以使坐席优先参考质量更高的目标对话。
86.这里,所述目标对话的质量分数,最初由有效问识别模型和有效答识别模型的输出结果确定。
87.本技术实施例中,将所述目标对话添加至目标业务领域的问答资料库中后,所述方法还包括:响应接收到服务方对所述目标对话的评价操作,更新所述问答资料库中目标对话的质量分数,以根据所述目标对话的质量分数,确定针对客户问题所推荐的目标对话的优先级。
88.也就是说,在将目标对话推送到会话界面后,根据服务方坐席的反馈,更新目标对话的质量分数。示例性的,所述接收到服务方对所述目标对话的评价操作,可以是针对每一
目标对话评价控件的评价操作。
89.示例性的,每一目标对话对应一评价控件,所述评价控件上分别展示评级分值-2、-1、0、1、2,每一评价分值对应一选中按钮;所述评价操作即为针对所述选择按钮的选中操作。
90.会话界面能够显示的对话数目有限,因此,在一些实施例中,所述会话界面中展示质量分数排序在先的预设数目个目标对话。
91.当所述对话挖掘方法运行于服务器时,将所述目标客户文本和目标答复文本推荐至服务方的会话界面,所述服务器将所述目标客户文本和目标答复文本发送至服务方的终端设备中,所述终端设备在会话界面中展示所述所述目标客户文本和目标答复文本。
92.这里,服务器与服务方的终端设备之间可以通过有线网络/无线网络的方式,按照预先设定的通信协议(如rtsp(real time streaming protocol,实时流传输协议)协议等)进行数据传输与交互;在数据交互过程中,终端设备可以接收服务器发送的目标客户文本和目标答复文本,并将接收的目标客户文本和目标答复文本展示在会话界面上,供客户经理参考,还可以接收用户针对目标答复文本的评价操作,并生成评价指令,将所述评价指令发送至服务器,以使服务器根据所述评价指令更新目标答复文本的质量分数。
93.将所述目标客户文本和目标答复文本推荐至服务方的会话界面后,响应针对目标答复文本的复制操作,将所述目标答复文本填写至会话界面的答案输入框中,客户经理无需自行输入该目标答复文本,通过简单的修改即可发送给客户,从而进一步降低客服经理的答复难度,提高答复效率。
94.本技术实施例中,按天同步高质量对话挖掘结果到运营平台,优质可用的 qa对审核通过率达到了76.3%;同时,原来构造1000个有效知识问答需要耗费人工几乎2周的时间,而模型的挖掘结果业务运营半天内就可以完成1000q组对话的审核,大大节约了人工提取的时间。
95.在一些实施例中,还提供一种对话挖掘装置;请参照图5,图5示出了本技术实施例所述对话挖掘装置的结构示意图;具体的,所述对话挖掘装置包括:获取模块501,用于获取目标业务领域中客户方和服务方会话中的对话文本,所述对话文本包括客户文本和答复文本;提取模块502,用于针对所述对话文本,从多个非同质化的维度提取客户文本的多个有效问特征,以及提取答复文本的多个有效答特征;判断模块503,用于根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件;确定模块504,用于当判断客户文本符合有效问条件且答复文本符合有效答条件时,确定所述对话文本为目标对话,将所述目标对话添加至目标业务领域的问答资料库中。
96.本技术实施例提供一种对话挖掘装置,从目标业务领域中客户方和服务方会话中的对话文本中,挖掘出高质量的对话文本,并将高质量的对话文本添加至目标业务领域的问答资料库中,并且在接收到客户方属于该目标业务领域的问题时,直接识别该问题的意图,从问答资料库中识别出相似的问题,并将识别出的相似问题和该相似问题的高质量答案推送至坐席的会话界面,不需要坐席自行提取关键字以及进行检索操作,且推送的高质量答案中不仅包含业务规则,也包含了优秀坐席经过思索之后的高质量措辞,降低了坐席
自行组织语言的难度,从而提高了坐席答复的及时性和答复效率,也提高了坐席的答复质量。
97.在一些实施例中,所述对话挖掘装置中的所述多个有效问特征包括:文本类型特征、文本长度特征、客户文本语法是否完整特征、客户文本向量特征;文本类型特征表征客户文本是否有疑问意图;所述多个有效答特征包括:答复文本向量特征、答复文本语法是否完整特征、答复和问题中的业务词汇是否属于同一个业务范围特征、答案和问题中关键字重复度特征、指导术语密集度特征。
98.也就是说,所述对话挖掘装置中的提取模块,具体用于:从客户文本中提取文本类型特征、文本长度特征、客户文本语法是否完整特征、客户文本向量特征;文本类型特征表征客户文本是否有疑问意图;从答复文本中提取答复文本向量特征、答复文本语法是否完整特征、答复和问题中的业务词汇是否属于同一个业务范围特征、答案和问题中关键字重复度特征、指导术语密集度特征。
99.在一些实施例中,所述对话挖掘装置中的提取模块,从客户文本中提取文本类型特征时,具体用于:根据预设判断规则判断所述客户文本是否为疑问句,若是,则确定文本类型特征为疑问类型特征;若否,则将所述客户文本输入至训练好的意图识别模型,以识别客户文本是否有疑问意图,确定文本类型特征。
100.在一些实施例中,所述对话挖掘装置中的提取模块,提取所述客户文本向量特征和答复文本特征向量,具体用于:根据第一预处理规则,对所述客户文本和答复文本进行预处理,保留客户文本和答复文本的目标词汇;基于目标业务领域的业务词典,确定客户文本中每一目标词汇的词频,得到客户文本特征向量;以及确定答复文本中每一目标词汇的词频,得到答复文本特征向量。
101.在一些实施例中,所述对话挖掘装置中的判断模块,在根据所述多个有效问特征,判断所述客户文本是否符合有效问条件,以及根据多个有效答特征,判断所述答复文本是否符合有效答条件时,具体用于:将所述多个有效问特征输入至训练好的有效问识别模型,并根据有效问识别模型的输出结果判断所述客户文本是否符合有效问条件;不同的有效问特征在所述有效问识别模型中的权重指标不同;将所述多个有效答特征输入至训练好的有效答识别模型,并根据有效答识别模型的输出结果判断所述答复文本是否符合有效答条件;不同的有效答特征在所述有效答识别模型中的权重指标不同;其中,所述有效问识别模型和有效答识别模型均采用xgboost模型得到。
102.在一些实施例中,所述的对话挖掘装置,还包括:响应模块,由于在将所述目标对话添加至目标业务领域的问答资料库中后,响应接收到目标业务领域的客户问题,从所述问答资料库存储的目标对话中,确定出与客户问
题的意图相似度满足预设相似度条件的至少一个目标客户文本;确定与所述目标客户文本对应的目标问题答案,并将所述目标客户文本和目标答复文本推荐至服务方的会话界面。
103.在一些实施例中,所述的对话挖掘装置,还包括:更新模块,用于在将所述目标对话添加至目标业务领域的问答资料库中后,响应接收到服务方对所述目标对话的评价操作,更新所述问答资料库中目标对话的质量分数,以根据所述目标对话的质量分数,确定针对客户问题所推荐的目标对话的优先级。
104.本技术实施例还提供一种电子设备,请参照图6,图6示出了本技术实施例所述电子设备的结构示意图;所述电子设备600包括:处理器602、存储器601和总线,所述存储器601存储有所述处理器602可执行的机器可读指令,当电子设备600运行时,所述处理器602与所述存储器601之间通过总线通信,所述机器可读指令被所述处理器602执行时执行所述的对话挖掘方法的步骤。
105.本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的对话挖掘方法的步骤。
106.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本技术中不再赘述。在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
107.所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
108.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
109.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
110.以上仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献