一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种客服交流文本挖掘方法和系统、电子设备、存储介质与流程

2022-11-30 13:34:11 来源:中国专利 TAG:


1.本发明属于数据分析技术领域,更具体的说,尤其涉及一种客服交流文本挖掘方法和系统、电子设备、存储介质。


背景技术:

2.目前商业银行的客服系统主要使用文字交流、语音拨号、视频实现客服与客户之间电话、视频的交流;可以挖掘客户对商业银行交流中蕴含的语言信息。
3.现有技术多为人工处理判断,或者未对客服交流的文本信息进行系统化的处理,不够完善全面,并未能深入挖掘客户的情感倾向以及对商业银行推出产品或服务的满意度。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种客服交流文本挖掘方法和系统、电子设备、存储介质,用于能够有助于商业银行更加直观地了解客户对银行推出产品和提供服务的评价。
5.本技术第一方面公开了一种客服交流文本挖掘方法,包括:
6.提取客服交流中的文本信息;
7.对所述文本信息进行文本数据处理和文本特征分析;
8.对进行所述文本数据处理和所述文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点;
9.依据所述用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度。
10.可选的,在上述客服交流文本挖掘方法中,所述提取客服交流中的文本信息,包括:
11.将所述客服与客户交流的音频信息转换为文本信息。
12.可选的,在上述客服交流文本挖掘方法中,对所述文本信息进行文本数据处理和文本特征分析,包括:
13.对所述文本信息进行数据清洗和分词;
14.提取数据清洗和分词后的所述文本信息的高频特征词,并分析影响情感极性的主要因素。
15.可选的,在上述客服交流文本挖掘方法中,在对所述文本信息进行数据清洗和分词之后,还包括:
16.通过词频云图和语义网络对处理好的文本信息进行可视化展示。
17.可选的,在上述客服交流文本挖掘方法中,所述对进行所述文本数据处理和所述文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点,包括:
18.基于情感词典方法,对所述进行所述文本数据处理和所述文本特征分析后的文本
的情感倾向进行分类和评估;
19.对所述分类和评估的结果,运用lda模型挖掘客服交流文本中的主题,得到用户关注点。
20.可选的,在上述客服交流文本挖掘方法中,依据所述用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度,包括:
21.根据所述用户关注点对应的词性进行匹配情感短句;
22.对所述情感短句采用情感词典的方法计算短句情感值;
23.根据高频词的结果,选出重要属性的特征词;
24.将所述特征词的词向量进行聚类,确定客服交流的满意度指标;
25.根据不同指标对应的情感短句占比和短句情感值,确定评价客户满意度指标的权重,并对满意度情况进行分析计算,得到所述用户满意度。
26.本技术第二方面公开了一种客服交流文本挖掘系统,包括:
27.提取模块,用于提取客服交流中的文本信息;
28.处理分析模块,用于对所述文本信息进行文本数据处理和文本特征分析;
29.情感分析模块,用于对进行所述文本数据处理和所述文本特征分析后的文本进行情感分类分析,得到分析结果;
30.主题挖掘模块,用于依据所述分析结果继续主题挖掘,得到用户关注点;
31.满意度模块,用于依据所述用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度。
32.可选的,在上述客服交流文本挖掘系统中,所述提取模块用于提取客服交流中的文本信息时,具体用于:
33.将所述客服与客户交流的音频信息转换为文本信息。
34.本技术第三方面公开了一种电子设备,包括:
35.一个或多个处理器;
36.存储装置,其上存储有一个或多个程序;
37.当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如本技术第一方面中任一项所述的客服交流文本挖掘方法。
38.本技术第四方面公开了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如本技术第一方面中任一项所述的客服交流文本挖掘方法。
39.从上述技术方案可知,本发明提供的一种客服交流文本挖掘方法,包括:提取客服交流中的文本信息;对文本信息进行文本数据处理和文本特征分析;对进行文本数据处理和文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点;依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度;从而能够有助于商业银行更加直观地了解客户对银行推出产品和提供服务的评价,并能够更深入的了解客户的需求与喜好,也可以进一步反映出客户在与客服人员进行交流时的主流关注点,从而根据客户的评价对产品和服务进行完善和提升,在市场竞争中占据优势。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明实施例提供的一种客服交流文本挖掘方法的流程图;
42.图2是本发明实施例提供的另一种客服交流文本挖掘方法的流程图;
43.图3是本发明实施例提供的另一种客服交流文本挖掘方法的流程图;
44.图4是本发明实施例提供的另一种客服交流文本挖掘方法的流程图;
45.图5是本发明实施例提供的另一种客服交流文本挖掘方法的流程图;
46.图6是本发明实施例提供的另一种客服交流文本挖掘方法的流程图;
47.图7是本发明实施例提供的一种客服交流文本挖掘系统的示意图;
48.图8是本发明实施例提供的一种电子设备的示意图。
具体实施方式
49.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
51.本技术实施例提供了一种客服交流文本挖掘方法,用于解决现有技术中人工处理判断,或者未对客服交流的文本信息进行系统化的处理,不够完善全面,并未能深入挖掘客户的情感倾向以及对商业银行推出产品或服务的满意度。
52.参见图1,该客服交流文本挖掘方法,包括:
53.s101、提取客服交流中的文本信息。
54.需要说明的是,可以根据客户的输入的信息中提取交流文本。
55.比如说,客户与客服之间通过语音交流,则可以是将该语音转换为文本信息。客户与客服之间的交流通过文字交流,则可以是将该交流文本作为该文本信息。
56.也就是说,该文本信息可以是非结构化的文本信息,当然也不排除该文本信息为结构化的文本信息,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
57.具体的,采集商业银行的客服系统的文本信息,该包括:使用文字交流的纯文本信息,以及从语音拨号、视频实现客服与客户之间电话、视频交流的音频视频信息中提取文本信息。
58.s102、对文本信息进行文本数据处理和文本特征分析。
59.需要说明的是,该文本数据处理可以是分析、过滤等处理,当然不仅限于此处示例,该文本数据处理的具体过程,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
60.该文本特征分析可以是高频词汇、情感极性分析等,当然,不仅限于此处示例,该文本特征分析的具体过程,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
61.s103、对进行文本数据处理和文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点。
62.情感分类分析可以是确定相应文本的情感类型,如文本的情感类型可以是开心、快乐等正面的,文本的情感类型也可以是消极、不耐烦等负面的。
63.情感分类分析的具体过程,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
64.主题挖掘是数据挖掘的一种形式,具体的主题挖掘过程,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
65.文本挖掘是从非结构化的文本信息中抽取潜在的、用户感兴趣的重要模式或知识的过程,可以把它看作数据挖掘或数据库中知识发现的延伸。对文本信息的挖掘主要是以数理统计学和计算语言学为理论基础,让计算机发现某些文字出现的规律以及文字与语义、语法间的联系。文本挖掘涉及多个学科领域,如信息检索、文本分析、信息抽取等。
66.s104、依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度。
67.通过本步骤可以是确定对本次服务的满意度,也可以是确定用户对其关注点的满意度。
68.需要说明的是,用户可以是有不同的关注点,也可以是仅有一个关注点,在用户有不同的关注点时,可以是分别确定不同关注点的满意度。
69.具体的,满意度指标体系中可以建立情感极性与满意度之间的关联联系,也就是说,可以根据情感极性来确定相应的满意度。
70.情感分析是对具有情感色彩的文本进行研究的过程,包括对文章观点的有效认可,对正面和负面情绪倾向进行分类等。在当今互联网快速发展的时期,情感分析常用来研究公共舆论、网购评价、观影感受等。
71.也即,将客服交流的内容转化成文本信息,使用文本挖掘技术和情感分析理论,就能够分析出客户在与商业银行客服进行沟通时注重的要点,以及对于商业银行推出服务的满意度。
72.在本实施例中,提取客服交流中的文本信息;对文本信息进行文本数据处理和文本特征分析;对进行文本数据处理和文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点;依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度;从而能够有助于商业银行更加直观地了解客户对银行推出产品和提供服务的评价,并能够更深入的了解客户的需求与喜好,也可以进一步反映出客户在与客服人员进行交流时的主流关注点,从而根据客户的评价对产品和服务进行完善和提升,在市场竞争中占据优势。
73.在实际应用中,参见图2,步骤s101、提取客服交流中的文本信息,包括:
74.s201、将客服与客户交流的音频信息转换为文本信息。
75.也就是说,音频信息采用转换技术转化为文本信息,具体的转换过程,此处不再一
一赘述,视实际情况而定即可,均在本技术的保护范围内。
76.在实际应用中,参见图3,步骤s102、对文本信息进行文本数据处理和文本特征分析,包括:
77.s301、对文本信息进行数据清洗和分词。
78.具体的,可以将不满足条件的文本信息清洗掉,进而避免产生噪音。
79.可以采用语义分析的方式对文本信息进行分词,以免数据过长造成的困扰。
80.具体的,对文本信息进行数据清洗(包括文本去重以及清洗标点符号和表情数字)、中文分词、去停用词等。
81.s302、提取数据清洗和分词后的文本信息的高频特征词,并分析影响情感极性的主要因素。
82.文本信息中的词语出现频率高于阈值,则将该词语作为高频特征词。当然,语气助词等意义不大的词语在数据清洗时,可以将其清洗掉,此处不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
83.获取到高频特征词之后,对高频特征词进行分析,得到影响情感机型的主要因素。
84.具体的,对客服交流文本的tf-idf进行计算,首先构建词向量空间,再将文本中的词语转换为词频矩阵并计算个词语出现的次数,接下来获取词袋中所有文本关键词,通过类调用并将词频矩阵统计成tf-idf值,得到了客服交流中的重要特征词。
85.采用了xgboost模型对特征进行计算,通过feature_importances_得到重要性得分,根据得分进行特征选择,把选择的词语作为综合表现了客服交流属性特征的词语;进而通过决策树可视化展示。
86.在实际应用中,参见图4,在步骤s301、对文本信息进行数据清洗和分词之后,还包括:
87.s401、通过词频云图和语义网络对处理好的文本信息进行可视化展示。
88.具体的,通过绘制词频云图来展示分词的效果,通过分析可以清楚地展示在客服交流中关注的词语。
89.语义网络是通过网络格式来表达知识构造,通过绘制语义网络可以很直观地展示客服交流的文本内各个高频词之间的联系。
90.具体的,文本数据处理主要包括数据预处理、词频分析和语义网络。文本特征可视化系统主要包括tf-idf词频可视化分析和基于决策树的特征词重要性析。对获取到的客服交流文本数据进行清洗、分词等预处理。
91.接下来进行特征提取,通过词频云图展示高频词,通过语义网络描述各个高频词之间的联系;通过tf-idf提取产品的重要特征词,并通过cart决策树分析特征词的重要程度。
92.在实际应用中,参见图5,步骤s103、对进行文本数据处理和文本特征分析后的文本进行情感分类分析和主题挖掘,得到用户关注点,包括:
93.s501、基于情感词典方法,对进行文本数据处理和文本特征分析后的文本的情感倾向进行分类和评估。
94.通过基于情感词典的方法,对预处理后的客服文本进行情感分类。
95.s502、对分类和评估的结果,运用lda模型挖掘客服交流文本中的主题,得到用户
关注点。
96.通过lda主题模型,挖掘服文本的主题,并提取正负面主题词,从而得到用户关注点。
97.具体的,首先分别采用基于情感词典的方法对预处理后的客服交流文本进行情感分类。然后采用lda主题模型,对正负面评论的主题进行挖掘展示和对比分析。
98.在实际应用中,参见图6,步骤s104、依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度,包括:
99.s601、根据用户关注点对应的词性进行匹配情感短句。
100.s602、对情感短句采用情感词典的方法计算短句情感值。
101.s603、根据高频词的结果,选出重要属性的特征词。
102.s604、将特征词的词向量进行聚类,确定客服交流的满意度指标。
103.s605、根据不同指标对应的情感短句占比和短句情感值,确定评价客户满意度指标的权重,并对满意度情况进行分析计算,得到用户满意度。
104.通过情感词配对,计算短句情感得分,并基于k-mean聚类构建满意度指标体系,进而确定满意度指标权重,并对客户的满意度计算分析。
105.也就是说,先通过匹配情感词构造短句,并基于情感词典计算短句情感得分。然后通过特征词向量化,并进行聚类,把聚类得到的属性作为评价用户满意度的指标。接着对每一个属性类别的特征词进行扩展,依据情感短句特征词所属类别对短句进行归类,进而研究客户在不同属性上的情感极性分布特征,得到用户满意度。
106.本技术另一实施例提供了一种客服交流文本挖掘系统。
107.参见图7,客服交流文本挖掘系统,包括:
108.提取模块101,用于提取客服交流中的文本信息。
109.处理分析模块102,用于对文本信息进行文本数据处理和文本特征分析。
110.该处理分析模块102包括:数据预处理模块、tf-idf词频可视化分析模块、决策树的特征词分析模块。
111.数据预处理模块:对文本信息进行数据清洗(包括文本去重以及清洗标点符号和表情数字)、中文分词、去停用词等。
112.数据预处理模块:通过绘制词频云图来展示分词的效果,通过分析可以清楚地展示在客服交流中关注的词语。语义网络是通过网络格式来表达知识构造,通过绘制语义网络可以很直观地展示客服交流的文本内各个高频词之间的联系。
113.tf-idf词频可视化分析模块:是指对客服交流文本的tf-idf进行计算,首先构建词向量空间,再将文本中的词语转换为词频矩阵并计算个词语出现的次数,接下来获取词袋中所有文本关键词,通过类调用并将词频矩阵统计成tf-idf值,也就得到了客服交流中的重要特征词。
114.决策树的特征词分析模块:采用了xgboost模型对特征进行计算,通过feature_importances_得到重要性得分,根据得分进行特征选择,把选择的词语作为综合表现了客服交流属性特征的词语,进而通过决策树可视化展示。
115.情感分析模块103,用于对进行文本数据处理和文本特征分析后的文本进行情感分类分析,得到分析结果。
116.具体的,通过基于情感词典的方法,对预处理后的客服文本进行情感分类。
117.主题挖掘模块104,用于依据分析结果继续主题挖掘,得到用户关注点。
118.具体的,可以通过lda主题模型,挖掘出文本的主题,并提取正负面主题词,从而得到用户关注点。
119.满意度模块105,用于依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度。
120.具体的,通过情感词配对,计算短句情感得分,并基于k-mean聚类构建满意度指标体系,进而确定满意度指标权重,并对客户的满意度计算分析,得到用户满意度。
121.上述各个模块的工作过程和原理,详情参见上述实施例提供的客服交流文本挖掘方法,此处不再一一赘述,均在本技术的保护范围内。
122.在本实施例中,提取模块101提取客服交流中的文本信息;处理分析模块102对文本信息进行文本数据处理和文本特征分析;情感分析模块103对进行文本数据处理和文本特征分析后的文本进行情感分类分析,得到分析结果;主题挖掘模块104依据分析结果继续主题挖掘,得到用户关注点;满意度模块105依据用户关注点,进行情感极性分析,并构建满意度指标体系,得到用户满意度;从而能够有助于商业银行更加直观地了解客户对银行推出产品和提供服务的评价,并能够更深入的了解客户的需求与喜好,也可以进一步反映出客户在与客服人员进行交流时的主流关注点,从而根据客户的评价对产品和服务进行完善和提升,在市场竞争中占据优势。
123.本技术另一实施例提供了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项的客服交流文本挖掘方法。
124.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
125.需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存
储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
126.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
127.本发明另一实施例提供了一种电子设备,如图8所示,包括:
128.一个或多个处理器601。
129.存储装置602,其上存储有一个或多个程序。
130.当一个或多个程序被一个或多个处理器601执行时,使得一个或多个处理器601实现如上述实施例中任意一项的客服交流文本挖掘方法。
131.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。
132.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
133.虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
134.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
135.需要说明的是,本发明提供的客服交流文本挖掘方法和系统、电子设备、存储介质可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例,并不对本发明提供的客服交流文本挖掘方法和系统、电子设备、存储介质的应用领域进行限定。
136.本说明书中的各个实施例中记载的特征可以相互替换或者组合,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
137.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
138.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献