一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用电诉求的提词方法及装置与流程

2022-04-02 05:38:36 来源:中国专利 TAG:


1.本发明涉及客户诉求的业务分类的领域,尤其涉及一种用电诉求的提词方法及装置。


背景技术:

2.电力客户用电过程中,会遇到各种问题,客户通过供电企业提供的包括实体营业厅、95598热线电话、互联网营业厅等各种服务渠道,反映用电问题,提出用电诉求,而电力企业的新系统通过诉求工作单,记录客户的诉求内容,及诉求处理过程和结果,日积月累,就形成了客户诉求工单大数据。为了进行电力客户服务质量分析,供电企业的服务调度人员需定期对客户诉求进行分析,通过分析找出业务热点、服务短板,提出服务改进措施。而服务质量分析的前提之一,是要准确区分客户诉求的业务分类。
3.目前,客户诉求的业务分类是人工进行的,需通过经专门培训的、有丰富客户诉求处理经验的电力服务调度人员,详细阅读电力客户诉求工单内容后,人工判断诉求的业务分类,并手工进行分类标注。人工标注电力诉求工单的业务分类存在以下问题:(1)工作量大,效率不高:每宗电力客户诉求,其工作单的来电内容、处理意见等信息平均大约300多个字。服务调度人员需要仔细阅读,找出与业务分类有关的关键信息,然后结合自己的经验,进行业务分类判断,然后进行业务分类标注。按照一般1分钟阅读300个汉字的速度计算,每宗工作单从阅读,到操作完成标注大约需时2-3分钟,个别工单因客户提出诉求时表达得不清晰,可能还要更长时间进行月度分析。而平均每月需处理约10000宗诉求,所以服务调度人员花费在诉求工单业务分类标注上的时间超过300小时(2分钟
×
10000宗
÷
60分钟/小时=330小时)。(2)容易出现错误:有些客户诉求内容可能比较模糊,介于两种业务分类之间,不同的业务分类标注人员的对分类规则、对诉求工单的内容的理解可能存在差异,导致标注业务分类时可能出错。
4.因此,为了提高客户诉求业务分类标注的效率,解决目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题,亟需构建一种用电诉求的提词方法。


技术实现要素:

5.本发明提供了一种用电诉求的提词方法及装置,解决了目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题。
6.第一方面,本发明提供了一种用电诉求的提词方法,包括:
7.获取电力客户的历史诉求数据;
8.基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单;
9.统计所述词组清单的出现次数,得到词组数据统计结果;
10.根据所述词组数据统计结果,得到业务分类的关键词。
11.可选地,获取电力客户的历史诉求数据,包括:
12.获取所述电力客户的初步的历史诉求数据;
13.删除所述初步的历史诉求数据中的无用数据,得到所述电力客户的历史诉求数据;所述无用数据包括文本无用的注释内容、合并的关联工作单诉求内容、文本中影响语句执行的符号和控制字符,以及文本中头尾的空格字符。
14.可选地,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单,包括:
15.基于预设的关键词标签,对所述历史诉求数据进行分词,得到多个关键词词组;
16.根据客户诉求业务分类的需求和预设的停用词标签,过滤所述关键词词组,得到所述历史诉求工单的词组清单。
17.可选地,根据所述词组数据统计结果,得到业务分类的关键词,包括:
18.从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词;
19.汇总所述次数关键词、所述频率关键词和所述词组重要性关键词,得到所述业务分类的关键词。
20.可选地,从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词,包括:
21.提取所述词组数据统计结果中出现次数最多的多个关键词,得到所述次数关键词;
22.提取所述词组数据统计结果中出现频率最多的多个关键词,得到所述频率关键词;
23.提取所述词组数据统计结果中词组重要性最大的多个关键词,得到所述词组重要性关键词。
24.第二方面,本发明提供了一种用电诉求的提词装置,包括:
25.获取模块,用于获取电力客户的历史诉求数据;
26.词组模块,用于基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单;
27.统计模块,用于统计所述词组清单的出现次数,得到词组数据统计结果;
28.提词模块,用于根据所述词组数据统计结果,得到业务分类的关键词。
29.可选地,所述获取模块包括:
30.获取子模块,用于获取所述电力客户的初步的历史诉求数据;
31.删除子模块,用于删除所述初步的历史诉求数据中的无用数据,得到所述电力客户的历史诉求数据;所述无用数据包括文本无用的注释内容、合并的关联工作单诉求内容、文本中影响语句执行的符号和控制字符,以及文本中头尾的空格字符。
32.可选地,所述词组模块包括:
33.分词子模块,用于基于预设的关键词标签,对所述历史诉求数据进行分词,得到多个关键词词组;
34.过滤子模块,用于根据客户诉求业务分类的需求和预设的停用词标签,过滤所述关键词词组,得到所述历史诉求工单的词组清单。
35.可选地,所述提词模块包括:
36.提取子模块,用于从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词;
37.汇总子模块,用于汇总所述次数关键词、所述频率关键词和所述词组重要性关键词,得到所述业务分类的关键词。
38.可选地,所述提取子模块包括:
39.次数单元,用于提取所述词组数据统计结果中出现次数最多的多个关键词,得到所述次数关键词;
40.频率单元,用于提取所述词组数据统计结果中出现频率最多的多个关键词,得到所述频率关键词;
41.重要单元,用于提取所述词组数据统计结果中词组重要性最大的多个关键词,得到所述词组重要性关键词。
42.从以上技术方案可以看出,本发明具有以下优点:本发明提供了一种用电诉求的提词方法,通过获取电力客户的历史诉求数据,基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单,统计所述词组清单的出现次数,得到词组数据统计结果,根据所述词组数据统计结果,得到业务分类的关键词,通过一种用电诉求的提词方法,解决了目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题,提高客户诉求业务分类标注的效率,减少服务调度人员的工作量。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
44.图1为本发明的一种用电诉求的提词方法实施例一的流程步骤图;
45.图2为本发明的一种用电诉求的提词方法实施例二的流程步骤图;
46.图3为本发明的一种用电诉求的提词装置实施例的结构框图。
具体实施方式
47.本发明实施例提供了一种用电诉求的提词方法及装置,用于解决目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题。
48.为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
49.实施例一,请参阅图1,图1为本发明的一种用电诉求的提词方法实施例一的流程步骤图,包括:
50.步骤s101,获取电力客户的历史诉求数据;
51.步骤s102,基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单;
52.需要说明的是,停用词标签为文本信息检索中没有意义的词组。本专利的停用词标签,则是多个对于电力客户诉求的业务分类没有意义的词组,例如连词、助词、称呼词等。
53.步骤s103,统计所述词组清单的出现次数,得到词组数据统计结果;
54.步骤s104,根据所述词组数据统计结果,得到业务分类的关键词。
55.在本发明实施例所提供的一种用电诉求的提词方法,通过获取电力客户的历史诉求数据,基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单,统计所述词组清单的出现次数,得到词组数据统计结果,根据所述词组数据统计结果,得到业务分类的关键词,通过一种用电诉求的提词方法,解决了目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题,提高客户诉求业务分类标注的效率,减少服务调度人员的工作量。
56.实施例二,请参阅图2,图2为本发明的一种用电诉求的提词方法的流程步骤图,包括:
57.步骤s201,获取电力客户的初步的历史诉求数据;
58.在本发明实施例中,获取电力客户的初步的历史诉求数据。
59.在具体实现中,导入已有的客户诉求数据,重点导入历史诉求的“来电内容”、“处理意见”、“业务分类”、“工单编号”等数据,形成初步的历史诉求数据。
60.步骤s202,删除所述初步的历史诉求数据中的无用数据,得到所述电力客户的历史诉求数据;
61.需要说明的是,无用数据包括文本无用的注释内容、合并的关联工作单诉求内容、文本中影响语句执行的符号和控制字符,以及文本中头尾的空格字符。
62.在本发明实施例中,对原始数据进行初步清洗(对所述初步的历史诉求数据中的无用数据进行删除):1)包括删除不完整的客户诉求原始数据、系统测试数据和错误数据;2)删除用电诉求的诉求内容中对诉求业务分类无用的文本内容,包括注释文本、地址、姓名、称呼等;3)删除文本中影响程序执行的符号和控制字符,以及文本中多余的空格字符。
63.在具体实现中,对导入的历史诉求的“来电内容”、“处理意见”数据进行筛选,删除文本无用的注释内容、将关联的工作单诉求内容合并、删除文本中影响sql语句执行的符号以及控制字符删除、删除文本中头尾的空格字符删除。
64.步骤s203,基于预设的关键词标签,对所述历史诉求数据进行分词,得到多个关键词词组;
65.在本发明实施例中,基于预设的关键词标签,对所述历史诉求数据进行分词,得到多个关键词词组。
66.在具体实现中,结合电力客户诉求业务分类的特点,输入预设的停用词标签和关键词。停用词标签可确保在下一步进行诉求文本分词时,将被认为与业务分类无关的词组被过滤掉,从而减少词组数据量,提升后续流程环节运行速度;而关键词词则确保被认为对诉求的业务分类可能有用的词组不被拆散。
67.从清洗后的用电诉求数据中,分离出已经标注的“业务分类”,以及“来电内容”和“处理意见”文本。来电内容是电力客户诉求内容的文本,而处理意见是电力客服人员处理该诉求的处理情况描述文本。
68.对历史诉求的“来电内容”、“处理意见”文本内容,进行分词处理,分别将文本拆分为多个词组。例如:“客户反映该户绑定的手机号码一直未收到电费信息。”这段来电内容文本分词后,形成以下词组数据:“客户”、“反映”、“该户”、“绑定”、“手机”、“号码”、“手机号码”、“一直”、“未”、“收到”、“未收到”、“电费。”、“信息”、“。”。
69.步骤s204,根据客户诉求业务分类的需求和预设的停用词标签,过滤所述关键词词组,得到所述历史诉求工单的词组清单;
70.在本发明实施例中,根据客户诉求业务分类的需求和预设的停用词标签,对所述关键词词组进行过滤,得到所述历史诉求工单的词组清单。
71.在具体实现中,对“来电内容”和“处理意见”文本,进行分词运算,将文本转换为词组,形成诉求内容的全量词组清单。
72.基于预设的停用词清单和自定义词清单,对诉求工单的全量词组清单进行词组清洗,过滤掉无意义的停用词(如语气助词、连词、标点符号等),并保证电力业务常用的词组不被分拆得以保留(例如:“电费通知单”不会被拆分为“电费”、“通知”、“单”)。经过清洗得到每宗用电诉求清洗后的有价值的词组清单
73.按照客户诉求业务分类的需求,分别对“来电内容”和“处理意见”文本内容分拆出来的词组数据进行清洗,过滤掉停用词标签无用词组。过滤规则包括:1)保留自定义词;2)过滤停用词标签;3)过滤称呼词;4)过滤掉无汉字的词;5)过滤掉一个汉字的词;过滤后,形成历史诉求工单的“来电内容”和“处理意见”的词组清单。
74.步骤s205,统计所述词组清单的出现次数,得到词组数据统计结果;
75.需要说明的是,词组逆文档频率简称逆词频,用idf表示,反映了一个词在所有业务分类的诉求工单中出现的频率。如果一个词在很多业务分类的诉求工单中都出现,说明这个词比较普遍,其用于辨识不同业务分类的辨识度就下降,即它的idf值应该比较低。架设词组x在n
x
宗诉求中出现过,而全部总共有m宗诉求,那么词组x的idf值计算公式如下:
[0076][0077]
词组重要性(tf-idf值)为综合评价一个词组在诉求工单的业务分类中的重要性,不能只用词组的词频tf来表示其重要性有多强,也不能只使用词组的逆文档词频idf来表示其重要性有多弱,而是结合两个值来综合评价,即:
[0078]
tf-idf(
x
)=tf(
x
)
×
idf
(x)
[0079]
在本发明实施例中,统计所述词组清单的出现次数,得到词组数据统计结果。
[0080]
在具体实现中,对过滤后的词组数据进行统计。主要统计内容包括:
[0081]
1)诉求工单总数(总语料数);
[0082]
2)各业务分类的诉求工单数(分类语料数);
[0083]
3)清洗后的总词组数;
[0084]
4)各业务分类涉及的词组数;
[0085]
5)各词组在所属业务分类中出现的次数;
[0086]
6)各词组在所属业务分类的词组中出现的频率(tf);
[0087]
7)各词组分别出现在多少宗诉求(词组语料数);
[0088]
8)每个词组在所属分类中的词组重要性(idf);
[0089]
9)每个词组在全部诉求中的tf-idf值(tf
×
idf)。
[0090]
步骤s206,从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词;
[0091]
在一个可选实施例中,从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词,包括:
[0092]
提取所述词组数据统计结果中出现次数最多的多个关键词,得到所述次数关键词;
[0093]
提取所述词组数据统计结果中出现频率最多的多个关键词,得到所述频率关键词;
[0094]
提取所述词组数据统计结果中词组重要性最大的多个关键词,得到所述词组重要性关键词。
[0095]
在本发明实施例中,根据词组数据统计结果,提取多个关键词,得到得到次数关键词、频率关键词和词组重要性关键词。
[0096]
在具体实现中,按业务分类的词组出现次数提取:对每个业务分类,分别取该分类的“来电内容”和“处理意见”的词组中出现次数最多的n个词组,形成该业务分类的“来电内容”和“处理意见”关键词;全部业务分类的“来电内容”和“处理意见”关键词的并集,就是全部业务分类的关键词。
[0097]
按业务分类的词组出现频率(tf)提取:对每个业务分类,分别取该分类的“来电内容”和“处理意见”的词组中出现频率最高的n个词组,形成该业务分类的“来电内容”和“处理意见”关键词;全部业务分类的“来电内容”和“处理意见”关键词的并集,就是全部业务分类的关键词。
[0098]
对每个业务分类,分别取该分类的“来电内容”和“处理意见”的词组中词组重要性(tf-idf)最高的n个词组,形成该业务分类的“来电内容”和“处理意见”关键词;全部业务分类的“来电内容”和“处理意见”关键词的并集,就是全部业务分类的关键词。
[0099]
例如“一带停电”这个词在“故障停电”类的诉求工单中出现的词组数最多,说明诉求内容中包含“一带停电”这个词的时候,其业务分类为“故障停电”的可能性就很大;又例如“预计停电时间”这个词组在“预安排停电”类诉求工单业务中多次出现而在其他类型的工单中则出现很少,那么“预计停电时间”这个词就可以作为“预安排停电”类业务的关键词。
[0100]
步骤s207,汇总所述次数关键词、所述频率关键词和所述词组重要性关键词,得到所述业务分类的关键词。
[0101]
在本发明实施例所提供的一种用电诉求的提词方法,通过获取电力客户的历史诉求数据,基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单,统计所述词组清单的出现次数,得到词组数据统计结果,根据所述词组数据统计结果,得到业务分类的关键词,通过一种用电诉求的提词方法,解决了目前存在的人工标注电力诉求工单的业务分类导致工作效率低和出错率高的技术问题,提高客户诉求业务分类标注的效率,减少服务调度人员的工作量。
[0102]
请参阅图3,图3为本发明的一种用电诉求的提词装置实施例的结构框图,包括:
[0103]
获取模块301,用于获取电力客户的历史诉求数据;
[0104]
词组模块302,用于基于预设的关键词标签和停用词标签,对所述历史诉求数据进行分词和过滤,得到历史诉求工单的词组清单;
[0105]
统计模块303,用于统计所述词组清单的出现次数,得到词组数据统计结果;
[0106]
提词模块304,用于根据所述词组数据统计结果,得到业务分类的关键词。
[0107]
在一个可选实施例中,所述获取模块301包括:
[0108]
获取子模块,用于获取所述电力客户的初步的历史诉求数据;
[0109]
删除子模块,用于删除所述初步的历史诉求数据中的无用数据,得到所述电力客户的历史诉求数据;所述无用数据包括文本无用的注释内容、合并的关联工作单诉求内容、文本中影响语句执行的符号和控制字符,以及文本中头尾的空格字符。
[0110]
在一个可选实施例中,所述词组模块302包括:
[0111]
分词子模块,用于基于预设的关键词标签,对所述历史诉求数据进行分词,得到多个关键词词组;
[0112]
过滤子模块,用于根据客户诉求业务分类的需求和预设的停用词标签,过滤所述关键词词组,得到所述历史诉求工单的词组清单。
[0113]
在一个可选实施例中,所述提词模块304包括:
[0114]
提取子模块,用于从所述词组数据统计结果进行提取,得到次数关键词、频率关键词和词组重要性关键词;
[0115]
汇总子模块,用于汇总所述次数关键词、所述频率关键词和所述词组重要性关键词,得到所述业务分类的关键词。
[0116]
在一个可选实施例中,所述提取子模块包括:
[0117]
次数单元,用于提取所述词组数据统计结果中出现次数最多的多个关键词,得到所述次数关键词;
[0118]
频率单元,用于提取所述词组数据统计结果中出现频率最多的多个关键词,得到所述频率关键词;
[0119]
重要单元,用于提取所述词组数据统计结果中词组重要性最大的多个关键词,得到所述词组重要性关键词。
[0120]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0121]
在本技术所提供的几个实施例中,应该理解到,本发明所揭露的方法及装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0122]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目
的。
[0123]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0124]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0125]
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献