一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

异常工单识别方法、装置、电子设备及可读存储介质与流程

2021-11-09 22:36:00 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种异常工单识别方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.目前,各领域普遍使用工单的形式对问题进行上报。客服对用户上报的问题进行分析,若判断为异常情况,则对该工单打标为异常工单。专门处理异常工单的业务人员获得这些异常工单后,再逐个分析确认,若该异常问题为系统故障等导致,则通知开发尽快解决,若该问题为流程或者活动的不合理,则通知对应的负责人进行整改。
3.现有技术下存在以下弊端:1、该方案过于依赖人工的经验,若客服的经验不足,则会导致标记的异常问题出错率非常高,进而严重影响了业务人员的效率。同时过多的错误异常问题,也会导致真正的异常问题得不到及时有效解决,背离标记为异常工单快速解决的初衷。2、通过规则或者关键字黑名单等方式,系统自动判断出客服提交的问题是否为异常问题,但一个准确全面的规则是很难定义出。因此会导致工单异常检测的准确率和效率较低。


技术实现要素:

4.本发明提供一种异常工单识别方法、装置、设备及存储介质,其主要目的在于解决异常工单检测准确率较低的问题。
5.为实现上述目的,本发明提供的一种异常工单识别方法,包括:
6.获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
7.根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
8.基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
9.利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度;
10.基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
11.可选地,所述根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合,包括:
12.提取所述标记工单集合中的标记标签集合;
13.从所述标记标签集合中随机选取预设个数的标记标签作为初始的聚类中心;
14.依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离,并将所述每个标记标签分到距离最小的聚类中心对应的类别中,得到多个类别簇;
15.计算每个类别簇的聚类中心,利用计算得到的所述聚类中心替换所述初始的聚类中心,并返回依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离的步骤,
直至所述多个类别簇的聚类中心收敛;
16.确定收敛的类别簇作为分类子集,汇总所有的分类子集得到所述分类工单集合。
17.可选地,所述根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合,包括:
18.随机选取所述分类工单集合中的分类子集作为目标集合;
19.提取所述目标集合中各工单的工单特征,得到特征集合;
20.根据所述特征集合构建孤立树,汇总所有的孤立树得到孤立森林;
21.利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合。
22.可选地,所述根据所述特征集合构建孤立树,包括:
23.从所述特征集合选取预设个数的特征作为根节点;
24.根据所述特征集合中特征的维度,随机产生一个切割点,利用所述切割点对所述特征集合执行切割操作,将所述切割操作得到的特征子集合作为子节点;
25.在所述子节点中生成切割点对对应的特征子集合执行切割操作,并将所述切割操作得到的特征子集合作为子节点,直至所述切割操作达到预设的条件时,汇总所述根节点及所有的子节点得到所述孤立树。
26.可选地,所述利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合,包括:
27.计算所述分类工单集合中各工单特征在所述孤立森林的路径长度;
28.根据所述路径长度计算所述分类工单集合中各标记工单的异常得分;
29.汇总所有异常得分大于预设的第一异常阈值的标记工单,得到所述筛选工单集合。
30.可选地,所述根据所述路径长度计算所述分类工单集合中各标记工单的异常得分,包括:
31.利用下述异常公式计算所述异常得分:
[0032][0033][0034]
其中,s(x,n)为标记工单x的异常得分,h(x)为路径长度,n为分类工单集合中标记工单的个数,e(h(x))为标记工单x在一批孤立树中的路径长度的期望,h(n

1)为调和函数,c(n)为孤立森林中输出的平均路径长度。
[0035]
可选地,所述基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度,包括:
[0036]
获取与所述筛选工单集合的标记标签相同的历史异常工单;
[0037]
利用所述文本识别模型提取所述历史异常工单中的工单特征,得到历史异常特征;
[0038]
计算所述筛选工单集合中各工单特征与所述历史异常特征的欧氏距离,并将所述欧氏距离作为所述特征相似度。
[0039]
为了解决上述问题,本发明还提供一种异常工单识别装置,所述装置包括:
[0040]
工单分类模块,用于获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
[0041]
工单筛选模块,用于根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0042]
特征相似度计算模块,用于基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0043]
异常相似度计算模块,用于利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度;
[0044]
异常工单识别模块,用于基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0045]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0046]
存储器,存储至少一个计算机程序;及
[0047]
处理器,执行所述存储器中存储的计算机程序以实现上述所述的异常工单识别方法。
[0048]
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的异常工单识别方法。
[0049]
本发明通过标记工单的标记标签对标记工单集合进行分类,并基于孤立森林算法得到筛选工单集合,可以筛选出更加孤立的样本作为筛选工单,提高了异常工单检测的准确率。并且,利于文本识别模型计算特征相似度,以及利用原子规则模型计算异常相似度,可以多维度的对工单进行异常检测,进一步提高了工单异常检测的准确率。因此本发明提出的异常工单识别方法、装置、电子设备及计算机可读存储介质,可以解决异常工单检测准确率较低的问题。
附图说明
[0050]
图1为本发明一实施例提供的异常工单识别方法的流程示意图;
[0051]
图2为本发明一实施例提供的异常工单识别装置的功能模块图;
[0052]
图3为本发明一实施例提供的实现所述异常工单识别方法的电子设备的结构示意图。
[0053]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0054]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0055]
本技术实施例提供一种异常工单识别方法。所述异常工单识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之,所述异常工单识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服
务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0056]
参照图1所示,为本发明一实施例提供的异常工单识别方法的流程示意图。在本实施例中,所述异常工单识别方法包括:
[0057]
s1、获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
[0058]
本发明实施例中,所述标记工单集合是指客服人员根据人工维护的规则对生产中流转工单进行标记的工单集合。例如,银行领域,针对用户银行卡出现的问题形成一条条的问题工单并向客服反映,客服对用户上报的问题进行分析,若判断为异常情况,则对该问题工单添加标记标签作为标记工单,再上传至对应的业务人员进行处理。
[0059]
具体地,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合,包括:
[0060]
提取所述标记工单集合中的标记标签集合;
[0061]
从所述标记标签集合中随机选取预设个数的标记标签作为初始的聚类中心;
[0062]
依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离,并将所述每个标记标签分到距离最小的聚类中心对应的类别中,得到多个类别簇;
[0063]
计算每个类别簇的聚类中心,利用计算得到的所述聚类中心替换所述初始的聚类中心,并返回依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离的步骤,直至所述多个类别簇的聚类中心收敛;
[0064]
确定收敛的类别簇作为分类子集,汇总所有的分类子集得到所述分类工单集合。
[0065]
本发明实施例中,所述距离可以为欧氏距离、曼哈顿距离及切比雪夫距离等。所述标记标签集合可以为:“信用卡密码错误”、“信用卡信息登录异常”等,由于实际应用中标记和问题工单数量较多,且客服使用的标签不一定规范,通过利用标记标签进行聚类,可以将具有相似特征的问题工单进行更细粒度的分类,提高了工单检测的效率。
[0066]
本发明一可选实施例中,所述计算每个类别簇的聚类中心,包括:
[0067]
通过下述公式计算每个类别簇的聚类中心:
[0068][0069]
其中,e
i
为第i个聚类中心,c
i
为第i个类别簇,x为类别簇中的标记标签;
[0070]
本发明实施例中,基于标记标签对标记工单进行聚类,可以得到更加准确地工单类别,提高工单检测的效率。
[0071]
s2、根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0072]
本发明实施例中,在孤立森林(isolation forest)中,异常的数据被定义为“容易被孤立的离群点(more likely to be separated)”,可以理解为分布稀疏且离密度高的群体较远的点,即在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的,在这种随机分割的策略下,异常的数据点通常具有较短的路径。
[0073]
具体地,所述根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合,包括:
[0074]
随机选取所述分类工单集合中的分类子集作为目标集合;
[0075]
提取所述目标集合中各工单的工单特征,得到特征集合;
[0076]
根据所述特征集合构建孤立树,汇总所有的孤立树得到孤立森林;
[0077]
利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合。
[0078]
本发明实施例中,例如在银行卡工单中,所述工单特征包括:目录、类型、来源渠道、业务条线、业务类别、主题、问题描述等。
[0079]
具体地,所述根据所述特征集合构建孤立树,包括:
[0080]
从所述特征集合选取预设个数的特征作为根节点;
[0081]
根据所述特征集合中特征的维度,随机产生一个切割点,利用所述切割点对所述特征集合执行切割操作,将所述切割操作得到的特征子集合作为子节点;
[0082]
在所述子节点中生成切割点对对应的特征子集合执行切割操作,并将所述切割操作得到的特征子集合作为子节点,直至所述切割操作达到预设的条件时,汇总所述根节点及所有的子节点得到所述孤立树。
[0083]
本发明实施例中,比如,特征集合为x={x
1,
x
2,
x3,

,x
n
},每个特征的维度为d,为了构建一棵孤立树,需要随机选择一个特征维度q及其分割值p,递归地分割数据集x,每一步分割,都包含特征维度q和分割值p,将q<p的数据分到左边的子节点(tl),将q≥p的数据分到右边的子节点(tr),直到满足以下任意一个预设的条件:(1)孤立树达到了限制的高度;(2)子节点上只有一个特征;(3)子节点上的样本所有特征都相同。
[0084]
详细地,所述利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合,包括:
[0085]
计算所述分类工单集合中各工单特征在所述孤立森林的路径长度;
[0086]
根据所述路径长度计算所述分类工单集合中各标记工单的异常得分;
[0087]
汇总所有异常得分大于预设的第一异常阈值的标记工单,得到所述筛选工单集合。
[0088]
本发明一可选实施例中,根据所述路径长度计算所述分类工单集合中各标记工单的异常得分,包括:
[0089]
利用下述异常公式计算所述异常得分:
[0090][0091][0092]
其中,s(x,n)为标记工单x的异常得分,h(x)为路径长度,n为分类工单集合中标记工单的个数,e(h(x))为标记工单x在一批孤立树中的路径长度的期望,h(n

1)为调和函数,c(n)为孤立森林中输出的平均路径长度。
[0093]
本发明实施例中,通过孤立森林算法可以更加准确地从分类工单集合中筛选出更加孤立的样本作为筛选工单,提高了工单检测的准确率。
[0094]
s3、基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0095]
本发明一可选实施例中,所述预构建的文本识别模型可以为预训练的深度神经网络,例如vgg16、faster r

cnn等。
[0096]
具体地,所述基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度,包括:
[0097]
获取与所述筛选工单集合的标记标签相同的历史异常工单;
[0098]
利用所述文本识别模型提取所述历史异常工单中的工单特征,得到历史异常特征;
[0099]
计算所述筛选工单集合中各工单特征与所述历史异常特征的欧氏距离,并将所述欧氏距离作为所述特征相似度。
[0100]
本发明一可选实施例中,可以根据所述筛选工单集合中各工单的标记标签从历史异常工单数据池中查找到相同标记标签的异常工单图片,利用文本识别模型中的卷积层对所述异常工单图片进行卷积池化处理,得到工单特征图,提取所述工单特征图中的特征序列,利用文本识别模型中的循环层(可以由双向lstm循环神经网络构成)预测特征序列中的每一个特征向量的标签分布,最后使用转录层(可以为ctc模型)整合预测的标签分布,得到所述历史异常特征。
[0101]
可选的,所述计算所述筛选工单集合中各工单特征与所述历史异常特征的欧氏距离,包括:
[0102]
利用下述公式计算所述欧氏距离:
[0103][0104]
其中,d为所述欧氏距离,n为特征维度,x
i
为所述工单特征,y
j
为所述历史异常特征。
[0105]
本发明实施例中,由于工单的异常特征具有相关性,通过提取历史异常工单中的异常特征,并将计算得到的特征相似度作为工单检测的一项异常指标,进一步提高了工单检测的准确率。
[0106]
s4、利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度。
[0107]
本发明实施例中,所述原子规则模型包括公共规则模型及个性化规则模型。所述公共规则模型用来判断所述筛选工单是否满足统一的规则,所述个性化规则模型用来判断不同类型的筛选工单是否满足各类型所要求的规则。所述公共规则模型可以为特征字数对比规则或特征黑名单对比规则等。例如,根据工单的特征字数输出不同的第一异常相似度,或者查找预设的特征黑名单,根据查找到的目标特征次数中输出不同的第一异常相似度。个性化规则模型可以为工单类型对比规则,例如,要求上报的工单类型为a,则来源渠道必须为a,当来源渠道和类型不一致时,个性化规则模型会给出不同的分数。
[0108]
具体地,所述利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度,包括:
[0109]
根据筛选工单集合中的工单特征匹配所述原子规则模型中的公共规则模型,并将匹配得到的分数作为第一异常相似度;
[0110]
根据筛选工单集合中的工单特征匹配所述原子规则模型中的个性化规则模型,并将匹配得到的分数作为第二异常相似度。
[0111]
本发明实施例中,比如,工单1的问题描述有25个字,则从所述公共规则模型中匹配到相应的分数为5,工单1的类型和来源渠道一致,则匹配到的分数为0。通过维护不同的公共规则模型和个性化规则模型可以针对实际业务场景进行调整,提高了工单检测的实用性。
[0112]
s5、基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0113]
具体地,所述基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单,包括:
[0114]
利用下述公式计算所述筛选工单集合中工单的异常值:
[0115]
l=λ1l1 λ2l2 λ3l3[0116]
将所述异常值大于预设的第二异常阈值的工单确定为所述异常工单。
[0117]
其中,l为所述异常值,λ1、λ2、λ3为预设权重,l1为所述特征相似度,l2为所述第一异常相似度,l3为所述第二异常相似度。
[0118]
本发明通过标记工单的标记标签对标记工单集合进行分类,并基于孤立森林算法得到筛选工单集合,可以筛选出更加孤立的样本作为筛选工单,提高了异常工单检测的准确率。并且,利于文本识别模型计算特征相似度,以及利用原子规则模型计算异常相似度,可以多维度的对工单进行异常检测,进一步提高了工单异常检测的准确率。因此本发明提出的异常工单识别方法,可以解决异常工单检测准确率较低的问题。
[0119]
如图2所示,是本发明一实施例提供的异常工单识别装置的功能模块图。
[0120]
本发明所述异常工单识别装置100可以安装于电子设备中。根据实现的功能,所述异常工单识别装置100可以包括工单分类模块101、工单筛选模块102、特征相似度计算模块103、异常相似度计算模块104及异常工单识别模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0121]
在本实施例中,关于各模块/单元的功能如下:
[0122]
所述工单分类模块101,用于获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
[0123]
所述工单筛选模块102,用于根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0124]
所述特征相似度计算模块103,用于基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0125]
所述异常相似度计算模块104,用于利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度;
[0126]
所述异常工单识别模块105,用于基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0127]
详细地,所述异常工单识别装置100各模块的具体实施方式如下:
[0128]
步骤一、获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所
述标记工单集合进行分类,得到分类工单集合;
[0129]
本发明实施例中,所述标记工单集合是指客服人员根据人工维护的规则对生产中流转工单进行标记的工单集合。例如,银行领域,针对用户银行卡出现的问题形成一条条的问题工单并向客服反映,客服对用户上报的问题进行分析,若判断为异常情况,则对该问题工单添加标记标签作为标记工单,再上传至对应的业务人员进行处理。
[0130]
具体地,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合,包括:
[0131]
提取所述标记工单集合中的标记标签集合;
[0132]
从所述标记标签集合中随机选取预设个数的标记标签作为初始的聚类中心;
[0133]
依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离,并将所述每个标记标签分到距离最小的聚类中心对应的类别中,得到多个类别簇;
[0134]
计算每个类别簇的聚类中心,利用计算得到的所述聚类中心替换所述初始的聚类中心,并返回依次计算所述标记标签集合中每个标记标签到所述聚类中心的距离的步骤,直至所述多个类别簇的聚类中心收敛;
[0135]
确定收敛的类别簇作为分类子集,汇总所有的分类子集得到所述分类工单集合。
[0136]
本发明实施例中,所述距离可以为欧氏距离、曼哈顿距离及切比雪夫距离等。所述标记标签集合可以为:“信用卡密码错误”、“信用卡信息登录异常”等,由于实际应用中标记和问题工单数量较多,且客服使用的标签不一定规范,通过利用标记标签进行聚类,可以将具有相似特征的问题工单进行更细粒度的分类,提高了工单检测的效率。
[0137]
本发明一可选实施例中,所述计算每个类别簇的聚类中心,包括:
[0138]
通过下述公式计算每个类别簇的聚类中心:
[0139][0140]
其中,e
i
为第i个聚类中心,c
i
为第i个类别簇,x为类别簇中的标记标签;
[0141]
本发明实施例中,基于标记标签对标记工单进行聚类,可以得到更加准确地工单类别,提高工单检测的效率。
[0142]
步骤二、根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0143]
本发明实施例中,在孤立森林(isolation forest)中,异常的数据被定义为“容易被孤立的离群点(more likely to be separated)”,可以理解为分布稀疏且离密度高的群体较远的点,即在特征空间里,分布稀疏的区域表示事件发生在该区域的概率很低,因而可以认为落在这些区域里的数据是异常的。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的,在这种随机分割的策略下,异常的数据点通常具有较短的路径。
[0144]
具体地,所述根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合,包括:
[0145]
随机选取所述分类工单集合中的分类子集作为目标集合;
[0146]
提取所述目标集合中各工单的工单特征,得到特征集合;
[0147]
根据所述特征集合构建孤立树,汇总所有的孤立树得到孤立森林;
[0148]
利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合。
[0149]
本发明实施例中,例如在银行卡工单中,所述工单特征包括:目录、类型、来源渠道、业务条线、业务类别、主题、问题描述等。
[0150]
具体地,所述根据所述特征集合构建孤立树,包括:
[0151]
从所述特征集合选取预设个数的特征作为根节点;
[0152]
根据所述特征集合中特征的维度,随机产生一个切割点,利用所述切割点对所述特征集合执行切割操作,将所述切割操作得到的特征子集合作为子节点;
[0153]
在所述子节点中生成切割点对对应的特征子集合执行切割操作,并将所述切割操作得到的特征子集合作为子节点,直至所述切割操作达到预设的条件时,汇总所述根节点及所有的子节点得到所述孤立树。
[0154]
本发明实施例中,比如,特征集合为x={x
1,
x
2,
x3,

,x
n
},每个特征的维度为d,为了构建一棵孤立树,需要随机选择一个特征维度q及其分割值p,递归地分割数据集x,每一步分割,都包含特征维度q和分割值p,将q<p的数据分到左边的子节点(tl),将q≥p的数据分到右边的子节点(tr),直到满足以下任意一个预设的条件:(1)孤立树达到了限制的高度;(2)子节点上只有一个特征;(3)子节点上的样本所有特征都相同。
[0155]
详细地,所述利用所述孤立森林对分类工单集合中的工单进行筛选,得到所述筛选工单集合,包括:
[0156]
计算所述分类工单集合中各工单特征在所述孤立森林的路径长度;
[0157]
根据所述路径长度计算所述分类工单集合中各标记工单的异常得分;
[0158]
汇总所有异常得分大于预设的第一异常阈值的标记工单,得到所述筛选工单集合。
[0159]
本发明一可选实施例中,根据所述路径长度计算所述分类工单集合中各标记工单的异常得分,包括:
[0160]
利用下述异常公式计算所述异常得分:
[0161][0162][0163]
其中,s(x,n)为标记工单x的异常得分,h(x)为路径长度,n为分类工单集合中标记工单的个数,e(h(x))为标记工单x在一批孤立树中的路径长度的期望,h(n

1)为调和函数,c(n)为孤立森林中输出的平均路径长度。
[0164]
本发明实施例中,通过孤立森林算法可以更加准确地从分类工单集合中筛选出更加孤立的样本作为筛选工单,提高了工单检测的准确率。
[0165]
步骤三、基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0166]
本发明一可选实施例中,所述预构建的文本识别模型可以为预训练的深度神经网络,例如vgg16、faster r

cnn等。
[0167]
具体地,所述基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度,包括:
[0168]
获取与所述筛选工单集合的标记标签相同的历史异常工单;
[0169]
利用所述文本识别模型提取所述历史异常工单中的工单特征,得到历史异常特征;
[0170]
计算所述筛选工单集合中各工单特征与所述历史异常特征的欧氏距离,并将所述欧氏距离作为所述特征相似度。
[0171]
本发明一可选实施例中,可以根据所述筛选工单集合中各工单的标记标签从历史异常工单数据池中查找到相同标记标签的异常工单图片,利用文本识别模型中的卷积层对所述异常工单图片进行卷积池化处理,得到工单特征图,提取所述工单特征图中的特征序列,利用文本识别模型中的循环层(可以由双向lstm循环神经网络构成)预测特征序列中的每一个特征向量的标签分布,最后使用转录层(可以为ctc模型)整合预测的标签分布,得到所述历史异常特征。
[0172]
可选的,所述计算所述筛选工单集合中各工单特征与所述历史异常特征的欧氏距离,包括:
[0173]
利用下述公式计算所述欧氏距离:
[0174][0175]
其中,d为所述欧氏距离,n为特征维度,x
i
为所述工单特征,y
j
为所述历史异常特征。
[0176]
本发明实施例中,由于工单的异常特征具有相关性,通过提取历史异常工单中的异常特征,并将计算得到的特征相似度作为工单检测的一项异常指标,进一步提高了工单检测的准确率。
[0177]
步骤四、利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度。
[0178]
本发明实施例中,所述原子规则模型包括公共规则模型及个性化规则模型。所述公共规则模型用来判断所述筛选工单是否满足统一的规则,所述个性化规则模型用来判断不同类型的筛选工单是否满足各类型所要求的规则。所述公共规则模型可以为特征字数对比规则或特征黑名单对比规则等。例如,根据工单的特征字数输出不同的第一异常相似度,或者查找预设的特征黑名单,根据查找到的目标特征次数中输出不同的第一异常相似度。个性化规则模型可以为工单类型对比规则,例如,要求上报的工单类型为a,则来源渠道必须为a,当来源渠道和类型不一致时,个性化规则模型会给出不同的分数。
[0179]
具体地,所述利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度,包括:
[0180]
根据筛选工单集合中的工单特征匹配所述原子规则模型中的公共规则模型,并将匹配得到的分数作为第一异常相似度;
[0181]
根据筛选工单集合中的工单特征匹配所述原子规则模型中的个性化规则模型,并将匹配得到的分数作为第二异常相似度。
[0182]
本发明实施例中,比如,工单1的问题描述有25个字,则从所述公共规则模型中匹
配到相应的分数为5,工单1的类型和来源渠道一致,则匹配到的分数为0。通过维护不同的公共规则模型和个性化规则模型可以针对实际业务场景进行调整,提高了工单检测的实用性。
[0183]
步骤五、基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0184]
具体地,所述基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单,包括:
[0185]
利用下述公式计算所述筛选工单集合中工单的异常值:
[0186]
l=λ1l1 λ2l2 λ3l3[0187]
将所述异常值大于预设的第二异常阈值的工单确定为所述异常工单。
[0188]
其中,l为所述异常值,λ1、λ2、λ3为预设权重,l1为所述特征相似度,l2为所述第一异常相似度,l3为所述第二异常相似度。
[0189]
本发明通过标记工单的标记标签对标记工单集合进行分类,并基于孤立森林算法得到筛选工单集合,可以筛选出更加孤立的样本作为筛选工单,提高了异常工单检测的准确率。并且,利于文本识别模型计算特征相似度,以及利用原子规则模型计算异常相似度,可以多维度的对工单进行异常检测,进一步提高了工单异常检测的准确率。因此本发明提出的异常工单识别装置,可以解决异常工单检测准确率较低的问题。
[0190]
如图3所示,是本发明一实施例提供的实现异常工单识别方法的电子设备的结构示意图。
[0191]
所述电子设备可以包括处理器10、存储器11、通信接口12和总线13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如异常工单识别程序。
[0192]
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如异常工单识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0193]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如异常工单识别程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0194]
所述通信接口12用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi

fi接口、蓝牙接口
等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0195]
所述总线13可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线13可以分为地址总线、数据总线、控制总线等。所述总线13被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0196]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0197]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi

fi模块等,在此不再赘述。
[0198]
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi

fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
[0199]
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light

emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0200]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0201]
所述电子设备中的所述存储器11存储的异常工单识别程序是多个指令的组合,在所述处理器10中运行时,可以实现:
[0202]
获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
[0203]
根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0204]
基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0205]
利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度;
[0206]
基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0207]
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
[0208]
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)。
[0209]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0210]
获取标记工单集合,根据所述标记工单集合中标记工单的标记标签对所述标记工单集合进行分类,得到分类工单集合;
[0211]
根据所述分类工单集合的工单特征建立孤立森林,利用所述孤立森林对所述分类工单集合进行筛选,得到筛选工单集合;
[0212]
基于预构建的文本识别模型计算所述筛选工单集合中工单的特征相似度;
[0213]
利用预构建的原子规则模型计算所述筛选工单集合中工单的异常相似度;
[0214]
基于所述特征相似度及所述异常相似度计算所述筛选工单集合中工单的异常值,根据所述异常值得到异常工单。
[0215]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0216]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0217]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0218]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0219]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0220]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0221]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0222]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0223]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0224]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献