一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

骚扰电话异常检测方法、装置及计算设备与流程

2022-03-16 02:04:14 来源:中国专利 TAG:


1.本发明实施例涉及通信技术领域,具体涉及一种骚扰电话异常检测方法、装置、计算设备及存储介质。


背景技术:

2.随着近年来骚扰电话呈现出的高发趋势,网络侧和终端侧各厂商都推出了各种骚扰电话分析与拦截产品。其中网络侧主要是运营商基于通话信令数据承建的骚扰电话分析模型与拦截系统;终端侧主要是基于互联网厂商所提供的各种应用程序(application,app),如360手机卫士、猎网系统等。终端侧产品主要是基于终端用户点击举报,生产骚扰电话数据库,并将数据下载到终端,来电时给与提醒。
3.已有的针对骚扰电话治理的检测方案主要有以下局限。对于网络侧,骚扰电话分类较为单一,一般只按照信令属性进行划分,没有进行细分骚扰电话属性,如按主叫电话的所属行业、主叫征信情况等,数据维度和提取的特征数据相对有限,处理精度不足。对于终端侧,目前的app方式需用户开通权限,涉及用户隐私,当前只覆盖了部分的智能终端用户,非智能终端用户无法覆盖。在实际使用时必须依赖已有数据,无法及时应对新出现的骚扰电话,存在滞后性;同时也可能对运营商的已回收号码进行错误拦截。且数据来源全部为终端用户,存在遗漏、恶意标记等情况。


技术实现要素:

4.鉴于上述问题,本发明实施例提供了一种骚扰电话异常检测方法、装置、计算设备及存储介质,克服了上述问题或者至少部分地解决了上述问题。
5.根据本发明实施例的一个方面,提供了一种骚扰电话异常检测方法,所述方法包括:获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码。
6.在一种可选的方式中,所述获取通话记录话单数据,包括:从业务域和运营域采集所述通话记录话单数据,并根据所述通话记录话单数据统计行为特征。
7.在一种可选的方式中,所述骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。
8.在一种可选的方式中,所述根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据之前,包括:获取历史通讯记录话单数据以及历史互联网爬虫数据,并根据所述历史通讯记录话单数据统计历史行为特征;根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树;根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证并调整所述决策树的参数,确定最终的所述决策树;使用所述决策树建立所述骚扰电话预警模型。
9.在一种可选的方式中,所述根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树,包括:根据所述历史行为特征获取信息增益;根据所述信息增益从最大值的一项开始从大到小依次建立分支,构建决策树;根据所述历史互联网爬虫数据对所述决策树进行剪枝操作,在所述信息增益小于预设阈值时停止构建所述决策树。
10.在一种可选的方式中,所述根据所述历史行为特征获取信息增益,包括:根据所述历史行为特征获取与所述历史行为特征对应的经验熵与条件熵;根据所述经验熵与所述条件熵计算信息增益。
11.在一种可选的方式中,所述将所述骚扰电话进行下发以关停所述骚扰电话号码,包括:将所述骚扰电话号码自动下发到所属公司通知机构关停;或者将所述骚扰电话号码与已有自动处置系统进行关联形成自动关停。
12.根据本发明实施例的另一个方面,提供了一种骚扰电话异常检测装置,所述装置包括:数据获取单元,获取通话记录话单数据以及互联网爬虫数据;模型分析单元,用于根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;二次复核单元,用于根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;号码关停单元,用于将所述骚扰电话进行下发以关停所述骚扰电话号码。
13.根据本发明实施例的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
14.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述骚扰电话异常检测方法的步骤。
15.根据本发明实施例的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行上述骚扰电话异常检测方法的步骤。
16.本发明实施例通过获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码,能够基于多种数据源进行处理,更加符合实用场景,能够提高检测的准确性和完备性。
17.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
18.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
19.图1示出了本发明实施例提供的骚扰电话异常检测系统的架构示意图;
20.图2示出了本发明实施例提供的骚扰电话异常检测方法的流程示意图;
21.图3示出了本发明实施例提供的骚扰电话异常检测方法的构建骚扰电话预警模型
的流程示意图;
22.图4示出了本发明实施例提供的骚扰电话异常检测方法的骚扰电话预警模型的行为特征示意图;
23.图5示出了本发明实施例提供的又一骚扰电话异常检测方法的流程示意图;
24.图6示出了本发明实施例提供的骚扰电话异常检测装置的结构示意图;
25.图7示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
26.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
27.本发明实施例针对骚扰电话治理异常检测的需求,提供了一种综合性的骚扰电话异常检测系统,是基于现有通用大数据架构,采用hadoop分布式计算框架中mapreduce、hive、spark分布式技术,实现网内开卡静默预警模型、高危代理商发卡预警、可疑基站呼叫预警、高危用户预警、猫池骚扰数据治理预警等场景的分析、预警。
28.骚扰电话异常检测系统的具体架构如图1所示,分为三个部分:安全数据中心,安全分析子平台,安全态势管理子平台。采集的外部数据在安全数据中心进行初步的整理和储存,然后使用安全分析子平台对该数据进行进一步的分析,将分析的结果输出到安全态势管理子平台进行展示与自动化处置。
29.安全数据中心用于收集原始数据,对数据进行初步的分类和整理,并为上层分析提供资源与接口。原始数据在安全数据中心中进行数据清洗,标准化,补齐,打标签等操作以后存储在hadoop分布式文件系统(hadoop distributed file system,hdfs)中,为接下来的分析做准备。同时,安全数据中心还为分析提供相应的接口(api,idbc,ftp)和资源,包括sql,spark,hdfs,弹性搜索(elasticsearch,es)等。该层同时提供元数据管理,组建管理,运行监控的功能。其中,元数据管理是灵活管理数据表单,支持数据采集的断点续传,数据传输校验,并提供统一的接口方便的接入新的数据,为未来的扩容做准备。组件管理是对采集组件,分析组件,存储组件灵活管理,提供组件升级,组件重启等功能。运行监控是实时监控各组件的运行状态即系统资源的利用情况。
30.安全分析子平台用于为骚扰电话业务异常进行分析,包括基础算法库和各种业务异常分析模型。分析模型包含高频通话监控模型、高危用户监视模型、小时检测模型及其他异常检测模型等。该层同时提供引擎管理和运行监控的功能,其中,引擎管理灵活加入新的检测引擎,以适应更多的检测场景。同时,灵活的对每种引擎的算法进行升级与调试。运行监控是灵活监控每种引擎的运行状态,包括是否正确运行,是否死机等。
31.安全态势管理子平台提供态势呈现功能,表现为可视化的威胁预警与风险通告,并可按需求对分析结果进行自动化处置。其中,态势呈现功能从时间、空间等维度,对各种安全风险的现状、历史、发展趋势等进行图标形式的可视化展示。
32.本发明实施例基于大量历史通讯记录话单数据的统计去发现骚扰通话行为与普通用户的通话行为的特征差别,然后根据特征判别通话记录。在此基础上额外导入了互联
网爬虫数据。使用了爬虫数据作为额外维度的决策树即为机器学习的手段,利用该手段进行电信骚扰行为特征的学习。
33.图2示出了本发明实施例提供的骚扰电话异常检测方法的流程示意图。该骚扰电话异常检测方法应用于运营商服务器端,如图2所示,骚扰电话异常检测方法包括:
34.步骤s11:获取通话记录话单数据以及互联网爬虫数据。
35.本发明实施例应用搭建的专门的大数据存储平台,使用mapreduce、hive、spark等现有的分布式架构。从业务域和运营域获取原始数据,原始数据包括以下几种:
36.业务运营支撑系统(business and operation support system,boss)基础数据,包括用卡单位数据,发卡单位数据,发卡信息数据。
37.boss业务数据,包括语音话单,短信话单,流量话单等话单数据。
38.用户入网数据,包括入网信息,入网所在渠道信息等。
39.用户资料数据,包括计费数据、上网数据等。
40.在本发明实施例中,从业务域和运营域采集所述通话记录话单数据,并根据所述通话记录话单数据统计行为特征。具体对采集的通话记录话单数据按照所属类别划分不同类别的行为特征。
41.本发明实施例的爬虫数据来源广泛:多网络平台的电话标记数据,例如百度、360等互联网安全厂商;多维度数据,包括用户行业信息、企业信息、信用信息、房产和广告推销信息等。
42.步骤s12:根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据。
43.在步骤s12之前,需要构建骚扰电话预警模型。具体地,如图3所示,包括:
44.步骤s121:获取历史通讯记录话单数据以及历史互联网爬虫数据,并根据所述历史通讯记录话单数据统计历史行为特征。
45.具体地数据处理方法与步骤s11中的相同,对所采集的数据按照所属类别进行划分不同类别的历史行为特征。
46.步骤s122:根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树。
47.首先根据所述历史行为特征获取信息增益。具体地,根据所述历史行为特征获取与所述历史行为特征对应的经验熵与条件熵;根据所述经验熵与所述条件熵计算信息增益。不同类别特征所有可能值所包含的期望满足以下关系式:其中,n为分类数目,p(xi)为特征的值。本发明实施例定义样本数据表中的数据为训练数据集d,则训练数据集d的经验熵为h(d),|d|表示其样本容量,即样本个数。设有k个类特征ck,k=1,2,3,
···
,k,|ck|为属于类特征ck的样本个数,则可应用以下关系式计算与所述历史行为特征对应的经验熵:条件熵h(y∣x)表示在已知随机变量x的条件下随机变量y的不确定性,随机变量x给定的条件下随机变量y的条件熵(conditional entropy)h(y|x),即随机变量x给定条件下y的条件概率分布的熵对x的数学期望。应用以下关系式计算与所述历史行为特征对应的条件熵:其中,pi=p(x=xi),h(y|
x)为特征x给定条件下y的条件概率分布的熵对特征x的数学期望。对于每项特征而言,信息增益为经验熵与条件熵之差。因此,应用以下关系式计算信息增益:g(d,a)=h(d)-h(d|a),其中,a为所述特征。
48.然后根据所述信息增益从最大值的一项开始从大到小依次建立分支,构建决策树。
49.由于决策树本身存在的过拟合(over-fitting)情况,为了提高电信骚扰行为特征分类器的准确率和对新数据的识别能力,需要仔细选择构建决策树时的取值。在本发明实施例中,根据所述历史互联网爬虫数据对所述决策树进行剪枝操作,在所述信息增益小于预设阈值时停止构建所述决策树。即使用互联网数据的属性维度对决策树进行剪枝操作,使得当信息增益小于该数据所定的预设阀值时则停止构建决策树,由此确定适合的决策树。
50.步骤s123:根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证并调整所述决策树的参数,确定最终的所述决策树。
51.决策树构建完成后,需要对决策树导入数据进行验证,根据计算后得出的评估指标值来判断决策树的优劣。具体根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证,根据验证结果调整构建决策树所设计的参数,最后得到最终可用的决策树。其中,随机二次抽样法适用于较大数据量,自助抽样法适用于较少数据量。评估指标包含以下四种:分类准确度,召回率,虚警率,精确度。
52.步骤s124:使用所述决策树建立所述骚扰电话预警模型。
53.在本发明实施例中,使用所述决策树建立所述骚扰电话预警模型,此即为实际生产环境中使用的骚扰电话预警模型模型。骚扰电话预警模型的行为特征如图4所示,包括主叫统计特征和被叫统计特征。主叫统计特征包括呼叫频率、呼空率、被叫地域离散率、时间分布、被叫号码离散率、通话时长均值等。被叫统计特征包括被呼叫频率、时间分布、主叫号码离散率、主叫号码地域离散率等。骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。不同的骚扰电话预警模型适用不同类型的骚扰电话检测,对应的决策树的建立方法与前面相同,只是包括不同类别的行为特征。
54.在步骤s12中,应用已建立的骚扰电话预警模型对通话记录话单数据进行分析,具体可以应用其中一种或多种骚扰电话预警模型在各维度对原始数据进行分析过滤,将其中部分符合骚扰电话预警模型标准的数据标记为预警数据。
55.步骤s13:根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码。
56.引入互联网爬虫数据进行校验,具体应用互联网爬虫数据作为额外维度对二次复核的数据进行较验,能够更好区分是否为真实骚扰电话号码,从而获得真实的骚扰电话号码。
57.步骤s14:将所述骚扰电话进行下发以关停所述骚扰电话号码。
58.在本发明实施例中,对于符合骚扰电话预警模型且校验通过符合骚扰特征的骚扰电话号码,将所述骚扰电话号码自动下发到所属公司通知机构关停。或者也可以将所述骚扰电话号码与已有自动处置系统进行关联形成自动关停,提升关停的时效性。
59.本发明实施例通过分析发现疑似骚扰电话的通话行为与普通用户的通话行为的特征差别,使用了支持决策树(decision tree)这一机器学习手段进行通讯骚扰行为的学习,建立骚扰电话预警模型,从而应用骚扰电话预警模型发现高危疑似骚扰电话号码,并进行预警处置。完整的骚扰电话异常检测方法如图5所示,包括:
60.步骤s201:获取原始数据。
61.具体地,从业务域和运营域获取原始数据,同时还从互联网获取互联网爬虫数据。原始数据包括通话记录话单数据、用户资料数据等。
62.步骤s202:应用骚扰电话预警模型进行分析。
63.骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。可以应用其中一种或多种骚扰电话预警模型在各维度对原始数据进行分析过滤,将其中部分符合骚扰电话预警模型标准的数据标记为预警数据。
64.步骤s203:应用互联网爬虫数据进行二次复核。
65.具体应用互联网爬虫数据作为额外维度对二次复核的数据进行较验,能够更好区分是否为真实骚扰电话号码。
66.步骤s204:判断是否符合关停条件。如果否,则执行步骤s205;如果是,则跳转至执行步骤s206。
67.具体地,如果符合骚扰电话预警模型且应用互联网爬虫数据校验通过,则符合关停条件,为真实的骚扰电话号码。否则,不符合关停条件。
68.步骤s205:不予处置。
69.如果不符合骚扰电话预警模型,和/或应用互联网爬虫数据校验未通过,不符合关停条件,则不进行任何处理,保持原状态不变。
70.步骤s206:自动下发骚扰电话号码。
71.如果符合骚扰电话预警模型且应用互联网爬虫数据校验通过,为真实的骚扰电话号码,则将真实的骚扰电话号码下发到所属公司,或与已有自动处置系统进行关联。
72.步骤s207:关停骚扰电话号码。
73.通过骚扰电话号码下发到的所属公司通知机构关停对应的骚扰电话号码,或者也可以是与骚扰电话号码关联的已有自动处置系统自动对骚扰电话号码进行关停处理。
74.本发明实施例的骚扰电话异常检测方法采用了更多的数据源,除主叫的信令数据外还接入了计费话单、入网信息、流量信息等相关信息构建骚扰电话预警模型。基于多种数据源的骚扰电话预警模型可以提高分析结果的准确性和完备性。并且本发明实施例除了常规骚扰电话预警模型分析外还导入了互联网爬虫数据,二者融合后的数据源能更好区分其中特征相似的正常通话和实际骚扰电话,分析结果更加符合实用场景,且准确可靠,是一种创新型的分析手段,对以后建立新的骚扰电话分析系统作出了有力指导。针对生成的骚扰电话分析结果,可按业务实际需求将数据进一步进行其它处理,提升了数据的灵活性与适应广度,提高了生产效率。
75.本发明实施例通过获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码,能够基于多种数据源进行处理,更加符合实用场景,能够提高检
测的准确性和完备性。
76.图6示出了本发明实施例的骚扰电话异常检测装置的结构示意图。如图6所示,该骚扰电话异常检测装置包括:数据获取单元601、模型分析单元602、二次复核单元603、号码关停单元604以及模型构建单元605。其中:
77.数据获取单元601获取通话记录话单数据以及互联网爬虫数据;模型分析单元602用于根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;二次复核单元603用于根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;号码关停单元604用于将所述骚扰电话进行下发以关停所述骚扰电话号码。
78.在一种可选的方式中,数据获取单元601用于:从业务域和运营域采集所述通话记录话单数据,并根据所述通话记录话单数据统计行为特征。
79.在一种可选的方式中,所述骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。
80.在一种可选的方式中,模型构建单元605用于:获取历史通讯记录话单数据以及历史互联网爬虫数据,并根据所述历史通讯记录话单数据统计历史行为特征;根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树;根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证并调整所述决策树的参数,确定最终的所述决策树;使用所述决策树建立所述骚扰电话预警模型。
81.在一种可选的方式中,模型构建单元605用于:根据所述历史行为特征获取信息增益;根据所述信息增益从最大值的一项开始从大到小依次建立分支,构建决策树;根据所述历史互联网爬虫数据对所述决策树进行剪枝操作,在所述信息增益小于预设阈值时停止构建所述决策树。
82.在一种可选的方式中,模型构建单元605用于:根据所述历史行为特征获取与所述历史行为特征对应的经验熵与条件熵;根据所述经验熵与所述条件熵计算信息增益。
83.在一种可选的方式中,号码关停单元604用于:将所述骚扰电话号码自动下发到所属公司通知机构关停;或者将所述骚扰电话号码与已有自动处置系统进行关联形成自动关停。
84.本发明实施例通过获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码,能够基于多种数据源进行处理,更加符合实用场景,能够提高检测的准确性和完备性。
85.本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的骚扰电话异常检测方法。
86.可执行指令具体可以用于使得处理器执行以下操作:
87.获取通话记录话单数据以及互联网爬虫数据;
88.根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;
89.根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;
90.将所述骚扰电话进行下发以关停所述骚扰电话号码。
91.在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
92.从业务域和运营域采集所述通话记录话单数据,并根据所述通话记录话单数据统计行为特征。
93.在一种可选的方式中,所述骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。
94.在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
95.获取历史通讯记录话单数据以及历史互联网爬虫数据,并根据所述历史通讯记录话单数据统计历史行为特征;
96.根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树;
97.根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证并调整所述决策树的参数,确定最终的所述决策树;
98.使用所述决策树建立所述骚扰电话预警模型。
99.在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
100.根据所述历史行为特征获取信息增益;
101.根据所述信息增益从最大值的一项开始从大到小依次建立分支,构建决策树;
102.根据所述历史互联网爬虫数据对所述决策树进行剪枝操作,在所述信息增益小于预设阈值时停止构建所述决策树。
103.在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
104.根据所述历史行为特征获取与所述历史行为特征对应的经验熵与条件熵;
105.根据所述经验熵与所述条件熵计算信息增益。
106.在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
107.将所述骚扰电话号码自动下发到所属公司通知机构关停;或者
108.将所述骚扰电话号码与已有自动处置系统进行关联形成自动关停。
109.本发明实施例通过获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码,能够基于多种数据源进行处理,更加符合实用场景,能够提高检测的准确性和完备性。
110.本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任意方法实施例中的骚扰电话异常检测方法。
111.可执行指令具体可以用于使得处理器执行以下操作:
112.获取通话记录话单数据以及互联网爬虫数据;
113.根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;
114.根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号
specific integrated circuit),或者是被配置成实施本发明实施例的一个或各个集成电路。设备包括的一个或各个处理器,可以是同一类型的处理器,如一个或各个cpu;也可以是不同类型的处理器,如一个或各个cpu以及一个或各个asic。
140.存储器706,用于存放程序710。存储器706可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
141.程序710具体可以用于使得处理器702执行以下操作:
142.获取通话记录话单数据以及互联网爬虫数据;
143.根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;
144.根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;
145.将所述骚扰电话进行下发以关停所述骚扰电话号码。
146.在一种可选的方式中,所述程序710使所述处理器执行以下操作:
147.从业务域和运营域采集所述通话记录话单数据,并根据所述通话记录话单数据统计行为特征。
148.在一种可选的方式中,所述骚扰电话预警模型包括:高频电话预警模型、猫池预警模型、高危用户监控模型、静默开卡监控模型、小时模型。
149.在一种可选的方式中,所述程序710使所述处理器执行以下操作:
150.获取历史通讯记录话单数据以及历史互联网爬虫数据,并根据所述历史通讯记录话单数据统计历史行为特征;
151.根据所述历史行为特征以及所述历史互联网爬虫数据构建决策树;
152.根据样本数量采用随机二次抽样法或自助抽样法对所述决策树进行验证并调整所述决策树的参数,确定最终的所述决策树;
153.使用所述决策树建立所述骚扰电话预警模型。
154.在一种可选的方式中,所述程序710使所述处理器执行以下操作:
155.根据所述历史行为特征获取信息增益;
156.根据所述信息增益从最大值的一项开始从大到小依次建立分支,构建决策树;
157.根据所述历史互联网爬虫数据对所述决策树进行剪枝操作,在所述信息增益小于预设阈值时停止构建所述决策树。
158.在一种可选的方式中,所述程序710使所述处理器执行以下操作:
159.根据所述历史行为特征获取与所述历史行为特征对应的经验熵与条件熵;
160.根据所述经验熵与所述条件熵计算信息增益。
161.在一种可选的方式中,所述程序710使所述处理器执行以下操作:
162.将所述骚扰电话号码自动下发到所属公司通知机构关停;或者
163.将所述骚扰电话号码与已有自动处置系统进行关联形成自动关停。
164.本发明实施例通过获取通话记录话单数据以及互联网爬虫数据;根据所述通话记录话单数据应用构建的骚扰电话预警模型进行分析,获取预警数据;根据所述互联网爬虫数据对所述预警数据进行二次复核,获取真实的骚扰电话号码;将所述骚扰电话进行下发以关停所述骚扰电话号码,能够基于多种数据源进行处理,更加符合实用场景,能够提高检
测的准确性和完备性。
165.在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
166.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
167.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
168.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
169.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献