一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

诈骗号码识别及其模型训练方法、相关设备及存储介质与流程

2022-07-30 05:21:36 来源:中国专利 TAG:


1.本发明涉及计算机处理技术领域,尤其涉及机器学习技术领域,具体涉及一种诈骗号码识别方法及设备、诈骗号码识别模型的训练方法及设备、电子设备及存储介质。


背景技术:

2.随着通信网络技术的发展,人们对电信服务的质量要求也在不断的提高。对电信诈骗行为进行精准分析成为了迫在眉睫的问题。
3.相关技术中,通常采用如下方案进行诈骗号码的识别,将诈骗号码作为正样本,将其它号码如用户使用的号码作为负样本,将正样本和负样本作为训练样本对机器学习模型进行训练,利用训练出的机器学习模型对待识别的号码进行其是否是诈骗电话的识别。然而,在实际应用中,正样本的数量远远小于负样本的数量,这种正负样本之间的不均衡性,导致了训练出的机器学习模型的准确性欠佳,从而无法实现对诈骗电话的精准识别。


技术实现要素:

4.本发明提供了一种诈骗号码识别方法及设备、诈骗号码识别模型的训练方法及设备、电子设备及存储介质,以至少解决相关技术中存在的以上技术问题。
5.根据本发明的第一方面,提供了一种诈骗号码识别方法,所述方法包括:获取待识别号码以及所述待识别号码的通信相关数据;将所述待识别号码以及所述待识别号码的通信相关数据输入至识别模型的第一层,得到所述待识别号码中的非正常类号码;所述非正常类号码包括服务类号码和疑似诈骗类号码;将所述非正常类号码及所述非正常类号码的通信相关数据输入至识别模型的第二层,得到所述待识别号码中的疑似诈骗类号码;将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码。
6.根据本发明的第二方面,提供了一种诈骗号码识别模型的训练方法,所述诈骗号码识别模型包括第一层、第二层和第三层;获取第一类号码样本,所述第一类号码样本包括正常类电话号码,采用第一类号码样本以及第一类号码样本的通信相关数据对识别模型的第一层进行训练;获取第二类号码样本,所述第二类号码样本包括服务类电话号码,采用第二类号码样本以及第二类号码样本的通信相关数据对识别模型的第二层进行训练;获取第三类号码样本,所述第三类号码样本包括诈骗类电话号码,采用第三类号码样本以及第三类号码样本的通信相关数据对识别模型的第三层进行训练。
7.根据本发明的第三方面,提供了一种诈骗号码识别设备,所述设备包括:第一获取单元,用于获取待识别号码以及所述待识别号码的通信相关数据;第二获取单元,用于将所述待识别号码以及所述待识别号码的通信相关数据输入
至识别模型的第一层,得到所述待识别号码中的非正常类号码;所述非正常类号码包括服务类号码和疑似诈骗类号码;第三获取单元,用于将所述非正常类号码及所述非正常类号码的通信相关数据输入至识别模型的第二层,得到所述待识别号码中的疑似诈骗类号码;第四获取单元,用于将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码。
8.根据本发明的第四方面,提供了一种诈骗号码识别模型的训练设备,所述设备包括:第一获取与训练单元,用于获取第一类号码样本,所述第一类号码样本包括正常类电话号码,采用第一类号码样本以及第一类号码样本的通信相关数据对识别模型的第一层进行训练;第二获取与训练单元,用于获取第二类号码样本,所述第二类号码样本包括服务类电话号码,采用第二类号码样本以及第二类号码样本的通信相关数据对识别模型的第二层进行训练;第三获取与训练单元,用于获取第三类号码样本,所述第三类号码样本包括诈骗类电话号码,采用第三类号码样本以及第三类号码样本的通信相关数据对识别模型的第三层进行训练。
9.根据本发明的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明所述的方法。
10.根据本发明的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本发明所述的方法。
11.利用本发明技术方案,利用识别模型的三层进行逐一识别,与相关技术相比,可实现对诈骗电话的精准识别,提高对诈骗电话的识别准确性。
12.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。
14.图1示出本发明实施例诈骗电话识别方法的实现流程示意图一;图2示出本发明实施例诈骗电话识别方法的实现流程示意图二;图3示出本发明实施例诈骗号码识别模型的训练方法的实现流程示意图;图4示出本发明实施例诈骗号码识别模型的训练方法的实现框图;图5示出本发明实施例利用识别模型对诈骗号码进行识别的实现框图;
图6示出本发明实施例的诈骗电话识别设备的组成结构示意图;图7示出本发明实施例诈骗号码识别模型的训练设备的组成结构示意图;图8示出了本发明实施例一种电子设备的组成结构示意图。
具体实施方式
15.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
16.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
17.在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以、除了在这里图示或描述的以外的顺序实施。
18.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
19.应理解,在本技术的各种实施例中,各实施过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
20.相关技术中,利用正样本(诈骗号码)和负样本(其它号码如用户使用的号码)训练出的机器学习模型对待识别号码是否为诈骗电话的识别不够准确的情形可以是:将非诈骗电话识别为了诈骗电话,或者将诈骗电话识别为了非诈骗电话,即实现了错误识别。在实际应用中,非诈骗电话包括正常类的电话号码(简称为正常类号码,即用户使用的电话号码),还包括用户从事专门的行业而产生的正常入网的电话号码,如快递、外卖等号码(称这类电话号码为服务类号码)。由于快递、外卖等号码存在有主叫频率高,被叫频率低等特性,诈骗电话也具有这样的特性,所以容易将快递、外卖等号码错误地识别为诈骗电话,无法实现精准识别。
21.为方便描述,本发明实施例中的诈骗号码识别模型(简称为识别模型)包括有三层:第一层、第二层和第三层,通过识别模型的这三层的逐层识别,与相关技术中的方案(可称其为单层识别方案)相比,利用三层进行逐一识别,实现了不同类号码的筛选,可实现对诈骗电话的精准识别,提高对诈骗电话的识别精准性、准确性。
22.本发明实施例中的诈骗电话识别方法、诈骗电话模型的训练方法可应用于任何合理的电子设备,如终端或服务器。其中,所述终端包括但不限于:台式机、笔记本电脑、一体机、手机等设备。服务器包括但不限定于普通服务器、云服务器或集群服务器。
23.在工业上,考虑到本发明实施例的技术方案可能会被应用在诸如反欺诈等专业领域中,诈骗电话识别方法、诈骗电话模型的训练方法可应用在的电子设备包括但不限定于在前述专业领域中使用的反欺诈平台、系统、或反欺诈服务器。
24.由于无法一一枚举本发明实施例可应用的电子设备,所以任何合理的设备均覆盖
在本发明的保护范围内。
25.本发明实施例中,为方便描述,将实际应用中使用到的电话号码划分为以下三类:正常类号码、服务类号码和诈骗类号码。
26.本发明实施例提供一种诈骗电话识别方法,可应用于诈骗电话识别设备中,如图1所示,所述方法包括: s101:获取待识别号码以及所述待识别号码的通信相关数据;本步骤中,号码可以指的是电话号码或通过聊天软件进行通信时使用的号码如微信号、qq号等。优选为电话号码。
27.号码的通信相关数据包括以下参数中的至少之一:主叫次数、被叫次数、通话时长、套餐类型、使用的流量、短信数量、以及常用的联系人数量。
28.实际应用中,可利用专有平台或系统对通信网络中产生的通话情况进行监控,如通信双方的电话号码、通信双方的以上通信相关数据。待到需要时,可通过从专有平台或系统中对监控到的数据进行读取的方式获取到待识别号码以及待识别号码的通信相关数据。
29.s102:将所述待识别号码以及所述待识别号码的通信相关数据输入至识别模型的第一层,得到所述待识别号码中的非正常类号码;所述非正常类号码包括服务类号码和疑似诈骗类号码;s103:将所述非正常类号码及所述非正常类号码的通信相关数据输入至识别模型的第二层,得到所述待识别号码中的疑似诈骗类号码;s104:将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码。
30.在s102~s104中,识别模型为训练完成或训练好的模型。因为识别模型包括第一层、第二层和第三层,每层均训练完成或均训练好视为识别模型训练完成或训练好。识别模型的每层可视为识别模型的子模型,如第一子模型、第二子模型、第三子模型。三个子模型被训练完成的情况下即可视为由这三个子模型构成的识别模型训练完成。
31.识别模型、识别模型中的各子模型均可为机器学习中任何合理的深度学习模型、神经网络模型。
32.在s102中,基于识别模型的第一层,从待识别号码中筛选出非正常类号码。即,删除正常类号码,保留非正常类号码。
33.s103中,基于识别模型的第二层,从非正常类号码中筛选出疑似诈骗类号码。即,如果非正常类号码包括服务类号码和疑似诈骗类号码,则基于第二层可删除服务类号码,保留下可能是诈骗类的号码(疑似诈骗类号码)。
34.s104中,基于识别模型的第三层,从待识别号码中确定出诈骗号码。通俗来讲,确定疑似诈骗类号码为诈骗号码、或为非诈骗号码。
35.从s101~s104的方案可看出,本发明实施例中利用识别模型的三层,进行逐层的识别,基于不同层实现了不同类号码的筛选。上一层识别出的数据作为下一层的输入,以此实现对待识别号码中的诈骗号码的识别。通过这种逐层识别方案,随着每层的识别,越来越接近于期望的识别结果(对诈骗号码的识别)。这种逐层识别方案,可视为一种递进式识别方案,基于各层的识别实现对诈骗号码的识别。与相关技术中将待识别号码输入至机器学习模型、由机器学习模型给出待识别号码是否为诈骗号码的单层识别方案相比,利用三层进
行逐一识别(逐层识别),可实现对诈骗电话的精准识别,提高对诈骗电话的识别精准性、准确性。
36.可以理解,利用三层进行逐一识别,相当于利用三层中的每一层进行相应类号码的筛选,为一种递进式筛选方案。这种递进式筛选方案,可有效避免诈骗电话的漏识别、错误识别。
37.此外,本发明实施例中考虑到了服务类号码对诈骗类号码识别的影响,基于识别模型的第二层,实现服务类号码和疑似诈骗类号码的区分。与相关技术中的单层识别方案存在有将服务类号码错误识别为诈骗类号码的情形相比,本发明实施例中能够实现对诈骗号码的精准识别,避免误识别。
38.前述方案中,第一层可从待识别号码中筛选出非正常类号码的大致原理可以是:非正常类号码具有主叫频率高、被叫频率低等特点(这些特点可作为非正常类号码的通信特征来使用),正常类号码由于是用户使用的号码,其存在有主、被叫频率通常较为均衡(这些特点可作为正常类号码的通信特征来使用)。基于正常类和非正常类号码的这种差异,第一层对输入的待识别号码的通信相关数据进行分析,得出号码的主、被叫频率,基于主、被叫频率的大小实现对非正常类号码和正常类号码的区分,从而筛选出非正常类号码。
39.在非正常类号码中,诈骗类号码通常具有入网时长短、套餐为低档套餐、流量使用量低等特点(这些特点可作为诈骗类号码的通信特征来使用)。相对于诈骗类号码,服务类号码的入网时长长、套餐为高档套餐、流量使用量高等特点(这些特点可作为服务类号码的通信特征来使用)。基于诈骗类号码和服务类号码的这种差异,第二层对输入的非正常类号码的通信相关数据进行分析,得出非正常类号码在入网时长、套餐和流量使用等几种方面的情况,并基于对这几种情况的分析结果,实现对疑似诈骗类号码和服务类号码的区分,由此实现对疑似诈骗类号码的识别。以上内容第二层可从非正常类号码中筛选出疑似诈骗类号码的大致原理。
40.针对疑似诈骗类号码,第三层对输入的疑似诈骗类号码的通信相关数据进行分析,针对诈骗类号码具有的主叫频率高、被叫频率低、入网时长短、套餐为低档套餐、流量使用量低等特点,确定疑似诈骗类号码是诈骗号码还是非诈骗号码。以上内容可视为第三层确定疑似诈骗类号码是否是诈骗号码的大致原理。
41.作为本发明实施例的一个可选方案,如图2所示,s104的实现可通过以下的技术方案来实现。
42.s104’:将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码以及所述诈骗号码的诈骗类别。
43.在实际应用中,存在有仿冒公检法、仿冒客服、仿冒熟人(如领导)诈骗等几类诈骗类别。基于此,s104’中,基于识别模型的第三层,不仅可确定待识别号码中的诈骗号码,还能够确定诈骗号码属于前述任意两种或三种诈骗类别中的何种诈骗类别。由此,本发明实施例的技术方案,不仅可实现对诈骗号码的精准识别,还实现对诈骗类别的识别,识别信息丰富,实用性好。
44.另外,不同诈骗场景下具有不同的特性。例如,仿冒公检法的场景下,不法人员可仿冒公安机关的号码或以400开头的服务台号码、受害人的两次通话之间含有受害人拨打114的记录、诈骗分子与受害人间的通话多次且连续发生、拨打号码长度为3-7位。仿冒领导
的诈骗场景下,通话事件发生在14点后,主叫号码数大于被叫号码数。识别模型基于对疑似诈骗类号码的通信相关数据的分析,得到号码属于在何种诈骗场景下使用的号码,由此可实现对诈骗类别的精准识别。
45.在一个可选实施方式中,诈骗类别为识别模型的第三层基于对诈骗号码属于至少两个诈骗类别中的各诈骗类别的概率中的最大概率值而得到。通俗来讲,第三层对诈骗号码属于各诈骗类别的概率进行计算,并将最大概率值对应的诈骗类别作为诈骗号码的诈骗类别。由此可实现对诈骗类别的精准、准确识别。
46.前述的诈骗类别还可以包括其他任何合理的类别,不限于前述几种。
47.前述内容中,描述有正常类、服务类和诈骗类号码的特点,这些特点可视为号码的通信特征。号码的通信特征可基于对号码的通信相关数据的分析而得到。例如,在识别模型的第一层,基于对输入的待识别号码的通信相关数据的分析得到待识别号码的通信特征。在识别模型的第二层,基于对输入的非正常类号码的通信相关数据的分析得到非正常类号码的通信特征。考虑到识别模型本身具有强鲁棒性和稳定性,基于识别模型的第一、二层实现号码的通信特征的计算,可保证号码的通信特征的计算准确性,从而使得第一层、第二层准确地得到非正常类号码、疑似诈骗类号码,进而为精准识别诈骗号码提供了基础。
48.在第一层基于对输入的待识别号码的通信相关数据的分析得到待识别号码的通信特征的情况下,第一层可对待识别号码的通信特征和正常类号码的通信特征之间的差异与第一阈值进行比较,基于比较结果确定待识别号码为非正常类号码还是正常类号码。如果差异大于第一阈值,则确定待识别号码为非正常类号码。否则,即差异小于或等于第一阈值,则确定为正常类号码。
49.即,本发明实施例中,非正常类号码为识别模型的第一层在待识别号码的通信特征和正常类号码的通信特征之间的差异大于第一阈值时而得到的;其中,待识别号码的通信特征基于待识别号码的通信相关数据而得到。
50.这里,在某个待识别号码的通信特征与正常类号码的通信特征之间的差异大于第一阈值时,说明该待识别号码的通信特征与正常类号码的通信特征之间的差异大,为正常类号码的可能性小,为非正常类号码的可能性大。差异小于或等于第一阈值时,说明该待识别号码的通信特征与正常类号码的通信特征之间的差异小,为正常类号码的可能大,为非正常类号码的可能性小。
51.在第二层基于对输入的非正常类号码的通信相关数据的分析得到非正常类号码的通信特征的情况下,第二层可对非正常类号码的通信特征和服务类号码的通信特征之间的差异与第二阈值进行比较,基于比较结果确定非正常类号码为服务类号码还是疑似诈骗类号码。如果差异大于第二阈值,则确定非正常类号码为疑似诈骗类号码。否则,即差异小于或等于第二阈值,则确定为服务类号码。
52.即,本发明实施例中,疑似诈骗类号码为识别模型的第二层在非正常类号码的通信特征和服务类号码的通信特征之间的差异大于第二阈值时而得到;其中,非正常类号码的通信特征基于非正常类号码的通信相关数据而得到。
53.这里,在某个号码的通信特征与服务类号码的通信特征之间的差异大于第一阈值时,说明该号码的通信特征与服务类号码的通信特征之间的差异大,为服务类号码的可能性小,为疑似诈骗类号码的可能性大。差异小于或等于第二阈值时,说明该号码的通信特征
与服务类号码的通信特征之间的差异小,为服务类号码的可能大,为疑似诈骗类号码的可能性小。
54.其中,第一阈值为训练过程中针对第一层训练而出的阈值。第二阈值为在训练过程中针对第二层训练而出的阈值。
55.根据前述内容可知,识别模型的第一层和第二层均是基于号码的通信特征与相应类号码的通信特征之间的差异大小,实现对非正常类号码、疑似诈骗类号码的识别。且在这两层在大于为不同层的训练出的阈值的情况下,实现对非正常类号码、疑似诈骗类号码的识别,可保证识别精准性。进而为诈骗号码的识别提供了保障。
56.可以理解,相关技术中,对用于识别诈骗电话的机器学习模型的训练方案是:将采集到的正样本(诈骗号码)和负样本(其它号码如用户使用的号码)一同输入至待训练的机器学习模型以进行训练。与相关技术中的训练方案不同,本发明实施例中采用不同类号码样本对识别模型的第一层、第二层以及第三层分别进行训练。基于对识别模型的三层中的每层的分别训练而得到训练好的各层子模型。从而,由各层训练好的子模型构成训练好的识别模型。
57.本发明实施例提供的诈骗号码识别模型的训练方法,如图3所示,所述方法包括:s301:获取第一类号码样本,所述第一类号码样本包括正常类电话号码,采用第一类号码样本以及第一类号码样本的通信相关数据对识别模型的第一层进行训练;s302:获取第二类号码样本,所述第二类号码样本包括服务类电话号码,采用第二类号码样本以及第二类号码样本的通信相关数据对识别模型的第二层进行训练;s303:获取第三类号码样本,所述第三类号码样本包括诈骗类电话号码,采用第三类号码样本以及第三类号码样本的通信相关数据对识别模型的第三层进行训练。
58.s301、s302和s303无严格的先后顺序,还可以同时进行。
59.从s301~s303可见,本发明实施例中,识别模型包括三层,通过对识别模型的各层的训练实现对识别模型的训练。在对各层进行训练的方案中,采用不同类号码样本对识别模型的第一层、第二层以及第三层分别进行训练。采用不同类号码样本对各层进行训练,可为各层提供针对性的号码样本,以此实现对各层子模型的针对性训练,从而可实现各层子模型的训练精准性。从而利用各层子模型实现对不同类号码的识别,进而成功识别出诈骗号码,提高了诈骗号码的精准识别,提高识别准确性。
60.在s301~s303中,可通过从专有平台或系统中对监控到的三类号码进行读取的方式而获取到第一、第二和第三类号码样本。预先为各层子模型设置有损失函数。待训练的各层子模型的模型参数和超参数均不是最优的,训练的目的在于使模型参数和超参数最优。在实现上,在对每层的训练方案中,多次向每层输入对应类号码样本,针对每次输入的号码样本,对每层子模型中的模型参数和超参数进行调整,以使各层的损失函数达到最小,训练结束。损失函数达到最小时,子模型中的模型参数和超参数的取值达到最优。
61.其中,每层子模型作为机器学习模型,其模型参数通常包括模型的权重参数和偏置参数。模型的超参数包括学习率(learning rate)、迭代次数、激活函数等。关于机器学习模型的模型参数和超参数具体请参见相关说明,不赘述。
62.下面结合图4-图5对本发明实施例做进一步的详细说明。
63.本应用场景中,识别模型为机器学习模型。其中,识别模型的第一层和第二层为基
于自编码器的学习模型。为方面描述,将第一层的基于自编码器的学习模型视为第一子模型,将第二层的基于自编码的学习模型视为第二子模型。识别模型的第三层为xgboost分类器(第三层子模型)。
64.下面先对采用不同类号码样本对识别模型的三层分别进行训练的方案进行说明,然后再对基于训练好的三层实现对待识别号码中的诈骗电话的精准识别(或预测)的方案进行说明。
65.先来看训练阶段:读取监控到的多个正常号码作为第一类号码样本(正常样本)、多个外卖、快递电话作为第二类号码样本(外卖、快递样本)、以及读取监控到的多个诈骗号码作为第三类号码样本(诈骗样本或异常样本)。
66.如图4所示,将三类号码样本分别输入至对应的层中。具体的,将第一类号码样本以及第一类号码样本的通信相关数据输入至待训练的第一子模型,将第二类号码样本以及第二类号码样本的通信相关数据输入至待训练的第二子模型,以及将第三类号码样本以及第三类号码样本的通信相关数据输入至待训练的xgboost分类器。如此,实现对各层的针对性输入。与相关技术中将正负样本一同输入至待训练的机器学习模型的方案不同,本应用场景中对各层实现针对性的输入,各层子模型利用针对性的输入,可实现对各层子模型的精准、准确训练。
67.针对将正常样本以及正常样本的通信相关数据输入至待训练的第一子模型的情形,利用正常样本的通信相关数据,采用基于自编码器的机器学习算法学习正常样本的行为模式。正常样本的行为模式通常具有前述的正常样本的通信特征。通俗来讲,正常样本、快递外卖类样本以及诈骗样本的行为模式存在很大的差异,该差异请可参见前述对各类号码的通信特征的相关说明,不赘述。第一子模型通过最小化公式(1)所示的损失函数来学习正常样本的重构分布。
68.ꢀꢀꢀꢀ
(1)其中,m为正常样本的数量,m为大于1的正整数。表示正常样本的通信特征,为基于自编码器对正常样本重构出的(分布)特征。为正常样本的通信特征与基于自编码器对正常样本重构出的(分布)特征、二者的差值,可视为重构误差。
69.多次输入正常样本的通信相关数据,针对每次的输入,待训练的第一子模型会给出一个如公式(1)所示的重构误差。训练的目的在于通过调整待训练的第一子模型的模型参数和超参数,以使重构误差最小。
70.针对将外卖、快递类样本及其通信相关数据输入至待训练的第二子模型的情形,利用外卖、快递类样本的通信相关数据,采用基于自编码器的机器学习算法学习外卖、快递类样本的行为模式。样本的行为模式通常具有前述的外卖、快递类样本的通信特征。通俗来讲,快递、外卖类样本和诈骗样本在某些方面的行为模式是相似的,比如具有主叫率高,被叫率低的特点。但是它们在套餐、流量以及入网时长方面是有差异性的。诈骗样本通常入网时长短、套餐为低档套餐、流量使用量低,而快递、外卖类电话样本在这几个方面的值都比较高。因此,快递、外卖类样本和诈骗样本的行为模式是不同的,它们具有不同
的分布。第二子模型通过最小化公式(2)所示的损失函数来学习快递、外卖类样本的重构分布。
71.其中,为正常样本的数量,为大于1的正整数。表示快递、外卖类样本的通信特征,为基于自编码器对快递、外卖类样本重构出的(分布)特征。为快递、外卖类样本的通信特征与基于自编码器对快递、外卖类样本重构出的(分布)特征、二者的差值,可视为重构误差。
72.多次输入快递、外卖类样本的通信相关数据,针对每次的输入,待训练的第二子模型会给出一个如公式(2)所示的重构误差。训练的目的在于通过调整待训练的第二子模型的模型参数和超参数,以使公式(2)所示的重构误差最小。
73.针对将诈骗类样本及其通信相关数据输入至待训练的xgboost分类器的情形,通信相关数据包括但不限定于如下所示:比如主叫次数、被叫次数、通话时长、套餐类型、使用的流量、短信数量、常用的联系人数量。利用诈骗类样本的通信相关数据训练xgboost分类器。这是因为每个诈骗场景下具有自身的特点。例如,仿冒公检法的场景下,不法人员可仿冒公安机关的号码或以400开头的服务台号码、受害人的两次通话之间含有受害人拨打114的记录、诈骗分子与受害人间的通话多次且连续发生、拨打号码长度为3-7位。仿冒领导的诈骗场景下,通话事件发生在14点后,主叫号码数大于被叫号码数。利用诈骗样本的通信相关数据,构建诈骗样本在不同诈骗场景下的特点,作为不同诈骗场景下的样本特征,利用样本特征训练xgboost分类器,可学习出每个诈骗场景下的行为模式。xgboost分类器通过最小化如公式(3)所示的损失函数来学习每个诈骗场景的分布。
74.其中,表示样本的真实标签值,如标签值=1,表示样本为诈骗样本(异常样本),为已知值。表示基于xgboost分类器预测出的样本标签值,如样本标签值=1表示预测出样本为诈骗样本,样本标签值=0表示预测出样本不为诈骗样本。表示对数。可见,损失函数是与样本的真实标签值和预测出的标签值有关的,可视为一种分类误差。
75.多次输入诈骗类样本的通信相关数据,针对每次的输入,待训练的xgboost分类器会给出一个如公式(3)所示的分类误差。训练的目的在于通过调整待训练的xgboost分类器的模型参数和超参数,以使公式(3)所示的分类误差最小,即对于每个诈骗样本尽量能成功预测出该样本的真实标签值。
76.从前述的训练方案可看出,与相关技术中将正负样本一同输入至待训练的机器学习模型的方案不同,本应用场景中,对各层实现针对性的输入,利用针对性的输入,可实现对各层子模型的精准、准确训练。
77.可以理解,利用正常样本的针对性输入,识别模型的第一层可实现对正常样本的通信特征的更好学习,进而可从待识别号码中准确区分出正常类样本和非正常类样本。利用外卖、快递类样本的针对性输入,识别模型的第二层可实现对外卖、快递类样本的通信特征的更好学习,进而可从待识别号码中准确区分出外卖、快递类样本和其他类样本。利用诈
骗类样本的针对性输入,识别模型的第三层可实现对诈骗类样本的通信特征的更好学习,进而可从待识别号码中准确区分出诈骗类样本和其他类样本。
78.识别模型中的三层子模型的训练完成,由这三层子模型依次连接构成的模型即为识别模型。
79.需要说明的是,本发明实施例中的第一阈值、第二阈值作为第一子模型、第二子模型的一种超参数,在超参数被调整为最优的情况下,第一阈值和第二阈值也被调整为最优。即,在第一层子模型和第二层子模型被训练完成的情况下,第一阈值和第二阈值也被训练完成。本应用场景中的第一阈值、第二阈值均为0与1之间的数值,如为0.5、0.7等。第一阈值和第二阈值可以取值为相同,也可以取值为不同,视具体的训练而定。
80.再来看识别(或预测)阶段:读取从专有平台或系统中监控到的电话号码及其通信相关数据,将其作为待识别号码及待识别号码的通信相关数据。待识别号码的数量为多个,如以百、千、万等计量单位进行计算,以从大量的待识别号码中实现对诈骗电话的快速识别。
81.将待识别号码及其通信相关数据输入至识别模型的第一层,训练好的第一层子模型即训练好的第一子模型可基于采用的机器学习算法,利用待识别号码的通信相关数据,将待识别号码的通信特征进行重构。由于训练好的第一子模型已经学习到了正常样本的行为模式,所以可计算待识别号码的通信特征与正常类号码的通信特征之间的差异,并将差异值与训练出的第一阈值如0.5进行比较。如果某个待识别号码的通信特征与正常类号码的通信特征之间的差异值大于第一阈值,则确定该待识别号码为非正常类号码。否则,即差异小于或等于第一阈值如0.5,则确定为正常类号码。识别模型中的第一层基于待识别号码的通信特征和正常类号码的通信特征之间的差异与第一阈值的大小关系,实现对正常类和非正常类号码的区分,删除正常类号码,保留非正常类号码,可实现正常类号码和非正常类号码的准确区分。
82.在训练好的第一子模型识别出待识别号码中未存在非正常类号码的情况下,流程结束。否则,流程继续。即,在训练好的第一子模型识别出待识别号码中存在非正常类号码的情况下,将第一层子模型识别出的非正常类号码及其通信相关数据输入至识别模型的第二层。训练好的第二层子模型即训练好的第二子模型可基于采用的机器学习算法,利用非正常类号码的通信相关数据,将非正常类号码的通信特征进行重构。由于训练好的第二子模型已经学习到了外卖、快递类样本的行为模式,所以可计算非正常类号码的通信特征与外卖、快递类号码的通信特征之间的差异,并将差异值与训练出的第二阈值如0.7进行比较。如果某个非正常类号码的通信特征和外卖、快递类号码的通信特征之间的差异值大于第二阈值,则确定非正常类号码为疑似诈骗类号码。否则,即差异值小于或等于第二阈值,则确定为外卖、快递等服务类号码。
83.在训练好的第二子模型识别出非正常类号码中未存在疑似诈骗类号码的情况下,流程结束。否则,流程继续。即,在训练好的第二子模型识别出非正常类号码中存在疑似诈骗类号码的情况下,将第二子模型识别出的疑似诈骗类号码及其通信相关数据输入至识别模型的第三层。由于训练好的xgboost分类器已经学习到了不同诈骗场景下诈骗号码的特点,所以xgboost分类器可基于对疑似诈骗类号码的通信相关数据的分析,得到疑似诈骗类号码的通信特征,基于分类器学习到的不同诈骗场景下诈骗号码的特点或特征和疑似诈骗
类号码的通信特征,可识别或预测出疑似诈骗类号码是否为诈骗号码。如果识别或预测出其为诈骗号码,那么其为何种诈骗场景下的诈骗号码,即诈骗类别是何种。在具体实现上,xgboost分类器计算诈骗号码属于仿冒公检法这一诈骗场景下的号码的概率为0.4、属于仿冒熟人这一诈骗场景下的号码的概率为0.6、属于仿冒客服这一诈骗场景下的号码的概率为0.5,则xgboost分类器认为诈骗号码是在取得最大概率值的诈骗场景中使用的号码,即,诈骗类别为仿冒熟人这一类别。
84.由此可见,本应用场景中,利用三层子模型实现对诈骗电话的识别,相当于利用三层中的每一层进行相应类号码的筛选。通常来讲利用三层实现了从待识别号码到待识别号码中的非正常号码的筛选、从非正常号码到疑似诈骗类号码的筛选、以及从疑似诈骗类号码到诈骗号码的筛选。这种递进式筛选方案,经过每层的筛选均删除会影响诈骗号码筛选的其他干扰类号码如正常类号码和服务类号码,经过多层的筛选,逐层剔除会影响诈骗号码筛选的其他干扰类号码,可保证诈骗号码的识别精准性、准确性。
85.由于本发明实施例的诈骗电话识别方法为一种递进式识别方案,所以诈骗电话识别模型可视为一种递进式识别模型。从前面内容可知,本发明实施例中的递进式识别模型在组成结构上包括三层,该三层依次连接,如第一层连接第二层,第二层连接第三层。在工程上,递进式识别模型易于推广,可被广泛应用。
86.另外,本发明实施例中,考虑到了外卖、快递类号码对诈骗号码识别的影响,利用三层中的中间层(第二层)成功实现了对外卖、快递类号码的删除,保留了疑似诈骗类号码。
87.再有,相关技术的训练方案中,存在有正负样本不均衡的问题,而本发明实施例中,识别模型采用三层,并非单层,且在训练的方案中,需要采用不同类样本号码分别对三层子模型进行训练。即,本发明实施例由于采用各层需要的针对性样本对各层分别进行训练,且每层子模型学习出的是对应类号码的行为模式,每层子模型可准确地从输入号码中准确识别出其学习到的本类号码,由此可准确区分出本类号码和其他类号码。基于此,本发明实施例的训练方案无需考虑正负样本的均衡性,即,在无论是否均衡,因为三层子模型进行的是各自训练,所以不会由于样本的不均衡性而导致训练不准确的问题。
88.还有,针对正负样本不均衡的问题,相关技术中通过上采样来增加诈骗样本、或通过下采样的方式来减少其他样本,这样做虽然能够令正负样本均衡,但是采样会引入噪声,噪声的产生也会影响机器学习模型的训练准确性。而本发明实施例中的训练方案,无需考虑正负样本是否均衡性的问题,自然也不会出现由于噪声的产生而导致训练不准确的问题。基于此,可认为本发明实施例提供的训练方案具有很强的易用性,在工程上可大大被推广使用。
89.本发明实施例还提供一种诈骗号码识别设备,如图6所示,所述设备包括:第一获取单元601,用于获取待识别号码以及所述待识别号码的通信相关数据;第二获取单元602,用于将所述待识别号码以及所述待识别号码的通信相关数据输入至识别模型的第一层,得到所述待识别号码中的非正常类号码;所述非正常类号码包括服务类号码和疑似诈骗类号码;第三获取单元603,用于将所述非正常类号码及所述非正常类号码的通信相关数据输入至识别模型的第二层,得到所述待识别号码中的疑似诈骗类号码;第四获取单元604,用于将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相
关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码。
90.作为一个可选方案,第四获取单元604,还用于将所述疑似诈骗类号码及所述疑似诈骗类号码的通信相关数据输入至识别模型的第三层,得到所述待识别号码中的诈骗号码以及所述诈骗号码的诈骗类别。
91.作为一个可选方案,所述非正常类号码为所述识别模型的第一层在所述待识别号码的通信特征和正常类号码的通信特征之间的差异大于第一阈值时而得到;其中,所述待识别号码的通信特征基于待识别号码的通信相关数据而得到。
92.作为一个可选方案,所述疑似诈骗类号码为所述识别模型的第二层在所述非正常类号码的通信特征和服务类号码的通信特征之间的差异大于第二阈值时而得到;其中所述非正常类号码的通信特征基于非正常类号码的通信相关数据而得到。
93.作为一个可选方案,所述诈骗类别为所述识别模型的第三层基于对所述诈骗号码属于至少两个诈骗类别中的各诈骗类别的概率中的最大概率值而得到。
94.作为一个可选方案,所述设备还包括训练单元,用于采用不同类号码样本对识别模型的第一层、第二层以及第三层分别进行训练。
95.作为一个可选方案,所述训练单元包括第一获取与训练子单元、第二获取与训练子单元和第三获取与训练子单元;其中,第一获取与训练子单元,用于获取第一类号码样本,所述第一类号码样本包括正常类电话号码,采用第一类号码样本以及第一类号码样本的通信相关数据对识别模型的第一层进行训练;第二获取与训练子单元,用于获取第二类号码样本,所述第二类号码样本包括服务类电话号码,采用第二类号码样本以及第二类号码样本的通信相关数据对识别模型的第二层进行训练;第三获取与训练子单元,用于获取第三类号码样本,所述第三类号码样本包括诈骗类电话号码,采用第三类号码样本以及第三类号码样本的通信相关数据对识别模型的第三层进行训练。
96.本发明实施例还提供一种诈骗号码识别模型的训练设备,如图7所示,所述设备包括:第一获取与训练单元701,用于获取第一类号码样本,所述第一类号码样本包括正常类电话号码,采用第一类号码样本以及第一类号码样本的通信相关数据对识别模型的第一层进行训练;第二获取与训练单元702,用于获取第二类号码样本,所述第二类号码样本包括服务类电话号码,采用第二类号码样本以及第二类号码样本的通信相关数据对识别模型的第二层进行训练;第三获取与训练单元703,用于获取第三类号码样本,所述第三类号码样本包括诈骗类电话号码,采用第三类号码样本以及第三类号码样本的通信相关数据对识别模型的第三层进行训练。
97.需要说明的是,本技术实施例的诈骗号码识别设备、诈骗号码识别模型的训练设备,由于两个设备解决问题的原理与前述的诈骗号码识别方法、诈骗号码识别模型的训练方法相似,因此,两个设备的实施过程及实施原理均可以参见前述的相应方法的实施过程
及实施原理、有益效果的描述,重复之处不再赘述。
98.根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。
99.图8示出了可以用来实施本发明的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
100.如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
101.设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
102.计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如医学影像中的病灶的匹配方法。例如,在一些实施例中,医学影像中的病灶的匹配方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的医学影像中的病灶的匹配方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行医学影像中的病灶的匹配方法。
103.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
104.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的
功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
105.在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
106.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
107.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
108.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
109.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
110.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献