一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于图注意力网络的分类方法、装置、设备和存储介质与流程

2022-04-30 15:12:36 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其是一种基于图注意力网络的分类方法、装置、设备和存储介质。


背景技术:

2.随着人工智能(artificial intelligence,ai)的快速发展,对于个体非法风险行为的识别也逐渐摆脱人工,实现智能化。相关技术中,所采用的个体非法风险识别模型通常基于历史非法风险行为数据以及保险公司根据经验形成的判断非法风险行为的特定规则,而用于检测非法风险行为的数据往往局限于保险公司收集的赔案数据和少量的外部数据,因此通过上述数据对个体非法风险行为进行预测,容易造成预测的误差较大。


技术实现要素:

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.本发明实施例提供了一种基于图注意力网络的分类方法、装置、设备和存储介质,能够有效提高对个体非法风险行为的预测准确性。
5.第一方面,本发明实施例提供了一种基于图注意力网络的分类方法,包括:
6.获取待处理的用户行为数据;
7.对所述用户行为数据进行特征加工处理,得到关联因子数据;
8.对所述用户行为数据和所述关联因子数据进行特征清洗处理,得到目标因子数据;
9.对所述目标因子数据进行数值化处理,得到与所述目标因子数据对应的目标特征数据;
10.将所述目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,其中,所述分类数据包括异常行为数据和正常行为数据。
11.第二方面,本发明实施例提供了一种基于图注意力网络的分类装置,包括:
12.数据获取模块,用于获取待处理的用户行为数据;
13.加工处理模块,用于对所述用户行为数据进行特征加工处理,得到关联因子数据;
14.特征清洗处理模块,用于对所述用户行为数据和所述关联因子数据进行特征清洗处理,得到目标因子数据;
15.数值处理模块,用于对所述目标因子数据进行数值化处理,得到与所述目标因子数据对应的目标特征数据;
16.数据分类模块,用于将所述目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,其中,所述分类数据包括异常行为数据和正常行为数据。
17.第三方面,本发明实施例提供了一种基于图注意力网络的分类设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计
算机程序时实现前面实施例的基于图注意力网络的分类方法。
18.第四方面,本发明实施例提供了一种计算机可读存储介质,存储有计算机可执行程序,所述计算机可执行程序用于执行前面实施例的基于图注意力网络的分类方法。
19.本发明实施例的有益效果包括:通过先获取待处理的用户行为数据;之后对用户行为数据进行特征加工处理,得到关联因子数据;对用户行为数据和关联因子数据进行特征清洗处理,得到目标因子数据;再对目标因子数据进行数值化处理,得到与目标因子数据对应的目标特征数据;最后将目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,其中,分类数据包括异常行为数据和正常行为数据。本实施例通过对待处理的用户行为数据进行特征加工处理、特征清洗处理、数值化处理后得到的目标特征数据更具有代表性,之后通过图注意力网络分类模型对目标特征数据进行分类处理,最终可得到异常行为数据和正常行为数据,而异常行为数据表征具有个体非法风险行为/个体非法风险行为概率较大,与相关技术相比,本发明实施例能够有效提高对个体非法风险行为的预测准确性。
20.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
21.附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
22.图1为本发明实施例的基于图注意力网络的分类方法的流程示意图;
23.图2为本发明实施例的关联因子数据的流程示意图;
24.图3为本发明实施例的数据关联处理的流程示意图;
25.图4为本发明实施例的目标因子数据的流程示意图;
26.图5为本发明实施例的数值化处理的流程示意图;
27.图6为本发明实施例的基于图注意力网络的分类装置的结构示意图。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
29.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
30.随着人工智能的快速发展,对于个体非法风险行为的识别也逐渐摆脱人工,实现智能化。相关技术中,所采用的个体非法风险识别模型通常基于历史非法风险行为数据以及保险公司根据经验形成的判断非法风险行为的特定规则,而可用于检测非法风险行为的数据往往局限于保险公司收集的赔案数据和少量的外部数据,且对于非法风险行为检测的
建模方法,通常只会通过对单个个体特征的预测进行识别,因此通过上述方式对个体非法风险行为进行预测,容易造成预测的误差较大。
31.基于此,本发明实施例提供了一种基于图注意力网络的分类方法、装置、设备和存储介质。本发明实施例能够有效提高对个体非法风险行为的预测准确性。
32.具体地,本发明实施例基于图神经网络(graph neural network,gnn),具体采用了图注意力网络分类模型,在对个体非法风险行为进行预测时,不仅仅会考虑到当前个体的特征,还会考虑与之有关联的其他个体的特征。例如,假设当前个体没有非法风险行为,但当他的家人有过非法风险行为,也会增加该个体产生非法行为的风险,以提高预测准确性。
33.本发明实施例基于图神经网络,融合保险行业的相关特征数据(例如用户行为数据)以及关系数据(例如关联因子数据),并通过构建好的理赔反非法风险行为模型即图注意力网络分类模型来对相关特征数据以及关系数据进行分类,相比未使用关系数据的模型,本发明实施例能够取得较好的预测准确率。
34.可以理解的是,本技术实施例可以基于人工智能技术对相关的数据例如本发明实施例的用户行为数据进行获取和处理(又例如可以对关联因子数据、目标因子数据和目标特征数据等进行数据处理)。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
35.可以理解的是,人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术以及机器学习/深度学习等几大方向。
36.具体地,可通过终端/设备获取待处理的用户行为数据,终端/设备可以为移动终端设备,也可以为非移动终端设备。其中,移动终端设备可以为手机、平板电脑、笔记本电脑、手持计算机、掌上电脑、超级移动个人计算机 (ultra-mobile personal computer,umpc)、可穿戴设备、上网本、个人数字助理(personal digital assistant,pda)、增强现实(augmented reality,ar)/ 虚拟现实(virtual reality,vr)设备等;非移动终端设备可以为个人计算机、柜员机或者自助机等,本发明实施方案不作具体限定。
37.具体地,参照图1,本发明实施例提供一种基于图注意力网络的分类方法,包括但不限于以下步骤:
38.步骤s100、获取待处理的用户行为数据;
39.步骤s200、对用户行为数据进行特征加工处理,得到关联因子数据;
40.步骤s300、对用户行为数据和关联因子数据进行特征清洗处理,得到目标因子数据;
41.步骤s400、对目标因子数据进行数值化处理,得到与目标因子数据对应的目标特征数据;
42.步骤s500、将目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,其中,分类数据包括异常行为数据和正常行为数据。
43.可以理解的是,本发明实施例需要获取待处理的用户行为数据。例如,可基于spark(一种专为大规模数据处理而设计的快速通用的计算引擎)大数据平台整合多个例如
200多个用户行为数据,在其他实施例中,也可获取其他数量的用户行为数据,本发明实施例对此不作具体限定。本发明实施例的待处理的用户行为数据可以为与车险赔付相关的数据。
44.通过spark平台执行对多个用户行为数据的选择,即对获取的原始数据进行底层因子选择,以整合出多种类型的多个用户行为数据,可以理解的是,用户行为数据包括历史索赔行为因子、出险现场行为因子、历史修理行为因子、投保行为因子、被投保人行为因子或者历史时序行为因子中的至少一种。
45.具体地,历史索赔行为因子,可以为历史索赔记录,包括历史索赔次数因子、历史索赔金额因子,历史索赔频率因子等;
46.出险现场行为因子,可以为出险现场记录,包括是否有人受伤因子、车辆受损部位因子、车辆损失程度因子、出险现场天气因子、是否违规装载因子等;
47.历史修理行为因子,可以为修理厂修理记录,包括施救费用因子、维修天数因子、车辆修理部位因子、车辆维修费用因子、车辆残值因子等;
48.投保行为因子,可以为投保单信息记录,包括投报前询价次数因子、保费因子、车辆使用类型(例如商用/家用)因子、投保渠道因子等;
49.被投保人行为因子,可以为被投保人信息记录,包括性别因子、年级因子、年收入级别因子、职业类型因子、历史投保单数量因子、客户价值层次因子等;
50.历史时序行为因子,可以为时序特征信息记录,包括经纬度因子、地点因子、wifi连接因子等。
51.通过获取待处理的多个用户行为数据之后,对多个用户行为数据进行特征加工处理,得到关联因子数据,再对用户行为数据和经过特征加工处理后的关联因子数据进行特征清洗处理,即进行特征选择处理,得到目标因子数据,以及对目标因子数据进行数值化处理,得到与目标因子数据对应的目标特征数据,最后将目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据。
52.可以理解的是,用户行为数据是可通过spark平台进行底层因子选择以整合得到的数据,例如修理厂修理记录、投保单信息记录等,而关联因子数据是需要对用户行为数据作进一步特征加工处理才可得到的,即关系数据,本发明实施例在对个体非法风险行为进行预测时,不仅仅会考虑到当前个体的特征(例如用户行为数据),还会考虑与之有关联的其他个体的特征(即关联因子数据),由此提高预测准确性。
53.可以理解的是,本发明实施例的分类数据包括异常行为数据和正常行为数据,其中,异常行为数据可以用于表征具有个体非法风险行为/个体非法风险行为概率较大,而正常行为数据可以用于表征不具有个体非法风险行为/个体非法风险行为概率较小。本实施例通过对待处理的用户行为数据进行特征加工处理、特征清洗处理、数值化处理后得到的目标特征数据更具有代表性,即本发明实施例不仅仅会考虑到当前个体的特征,还会考虑与之有关联的其他个体的特征。之后通过图注意力网络分类模型对目标特征数据进行分类处理,最终可得到异常行为数据和正常行为数据,而异常行为数据表征具有个体非法风险行为/个体非法风险行为概率较大,与相关技术相比,本发明实施例能够有效提高对个体非法风险行为的预测准确性。
54.参照图2,用户行为数据包括历史时序行为因子,对用户行为数据进行特征加工处
理,得到关联因子数据,包括但不限于以下步骤:
55.步骤s201、对历史时序行为因子进行特征加工处理,得到行为轨迹数据和历史非白名单数据;
56.步骤s202、将行为轨迹数据和历史非白名单数据作为关联因子数据。
57.可以理解的是,本发明实施例需要对用户行为数据进行特征加工处理,以便得到关联因子数据。本发明实施例的特征加工处理可以为lbs(location basedservices)因子加工、网络因子加工、距离因子加工等。
58.在步骤s201中,通过对历史时序行为因子进行特征加工处理,得到行为轨迹数据和历史非白名单数据。具体地,历史时序行为因子包括经纬度因子、地点因子和wifi连接因子。
59.例如,通过对经纬度因子和地点因子进行特征加工处理,得到行为轨迹数据,例如,基于车辆行驶的经纬度因子和poi(point of interest,感兴趣点) 相关的lbs因子,加工用户预置时间段内的生活轨迹,即可得到行为轨迹数据,比如前往酒吧、公园、餐厅、咖啡厅等的频率、最晚回家时间段等,该行为轨迹数据用于表征该用户最近一段时间的生活轨迹。
60.可以理解的是,目前的应用程序例如app(application)通常会记录用户的经纬度信息,但无法得到经纬度所处地点的详细信息,例如是公园还是公司等,而通过poi(point of interest,兴趣点)能够记录经纬度信息和对应的地点信息。因此,将经纬度信息作为经纬度因子,对应的地点信息作为地点因子,通过对经纬度因子和地点因子进行聚合,可得到行为轨迹数据,例如用户每天去过哪里、待了多长时间、每个月去过几次酒吧、工作地点在哪里、可能职业是什么等等。由此,通过对经纬度因子和地点因子进行特征加工处理,能够得到行为轨迹数据,该行为轨迹数据即可作为关联因子数据。
61.可以理解的是,对于poi加工,在地理信息系统中,一个poi可以是一栋房子、一个商铺、一个邮筒、一个公交站等。每个poi包含多个信息,例如名称信息、类别信息、经纬度信息、分类信息等。全面的poi信息是丰富导航地图的必备资讯,及时的poi兴趣点能提醒用户路况的分支及周边建筑的详尽信息,也能方便导航中查到你所需要的各个地方,选择最为便捷和通畅的道路来进行路径规划,因此,在导航地图中,poi直接影响到导航的好用程度,导航地图中poi信息点的多少以及信息的准确程度和信息更新速度,都将影响到导航的使用情况。
62.可以理解的是,本发明实施例可通过脚本例如spark sql(用来处理结构化数据的spark组件,其提供了一个可编程抽象数据模型,并且可被视为一个分布式的sql查询引擎。)进行特征加工处理。
63.又例如,通过对wifi连接因子进行特征加工处理,得到历史非白名单数据,可以理解的是,由于wifi连接因子对应用户的设备标识号,根据wifi连接因子,可查询得到用户的历史非白名单数据,如该历史非白名单数据可以表征用户对应的设备标识号曾被记录为非白名单。具体地,根据wifi连接因子,得到用户的wifi连接信息,进而经过特征加工处理可得到历史非白名单数据。该历史非白名单数据即可作为关联因子数据。
64.根据wifi连接因子还可加工得到当前用户与骗保用户的历史非白名单数据。例如当骗保用户具备多个手机,由于每个手机均对应有设备标识号,骗保用户利用某个手机作
出不合规操作后,该手机对应设备标识号将被记录入历史非白名单数据。而骗保用户又将该手机转卖/转送给当前用户,则骗保用户与当前用户之间存在关联。
65.可以理解的是,还可以对其他用户行为数据进行特征加工处理,以得到关联因子数据。例如对出险现场行为因子和历史修理行为因子进行特征加工处理,得到关联因子数据,根据关联因子数据,得到出险地与修理厂之间的距离、出险驾驶人与被保人是否同一人等。本发明实施例所得到的关联因子数据具体为可能与个体非法风险行为有关联的数据。
66.可以理解的是,可以通过spark平台对经纬度因子和地点因子进行特征加工处理,通过使用分组计算得到最晚回家时间段和地点逗留频次统计等,而wifi 连接因子的特征加工处理也可以基于连接频次的统计,假设当前用户与异常用户如骗保用户共同连接相同wifi的频次大于预设阈值,则视为高相关性,而距离加工则是基于两地之间的经纬度,使用的球面距离计算得到两地距离。
67.参照图3,将目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,包括但不限于以下步骤:
68.步骤s510、获取报案号数据;
69.步骤s520、将报案号数据与对应的目标特征数据进行数据关联处理,得到第一目标关联特征数据;
70.步骤s530、根据预设关系类型数据,将具有相同的预设关系类型数据对应的报案号数据作为第二目标关联特征数据;
71.步骤s540、将第一目标关联特征数据和第二目标关联特征数据输入到预设的图注意力网络分类模型中进行分类处理。
72.可以理解的是,本发明实施例还将进一步通过获取的报案号数据来构建关系数据,目的是将报案号数据通过某些关系与对应的目标特征数据(即经过特征清洗处理、数值化处理后的用户行为数据和关联因子数据)进行关联起来(即数据关联处理)。
73.可以理解的是,报案号数据是车辆出险报案后的唯一识别号,通过构建关系数据,使得与报案号数据所关联上的目标特征数据,即第一目标关联特征数据,以及报案号数据与报案号数据之间所构成的关系,即第二目标关联特征数据,都可以作为图注意力网络分类模型的输入数据。
74.具体地,对于步骤s530,预设关系类型数据包括wifi关系、device(设备) 关系、手机号关系、保单关系、lbs关系、修理厂关系、身份证号关系中的至少一种。通过根据预设关系类型数据,以将具有相同的预设关系类型数据对应的报案号数据作为第二目标关联特征数据。
75.例如,对于同一个保单号,历史上报案过2次,那么就产生有2个报案号数据,从而表示这2个报案号数据之间产生了关系,它们之间具有相同的预设关系类型数据,例如身份证号关系、手机号关系等,即可对其进行数据关联处理,得到第二目标关联特征数据。
76.一些实施例中,第二目标关联特征数据以数据表形式存储,且第二目标关联特征数据为若干报案号数据,若干报案号数据之间通过相同的预设关系类型数据进行映射关联。
77.又或者,对于步骤s520,即对于报案号数据,可与目标因子数据对应的目标特征数据进行数据关联处理,例如与经过特征清洗处理、数值化处理后的历史索赔行为因子、历史
修理行为因子等进行数据关联处理,得到第一目标关联特征数据。其中,第一目标关联特征数据可以存储为数据表、文档等格式,对此不作具体限定。例如,第一目标关联特征数据为数据表形式,第一列表示报案号数据,第一列后的若干列表示与报案号数据对应的目标特征数据,该目标特征数据即经过特征清洗处理、数值化处理后的用户行为数据和关联因子数据。
78.参照图4,对用户行为数据和关联因子数据进行特征清洗处理,得到目标因子数据,包括以下至少之一:
79.步骤s310、根据预设饱和度指标,对用户行为数据和关联因子数据进行特征清洗处理,得到目标因子数据;或者,
80.步骤s320、根据预设相关性指标,对用户行为数据和关联因子数据进行特征清洗处理,得到目标因子数据。
81.可以理解的是,为了使最终得到的分类数据更准确,本发明实施例需要对用户行为数据和经过特征加工处理的关联因子数据进行特征选择,即特征清洗处理,以得到目标因子数据。需说明的是,本发明实施例还可在获取待处理的用户行为数据之后,对用户行为数据进行特征清洗处理,以过滤冗余和/或脏数据(如空数据量),之后再进行特征加工处理、数值化处理、数据关联处理和分类处理,以进而保证分类数据的准确性。
82.本发明实施例基于预设饱和度指标和预设相关性指标来执行特征清洗处理。具体地,根据预设饱和度指标,将不符合预设饱和度指标的用户行为数据和关联因子数据进行剔除,以得到目标因子数据。这是因为,低于预设饱和度指标的用户行为数据和关联因子数据对图注意力网络分类模型没有帮助。
83.可以理解的是,饱和度为:某用户行为数据(关联因子数据)的非空数据量占该用户行为数据(关联因子数据)总数据量的占比。例如,将饱和度》50%作为预设饱和度指标,以对用户行为数据和关联因子数据进行特征选择。在其他实施例中,也可以为其他数值,本发明实施例不作具体限定。
84.举例而言,饱和度可以为非空数据量/全数据量。假设某用户行为数据(关联因子数据)对应的是性别因子,则有三种取值情况:男、女、未知。其中“男”的数据量为5个,“女”的数据量为3个,而“未知”的数据量为2个,那么饱和度为(5 3)/(5 3 2)=0.8,即80%,符合预设饱和度指标。
85.可以理解的是,如果饱和度过低,那么该用户行为数据(关联因子数据) 大部分都是“未知”,则无法提供有用的信息,需要进行剔除。
86.具体地,还可以根据预设相关性指标,将不符合预设相关性指标的用户行为数据和关联因子数据进行剔除,以得到目标因子数据。这是因为,与图注意力网络分类模型的相关性太高,其表示基本吻合某一个类型的特征,则可能存在数据泄露问题,需要进行剔除。
87.可以理解的是,相关性为:用户行为数据(关联因子数据)的取值与图注意力网络分类模型中所输出的y标签的取值的相关系数。假设相关系数的绝对值太高,该用户行为数据(关联因子数据)有潜在可能是直接由y标签生成,则需要剔除该用户行为数据(关联因子数据)。
88.举例而言,假设y标签取值为:1/0,其中,1表征该用户具有个体非法风险行为/个体非法风险行为概率较大,即本发明实施例所需的预测目标。而在数据预处理过程中,如在
对用户行为数据进行特征加工处理中,通过特征加工处理了一个用户行为数据x,该用户行为数据x是基于y作的评分,例如,y=1时, x=10;而y=0时,x=0,即x是y的函数x=f(y)。由此可知,该用户行为数据x 和y之间具有很高的相关性。然而,在实际环境中,该用户行为数据x所对应的y标签即预测目标应该是未知的,且该用户行为数据x对应的取值也应该是未知的,通常是需要通过分类模型如本发明实施例的图注意力网络分类模型进行分类预测后,才能得到用户行为数据x和y之间的相关性。由此,该用户行为数据(关联因子数据)表示存在数据泄露问题,需要进行剔除,以便于提高模型的预测精度。
89.可以理解的是,本发明实施例还可以先根据预设饱和度指标对用户行为数据和关联因子数据进行特征清洗处理之后,根据预设相关性指标再进行一次特征清洗处理,以使最终得到的目标因子数据更加精确。
90.参照图5,对目标因子数据进行数值化处理,得到与目标因子数据对应的目标特征数据,包括但不限于以下至少之一:
91.步骤s410、对目标因子数据进行数据归一化处理,得到与目标因子数据对应的归一化目标特征数据;或者,
92.步骤s420、对目标因子数据进行数据分箱处理,得到与目标因子数据对应的分箱目标特征数据;或者,
93.步骤s430、对目标因子数据进行离散数值化处理,得到与目标因子数据对应的离散目标特征数据。
94.本发明实施例对目标因子数据进行数值化处理,可以为:数据归一化处理、数据分箱处理和离散数值化处理。上述数值化处理可分别进行也可组合进行。例如单独执行步骤s410得到连续变量,又或者组合执行步骤s430和步骤s420 得到连续变量,又或者单独执行步骤s430得到离散变量,又或者组合执行步骤 s430、步骤s420和步骤s410得到连续变量,本发明实施例对此不作具体限定。本发明实施例的数据归一化处理,能够便于模型的稳定性;数据分箱处理能够避免模型过拟合。
95.离散数值化处理可以为:针对不同的目标因子数据分别进行数值化处理,例如可以通过one-hot编码方法或者target encoding转换方法等进行离散特征数值化,但不限于这两种方法。
96.本发明实施例中,对目标因子数据进行离散数值化处理,例如目标因子数据包括:历史索赔次数因子、车辆损失程度因子、施救费用因子,则可以采用 one-hot编码,依次编码为[1,0,0]、[1,1,0]、[1,0,1]。或者,采用target encoding进行转换处理即进行离散数值化处理,例如历史索赔次数因子中包含的参数值数量为5,车辆损失程度因子中包含的参数值数量为10,施救费用因子中包含的参数值数量为10,则对应target encoding进行离散数值化处理后,历史索赔次数因子对应的离散目标特征数据为0.2,车辆损失程度因子的离散目标特征数据为0.4,施救费用因子的离散目标特征数据为0.4。
[0097]
一些实施例中,在对目标因子数据进行离散数值化处理后,得到与目标因子数据对应的离散目标特征数据,再对离散目标特征数据对应的数值进行数据分箱处理,例如,将离散目标特征数据对应的数值进行排序,可以由大到小进行排序也可以由小到大进行排序,之后等比分成多组数值,并设置对应的标签,得到与目标因子数据对应的分箱目标特征数据;再对分箱目标特征数据对应的数值进行数据归一化处理,得到与目标因子数据对应
的归一化目标特征数据,即将不同标签的数值组的取值范围转换成预设的取值范围,即归一化目标特征数据。
[0098]
例如,本发明实施例中,将离散目标特征数据进行数据分箱处理,即按照对应的数值由小到大进行排序,之后将排序靠前10%的离散目标特征数据设为分组1,并标记y标签为1,将排序在10%~20%的离散目标特征数据设为分组2,并标记y标签为2,
……
,将排序在90%~100%的离散目标特征数据设为分组10,并标记y标签为10,之后并将数据分箱处理后的分箱目标特征数据进行数据归一化处理,以使得后续图注意力网络分类模型训练时,模型泛化能力更强。
[0099]
可以理解的是,图注意力网络分类模型为gat模型。
[0100]
可以理解的是,gat模型包括权重数据,权重数据通过如下公式得到:
[0101]eij
=leakyrelu(a
t
[whi||whj])
[0102][0103]
其中,e
ij
表征ij节点对应的注意力系数,w
ij
表征权重数据,hi表征第i个节点对应的特征向量,hj表征第j个节点对应的特征向量,且hi、hj表征第一目标关联特征数据或第二目标关联特征数据,w表征权值矩阵,w∈rf'
×f,f表征图注意力网络分类模型中,图注意力层的输入对应的节点特征向量维度,f'表征图注意力层的输出对应的新的节点特征向量维度,a表征共享的自注意力机制:rf'
×f→
r,t表征转置,ni表征节点i的相邻节点集合,||表征向量拼接操作符, leakyrelu表征非线性激活函数,k为整数且k∈ni,e
ik
表征ik节点对应的注意力系数,exp表征以自然常数e为底的指数函数。
[0104]
可以理解的是,本发明实施例采用了gat模型,其基于attention(注意力) 机制,可以为不同节点分配不同的权重数据,其在训练时依赖于成对的相邻节点,而不依赖具体的网络结构。gat(graph attention network)通过自注意力机制(self-attention)来对相邻节点进行聚合,实现了对不同的权重数据自适应匹配,从而提高了模型的准确率。
[0105]
可以理解的是,对于单个图注意力层(graph attention layer),该图注意力层对应的输入,可以是一个节点的特征向量集,例如,节点i的特征向量 h={h1,h2,...,hi},hi∈rf,i表征节点的个数,hi表征第i个节点对应的特征向量,f 表征图注意力层的输入对应的节点特征向量维度。可以理解的是,一些实施例中,hi可表征为除报案号数据所在列之外的任意一个第一目标关联特征数据。
[0106]
经过本发明实施例的gat模型中的图注意力层后输出一个新的特征向量,假设图注意力层的输出对应的新的节点特征向量维度为f'(可以为任意值,也可以不等于f),即f'为这个特征向量对应的新的节点特征向量维度,那么这个节点特征可以表示为h'={h'1,h'2,...,h'i},h'i∈rf'。在图注意力层中,通过一个权值矩阵w,w∈rf'
×f作用到每个节点,之后对每个节点使用自注意力机制来计算一个注意力系数(attention系数),本发明实施例的e
ij
表征ij节点对应的注意力系数,e
ik
表征ik节点对应的注意力系数,其中e
ik
可采用与e
ij
相同的计算公式原理以计算得到。本发明实施例使用的共享的自注意力机制(self-attention),表示为a,a是一个rf'
×f→
r的映射;t表征转置,w∈rf'
×f为一个权值矩阵(被 hi所共享)。可以理解的是,本发明实施例是将注意力分配到节点i的相邻节点集合上,即k∈
ni。例如,在第一目标关联特征数据(第二目标关联特征数据) 中,对于节点i,节点i的相邻节点k即为与i相邻列或相邻行,hi表征第i个节点对应的第一目标关联特征数据(第二目标关联特征数据)。
[0107]
可以理解的是,e
ij
表示节点i对节点j的重要性/影响力系数(标量),e
ik
表示节点i对节点k的重要性/影响力系数(标量)。
[0108]
本发明实施例选择参数为a∈r
2f
'的单层前馈神经网络,并使用leakyrelu对 a进行非线性化处理,具体地:
[0109]eij
=leakyrelu(a
t
[whi||whj])
[0110]
本发明实施例还使用softmax对中心节点的相邻节点作归一化处理,从而得到:
[0111][0112]
最后,通过对输入数据即输入的第一目标关联特征数据和第二目标关联特征数据对应的特征加权,得到输出特征数据。
[0113]
可以理解的是,对于节点i、节点j,《i,j》可通过预设关系类型数据进行数据关联处理,例如通过步骤s530得到第二目标关联特征数据。如上述预设关系类型数据中的wifi关系、修理厂关系、device(设备)关系等。还可通过步骤 s520,即通过进行数据关联处理,以将报案号数据与对应的目标特征数据进行关联起来,得到第一目标关联特征数据。
[0114]
具体地,hi、hj表证节点i、节点j对应的第一目标关联特征数据或第二目标关联特征数据,其通常用特征向量表示,例如一些实施例中,(历史索赔次数因子,历史索赔金额因子,历史索赔频率因子,是否有人受伤因子,车辆受损部位因子,车辆损失程度因子

)=[3,1500,0.33,1,3,5

],则本发明实施例的特征向量[3,1500,0.33,1,3,5

],具体表示:历史索赔次数因子对应的数值为3,历史索赔金额因子对应的数值为1500,历史索赔频率因子对应的数值为0.33,是否有人受伤因子对应的数值为1,车辆受损部位因子对应的数值为3,车辆损失程度因子对应的数值为5


[0115]
此外,hi和hj通过权值矩阵w进行了一次线性变换,再通过||即向量拼接操作符,将两个特征向量拼接成一个特征向量。之后与一个同维度向量,即a做内积操作,最后再通过非线性激活函数leakyrelu计算得到一个标量,即得到e
ij
,用于表征ij节点对应的注意力系数,之后,再对其进行softmax归一化处理得到最终的权重数据w
ij

[0116]
可以理解的是,w
ij
表示《i,j》节点间相互关系的强弱。
[0117]
本发明实施例最后通过特征加权组合,得到各个节点对应的输出特征数据,例如对于i节点,得到对应的输出特征数据:
[0118][0119]
在得到输出特征数据后,为了获取输出特征数据对应的分类数据。本发明实施例还将通过预设的nn函数(相关函数)f(x),以将节点i对应的输出特征数据映射到分类数据中,即可得到y标签:
[0120]
yi=f(h'i)
[0121]
可以理解的是,f(x)函数可以是简单的单层神经网络再加一个sigmoid函数,具体
为:
[0122]
f(h'i)=σ(wh'i)
[0123]
由此,本发明实施例通过将目标特征数据(第一目标关联特征数据和第二目标关联特征数据)输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,该分类数据可以为异常行为数据、正常行为数据。例如,一些实施例中,y标签为1,表示异常行为数据,y标签为0,表示正常行为数据,本发明实施例对此不作具体限定。
[0124]
可以理解的是,本发明实施例还可以通过步骤s100至步骤s400,来获取与目标因子数据对应的目标特征数据,而该目标特征数据可以用作训练数据,以将训练数据输入到预设的图注意力网络分类模型中进行训练,从而得到训练完成的图注意力网络分类模型。之后,将待分类的第一目标关联特征数据和第二目标关联特征数据输入到训练完成的图注意力网络分类模型中进行分类处理,从而得到分类数据。
[0125]
本发明实施例的基于图注意力网络的分类方法,通过对原始数据进行底层因子选择,以整合得到待处理的用户行为数据,再对用户行为数据进行特征加工处理(特征选择)、特征清洗处理、数值化处理以及数据关联处理后,将第一目标关联特征数据和第二目标关联特征数据输入图注意力网络分类模型中,可得到分类数据,例如得到带有分类结果的数据表。其中,被图注意力网络分类模型判定为异常行为数据,表示其具有个体非法风险行为/个体非法风险行为概率较大,即车险的非法风险行为可能性较高。
[0126]
本发明实施例的gat模型可以利用到相关联的节点《i,j》的特征,能够节省人工额外进行特征工程的时间,且可以提高模型的精度。本发明实施例运用大数据和机器学习算法赋能保险业务,显著提高了理赔工作人员处理案件的效率和准确率,大幅提升了用户理赔的服务体验,从而能够减少赔付损失,提升用户满意度。
[0127]
参照图6,本发明一个实施例还提供了一种基于图注意力网络的分类装置,包括但不限于以下模块:
[0128]
数据获取模块100,用于获取待处理的用户行为数据;
[0129]
加工处理模块200,用于对用户行为数据进行特征加工处理,得到关联因子数据;
[0130]
特征清洗处理模块300,用于对关联因子数据进行特征清洗处理,得到目标因子数据;
[0131]
数值处理模块400,用于对目标因子数据进行数值化处理,得到与目标因子数据对应的目标特征数据;
[0132]
数据分类模块500,用于将目标特征数据输入到预设的图注意力网络分类模型中进行分类处理,得到分类数据,其中,分类数据包括异常行为数据和正常行为数据。
[0133]
需说明的是,本发明方法实施例的内容均适用于本装置实施例,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同,在此不再赘述。
[0134]
另外,本发明一个实施例还提供了一种基于图注意力网络的分类设备,该基于图注意力网络的分类设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
[0135]
处理器和存储器可以通过总线或者其他方式连接。
[0136]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非
暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0137]
需要说明的是,本实施例中的基于图注意力网络的分类设备,可以应用为如上述实施例的基于图注意力网络的分类方法,本实施例中的基于图注意力网络的分类设备和如上述实施例的基于图注意力网络的分类方法具有相同的发明构思,因此这些实施例具有相同的实现原理以及技术效果,此处不再详述。
[0138]
实现上述实施例的基于图注意力网络的分类方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的基于图注意力网络的分类方法,例如,执行以上描述的图1中的方法步骤s100至s500、图 2中的方法步骤s201至s202、图3中的方法步骤s510至s540、图4中的方法步骤s310至s320、图5中的方法步骤s410至s430。
[0139]
以上所描述的基于图注意力网络的分类设备实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0140]
此外,本发明一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行程序,该计算机可执行程序被一个处理器或控制器执行,例如,被上述基于图注意力网络的分类设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于图注意力网络的分类方法,例如,执行以上描述的图1中的方法步骤s100至s500、图2中的方法步骤s201 至s202、图3中的方法步骤s510至s540、图4中的方法步骤s310至s320、图 5中的方法步骤s410至s430。
[0141]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0142]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献