一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于人工智能的风险度量评估方法、装置和计算机设备与流程

2022-03-26 13:21:15 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种基于人工智能的风险度量评估方法、装置、计算机设备及存储介质。


背景技术:

2.在对自然人或企业法人的风险度量评估中,会尽量多的去使用客户的银行储蓄、银行结算、银行信贷、人行征信和内评财报等多个维度的数据,进行客户的风险度量评估。但是在评估过程中,会发现不同场景下客户的数据饱满度存在较大差异,对于在银行内未开户的、仅有储蓄账户的、有贷款数据的、有水电煤数据的、有税务发票数据的和有其他行为数据的等情况下,对客户进行风险度量评估时,获得的评估结果的差异很明显。
3.相关技术中,利用均值、空值或其他方式,对数据饱满度较差的数据进行缺失值填补后,填补后的数据,然后再对填补后的数据进行风险度量评估,获得评估结果。
4.但是,采用现有的评估方法,获得的评估结果准确率较差。


技术实现要素:

5.本技术实施例的目的在于提出一种基于人工智能的风险度量评估方法、装置、计算机设备及存储介质,以提高评估结果的准确率。
6.为了解决上述技术问题,本技术实施例提供一种基于人工智能的风险度量评估方法,所述方法包括以下步骤:
7.在获取到目标对象的待评估数据时,将所述待评估数据中数据维度相同的数据划分为一个数据集,获得多个数据集;
8.确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度;
9.按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个选定数据集对应一个选定评估模型;
10.将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
11.为了解决上述技术问题,本技术实施例还提供一种基于人工智能的风险度量评估装置,所述装置包括:
12.获取模块,用于在获取到目标对象的待评估数据时,将所述待评估数据中数据维度相同的数据划分为一个数据集,获得多个数据集;
13.确定模块,用于确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度;
14.模型获得模块,用于按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个
选定数据集对应一个选定评估模型;
15.结果获得模块,用于将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
16.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
17.所述计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现所述的基于人工智能的风险度量评估方法的步骤。
18.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
19.所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的风险度量评估方法的步骤。
20.在本实施例中,提供一种基于人工智能的风险度量评估方法包括:在获取到目标对象的待评估数据时,将所述待评估数据中数据维度相同的数据划分为一个数据集,获得多个数据集;确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度;按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个选定数据集对应一个选定评估模型;将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
21.由于现有技术中,对数据饱满度较差的数据进行缺失值填补后,获得的填补后的数据的准确率较差,使得基于填补后的数据获得评估结果的准确率较低。而本技术中,在待评估数据对应的多个数据集中,确定出选定数据集,并进一步利用选定数据集对应的集成模型进行评估,获得评估结果,选定数据集是所述待评估数据中的原始数据,并未经过缺失值填补,选定数据集的准确率较高,从而使得利用选定数据集获得的评估结果的准确率也较高。
附图说明
22.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本技术可以应用于其中的示例性系统架构图;
24.图2为本技术的基于人工智能的风险度量评估方法第一实施例的流程图;
25.图3为本技术待评估数据的结构示意图;
26.图4图2中步骤s13的一种具体实施方式的流程图;
27.图5为图4中步骤s21的一种具体实施方式的流程图;
28.图6为本技术集成模型中各个选定评估模型的权重示意图;
29.图7为图2中步骤s14的一种具体实施方式的流程图;
30.图8为本技术评估结果示意图;
31.图9为本技术的基于人工智能的风险度量评估装置第一实施例的结构示意图
32.图10为本技术实施例方案涉及的硬件运行环境的计算机设备结构示意图;。
具体实施方式
33.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
34.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
35.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
36.如图1所示,图1为本技术可以应用于其中的示例性系统架构图,系统架构100可以包括计算机设备101、102、103,网络104和服务器105。网络104用以在计算机设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
37.用户可以使用计算机设备101、102、103通过网络104与服务器105交互,以接收或发送消息、数据等。计算机设备101、102、103上可以安装有各种通讯客户端应用app,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
38.计算机设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
39.服务器105可以是提供各种服务的服务器,例如对计算机设备101、102、103上显示的页面提供支持的后台服务器。
40.服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
41.需要说明的是,本技术实施例所提供的基于人工智能的风险度量评估方法一般由服务器/计算机设备执行,相应地,基于人工智能的风险度量评估装置一般设置于服务器/计算机设备中。
42.应该理解,图1中的计算机设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算机设备、网络和服务器。
43.继续参考图2,图2为本技术的基于人工智能的风险度量评估方法第一实施例的流
程图。所述的基于人工智能的风险度量评估方法,用于计算机设备,包括以下步骤:
44.步骤s11:在获取到目标对象的待评估数据时,将所述待评估数据中数据维度相同的数据划分为一个数据集,获得多个数据集。
45.需要说明的是,本技术的基于人工智能的风险度量评估方法可以用于针对自然人或企业法人进行风险度量评估,目标对象即为待进行评估的自然人或法人。目标对象对应的数据即为待评估数据,目标对象的待评估数据可以涉及到行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息、内评财报、行为特征、消费信息和通信行为等多个数据维度的数据。
46.需要强调的是,为进一步保证上述获取待评估数据的私密和安全性,上述待评估数据还可以存储于一区块链的节点中。本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。可以理解的是,存储于区块链的信息还可以包括多个数据集等。
47.对于不同的目标用户,对应的待评估数据的数据维度可能不同,有些目标对象,在行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息、内评财报、行为特征、消费信息和通信行为等数据维度均对应有数据,该目标对象的待评估数据的数据饱和度较好,而对于有些目标对象,仅仅在行内储蓄、行内结算、行内信贷和税务信息等数据维度对应有数据,该目标对象的待评估数据的数据饱和度相对较低。
48.对于不同的目标用户的待评估数据,可能涉及到多个数据维度,将待评估数据中数据维度(以上文所述的行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息、内评财报、行为特征、消费信息和通信行为等为数据维度)相同的数据划分为一个数据集,获得多个数据集;例如,a用户的待评估数据涉及到行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息、内评财报、行为特征和消费信息等9个数据维度的数据,则a用户的待评估数据的对应9个数据集。通常,不同的目标对象,对应的数据集的数量个具体内容均具有区别。
49.当待评估数据在一个数据维度具有数据时,则该数据维度的数据划分为一个数据集,当待评估数据在一个数据维度不具有数据时,则该数据维度不对应有数据集。可以理解的是,数据集的数量较多,对应的待评估数据的数据饱和度较高,数据集的数量较少,对应的待评估数据的数据饱和度较低。
50.步骤s12:确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度。
51.需要说明的是,在本技术中,需要在待评估数据中筛选出来数据饱和度较高数据,筛选出来的饱和度较高的数据即为所述选定数据集,选定数据集也可能包括多个,待评估数据在某一个数据维度的数据饱和度较高,则这个数据维度的数据集会被确定为选定数据集,待评估数据在某一个维度的数据饱和度较低,则这个维度的数据集会被筛选出去,不作为选定数据集。
52.确定出的选定数据集可以是多个所述数据集中数据饱和度大于预设保护度阈值
的数据集,其中,预设保护度阈值可以是用户基于需求设定的阈值,本发明不做限定。
53.例如,待评估数据包括行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息和内评财报7个数据维度的数据,其中,行内储蓄、行内结算、行内信贷、人行征信和工商信息5个数据维度的数据饱和度较高,大于预设饱和度阈值,则行内储蓄、行内结算、行内信贷、人行征信和工商信息5个数据维度的数据集确定为选定数据集,而税务信息和内评财报2个数据维度的数据饱和度较低,小于预设饱和度阈值,则税务信息和内评财报2个数据维度的数据及被排除在外。
54.具体的,所述确定多个所述数据集对应的多个数据饱和度的步骤,包括:获取多个所述数据集的多个需求数据量阈值,一个数据集对应一个需求数据量阈值;对多个所述数据集进行数据量统计,获得多个实际数据量,一个数据集对应一个实际数据量;利用每个所述数据集的实际数据量和每个所述数据集的需求数据量阈值,计算每个所述数据集的数据饱和度。
55.对于每一个数据维度对应的数据集,若想保证利用数据集获得的评估结果准确率和有效率较高,则需要保证该数据集的数据饱和度较高,判定数据集数据饱和度高低的依据即为上段所述的方法。
56.对于一个数据维度对应的数据集,均具有需求数据量阈值,该数据集的需求数据量阈值如下获得:利用pca切取该数据集对应的需求数据总量(一个数据集的所需要的全部数据的数据总量)的85%为初选数据量阈值,然后,再以初选数据量阈值的60%作为需求数据量阈值。
57.其中,pca(principal component analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。pca的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。pca的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。
58.一个数据集的实际数据量(实际数据量是指一个数据集的实际数据量,可以通过对数据集进行统计获得)大于或等于需求数据量阈值,则表明利用该数据集的数据饱和度较高,可以将该数据集选用,反之,一个数据集的实际数据量小于需求数据量阈值,则表明利用该数据集的数据饱和度较低,不选用该数据集。
59.在一些实施例中,对于一个数据集,可以将其中的数据进行有效性排序(用户可以按照需求设定数据集的有效性,例如人行征信数据集的有效性比工商信息的数据有效性高),并用户可以通过自己需求,标记各个数据的是否为关键指标,标记为关键指标的数据为数据集的主成分数据,也可以将主成分数据的数据量确定为所述实际数据量,只有在主成分数据的实际数据量大于或等于需求数据量阈值时,将该数据集确定为一个选定数据
集,表明该数据集数据饱和度较高。同时,可以将需求数据总量按照有效性排序,前80%对应的数据量为初选数据量阈值,初选数据量阈值对应的全部需求数据为该数据集需求数据中的主成分数据,需求的主成分数据的数据量的60%为所述需求数据量阈值。
60.利用上述方法,在待评估数据对应的多个数据集中筛选出全部选定数据集。
61.参照图3,图3为本技术待评估数据的结构示意图;在图3中,示出的是待评估数据中的其中一个数据集,该数据集中的多个数据按照有效性排序,排在图3中表格前端的数据的有效性最好,同时,每一个数据被标记:1表示是关键指标,0表示非关键指标。iv(information value,信息有效值)用于表示数据的有效性,用户可以提前对数据进行有效值计算。
62.同时,在图3中,以需求数据中的主成分数据(也即关键指标总数)的60%(15)为需求数据量阈值;可见,图4中的数据集的主成分数据的数据量(实际数据量)大于15,则该数据集被确定为选定数据集,该数据集的数据饱和度较高。
63.步骤s13:按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个选定数据集对应一个选定评估模型。
64.需要说明的是,用户可以基于需求设定出预设评估模型,一个数据维度的数据对应一个预设评估模型,预设评估模型集合包括全部的预设评估模型,预设评估模型集合可以包括行内储蓄评估模型、行内结算评估模型、行内信贷评估模型、人行征信评估模型、工商信息评估模型、税务信息评估模型、内评财报评估模型、行为特征评估模型、消费信息评估模型和通信行为评估模型等,为保证本技术的基于人工智能的风险度量评估方法有效性较好,预设评估模型集合中的预设评估模型尽量设置多一些,相对应的,预设评估模型集合可以用于维度较多的待评估数据。
65.一般而言,用户基于一个数据维度对应的数据集,确定出该数据维度的预设评估模型,可以是利用训练数据对神经网络模型进行训练,获得该数据维度的预设评估模型,也可以是用户确定出用于进行评估的算法,然后利用该数据维度中数据的特点,对该算法进行参数配置,以获得该数据维度对应的预设评估模型。预设评估模型集合中各预设评估模型的获得方法并不局限于上述两种,用户可以基于需求确定出对应的预设评估模型,此处不再赘述。
66.可以理解的是,对于一个数据维度对应的数据集,若数据集的饱和度较高,则利用该数据维度对应的预设评估模型进行评估时,获得的结果准确率较高,而数据集的饱和度较低,则利用该数据维度对应的预设评估模型进行评估时,获得的结果准确率较低,所以需要按照上述方式进行选定数据集的确定,以保证获得的结果准确率较高。
67.一个选定数据集对应一个数据维度,选定数据集对应的数据维度也叫选定数据维度,每一个数据维度对应一个预设评估模型;在预设评估模型集合中确定出与选定数据维度对应的预设评估模型,即为选定评估模型,当选定数据集包括多个时,获得的选定评估模型也包括多个,基于多个选定评估模型,获得集成模型。
68.步骤s14:将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
69.将所述选定数据集中各个数据集,按照数据集所属的数据维度,输入到集成模型
中对应的选定评估模型中,获得对应的子评估结果,然后,集成模型基于全部选定评估模型的子评估结果,获得最终的评估结果。
70.例如,选定数据集包括行内储蓄、行内结算和行内信贷3个数据维度的数据集,则对应的集成模型包括行内储蓄评估模型、行内结算评估模型和行内信贷评估模型,则将行内储蓄、行内结算和行内信贷3个数据维度的数据集,分别输入到行内储蓄评估模型、行内结算评估模型和行内信贷评估模型,获得三个子评估结果,然后综合该3个子评估结果,获得最终的评估结果。
71.在本实施例中,提供一种基于人工智能的风险度量评估方法包括:在获取到目标对象的待评估数据时,将所述待评估数据中数据维度相同的数据划分为一个数据集,获得多个数据集;确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度;按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个选定数据集对应一个选定评估模型;将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
72.由于现有技术中,对数据饱满度较差的数据进行缺失值填补后,获得的填补后的数据的准确率较差,使得基于填补后的数据获得评估结果的准确率较低。而本技术中,在待评估数据对应的多个数据集中,确定出选定数据集,并进一步利用选定数据集对应的集成模型进行评估,获得评估结果,选定数据集是所述待评估数据中的原始数据,并未经过缺失值填补,选定数据集的准确率较高,从而使得利用选定数据集获得的评估结果的准确率也较高。
73.此种集成模型的方式充分保证了部分业务价值较大但不够显著的变量,能够进入模型且在模型中发挥比较重要的地位,能全面的刻画客户信息进行风险度量评估。同时,集成多个模型的方式,可以消弱因单个机器学习算法模型所造成的过拟合,集成模型auc(是roc曲线下方的面积,判断集成模型优劣的标准)变化率或评分psi(群体稳定性指标(population stability index)psi=sum((实际占比-预期占比)*ln(实际占比/预期占比)))值会更稳定。
74.继续参照图4,图4图2中步骤s13的一种具体实施方式的流程图,步骤s13包括:
75.步骤s21确定多个所述选定评估模型对应的多个权重,一个选定评估模型对应一个权重;
76.步骤s22:基于多个所述选定评估模型和多个所述权重,获得所述集成模型。
77.需要说明的是,对于待评估数据中不同的选定数据集,所属的数据维度不同,一个选定数据集所属的数据维度命名为选定数据维度,需要确定出全部的选定数据集对应的全部的选定数据维度。一个选定数据维度对应一个选定评估模型,预设评估模型集合中与选定数据维度对应的预设评估模型叫做选定评估模型。
78.待评估数据中不同的选定数据集,对应的选定评估模型不同,选定评估模型对应的权重也会不同,在确定出选定评估模型时,还需要确定出选定评估模型的权重,以在执行步骤s14时,获得各个选定评估模型的子评估结果,并基于各个选定评估模型的子评估结果和各个选定评估模型的权重,获得最终的评估结果。
79.选定数据集对应的选定数据集的数据维度即为选定数据维度,例如,待评估数据包括行内储蓄、行内结算、行内信贷、人行征信、工商信息、税务信息和内评财报7个数据维度的数据,同时,选定数据集包括行内储蓄数据集、行内结算数据集、行内信贷数据集、人行征信数据集和工商信息数据集5个数据集,则对应的选定数据集包括上述5个数据维度的数据集,选定数据维度包括行内储蓄、行内结算、行内信贷、人行征信和工商信息5个数据维度,同时,获得的选定评估模型包括行内储蓄评估模型、行内结算评估模型、行内信贷评估模型、人行征信评估模型和工商信息评估模型5个评估模型,此时,获得的评估模型的权重也包括5个。然后基于该5个选定评估模型和5个权重,获得最终的集成模型。
80.在该实施例中,针对不同的待评估数据,对应的选定数据集不同,确定出对应的选定评估模型和选定评估模型的权重也不同。根据不同的待评估数据的实际情况,选择合适的选定评估模型和权重,获得准确率较高的评估结果。
81.继续参照图5,图5为图4中步骤s21的一种具体实施方式的流程图,步骤s21包括:
82.步骤s31:获取多个所述选定评估模型对应的多个曲线下面积比率;
83.步骤s32:将多个所述曲线下面积比率求和,获得所述集成模型的总比率;
84.步骤s33:基于多个所述曲线下面积比率与所述总比率的多个比值,获得多个所述选定评估模型对应的多个权重。
85.需要说明的是,曲线下面积比率为auc(area under curve),曲线下面积比率还可以用psi评分代替。
86.可以理解的是,在该实施例中,将一个选定评估模型的曲线下面积比率与总比率的比值确定为该选定评估模型的权重;选定评估模型不同,对应的集成模型的总比率不同,对应的每个选定评估模型的权重也会不同。
87.参照图6,图6为本技术集成模型中各个选定评估模型的权重示意图。在图6中,集成模型的权重均为1,对于不同的客户群(目标对象),对应的选定数据集不同,同一种数据维度的数据集对应的选定评估模型的权重不同。
88.例如,在图6中,客户群2和客户群3对应的行内储蓄的权重分别是0.27和0.21,由于客户群2和客户群3对应的集成模型中选定评估模型的数量和种类不同,所以各个选定评估模型的权重不同,主要是客户群3相对于客户群2多了行内信贷这一数据维度的数据集,导致客户群2和客户群3的集成模型包括的选定评估模型不同,各个选定评估模型的权重也不同。
89.在该实施例中,当集成模型包括的选定评估模型较多时,每一个选定评估模型的比率相对较小,使得整个集成模型的有效性和稳定性均较高,当集成模型包括的选定评估模型较少时,每一个选定评估模型的比率相对较大,使得整个集成模型的有效性和稳定性相对较低。
90.继续参照图7,图7为图2中步骤s14的一种具体实施方式的流程图,步骤s14包括:
91.步骤s41:将每个所述选定数据集,输入所述集成模型中与每个所述选定数据集对应的选定评估模型进行可靠度预测,获得每个所述选定评估模型的预测分值;
92.步骤s42:根据多个所述权重,对基于多个所述预测分值进行加权求和,获得预测分值之和;
93.步骤s43:计算所述集成模型的集成误差率和预测标准差,并确定调整系数;
94.步骤s44:利用所述预测分值之和、所述集成误差率、所述预测标准差和所述调整系数,计算置信区间;
95.步骤s45:根据所述预测分值之和以及所述置信区间,确定所述评估结果。
96.每一个选定评估模型用于对选定数据集中对应的一个数据维度的数据数据集进行可靠度预测,获得多个选定评估模型对应的多个预测分值,预测分值越高,表明可靠度越大,风险度越低;一个选定评估模型对应一个预测分值。然后基于多个预测分值和多个权重,进行加权求和,获得预测分值之和。
97.然后按照策略计算集成误差率和预测标准差,同时,按照永不需求设定对应的调整系数(本发明中的调整系数可以是按照用户需求确定的,也可以是按照下文所述的方法确定),然后继续基于预测分值之和、集成误差率、预测标准差和调整系数,求得该目标对象的待评估数据对应的置信区间。
98.并进一步通过获得的预测分值之和以及所述置信区间,确定所述评估结果。在该实施例中,通过预测分值之和、所述集成误差率、所述预测标准差和所述调整系数,计算置信区间,并通过预测分值之和以及所述置信区间来进行目标对象的评估,提供了一种具体的评估方案。
99.进一步的,集成误差率和标准差的获得方式如下:获取多个所述选定评估模型对应的多个错误率;将多个所述错误率求和,获得所述集成模型的集成误差率;利用多个所述预测分值,计算所述集成模型的预测方差;利用所述预测方差,计算所述集成模型的预测标准差。
100.具体的,基于多个所述错误率(也叫错判率),获得所述集成模型的集成误差率时,是基于多个所述错误率,利用公式一,求得所述集成模型的集成误差率,所述公式一为:
[0101][0102]
其中,r为集成误差率,rk为所述集成模型中第k个选定评估模型的错误率。
[0103]
由r的计算公式可以看出,当选定评估模型个数增多时,r随之减小,意味着每当引入新的“分类专家”(选定评估模型)时,最后的“决策者”(集成模型)犯错的概率总体会降低,最终的评估结果的可靠性也提高;另一方面,假设选定评估模型个数保持不变,其中,某个选定评估模型错判率降低,r随之减小,意味着当其中某个“分类专家”的可靠性提高时,最后的“决策者”犯错的概率总体会降低,预测分值的可靠性也提高。
[0104]
对于任意一个特定的样本点,每个选定评估模型对其的预测分值可以看作服从以下伯努利分布:
[0105][0106]
其中,pk为利用选定数据集中第k个选定数据集获得目标对象为坏客户的概率,ck为所述集成模型中第k个选定评估模型的预测分值。第k个选定数据集与第k个选定评估模型是对应的,pr是指概率值。
[0107]
可以假选定评估模型间两两互不相关;根据期望方差性质以及伯努利分布特性,然后基于求得的多个预测分值,利用公式二,求得所述集成模型的预测方差和预测期望;公
式二为:
[0108][0109][0110]
其中,e(c)和d(c)分别为所述预测期望和预测方差,p为所述预测分值之和,ωk为所述集成模型中第k个选定评估模型的权重,n为集成模型中选定评估模型的总个数。
[0111]
在获得预测方差之后,利用公式三,获得预测标准差,公式三为:
[0112][0113]
其中,sd(c)为预测标准差,为上述描述的权重计算公式。
[0114]
由sd(c)的公式可知,预测标准差与各选定评估模型的自身错误率以及在当前样本点的预测概率(预测分值)均有关系,在其他条件不变前提下,某个选定评估模型对特定预测样本的预测概率越接近0.5(随机分类),预测性能越差,标准差越大。
[0115]
调整系数μ是显著性水平α的函数,该函数应能反映不同置信水平对最终预测区间(所述置信区间)的合理影响,例如,可以是正态分布介值调整系数μ一般默认的5%,在一些情况下,还可以选为10%和1%等。
[0116]
进一步的,所述利用所述预测分值之和、所述集成误差率、所述预测标准差和所述调整系数,计算置信区间的步骤,包括:将所述集成误差率、所述预测标准差和所述调整系数相乘,获得浮动值;将所述预测分值之和加上所述浮动值,获得第一边界值;将所述预测分值之和减去所述浮动值,获得第二边界值;利用所述第一边界值和所述第二边界值,构建所述置信区间。
[0117]
其中,基于所述集成误差率、所述预测标准差和所述调整系数,利用公式四,获得浮动值;公式四为:
[0118]r×
μ
×
sd(c)=ε
[0119]
其中,ε为所述浮动值。此时,置信区间pi=[p-ε,p ε],其中,置信区间的上阈值为第一边界值,下阈值为第二边界值,将公式四与置信区间合并,获得公式五,公式五如下:
[0120]
pi=[p-r
×
μ
×
sd(c),p r
×
μ
×
sd(c)]
[0121]
参照公式五,在集成误差率、标准差保持不变的前提下,显著性水平α越小,置信水平越高,相应的预测区间也越宽,反映此时的预测分值落入区间的可能性越大;显著性水平α越大,置信水平越低,相应的预测区间也越窄,反映此时的预测分值落入区间的可能性越小。
[0122]
由上述集成模型预测的置信区间pi的公式五可见,当置信水平一定的前提下,选定评估模型的错误率越高,或选定评估模型对于特定预测样本点的预测性能越低,相应的集成模型预测区间会越宽,反映预测分值的可靠性越低,反之亦同理;当选定评估模型的错
误率与对于特定预测样本点的预测性能一定的前提下,置信水平越高,相应的集成模型预测区间会越宽,反之亦同理。
[0123]
此种置信区间应用,在不同风险偏好情况下,能给出具体的风险度量区间,能更灵活的进行风险控制应用,尤其是在小微企业供应链场景下既存在较多同质化数据又存在较多个性化维度数据时的差异化应用。
[0124]
进一步的,所述根据所述预测分值之和以及所述置信区间,确定所述评估结果的步骤包括:获取目标对象的需求风险产品对应的预设评估策略和预设评分;确定所述预测分值之和与所述预设评分的第一比对结果,并确定所述置信区间与所述预设评分的第二比对结果;利用所述预设评估策略,对所述第一比对结果和所述第二比对结果进行评估,获得所述评估结果。
[0125]
第一比对结果可以是预测分值之和与预设评分的大小关系(表现为预测分值之和是否大于预设评分),第二比对结果可以是指置信区间的上下阈值与预设评分的大小关系(例如置信区间上阈值小于预设评分)。基于所述第一比对结果和所述第二比对结果,利用所述预设评估策略进行评估,其中所述预设评估策略可以包括不同的第一比对结果和第二比对结果,对应的评估结果,例如,预设评估策略包括规则为:中风险产品a,若预测分值之和大于中风险产品a的预设评分,且,中风险产品a的置信区间的上阈值小于于预设评分,则对应的评估结果为通过。
[0126]
对于同一个目标对象,对应的待评估数据相同时,需求风险产品不同时,预设评估策略和预设评分不同,因此,利用置信区间获得的评估结果不同。评估结果可以包括目标对象评估合格、目标对象评估不合格或目标对象需要继续转人工评估等,本技术不做限定。
[0127]
对于不同的需求风险产品,确定对应的评分阈值不同,有些取预测分值之和的置信区间上边界为阈值,有些取预测分值之和的置信区间下边界为阈值;当确定一个目标对象的需求风险产品之后,确定出该需求风险产品的评分阈值,基于该评分阈值与该目标对象的置信区间的关系,获得最终的评估结果,一般而言,评分阈值在置信区间内,则评估结果为目标对象评估合格。
[0128]
例如,7个数据维度下模型评分为600的客户相对于3个数据维度下评分为600分的客户,分数的说服力和稳定性更值得被相信,对于风控较严的需求风险产品准过线(评分阈值)为590的情况下,有些600分客户不合格、有些600分客户被转人工、有些600分客户合格。
[0129]
参照图8,图8为本技术评估结果示意图,在图8中,模型评分相同的客户1-客户5,由于数据维度不同,对应的评估结果也不同,对于同一种风险产品,可能需要转人工,也可能直接通过。对于数据维度相同的用户,模型评分不同,对于同种风险产品的评估结果也不同,例如客户1和客户11。可见,对于同一个模型评分,评估结果需要参考评估维度和风险产品的种类,共同确定是否通过,或者是否转人工。
[0130]
在该实施例中,利用置信区间作为评估结果的获得依据,相较于只有一个评估分数,置信区间包括一个范围的值,利用置信区间可以更准确的确定出针对不同需求风险产品的评估结果,评估结果的准确率较好,评估结果针对的产品范围也较广。
[0131]
继续参照图9,图9为本技术的基于人工智能的风险度量评估装置第一实施例的结构示意图,所述装置用于计算机设备,所述装置包括:
[0132]
获取模块10,用于在获取到目标对象的待评估数据时,将所述待评估数据中数据
维度相同的数据划分为一个数据集,获得多个数据集;
[0133]
确定模块20,用于用于确定多个所述数据集对应的多个数据饱和度,并利用多个所述数据饱和度,在多个所述数据集中确定出多个选定数据集,一个数据集对应一个数据饱和度;
[0134]
模型获得模块30,用于按照多个所述选定数据集所属的数据维度,从预设评估模型集合中确定出多个选定评估模型,并将多个所述选定评估模型集合成集成模型,其中,一个选定数据集对应一个选定评估模型;
[0135]
结果获得模块40,用于将每个所述选定数据集输入所述集成模型中与每个所述选定数据集对应的选定评估模型,以获得评估结果。
[0136]
需要说明的是,由于本实施例的装置所执行的步骤与前述方法实施例的步骤相同,其具体的实施方式以及可以达到的技术效果都可参照前述实施例,这里不再赘述。
[0137]
进一步的,所述确定模块20包括:
[0138]
获取子模块,用于获取多个所述数据集的多个需求数据量阈值,一个数据集对应一个需求数据量阈值;
[0139]
统计子模块,用于对多个所述数据集进行数据量统计,获得多个实际数据量,一个数据集对应一个实际数据量;
[0140]
第一计算子模块,用于利用每个所述数据集的实际数据量和每个所述数据集的需求数据量阈值,计算每个所述数据集的数据饱和度。
[0141]
进一步的,所述模型获得模块30包括:
[0142]
第一确定子模块,用于确定多个所述选定评估模型对应的多个权重,一个选定评估模型对应一个权重;
[0143]
第一获得子模块,用于基于多个所述选定评估模型和多个所述权重,获得所述集成模型。
[0144]
进一步的,所述第一确定子模块包括:
[0145]
第一获取单元,用于获取多个所述选定评估模型对应的多个曲线下面积比率;
[0146]
计算单元,用于将多个所述曲线下面积比率求和,获得所述集成模型的总比率;
[0147]
第一获得单元,用于基于多个所述曲线下面积比率与所述总比率的多个比值,获得多个所述选定评估模型对应的多个权重。
[0148]
进一步的,所述结果获得模块40包括:
[0149]
第二获得子模块,用于将每个所述选定数据集,输入所述集成模型中与每个所述选定数据集对应的选定评估模型进行可靠度预测,获得每个所述选定评估模型的预测分值;
[0150]
第三获得子模块,用于根据多个所述权重,对基于多个所述预测分值进行加权求和,获得预测分值之和;
[0151]
第二计算子模块,用于计算所述集成模型的集成误差率和预测标准差,并确定调整系数;
[0152]
第三计算子模块,用于利用所述预测分值之和、所述集成误差率、所述预测标准差和所述调整系数,计算置信区间;
[0153]
第二确定子模块,用于根据所述预测分值之和以及所述置信区间,确定所述评估
结果。
[0154]
进一步的,所述第二计算子模块包括:
[0155]
误差率获得单元,用于获取多个所述选定评估模型对应的多个错误率;将多个所述错误率求和,获得所述集成模型的集成误差率;
[0156]
标准差获得单元,用于利用多个所述预测分值,计算所述集成模型的预测方差;利用所述预测方差,计算所述集成模型的预测标准差。
[0157]
进一步的,所述第三计算子模块包括:
[0158]
第二获得单元,用于将所述集成误差率、所述预测标准差和所述调整系数相乘,获得浮动值;
[0159]
第三获得单元,用于将所述预测分值之和加上所述浮动值,获得第一边界值;
[0160]
第四获得单元,用于将所述预测分值之和减去所述浮动值,获得第二边界值;
[0161]
构建单元,用于利用所述第一边界值和所述第二边界值,构建所述置信区间。
[0162]
进一步的,所述第二确定子模块包括:
[0163]
第二获取单元,用于获取目标对象的需求风险产品对应的预设评估策略和预设评分;
[0164]
确定单元,用于确定所述预测分值之和与所述预设评分的第一比对结果,并确定所述置信区间与所述预设评分的第二比对结果;
[0165]
第五获得单元,用于利用所述预设评估策略,对所述第一比对结果和所述第二比对结果进行评估,获得所述评估结果。
[0166]
需要说明的是,由于本实施例的装置所执行的步骤与前述方法实施例的步骤相同,其具体的实施方式以及可以达到的技术效果都可参照前述实施例,这里不再赘述。
[0167]
参照图10,图10为本技术实施例方案涉及的硬件运行环境的计算机设备结构示意图。
[0168]
通常,计算机设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的基于人工智能的风险度量评估程序,所述基于人工智能的风险度量评估程序配置为实现如前所述的基于人工智能的风险度量评估方法的步骤。
[0169]
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processingunit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关基于人工智能的风险度量评估方法操作,使得基于人工智能的风险度量评估方法模型可以自主训练学习,提高效率和准确度。
[0170]
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个
或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器301所执行以实现本技术中方法实施例提供的基于人工智能的风险度量评估方法。
[0171]
在一些实施例中,终端还可选包括有:通信接口303和至少一个外围设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与通信接口303相连。具体地,外围设备包括:射频电路304、显示屏305和电源306中的至少一种。
[0172]
通信接口303可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器301和存储器302。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0173]
射频电路304用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0174]
显示屏305用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用lcd(liquidcrystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0175]
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。本领域技术人员可以理解,图1中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0176]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于人工智能的风险度量评估程序,所述基于人工智能的风险度量评估程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于人工智能的风险度量评估方法的步骤。
[0177]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台计算机设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0178]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献