一种基于改进层次分析法的用户画像构建方法与流程

2022-02-19 00:38:04 来源：中国专利 TAG：

1.本发明涉及用户画像技术领域，尤其涉及一种基于改进层次分析法的用户画像构建方法。

背景技术：

2.随着互联网的迅速发展,人们的日常工作与生活习惯发生了质的改变。互联网技术的发展和应用以迅雷不及掩耳之式渗透到各行各业,尤其是金融行业,传统金融行业正接受着大数据、互联网以及用户体验不平衡不对称的严峻考验。大数据风控技术已经成为业内人士最关注的一个大数据应用焦点。金融风控模型是互联网金融在阳光下健康成长的必然趋势。当前互联网金融信用体系还不是很完善,征信系统和有关法令都含有一定的缺陷,互联网将个人的静态数据和行为数据提取出来进行分析建模,即信用风控的用户画像研究是风控模型的主要内容。
3.用户画像常以规则、层次分析法等进行；层次分析法，简称ahp，是指将与决策总是有关的元素分解成目标、准则、方案等层次，在此基础之上进行定性和定量分析的决策方法。该方法是20世纪70年代初，应用网络系统理论和多目标综合评价方法，提出的一种层次权重决策分析方法。
4.层次分析法是将决策问题按总目标、各层子目标、评价准则直至具体的备投方案的顺序分解为不同的层次结构，然后用求解判断矩阵特征向量的办法，求得每一层次的各元素对上一层次某元素的优先权重，最后再加权和的方法递阶归并各备择方案对总目标的最终权重，此最终权重最大者即为最优方案。
5.层次分析法在经济、科技、文化、军事、环境乃至社会发展等方面的管理决策中都有广泛的应用。
6.常用来解决诸如综合评价、选择决策方案、估计和预测、投入量的分配等问题。
7.运用层次分析法解决问题，大体可以分为四个步骤：
8.1.建立问题的递阶层次结构；(首先，将复杂问题分解为称之为元素的各组成部分，把这些元素按属性不同分成若干组，以形成不同层次。同一层次的元素作为准则，对下一层次的某些元素起支配作用，同时它又受上一层次元素的支配。这种从上至下的支配关系形成了一个递阶层次。处于最上面的的层次通常只有一个元素，一般是分析问题的预定目标或理想结果。中间层次一般是准则、子准则。最低一层包括决策的方案。层次之间元素的支配关系不一定是完全的，即可以存在这样的元素，它并不支配下一层次的所有元素。)
9.2.构造两两比较判断矩阵；
10.3.由判断矩阵计算被比较元素相对权重；
11.4.计算各层次元素的组合权重。
12.现有常用的层次分析法，各个维度的指标之间的重要性是通过人为经验给出，这使得各个指标的权重系数的主观性过强，不能对用户各维度进行客观的评价。

技术实现要素：

13.为了解决以上技术问题，本发明提供了一种基于改进层次分析法的用户画像构建方法，使得各个画像维度的指标标对应的权重值具有更高的合理性和可靠性，进而得到对用户画像各个维度更加客观公正的评价。
14.本发明的技术方案是：
15.一种基于改进层次分析法的用户画像构建方法，实现步骤主要包括：基于多源数据，通过数据之间比对，不同原始字段对齐，对多源异构数据分析融合等方法建立形成标准数据库；基于建立的标准数据库，从高维数据中获取有助于用户画像的信息；基于标准数据库筛选建立用户画像指标体系，通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析、异常值检测、缺失值填充等流程筛选形成用户画像入模特征；基于入模特征为用户标注标签，以被后续用于指标重要性的判定；基于xgboost进行特征重要性分析；根据特征性质将上面剩余指标划分至基本能力、履约能力、偿债能力等各画像维度；根据xgboost指标评分，构建各个维度的ahp判定矩阵；对判定矩阵进行一致性检验；构建各个维度的评分。
16.进一步的，
17.标准数据库建立步骤：多源数据包括部门数据、互联网数据、第三方数据共计三方数据源，三方数据源通过数据汇聚、融合比对等建立标准数据库；
18.用户画像的指标体系的建立步骤：基于建立的多源数据标准库，基于业务含义，建设用于用户画像的指标体系；
19.用户画像模型建立步骤：入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析等特征工程以及特征筛选之后用于建立用户画像模型；特征筛选包括特征工程过程中进行缺失、同值统计过程中基于阈值的特征筛选以及用户画像模型建立过程中基于扰动特征重要性进行特征筛选两部分内容；最终入模特征确定后，通过xgboost特征重要性排序，确定各个指标的重要性排序和评分；根据指标的特性将指标划归至各个维度中，各个维度的指标基于xgboost特征重要性评分构建初始判定矩阵，对矩阵进行一致性检验并计算个指标权重系数；为各指标划分评分区间，构建用户画像模型，输出各维度的评分；
20.用户画像评级转换的步骤：通过指标的含义将指标划归至基本能力，用户稳定性，履约能力、偿债能力、发展能力等五个维度，并对各个维度通过上述3中的步骤进行计算处理，最终得到每个用户在各个画像维度的评分。在该部分通过对各个维度画像的评分统计，根据四分位数为各个样本赋上画像维度评级，评级分为a，b，c，d，e五个等级。
21.进一步的，
22.所述标准数据库构建的步骤
23.多源异构数据的治理：多源数据来源于企业、部门、互联网等多方来源，包括结构化数据以及半结构化数据，既包括存量数据也包括api接口提供的数据。半结构化的数据需要经过文本数据处理、数据提取、数据的结构化处理等形成结构化的入库数据，通过建立统一的数据标准规范对入库的多源数据进行规范化管理，互联网数据等可存储数据定期拉取，实时接口数据通过内存进行处理，结合批流处理模式对数据进行数据加工处理、数据标准化、轻特征挖掘等；
24.数据融合：三方多源数据通过横纵向数据融合，多源互补数据、冗余数据、重叠数
据通过不同的融合策略最终融合汇聚到统一的数据库中，数据库存储多源数据融合之后的标准库数据、加工所得指标库、特征库等信息。
25.进一步的，
26.所述指标体系的两部分组成及构建的步骤
27.用户画像的指标体系基于建立的多源数据标准库，从大数据中建设用于用户画像的指标体系。
28.再进一步的，该方法的步骤：
29.基于构建的标签进行xgboost重要性分析：本发明中通过选用部分较为明确的指标为用户标注标签，比如是否为失信人，企业是否被吊销、被注销，纳税等级，欠税信息等；通过交叉验证寻求节点分裂所需的最小损失函数下降值、构造每棵树的所用样本比例、树的最大深度、构造每棵树所用的特征比例、叶子结点小最小样本权重和等参数的最优取值；对xgboost模型按照参数寻优多次训练，输出指标的重要性排序以及指标重要性评分。
30.初始判定矩阵的构建：基于构建的标签进行xgboost重要性分析获取指标重要性评分。首先根据指标的性质，将指标划分至基本能力，用户稳定性，履约能力、偿债能力、发展能力五个维度；根据各个维度中指标的个数建立不同大小的判定矩阵，同一个维度内的指标以指标之间的重要性评分比值作为判定矩阵位置的元素，形成最终的初始判定矩阵。
31.矩阵一致性检验：对上述各个维度的判断矩阵进行一致性校验；当cr＞0.1时，所述判断矩阵未通过一致性校验，可对部分指标重要性进行调整；当cr≤0.1时，确定当前判定矩阵，通过算数平均法、几何平均法、特征值法求每个指标的权重；先将判定矩阵按照列归一化，然后计算权重向量，按列求和得到权重系数。
32.训练样本区间转换：转换后的样本按照指标的分位数进行划分，按照分位数的20,40,60,80，将所有入模指标进行划分至对应的区间；正向含义的指标初始赋分按照区间范围分别赋分20，40,60,80,100，若负向含义的指标则进行反向赋分。
33.用户画像评分形成：过上述步骤，已经为各个画像维度的指标进行了初始赋分，算数平均法计算求得指标权重系数，通过各个指标的初始评分initial_score*权重系数weight得到该维度的画像评分score＝sum(initial_score*weight)。
34.该用户画像评级转换的构建的步骤：
35.通过指标的含义将指标划归至基本能力，用户稳定性，履约能力、偿债能力、发展能力等五个维度，并对各个维度通过上述步骤进行计算处理，最终得到每个用户在各个画像维度的评分。在该部分通过对各个维度画像的评分统计，根据四分位数为各个样本赋上画像维度评级，评级分为a，b，c，d，e五个等级，即为最终的用户画像评价结果。
36.本发明的有益效果是
37.1、相较于传统的ahp构建初始矩阵的方法，本发明在构建初始矩阵时，首先通过xgboost计算各个指标的重要性评分，然后基于指标之间重要性评分比来作为判定矩阵的元素，该方法克服现有技术中常用的层次分析法在构建用户画像初始判定矩阵中主观性过强，不能对系统性能进行客观的评价的不足。
38.2、在进行特征的提取时，指标通过相关性分析、共线性分析，并且在构建判定矩阵前进行xgboost指标重要性分析，通过上述特征处理方法，能够提取出对用户画像关键的指标，使得用户画像模型结果更加的准确可靠，有效的识别用户的优劣，给出正确的判断，为
金融信贷提供帮助与指导；
39.3、本发明中改进的层次分析法在构建初始判定矩阵时，通过xgboost评分得到，这使得该过程效率提高；当用户画像用到的指标较多，到达几十个甚至上百时，通过人工经验来对指标重要性来进行判别难度极大，耗时很长；通过本发明中构建初始判定矩阵的方法则可以快速准确的完成；
40.4、伴随海量数据的汇聚、科技的不断进步，层次分析法已应用到许多领域，包括海底电缆状态评估、空气质量评估、性能评估等，本发明提出的方法对各个场景均适用，从数据的角度，对特征重要性进行量化分析，应用前景极为广阔。
附图说明
41.图1是本发明中用户画像各维度雷达图的示意图；
42.图2是本发明提出的用户画像模型建立的流程图。
具体实施方式
43.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
44.本发明一种基于改进层次分析法的用户画像构建方法，实现步骤主要包括：基于多源数据，通过数据之间比对，不同原始字段对齐，对多源异构数据分析融合等方法建立形成标准数据库；基于建立的标准数据库，从高维数据中获取有助于用户画像的信息；基于标准数据库筛选建立用户画像指标体系，通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析、异常值检测、缺失值填充等流程筛选形成用户画像入模特征；基于入模特征为用户标注标签，以被后续用于指标重要性的判定；基于xgboost进行特征重要性分析；根据特征性质将上面剩余指标划分至基本能力、履约能力、偿债能力等各画像维度；根据xgboost指标评分，构建各个维度的ahp判定矩阵；对判定矩阵进行一致性检验；构建各个维度的评分。
45.1.多源异构数据分析融合建立用户标准数据库
46.用户的多源异构数据覆盖用户的政府数据等信息，用户的互联网数据，用户的第三方数据包括用户对外担保、用水用电、股权质押、土地抵押及转让、重要股东质押等信息。多源数据中既包括入库的存量数据，也包括api接口数据，既包括结构化的基本信息、变更、黑名单、认定信息等数据，也包括公告等半结构化的数据。
47.半结构化数据需要通过文本数据处理、数据提取、数据结构化方法等形成结构化的数据入库保存，入库的结构化数据需要经过数据对齐、融合比对等方法建立统一的标准数据表格，针对某一维度的信息建立覆盖多范围的标准数据表格，不同数据源之间数据进行融合比对，建立统一的标准数据集，主要包括数据源之间的融合，将具有互补关系的数据对齐融合，将具有冗余关系的数据进行去重处理，选取数据质量较好的数据。多维度数据经过融合比对后形成标准数据集，存储于标准数据库中。
48.2.构建用于用户画像的指标体系
49.基于建立的多源数据标准库，建设用于用户画像的指标体系，构建指标的数据主要来源于部门数据；另外，关系数据也用于构建部分指标。
50.3.建立用户画像模型
51.入模指标通过数据清洗、无效值处理、同值统计、缺失值统计、共线性分析等特征工程以及特征筛选之后用于建立用户画像模型；特征筛选包括特征工程过程中进行缺失、同值统计过程中基于阈值的特征筛选以及用户画像模型建立过程中基于扰动特征重要性进行特征筛选两部分内容；最终入模特征确定后，通过xgboost特征重要性排序，确定各个指标的重要性排序和评分；根据指标的特性将指标划归至各个维度中，各个维度的指标基于xgboost特征重要性评分构建初始判定矩阵，对矩阵进行一致性检验并计算各指标权重系数；为各指标划分评分区间，用户画像构建模型，输出各维度的评分。
52.3.1特征工程
53.首先对入模指标中的无效值进行处理，对部分可量化指标进行数值量化；然后对入模指标进行缺失值统计，去除缺失值大于75％的训练指标；针对剩余指标进行同值率的统计，去除属性只有一个值的特征，去除属性同值率大于80％的指标；针对缺失值、同一值统计后的评估指标进行vif共线性分析，去除具有共线性的指标。
54.3.2基于构建的标签进行xgboost重要性分析
55.通过xgboost对含标签的样本指标重要性进行分析，后续根据给出的指标重要性评分构建初始判定矩阵。xgboost训练参数如下：
56.(1)节点分裂所需的最小损失函数下降值gamma,在区间[0,1/3]内以3/1000的步长寻找最优取值；
[0057]
(2)构造每棵树的所用样本比例subsample，在区间[1/2,7/10]内以步长1/500的步长寻找最优取值；
[0058]
(3)树的最大深度max_depth在[3,7]上寻求最优取值；
[0059]
(4)构造每棵树所用的特征比例colsample_bytree在[1/2,7/10]区间上以步长1/250寻找最优；
[0060]
(5)叶子结点小最小样本权重和min_child_weight在区间[1/4,1/2]上以步长3/1000寻找最优取值；
[0061]
(6)剩余参数以默认值入模。
[0062]
该模型输出选用指标的重要性排序及重要性评分。
[0063]
3.3用户画像模型建立
[0064]
本发明构造初始判定矩阵的方式如下：以xgboost给出的指标重要性评分为基础，构建初始判定矩阵，加入专家经验的调整；对构建初始判定矩阵进行一致性检验，并计算指标权重系数。
[0065]
3.3.1构建初始判定矩阵
[0066]
(1)由3.2基于构建的标签进行xgboost重要性分析获取指标重要性评分，对选用的18个指标给出重要性评分排序，分别为s_01>s_02>
…
>s_18；
[0067]
(2)根据指标的含义性质，将指标划分至基本能力，用户稳定性，履约能力、偿债能力、发展能力五个维度，各个维度的指标个数分别为4,4,3,4,3；
[0068]
(3)同一个维度内的指标以指标之间的重要性评分比值作为判定矩阵位置的元
素，形成最终的初始判定矩阵。
[0069]
3.3.2矩阵一致性检验
[0070]
(1)对3.3.1所述的五个维度的判断矩阵进行一致性校验；当cr＞0.1时，所述判断矩阵未通过一致性校验，进入步骤3.3.1的(3)可进行调整；当cr≤0.1时，进入后续步骤；
[0071]
注：一致性比率计算公式为：
[0072][0073]
其中，cr为一致性比率，ci为一致性指标，ri为平均随机一致性指标，根据矩阵的阶数查表所得，r
max
为所述判断矩阵的最大特征根，n为所述判断矩阵的阶数。
[0074]
(2)判定矩阵通过一致性检验后，通过算数平均法求每个指标的权重；先将判定矩阵按照列归一化，然后计算权重向量，按列求和得到权重系数；另外也可以通过几何平均法、特征值法求权重。
[0075]
3.3.3数据检验与转换
[0076]
(1)对训练样本的各个入模指标进行探索，计算各个指标的偏度和峰度，统计数据分布非对称程度；
[0077]
(2)对偏度大于3，峰度大于3的指标进行log转换。
[0078]
3.3.4训练样本区间转换
[0079]
(1)转换后的样本按照指标的分位数进行划分，按照分位数的20,40,60,80，将所有入模指标进行划分至对应的区间；
[0080]
(2)正向含义的指标初始赋分按照区间范围分别赋分20，40,60,80,100，若负向含义的指标则进行反向赋分；
[0081]
3.3.5用户画像评分形成
[0082]
通过上述步骤，已经为各个画像维度的指标进行了初始赋分，算数平均法计算求得指标权重系数，通过各个指标的初始评分initial_score*权重系数weight得到该维度的画像评分。
[0083]
4.用户画像评级转换
[0084]
上述步骤中，通过指标的含义将指标划归至基本能力，用户稳定性，履约能力、偿债能力、发展能力等五个维度，并对各个维度通过上述3中的步骤进行计算处理，最终得到每个用户在各个画像维度的评分。在该部分通过对各个维度画像的评分统计，根据四分位数为各个样本赋上画像维度评级，评级分为a，b，c，d，e五个等级。
[0085]
另外，可以根据各个维度的得分绘制雷达图，以便更清晰的理解。
[0086]
以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于边缘计算的嵌入式电力违规行为检测方法及系统与流程

一种基于改进层次分析法的用户画像构建方法与流程

相关文献

最热文献