数据分析方法、装置及电子设备与流程

2022-06-15 20:46:12 来源：中国专利 TAG：

1.本发明涉及人工智能领域，具体而言，涉及一种数据分析方法、装置及电子设备。

背景技术：

2.数据时代用其独特的方式冲击着人们的生活，也对金融平台创新能力、信息技术能力提出了重大考验。面对日益复杂的经济社会情况，如何有效挖掘潜在优质客户以提高客户经理的客户服务效率、减少人力资本投入成为了金融平台营销体系中的重要议题。
3.目前，相关金融平台仍以传统方式分析客户是否为优质客户，依赖于专家和一线工作人员的主观判断，从而造成分析准确度低的问题，进而消耗较多人力和财力成本，降低营销效率。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种数据分析方法、装置及电子设备，以至少解决现有技术中依赖人工分析客户类型造成的分析准确度低的技术问题。
6.根据本发明实施例的一个方面，提供了一种数据分析方法，包括：获取待分析对象所对应的经济信息；对经济信息进行处理，得到目标经济特征信息，其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的；根据目标经济特征信息确定待分析对象的对象类型，其中，对象类型用于表征待分析对象对金融平台的重要程度。
7.进一步地，数据分析方法还包括：基于经济信息确定多个经济特征信息；对每个经济特征信息进行标准化处理，得到多个标准化经济特征信息；从多个标准化经济特征信息中确定目标经济特征信息。
8.进一步地，数据分析方法还包括：确定每个经济特征信息对应的变量类型；在经济特征信息为连续型变量类型时，基于标准差对经济特征信息进行数据转换处理，得到标准化经济特征信息；在经济特征信息为离散型变量类型时，对经济特征信息进行二进制转换处理，得到标准化经济特征信息。
9.进一步地，数据分析方法还包括：在从多个标准化经济特征信息中确定目标经济特征信息之前，获取多个对象对应的历史经济信息，其中，对象为已确定对象类型的对象；基于历史经济信息确定多个历史经济特征信息；基于每个对象对应的多个历史经济特征信息进行特征相关性计算，得到多个距离相关系数；基于多个距离相关系数和多个历史经济特征信息确定至少一个目标历史经济特征信息；确定至少一个目标历史经济特征信息对应的特征类型为目标特征类型。
10.进一步地，数据分析方法还包括：对每个历史经济特征信息进行标准化处理，得到多个标准化历史经济特征信息；基于每个对象对应的多个标准化历史经济特征信息确定多个距离相关系数。
11.进一步地，数据分析方法还包括：基于每个对象对应的多个标准化历史经济特征信息确定多个第一特征矩阵，其中，每个第一特征矩阵与每个标准化历史经济特征信息相对应；基于多个第一特征矩阵确定多个距离相关系数。
12.进一步地，数据分析方法还包括：基于多个距离相关系数确定第二特征矩阵；基于预设系数确定与第二特征矩阵对应的布尔矩阵；基于布尔矩阵和第二特征矩阵从多个标准化历史经济特征信息中确定至少一个目标历史经济特征信息。
13.进一步地，数据分析方法还包括：基于目标模型对目标经济特征信息进行处理，得到待分析对象的对象类型。
14.进一步地，数据分析方法还包括：在基于目标模型对目标经济特征信息进行处理，得到待分析对象的对象类型之前，基于每个对象对应的对象类型以及目标历史经济特征信息构建数据集；划分数据集，得到多个数据子集，其中，每个数据子集包括至少一个对象对应的对象类型以及目标历史经济特征信息；对数据子集随机抽样多次，得到多个训练子集；基于训练子集和数据集构建目标模型，其中，目标模型为随机森林模型。
15.根据本发明实施例的另一方面，还提供了一种数据分析装置，包括：获取模块，用于获取待分析对象所对应的经济信息；处理模块，用于对经济信息进行处理，得到目标经济特征信息，其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的；确定模块，用于根据目标经济特征信息确定待分析对象的对象类型，其中，对象类型用于表征待分析对象对金融平台的重要程度。
16.根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据分析方法。
17.根据本发明实施例的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据分析方法。
18.根据本发明实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述的数据分析方法。
19.在本发明实施例中，采用基于处理后的经济信息确定待分析对象的对象类型的方式，通过获取待分析对象所对应的经济信息，然后对经济信息进行处理，得到目标经济特征信息，从而根据目标经济特征信息确定待分析对象的对象类型。其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的，对象类型用于表征待分析对象对金融平台的重要程度。
20.在上述过程中，通过对多个对象的历史经济信息进行特征相关性计算，可以判断出每个特征类型与每个特征类型之间的关联程度，从而可以基于关联程度确定每个特征类型的重要程度，之后，通过将相对重要的特征类型作为目标特征类型，并基于目标特征类型确定目标经济特征信息，可以准确从经济信息中提取出有效的经济特征信息，从而避免了现有技术中人工选择的经济特征信息存在冗余信息，进而提高了目标经济特征信息的有效
性。进一步地，基于目标经济特征信息确定待分析对象的对象类型，避免了现有技术中基于人工主观的分析客户类型，从而实现了对客户类型的准确分析，并降低了人力、财力成本，提高了营销效率。
21.由此可见，本技术所提供的方案达到了基于处理后的经济信息确定待分析对象的对象类型的目的，从而实现了提高分析准确度的技术效果，进而解决了现有技术中依赖人工分析客户类型造成的分析准确度低的技术问题。
附图说明
22.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
23.图1是根据本发明实施例的一种可选的数据分析系统的示意图；
24.图2是根据本发明实施例的一种可选的数据处理模块的示意图；
25.图3是根据本发明实施例的一种可选的数据分析方法的示意图；
26.图4是根据本发明实施例的一种可选的数据分析装置的示意图；
27.图5是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
28.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
29.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
30.需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。
31.实施例1
32.根据本发明实施例，提供了一种日志文件生成方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
33.在本实施例中，如图1所示，以一种可选的数据分析系统为执行主体执行前述的数据分析方法，该数据分析系统包括信息导入模块、数据处理模块、模型构建模块、预测模块、以及展示模块，其中，信息导入模块与数据处理模块相连，数据处理模块与模型构建模块相连，模型构建模块与展示模块相连，预测模块至少与数据处理模块相连，还可与信息导入模块、模型构建模块和展示模块相连，如图2所示，数据处理模块还包括顺次连接的数据整理模块、数据标准化模块以及特征选择模块。
34.图3是根据本发明实施例的一种可选的数据分析方法的示意图，如图3所示，该方法包括如下步骤：
35.步骤s301，获取待分析对象所对应的经济信息。
36.在步骤s301中，可以通过应用系统、服务器、电子设备等装置获取待分析对象对应的经济信息，在本实施例中，可以通过数据分析系统中的预测模块获取待分析对象所对应的经济信息。
37.其中，待分析对象可以是金融场景下的交易对象，在本实施例中，待分析对象为银行客户。可选的，预测模块可以从信息导入模块中获取待分析对象的经济信息以及基本信息，也可以从云服务器、数据库等其它存储区域中获取待分析对象的经济信息以及基本信息。其中，经济信息至少包括存款明细、理财、基金、保险、国债、贵金属、第三方存管、负债等原始工作库数据，基本信息至少包括用户姓名和身份证号，相关工作人员可以通过手动添加或文件批量导入的方式将前述数据导入至信息导入模块，以供信息导入模块存储。
38.步骤s302，对经济信息进行处理，得到目标经济特征信息，其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的。
39.在步骤s302中，预测模块可以通过数据处理模块对经济信息进行数据整理、数据标准化、数据清洗等预处理，得到多个标准化经济特征信息，然后通过数据处理模块从多个标准化经济特征信息筛选出包括有目标特征类型的标准化经济特征信息，并将筛选出的标准化经济特征信息作为目标经济特征信息。
40.其中，在从多个标准化经济特征信息筛选出包括有目标特征类型的标准化经济特征信息之前，数据处理模块可以基于皮尔逊相关系数算法、距离相关系数算法等算法对其它对象的历史经济信息进行特征相关性计算，以确定历史经济信息中每个特征信息与每个特征信息之间的关联程度，也即确定每个特征类型与每个特征类型之间的关联程度，然后，可以基于与某一特征信息满足预设关联程度的特征信息的数量确定该特征信息的重要程度，也即确定该特征信息对应的特征类型的重要程度，从而可以基于重要程度筛选出有效特征信息，并确定有效特征信息对应的特征类型为目标特征类型。其中，前述的其它对象为已确定对象类型的对象。
41.需要说明的是，对多个对象的历史经济信息进行特征相关性计算，可以判断出每个特征类型与每个特征类型之间的关联程度，从而可以基于关联程度确定每个特征类型的重要程度，之后，通过将相对重要的特征类型作为目标特征类型，并基于目标特征类型确定目标经济特征信息，可以准确从经济信息中提取出有效的经济特征信息，从而避免了现有技术中用于分析对象类型的经济特征信息存在冗余信息，进而提高了目标经济特征信息的有效性。
42.步骤s303，根据目标经济特征信息确定待分析对象的对象类型，其中，对象类型用于表征待分析对象对金融平台的重要程度。
43.在步骤s303中，预测模块可以获取目标经济特征信息，然后基于目标经济特征信息确定待分析对象的对象类型，在本实施例中，预测模块用于确定待分析对象是否为优质客户。可选的，预测模块可以基于机器学习模型确定待分析对象的对象类型，也可以基于其它分析方法确定待分析对象的对象类型。
44.进一步地，当确定了待分析对象的对象类型以后，预测模块可以将待分析对象的对象类型发送至展示模块，以向工作人员展示。
45.需要说明的是，根据目标经济特征信息确定待分析对象的对象类型，避免了现有技术中基于人工主观的分析客户类型，从而实现了对客户类型的准确分析，并降低了人力、财力成本，提高了营销效率。
46.基于上述步骤s301至步骤s303所限定的方案，可以获知，在本发明实施例中，采用基于处理后的经济信息确定待分析对象的对象类型的方式，通过获取待分析对象所对应的经济信息，然后对经济信息进行处理，得到目标经济特征信息，从而根据目标经济特征信息确定待分析对象的对象类型。其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的，对象类型用于表征待分析对象对金融平台的重要程度。
47.容易注意到的是，在上述过程中，通过对多个对象的历史经济信息进行特征相关性计算，可以判断出每个特征类型与每个特征类型之间的关联程度，从而可以基于关联程度确定每个特征类型的重要程度，之后，通过将相对重要的特征类型作为目标特征类型，并基于目标特征类型确定目标经济特征信息，可以准确从经济信息中提取出有效的经济特征信息，从而避免了现有技术中人工选择的经济特征信息存在冗余信息，进而提高了目标经济特征信息的有效性。进一步地，基于目标经济特征信息确定待分析对象的对象类型，避免了现有技术中基于人工主观的分析客户类型，从而实现了对客户类型的准确分析，并降低了人力、财力成本，提高了营销效率。
48.由此可见，本技术所提供的方案达到了基于处理后的经济信息确定待分析对象的对象类型的目的，从而实现了提高分析准确度的技术效果，进而解决了现有技术中依赖人工分析客户类型造成的分析准确度低的技术问题。
49.在一种可选的实施例中，在对经济信息进行处理，得到目标经济特征信息的过程中，数据处理模块可以基于经济信息确定多个经济特征信息，然后对每个经济特征信息进行标准化处理，得到多个标准化经济特征信息，从而从多个标准化经济特征信息中确定目标经济特征信息。
50.可选的，数据整理模块可以根据经济信息按固定期限以及固定分类标准梳理得到多个经济特征信息，其中，固定期限可以按照时间维度分类为日均、月均、季均、年均等，固定分类包括某类资产平均值、最高值，或是交易总额、平均交易额等，得到的多个经济特征信息可以是当日手机银行累计登录次数、当月跨行转账交易总笔数、当季客户资金流入总额、当年累计基金赎回总额等。需要说明的是，固定期限还可设置有取值时间范围，如限定在2019年1月-2020年1月的经济信息。
51.进一步地，当得到多个经济特征信息后，由于各个经济特征信息的取值范围相差
较大，即不同经济特征信息间具有不同的量纲单位，这样往往会降低对对象类型的分析精度，导致分析结果不准确。因此，在对对象类型进行分析前，可以通过数据标准化模块对各个经济特征信息进行标准化处理，即将各个经济特征信息限定在同一取值范围内。其中，在本实施例中，数据标准化模块可以基于各个经济特征信息的变量类型对各个经济特征信息进行连续型变量标准化或离散型变量标准化，从而得到多个标准化经济特征信息。
52.更进一步地，当得到多个标准化经济特征信息后，特征选择模块可以基于预先确定好的目标特征类型从多个标准化经济特征信息筛选出目标经济特征信息，并将筛选出目标经济特征信息存入数据库中，以供后续分析。
53.需要说明的是，通过从经济信息中提取出经济特征信息，实现了对经济信息的有效整理，在减少数据量的同时又增加了数据的精准度，通过对经济特征信息进行标准化，避免了各个经济特征信息之间取值范围相差较大导致的分析结果不准确，由此，提升了从标准化经济特征信息筛选出的目标经济特征信息的有效性。
54.在一种可选的实施例中，在对每个经济特征信息进行标准化处理，得到多个标准化经济特征信息的过程中，数据标准化模块可以确定每个经济特征信息对应的变量类型，并在经济特征信息为连续型变量类型时，基于标准差对经济特征信息进行数据转换处理，得到标准化经济特征信息，在在经济特征信息为离散型变量类型时，对经济特征信息进行二进制转换处理，得到标准化经济特征信息。
55.可选的，当数据标准化模块确定经济特征信息为连续型变量类型时，数据标准化模块可以采用z-score方法进行对该经济特征信息进行标准化处理。z-score方法的核心思想是将原始数据通过一定的比例转换，使原始数据符合标准的正态分布。转换函数如下所示：
[0056][0057]
其中，x
new
表示标准化后的该经济特征信息的特征值，μ表示该特征值的均值，σ表示该特征值的标准差。由此实现对属于连续型变量的经济特征信息的标准化。
[0058]
可选的，当数据标准化模块确定经济特征信息为离散型变量类型时，数据标准化模块可以采用one-hot编码方法进行对该经济特征信息进行标准化处理。one-hot编码主要是通过把离散型变量的取值都看作一种状态，如果该经济特征信息的特征值中有n个不同的取值，可以认为此特征值有n种不同的状态与不同的取值一一对应。one-hot编码要求特征值的所有取值，经过编码后只有一个状态位为1，其余状态位为0。由此实现对属于离散型变量的经济特征信息的标准化。
[0059]
需要说明的是，基于每个经济特征信息对应的变量类型确定对每个经济特征信息的标准化方法，保证了得到的标准化经济特征信息的准确性，从而保证了对对象类型分析结果的准确性。
[0060]
在一种可选的实施例中，在从多个标准化经济特征信息中确定目标经济特征信息之前，数据处理模块可以获取多个对象对应的历史经济信息，然后基于历史经济信息确定多个历史经济特征信息，接着基于每个对象对应的多个历史经济特征信息进行特征相关性计算，得到多个距离相关系数，并基于多个距离相关系数和多个历史经济特征信息确定至少一个目标历史经济特征信息，从而确定至少一个目标历史经济特征信息对应的特征类型
为目标特征类型。其中，对象为已确定对象类型的对象。
[0061]
可选的，在对待分析对象的标准化经济特征信息进行处理前，数据整理模块可以从信息导入模块中获取多个已知对象类型的对象所对应的历史经济信息，然后通过前述对经济信息的处理方法，基于历史经济信息确定多个历史经济特征信息，故此处不再赘述。
[0062]
进一步地，当确定了多个历史经济特征信息后，数据整理模块可以基于每个对象对应的多个历史经济特征信息进行特征相关性计算，可选的，在本实施例中，数据整理模块采用距离相关系数算法进行计算，从而得到多个距离相关系数，其中，距离相关系数用于表征特征类型与特征类型之间的关联程度。
[0063]
需要说明的是，数据整理模块也可以基于皮尔逊(pearson)相关系数对多个历史经济特征信息进行特征相关性计算。其中，皮尔逊(pearson)相关系数是一种度量两个变量间线性相关的方法。公式如下：
[0064][0065]
其中，ρ
x,y
表示两个变量之间的皮尔逊相关系数，x表示第一变量，第一变量表示第x个特征类型对应的所有对象的特征值，y表示第二变量，第二变量表示第y个特征类型对应的所有对象的特征值。皮尔逊相关系数衡量的是变量之间的线性相关关系。对两个变量x、y，计算出的相关系数具有以下意义。
[0066]
(1)当-1《ρ
x,y
《0时，表示x和y成负相关关系。
[0067]
(2)当ρ
x,y
＝0，表示x和y不相关。
[0068]
(3)当0《ρ
x,y
《1，表示x和y成正相关关系。
[0069]
(4)当ρ
x,y
＝1，表示x和y完全正相关。
[0070]
(5)当ρ
x,y
＝-1，表示x和y完全负相关。
[0071]
皮尔逊相关系数的绝对值越大，相关性越强，具体如下表所示。
[0072]
表1-皮尔逊相关系数与变量的相关程度
[0073]
皮尔逊相关系数相关程度(0.8,1]极强相关(0.6,0.8]强相关(0.4,0.6]中等强度相关(0.2,0.4]弱相关[0,0.2]极弱相关或无相关
[0074]
皮尔逊相关系数作为特征排序以及特征选择的一个标准。该算法计算速度快，较适合规模较大的数据集。但也存在不足，该算法不适合变量间的非线性关系，即使两个变量具有非线性关系并且相互对应，两变量间的相关系数也可能接近0。但是如果距离相关系数为0，那么这两个变量之间才真正没有关系。因此，在本实施例中，优选采用距离相关系数算法对多个历史经济特征信息进行特征相关性计算。
[0075]
更进一步地，在得到多个距离相关系数，特征选择模块可以基于多个距离相关系数确定每个经济特征信息的重要程度，也即实现对每个特征类型的重要程度的确定，从而从多个历史经济特征信息确定至少一个目标历史经济特征信息，进而确定至少一个目标历
史经济特征信息对应的特征类型为目标特征类型。其中，当与某一经济特征信息具有关联关系的经济特征信息越多时，说明该经济特征信息的越重要。
[0076]
需要说明的是，通过对历史经济信息进行数据整理，实现了对数据量的有效缩减，便于提高系统工作效率，通过基于历史经济信息得到距离相关系数，并确定目标特征类型，实现了对目标特征类型的有效筛选，进而提高后续目标模型的构建效果。
[0077]
在一种可选的实施例中，在基于每个对象对应的多个历史经济特征信息进行特征相关性计算，得到多个距离相关系数的过程中，数据标准化模块可以对每个历史经济特征信息进行标准化处理，得到多个标准化历史经济特征信息，从而基于每个对象对应的多个标准化历史经济特征信息确定多个距离相关系数。
[0078]
可选的，数据标准化模块可以依照前述的对每个经济特征信息进行标准化的处理方法，对每个历史经济特征信息进行标准化处理，从而得到多个标准化历史经济特征信息，故此处不再赘述。
[0079]
需要说明的是，通过基于多个标准化历史经济特征信息确定多个距离相关系数，而非基于历史经济特征信息进行确定，避免了历史经济特征信息取值范围相差较大，进而避免了后续构建的目标模型预测精度差，导致预测结果不准确的问题。
[0080]
在一种可选的实施例中，在基于每个对象对应的多个标准化历史经济特征信息确定多个距离相关系数的过程中，特征选择模块可以基于每个对象对应的多个标准化历史经济特征信息确定多个第一特征矩阵，从而基于多个第一特征矩阵确定多个距离相关系数。其中，每个第一特征矩阵与每个标准化历史经济特征信息相对应。
[0081]
可选的，基于每个对象对应的多个标准化历史经济特征信息构建样本数据，并设定过渡矩阵s＝[]，其中，过渡矩阵s为空矩阵。
[0082]
进一步地，特征选择模块可以从样本数据中取出第i个和第j个特征类型所对应的所有特征值，并构建第一特征矩阵u＝x.t[i]和v＝x.t[j]，也即基于每个对象所对应的第i个标准化历史经济特征信息中的特征值构建第一特征矩阵u，基于每个对象所对应的第j个标准化历史经济特征信息中的特征值构建第一特征矩阵v。
[0083]
更进一步地，特征选择模块可以计算第一特征矩阵u和第一特征矩阵v之间的距离相关系数。其中，对于距离相关系数的计算主要取决于距离协方差和距离方差。利用距离相关系数的方法研究两个第一特征矩阵u，v之间的相关性，可以记为dc(u,v)。当dc(u,v)＝0时，说明两第一特征矩阵之间相互独立，当dc(u,v)越大，说明两第一特征矩阵之间的相关性越强。
[0084]
具体地，设{(ui,vi),i＝1,2,...n}是样本数据中的随机样本，则第一特征矩阵u，v之间的距离相关系数如下所示：
[0085][0086]
其中，dcorr(u,v)表示第一特征矩阵u，v之间的距离相关系数。
[0087]
可选的，d cov2(u,v)＝s1 s
2-2s3，其中，s1的计算公式如下所示：
[0088]
[0089]
其中，ui表示第一特征矩阵u中第i个对象所对应的特征值，uj表示第一特征矩阵u中第j个对象所对应的特征值。vi表示第一特征矩阵v中第i个对象所对应的特征值，vj表示第一特征矩阵v中第j个对象所对应的特征值。
[0090]
其中，s2的计算公式如下所示：
[0091][0092]
其中，ui表示第一特征矩阵u中第i个对象所对应的特征值，uj表示第一特征矩阵u中第j个对象所对应的特征值，vi表示第一特征矩阵v中第i个对象所对应的特征值，vj表示第一特征矩阵v中第j个对象所对应的特征值。
[0093]
其中，s3的计算公式如下所示：
[0094][0095]
其中，ui表示第一特征矩阵u中第i个对象所对应的特征值，u
l
表示第一特征矩阵u中第l个对象所对应的特征值，vi表示第一特征矩阵v中第i个对象所对应的特征值，v
l
表示第一特征矩阵v中第l个对象所对应的特征值。
[0096]
同理，d cov(u,u)和d cov(v,v)也可以基于前述的方法进行计算，故此处不再赘述。
[0097]
需要说明的是，当每个第一特征矩阵均确定了自身与所有第一特征矩阵的距离相关系数之后，完成对距离相关系数的获取，例如，当存在10个标准化经济特征信息时，可以构建10个第一特征矩阵u和10个第一特征矩阵v，并可计算得到100个距离相关系数dcorr(u,v)。通过基于第一特征矩阵确定多个距离相关系数，实现了对每个标准化历史经济特征信息所对应的特征类型之间的关联程度的准确计算。
[0098]
在一种可选的实施例中，在基于多个距离相关系数和多个历史经济特征信息确定至少一个目标历史经济特征信息的过程中，特征选择模块可以基于多个距离相关系数确定第二特征矩阵，然后基于预设系数确定与第二特征矩阵对应的布尔矩阵，从而基于布尔矩阵和第二特征矩阵从多个标准化历史经济特征信息中确定至少一个目标历史经济特征信息。
[0099]
可选的，特征选择模块可以基于前述的距离相关系数更新前述的过渡矩阵s，得到第二特征矩阵，且第二特征矩阵的行数和列数与标准化历史经济特征信息的数量相关。例如，当存在10个标准化历史经济特征信息时，可计算得到100个距离相关系数dcorr(u,v)，则第二特征矩阵为10
×
10的矩阵。
[0100]
进一步地，确定最大容忍相关系数r，并将第二特征矩阵中的每个距离相关系数与最大容忍相关系数r相比对，生成布尔矩阵s’。具体地，在距离相关系数小于最大容忍相关系数r时，将其数值确定为1，在距离相关系数大于或等于最大容忍相关系数r时，将其数值确定为0。从而得到与第二特征矩阵对应的布尔矩阵s’。
[0101]
更进一步地，将布尔矩阵s’沿对角线划分，并将布尔矩阵s’下半角矩阵中含有false的列确定为无效列，即将布尔矩阵s’下半角矩阵中含有0的列确定为无效列，并在第
二特征矩阵中找到除无用列以外的列，确定为有效列，即当与某一标准化历史经济特征信息满足预设关联程度的历史经济特征信息的数量越少时，确定该历史经济特征信息越重要，从而基于有效列确定目标历史经济特征信息。具体地，若第二特征矩阵中的第二列与第五列为有效列，则确定每个对象所对应的第二个标准化历史经济特征信息和第五个标准化历史经济特征信息为目标历史经济特征信息，进而确定第二个标准化历史经济特征信息和第五个标准化历史经济特征信息对应的特征类型为目标特征类型，由此实现对目标特征类型的确定。
[0102]
需要说明的是，将预设系数与基于多个距离相关系数确定的第二特征矩阵进行比对，以确定目标历史经济特征信息，实现了对有效数据的准确筛选。
[0103]
在一种可选的实施例中，在根据目标经济特征信息确定待分析对象的对象类型的过程中，可以基于目标模型对目标经济特征信息进行处理，得到待分析对象的对象类型。
[0104]
可选的，目标模型可以是神经网络模型，也可以是随机森林模型，还可以是其它机器学习模型。通过基于机器学习模型对待分析对象的对象类型进行分析，可以便于在实际应用中不断优化模型，进而保证本技术的适用性。
[0105]
在一种可选的实施例中，在在基于目标模型对目标经济特征信息进行处理，得到待分析对象的对象类型之前，模型构建模块可以基于每个对象对应的对象类型以及目标历史经济特征信息构建数据集，然后划分数据集，得到多个数据子集，接着对数据子集随机抽样多次，得到多个训练子集，从而基于训练子集和数据集构建目标模型，其中，每个数据子集包括至少一个对象对应的对象类型以及目标历史经济特征信息，目标模型为随机森林模型。
[0106]
可选的，在本实施例中，利用随机森林算法，基于每个对象对应的对象类型以及目标历史经济特征信息构建数据集构建随机森林模型。其中，随机森林是一种以决策树为基础的更高级的算法，其可以解决回归问题也可以解决分类问题，所以广泛应用于各个领域。随机森林算法是一种基于多个决策树分类器的算法，它的输出是由该算法基分类器的输出决定的，并且各个基分类器之间没有联系。当随机森林模型中输入数据时，每一个基分类器都会对该数据进行判断，接着随机森林模型会统计每个基分类器的判断结果，类别个数较多的则作为最后的输出。
[0107]
具体地，构建数据集s＝{(xi,yi),i＝1,2,...,n}，其中，xi表征第i个对象所对应的目标历史经济特征信息的集合，yi表征第i个对象所对应的对象类型。然后，将数据集划分为多个数据子集s
train
，其中，每个数据子集s
train
包括至少一个对象所对应的(xi,yi)，且每个数据子集s
train
之间可存在部分重叠数据。
[0108]
进一步地，模型构建模块可以对数据子集s
train
随机抽样n次，生成n个训练子集sj(j＝1,2,...n)，即将每次抽样得到的数据子集s
train
作为一个训练子集sj。之后，模型构建模块可以基于训练子集sj，生成第j棵决策树(j＝1,2,...n)，并从数据集s中随机选择m个目标历史经济特征信息对应的特征值，分别算出基尼系数，然后选取基尼系数最小的目标历史经济特征信息作为分裂节点来分裂决策树，由此，实现对随机森林模型的构建，也即实现对目标模型的构建。
[0109]
更进一步地，模型构建模块可以将预先设定好的测试集s
test
输入到前述构建的n棵决策树里，然后，每棵决策树都会输出一个结果，随机森林模型统计各个决策树的结果，
输出最终的预测结果，其中，当被解释变量为数字时，随机森林模型的预测结果为n个决策树的平均值，当被解释变量为类别时，预测结果为分类结果个数最多的那个类别，并可以数字进行表示。在本实施例中，随机森林模型输出的结果用于表征对象的对象类型。
[0110]
可选的，模型构建模块在完成目标模型的构建后，可以通过展示模块展示目标模型构建过程中的主要依赖特征类型。
[0111]
需要说明的是，由于随机森林算法是随机采样，在一定程度上，保证了随机性，使得该算法中生成的每一个弱分类器不会进行剪枝操作，并且出现过拟合的现象的概率较小。因此，通过构建随机森林模型以对待分析对象的对象类型进行分析，可以得到更准确的分析结果。
[0112]
需要说明的是，在传统的潜在客户分析时，一般都是银行的工作人员对客户进行主观的分析，通常存在银行人员的主观意识性、准确性低、速度慢等特点。针对前述问题，本技术利用数据挖掘技术对潜在客户进行分析，克服了银行人员存在的主观意识性。且基于商业银行等金融机构的客流量较大的特点，本技术所提供的方法不仅可以保证较高准确率，还可以更快的速度来支撑银行等金融机构的业务，从而有利于提高商业银行的资产管理水平和客户服务能力，而且还可以提高其综合运营能力，更好地抓住客户服务需求，并同时增加银行等金融机构的收益。
[0113]
由此可见，本技术所提供的方案达到了基于处理后的经济信息确定待分析对象的对象类型的目的，从而实现了提高分析准确度的技术效果，进而解决了现有技术中依赖人工分析客户类型造成的分析准确度低的技术问题。
[0114]
实施例2
[0115]
根据本发明实施例，提供了一种数据分析装置的实施例，其中，图4是根据本发明实施例的一种可选的数据分析装置的示意图，如图4所示，该装置包括：
[0116]
获取模块401，用于获取待分析对象所对应的经济信息；
[0117]
处理模块402，用于对经济信息进行处理，得到目标经济特征信息，其中，目标经济特征信息包括目标特征类型以及与目标特征类型对应的特征值，目标特征类型为对多个对象的历史经济信息进行特征相关性计算所确定的；
[0118]
确定模块403，用于根据目标经济特征信息确定待分析对象的对象类型，其中，对象类型用于表征待分析对象对金融平台的重要程度。
[0119]
需要说明的是，上述获取模块、处理模块以及确定模块对应于上述实施例中的步骤s301至步骤s303，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。
[0120]
可选的，处理模块包括：第一子确定模块，用于基于经济信息确定多个经济特征信息；第一子处理模块，用于对每个经济特征信息进行标准化处理，得到多个标准化经济特征信息；第二子确定模块，用于从多个标准化经济特征信息中确定目标经济特征信息。
[0121]
可选的，第一子处理模块包括：第三子确定模块，用于确定每个经济特征信息对应的变量类型；第二子处理模块，用于在经济特征信息为连续型变量类型时，基于标准差对经济特征信息进行数据转换处理，得到标准化经济特征信息；第三子处理模块，用于在经济特征信息为离散型变量类型时，对经济特征信息进行二进制转换处理，得到标准化经济特征信息。
[0122]
可选的，数据分析装置还包括：子获取模块，用于获取多个对象对应的历史经济信息，其中，对象为已确定对象类型的对象；第四子确定模块，用于基于历史经济信息确定多个历史经济特征信息；计算模块，用于基于每个对象对应的多个历史经济特征信息进行特征相关性计算，得到多个距离相关系数；第五子确定模块，用于基于多个距离相关系数和多个历史经济特征信息确定至少一个目标历史经济特征信息；第六子确定模块，用于确定至少一个目标历史经济特征信息对应的特征类型为目标特征类型。
[0123]
可选的，计算模块包括：第四子处理模块，对每个历史经济特征信息进行标准化处理，得到多个标准化历史经济特征信息；第七子确定模块，用于基于每个对象对应的多个标准化历史经济特征信息确定多个距离相关系数。
[0124]
可选的，第七子确定模块包括：第八子确定模块，用于基于每个对象对应的多个标准化历史经济特征信息确定多个第一特征矩阵，其中，每个第一特征矩阵与每个标准化历史经济特征信息相对应；第九子确定模块，用于基于多个第一特征矩阵确定多个距离相关系数。
[0125]
可选的，第五子确定模块包括：第十子确定模块，用于基于多个距离相关系数确定第二特征矩阵；第十一子确定模块，用于基于预设系数确定与第二特征矩阵对应的布尔矩阵；第十二子确定模块，用于基于布尔矩阵和第二特征矩阵从多个标准化历史经济特征信息中确定至少一个目标历史经济特征信息。
[0126]
可选的，确定模块还包括：基于目标模型对目标经济特征信息进行处理，得到待分析对象的对象类型。
[0127]
可选的，数据分析装置还包括：第一构建模块，用于基于每个对象对应的对象类型以及目标历史经济特征信息构建数据集；划分模块，用于划分数据集，得到多个数据子集，其中，每个数据子集包括至少一个对象对应的对象类型以及目标历史经济特征信息；抽样模块，用于对数据子集随机抽样多次，得到多个训练子集；第二构建模块，用于基于训练子集和数据集构建目标模型，其中，目标模型为随机森林模型。
[0128]
实施例3
[0129]
根据本发明实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据分析方法。
[0130]
实施例4
[0131]
根据本发明实施例的另一方面，还提供了一种电子设备，其中，图5是根据本发明实施例的一种可选的电子设备的示意图，如图5所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据分析方法。
[0132]
实施例5
[0133]
根据本发明实施例的另一方面，还提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令被处理器执行时实现上述的数据分析方法。
[0134]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0135]
在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
[0136]
在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的
方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
[0137]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0138]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0139]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0140]
以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种运输数据处理方法、装置和系统与流程

数据分析方法、装置及电子设备与流程

相关文献

最热文献