基于维度模型的数据评估方法和计算机程序产品与流程

2021-10-30 02:47:00 来源：中国专利 TAG：维度人工智能模型评估公开

1.本公开涉及人工智能技术领域，尤其是一种基于维度模型的数据评估方法和计算机程序产品。

背景技术：

2.对于房产经纪人，每套房源都会有相应联系的经纪人，在用户需要了解房源时，可根据不同经纪人的评分情况进行推荐经纪人，而评分通常是基于经纪人对房源的熟悉度和服务质量等信息人工评价得到。

技术实现要素：

3.为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种基于维度模型的数据评估方法和计算机程序产品。
4.根据本公开实施例的一个方面，提供了一种基于维度模型的数据评估方法，包括：
5.获取经纪人的至少一种维度类型的数据，得到至少一个数据；
6.基于所述至少一个数据中的每个数据的维度类型在评分卡中查找确定每个所述数据对应的所述维度类型；其中，所述评分卡中包括对应多种所述维度类型的多个分值，所述评分卡中的每种所述维度类型对应至少一个分值；
7.基于每个所述数据的取值在所述维度类型对应的至少一个分值中查找，得到所述至少一个数据中每个数据对应的分值；
8.累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值。
9.可选地，在基于所述至少一个数据中的每个数据的维度类型和评分卡，得到所述至少一个数据对应的至少一个分值之前，还包括：
10.基于第一样本集合建立所述评分卡；其中，所述第一样本集合中包括多个第一样本经纪人。
11.可选地，所述基于第一样本集合建立所述评分卡，包括：
12.获得所述第一样本集合中多个第一样本经纪人中每个第一样本经纪人的多个数据；其中，每个所述第一样本经纪人对应多种维度类型的数据；
13.对每种所述维度类型对应的多个数据执行编码，得到多个编码值；其中，每种所述维度类型的数据对应至少一个所述编码值；
14.将所述多个编码值分别输入预训练的神经网络模型，得到多个分值；
15.基于所述多种维度类型的多个数据对应的多个分值，建立评分卡。
16.可选地，所述对每种所述维度类型对应的多个数据执行编码，得到多个编码值，包括：
17.对每种所述维度类型对应的多个数据执行分箱操作，得到每种所述维度类型对应的多个数据区间；其中，每个所述数据区间包括起始值数据到终止值数据之间的所有数据；
18.对所述多个数据区间中的每个数据区间内的所有数据执行编码，得到所述多个编
码值。
19.可选地，每个所述第一样本经纪人具有标注信息表明所述第一样本经纪人是正样本或负样本；
20.所述对所述多个数据区间中的每个数据区间内的所有数据执行编码，得到所述多个编码值，包括：
21.针对每个所述数据区间，基于所述数据区间包括的正样本数量和负样本数量，以及所述第一样本集合中包括的正样本数量和负样本数量，确定所述数据区间对应的编码值。
22.可选地，所述将所述多个编码值分别输入预训练的神经网络模型，得到多个分值，包括：
23.将所述多个编码值中每个编码值分别输入预训练的神经网络模型，分别获取对应每个所述编码值的预测概率值；
24.分别对所述多个预测概率值中的每个预测概率值进行计算，得到所述多个分值；其中，所述多个分值中的每个所述分值对应一个所述编码值。
25.可选地，在将所述多个编码值分别输入预训练的神经网络模型，得到多个分值之前，还包括：
26.基于第二样本集合训练所述神经网络模型；其中，所述第二样本集合包括多个具有标注信息的第二样本经纪人，所述标注信息表示所述第二样本经纪人是正样本或负样本。
27.可选地，所述基于第二样本集合训练所述神经网络模型，包括：
28.将所述第二样本经纪人对应的多个数据进行编码，得到多个样本编码值；
29.将所述多个样本编码值分别输入所述神经网络模型，得到多个预测概率值；
30.分别确定所述多个预测概率值中每个预测概率值与所述标注信息之间的差异，基于所述差异确定网络损失，基于所述网络损失训练所述神经网络模型。
31.可选地，在对每种所述维度类型对应的多个数据执行编码，得到多个编码值之前，还包括：
32.对所述多个数据进行预处理；其中，所述预处理包括以下至少一种：去重处理、缺失值删除处理、异常值检测处理、相关度确定处理。
33.可选地，在将所述多个编码值分别输入预训练的神经网络模型，得到多个分值之前，还包括：
34.对所述至少一个编码值中的每个所述编码值计算信息量，得到至少一个信息量值；其中，每个所述信息量值对应一个所述编码值；
35.基于所述至少一个信息量值对所述至少一个编码值进行筛选，得到筛选后的至少一个编码值；
36.所述将所述至少一个编码值分别输入神经网络模型，得到所述多个数据对应的多个分值，包括：
37.将所述筛选后的至少一个编码值分别输入神经网络模型，得到所述多个数据对应的多个分值。
38.根据本公开实施例的另一方面，提供了一种基于维度模型的数据评估装置，包括：
39.数据获取模块，用于获取经纪人的至少一种维度类型的数据，得到至少一个数据；
40.分值查询模块，用于基于所述至少一个数据中的每个数据的维度类型在评分卡中查找确定每个所述数据对应的所述维度类型；基于每个所述数据的取值在所述维度类型对应的至少一个分值中查找，得到所述至少一个数据中每个数据对应的分值；其中，所述评分卡中包括对应多种所述维度类型的多个分值，所述评分卡中的每种所述维度类型对应至少一个分值；
41.评分模块，用于累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值。
42.可选地，所述装置还包括：
43.评分卡建立模块，用于基于第一样本集合建立所述评分卡；其中，所述第一样本集合中包括多个第一样本经纪人。
44.可选地，所述评分卡建立模块，包括：
45.数据单元，用于获得所述第一样本集合中多个第一样本经纪人中每个第一样本经纪人的多个数据；其中，每个所述第一样本经纪人对应多种维度类型的数据；
46.编码单元，用于对每种所述维度类型对应的多个数据执行编码，得到多个编码值；其中，每种所述维度类型的数据对应至少一个所述编码值；
47.分值预测单元，用于将所述多个编码值分别输入预训练的神经网络模型，得到多个分值；
48.评分卡单元，用于基于所述多种维度类型的多个数据对应的多个分值，建立评分卡。
49.可选地，所述编码单元，具体用于对每种所述维度类型对应的多个数据执行分箱操作，得到每种所述维度类型对应的多个数据区间；其中，每个所述数据区间包括起始值数据到终止值数据之间的所有数据；对所述多个数据区间中的每个数据区间内的所有数据执行编码，得到所述多个编码值。
50.可选地，每个所述第一样本经纪人具有标注信息表明所述第一样本经纪人是正样本或负样本；
51.所述编码单元在对所述多个数据区间中的每个数据区间内的所有数据执行编码，得到所述多个编码值时，用于针对每个所述数据区间，基于所述数据区间中包括的正样本数量和负样本数量，以及所述第一样本集合中包括的正样本数量和负样本数量，确定所述数据区间对应的编码值。
52.可选地，所述分值预测单元，具体用于将所述多个编码值中每个编码值分别输入预训练的神经网络模型，分别输出对应每个所述编码值的预测概率值；分别对所述多个预测概率值中的每个预测概率值进行计算，得到所述多个分值；其中，所述多个分值中的每个所述分值对应一个所述编码值。
53.可选地，所述评分卡建立模块，还包括：
54.网络训练单元，用于基于第二样本集合训练所述神经网络模型；其中，所述第二样本集合包括多个具有标注信息的第二样本经纪人，所述标注信息表示所述第二样本经纪人是正样本或负样本。
55.可选地，所述网络训练单元，具体用于将所述第二样本经纪人对应的多个数据进
行编码，得到多个样本编码值；将所述多个样本编码值分别输入所述神经网络模型，得到多个预测概率值；分别确定所述多个预测概率值中每个预测概率值与所述标注信息之间的差异，基于所述差异确定网络损失，基于所述网络损失训练所述神经网络模型。
56.可选地，所述评分卡建立模块，还包括：
57.预处理单元，用于对所述多个数据进行预处理；其中，所述预处理包括以下至少一种：去重处理、缺失值删除处理、异常值检测处理、相关度确定处理。
58.可选地，所述评分卡建立模块，还包括：
59.筛选单元，用于对所述至少一个编码值中的每个所述编码值计算信息量，得到至少一个信息量值；其中，每个所述信息量值对应一个所述编码值；基于所述至少一个信息量值对所述至少一个编码值进行筛选，得到筛选后的至少一个编码值；
60.所述分值预测单元，具体用于将所述筛选后的至少一个编码值分别输入神经网络模型，得到所述多个数据对应的多个分值。
61.根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的基于维度模型的数据评估方法。
62.根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：
63.处理器；
64.用于存储所述处理器可执行指令的存储器；
65.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的基于维度模型的数据评估方法。
66.根据本公开实施例的再一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的基于维度模型的数据评估方法的步骤。
67.基于本公开上述实施例提供的一种基于维度模型的数据评估方法和计算机程序产品，获取经纪人的至少一种维度类型的数据，得到至少一个数据；基于所述至少一个数据中的每个数据的维度类型在评分卡中查找确定每个所述数据对应的所述维度类型；其中，所述评分卡中包括对应多种所述维度类型的多个分值，所述评分卡中的每种所述维度类型对应至少一个分值；基于每个所述数据的取值在所述维度类型对应的至少一个分值中查找，得到所述至少一个数据中每个数据对应的分值；累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值；本实施例通过以经纪人对应的多种维度类型的数据在评分卡中进行查询，实现快速获取经纪人的评分值，并且，克服了人为评分主观因素影响分值的问题，得到的经纪人评分值更客观，可参考性更强。
68.下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。
附图说明
69.通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
70.图1是本公开一示例性实施例提供的基于维度模型的数据评估方法的流程示意图。
71.图2是本公开一示例性实施例提供的基于维度模型的数据评估方法中一可选示例中建立评分卡的流程示意图。
72.图3是本公开图2所示的实施例中步骤202的一个流程示意图。
73.图4是本公开一示例性实施例提供的基于维度模型的数据评估方法中一可选示例中数据可视化示意图。
74.图5是本公开一示例性实施例提供的基于维度模型的数据评估方法中一可选示例中单变量可视化示意图。
75.图6是本公开一示例性实施例提供的基于维度模型的数据评估方法中一可选示例中多变量可视化示意图。
76.图7是本公开一示例性实施例提供的基于维度模型的数据评估装置的结构示意图。
77.图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
78.下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。
79.应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
80.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
81.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
82.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
83.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
84.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
85.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
86.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
87.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
88.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
89.本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。
90.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
91.示例性方法
92.图1是本公开一示例性实施例提供的基于维度模型的数据评估方法的流程示意图。本实施例可应用于数据处理、基于数据的经纪人评分等应用领域；本实施例可应用在电子设备上，如图1所示，包括如下步骤：
93.步骤102，获取经纪人的至少一种维度类型的数据，得到至少一个数据。
94.可选地，可以从数据存储位置(例如，数据库)中获取经纪人的数据，其中，维度类型可以包括但不限于：基础素质、服务质量、平台合作、平台参与和行业影响力等；并且，数据通常包括枚举型和数值型，数值型的数据直接显示其数值即可，枚举型可以向量形式表达。
95.步骤104，基于至少一个数据中的每个数据的维度类型在评分卡中查找确定每个数据对应的维度类型。
96.其中，评分卡中包括对应多种维度类型的多个分值，评分卡中的每种维度类型对应至少一个分值。
97.在一实施例中，评分卡中每种维度类型的数据按照不同数据段对应不同的分值，以该经纪人每种维度类型的数据查找可得到对应的分值；即确定该经纪人在每中维度类型中的得分情况。对于一个经纪人对应一种维度类型仅包括一个数据，也有可能对于评分卡中存在的维度类型，该经纪人不存在对应的数据，因此，需要首先在评分卡中确认经纪人对应的至少一个数据分别对应的维度类型，以提高分值查找效率。
98.步骤106，基于每个数据的取值在维度类型对应的至少一个分值中查找，得到至少一个数据中每个数据对应的分值。
99.可选地，在评分卡中，每种维度类型存在多种取值，可选地，评分卡中将每种维度类型对应的所有取值分成多个数据区间，本实施例在确定数据的取值对应该维度类型所在的哪个数据区间即可得到对应的分值；可选地，在进行分值查找之前，还可以包括对经纪人的数据进行预处理，预处理的目的是为了保证数据的准确性，例如，去除无效数据，去除异常值等。
100.步骤108，累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值。
101.可选地，可将至少一个分值直接进行累加求和，得到该经纪人的评分值，或者，通过对至少一个分值进行加权求和，得到该经纪人的评分值，其中权重值可根据每种维度类型的数据的重要程度设置。
102.本公开上述实施例提供的一种基于维度模型的数据评估方法，获取经纪人的至少一种维度类型的数据，得到至少一个数据；基于所述至少一个数据中的每个数据的维度类型在评分卡中查找确定每个所述数据对应的所述维度类型；其中，所述评分卡中包括对应多种所述维度类型的多个分值，所述评分卡中的每种所述维度类型对应至少一个分值；基于每个所述数据的取值在所述维度类型对应的至少一个分值中查找，得到所述至少一个数据中每个数据对应的分值；累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值；本实施例通过以经纪人对应的多种维度类型的数据在评分卡中进行查询，实现快速获取经纪人的评分值，并且，克服了人为评分主观因素影响分值的问题，得到的经纪人评分值更客观，可参考性更强。
103.在一些可选的实施例中，在执行步骤104之前，还可以包括：
104.基于第一样本集合建立评分卡。
105.其中，第一样本集合中包括多个第一样本经纪人。
106.本实施例为了提高每个经纪人的评分值的准确性，基于大量第一样本经纪人的数据来建立评分卡，使评分卡中的分值能够真正体现经纪人在该维度类型中的表现，评分卡可以表示为表格形式，每种维度类型对应多个条数据条目，每条数据条目中包括一个数据区间及其对应的分值。
107.在一些可选的实施例中，如图2所示，基于第一样本集合建立评分卡，包括：
108.步骤201，获得第一样本集合中多个第一样本经纪人中每个第一样本经纪人的多个数据。
109.其中，每个第一样本经纪人对应多种维度类型的数据。
110.本实施例为了提高获得的评分卡的准确性，获取大量的经纪人数据作为第一样本经纪人。在一些实施例中，维度类型可以包括但不限于：基础素质、服务质量、平台合作、平台参与和行业影响力；其中，数值型数据以数值表示，枚举型数据可编码为向量表示。可选地，在一些示例中，基础素质维度包括但不限于：a)学历：经纪人的最高学历；b)从业时间：入职公司的时长(天数)；c)岗位相关证书：北京经纪人、全国经纪人、北京协理、全国协理等；d)博考：一年一度的经纪人博学考试。
111.服务质量维度包括但不限于：a)客户评价：客户对经纪人的服务评价；b)被投诉量和等级：经纪人收到的客户投诉和投诉等级(重大、一级、二级和三级等)；c)好房维护：经纪人维护房源属于好房的房源量；d)闭环带看：经纪人所做的既有客户评价又有经纪人评价的带看量；e)维护人跨店陪看：维护人带看的时候既属于跨店也参加了陪看的带看量；f)400接通率：400电话的接通比例；g)im的1分钟响应率：im消息在1分钟内响应的比例；h)商机转化：经纪人的7日商机转委托和15日商机转带看。
112.平台合作维度包括但不限于：a)信用分：经纪人维护的诚信分；b)验真通过率：经纪人房源任务完成验真的比例；c)本房他店售：经纪人维护的房源在其他门店的成交量；d)
本客推荐成交：经纪人维护的客户推荐给其他人的成交量；e)合作成交：经纪人作为合作人的成交量；f)经纪人评价：经纪人对经纪人的评价。
113.平台参与维度包括但不限于：a)陪审团：经纪人作为陪审团成员；b)违规行为举报量：经纪人成功举报的违规行为量；c)楼盘字典贡献：经纪人所做的楼盘字典贡献；d)红星任务：经纪人完成的平台派发的红星任务量和比例。
114.行业影响力维度包括但不限于：a)带教：经纪人作为师傅带的徒弟量；b)价值观标杆：经纪人作为价值观标杆(可选地，可以采用0,1表示是否)。
115.可选地，维度类型还可以包括评分卡模型维度，评分卡模型对应标签(label)值，标签值取0或1，可以将评分大于评分阈值的经纪人对应的标签值设置为1，小于评分阈值的经纪人对应的标签值设置为0，其中，评分卡模型中的评分可以根据人为评分或其他评分方式获得，本实施例不限制获得评分的方式。
116.步骤202，对每种维度类型对应的多个数据执行编码，得到多个编码值。
117.其中，每种维度类型的数据对应至少一个编码值。
118.可选地，本实施例可采用woe转换时序编码，woe的全称是“weight of evidence”，即证据权重，woe是对原始自变量的一种编码形式；代表了响应客户和未响应客户之间的差异情况(本实施例中表示正样本和负样本之间的差异情况，正样本指标注为好经纪人(得分值较高的经纪人)的第一样本经纪人，负样本指标注为坏经纪人(得分值较低的经纪人)的第一样本经纪人，其中，较高较低可通过设置某一阈值确定)。
119.步骤203，将多个编码值分别输入预训练的神经网络模型，得到多个分值。
120.步骤204，基于多种维度类型的多个数据对应的多个分值，建立评分卡。
121.本实施例通过基于大量第一样本经纪人数据进行编码，使编码值中能够正确的体现每种维度类型对于分数值的重要程度，并利用深度学习技术实现分数的预测，其中，本实施例中的神经网络模型可以采用logistics模型，logistics回归是广义线性回归，它在建立后和线性回归一样会赋值给特征不同的权重，符合本实施例建立评分卡的概念。
122.如图3所示，在上述图2所示实施例的基础上，步骤202可包括如下步骤：
123.步骤2021，对每种维度类型对应的多个数据执行分箱操作，得到每种维度类型对应的多个数据区间。
124.其中，每个数据区间包括起始值数据到终止值数据之间的所有数据。
125.步骤2022，对多个数据区间中的每个数据区间内的所有数据执行编码，得到多个编码值。
126.在进行woe编码之前，通常对所有数据进行分组处理(也叫离散化、分箱等等)。分组后，对于第i组数据，woe编码值的确定可基于以下公式(1)实现：
[0127][0128]
其中，woe
i
表示第i组数据对应的woe值，py
i
表示第i组数据中包括的正样本经纪人占第一样本集合中该维度类型包括的所有正样本经纪人的比例，y
i
表示第i组数据中包括的正样本经纪人的数量，y
t
表示第一样本集合中维度类型包括的所有正样本经纪人的数量；pn
i
表示第i组数据中包括的负样本经纪人占第一样本集合中维度类型包括的所有负样本经纪人的比例，n
i
表示第i组数据中包括的负样本经纪人的数量，n
t
表示第一样本集合中
维度类型包括的所有负样本经纪人的数量。
[0129]
本实施例通过分箱操作，实现了在评分卡中每个维度类型可以对应多个分值的目的(分箱成多少个数据区间，就对应多少个分值)，提高了分值的准确度，提高了评分卡的稳定性和健壮性，消除了异常波动对评分结果的影响。
[0130]
每个第一样本经纪人具有标注信息表明第一样本经纪人是正样本或负样本；
[0131]
可选地，步骤2022可以包括：
[0132]
针对每个数据区间，基于数据区间包括的正样本数量和负样本数量，以及第一样本集合中包括的正样本数量和负样本数量，确定数据区间对应的编码值。
[0133]
具体确定编码值的方式可参照上述公式(1)，通过woe编码得到编码值。
[0134]
为了便于理解，可以参照以下表1所示的示例对woe编码进行理解，但其中的数据与本公开实施例无关，并不用于限制本公开保护的技术内容。
[0135][0136]
表1 woe编码示例表
[0137]
结合表1可以理解：1)当前分组中，响应的比例越大，woe值越大；2)当前分组woe的正负，由当前分组响应和未响应的比例，与样本整体响应和未响应的比例的大小关系决定；3)当前分组的比例小于样本整体比例时，woe为负，当前分组的比例大于整体比例时，woe为正，当前分组的比例和整体比例相等时，woe为0。注意：一般认为woe关于分箱是单调的，本实施例认为分箱比较好，可解释性强。4)woe其实描述了变量当前这个分组，对判断个体是否会响应(或者说属于哪个类)所起到影响方向和大小：当woe为正时，变量当前取值对判断个体是否会响应起到的正向的影响；当woe为负时，起到了负向影响。而woe值的大小，则是这个影响的大小的体现。
[0138]
可选地，上述图2所示实施例的基础上，步骤203可以包括：
[0139]
将多个编码值中每个编码值分别输入预训练的神经网络模型，分别获取对应每个编码值的预测概率值；
[0140]
分别对多个预测概率值中的每个预测概率值进行计算，得到多个分值。
[0141]
其中，多个分值中的每个分值对应一个编码值。
[0142]
本实施例中，通过神经网络模型预测每个编码值对应的第一样本经纪人在该维度类型中是正样本的预测概率值，可选地，神经网络模型可以采用logistics模型；在得到该第一样本经纪人的预测概率值之后，基于该预测概率值确定该第一样本经纪人在该维度类型中对应的分值，计算分值的公式可以如下公式(2)和(3)所示：
[0143][0144]
s
core
=a
‑
blog(o
dss
)
ꢀꢀꢀ
公式(3)
[0145]
其中，p表示神经网络模型输出的预测概率；o
dss
表示该第一样本经纪人是负样本的概率；a、b分别为常数(取值根据实际场景设置)；s
core
表示该第一样本经纪人在该维度类
型中对应的分值，由于log函数在(0
→
∞)单调递增，因此，当经纪人是负样本的概率o
dss
越大时，评分越低；可选地，可通过给定：1)某特定o
dss
值时对应的s
core
为s0；2)该特定o
dss
值翻倍时对应的s
core
值的增加值pd0；通过给定值s0和pd0带入评分卡表达式，可求得常数a和b。
[0146]
可选地，为了提高神经网络模型的预测准确性，在将多个编码值分别输入神经网络模型，得到多个分值之前，还可以包括：
[0147]
基于第二样本集合训练神经网络模型。
[0148]
其中，第二样本集合包括多个具有标注信息的第二样本经纪人，标注信息表示第二样本经纪人是正样本或负样本。
[0149]
可选地，本实施例中的第二样本集合与上述实施例中的第一样本集合中包括的样本经纪人同一具有标注信息，标注信息同样表示样本经纪人是正样本或负样本；因此，可以来源于同一数据库，或将数据库进行分割，一部分作为第一样本集合，另一部分作为第二样本集合。
[0150]
在一些可选示例中，基于第二样本集合训练神经网络模型，包括：
[0151]
将第二样本经纪人对应的多个数据进行编码，得到多个样本编码值；
[0152]
将多个样本编码值分别输入神经网络模型，得到多个预测概率值；
[0153]
分别确定多个预测概率值中每个预测概率值与标注信息之间的差异，基于差异确定网络损失，基于网络损失训练神经网络模型。
[0154]
本实施例中，标注信息在表示一个第二样本经纪人是正样本时可标注为1，表示一个第二样本经纪人是负样本时可标注为0，预测概率值为一个概率值，可选地，基于该预测概率值与标注信息的差值作为二者之间的差异；通过反向梯度传播方法迭代调整神经网络模型中的参数，使预测概率值向标注信息靠近，直到网络损失符合设定条件为止，得到训练后的神经网络模型，该设定条件可以是迭代次数达到设定次数、网络损失小于第一设定值、两次连续迭代得到的网络损失差值小于第二设定值等。
[0155]
可选地，在上述图2所示实施例的基础上，步骤202之前，还可以包括：
[0156]
对多个数据进行预处理。
[0157]
其中，预处理包括以下至少一种：去重处理、缺失值删除处理、异常值检测处理、相关度确定处理。
[0158]
预处理的目的是为了保证数据的准确性。预处理可以包括但不限于：查看数据信息：了解数据信息状态，包括数据量、数据维度、数据特征类型等等；缺失值处理：对于缺失值较少的(例如
‘
家属数量’)可以直接删除缺失值；对数据进行去重处理；异常值检测及其处理：对特征进行可视化(例如，箱型图)来检测异常数据，通过以上特征可视化可以对明显偏离的样本，比如业务值为0，或次数过高进行盖帽(将明显过大的数据设置一个封顶值，将这些过大的数据设置为该封顶值)或者是删除操作。例如，如图4所示，是一个可视化示例图。
[0159]
为了分析业务值随着目标值在不同的范围段内的相关性，可进行单变量可视化，例如，如图5所示，通过单变量可视化对一种数据的目标值(经纪人底薪数值，对应图中横坐标)与业务值(经纪人离职概率，对应图中纵坐标)之间的相关性进行表达，通过可视化可增强对数据之间关联关系的理解。
[0160]
为了理解多种数据之间的关联关系，还可以进行多变量可视化，例如，如图6所示，
建立热力图，表达多个变量之间的关联关系，本实施例中，希望采用的多种数据之间的关联性越低越好，因此，对于在热力图中关联性过高(超过一定值)的数据进行删除其中一种或两种，暂时不需要考虑多重共线性的问题。
[0161]
在一些可选的实施例中，上述图2所示实施例的基础上，在执行步骤203之前，还可以包括：
[0162]
对至少一个编码值中的每个编码值计算信息量，得到至少一个信息量值；其中，每个信息量值对应一个编码值；
[0163]
基于至少一个信息量值对至少一个编码值进行筛选，得到筛选后的至少一个编码值。
[0164]
相应的，步骤203包括：
[0165]
将筛选后的至少一个编码值分别输入神经网络模型，得到多个数据对应的多个分值。
[0166]
本实施例通过计算每个编码值对应的信息量(iv值)对编码值进行筛选，将确定为重要程度较低的编码值不输入神经网络模型，其中，iv全称是information value，用于衡量特征对目标的重要度，中文含义是信息价值，或者信息量；它的作用其实和gini和信息熵类似，都是用来衡量变量的预测能力，可以通过iv值来达到特征筛选的目的。本实施例中利用iv值确定编码值在衡量经纪人的总体分值中的重用程度，确定不同特征对目标的重要度，通过特征iv的可视化，可以很直观的观察特征之间的差异，本实施例选择iv较高的编码值输入神经网络模型，可选地，下表2所示是一个示例中iv值范围说明的情况：
[0167][0168]
表2iv值范围说明表
[0169]
可选地，iv值的计算可基于以下公式(4)实现：
[0170][0171]
其中，woe
i
表示第i组数据对应的woe值，iv
i
表示第i组数据对应的iv值，py
i
表示第i组数据中包括的正样本经纪人占第一样本集合中该维度类型包括的所有正样本经纪人的比例，y
i
表示第i组数据中包括的正样本经纪人的数量，y
t
表示第一样本集合中维度类型包括的所有正样本经纪人的数量；pn
i
表示第i组数据中包括的负样本经纪人占第一样本集合中维度类型包括的所有负样本经纪人的比例，n
i
表示第i组数据中包括的负样本经纪人的数量，n
t
表示第一样本集合中维度类型包括的所有负样本经纪人的数量。
[0172]
本公开实施例提供的任一种基于维度模型的数据评估方法可以由任意适当的具
有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种基于维度模型的数据评估方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种基于维度模型的数据评估方法。下文不再赘述。
[0173]
示例性装置
[0174]
图7是本公开一示例性实施例提供的基于维度模型的数据评估装置的结构示意图。如图7所示，本实施例提供的装置包括：
[0175]
数据获取模块71，用于获取经纪人的至少一种维度类型的数据，得到至少一个数据。
[0176]
分值查询模块72，用于基于至少一个数据中的每个数据的维度类型在评分卡中查找确定每个数据对应的维度类型；基于每个数据的取值在维度类型对应的至少一个分值中查找，得到至少一个数据中每个数据对应的分值。
[0177]
其中，评分卡中包括对应多种维度类型的多个分值，评分卡中的每种维度类型对应至少一个分值。
[0178]
评分模块73，用于累加至少一个数据对应的至少一个分值，得到经纪人的评分值。
[0179]
本公开上述实施例提供的一种基于维度模型的数据评估装置，获取经纪人的至少一种维度类型的数据，得到至少一个数据；基于所述至少一个数据中的每个数据的维度类型在评分卡中查找确定每个所述数据对应的所述维度类型；其中，所述评分卡中包括对应多种所述维度类型的多个分值，所述评分卡中的每种所述维度类型对应至少一个分值；基于每个所述数据的取值在所述维度类型对应的至少一个分值中查找，得到所述至少一个数据中每个数据对应的分值；累加所述至少一个数据对应的至少一个分值，得到所述经纪人的评分值；本实施例通过以经纪人对应的多种维度类型的数据在评分卡中进行查询，实现快速获取经纪人的评分值，并且，克服了人为评分主观因素影响分值的问题，得到的经纪人评分值更客观，可参考性更强。
[0180]
在一些可选的实施例中，本实施例提供的装置还包括：
[0181]
评分卡建立模块，用于基于第一样本集合建立评分卡。
[0182]
其中，第一样本集合中包括多个第一样本经纪人。
[0183]
可选地，评分卡建立模块，包括：
[0184]
数据单元，用于获得第一样本集合中多个第一样本经纪人中每个第一样本经纪人的多个数据；其中，每个第一样本经纪人对应多种维度类型的数据；
[0185]
编码单元，用于对每种维度类型对应的多个数据执行编码，得到多个编码值；其中，每种维度类型的数据对应至少一个编码值；
[0186]
分值预测单元，用于将多个编码值分别输入预训练的神经网络模型，得到多个分值；
[0187]
评分卡单元，用于基于多种维度类型的多个数据对应的多个分值，建立评分卡。
[0188]
可选地，编码单元，具体用于对每种维度类型对应的多个数据执行分箱操作，得到每种维度类型对应的多个数据区间；其中，每个数据区间包括起始值数据到终止值数据之间的所有数据；对多个数据区间中的每个数据区间内的所有数据执行编码，得到多个编码值。
[0189]
可选地，每个第一样本经纪人具有标注信息表明第一样本经纪人是正样本或负样本；
[0190]
编码单元在对多个数据区间中的每个数据区间内的所有数据执行编码，得到多个编码值时，用于针对每个数据区间，基于数据区间包括的正样本数量和负样本数量，以及第一样本集合中包括的正样本数量和负样本数量，确定数据区间对应的编码值。
[0191]
可选地，分值预测单元，具体用于将多个编码值中每个编码值分别输入预训练的神经网络模型，分别输出对应每个编码值的预测概率值；分别对多个预测概率值中的每个预测概率值进行计算，得到多个分值；其中，多个分值中的每个分值对应一个编码值。
[0192]
可选地，评分卡建立模块，还包括：
[0193]
网络训练单元，用于基于第二样本集合训练神经网络模型；其中，第二样本集合包括多个具有标注信息的第二样本经纪人，标注信息表示第二样本经纪人是正样本或负样本。
[0194]
可选地，网络训练单元，具体用于将第二样本经纪人对应的多个数据进行编码，得到多个样本编码值；将多个样本编码值分别输入神经网络模型，得到多个预测概率值；分别确定多个预测概率值中每个预测概率值与标注信息之间的差异，基于差异确定网络损失，基于网络损失训练神经网络模型。
[0195]
可选地，评分卡建立模块，还包括：
[0196]
预处理单元，用于对多个数据进行预处理；其中，预处理包括以下至少一种：去重处理、缺失值删除处理、异常值检测处理、相关度确定处理。
[0197]
可选地，评分卡建立模块，还包括：
[0198]
筛选单元，用于对至少一个编码值中的每个编码值计算信息量，得到至少一个信息量值；其中，每个信息量值对应一个所述编码值；基于至少一个信息量值对至少一个编码值进行筛选，得到筛选后的至少一个编码值；
[0199]
分值预测单元，具体用于将筛选后的至少一个编码值分别输入神经网络模型，得到多个数据对应的多个分值。
[0200]
示例性电子设备
[0201]
下面，参考图8来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。
[0202]
图8图示了根据本公开实施例的电子设备的框图。
[0203]
如图8所示，电子设备80包括一个或多个处理器81和存储器82。
[0204]
处理器81可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备80中的其他组件以执行期望的功能。
[0205]
存储器82可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器81可以运行所述程序指令，以实现上文所述的本公开的各个实施例的基于维度模型的数据评估方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声
分量等各种内容。
[0206]
在一个示例中，电子设备80还可以包括：输入装置83和输出装置84，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0207]
例如，在该电子设备是第一设备100或第二设备200时，该输入装置83可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置83可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。
[0208]
此外，该输入装置83还可以包括例如键盘、鼠标等等。
[0209]
该输出装置84可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0210]
当然，为了简化，图8中仅示出了该电子设备80中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备80还可以包括任何其他适当的组件。
[0211]
示例性计算机程序产品和计算机可读存储介质
[0212]
除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于维度模型的数据评估方法中的步骤。
[0213]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0214]
此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的基于维度模型的数据评估方法中的步骤。
[0215]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0216]
以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0217]
本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例
而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0218]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
[0219]
可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0220]
还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0221]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0222]
为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于改进循环神经网络算法的推荐召回方法及系统与流程

基于维度模型的数据评估方法和计算机程序产品与流程

相关文献

最热文献