数据处理方法及相关装置与流程

2022-10-13 10:21:10 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，具体涉及一种数据处理方法及相关装置。

背景技术：

2.征信数据包括能够反映企业信用状况的企业信用信息和能够反映个人信用状况的个人信用信息。服务器通过实时采集征信数据，并可对所采集到的征信数据进行数据加工和数据分析应用，然而服务器实时采集到的征信数据的数据量较大、且数据较为冗杂，若对每一条实时采集到的征信数据都要求进行实时加工处理，对于服务器的处理能力要求较高，因此，如何对所采集到的征信数据分类进行处理，是目前还待解决的问题。

技术实现要素：

3.本技术实施例提供了一种数据处理方法及相关装置，以期区分处理服务器采集的征信数据，并提高区分结果的准确性。
4.第一方面，本技术实施例提供了一种数据处理方法，应用于服务器，所述方法包括：
5.获取待加工征信数据，其中，所述待加工征信数据包括数据来源、数据类型以及内容信息；
6.比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果；
7.若所述第一比对结果为匹配成功，则确定匹配成功的所述待加工征信数据为第一待处理征信数据；
8.若所述第一比对结果为匹配失败，则根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值；以及，比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果；并根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据；
9.对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据；
10.向数据库发送所述目标征信数据。
11.第二方面，本技术实施例提供了一种数据处理装置，应用于服务器，所述装置包括：
12.获取单元，用于获取待加工征信数据，其中，所述待加工征信数据包括数据来源、数据类型以及内容信息；
13.比对单元，用于比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果；还用于比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果；
14.确定单元，用于在第一比对结果为匹配成功时，确定匹配成功的所述待加工征信数据为第一待处理征信数据；用于在所述第一比对结果为匹配失败时，根据所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值；还用于在所述第一比对结果为匹配失败时，根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据；
15.处理单元，用于对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据；
16.发送单元，用于向数据库发送所述目标征信数据。
17.第三方面，本技术实施例提供了一种服务器，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行本技术实施例第一方面中的步骤的指令。
18.第四方面，本技术实施例提供了一种计算机存储介质，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如本实施例第一方面中所描述的部分或全部步骤。
19.可以看出，本实施例中，通过获取待加工征信数据；比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果；若所述第一比对结果为匹配成功，则确定匹配成功的所述待加工征信数据为第一待处理征信数据；若所述第一比对结果为匹配失败，则根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值；以及，比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果；并根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据；对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据；向数据库发送所述目标征信数据。如此，可以通过本技术方案所建立一套规范的征信数据的处理流程，从而实现将采集到的待加工征信数据分类处理，降低服务器对数据实时加工处理的压力。此外，通过本技术方案，还可以提高分类采集到的待加工征信数据的准确性，提高新数据形式的待加工征信数据加工处理方式判断的准确性。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
21.图1是本技术实施例提供的一种网络架构的结构示意图；
22.图2是本技术实施例提供的一种服务器的组成示例图；
23.图3是本技术实施例提供的一种数据处理方法的流程示意图；
24.图4是本技术实施例提供的一种数据处理装置的功能单元组成框图；
25.图5是本技术实施例提供的另一种数据处理装置的功能单元组成框图。
具体实施方式
26.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
28.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
29.本技术提供一种数据处理方法及相关装置，下面结合附图对本技术实施例进行说明。
30.请参见图1，是本技术实施例提供的一种网络架构的结构示意图。如图1所示，网络架构可以包括服务器100和用户终端集群，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，多个用户终端具体可以包括用户终端200a、用户终端200b、用户终端200c、
…
、用户终端200n；如图1所示，用户终端200a、用户终端200b、用户终端200c、
…
、用户终端200n可以分别与服务器100进行网络连接，以便于每个用户终端可以通过该网络连接与服务器100之间进行数据交互。
31.如图1所示的服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
32.本技术中的服务器100的组成结构可以如图2所示，图2是本技术实施例提供的一种服务器的组成示例图。服务器100可以包括处理器110、存储器120、通信接口130以及一个或多个程序121，其中，所述一个或多个程序121被存储在上述存储器120中，且被配置由上述处理器110执行，所述一个或多个程序121包括用于执行下述方法实施例中任一步骤的指令。
33.其中，通信接口130用于支持服务器100与其他设备的通信。处理器110例如可以是中央处理器(central processing unit，cpu)，通用处理器，数字信号处理器(digital signal processor，dsp)，专用集成电路(application-specific integrated circuit，asic)，现场可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术实施例公开内容所描述的各种示例性的逻辑方框，单元和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等等。
34.存储器120可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性
存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，ram)可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。
35.具体实现中，所述处理器110用于执行下述方法实施例中由服务器执行的任一步骤，且在执行诸如发送目标征信数据等数据传输操作时，可选择调用所述通信接口130来完成相应操作。
36.需要注意的是，上述服务器的结构示意图仅为示例，具体包含的器件可以更多或更少，此处不做唯一限定。
37.请参阅图3，图3是本技术实施例提供的一种数据处理方法的流程示意图，该方法可以由服务器执行，如该方法可以应用于如图1或图2所示的服务器100，如图3所示，该数据处理方法包括：
38.s110，获取待加工征信数据。
39.其中，获取的待加工征信数据可以为服务器单位时间内实时采集的所有数据。
40.其中，所述待加工征信数据包括数据来源、数据类型以及内容信息等内容。
41.具体实现中，服务器可以与第三方数据源系统进行对接，从而实现征信数据采集和存储。其中，不同的第三方数据源系统即表征不同的数据来源。在数据源系统接入方面，可以对发票数据、税务数据、工商数据、司法数据、知识产权数据等相关数据源系统接入，从而实现相关数据源系统的原始征信数据采集。这也就是说，数据来源可以包括发票数据、税务数据、工商数据、司法数据、以及知识产权数据等。服务器可以在采集征信数据时，将原始征信数据拆解为针对企业或个人的工商关系、司法关系、发票购销关系等待加工征信数据并存入数据库中。数据库中存储的待加工征信数据的数据类型包括但不限于：用户的身份信息、贷款信息、以及信用卡信息等等，具体可以根据需求进行设置，在此不做进一步限制。
42.进一步地，在实际应用场景中，由于服务器实时采集征信数据的频率通常较快，各个数据来源采集的各个征信数据在服务器单次采集时可能变化较小或者不发生变化。因此，服务器为了确定当前采集的征信数据是否均为待加工征信数据，可以在采集时仅采集各个数据来源中有发生变化的征信数据，从而减小服务器采集和存储的处理压力。当然，服务器也可以单次采集所有征信数据，再对采集的所有征信数据进行数据去重操作，从而避免采集的征信数据与数据库内存储的数据重复。服务器对各个数据来源中征信数据的采集可以根据实际需求设置，在此不做进一步限制。
43.s120，比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果。
44.其中，第一历史待处理征信数据是指数据库中存储的历史采集的征信数据中经过
实时加工处理的数据。
45.具体实现时，比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息包括：对待加工征信数据的内容信息分词处理，得到分词处理结果以及与分词处理结果对应的各个特征；获取第一历史待处理征信数据的分词处理结果和与分词处理结果对应的各个特征；比对待加工征信数据分词处理结果对应的各个特征和第一历史待处理征信数据分词处理结果对应的各个特征。其中，分词处理结果对应的各个分词可以分别被标记为一个特征，从而将待加工征信数据的各个特征和存储的各个第一历史待处理征信数据的各个特征进行比对，可以判断出数据库中是否存储有与待加工征信数据的数据形式匹配的第一历史待处理征信数据。示例性地，若待加工征信数据为“张三2022年7月待缴纳税款2000元”，其分词处理结果对应的各个特征所表述的数据形式可以为“姓名” “时间” “待缴纳税款” “金额”。
46.进一步地，为了便于比对，减少存储空间，在对待加工征信数据进行分词处理之前，还可以将采集的每一条待加工征信数据进行去停用词处理。去停用词处理用于对每一条待加工征信数据中的非重要词汇(例如：的、其、为等)和标点符号进行去除操作。例如：若待加工征信数据为“根据张三2022年7月的收入，其当月待缴纳的税款为2000元”，进行去停用词处理后的结果可能是：“张三2022年7月待缴纳税款2000元”。需要说明的是，上述去停用词处理操作是依据去停用词词典进行的。该去停用词词典可以为现有的停用词词典，或者，该去停用词词典也可以是服务器根据数据库中保存的大量数据训练得到的适用于当前应用场景的去停用词典。
47.s130，若所述第一比对结果为匹配成功，则确定匹配成功的所述待加工征信数据为第一待处理征信数据。
48.其中，第一待处理征信数据为需要实时加工处理的数据。在本步骤中，第一比对结果为匹配成功，表明数据库中存储有与当前待加工征信数据的数据形式匹配的第一历史待处理数据的数据形式。此时，当前待加工征信数据可以采用与其匹配的第一历史待处理数据相同的加工处理方式进行处理，即实时加工处理。
49.示例性的，若待加工征信数据为“张三2022年7月待缴纳税款2000元”，其各个特征表征的数据形式为：姓名时间待缴纳税款金额。数据库存储的所有第一历史待处理征信数据中包括“李四2022年6月代缴纳税款1000元”这一数据，可见，该第一历史待处理征信数据的数据形式与待加工征信数据的数据形式相同，因此可断定该待加工征信数据和该第一历史待处理数据匹配成功，该待加工征信数据为需要实时加工处理的第一待处理征信数据。
50.s140，若所述第一比对结果为匹配失败，则根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值。
51.其中，第一比对结果为匹配失败时，表明数据库存储的第一历史待加工征信数据中没有与当前待加工征信数据相同数据形式的内容，此时，当前待加工征信数据存在两种可能：当前匹配失败的待加工征信数据为需要进行离线加工处理的数据；或者，当前匹配失败的待加工征信数据为数据库中未存储的需要实时加工处理的新数据形式的数据。为了进一步准确判断匹配失败的待加工征信数据的加工处理方式，需要对匹配失败的待加工征信
数据执行本步骤s104、以及下述步骤s105和s106。
52.其中，目标准确需求数值为待加工征信数据需要进行离线加工处理的可能性的具象数值，目标时效需求数值为待加工征信数据需要进行实时加工处理的可能性的具象数值。
53.s150，比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果。
54.具体地，可以比较目标准确需求数值和目标时效需求数值的大小，得到第二比对结果。若所述目标准确需求数值小于或等于所述目标时效需求数值，则执行步骤s160，确定该待加工征信数据为第二待处理征信数据；若所述目标准确需求数值大于所述目标时效需求数值，则确定所述待加工征信数据为第三待处理征信数据，对第三待处理征信数据进行离线加工处理，得到离线征信数据，将所述离线征信数据发送至数据库。
55.其中，第二待处理征信数据表征对应的待加工征信数据为需要实时加工处理的数据。第三待处理征信数据表征对应的待加工征信数据为需要离线加工处理的数据。
56.s160，根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据。
57.其中，匹配失败的所述待加工征信数据中的第二待处理征信数据的数量可以为两条；或者，匹配失败的所述待加工征信数据中的第二待处理征信数据包括至少一条。
58.s170，对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据。
59.具体地，实时加工处理可以由kafka flink共同进行。kafka从数据库中获取第一待处理征信数据和第二待处理征信数据，然后交由flink来进行常见的数据工程、全局聚合等实时计算工作，从而完成对第一待处理征信数据和第二待处理征信数据的实时加工处理操作，得到目标征信数据。
60.s180，向数据库发送所述目标征信数据。
61.可以理解，服务器采集的原始征信数据、离线加工处理得到的离线征信数据、以及实时加工处理得到的目标征信数据存储于不同的数据库中。
62.可以看出，本实施例中，通过获取待加工征信数据；比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果；若所述第一比对结果为匹配成功，则确定匹配成功的所述待加工征信数据为第一待处理征信数据；若所述第一比对结果为匹配失败，则根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值；以及，比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果；并根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据；对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据；向数据库发送所述目标征信数据。如此，可以通过本技术方案建立一套规范的征信数据的处理流程，从而实现将采集到的待加工征信数据分类处理，降低服务器对数据实时加工处理的压力。此外，通过本技术方案，还可以提高分类采集的待加工征信数据的准确性，提高新数据形式的待加工征信数据加工处理方式判断的准确性。
63.在一个可能的示例中，所述根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数
值，包括：根据所述匹配失败的所述待加工征信数据的数据来源，匹配与所述匹配失败的所述待加工征信数据对应的第一准确需求数值和第一时效需求数值；根据所述匹配失败的所述待加工征信数据的数据类型，匹配与所述匹配失败的所述待加工征信数据对应的第二准确需求数值和第二时效需求数值；根据所述第一准确需求数值和所述第二准确需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标准确需求数值；根据所述第一时效需求数值和所述第二时效需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标时效需求数值。
64.其中，第一准确需求数值和第一时效需求数值为数据库存储的与各个数据来源对应的具象数值，第二准确需求数值和第二时效需求数值为数据库存储的与各个数据类型对应的具象数值。
65.具体地，以税务数据对应的数据来源中的贷款信息为例，第一准确需求数值和第一时效需求数值为税务数据对应的数值，例如，第一准确需求数值为20，第一时效需求数值为80；第二准确需求数值和第二时效需求数值为税务数据中的贷款信息对应的数值，例如，第二准确需求数值为40，第二时效需求数值为60。
66.可见，通过征信数据的第一准确需求数值、第一时效需求数值、第二准确需求数值、以及第二时效需求数值计算得到目标时效需求数值和目标准确需求数值可以更准确的判断出匹配失败的待加工征信数据对应的加工处理方式，提高判断结果的准确性。
67.在一个可能的示例中，所述方法还包括，获取与各个所述数据来源对应的第一准确需求数值和第一时效需求数值；所述获取与各个所述数据来源对应的第一准确需求数值和第一时效需求数值，包括：获取历史待加工征信数据的数据来源，其中，所述历史待加工征信数据包括所述第一历史待处理征信数据和第二历史待处理征信数据；根据所述历史待加工征信数据的数据来源，确定各个所述历史待加工征信数据的数据来源中所述第一历史待处理征信数据和所述第二历史待处理征信数据的数量；根据各个所述历史待加工征信数据的数据来源中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量的比值，确定与各个所述历史待加工征信数据的数据来源对应的第一时效需求数值和第一准确需求数值。
68.其中，第一历史待处理征信数据如前文所述，是指数据库中存储的历史采集的征信数据中经过实时加工处理的数据。第二历史待处理征信数据是指数据库中存储的历史采集的征信数据中经过离线加工处理的数据。
69.具体地，第一准确需求数值和第一时效需求数值是通过数据库存储的各个数据来源中所有历史待加工数据的加工处理方式确定的。示例性的，以税务数据为例，数据库存储的税务总数为1000条，其中包括第一历史待处理征信数据800条，第二历史待处理征信数据200条，可见第一历史待处理征信数据和第二历史待处理征信数据的比值为4:1，因此可对税务数据对应的第一时效需求数值和第二时效需求数值赋值，例如,从税务数据汇中采集的各个征信数据对应的第一时效需求数值为80，第一准确需求数值为20。
70.可见，在本实施例中，通过计算同一数据来源中进行实时加工处理的第一历史待处理征信数据的数据和进行离线加工处理的第二历史待处理征信数据的比值，可以估算出该数据来源中的征信数据进行实时加工处理和离线加工处理的可能性，从而可以提高最终判断匹配失败的待加工征信数据的处理方式的准确性。
71.在一个可能的示例中，所述方法还包括，获取与各个所述数据来源中各个数据类型对应的所述第二准确需求数值和第二时效需求数值；所述获取与各个所述数据来源中各个数据类型对应的所述第二准确需求数值和第二时效需求数值，包括：获取各个所述数据来源中历史待加工征信数据的数据类型，其中，所述历史待加工征信数据包括所述第一历史待处理征信数据和第二历史待处理征信数据；根据各个所述数据来源中所述历史待加工征信数据的数据类型，确定各个所述历史待加工征信数据的数据类型中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量；根据各个所述历史待加工征信数据的数据类型中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量的比值，确定与各个所述历史待加工数据的数据类型对应的第二时效需求数值和第二准确需求数值。
72.其中，第一历史待处理征信数据和第二历史待处理征信数据如前文所述，在此不再重复叙述。
73.其中，根据各个所述数据来源中所述历史待加工征信数据的数据类型，确定各个所述历史待加工征信数据的数据类型中第一历史待处理征信数据的数量和第二历史待处理征信数据的数量，是指根据各个数据来源中的各个数据类型，确定在该数据来源的各个数据类型中所有历史待加工征信数据包括的第一历史待处理征信数据的数量和第二历史待处理征信数据的数量。
74.在本示例中，第二准确需求数值和第二时效需求数值是通过数据库存储的各个数据类型中历史待加工数据的加工处理方式的数量确定的。示例性的，以贷款信息为例，数据库存储的贷款信息总数为600条，其中包括第一历史待处理征信数据240条，第二历史待处理征信数据360条，可见第一历史待处理征信数据和第二历史待处理征信数据的比值为2:3，因此数据来源为税务数据的贷款信息的第二时效需求数值为60，第二准确需求数值为40。
75.可见，在本实施例中，通过计算同一数据类型中进行实时加工处理的第一历史待处理征信数据的数据和进行离线加工处理的第二历史待处理征信数据的比值，可以估算出该数据类型中的数据进行实时加工处理和离线加工处理的可能性，从而可以提高最终判断匹配失败的待加工征信数据的处理方式的准确性。
76.在一个可能的示例中，所述根据所述第一准确需求数值和所述第二准确需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标准确需求数值；以及，根据所述第一时效需求数值和所述第二时效需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标时效需求数值，包括：获取与所述匹配失败的所述待加工数据的数据来源对应的第一占比；
77.获取与所述匹配失败的所述待加工数据的数据类型对应的第二占比；根据所述第一占比和所述第二占比对所述第一准确需求数值和所述第二准确需求数值进行加权处理，得到所述目标准确需求数值；根据所述第一占比和所述第二占比对所述第一时效需求数值和所述第二时效需求数值进行加权处理，得到所述目标时效需求数值。
78.其中，实际应用中，服务器可能会从不同的数据来源中采集到相同数据类型的征信数据，而不同数据来源中的征信数据的用途可能存在差异，因此，结合数据来源和数据类型确定匹配失败的待加工征信数据的加工处理方式的可靠性更高。
79.其中，第一占比和第二占比可以结合数据应用的经验进行设置，在此不做进一步限制，例如，在一个数据来源中，若该数据来源中的各个数据类型的第一历史待加工征信数据和第二历史待加工征信数据的比值差异较小，则可认为影响该数据来源中的各个代加工征信的加工处理方式的主要因素为数据来源，此时，第一占比和第二占比的设置规则为第一占比大于第二占比。又或者，在一个数据来源中，若该来源中的各个数据类型的第一历史待加工征信数据和第二历史待加工征信数据的比值差异较大，则可认为影响该数据来源中的各个代加工征信的加工处理方式的主要因素为数据类型，此时，第一占比和第二占比的设置规则为第一占比小于第二占比。
80.示例性的，若待加工征信数据的数据来源为税务数据，数据类型为贷款信息，则其匹配得到的对应的第一时效需求数值为80，第一准确需求数值为20，第二时效需求数值为60，第二准确需求数值为40。已知获取的第一占比为60％，第二占比为40％。则，该待加工征信数据的目标时效需求数值为(80 60)*60％＝84，目标准确需求数值为(20 40)*40％＝24。可见，该待加工征信数据的目标时效需求数值大于目标准确需求数值，因此该待加工征信数据需要进行实时加工处理。
81.可见，在本实施例中，可以分别对第一时效需求数值和第二时效需求数值、以及第一准确需求数值和第二准确需求数值进行加权处理，从而可以进一步提高对待加工征信数据分类判断的准确性和可靠性，从而使待加工征信数据能够及时准确的采用合适的加工处理方式进行处理。
82.在一个可能的示例中，所述第一待处理征信数据和所述第二待处理征信数据包括至少一个用户的征信数据；所述对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据，包括：获取与每一个所述第一待处理征信数据和所述第二待处理征信数据对应的用户id；根据与每一个所述第一待处理征信数据和所述第二待处理征信数据对应的用户id，将每一个所述第一待处理征信数据和所述第二待处理征信数据传输至对应的目标消息队列，其中一个目标消息队列与一个用户id对应；获取所述目标消息队列中的全部所述第一待处理征信数据和所述第二待处理征信数据，并执行所述实时加工处理，得到所述目标征信数据。
83.其中，服务器采集的所有征信数据都分别与一个用户id对应，该用户id可以是个人用户的姓名，也可以是企业用户的名称。因此，需要实时加工处理的每个第一待处理征信数据和第二待处理征信数据也分别对应一个用户id。
84.具体实现时，数据库可以分别建立针对各个用户id的数据集，以便于数据保存和提取使用。当服务器分类出实时采集的所有待加工征信数据中的第一待处理征信数据和第二待处理征信数据后，可以将同一个用户id的所有第一待处理征信数据和第二待处理征信数据发送至与相同用户id对应的目标消息队列中，当目标消息队列接收到所有与该用户id对应的第一待处理征信数据和第二待处理征信数据后，则可批量进行实时加工处理操作，得到各个目标征信数据。其中，实时加工处理操作包括但不限于数据清洗和数据格式转换等。
85.可见，在本技术实施例中，服务器可以将同批次采集到的征信数据中与同一用户id对应的所有第一待处理征信数据和第二待处理征信数据统一批量实时加工处理。在此基础上可以实现对征信数据进行分批处理，甚至可以对数据进行分时分批处理，如此可以降
低服务器的数据处理压力，提高服务器的数据处理速度，保证服务器资源的合理利用。
86.在一个可能的示例中，所述向数据库发送所述目标征信数据，包括：根据所述目标征信数据和/或历史征信数据进行用户分析，得到与用户对应的用户关系图谱；根据所述目标征信数据和/或历史征信数据进行用户分析，得到与用户对应的服务配置规则；将所述用户对应的所述用户关系图谱和所述服务配置规则中的至少其中之一发送至用户端。
87.其中，历史征信数据是指历史经过实时加工处理后得到的目标征信数据。目标征信数据和历史征信数据包含至少一个用户的基本信息、至少一个用户的信贷信息、以及至少一个用户的公共信息等。其中，用户的基本信息包括但不限于：用户的身份信息、职业信息和居住信息等等；用户的信贷信息包括但不限于：用户的信用卡、房贷等借款还款信息等等；用户的公共信息包括但不限于：社保公积金信息、法院信息、欠税信息和行政执法信息等。
88.其中，用户关系图谱可用于表征用户的投资关系、财务关系或者经营关系等。例如，用户关系图谱可以根据来源于工商数据的目标征信数据和历史征信数据分析得到投资关系，该投资关系可以为用户个人投资关系，或者企业投资的和投资该企业的股权信息等。其中，目标征信数据和历史征信数据可以是与工商部门企业注册登记的“股东及出资信息”相关的数据。
89.其中，服务配置规则可以用于表征银行为用户配置的服务规则。例如，数据库中可以存储有预设的与不同的用户评分对应的预设服务方案，在根据用户的目标征信数据和历史征信数据对用户进行用户分析后，可以得到与该用户对应的用户评分。服务器可以根据用户评分为用户匹配对应的预设服务方案，所述预设服务方案包括用户适配的信贷额度、还款利率、以及为用户提供服务的服务人员级别等等。
90.具体实现中，以用户为用户a为例，若目标征信数据包括用户a全部的征信数据，则可以根据目标征信数据对用户a进行分析，以得到用户a的用户关系图谱和服务配置规则。若目标征信数据和历史征信数据分别包括用户a不同的征信数据，则根据目标征信数据和历史征信数据，对用户a进行分析，以得到用户a的用户关系图谱和服务配置规则。若没有关于用户a的目标征信数据，则根据历史征信数据对用户a进行分析，以得到用户a的用户关系图谱和服务配置规则。其中，若目标征信数据为历史征信数据的更新数据，则以目标征信数据为准，从而保证征信数据的实时性和可靠性。
91.可以看出，本技术实施方式中，可以通过对处理完成的目标征信数据和历史征信数据对用户进行分析，从而得到与用户相关的用户关系图谱和服务配置规则等信息，以将这些信息及时反馈给客户。如此，能够实现目标征信数据的合理利用，并有助于客户更及时全面的了解用户的征信情况，从而可以更精准的为用户提供服务。
92.本技术可以根据上述方法示例对服务器进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本技术实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
93.图4是本技术实施例提供的一种数据处理装置的功能单元组成框图。该数据处理装置300可以应用在如图1或图2所示的服务器100上，该数据处理装置300包括：
94.获取单元310，用于获取待加工征信数据，其中，所述待加工征信数据包括数据来源、数据类型以及内容信息；
95.比对单元320，用于比对所述待加工征信数据的内容信息和第一历史待处理征信数据的内容信息，得到第一比对结果；还用于比对所述目标准确需求数值和所述目标时效需求数值，得到第二比对结果；
96.确定单元330，用于在第一比对结果为匹配成功时，确定匹配成功的所述待加工征信数据为第一待处理征信数据；用于在所述第一比对结果为匹配失败时，根据所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值；还用于在所述第一比对结果为匹配失败时，根据所述第二比对结果确定所述匹配失败的所述待加工征信数据中的第二待处理征信数据；
97.处理单元340，用于对所述第一待处理征信数据和所述第二待处理征信数据进行实时加工处理，得到目标征信数据；
98.发送单元350，用于向数据库发送所述目标征信数据。
99.在一个可能的示例中，在所述根据匹配失败的所述待加工征信数据的数据来源和数据类型，确定所述匹配失败的所述待加工征信数据的目标准确需求数值和目标时效需求数值方面，所述确定单元330还用于：根据所述匹配失败的所述待加工征信数据的数据来源，匹配与所述匹配失败的所述待加工征信数据对应的第一准确需求数值和第一时效需求数值；根据所述匹配失败的所述待加工征信数据的数据类型，匹配与所述匹配失败的所述待加工征信数据对应的第二准确需求数值和第二时效需求数值；根据所述第一准确需求数值和所述第二准确需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标准确需求数值；根据所述第一时效需求数值和所述第二时效需求数值，确定与所述匹配失败的所述待加工征信数据对应的目标时效需求数值。
100.在一个可能的示例中，所述获取单元310还用于：获取历史待加工征信数据的数据来源，其中，所述历史待加工征信数据包括所述第一历史待处理征信数据和第二历史待处理征信数据；所述确定单元330还用于：根据所述历史待加工征信数据的数据来源，确定各个所述历史待加工征信数据的数据来源中所述第一历史待处理征信数据和所述第二历史待处理征信数据的数量；根据各个所述历史待加工征信数据的数据来源中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量的比值，确定与各个所述历史待加工征信数据的数据来源对应的第一时效需求数值和第一准确需求数值。
101.在一个可能的示例中，所述获取单元310还用于：获取历史待加工征信数据的数据类型，其中，所述历史待加工征信数据包括所述第一历史待处理征信数据和第二历史待处理征信数据；所述确定单元330还用于：根据所述历史待加工征信数据的数据类型，确定各个所述历史待加工征信数据的数据类型中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量；根据各个所述历史待加工征信数据的数据类型中所述第一历史待处理征信数据的数量和所述第二历史待处理征信数据的数量的比值，确定与各个所述历史待加工数据的数据类型对应的第二时效需求数值和第二准确需求数值。
102.在一个可能的示例中，所述获取单元310还用于：获取与所述匹配失败的所述待加工数据的数据来源对应的第一占比；获取与所述匹配失败的所述待加工数据的数据类型对应的第二占比；所述确定单元330还用于：根据所述第一占比和所述第二占比对所述第一准
确需求数值和所述第二准确需求数值进行加权处理，得到所述目标准确需求数值；根据所述第一占比和所述第二占比对所述第一时效需求数值和所述第二时效需求数值进行加权处理，得到所述目标时效需求数值。
103.在一个可能的示例中，所述第一待处理征信数据和所述第二待处理征信数据包括至少一个用户的征信数据；所述获取单元310还用于：获取与每一个所述第一待处理征信数据和所述第二待处理征信数据对应的用户id；所述处理单元340用于：根据与每一个所述第一待处理征信数据和所述第二待处理征信数据对应的用户id，将每一个所述第一待处理征信数据和所述第二待处理征信数据传输至对应的目标消息队列，其中一个目标消息队列与一个用户id对应；获取所述目标消息队列中的全部所述第一待处理征信数据和所述第二待处理征信数据，并执行所述实时加工处理，得到所述目标征信数据。
104.在一个可能的示例中，所述处理单元340用于：根据所述目标征信数据和/或历史征信数据进行用户分析，得到与用户对应的用户关系图谱；根据所述目标征信数据和/或历史征信数据进行用户分析，得到与用户对应的服务配置规则；所述发送单元350还用于：将所述用户对应的所述用户关系图谱和所述服务配置规则中的至少其中之一发送至用户端。
105.在采用集成的单元的情况下，本技术实施例提供的数据处理装置300的功能单元组成框图，如图5所示。在图5中，数据处理装置300包括：通信模块360和处理模块370。处理模块370用于对数据处理装置300的动作进行控制管理，例如，获取单元310、比对单元320、确定单元330、处理单元340、发送单元350执行的步骤，和/或用于执行本文所描述的技术的其它过程。通信模块360用于支持数据处理装置300与其他设备之间的交互。如图5所示，数据处理装置300还可以包括存储模块380，存储模块380用于存储数据处理装置300的程序代码和数据。
106.其中，处理模块370可以是处理器或控制器，例如可以是中央处理器(central processing unit，cpu)，通用处理器，数字信号处理器(digital signal processor，dsp)，asic，fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，dsp和微处理器的组合等等。通信模块360可以是收发器、rf电路或通信接口等。存储模块380可以是存储器。
107.其中，上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。上述数据处理装置300均可执行上述图3所示的数据处理方法中服务器所执行的步骤。
108.本技术实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括服务器。
109.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
110.在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
111.在本技术所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。
112.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
113.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
114.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例上述方法的全部或部分步骤。而前述的存储器包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
115.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：read-only memory，简称：rom)、随机存取器(英文：random access memory，简称：ram)、磁盘或光盘等。
116.以上对本技术实施例进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种用于城市管理的一体化指挥管理方法及系统与流程

数据处理方法及相关装置与流程

相关文献

最热文献