一种基于关联可信度计算的数据筛选方法、系统和存储介质与流程

2022-04-09 09:27:56 来源：中国专利 TAG：

1.本技术属于大数据技术领域，具体的涉及一种关联数据可信度的评价方法。

背景技术：

2.近年来，随着我国信息化建设不断推进，信息技术广泛应用以及信息网络的快速普及，数据源的来源也愈加多样化，从不同来源持续产生的数据，存在数据信息量大、信息可信程度存在差异等特点，这使得有效信息被过剩信息覆盖。面对海量的原始数据，业务人员难以高效、准确判断数据是否值得信任和依赖，而目前并没有一个统一的评估标准体系及规范来指导数据的处理，导致在数据清洗时，原始数据中有价值的数据被筛选掉，而无用数据被保留，使得最终处理的结果与实际情况产生较大的偏差。

技术实现要素：

3.针对上述问题，本技术提出了一种基于关联可信度计算的数据筛选方法，包括以下步骤
4.s1：收集数据资源，按照业务需求筛选所需业务字段生成原始数据汇总表；
5.s2：基于预定数据清洗规则清洗原始数据汇总表，生成汇总数据表，其中，数据清洗规则包括业务字段值、格式和关联字段值的条件限定；
6.s3：定义汇总数据表中关联字段的可信度指标，计算关联字段在每个指标下的可信度得分；
7.s4:计算每个可信度指标的可信度得分的初始系数，归一化处理后获得指标系数，初始系数为可信度得分的标准差与均值的比值；
8.s5：根据指标系数，将可信度得分加权汇总计算得到关联字段的可信度。
9.进一步地，s3中的可信度指标包括资源指标，频次指标，时间指标。
10.进一步地，s3中的关联字段被分为不同资源类，每一类有对应的权重值；
11.资源指标可信度得分的计算公式为：
[0012][0013]
其中，
[0014]
s表示资源指标可信度得分，
[0015]
n表示出现了关联字段的资源类数目，
[0016]
v表示各资源类对应的权重值集合，
[0017]
代表各资源类对应的权重值。
[0018]
进一步地，s3中，关联字段在每个资源类的出现频次被分为不同的区间，每个频次
区间也有对应的权重值；
[0019]
频次指标可信度得分的计算公式为：
[0020][0021]
其中，
[0022]
f表示资源指标可信度得分，
[0023]
c表示各频次区间对应的权重值集合，
[0024]
表示各频次区间对应的权重值
[0025]
进一步地，s3中，关联字段最后出现的时间和当前时间的差值被分为不同的区间，每个时间区间也有对应的权重值；
[0026]
时间指标可信度得分的计算公式为：
[0027][0028]
其中，
[0029]
t表示时间指标可信度得分，
[0030]
表示各时间区间对应的权重值。
[0031]
进一步地，s5中，计算关联字段的可信度的公式为：
[0032]
r＝s
×
noci f
×
noci t
×
noci[0033]
其中，
[0034]
r表示关联字段的可信度，
[0035]
noci表示对应评估指标的指标系数。
[0036]
进一步地，包括多个汇总数据表的情况下，计算关联字段的最终可信度的公式为：
[0037]
rs＝1-(1-r1)*(1-r2)*
……
(1-rn)
[0038]
其中，
[0039]
rs表示关联字段的最终可信度，
[0040]
r1、r2、
……
、rn表示关联字段在多个汇总数据表的可信度。
[0041]
进一步地，还包括s6：对关联字段的可信度进行抽样，与真实数据交叉验证，优化后生成可信度最高的落地数据表。
[0042]
根据本技术的第二方面，本技术还包括一种基于关联可信度计算的数据筛选系统，该系统包括：
[0043]
数据收集和清洗单元：收集数据资源，生成原始数据汇总表；清洗原始数据汇总表，生成汇总数据表；
[0044]
可信度计算单元：设计汇总数据表中关联字段可信度的评估指标，计算关联字段在每个指标下的可信度得分；采用变异系数法，计算关联字段在每个指标下的指标系数；计
算关联字段的可信度；
[0045]
数据输出单元：生成可信度最高的数据落地表。
[0046]
根据本技术的第三方面，本技术还包括一种用于基于关联可信度计算的数据筛选的计算机可读存储介质，其上存储有一或多个计算机程序，其被计算机处理器执行时实施上述方法。
[0047]
本技术的有益效果体现在，在大数据处理体系中，通过综合各类数据、进行特征选择，建立可信度评分模型，对获取的原始数据进行关联可信度计算打分，能够为数据分析、应用提供数据可信程度的支撑和参考，提升数据分析、应用的效果。本方案能够精准计算出一个对象从标识到落地的真实特征，并能够根据不同维度之间的联系，落地到某一个相对可信的真实身份。尤其是在疫情等需要大量处理身份数据的情况下，可信库的构建落地提高了人工排查的工作效率，特别是在出现突发的疫情事件时，为找寻、排查各地的疫情密接人员等工作提供了重要的数据支撑。
附图说明
[0048]
附图帮助进一步理解本技术。附图的元件不一定是相互按照比例的。为了便于描述，附图中仅示出了与有关发明相关的部分。
[0049]
图1为一实施例中的基于关联可信度计算的数据筛选方法流程示意图；
[0050]
图2为一实施例中基于关联可信度计算的数据筛选方法整体框架示意图；
[0051]
图3为一实施例中基于关联可信度计算的数据筛选系统示意图；
[0052]
图4为适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0053]
下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。
[0054]
图1是根据本技术一实施例中的基于关联可信度计算的数据筛选方法流程示意图；图2是基于关联可信度计算的数据筛选方法整体框架示意图。
[0055]
本实施例包括以下内容：
[0056]
s1：收集数据资源，按照业务需求筛选所需业务字段生成原始数据汇总表。
[0057]
收集各个数据资源1、数据资源2、....、数据资源n，按照业务需求筛选所需业务字段，将过滤好的数据形成一张新的原始数据汇总表。
[0058]
s2：基于预定数据清洗规则清洗原始数据汇总表，生成汇总数据表，其中，数据清洗规则包括业务字段值、格式和关联字段值的条件限定。
[0059]
制定一系列数据清洗规则(如：涉及证件号码的业务字段值不能为空且格式正确、涉及手机号码的业务字段值不能为空且格式正确、所有关联字段值不能为空、涉及时间的业务字段值不能为空且格式正确等)，对原始数据汇总表进行过滤清洗得到汇总数据表。
[0060]
s3：定义汇总数据表中关联字段的可信度指标，计算关联字段在每个指标下的可信度得分。
[0061]
设计不同的评估指标以评估汇总数据表中关联字段可信度，例如，资源来源指标、数据出现频次指标、时间指标等，计算每个指标对应的可信度得分。
[0062]
s4:计算每个可信度指标的可信度得分的初始系数，归一化处理后获得指标系数，初始系数为可信度得分的标准差与均值的比值。
[0063]
其原理是，采用变异系数法，对应可信度得分离散度更大的指标拥有更大的系数值，反之如果某一指标的打分值差异不大，则对该指标对可信度的计算影响相对较小。
[0064]
s5：根据指标系数，将可信度得分加权汇总计算得到关联字段的可信度。
[0065]
s6：对关联字段的可信度进行抽样，与真实数据交叉验证，优化后生成可信度最高的落地数据表。
[0066]
以下用另一实施例进一步阐述本发明。本实施例的目的是计算关联字段a“手机号码-身份证号码”的可信度，具体步骤是：
[0067]
s1：收集数据资源，按照业务需求筛选所需业务字段生成原始数据汇总表。
[0068]
本实施例有如下4张可用资源表：
[0069]
序号中文表名称英文表名称1铁路出行数据表atrain_trip_data_a2航空出行数据表bair_trip_data_b3闸口数据表cgate_data_c4通行码数据表dpass_data_d
[0070]
这4张表有如下5个共有字段：
[0071]
序号中文字段名英文字段名1姓名xm2身份证号sfzh3手机号码sjhm4最后出现时间lasttm5出现次数total
[0072]
汇总上述字段内容，生成原始数据汇总表。
[0073]
s2：基于预定数据清洗规则清洗原始数据汇总表，生成汇总数据表，其中，数据清洗规则包括业务字段值、格式和关联字段值的条件限定。
[0074]
本实施例定义了如下数据具体清洗规则：
[0075][0076][0077]
并对每一类资源添加相应的资源类(一般是码值)。该值可自定义，建议不要定义成数字，具体如下：
[0078]
序号资源类自定义码值1铁路类source_a2航空类source_b3闸口类source_c
4通行码类source_d
[0079]
清洗好的资源按照上述5个所需的业务字段，进行合并成一张表，并且对此表进行全量去重操作；
[0080]
s3：定义汇总数据表中关联字段的可信度指标，计算关联字段在每个指标下的可信度得分。
[0081]
本实施例设计了三种指标类型：资源指标、频次指标、时间指标。具体定义为：
[0082]
(1)资源指标：关联字段所在的数据资源表的可信度；
[0083]
(2)频次指标：关联字段在相应资源表的指定时间区间出现的频次；
[0084]
(3)时间指标：关联字段在相应资源表的指定时间区间最后一次出现时间与时间区间截止时间的差值。
[0085]
计算关联字段在每个指标下的可信度得分包括：
[0086]
s31：资源指标可信度计算
[0087]
每个资源类赋有专家评估权重值，本实施例定义的权重值如下：
[0088]
序号指标类专家评估权重值1铁路类0.952航空类0.953闸口类0.804通行码类0.905其他类0.10
[0089]
资源指标可信度得分的计算公式为：
[0090][0091]
其中，
[0092]
s表示资源指标可信度得分，
[0093]
n表示出现了关联字段的非其他类的资源类数目，
[0094]
v表示各资源类对应的权重值集合，
[0095]
代表各资源类对应的权重值。
[0096]
根据上式，可以有两种情况：
[0097]
在一实施例中，关联字段a在所列的上述4个指标类都没有记录，则默认归为其他类，资源指标可信度得分给一个默认值为0.1；
[0098]
在另一实施例中，业务字段a分别出现在铁路类1次、航空类3次、闸口类6次，即有3个非其他类的资源类中出现业务字段a，此时n＝3；业务字段a的资源指标可信度得分s＝(0.95 0.95 0.8)
×
3＝8.1。
[0099]
s32：频次指标可信度计算
[0100]
关联字段在每个资源类的出现频次被分为不同的区间，不同频次区间也有对应的专家评估权重值；本实施例定义的权重值如下：
[0101]
序号频次区间/次专家评估权重值1[0,2]0.22(2,5]0.43(5,10]0.64(10,∞)0.8
[0102]
在资源指标可信度得分的计算公式的基础上更新频次指标可信度得分的计算公式为：
[0103][0104]
其中，
[0105]
f表示资源指标可信度得分，
[0106]
c表示各频次区间对应的权重值集合，
[0107]
表示各频次区间对应的权重值。
[0108]
根据上式，同样可以有两种情况：
[0109]
在一实施例中，关联字段a在所列的上述4个指标类都没有记录，则默认归为其他类，频次指标可信度得分给一个默认值为0.1；
[0110]
在另一实施例中，业务字段a分别出现在铁路类1次、航空类3次、闸口类6次，即有3个非其他类的资源类中出现业务字段a，此时n＝3；业务字段a的频次指标可信度得分f＝(0.95
×
0.2 0.95
×
0.4 0.8
×
0.6)
×
3＝3.15。
[0111]
s33：时间指标可信度计算
[0112]
关联字段最后出现的时间和当前时间的差值被分为不同的区间，不同的区间也有对应的权重值；本实施例定义的权重值如下：
[0113]
序号时间区间/天专家评估权重值1[0,720)0.952[720,1440)0.753[1440,2160)0.54[2160,∞)0.1
[0114]
在频次指标可信度得分的计算公式的基础上更新时间指标可信度得分的计算公式为：
[0115][0116]
其中，
[0117]
t表示时间指标可信度得分，
[0118]
表示各时间区间对应的权重值。
[0119]
根据上式，同样可以有两种情况：
[0120]
在一实施例中，关联字段a在所列的上述4个指标类都没有记录，则默认归为其他类，时间指标可信度得分给一个默认值为0.1；
[0121]
在另一实施例中，业务字段a分别出现在铁路类1次、航空类3次、闸口类6次，最后出现时间是2021-05-01，对应时间区间的权重值为0.95，业务字段a时间指标可信度得分t＝(0.95
×
0.2 0.95
×
0.4 0.8
×
0.6)
×3×
0.95＝2.99。
[0122]
s4:计算每个可信度指标的可信度得分的初始系数，归一化处理后获得指标系数，初始系数为可信度得分的标准差与均值的比值。
[0123]
具体计算过程采用变异系数法，参照下表：
[0124][0125]
s41：根据s3可以计算出所有待评估关联可靠度的关联字段的资源指标可信度得分、频次指标可信度得分、时间指标可信度得分，然后计算各类指标得分的均值和标准差；
[0126]
s42：将标准差和均值相除可以得到未归一化的初始系数；
[0127]
s43：将初始系数进行归一化处理，得到归一化系数。
[0128]
在一实施例中，包括如下3个关联字段样例：
[0129]
手机号码身份证号铁路类/次航空类/次闸口类/次其他类/次最后出现时间135xxxx0105101xxxxx13612010-01-01186xxxx6515305xxxxx20402018-05-01152xxxx0101123xxxxx821002021-01-01
[0130]
则可以根据s4计算出3个关联字段的各类指标可信度得分，并得到下表：
[0131]
s5：根据指标系数，将可信度得分加权汇总计算得到关联字段的可信度。
[0132]
根据下式计算关联字段的可信度：
[0133]
r＝s
×
noci f
×
noci t
×
noci[0134]
其中，
[0135]
r表示关联字段的可信度，
[0136]
noci表示对应评估指标的指标系数。
[0137]
在上述实施例中，最终可得3个样例的关联可信度如下表：
[0138][0139]
另一实施例中，涉及多个汇总数据表，则进一步更新关联字段的可信度计算公式如下：
[0140]
rs＝1-(1-r1)*(1-r2)*
……
(1-rn)
[0141]
其中，
[0142]
rs表示关联字段的最终可信度，
[0143]
r1、r2、
……
、rn表示关联字段在多个汇总数据表的可信度。
[0144]
在另一实施例中，还包括：
[0145]
s6：对关联字段的可信度进行抽样，与真实数据交叉验证，优化后生成可信度最高的落地数据表。
[0146]
根据本技术的第二方面，本技术还包括一种基于关联可信度计算的数据筛选系统。图3为根据本实施例的基于关联可信度计算的数据筛选系统示意图，该系统包括：
[0147]
数据收集和清洗单元：收集数据资源，生成原始数据汇总表；清洗原始数据汇总表，生成汇总数据表；
[0148]
可信度计算单元：设计汇总数据表中关联字段可信度的评估指标，计算关联字段在每个指标下的可信度得分；采用变异系数法，计算关联字段在每个指标下的指标系数；计算关联字段的可信度；
[0149]
数据输出单元：生成可信度最高的数据落地表。
[0150]
根据本技术的第三方面，参考图4，其示出了适于用来实现本技术实施例的电子设备的计算机系统400的结构示意图。所电子设备仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
[0151]
如图4所示，计算机系统400包括中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 403中，还存储有系统400操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
[0152]
以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
[0153]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸
介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时，执行本技术的方法中限定的上述功能。需要说明的是，本技术的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0154]
可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0155]
附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0156]
描述于本技术实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。
[0157]
作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：收集数据资源，按照业务需求筛选所需业务字段生
成原始数据汇总表；基于预定数据清洗规则清洗原始数据汇总表，生成汇总数据表，其中，数据清洗规则包括业务字段值、格式和关联字段值的条件限定；基于预定数据清洗规则清洗原始数据汇总表，生成汇总数据表，其中，数据清洗规则包括业务字段值、格式和关联字段值的条件限定；定义汇总数据表中关联字段的可信度指标，计算关联字段在每个指标下的可信度得分；计算每个可信度指标的可信度得分的初始系数，归一化处理后获得指标系数，初始系数为可信度得分的标准差与均值的比值；根据指标系数，将可信度得分加权汇总计算得到关联字段的可信度；收集数据资源，按照业务需求筛选所需业务字段生成原始数据汇总表。
[0158]
尽管结合优选实施方案具体展示和介绍了本技术的内容，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本技术的精神和范围内，没有做出创造性劳动的情况下，在形式上和细节上对本技术做出的各种变化，均为本技术的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于数字人和实体的虚实融合方法及系统

一种基于关联可信度计算的数据筛选方法、系统和存储介质与流程

相关文献

最热文献