基于多源数据进行数据关联的方法与流程

2022-10-26 16:23:39 来源：中国专利 TAG：

1.本发明涉及数据处理领域，特别是涉及一种基于多源数据进行数据关联的方法。

背景技术：

2.在应用程序的开发完成后，用户可以在应用程序中对该应用程序中上架的若干位置的信息进行查看，位置可以设置为酒店。
3.目前对于每一目标位置，可以确定对应的目标位置标识，并根据目标位置标识，在不同的数据源中确定目标位置对应的数据信息，由于每个数据源对于对应的若干位置标识均有独立的编码规则，即目标位置标识与任一数据源中目标位置对应的位置标识并不相同，因此需要预先人工确定目标位置标识与每一数据源中的位置标识的对应关系表，以确定每一数据源中与目标位置标识关联的位置标识，进而通过与目标位置标识关联的位置标识，可以在每一数据源中确定目标位置标识关联的数据信息，即可以确定每一数据源中目标位置的数据信息，以更新应用程序中该目标位置的信息。
4.但是，对应用程序中的若干位置进行数据更新时，需要预先人工确定每一数据源中的若干位置标识与应用程序中的每一位置的对应关系，过程繁杂，使基于多源数据进行数据关联的效率较低。

技术实现要素：

5.针对上述技术问题，本发明采用的技术方案为：一种基于多源数据进行数据关联的方法，该方法包括：分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)；h
ij
=(m
ij
,note
ij
)；note
ij
=(note1
ij
,note2
ij
)；其中，i=1,2,3,...,n，n为候选数据源的数量，ai为第i个候选数据源对应的候选数据集；j=1,2,3,...,f(i)，f(i)为第i个候选数据源对应的位置的数量，h
ij
为第i个候选数据源对应的第j个位置的候选数据组；m
ij
为第i个候选数据源对应的第j个位置对应的位置标识，note
ij
为第i个候选数据源对应的第j个位置对应的子数据组，note1
ij
为第i个候选数据源对应的第j个位置对应的第一子数据，note2
ij
为第i个候选数据源对应的第j个位置对应的第二子数据，第一子数据和第二子数据分别用于表示对应的位置的不同属性信息；获取目标位置对应的目标位置标识gm、目标第一子数据gnote1和目标第二子数据gnote2；获取相似度集sim=(s1,s2,s3,...,sn)，si=(si1,si2,si3,...,si
f(i)
)；其中，si为第i个候选数据集对应的相似度组，sij为第i个候选数据源对应的第j个位置与目标位置对应的相似度；sij=α*prox(note1
ij
,gnote1) β*prox(note2
ij
,gnote2)；其中，α为第一权重系数，β为第二权重系数，prox()为相似度确定函数；对si进行如下处理：根据相似度由大至小的规则对si内的相似度进行排序，并在排序后获取si内前m
个相似度作为目标值，得到目标值组tari=(tar
i1
,tar
i2
,tar
i3
,...,tar
im
)，m≥2；其中，tar
ik
为tari中的第k个目标值，k=1,2,3,...,m，tar
i1
≥tar
i2
≥tar
i3
≥...≥tar
im
；根据第一关联规则确定与gm具有对应关系的位置标识，第一关联规则包括：若tar
i1
＞a1且(tar
i1-tar
i2
)＞a2，则将tar
i1
对应的位置标识与gm建立关联关系；其中，a1为第一阈值，a2为第二阈值；若a3＜tar
i1
≤a1且(tar
i1-tar
i2
)＞a4，则将tar
i1
对应的位置标识与gm建立关联关系；其中，a3为第三阈值，a4为第四阈值，a4＞a2。
6.本发明至少具有以下有益效果：可以基于sij=α*prox(note1
ij
,gnote1) β*prox(note2
ij
,gnote2)，得到每一候选数据源对应的每一位置与目标位置对应的相似度，并通过若干相似度和第一关联规则，可以确定每一候选数据源中与gm对应的位置标识，并将与gm对应的位置标识与gm建立关联关系，无需逐一人工确定每一候选数据源中与gm对应的位置标识，可以提高基于多源数据进行数据关联的效率。
附图说明
7.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
8.图1为本发明实施例提供的数据关联的流程图。
具体实施方式
9.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
10.本发明实施例提供了一种基于多源数据进行数据关联的方法，其中，该方法可以由以下任意一项或其任意组合完成：终端、服务器、其他具备处理能力的设备，本发明实施例对此不作限定。
11.本发明实施例以服务器为例，下面将参照图1所示的数据关联的流程图，对基于多源数据进行数据关联的方法进行介绍。
12.该方法包括以下步骤：步骤s100，分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)；h
ij
=(m
ij
,note
ij
)；note
ij
=(note1
ij
,note2
ij
)。
13.其中，i=1,2,3,...,n，n为候选数据源的数量，ai为第i个候选数据源对应的候选数据集；j=1,2,3,...,f(i)，f(i)为第i个候选数据源对应的位置的数量，h
ij
为第i个候选数据源对应的第j个位置的候选数据组；m
ij
为第i个候选数据源对应的第j个位置对应的位置标识，note
ij
为第i个候选数据源对应的第j个位置对应的子数据组，note1
ij
为第i个候选数据源对应的第j个位置对应的第一子数据，note2
ij
为第i个候选数据源对应的第j个位置对
应的第二子数据，第一子数据和第二子数据分别用于表示对应的位置的不同属性信息。
14.在一种可能的实施方式中，一个候选数据源可以设置为一个应用程序对应的数据源，不同的候选数据源对应的应用程序不同，每一候选数据源均与服务器连接，位置标识用于唯一标识对应的位置，位置标识可以设置为位置id（identity document，身份标识号码），位置可以设置为酒店；服务器可以从每一候选数据源中获取对应的候选数据集，得到a1、a2、a3、...、an-1和an。每一候选数据源具有对应的若干位置，若干候选数据源中的至少部分候选数据源对应的若干位置并不完全相同；例如，候选数据源a与位置a、位置b和位置c对应，候选数据源b与位置a、位置b和位置c对应，候选数据源c与位置a、位置d、位置e和位置f对应。
15.步骤s200，获取目标位置对应的目标位置标识gm、目标第一子数据gnote1和目标第二子数据gnote2。
16.在一种可能的实施方式中，目标位置为若干位置中的任一位置，服务器可以从本地数据库中获取目标位置对应的gm、gnote1和gnote2。
17.步骤s300，获取相似度集sim=(s1,s2,s3,...,sn)，si=(si1,si2,si3,...,si
f(i)
)。
18.其中，si为第i个候选数据集对应的相似度组，sij为第i个候选数据源对应的第j个位置与目标位置对应的相似度；sij=α*prox(note1
ij
,gnote1) β*prox(note2
ij
,gnote2)；其中，α为第一权重系数，β为第二权重系数，prox()为相似度确定函数。
19.在一种可能的实施方式中，服务器可以根据sij=α*prox(note1
ij
,gnote1) β*prox(note2
ij
,gnote2)，计算得到每一相似度，进而可以得到相似度集sim。
20.对si进行如下处理：步骤s400，根据相似度由大至小的规则对si内的相似度进行排序，并在排序后获取si内前m个相似度作为目标值，得到目标值组tari=(tar
i1
,tar
i2
,tar
i3
,...,tar
im
)，m≥2。
21.其中，tar
ik
为tari中的第k个目标值，k=1,2,3,...,m，tar
i1
≥tar
i2
≥tar
i3
≥...≥tar
im
。
22.在一种可能的实施方式中，对于每一相似度组si，服务器可以将si内的若干相似度根据相似度由大至小的规则进行排序，并将排序后的si内前m个相似度作为目标值，得到si对应的目标值组tari=(tar
i1
,tar
i2
,tar
i3
,...,tar
im
)，m≥2。
23.步骤s500，根据第一关联规则确定与gm具有对应关系的位置标识。
24.其中，上述第一关联规则包括：若tar
i1
＞a1且(tar
i1-tar
i2
)＞a2，则将tar
i1
对应的位置标识与gm建立关联关系；其中，a1为第一阈值，a2为第二阈值；若a3＜tar
i1
≤a1且(tar
i1-tar
i2
)＞a4，则将tar
i1
对应的位置标识与gm建立关联关系；其中，a3为第三阈值，a4为第四阈值，a4＞a2。
25.在一种可能的实施方式中，可以根据第一关联规则确定与gm具有对应关系的位置标识，具体的，若tar
i1
＞a1且(tar
i1-tar
i2
)＞a2，则说明tar
i1
对应的位置标识与gm为一级匹配的标识，即说明tar
i1
对应的位置标识与gm对应，并将tar
i1
对应的位置标识与gm建立关联关系；若a3＜tar
i1
≤a1且(tar
i1-tar
i2
)＞a4，则说明tar
i1
对应的位置标识与gm为二级匹配的标识，即说明tar
i1
对应的位置标识与gm对应，并将tar
i1
对应的位置标识与gm建立关联关系，其中，一级匹配的匹配程度比二级匹配的匹配程度高。优选的，a1=100，a2=30，a3=80，a4
=50。
26.因此，可以基于sij=α*prox(note1
ij
,gnote1) β*prox(note2
ij
,gnote2)，得到每一候选数据源对应的每一位置与目标位置对应的相似度，并通过若干相似度和第一关联规则，可以确定每一候选数据源中与gm对应的位置标识，并将与gm对应的位置标识与gm建立关联关系，无需逐一人工确定每一候选数据源中与gm对应的位置标识，可以提高基于多源数据进行数据关联的效率。
27.另外，第一关联规则不仅考虑到相似度的高低，还考虑了最高相似度与第二高的相似度之间的差值，从更多的维度确定tar
i1
对应的位置标识与gm是否为对应的标识，可以提高确定与gm对应的位置标识的准确度。
28.可选的，上述步骤s100还包括如下处理：分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)；h
ij
=(m
ij
,note
ij
)；note
ij
=(note1
ij
,note2
ij
,note3
ij
)。
29.其中，note3
ij
为第i个候选数据源对应的第j个位置对应的第三子数据，第一子数据、第二子数据和第三子数据分别用于表示对应的位置的不同属性信息；第三子数据为坐标数据。
30.基于此，该方法还包括如下处理：获取目标位置对应的目标第三子数据gnote3；gnote3为目标坐标数据；对si进行如下处理：若通过第一关联规则无法确定出与gm具有对应关系的位置标识，则根据第二关联规则确定与gm具有对应关系的位置标识；第二关联规则包括：获取间距值集d=(d
i1
,d
i2
,d
i3
,...,d
im
)，d
ik
=dist(note3
ik
,gnote3)；其中，d
ik
为tar
ik
对应的间距值，note3
ik
为tar
ik
对应的坐标数据，dist()为预设的距离确定函数；将d中小于第五阈值a5的间距值对应的位置标识与gm建立关联关系。
31.在一种可能的实施方式中，坐标数据可以设置为经纬度坐标数据，基于note
ij
=(note1
ij
,note2
ij
,note3
ij
)和服务器可以从本地数据库中获取目标位置对应的gnote3，服务器还可以对每一相似度组si均进行如下处理：若通过上述第一关联规则无法确定出与gm具有对应关系的位置标识，则可以根据第二关联规则确定出与gm具有对应关系的位置标识，根据d
ik
=dist(note3
ik
,gnote3)，可以得到间距值集d，d中小于第五阈值的间距值对应的位置标识即为与gm具有对应关系，可以将d中小于第五阈值的间距值对应的位置标识与gm建立关联关系。优选的，第五阈值可以设置为500米，m=5。
32.可选的，上述将d中小于第五阈值a5的间距值对应的位置标识与gm建立关联关系，包括如下处理：若d中小于第五阈值a5的间距值对应的位置标识有一个，则将d中小于第五阈值a5的间距值对应的位置标识与gm建立关联关系；若d中小于第五阈值a5的间距值对应的位置标识有多个，则将d中小于第五阈值a5的若干间距值中对应的目标值最大的间距值对应的位置标识与gm建立关联关系。
33.在一种可能的实施方式中，在得到间距值集d后，若d中小于第五阈值a5的间距值对应的位置标识有一个，则说明d中小于第五阈值a5的间距值对应的位置标识与gm为三级匹配的标识，即说明d中小于第五阈值a5的间距值对应的位置标识与gm对应，并将d中小于
第五阈值a5的间距值对应的位置标识与gm建立关联关系；若d中小于第五阈值a5的间距值对应的位置标识有多个，则说明d中小于第五阈值a5的若干间距值中对应的目标值最大的间距值对应的位置标识与gm为三级匹配的标识，即该对应的目标值最大的间距值对应的位置标识与gm对应，并将该对应的目标值最大的间距值对应的位置标识与gm建立关联关系。其中，二级匹配的匹配程度比三级匹配的匹配程度高。
34.因此，通过第一关联规则和第二关联规则，可以确定与gm对应的三个级别的位置标识，进而在扩大若干候选数据源中与gm具有对应关系的位置标识的数量的同时，还可以对与gm具有对应关系的若干位置标识按照与gm之间的匹配程度进行分级处理，以明确得到的与gm具有对应关系的每一位置标识的可信度。
35.进一步的，第一子数据为地址数据，gnote1为目标地址数据，第二子数据为名称数据，gnote2为目标名称数据，α＜β。优选的，α=0.6，β=0.4，在确定与gm具有对应关系的位置标识时，会更多的参考名称维度的特征，由于名称数据的准确度一般大于地址数据，因此可以提高确定与gm具有对应关系的位置标识的准确度。
36.可选的，分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)；h
ij
=(m
ij
,note
ij
)；note
ij
=(note1
ij
,note2
ij
,note3
ij
)，包括：分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)，i=1,2,3,...,n；h
ij
=(m
ij
,note
ij
,tag
ij
)，j=1,2,3,...,f(i)，note
ij
=(note1
ij
,note2
ij
,note3
ij
,note4
ij
,note5
ij
,note6
ij
)；其中，tag
ij
为第i个候选数据源相对其对应的第j个位置的数据源类型标识，tag
ij
=1时，表示数据源类型为最优数据源，tag
ij
=2时，表示数据源类型为次优数据源；每一位置对应的最优数据源中的数据的优先级大于对应的次优数据源中的数据的优先级；note4
ij
为第i个候选数据源对应的第j个位置对应的第四子数据，note5
ij
为第i个候选数据源对应的第j个位置对应的第五子数据，note6
ij
为第i个候选数据源对应的第j个位置对应的第六子数据；第一子数据、第二子数据、第三子数据、第四子数据、第五子数据和第六子数据分别用于表示对应的位置的不同属性信息；方法还包括：将与gm建立关联关系的每一位置标识对应的数据源类型标识均作为候选标识；确定若干候选标识中是否具有为1的候选标识；若具有为1的候选标识，则将为1的候选标识对应的子数据组与gm建立关联关系。
37.在一种可能的实施方式中，某一位置的最优数据源可以是该位置的直营平台对应的数据源，某一位置的次优数据源可以是该位置入驻的其他平台对应的数据源；将与gm建立关联关系的每一位置标识对应的数据源类型标识均作为候选标识，遍历若干候选标识，如果若干候选标识中具有为1的候选标识，则说明目标位置具有最优数据源，此时可以将为1的候选标识对应的子数据组与gm建立关联关系，以对目标位置对应的数据进行更新。
38.可选的，第四子数据为设施数据；设施数据包括若干设施信息组和/或第一类设施标识，每一设施信息组包括若干第二类设施标识；第一类设施标识用于表示对应的位置的设施的属性，第二类设施标识用于表示对应的位置具有的设施；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，则确定若干候选标识对应的设施数据中是否具有第一类设施标识；
若具有，则将具有第一类设施标识的设施数据均作为第一候选设施数据；确定每一第一候选设施数据对应的设施信息组的数量；将对应的设施信息组数量最大的每一第一候选设施数据均作为第二候选设施数据；确定每一第二候选设施数据对应的第二类设施标识的数量；将对应的第二类设施标识数量最大的第二候选设施数据作为目标设施数据；将目标设施数据与gm建立关联关系。
39.在一种可能的实施方式中，第一类设施标识可以设置为无窗、无空调或空调收费等标签的id，第二类设施标识可以设置为空调或窗户等设施的id；服务器中存储有配置文件，配置文件用于存储每一候选数据集对应的数据源标识；基于此，该方法还包括如下具体处理：确定每一候选数据集对应的数据总数量；数据总数量为对应的候选数据集的子数据组中的子数据的数量；将配置文件中的若干数据源标识按照对应的数据总数量由大至小的顺序进行排列。
40.如果若干候选标识中不具有为1的候选标识，则可以从若干候选标识对应的设施数据中确定出目标设施数据，具体处理如下：如果若干候选标识对应的设施数据中具有第一类设施标识，则服务器可以将若干候选标识对应的设施数据中具有第一类设施标识的每一设施数据均作为第一候选设施数据；如果若干候选标识对应的设施数据中不具有第一类设施标识，则服务器可以将每一候选标识对应的设施数据均作为第一候选设施数据；若第一候选设施数据为一个，则将第一候选设施数据设置为目标设施数据，若第一候选设施数据为多个，则将对应的设施信息组数量最大的第一候选设施数据作为第二候选设施数据；若第二候选设施数据为一个，则将第二候选设施数据作为目标设施数据，若第二候选设施数据为多个，则确定对应的第二类设施标识数量最大的第二候选设施数据的数量；若对应的第二类设施标识数量最大的第二候选设施数据为一个，则将对应的第二类设施标识数量最大的第二候选设施数据作为目标设施数据，若对应的第二类设施标识数量最大的第二候选设施数据为多个，则将对应的第二类设施标识数量最大的每一第二候选设施数据对应的数据源标识均作为第一标识，并在顺序排列后的配置文件中确定与每一第一标识相同的数据源标识，将相同的数据源标识在配置文件中排列最前的第一标识对应的第二候选设施数据作为目标设施数据，得到目标设施数据后，将所该目标设施数据与gm建立关联关系。
41.可选的，第五子数据为标签数据，标签数据包括若干标签组，每一标签组包括若干标签；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，则将每一候选标识对应的标签数据均作为第一候选标签数据；确定每一第一候选标签数据对应的标签组的数量；将对应的标签组数量最大的每一第一候选标签数据均作为第二候选标签数据；确定每一第二候选标签数据对应的标签的数量；将对应的标签数量最大的第二候选标签数据作为目标标签数据；将目标标签数据与gm建立关联关系。
42.在一种可能的实施方式中，标签可以设置为网红酒店或经济适用酒店等标签；如果若干候选标识中不具有为1的候选标识，则可从若干候选标识对应的标签数据中确定出目标标签数据，具体处理如下：服务器可以将每一候选标识对应的标签数据均作为第一候选标签数据；若第一候选标签数据为一个，则将第一候选标签数据设置为目标标签数据，若第一候选标签数据为多个，则将对应的标签组数量最大的第一候选标签数据作为第二候选标签数据；若第二候选标签数据为一个，则将第二候选标签数据作为目标标签数据，若第二候选标签数据为多个，则确定对应的标签数量最大的第二候选标签数据的数量；若对应的标签数量最大的第二候选标签数据为一个，则将对应的标签数量最大的第二候选标签数据作为目标标签数据，若对应的标签数量最大的第二候选标签数据为多个，则对应的标签数量最大的每一第二候选标签数据对应的数据源标识均作为第二标识，并在顺序排列后的配置文件中确定与每一第二标识相同的数据源标识，将相同的数据源标识在配置文件中排列最前的第二标识对应的第二候选标签数据作为目标标签数据，得到目标标签数据后，将该目标标签数据与gm建立关联关系。
43.可选的，第六子数据为图像数据；图像数据包括若干图像信息组，每一图像信息组包括若干图像；同一图像数据中的若干图像的分辨率相同；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，则将每一候选标识对应的图像数据均作为第一候选图像数据；将对应的若干图像中不具有目标图像元素的每一第一候选图像数据均作为第二候选图像数据；将对应图像的分辨率最高的每一第二候选图像数据均作为第三候选图像数据；确定每一第三候选图像数据对应的图像信息组的数量；将对应图像信息组的数量最大的第三候选图像数据作为目标图像数据；将目标图像数据与gm建立关联关系。
44.在一种可能的实施方式中，目标图像元素可以设置为水印；如果若干候选标识中不具有为1的候选标识，则可从若干候选标识对应的图像数据中确定出目标图像数据，具体处理如下：服务器可以将每一候选标识对应的图像数据均作为第一候选图像数据；若第一候选图像数据为一个，则将第一候选图像数据设置为目标图像数据，若第一候选图像数据为多个，则将对应的若干图像中不具有目标图像元素的每一第一候选图像数据均作为第二候选图像数据；若第二候选图像数据为一个，则将第二候选图像数据作为目标图像数据，若第二候选图像数据为多个，则将对应图像的分辨率最高的第二候选图像数据作为第三候选图像数据；若第三候选图像数据为一个，则将第三候选图像数据作为目标图像数据，若第三候选图像数据为多个，则确定对应图像信息组的数量最大的第三候选图像数据，若对应图像信息组的数量最大的第三候选图像数据为一个，则将对应图像信息组的数量最大的第三候选图像数据作为目标图像数据，若对应图像信息组的数量最大的第三候选图像数据为多个，则将对应图像信息组的数量最大的每一第三候选图像数据对应的数据源标识均作为第三标识，并在顺序排列后的配置文件中确定与每一第三标识相同的数据源标识，将相同的
数据源标识在配置文件中排列最前的第三标识对应的第三候选图像数据作为目标图像数据，得到目标图像数据后，将该目标图像数据与gm建立关联关系。
45.可选的，第一子数据为地址数据，gnote1为目标地址数据；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，则将每一候选标识对应的地址数据均作为第一候选地址数据；将具有符合预设的字符串表达式的字符串的每一第一候选地址数据均作为第二候选地址数据；确定每一第二候选地址数据的字符数量；将目标地址数据更新为对应的字符数量最大的第二候选地址数据。
46.在一种可能的实施方式中，符合预设的字符串表达式的字符串可以为符合门牌号表达式的门牌号字符串；如果若干候选标识中不具有为1的候选标识，则可以基于若干候选标识对应的地址数据更新目标地址数据，具体处理如下：将每一候选标识对应的地址数据均作为第一候选地址数据：如果若干第一候选地址数据中具有门牌号字符串，则服务器可以将具有门牌号字符串的每一第一候选地址数据均作为第二候选地址数据，如果若干第一候选地址数据中不具有门牌号字符串，则服务器可以将每一第一候选地址数据均作为第二候选地址数据；若第二候选地址数据为一个，则可以将目标地址数据更新为第二候选地址数据，若第二候选地址数据为多个，则可以确定对应的字符数量最大的第二候选地址数据的数量；若对应的字符数量最大的第二候选地址数据为一个，则可以将目标地址数据更新为对应的字符数量最大的第二候选地址数据，若对应的字符数量最大的第二候选地址数据为多个，则将对应的字符数量最大的每一第二候选地址数据对应的数据源标识均作为第四标识，并在顺序排列后的配置文件中确定与每一第四标识相同的数据源标识，将目标地址数据更新为相同的数据源标识在配置文件中排列最前的第四标识对应的第二候选地址数据。
47.可选的，上述note
ij
还可以满足如下条件：note
ij
=(note1
ij
,note2
ij
,note3
ij
,note4
ij
,note5
ij
,note6
ij
,note7
ij
)；其中，note7
ij
为第i个候选数据源对应的第j个位置对应的第七子数据；第一子数据、第二子数据、第三子数据、第四子数据、第五子数据、第六子数据和第七子数据分别用于表示对应的位置的不同属性信息；第七子数据为摘要数据；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，则将每一候选标识对应的摘要数据均作为第一候选摘要数据；将若干第一候选摘要数据中具有目标标识的每一第一候选摘要数据作为第二候选摘要数据；目标标识为图像数据的格式标识；将若干第二候选摘要数据中对应的数据长度最大的第二候选摘要数据作为目标摘要数据；将目标摘要数据与gm建立关联关系。
48.在一种可能的实施方式中，摘要数据可以设置为对应的酒店的酒店介绍，目标标识可以设置为图片的文件扩展名，例如.bmp或.jpg等；如果若干候选标识中不具有为1的候
选标识，则可以从若干候选标识对应的摘要数据中确定目标摘要数据，具体处理如下：将每一候选标识对应的摘要数据均作为第一候选摘要数据，如果若干第一候选摘要数据中具有目标标识，则服务器可以将若干第一候选摘要数据中具有目标标识的第一候选摘要数据作为第二候选摘要数据；如果若干第一候选摘要数据中不具有目标标识，则服务器可以将每一第一候选摘要数据均作为第二候选摘要数据；若第二候选摘要数据为一个，则可以将第二候选摘要数据作为目标摘要数据，若第二候选摘要数据为多个，则可以确定若干第二候选摘要数据中对应的数据长度最大的第二候选摘要数据的数量；若该数量为一个，则可以将若干第二候选摘要数据中对应的数据长度最大的第二候选摘要数据作为目标摘要数据，若该数量为多个，则可以将若干第二候选摘要数据中对应的数据长度最大的每一第二候选摘要数据对应的数据源标识均作为第五标识，并在顺序排列后的配置文件中确定与每一第五标识相同的数据源标识，将相同的数据源标识在配置文件中排列最前的第五标识对应的第二候选摘要数据作为目标摘要数据，得到目标摘要数据后，将该目标摘要数据与gm建立关联关系；其中，摘要数据可以包括图像数据和文字数据，第二候选摘要数据对应的数据长度可以为第二候选摘要数据的文字数据的字符数量。
49.在另一种可能的实施方式中，如果若干第二候选摘要数据中对应的数据长度最大的第二候选摘要数据为多个，则将若干第二候选摘要数据中对应的数据长度最大的多个第二候选摘要数据作为第三候选摘要数据，确定每一第三候选摘要数据对应的目标标识的数量，将对应的目标标识的数量最大的第三候选摘要数据作为目标摘要数据。
50.可选的，上述分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(h
i1
,h
i2
,h
i3
,...,h
if(i)
)，可以包括如下处理：分别从每一候选数据源获取对应的候选数据集a1,a2,a3,...,an；ai=(pi,h
i1
,h
i2
,h
i3
,...,h
if(i)
)；其中，pi为第i个候选数据源的数据源标识；基于此，该方法还包括：如果若干候选标识中不具有为1的候选标识，将目标设施数据对应的数据源标识、目标标签数据对应的数据源标识、目标图像数据对应的数据源标识和更新后的目标地址数据对应的数据源标识均作为候选数据源标识；对若干候选数据源标识进行聚类，得到若干标识类组；其中，属于同一标识类组的候选数据源标识相同，属于不同标识类组的候选数据源标识不同；将对应候选数据源标识的数量最大的标识类组中的任一候选数据源标识作为目标数据源标识；将gnote2更新为目标数据源标识对应的候选标识对应的第二子数据；将gnote3更新为目标数据源标识对应的候选标识对应的第三子数据。
51.在一种可能的实施方式中，坐标数据和名称数据相对于地址数据、设施数据、标签数据、图像数据和摘要数据，为重要程度较低的数据，基于此：如果若干候选标识中不具有为1的候选标识，将目标设施数据对应的数据源标识、目标标签数据对应的数据源标识、目标图像数据对应的数据源标识、更新后的目标地址数据对应的数据源标识和目标摘要数据对应的数据源标识均作为候选数据源标识；对若干候选数据源标识进行聚类，得到若干标识类组；其中，聚类规则为属于同一标识类组的候选数据源标识相同，属于不同标识类组的候选数据源标识不同；若对应候选数据源标识的数量最大的标识类组为一个，则将对应候
选数据源标识的数量最大的标识类组中的任一候选数据源标识作为目标数据源标识，若对应候选数据源标识的数量最大的标识类组为多个，则将候选数据源标识的数量最大的每一标识类组中的任一候选数据源标识作为第六标识，并在顺序排列后的配置文件中确定与每一第六标识相同的数据源标识，将相同的数据源标识在配置文件中排列最前的第六标识作为目标数据源标识；将gnote2更新为目标数据源标识对应的候选标识对应的第二子数据；将gnote3更新为目标数据源标识对应的候选标识对应的第三子数据。子数据还可以包括其他与坐标数据和名称数据重要程度相同的数据，例如，酒店对应的疫情政策或星级也为重要程度较低数据，可以将目标数据源标识对应的候选标识对应的重要程度较低的数据与gm建立关联关系。
52.可选的，上述若具有为1的候选标识，则将为1的候选标识对应的子数据组与gm建立关联关系，可以包括如下处理：若具有为1的候选标识，则将为1的候选标识对应的子数据组与gm建立关联关系；确定为1的候选标识对应的子数据组中的地址数据、设施数据、标签数据、图像数据或摘要数据是否缺失；若为1的候选标识对应的子数据组中的地址数据缺失，则可以基于若干为2的候选标识对应的地址数据更新目标地址数据，该处理的具体处理过程与本发明实施例上述已公开的，基于若干候选标识对应的地址数据更新目标地址数据的具体处理过程同理，在此不再赘述。
53.若为1的候选标识对应的子数据组中的设施数据缺失，则可以从若干为2的候选标识对应的设施数据确定出目标设施数据，该处理的具体处理过程与本发明实施例上述已公开的，从若干候选标识对应的设施数据中确定出目标设施数据的具体处理过程同理，在此不再赘述；得到目标设施数据后，将目标设施数据与gm建立关联关系。
54.若为1的候选标识对应的子数据组中的标签数据缺失，则可以从若干为2的候选标识对应的标签数据确定出目标标签数据，该处理的具体处理过程与本发明实施例上述已公开的，从若干候选标识对应的标签数据中确定出目标标签数据的具体处理过程同理，在此不再赘述；得到目标标签数据后，将目标标签数据与gm建立关联关系。
55.若为1的候选标识对应的子数据组中的图像数据缺失，则可以从若干为2的候选标识对应的图像数据确定出目标图像数据，该处理的具体处理过程与本发明实施例上述已公开的，从若干候选标识对应的图像数据中确定出目标图像数据的具体处理过程同理，在此不再赘述；得到目标图像数据后，将目标图像数据与gm建立关联关系。
56.若为1的候选标识对应的子数据组中的摘要数据缺失，则可以从若干为2的候选标识对应的摘要数据确定出目标摘要数据，该处理的具体处理过程与本发明实施例上述已公开的，从若干候选标识对应的摘要数据中确定出目标摘要数据的具体处理过程同理，在此不再赘述；得到目标摘要数据后，将目标摘要数据与gm建立关联关系。
57.虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明公开的范围由所附权利要求来限定。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种多能源配电网光伏功率预测方法与流程

基于多源数据进行数据关联的方法与流程

相关文献

最热文献