工厂地址验证方法、装置及电子设备与流程

2022-03-14 00:28:36 来源：中国专利 TAG：

1.本技术涉及信息处理技术领域，特别是涉及工厂地址验证方法、装置及电子设备。

背景技术：

2.在b2b(business-to-business，企业对企业)模式的电子商务系统中，其卖方用户包括工厂，具体的工厂通过注册成为系统中的高级会员，可以优先查看系统中的买家发布的求购信息以及联系方式等信息，使得卖方有机会优先获得更多订单。
3.为了使得更多的工厂注册成为高级会员，系统中的工作人员可以采用到工厂实地拜访的方式(通常可以称为“地推”方式)来进行。这就需要建立工厂地址信息库，以便为工作人员提供工厂的地址信息，工作人员能够根据具体工厂的地址信息完成拜访工作。
4.通常，在已知工厂名的情况下，可以通过查询工商管理信息等，获取到工厂的注册地址信息。但是，实际情况是，注册地址与实际经营地址往往不一致，因此，仅通过注册地址往往无法完成对工厂的探访，需要收集更多真实有效的工厂地址信息。
5.在实际应用中，可以通过其他多种数据源获取工厂的地址信息，但是，除了注册地址信息之外的其他数据源对工厂的覆盖度往往不够。例如，一些数字地图信息系统中可能会收录一些工厂的poi(point of interest，兴趣点)地址信息，使得可以通过在系统中输入工厂名，或者以工厂名为参数调用系统提供的api(application programming interface，应用程序接口)等方式，获得工厂的地址信息。由于具体的poi服务通常是需要付费使用的，因此，该数据源提供的poi地址的准确度往往比较高，但是，同样是由于需要工厂付费的情况下，地图信息系统才会提供具体的poi地址信息，因此，存在对工厂覆盖度不高的问题。例如，假设一共有一千万家工厂，地图信息系统能够提供poi地址的工厂可能只有其中的几十万家，等等。
6.除了地图信息系统的poi地址之外，也还可以有其他一些数据源，例如，一些产业园区可能会提供园区内的工厂名称以及地址信息，等等。但是，由于这些数据源提供的信息并不强制要求信息更新，因此，这些数据源提供的地址信息除了存在前述覆盖度不高的缺点，还可能存在更新不及时的情况。也即，如果工厂发生搬迁等情况，而数据源提供的信息没有及时更新，则该数据源提供的地址信息也会存在不准确的情况，等等。
7.因此，如何获取关于工厂的真实有效的地址信息，成为需要本领域技术人员解决的技术问题。

技术实现要素：

8.本技术提供了工厂地址验证方法、装置及电子设备，有利于为更多工厂获得更准确的地址信息。
9.本技术提供了如下方案：
10.一种工厂地址验证方法，包括：
11.确定待进行地址验证的多个工厂，通过第一数据源确定所述多个工厂分别对应的
第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集；
12.针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址；
13.利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增；
14.基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
15.其中，所述确定与第二数据源所提供的地址等效的第一地址，包括：
16.针对其中一第二数据源，从所述多个工厂中，将所述第二数据源所能提供第二地址的部分工厂的第一地址，确定为该第二数据源的样本数据，并确定同一工厂的第一地址与第二地址之间的距离，如果所述距离小于第一目标阈值，则将对应工厂的第一地址确定为正样本，否则为负样本；
17.根据所述多个工厂对应的第一地址两两之间的距离，将第一地址密集分布的区域内的各个第一地址确定为聚簇；
18.通过对得到的多个聚簇内的第一地址分别进行分析，筛选出目标聚簇，并将所述目标聚簇中的各个第一地址，确定为与所述第二数据源所提供的第二地址等效的第一地址。
19.其中，所述根据所述多个工厂对应的第一地址两两之间的距离，将第一地址密集分布的区域内的各个第一地址确定为聚簇，包括：
20.在同一目标区划范围内，将所述多个工厂对应的第一地址两两之间的距离，并将所述同一目标区划范围内，第一地址密集分布的区域内的各个第一地址确定为聚簇。
21.其中，所述在同一目标区划范围内，将所述多个工厂对应的第一地址两两之间的距离，包括：
22.将所述目标区划范围在球面上的边界映射成平面上的边界，并通过局部欧式坐标近似计算多个工厂对应的第一地址两两之间的距离。
23.其中，所述对得到的多个聚簇内的第一地址分别进行分析，包括：
24.对于其中一聚簇，根据所述聚簇中包括的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量，对所述聚簇中包含的所述等效的第一地址的数量进行预测，如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值，则确定为所述目标聚簇。
25.其中，所述对所述聚簇中包含的所述等效的第一地址的数量进行预测，包括：
26.基于超几何分布的置信度估计算法，生成以聚簇中包含的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量为已知参数，所述聚簇中包含的所述等效的第一地址的数量为未知参数的函数，并基于置信区间的方法，对所述等效的第一地址的数量进行预测。
27.其中，所述第二数据源包括地图信息系统提供的兴趣点poi地址数据源，所述第二地址包括poi地址；
28.所述与第二数据源所提供的第二地址等效的第一地址包括：
29.与所述poi地址具有同等置信度的第一地址；
30.如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈
值，则确定所述聚簇对应的区域为工业园区，并将所述聚簇确定为所述目标聚簇，将所述目标聚簇中的各个第一地址，确定为与所述poi地址数据源所提供的poi地址等效的第一地址。
31.其中，所述基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，包括：
32.构造进行多数据源融合的算法模型，以用于根据多个数据源为同一工厂提供的地址和/或扩增的地址，对工厂的真实地址进行预测，并根据数据源为某工厂提供的地址与该工厂对应的真实地址预测结果之间的距离，确定所述数据源为该工厂所提供的地址的置信度。
33.其中，所述算法模型中包括用于刻画各数据源所提供地址的可靠性的概率参数；
34.所述对工厂的真实地址进行预测，包括：
35.对所述算法模型进行多轮迭代，并在每次迭代的过程中对所述概率参数进行更新；
36.在所述算法收敛后，将对应的算法模型输出结果，确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
37.一种工厂地址验证装置，包括：
38.地址收集单元，用于确定待进行地址验证的多个工厂，通过第一数据源确定所述多个工厂分别对应的第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集；
39.等效地址确定单元，用于针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址；
40.地址扩增单元，用于利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增；
41.多数据源融合单元，用于基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
42.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。
43.一种电子设备，包括：
44.一个或多个处理器；以及
45.与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。
46.根据本技术提供的具体实施例，本技术公开了以下技术效果：
47.通过本技术实施例，对于需要进行地址验证的工厂，可以从多种数据源为具体的工厂进行地址信息收集，其中包括通过第一数据源确定多个工厂分别对应的第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集。之后，可以针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址，并利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增。之后，可以基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。通过这种方式，可以在挖掘出不同数据源之间的潜在联系，使得覆盖度比较高的第一数据源提供的第
一地址，为第二数据源提供的第二地址进行扩增，从而提升第二数据源对工厂的覆盖度。在此基础上进行多数据源融合的处理时，有利于为更多工厂获得更准确的地址信息。
48.当然，实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
49.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1是本技术实施例提供的系统架构的示意图；
51.图2是本技术实施例提供的方法的流程图；
52.图3是本技术实施例提供的基于置信区间的示意图；
53.图4是本技术实施例提供的装置的示意图；
54.图5是本技术实施例提供的电子设备的示意图。
具体实施方式
55.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本技术保护的范围。
56.在本技术实施例中，由于可以通过多种数据源获取工厂的地址信息，因此，可以考虑通过将多数据源提供的地址进行融合的方式，来对具体地址的真实性进行验证，进而可以从多个数据源为同一工厂提供的多个地址中，选择出其中一个可以作为真实地址的地址。
57.但是，在进行数据融合的前提是，对于同一工厂而言，存在多个数据源为其提供地址信息，否则如果只有一个数据源为一个工厂提供地址信息，例如，只能查询到某工厂的注册地址，其他数据源均不能为该工厂提供地址信息，则多数据源融合也就无从谈起。而除了提供注册地址的数据源之外，其他的数据源在对工厂地址的覆盖度方面都或多或少存在一些覆盖度比较低的情况，这就导致，如果直接利用各个数据源的地址收集结果进行多数据源融合，则预测结果对工厂的覆盖度也会比较低，难以在已进行地址验证的工厂数量以及准确率等方面达到预设目标。
58.针对上述情况，在本技术实施例中，首先可以挖掘出不同数据源所提供的地址之间的潜在联系，发现与具体某个数据源等效的地址(例如，与某个数据源提供的地址的有效性程度相同或相当，等等)，并利用这些地址实现对数据源所提供的地址的扩增，也即，增大单个数据源对工厂地址的覆盖度，然后再基于各个数据源扩增后的结果，进行多数据源的融合，以此实现具体预测结果对工厂的覆盖度。
59.其中，关于不同数据源所提供的地址之间的潜在联系，主要是指工厂的注册地址与其他数据源提供的地址之间的潜在联系，由于具体工厂的注册地址的覆盖度往往是最高的，甚至可以达到100％，因此，可以利用这种注册地址为其他数据源(为了便于区分，本申
请实施例中，将提供注册地址的数据源称为第一数据源，其他数据源为第二数据源)提供的地址进行扩增。也就是说，通过这种方式，假设某数据源没能为某工厂提供地址，但是，通过挖掘注册地址与该数据源提供的地址之间的潜在关系，可以发现该工厂的注册地址与该数据源提供的地址是等效的，则可以将该工厂的注册地址看作是该数据源提供的地址，实现对该数据源提供的地址的扩增。例如，地图信息系统提供的poi地址数据源，其提供的poi地址通常可以认为是有效的地址，但是，poi地址只能覆盖到部分工厂，而如果通过分析发现，虽然poi地址数据源中不能为某工厂提供poi地址，但是，该工厂的注册地址属于有效地址的概率也比较高，则此时也可以将该工厂的注册地址视为poi地址，将其加入到poi地址数据源提供的地址中，以此增加有效地址的数量，之后再进行多数据源融合，等等。
60.具体实现时，针对具体需要扩增的第二数据源，为了确定出哪些注册地址能够成为该第二数据源提供地址的等效地址，可以有多种方式。例如，在本技术实施例中，首先可以确定出该第二数据源能够提供地址的工厂，将这部分工厂的注册地址，作为该第二数据源的样本数据。然后，还可以根据某工厂的注册地址与该第二数据源为该工厂提供的地址之间的距离，确定出部分正样本以及部分负样本。
61.另外，还可以针对全部工厂，进行注册地址之间的两两距离计算，然后可以根据工厂注册地址的密集程度进行聚簇，例如，可以将注册地址密集分布的区域内的各个注册地址确定为聚簇。也就是说，在实际应用中，很多工厂可能会具有在某工业园区等区域内聚集分布的特点，因此，如果首先可以确定出聚集分布的工厂注册地址，将其组成为聚簇。之后，再对聚簇进行分析，判断其是否为工业园区，如果是，则聚簇内的工厂的注册地址全部属于有效地址的概率会比较高，进而就可以作为同样能够提供较高有效地址的数据源的等效地址，以实现对该数据源所提供地址的扩增。
62.具体的，在对聚簇进行分析时，还可以根据聚簇中包括的工厂的数量，其中属于样本数据的注册地址的数量，以及其中正样本的数量，对所述聚簇中包含的所述等效的注册地址的数量进行预测，如果所述聚簇中包含的所述等效的注册地址的数量所占的比例超过某阈值，则确定为所述目标聚簇，并将该目标聚簇中的注册地址全部视为与该数据源提供的地址等效的地址。
63.在完成对具体第二数据源所提供地址的扩增之后，可以进行多数据源的融合处理，其中，可以构造进行多数据源融合的算法模型(例如，基于距离敏感极大似然估计的概率模型)，以用于根据多个数据源为同一工厂提供的地址和/或扩增的地址，对工厂的真实地址(这里是指真实地址的经纬度)进行预测，并根据具体数据源为某工厂提供的地址与该工厂对应的真实地址预测结果之间的距离，确定该数据源为该工厂所提供的地址的置信度。也即，算法模型的输入可以是各个数据源对应的扩增之后的结果，输出则可以是各个数据源提供的各个地址的置信度。进而，可以将多个数据源为同一工厂提供或扩增的地址对应的置信度，从中选取出能够代表工厂真实地址的一个，等等。
64.其中，在具体进行多数据融合的过程中，还可以在算法模型中引入具体的概率参数，该概率参数可以用来从整体上刻画具体数据源所提供的地址的可靠性。在进行融合的过程中，可以进行多轮迭代，每一轮的迭代中，都可以对具体的概率参数进行更新，使其能够更真实地刻画对应数据源所提供地址的可靠性。在算法收敛后，即可将算法的输出结果确定为各个数据源分别提供或扩增的各个地址作为对应工厂的真实地址的置信度。
65.从系统架构角度而言，参见图1，本技术实施例可以用于对工厂进行地址验证的工具，工具中可以分为两个模块，其中一个模块用于从注册地址中，为第二数据源确定可以用来进行扩增的地址，也即，与第二数据源提供的地址等效的注册地址；第二个模块则可以用来基于扩增后的情况，进行多数据源融合，以确定出各个数据源分别提供或扩增出的地址属于对应工厂的真实地址的置信度。其中，在进行融合的过程中，可以考虑各数据源在整体上的可靠性因素，以获得更准确的融合结果。具体的工厂地址验证结果可以保存在工厂数据库中，这样，可以基于该数据库为“地推”工作人员提供工厂地址信息，以便于“地推”工作人员对具体的工厂进行实地探访等工作。
66.下面对本技术实施例提供的具体实现方案进行详细介绍。
67.首先，本技术实施例提供了一种工厂地址验证方法，参见图2，该方法具体可以包括：
68.s201：确定待进行地址验证的多个工厂，通过第一数据源确定所述多个工厂分别对应的第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集。
69.具体实现时，首先可以获取到多个工厂的名称等信息，然后，可以对这些工厂进行地址信息收集。具体的，首先可以收集到各个工厂的注册地址，所谓注册地址就是指公司的营业执照上登记的地址，当然，在实际应用中，该“注册地址”可能也具有其他的名称，因此，在本技术实施例中，可以称为第一地址。这种第一地址的特点在于，只要已知工厂的名称信息，并通过工商局等部门提供的网站等第一数据源进行查询，基本都可以查询到对应的注册地址，也即，这种第一数据源对工厂的覆盖度比较高。当然，如背景技术部分所述，由于很多工厂的注册地址与实际经营地址可能不一致，因此，仅获取到工厂的第一地址是不够的，还需要从其他的数据源获取更多的地址信息。
70.其中，其他数据源可以有多种，例如，可以包括地图信息系统提供的poi地址数据源，或者，工厂税务信息数据源，或者，相关电子商务系统中提供的商家地址数据源，或者，工业园区提供的工厂地址数据源(例如，某工业园区可能会公布园区内的工厂入驻情况等)，或者，“地推”作业人员已经收集到的地址数据源，等等。
71.这里需要说明的是，各种第二数据源对工厂的覆盖度可能都比较低，也就是说，假设第二数据源为上述5种，但是，对于同一工厂而言，可能只有其中部分数据源能够为该工厂提供地址信息。例如，如果某工厂没有在地图信息系统中购买poi服务，则地图信息系统的poi数据源无法为该工厂提供地址信息，等等。因此，具体对第二地址进行收集的过程，是根据具体第二数据源所能够提供的第二地址的情况进行收集，也即，对于某个具体的工厂而言，如果某数据源能够提供该工厂的地址信息，则可以作为第二地址进行收集，否则，该数据源为该工厂提供的地址信息为空，可以继续从其他第二数据源为该工厂收集地址信息，等等。
72.s202：针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址。
73.在针对一个工厂集合，完成从各种数据源的地址收集之后，在本技术实施例中，首先可以对第二数据源进行地址扩增。其中，由于第二数据源可以有多种，因此，可以对其中的全部第二数据源分别进行地址扩增，或者，也可以仅对其中的部分数据源进行地址扩增。例如，对于后者，由于地图信息系统提供的poi地址数据源的有效性往往比较高，也即，poi
地址属于工厂真实地址的概率比较高，因此，可以针对这种poi地址数据源进行地址扩增，以提升后续参与多数据源融合计算的有效地址的数量，等等。
74.其中，具体在对第二数据源进行地址扩增时，可以分别针对具体的第二数据源执行具体的扩增过程。例如，针对其中一第二数据源，首先可以从多个工厂(也即，原始的工厂总量)中，为该第二数据源选择样本数据，并且可以从中确定正样本以及负样本。具体的，在一种实现方式下，可以将所述第二数据源所能提供第二地址的部分工厂的第一地址，确定为该第二数据源的样本数据。也就是说，假设待进行地址验证的工厂总数是m1个，某第二数据源能够为其中的m2个工厂提供第二地址，则这m2个工厂就可以作为该第二数据源的样本数据。之后，可以计算出同一工厂的第一地址与第二地址之间的距离，如果所述距离小于第一目标阈值，则将对应工厂的第一地址确定为正样本，否则为负样本。
75.也就是说，首先可以利用相关地图信息系统等提供的api，将第一地址以及第二地址的文本地址转换为经纬度，然后计算各个工厂的第一地址与第二地址之间的距离，若第一地址与第二地址之间的距离小于1km(或者其他阈值)，则可以将这部分工厂的第一地址确定为当前第二数据源的正样本。
76.其中，具体在计算工厂的第一地址与第二地址之间的距离时，可以通过以下方式进行：给定两个地点的经纬度(j1，w1)，(j2，w2)，把角度转换成弧度后，可以通过球面距离公式得到两地之间的距离d：
[0077][0078][0079]
其中，r为地球半径。
[0080]
另外，如前文所述，由于具体的工厂可能具有在工业园区内聚集分布的特点，因此，还可以根据具体需要进行地址验证的全量工厂，进行聚簇处理，然后再通过对具体的聚簇结果进行分析，判断是否满足工业园区的条件，如果是，则其中包含的工厂的注册地址可能会都具有较高的有效性。
[0081]
另外，在进行聚簇时，可以分别计算多个工厂对应的第一地址两两之间的距离，然后，可以将第一地址密集分布的区域内的各个第一地址确定为聚簇。其中，在多个第一地址之间进行两两距离计算时，需要计算的数据量会比较大，因此，在具体实现时，可以通过多种方式降低计算量。
[0082]
例如，一方面，由于具体的工业园区通常具有位于某个目标区划范围内的特点，也即，如果某两个工厂位于同一个工业园区，则两者通常也是位于同一目标区划范围内，否则，如果两个工厂已经属于不同的目标区划范围，则两者通常也不属于同一工业园区。因此，在进行聚簇时，还可以首先按照各个工厂的第一地址所在的目标区划范围，将第一地址分成多组，然后在每个组内进行第一地址的两两距离计算。这样，可以减少第一地址的两两组合数量，降低两两计算距离的工作量。
[0083]
另外，在具体对第一地址进行两两距离计算时，除了可以直接基于不同工厂的第一地址之间的经纬度进行球面距离计算，还可以采用局部欧式坐标近似的方法计算两两地点之间的距离，以此降低计算量。具体的，同样基于具体的聚类算法在某单位的目标区划范围内运行，因此，可以将一个目标区划范围在球面上的边界映射成平面上的边界，例如，可
以是一个平面的梯形，然后，再将范围内的第一地址的球面经纬度映射到该梯形边界内，基于平面梯形内的平面坐标，进行两两地点之间的距离计算。通过计算验证，这种方法映射后得到的欧式距离与球面距离的误差在1％内。
[0084]
在计算出多个第一地址两两之间的距离之后，可以基于dbscan((density-based spatial clustering of applications with noise，基于密度的聚类算法)等方法对第一地址进行聚类。与划分和层次聚类方法不同，dbscan可以将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。具体的，给定距离函数dist，距离参数d，和核心最小样本数min_pts，该方法寻找到的类簇可以满足三个条件：
[0085]
对于每类簇c中的每一个点p，均存在点q∈c使得dist(p，q)≤d；
[0086]
对于任意两个类簇c，c
′
，min
(p，q)
∈c
×c′
dist(p，q)＞d；
[0087]
每个类簇c的大小满足|c|＞min_pts。
[0088]
也就是说，通过上述条件的设定，可以保证簇的密度比较高，也即簇里面的每个点，都能找到一个点，使得让两者之间的距离小于d，并且，不同的簇之间不存在交集，单个簇中包含的点数不能太小(否则可能不符合工业园区的实际情况)。
[0089]
在通过聚类的方式得到多个簇之后，可以通过对得到的多个聚簇内的第一地址分别进行分析，筛选出目标聚簇，并将所述目标聚簇中的各个第一地址，确定为与所述第二数据源所提供的第二地址等效的第一地址。
[0090]
其中，具体在对各个聚簇进行分析时，对于其中一聚簇，可以根据所述聚簇中包括的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量，对所述聚簇中包含的所述等效的第一地址的数量进行预测，如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值，则确定为所述目标聚簇。
[0091]
具体的，对所述聚簇中包含的所述等效的第一地址的数量进行预测时，可以基于超几何分布的置信度估计算法，生成以聚簇中包含的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量为已知参数，所述聚簇中包含的所述等效的第一地址的数量为未知参数的函数。
[0092]
也就是说，以第二数据源为poi地址数据源为例，由于poi地址的有效性比较高，因此，对聚簇进行分析的任务，就是在身份真实性和地址有效性任务中，估计出一个聚簇中有效地址的比例(如果一个簇中有效地址的比例比较高，则可以证明属于工业园区的概率比较高，相应的，该簇中的各个工厂的第一地址都可以视为与poi地址等效的地址)。但是，基于上述任务，目前没有确定特别合适的特征，因此，可以采用纯统计方法估计每个聚簇中有效地址的比例。也即，假设一个类簇包含m家工厂，其中m个工厂的第一地址为当前第二数据源的样本地址，这些样本地址中正样本的数量为k，假设m家工厂中，与该第二数据源等效的地址数量为n，则服从超几何分布g(m，n，m)，且：
[0093][0094]
其中，m，m，k已知时，后验概率pr[n≥t,m,m,k]可以使用贝叶斯公式进行计算：
[0095][0096]
n的先验分布取均匀分布时,
[0097][0098]
在本技术实施例中，m，m，k已知，需要估计未知参数n。具体实现时，可以通过多种方式来实现对该参数n的估计。例如，一种方式下，可以使用极大似然估计进行估算，可以证明但是，使用极大似然估计往往会得到不可靠的结果，例如，假设m＝50,m＝5,k＝5，尽管极大似然估计得到n＝50(如图3所示的图中概率最大的点)，但是该处的后验点估计仅为0.12，该数值是偏低的。
[0099]
为此，在本技术的优选实施方式中，可以基于置信区间的方法，对等效的第一地址的数量进行预测。也即，可以采用风险控制中常用的置信区间下界的方法区估计
[0100][0101]
其中α为显著性参数，假设这里取0.05，即的可能性超过95％。利用上述公式，可以有效的到n的可靠估计值。如果m＝50,m＝5,k＝5，可以得到对应置信度为图3中阴影部分的面积。
[0102]
也就是说，在通过极大似然法进行估计时，其目标是将pr最大化，主要关注的是图3中各点的高度。而通过基于置信区间的方法，其目标是n大于等于t的概率要超过要求(例如95％)，因此，主要关注的是图3中阴影部分的面积。也即，通过这种方式去估计n，可以保证等效地址的数量大于估计值的概率超过预先设定的目标，例如，95％，以此得到一批与当前第二数据源提供的地址等效的第一地址。
[0103]
这里需要说明的是，各种不同的第二数据源所提供的地址的有效性可能会有所不同，其中，poi地址数据源提供的第二地址的有效性比较高，也即，通常是具体工厂的真实地址。因此，在具体实现时，可以主要针对这种poi地址数据源，进行等效地址的获取。这样，具体与poi地址数据源所提供的第二地址等效的第一地址，可以是与所述poi地址具有同等置信度的第一地址。由于这种等效地址的置信度也比较高，因此，可以确定具体的聚簇对应的区域为工业园区，此时，可以将该聚簇确定为所述目标聚簇，进而将该目标聚簇中的各个第一地址，确定为与所述poi地址数据源所提供的poi地址等效的第一地址。通过这种方式，可以使得参与后续融合计算的有效地址数量得到增加，有利于提升获取到准确的工厂地址的概率。
[0104]
s203：利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增。
[0105]
在得到具体第二数据源对应的等效的多个第一地址之后，可以对第二数据源提供的第二地址进行扩增。也即，假设某第二数据源原来可以为n1个工厂提供地址信息，通过上一步的计算，从第一地址中确定出n2个与该第二数据源提供的地址等效的第一地址，则可以将该第二数据源对应的地址数量扩增为n1 n2个，之后，可以基于这种扩增后的地址，进行不同数据源之间的融合计算。
[0106]
s204：基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
[0107]
具体在得到各个第二数据源对应的地址扩增结果之后，就可以进行进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。其中，具体在进行多数据源融合处理时，可以构造进行多数据源融合的算法模型，以用于根据多个数据源为同一工厂提供的地址和/或扩增的地址，对工厂的真实地址进行预测，并根据数据源为某工厂提供的地址与该工厂对应的真实地址预测结果之间的距离，确定所述数据源为该工厂所提供的地址的置信度。
[0108]
其中，为了提升融合计算的准确度，具体的算法模型中可以包括用于刻画各数据源所提供地址的可靠性的概率参数；这样，在对工厂的真实地址进行预测时，可以对所述算法模型进行多轮迭代，并在每次迭代的过程中对所述概率参数进行更新，在所述算法收敛后，可以将对应的算法模型输出结果，确定为多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
[0109]
具体的，可以综合一个工厂的真实地址的地址经纬度与第二数据源提供或扩增的地址的经纬度之间的球面距离来衡量地址的准确性。通过分析发现，工厂密度的分布普遍服从对数分布。基于这一特性，可以假设每个数据源j对工厂i提供的经纬度服从如下分布：
[0110][0111]
其中，为真实地址的经纬度，pj和λj为数据源j对应的概率参数，用于刻画数据源j所提供地址的可靠性。其中，如果pj比较大，则数据源j产生准确地址的可能性小，反之，如果pj比较小，则数据源j产生准确地址的可能性大。如果λj比较大，则数据源j产生准确地址的可能性也比较大，反之，如果pj比较小，则数据源j产生准确地址的可能性也比较小。
[0112]
假设为数据源j对工厂i提供的经纬度与该工厂i真实地址经纬度之间的距离，ni表示为同一工厂提供经纬度(包括扩增出来的地址的经纬度)的第二数据源的数量。对真实地址的估计的对数似然函数可以为：
[0113][0114]
对真实地址的估计转化为最大化对数似然问题maxll。具体实现时，可以通过一个迭代算法优化ll，例如，步骤如下：
[0115]
1、初始化预测经纬度
[0116][0117]
2、按照驻点公式更新概率参数λj，pj：
[0118]
[0119][0120]
3、固定概率参数，更新预测经纬度
[0121][0122]
4、判断是否收敛，收敛即输出，不收敛跳转至步骤2。
[0123]
通过上述方法，可以获得各个数据源所提供/扩增的地址的置信度。对于同一个工厂，可以选择各个数据源提供/扩增的地址中置信度较高者作为最终融合结果。这样，可以为具体的工厂确定出可能是真实地址的地址。
[0124]
总之，通过本技术实施例，对于需要进行地址验证的工厂，可以从多种数据源为具体的工厂进行地址信息收集，其中包括通过第一数据源确定多个工厂分别对应的第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集。之后，可以针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址，并利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增。之后，可以基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。通过这种方式，可以在挖掘出不同数据源之间的潜在联系，使得覆盖度比较高的第一数据源提供的第一地址，为第二数据源提供的第二地址进行扩增，从而提升第二数据源对工厂的覆盖度。在此基础上进行多数据源融合的处理时，有利于为更多工厂获得更准确的地址信息。
[0125]
需要说明的是，本技术实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
[0126]
与前述方法实施例相对应，本技术实施例还提供了一种工厂地址验证装置，参见图4，该装置可以包括：
[0127]
地址收集单元401，用于确定待进行地址验证的多个工厂，通过第一数据源确定所述多个工厂分别对应的第一地址，并从多个第二数据源为所述多个工厂进行第二地址收集；
[0128]
等效地址确定单元402，用于针对所述多个第二数据源中的部分或全部，从所述多个工厂分别对应的第一地址中，确定与第二数据源所提供的第二地址等效的第一地址；
[0129]
地址扩增单元403，用于利用所述等效的第一地址，对所述第二数据源提供的第二地址进行扩增；
[0130]
多数据源融合单元404，用于基于各第二数据源对应的地址扩增结果，进行多数据源融合处理，以确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
[0131]
其中，等效地址确定单元具体可以包括：
[0132]
样本确定子单元，用于针对其中一第二数据源，从所述多个工厂中，将所述第二数据源所能提供第二地址的部分工厂的第一地址，确定为该第二数据源的样本数据，并确定同一工厂的第一地址与第二地址之间的距离，如果所述距离小于第一目标阈值，则将对应工厂的第一地址确定为正样本，否则为负样本；
[0133]
聚簇生成子单元，用于根据所述多个工厂对应的第一地址两两之间的距离，将第一地址密集分布的区域内的各个第一地址确定为聚簇；
[0134]
聚簇分析子单元，用于通过对得到的多个聚簇内的第一地址分别进行分析，筛选出目标聚簇，并将所述目标聚簇中的各个第一地址，确定为与所述第二数据源所提供的第二地址等效的第一地址。
[0135]
其中，所述聚簇生成子单元具体可以用于：在同一目标区划范围内，将所述多个工厂对应的第一地址两两之间的距离，并将所述同一目标区划范围内，第一地址密集分布的区域内的各个第一地址确定为聚簇。
[0136]
具体的，所述聚簇生成子单元可以用于：
[0137]
将所述目标区划范围在球面上的边界映射成平面上的边界，并通过局部欧式坐标近似计算多个工厂对应的第一地址两两之间的距离。
[0138]
其中，所述聚簇分析子单元具体可以用于：
[0139]
对于其中一聚簇，根据所述聚簇中包括的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量，对所述聚簇中包含的所述等效的第一地址的数量进行预测，如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值，则确定为所述目标聚簇。
[0140]
具体的，可以基于超几何分布的置信度估计算法，生成以聚簇中包含的第一地址的数量，其中属于样本数据的第一地址的数量，以及其中正样本的数量为已知参数，所述聚簇中包含的所述等效的第一地址的数量为未知参数的函数，并基于置信区间的方法，对所述等效的第一地址的数量进行预测。
[0141]
其中，所述第二数据源包括地图信息系统提供的兴趣点poi地址数据源，所述第二地址包括poi地址；
[0142]
所述与第二数据源所提供的第二地址等效的第一地址包括：
[0143]
与所述poi地址具有同等置信度的第一地址；
[0144]
如果所述聚簇中包含的所述等效的第一地址的数量所占的比例超过第二目标阈值，则确定所述聚簇对应的区域为工业园区，并将所述聚簇确定为所述目标聚簇，将所述目标聚簇中的各个第一地址，确定为与所述poi地址数据源所提供的poi地址等效的第一地址。
[0145]
其中，所述多数据源融合单元具体可以用于：
[0146]
构造进行多数据源融合的算法模型，以用于根据多个数据源为同一工厂提供的地址和/或扩增的地址，对工厂的真实地址进行预测，并根据数据源为某工厂提供的地址与该工厂对应的真实地址预测结果之间的距离，确定所述数据源为该工厂所提供的地址的置信度。
[0147]
其中，所述算法模型中包括用于刻画各数据源所提供地址的可靠性的概率参数；
[0148]
所述多数据源融合单元具体可以用于：
[0149]
对所述算法模型进行多轮迭代，并在每次迭代的过程中对所述概率参数进行更新；
[0150]
在所述算法收敛后，将对应的算法模型输出结果，确定多个数据源分别为各工厂提供或扩增的地址属于真实地址的置信度。
[0151]
另外，本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
[0152]
以及一种电子设备，包括：
[0153]
一个或多个处理器；以及
[0154]
与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。
[0155]
其中，图5示例性的展示出了电子设备的架构，具体可以包括处理器510，视频显示适配器511，磁盘驱动器512，输入/输出接口513，网络接口514，以及存储器520。上述处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520之间可以通过通信总线530进行通信连接。
[0156]
其中，处理器510可以采用通用的cpu(central processing unit，处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术所提供的技术方案。
[0157]
存储器520可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器520可以存储用于控制电子设备500运行的操作系统521，用于控制电子设备500的低级别操作的基本输入输出系统(bios)。另外，还可以存储网页浏览器523，数据存储管理系统524，以及工厂地址验证处理系统525等等。上述工厂地址验证处理系统525就可以是本技术实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本技术所提供的技术方案时，相关的程序代码保存在存储器520中，并由处理器510来调用执行。
[0158]
输入/输出接口513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0159]
网络接口514用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0160]
总线530包括一通路，在设备的各个组件(例如处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520)之间传输信息。
[0161]
需要说明的是，尽管上述设备仅示出了处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，存储器520，总线530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本技术方案所必需的组件，而不必包含图中所示的全部组件。
[0162]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备
(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0163]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0164]
以上对本技术所提供的工厂地址验证方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：成员显示方法、显示装置和电子设备与流程

工厂地址验证方法、装置及电子设备与流程

相关文献

最热文献