识别重名人员的方法和装置、存储介质和电子设备与流程

2022-05-21 10:17:54 来源：中国专利 TAG：

1.本发明涉及数据分析技术领域,并且更具体地，涉及一种识别重名人员的方法和装置、存储介质和电子设备。

背景技术：

2.在日常生活和各种商业活动中，人们经常需要查询特定人员的信息，但由于不同自然人会出现名字相同的情况，因此，对于两个目标对象中同名的自然人，确定是否是同一个自然人，在查询过程中就成为用户遇到的一个比较困扰的问题。

技术实现要素：

3.本发明要解决的问题为对于具有重名人员的两个目标对象，如何确定两个目标对象中的重名人员是否为同一个自然人。为了解决现有技术中无法识别两个目标对象中的重名人员是否为同一个自然人的技术问题，本发明的实施例提供一种识别重名人员的方法和装置，以及存储介质和电子设备。
4.根据本发明实施例的一个方面，提供了一种识别重名人员的方法，所述方法包括：
5.对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，其中，第一特征数据样本中包括多个第一特征，第二特征数据样本中包括多个第二特征，第一特征是确定目标对象之间相关关系的特征，第二特征是确定目标对象之间相似关系的特征；
6.根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值；以及根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值；
7.根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值；
8.根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人。
9.可选地，在本发明上述各方法实施例中，对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，包括：
10.分别获取两个目标对象的初始第一特征数据和初始第二特征数据；
11.基于预先设置的第一特征黑名单，对初始第一特征数据中的拟过滤的第一特征的特征数据进行过滤，生成第一特征数据样本；
12.基于预先设置的第二特征黑名单，对初始第二特征数据中的拟过滤的第二特征的特征数据进行过滤，生成第二特征数据样本。
13.可选地，在本发明上述各方法实施例中，根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值包括：
14.将两个目标对象的第一特征数据样本中的每个第一特征的第一特征信息项进行匹配，当第一特征的第一特征信息项不匹配时，确认所述第一特征的特征值为0；当第一特征的第一特征信息项匹配时，根据所述第一特征的第一特征信息项对应的第一特征出现次
数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值。
15.可选地，在本发明上述各方法实施例中，根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值的计算公式具体为：
16.r＝(y-x)/y
17.式中，y是预设的第一特征出现次数阈值，x是第一特征出现次数项；r是第一特征的第一特征值。
18.可选地，在本发明上述各方法实施例中，所述方法还包括当第一特征数据样本中的每个第一特征包括多个第一特征信息项，且每个第一特征信息项匹配时，根据每个第一特征信息项对应的第一特征出现次数项计算所述第一特征的第一特征值，具体地：
19.根据所述第一特征的每个第一特征信息项对应的第一特征出现次数和预设的第一特征出现次数阈值计算每个第一特征信息项对应的特征值，并将多个第一特征信息项对应的特征值的和作为第一特征的第一特征值。
20.可选地，在本发明上述各方法实施例中，根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
21.计算两个目标对象的第二特征数据样本中的每个第二特征的文本相似度值；
22.将每个第二特征的文本相似度值作为对应第二特征的第二特征值。
23.可选地，在本发明上述各方法实施例中，根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
24.将两个目标对象的第二特征数据样本中的每个第二特征按照预设的规则分别提取文本，得到两个目标对象的每个第二特征的核心文本；
25.计算两个目标对象的每个第二特征的核心文本的文本相似度值；
26.将每个第二特征的核心文本的文本相似度值作为对应第二特征的第二特征值。
27.可选地，在本发明上述各方法实施例中，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
28.对多个第一特征的第一特征值求和，得到第一特征关联度值；
29.对多个第二特征的第二特征值求和，得到第二特征关联度值；
30.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
31.可选地，在本发明上述各方法实施例中，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
32.设置每个第一特征和每个第二特征的权重系数；
33.将每个第一特征的第一特征值和其对应的权重系数相乘，得到每个第一特征的第一加权特征值；
34.对多个第一特征的第一加权特征值求和，得到第一特征关联度值；
35.将每个第二特征的第二特征值和其对应的权重系数相乘，得到每个第二特征的第二加权特征值；
36.对多个第二特征的第二加权特征值求和，得到第二特征关联度值；
37.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
38.可选地，在本发明上述各方法实施例中，根据多个第一特征值和多个第二特征值
确定两个目标对象的关联度值，包括：
39.将多个第一特征值和多个第二特征值输入目标对象关联度模型，得到两个目标对象的关联度值；其中，所述目标对象关联度模型是以已知的具有重名人员的目标对象的第一特征值和第二特征值为输入，以目标对象之间的关联度值为输出，采用机器学习算法训练得到的确定目标对象之间关联程度的模型。
40.可选地，在本发明上述各方法实施例中，根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人包括：
41.当所述关联度值不小于预设的关联度阈值时，确定两个目标对象的重名人员是同一个自然人；
42.当所述关联度值小于预设的关联度阈值时，确定两个目标对象的重名人员不是同一个自然人。
43.根据本发明实施例的另一个方面，本发明提供一种识别重名人员的装置，所述装置包括：
44.数据样本模块，用于对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，其中，第一特征数据样本中包括多个第一特征，第二特征数据样本中包括多个第二特征，第一特征是确定目标对象之间相关关系的特征，第二特征是确定目标对象之间相似关系的特征；
45.特征值模块，用于根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值；以及根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值；
46.关联度值模块，用于根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值；
47.结果确定模块，用于根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人。
48.可选地，在本发明上述各装置实施例中，所述数据样本模块包括：
49.数据采集单元，用于分别获取两个目标对象的初始第一特征数据和初始第二特征数据；
50.第一过滤单元，用于基于预先设置的第一特征黑名单，对初始第一特征数据中的拟过滤的第一特征的特征数据进行过滤，生成第一特征数据样本；
51.第二过滤单元，用于基于预先设置的第二特征黑名单，对初始第二特征数据中的拟过滤的第二特征的特征数据进行过滤，生成第二特征数据样本。
52.可选地，在本发明上述各装置实施例中，所述特征值模块用于根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值包括：
53.将两个目标对象的第一特征数据样本中的每个第一特征的第一特征信息项进行匹配，当第一特征的第一特征信息项不匹配时，确认所述第一特征的第一特征值为0；当第一特征的第一特征信息项匹配时，根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的特征值。
54.可选地，在本发明上述各装置实施例中，所述特征值模块根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值的计算公式具体为：
55.r＝(y-x)/y
56.式中，y是预设的第一特征出现次数阈值，x是第一特征出现次数项；r是第一特征的第一特征值。
57.可选地，在本发明上述各装置实施例中，所述特征值模块还用于当第一特征数据样本中的每个第一特征包括多个第一特征信息项，且每个第一特征信息项匹配时，根据每个第一特征信息项对应的第一特征出现次数项计算所述第一特征的第一特征值，具体地：
58.根据所述第一特征的每个第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算每个第一特征信息项对应的特征值，并将多个第一特征信息项对应的特征值的和作为第一特征的第一特征值。
59.可选地，在本发明上述各装置实施例中，所述特征值模块根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
60.计算两个目标对象的第二特征数据样本中的每个第二特征的文本相似度值；
61.将每个第二特征的文本相似度值作为对应第二特征的第二特征值。
62.可选地，在本发明上述各装置实施例中，所述特征值模块根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
63.将两个目标对象的第二特征数据样本中的每个第二特征按照预设的规则分别提取文本，得到两个目标对象的每个第二特征的核心文本；
64.计算两个目标对象的每个第二特征的核心文本的文本相似度值；
65.将每个第二特征的核心文本的文本相似度值作为对应第二特征的第二特征值。
66.可选地，在本发明上述各装置实施例中，所述关联度值模块根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
67.对多个第一特征的第一特征值求和，得到第一特征关联度值；
68.对多个第二特征的第二特征值求和，得到第二特征关联度值；
69.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
70.可选地，在本发明上述各装置实施例中，所述关联度值模块根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
71.设置每个第一特征和每个第二特征的权重系数；
72.将每个第一特征的第一特征值和其对应的权重系数相乘，得到每个第一特征的第一加权特征值；
73.对多个第一特征的第一加权特征值求和，得到第一特征关联度值；
74.将每个第二特征的第二特征值和其对应的权重系数相乘，得到每个第二特征的第二加权特征值；
75.对多个第二特征的第二加权特征值求和，得到第二特征关联度值；
76.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
77.可选地，在本发明上述各装置实施例中，所述关联度值模块根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括：
78.将多个第一特征值和多个第二特征值输入目标对象关联度模型，得到两个目标对象的关联度值；其中，所述目标对象关联度模型是以已知的具有重名人员的目标对象的第一特征值和第二特征值为输入，以目标对象之间的关联度值为输出，采用机器学习算法训
练得到的确定目标对象之间关联程度的模型。
79.可选地，在本发明上述各装置实施例中，结果确定模块根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人包括：
80.当所述关联度值不小于预设的关联度阈值时，确定两个目标对象的重名人员是同一个自然人；
81.当所述关联度值小于预设的关联度阈值时，确定两个目标对象的重名人员不是同一个自然人。
82.根据本发明实施例的又一方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一实施例所述的方法。
83.根据本发明实施例的又一方面，本发明提供一种电子设备，所述电子设备包括：
84.处理器；
85.用于存储所述处理器可执行指令的存储器；
86.所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现本发明上述任一实施例所述的方法。
87.本发明实施例一方面通过综合考虑具有重名人员的两个目标对象之间具有相关关系和相似关系的特征，扩大了重名人员的识别范围，另一方面，通过对采集的特征数据进行过滤，并计算多个第一特征的特征值和第二特征的特征值，综合判断两个目标对象的关联程度，降低了两个目标对象错误关联的可能，从而更好地避免了将两个同名的自然人识别成同一个自然人，提高了重名人员识别的准确性。
88.下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
89.通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：
90.图1为本发明一示例性实施例提供的识别重名人员的方法的流程图；
91.图2为本发明一示例性实施例提供的识别重名人员的装置的结构示意图；
92.图3为本发明一示例性实施例提供的数据样本模块的结构示意图；
93.图4为本发明一示例性实施例提供的电子设备的结构示意图。
具体实施方式
94.下面，将参考附图详细地描述本发明的示例实施例。显然，所描述的示例实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。
95.应注意到：除非另外具体说明，否则在这些示例实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
96.本领域技术人员可以理解，本发明示例实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
97.还应理解，在本发明示例实施例中，“多个”可以指两个或两个以上，“至少一个”可
以指一个、两个或两个以上。
98.还应理解，对于本发明示例实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
99.另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。
100.还应理解，本发明对各个示例实施例的描述着重强调各个示例实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
101.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
102.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。
103.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。
104.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
105.本发明示例实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。
106.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
107.示例性方法
108.图1为本发明一示例性实施例提供的识别重名人员的方法的流程图，本实施例可应用在电子设备上。如图1所示，本示例实施例所述的识别重名人员的方法100从步骤101开始。
109.在步骤101，对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，其中，第一特征数据样本中包括多个第一特征，第二特征数据样本中包括多个第二特征，第一特征是确定目标对象之间相关关系的特征，第二特征是确定目标对象之间相似关系的特征。
110.在日常生活和商业活动中，人们经常需要查询某些特定人员。在一个实施例中，以具有重名人员的两个公司作为目标对象，将两个公司的电话、邮箱、第一地址、其他重名人员，投资关系作为确定两个公司之间相关关系的第一特征，将两个公司的公司类型、公司名
称、所属行业、经营范围、第二地址作为确定两个公司之间相似关系的第二特征，其中，第一地址是公司注册地所在国家和省份，第二地址是公司注册地详细地址。
111.可选地，对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，包括：
112.分别获取两个目标对象的初始第一特征数据和初始第二特征数据；
113.基于预先设置的第一特征黑名单，对初始第一特征数据中的拟过滤的第一特征的特征数据进行过滤，生成第一特征数据样本；
114.基于预先设置的第二特征黑名单，对初始第二特征数据中的拟过滤的第二特征的特征数据进行过滤，生成第二特征数据样本。
115.在一个实施例中，采集两个公司的邮箱、电话、第一地址、其他重名人员等第一特征的数据，以及两个公司的公司类型、名称、所属行业、经营范围、第二地址等第二特征的数据后，得到原始第一特征数据和原始第二特征数据。
116.由于在公司注册过程中，有时会使用一些伪注册信息，如使用常用数字来代替电话信息，比如“123456”，“111111”等，可将这些伪注册信息生成黑名单；还有一些注册信息是通过群体注册的，涉及的注册量非常大，通过统计其注册次数以确定是否加入黑名单。比如，当进行数据统计时，发现有超过100家公司都注册了同一个电话，那么就认为该电话是群体注册信息，应加入黑名单。对第一特征和第二特征分别进行统计，则生成了第一特征黑名单和第二特征黑名单。将采集的原始第一特征数据通过第一特征黑名单进行过滤，则得到第一特征数据样本，将采集的原始第二特征数据通过第二特征黑名单进行过滤，则得到第二特征数据样本。
117.在步骤102，根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值；以及根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值。
118.可选地，根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值包括：
119.将两个目标对象的第一特征数据样本中的每个第一特征的第一特征信息项进行匹配，当第一特征的第一特征信息项不匹配时，确定所述第一特征的第一特征值为0；当第一特征的第一特征信息项匹配时，根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值。
120.可选地，根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值的计算公式具体为：
121.r＝(y-x)/y
122.式中，y是预设的第一特征出现次数阈值，x是第一特征出现次数项；r是第一特征的第一特征值。
123.在一个实施例中，第一特征包括第一特征信息项和第一特征出现次数项，比如，当第一特征为电话时，则电话的特征数据包括“12345678”和“20”，其中前者是信息项，后者是出现次数项。将两个公司经过过滤后的第一特征数据样本中的第一特征电话的电话号码进行匹配，当电话不相同时，确定第一特征电话的特征值为0。当电话号码相同时，则取任一公司的电话号码出现次数计算第一特征电话的特征值。由于电话号码出现次数项为20，设置的出现次数阈值为100，则根据计算公式
124.可知r＝(100-20)/100＝0.8，则两个公司的第一特征电话的特征值为0.8。
125.可选地，所述方法还包括当第一特征数据样本中的每个第一特征包括多个第一特征信息项，且每个第一特征信息项匹配时，根据每个第一特征信息项对应的第一特征出现次数项计算所述第一特征的第一特征值，具体地：
126.根据所述第一特征的每个第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算每个第一特征信息项对应的特征值，并将多个第一特征信息项对应的特征值的和作为第一特征的第一特征值。
127.在一个实施例中，当两个公司的第一特征电话有2个电话号码，且两个电话号码都匹配时，则针对这两个电话号码分别计算电话号码对应的特征值，当计算得到r1＝0.8，r2＝0.9时，则第一特征电话对应的特征值r＝0.8 0.9＝1.7。
128.可选地，根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
129.计算两个目标对象的第二特征数据样本中的每个第二特征的文本相似度值；
130.将每个第二特征的文本相似度值作为对应第二特征的第二特征值。
131.在一个实施例中，对于第二特征公司名称，可以采用文本相似度来计算两个公司的第二特征公司名称的相似度。具体地，可以对两个公司的公司名称的特征数据进行文本匹配，通过匹配文本的长度之和除以两个公司的公司名称的文本长度之和来确定第二特征公司名称的特征值。比如一个公司的公司名称为北京天眼查科技有限公司，另一个公司的公司名称为海口天眼查科技有限公司，将这两个公司名称进行匹配，可得到匹配文本“天眼查科技有限公司”的长度为9，则匹配文本的长度之和为9*2＝18，而公司名称的文本长度之和为11*2＝22，则公司名称的文本相似度值为18/22＝0.82，所述文本相似度值0.82则为两个公司第二特征公司名称的特征值。
132.可选地，根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
133.将两个目标对象的第二特征数据样本中的每个第二特征按照预设的规则分别提取文本，得到两个目标对象的每个第二特征的核心文本；
134.计算两个目标对象的每个第二特征的核心文本的文本相似度值；
135.将每个第二特征的核心文本的文本相似度值作为对应第二特征的第二特征值。
136.在另一个实施例中，同样是两个公司的第二特征公司名称，其特征数据分别为北京天眼查科技有限公司和海口天眼查科技有限公司。根据文本提取规则，分别去除公司名称前面的地址信息“北京，海口”和后面的注册类型信息“有限公司，有限公司”后得到公司名称核心文本“天眼查科技，天眼查科技”，针对公司名称的核心文本“天眼查科技”和“天眼查科技”求文本相似度值，由于文本完全一样，可知公司名称的核心文本的相似度值为1，即按照公司名称的核心文本确定的第二特征公司名称的特征值为1。采用核心文本计算第二特征的特征值能够摒弃其他干扰因素，更加准确地判断目标对象的第二特征的相似度，从而可以更准确地判断目标对象的关联程度。
137.在步骤103，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值。
138.可选地，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，
包括:
139.对多个第一特征的第一特征值求和，得到第一特征关联度值；
140.对多个第二特征的第二特征值求和，得到第二特征关联度值；
141.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
142.在一个实施例中，当两个公司有i个第一特征值r1至ri，j个第二特征值s1至sj时，通过对i个第一特征值与j个第二特征值求和得到两个公司的关联度值z，其计算公式为：
143.z＝r1 r2
…
ri s1 s2
…
sj。
144.可选地，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
145.设置每个第一特征和每个第二特征的权重系数；
146.将每个第一特征的第一特征值和其对应的权重系数相乘，得到每个第一特征的第一加权特征值；
147.对多个第一特征的第一加权特征值求和，得到第一特征关联度值；
148.将每个第二特征的第二特征值和其对应的权重系数相乘，得到每个第二特征的第二加权特征值；
149.对多个第二特征的第二加权特征值求和，得到第二特征关联度值；
150.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
151.在另一个实施例中，对于两个公司的每个第一特征值和每个第二特征值可以设置不同的权重系数,此时，计算两个公司关联度值z的计算公式为：
152.z＝r1*w1 r2*w2
…
ri*wi s1*w
i 1
s2*w
i 2

…
sj*wn153.式中，w为权重系数，n＝i j。
154.根据不同特征对两个公司关联度的影响，对不同的特征值设置不同的权重系数进行两个公司第一特征值和第二特征值的加权求和以确定一个人个公司的关联度值，比直接对两个公司的第一特征值和第二特征值进行求和得到两个公司的关联程度的准确度更高，更能提高重名人员识别的准确率。
155.可选地，根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括：
156.将多个第一特征值和多个第二特征值输入目标对象关联度模型，，得到两个目标对象的关联度值；其中，所述目标对象关联度模型是以已知的具有重名人员的目标对象的第一特征值和第二特征值为输入，以目标对象之间的关联度值为输出，采用机器学习算法训练得到的确定目标对象之间关联程度的模型。
157.在一实施例中，在针对具有重名人员的两个目标对象进行重名人员的识别前，先以已知的具有重名人员的目标对象的第一特征值和第二特征值为输入，以目标对象之间的关联度值为输出，采用机器学习算法训练得到的目标对象之间关联程度的模型，所述机器学习算法可以是神经网络算法、支持向量机算法、决策树算法等。通过目标对象关联度模型对两个目标对象进行关联度判断，能够不断地利用已知的目标对象的特征值和关联度值对目标对象关联度模型进行迭代优化，从而使确定目标对象关联度模型对两个目标对象之间的关联程度的判断越来越准确，有效地提高了识别重名人员的准确率。
158.在步骤104，根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人
员是否为同一个自然人。
159.可选地，根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人包括：
160.当所述关联度值不小于预设的关联度阈值时，确定两个目标对象的重名人员是同一个自然人；
161.当所述关联度值小于预设的关联度阈值时，确定两个目标对象的重名人员不是同一个自然人。
162.和现有技术相比，对于具有重名人员的两个目标对象，本实施例中不仅包括目标对象之间具有相关关系的特征，而且还包括具有相似关系的特征，有效扩大了重名人员的识别范围，而且对于采集的特征数据还进行了伪注册信息和群体注册信息的过滤，并根据过滤后的特征数据计算多个第一特征的特征值和第二特征的特征值，综合判断两个目标对象的关联程度，降低了两个目标对象错误关联的可能，从而更好地避免了将两个同名的自然人识别成同一个自然人，提高了重名人员识别的准确性。
163.示例性装置
164.图2是本发明一示例性实施例提供的识别重名人员的装置的结构示意图。如图2所示，本实施例所述的识别重名人员的装置包括：
165.数据样本模块201，用于对于具有重名人员的两个目标对象，分别获取两个目标对象的第一特征数据样本和第二特征数据样本，其中，第一特征数据样本中包括多个第一特征，第二特征数据样本中包括多个第二特征，第一特征是确定目标对象之间相关关系的特征，第二特征是确定目标对象之间相似关系的特征；
166.特征值模块202，用于根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值；以及根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值；
167.关联度值模块203，用于根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值；
168.结果确定模块204，用于根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人。
169.图3为本发明一示例性实施例提供的数据样本模块的结构示意图。如图3所示，所述数据样本模块201包括：
170.数据采集单元211，用于分别获取两个目标对象的初始第一特征数据和初始第二特征数据；
171.第一过滤单元212，用于基于预先设置的第一特征黑名单，对初始第一特征数据中的拟过滤的第一特征的特征数据进行过滤，生成第一特征数据样本；
172.第二过滤单元213，用于基于预先设置的第二特征黑名单，对初始第二特征数据中的拟过滤的第二特征的特征数据进行过滤，生成第二特征数据样本。
173.可选地，所述特征值模块202用于根据两个目标对象的第一特征数据样本确定多个第一特征的第一特征值包括：
174.将两个目标对象的第一特征数据样本中的每个第一特征的第一特征信息项进行匹配，当第一特征的第一特征信息项不匹配时，确定所述第一特征的第一特征值为0；当第
一特征的第一特征信息项匹配时，根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值。
175.可选地，所述特征值模块202根据所述第一特征的第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算所述第一特征的第一特征值的计算公式具体为：
176.r＝(y-x)/y
177.式中，y是预设的第一特征出现次数阈值，x是第一特征出现次数项；r是第一特征的第一特征值。
178.可选地，所述特征值模块202还用于当第一特征数据样本中的每个第一特征包括多个第一特征信息项，且每个第一特征信息项匹配时，根据每个第一特征信息项对应的第一特征出现次数项计算所述第一特征的第一特征值，具体地：
179.根据所述第一特征的每个第一特征信息项对应的第一特征出现次数项和预设的第一特征出现次数阈值计算每个第一特征信息项对应的特征值，并将多个第一特征信息项对应的特征值的和作为第一特征的第一特征值。
180.可选地，所述特征值模块202根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
181.计算两个目标对象的第二特征数据样本中的每个第二特征的文本相似度值；
182.将每个第二特征的文本相似度值作为对应第二特征的第二特征值。
183.可选地，所述特征值模块202根据两个目标对象的第二特征数据样本确定多个第二特征的第二特征值包括：
184.将两个目标对象的第二特征数据样本中的每个第二特征按照预设的规则分别提取文本，得到两个目标对象的每个第二特征的核心文本；
185.计算两个目标对象的每个第二特征的核心文本的文本相似度值；
186.将每个第二特征的核心文本的文本相似度值作为对应第二特征的第二特征值。
187.可选地，所述关联度值模块203根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
188.对多个第一特征的第一特征值求和，得到第一特征关联度值；
189.对多个第二特征的第二特征值求和，得到第二特征关联度值；
190.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
191.可选地，所述关联度值模块203根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括:
192.设置每个第一特征和每个第二特征的权重系数；
193.将每个第一特征的第一特征值和其对应的权重系数相乘，得到每个第一特征的第一加权特征值；
194.对多个第一特征的第一加权特征值求和，得到第一特征关联度值；
195.将每个第二特征的第二特征值和其对应的权重系数相乘，得到每个第二特征的第二加权特征值；
196.对多个第二特征的第二加权特征值求和，得到第二特征关联度值；
197.对第一特征关联度值和第二特征关联度值求和，得到两个目标对象的关联度值。
198.可选地，所述关联度值模块203根据多个第一特征值和多个第二特征值确定两个目标对象的关联度值，包括：
199.将多个第一特征值和多个第二特征值输入目标对象关联度模型，得到两个目标对象的关联度值；其中，所述目标对象关联度模型是以已知的具有重名人员的目标对象的第一特征值和第二特征值为输入，以目标对象之间的关联度值为输出，采用机器学习算法训练得到的确定目标对象之间关联程度的模型。
200.可选地，结果确定模块204根据所述关联度值与预设的关联度阈值确定两个目标对象的重名人员是否为同一个自然人包括：
201.当所述关联度值不小于预设的关联度阈值时，确定两个目标对象的重名人员是同一个自然人；
202.当所述关联度值小于预设的关联度阈值时，确定两个目标对象的重名人员不是同一个自然人。
203.本实施例提供的识别重名人员的装置对于具有重名人员的两个目标对象，通过分别获取两个目标对象的第一特征数据样本和第二特征数据样本后，计算多个第一特征的第一特征值和多个第二特征的第二特征值，再根据所述多个第一特征值和多个第二特征值确定两个目标对象的关联程度以确定重名人员是否为同一个自然人的步骤与本实施例提供的识别重名人员的方法的步骤相同，达到的技术效果也相同，此处不再赘述。
204.示例性电子设备
205.图4是本发明一示例性实施例提供的电子设备的结构示意图。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。图4图示了根据本公开实施例的电子设备的框图。如图4所示，电子设备包括一个或多个处理器401和存储器402。
206.处理器401可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。
207.存储器402可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行所述程序指令，以实现上文所述的本公开的各个实施例的软件程序的识别重名人员的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
208.此外，该输入装置403还可以包括例如键盘、鼠标等等。
209.该输出装置404可以向外部输出各种信息。该输出设备404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
210.当然，为了简化，图4中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。
211.示例性计算机程序产品和计算机可读存储介质
212.除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的识别重名人员的方法中的步骤。
213.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
214.此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的识别重名人员的方法中的步骤。
215.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
216.以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
217.本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
218.本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
219.可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
220.还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解
和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
221.为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：确定用户推送首活比例的方法和装置、存储介质和电子设备与流程

识别重名人员的方法和装置、存储介质和电子设备与流程

相关文献

最热文献