人员身份的识别方法、存储介质和计算机程序产品与流程

2022-02-19 03:45:08 来源：中国专利 TAG：

1.本公开涉及大数据
技术领域：
，尤其是一种人员身份的识别方法、存储介质和计算机程序产品。
背景技术：
：2.现有技术中，计算机等电子设备往往通过标识来识别对象身份。例如，对于人员身份的识别而言，通常采用不同的人员标识，来标记不同的人员。3.然而，在大数据广泛应用的背景下，数据的获取渠道呈多元化趋势。不同渠道获得的数据可能实际上所对应的对象是相同的。例如，当前市场上，可以通过获取公开官方渠道获取公司数据，并提供信息查询服务。然而由于能够获取的公开数据不能完全地覆盖所有的自然人的身份信息，公司人员身份识别(不同公司的同名人员是否是同一自然人)就成为了困扰这些公司、以及所有公司数据使用方的核心问题。4.可见，如何提高身份识别的准确度，是一个值得关注的问题。技术实现要素：5.本公开实施例提供一种人员身份的识别方法、存储介质和计算机程序产品，以提高身份识别的准确度。6.根据本公开实施例的第一个方面，提供的一种人员身份的识别方法，包括：7.从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，所述至少两个目标人员标识具有不同的关联关系信息；8.分别从所述至少两个目标人员标识具有的关联关系信息中，确定所述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息；9.将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，其中，所述识别结果表征所述至少两个目标人员标识指示的人员是否为同一人员。10.可选地，在本公开任一实施例的方法中，所述将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，包括：11.响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，从所确定的团体组织信息中，选取预设的第二数量阈值个团体组织信息；12.将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果。13.可选地，在本公开任一实施例的方法中，所述将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，包括：14.响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，确定所确定的团体组织信息指示的团体组织所在的区域，得到区域集合；15.针对所述区域集合中的区域，从位于该区域的团体组织的团体组织信息中，选取至少一个团体组织信息；16.将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果。17.可选地，在本公开任一实施例的方法中，所述将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，包括：18.将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型确定所述至少两个目标人员标识对应的团体组织信息之间的欧式距离，以及基于所述欧氏距离生成识别结果。19.可选地，在本公开任一实施例的方法中，所述方法还包括：20.将所述识别模型和所确定的团体组织信息输入至预先训练的解释模型，经由所述解释模型生成所述识别模型针对所述识别结果的解释信息。21.可选地，在本公开任一实施例的方法中，所述方法还包括：22.获取样本信息集合，其中，所述样本信息集合中的样本信息包括团体组织信息和预先标注的、与团体组织信息相对应的标签信息，标签信息表征团体组织信息对应的两个人员标识是否指示同一人员；23.从所述样本信息集合中，确定训练样本集合；24.将所述训练样本集合中的训练样本包括的团体组织信息作为输入数据，将与输入数据相对应的标签信息作为期望输出数据，训练得到识别模型。25.可选地，在本公开任一实施例的方法中，所述方法还包括：26.从所述样本信息集合中，确定验证样本集合；27.基于所述验证样本集合，计算所述识别模型的受试者工作特征曲线下面积、准确率、精确率、召回率中的至少一项。28.可选地，在本公开任一实施例的方法中，关联关系信息采用预先确定的知识图谱中的节点或者边表征，人员标识采用所述知识图谱中的节点表征；以及29.所述从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，包括：30.从所述知识图谱中的节点表征的人员标识的集合中，确定至少两个相同的目标人员标识。31.可选地，在本公开任一实施例的方法中，所述方法还包括：32.基于所述识别结果，采用相同聚类标识，对所述知识图谱中表征同一人员的多个目标人员标识进行标记；33.基于所述知识图谱中的目标人员标记的每个聚类标识，计算针对该聚类标识的识别结果的精准性、全面性、准确性中的至少一项。34.可选地，在本公开任一实施例的方法中，团体组织信息包括公司信息；以及35.所述分别从所述至少两个目标人员标识具有的关联关系信息中，确定所述至少两个目标人员标识分别对应的团体组织信息，包括：36.分别从所述至少两个目标人员标识具有的关联关系信息中，确定所述至少两个目标人员标识分别对应的公司信息；以及37.所述将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，包括：38.将以下至少一项输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果：39.所确定的至少两个公司信息之间的关系特征；40.与所确定的至少两个公司信息之间存在关联关系的公司信息；41.与所确定的至少两个公司信息之间存在关联关系的人员信息。42.可选地，在本公开任一实施例的方法中，用于训练所述识别模型的特征数据的维数大于或等于100。43.根据本公开实施例的第二个方面，提供的一种人员身份的识别装置，包括：44.第一确定单元，被配置成从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，所述至少两个目标人员标识具有不同的关联关系信息；45.第二确定单元，被配置成分别从所述至少两个目标人员标识具有的关联关系信息中，确定所述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息；46.第一输入单元，被配置成将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果，其中，所述识别结果表征所述至少两个目标人员标识指示的人员是否为同一人员。47.可选地，在本公开任一实施例的装置中，所述第一输入单元包括：48.第一选取子单元，被配置成响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，从所确定的团体组织信息中，选取预设的第二数量阈值个团体组织信息；49.第一输入子单元，被配置成将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果。50.可选地，在本公开任一实施例的装置中，所述第一输入单元包括：51.第一确定子单元，被配置成响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，确定所确定的团体组织信息指示的团体组织所在的区域，得到区域集合；52.第二选取子单元，被配置成针对所述区域集合中的区域，从位于该区域的团体组织的团体组织信息中，选取至少一个团体组织信息；53.第二输入子单元，被配置成将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果。54.可选地，在本公开任一实施例的装置中，所述第一输入单元包括：55.第三输入子单元，被配置成将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型确定所述至少两个目标人员标识对应的团体组织信息之间的欧式距离，以及基于所述欧氏距离生成识别结果。56.可选地，在本公开任一实施例的装置中，所述装置还包括：57.第二输入子单元，被配置成将所述识别模型和所确定的团体组织信息输入至预先训练的解释模型，经由所述解释模型生成所述识别模型针对所述识别结果的解释信息。58.可选地，在本公开任一实施例的装置中，所述装置还包括：59.获取单元，被配置成获取样本信息集合，其中，所述样本信息集合中的样本信息包括团体组织信息和预先标注的、与团体组织信息相对应的标签信息，标签信息表征团体组织信息对应的两个人员标识是否指示同一人员；60.第三确定单元，被配置成从所述样本信息集合中，确定训练样本集合；61.训练单元，被配置成将所述训练样本集合中的训练样本包括的团体组织信息作为输入数据，将与输入数据相对应的标签信息作为期望输出数据，训练得到识别模型。62.可选地，在本公开任一实施例的装置中，所述装置还包括：63.第四确定单元，被配置成从所述样本信息集合中，确定验证样本集合；64.第一计算单元，被配置成基于所述验证样本集合，计算所述识别模型的受试者工作特征曲线下面积、准确率、精确率、召回率中的至少一项。65.可选地，在本公开任一实施例的装置中，关联关系信息采用预先确定的知识图谱中的节点或者边表征，人员标识采用所述知识图谱中的节点表征；以及66.所述第一确定单元包括：67.第二确定子单元，被配置成从所述知识图谱中的节点表征的人员标识的集合中，确定至少两个相同的目标人员标识。68.可选地，在本公开任一实施例的装置中，所述装置还包括：69.标记单元，被配置成基于所述识别结果，采用相同聚类标识，对所述知识图谱中表征同一人员的多个目标人员标识进行标记；70.第二计算单元，被配置成基于所述知识图谱中的目标人员标记的聚类标识，计算所述知识图谱的识别结果的精准程度、全面程度、准确程度的至少一项。71.可选地，在本公开任一实施例的装置中，团体组织信息包括公司信息；以及72.所述第二确定单元包括：73.第三确定子单元，被配置成分别从所述至少两个目标人员标识具有的关联关系信息中，确定所述至少两个目标人员标识分别对应的公司信息；以及74.所述第一输入单元包括：75.第三输入子单元，被配置成将以下至少一项输入至基于轻量级梯度提升机预先构建的识别模型，经由所述识别模型生成识别结果：76.所确定的至少两个公司信息之间的关系特征；77.与所确定的至少两个公司信息之间存在关联关系的公司信息；78.与所确定的至少两个公司信息之间存在关联关系的人员信息。79.可选地，在本公开任一实施例的装置中，用于训练所述识别模型的特征数据的维数大于或等于100。80.根据本公开实施例的第三个方面，提供的一种电子设备，包括：81.存储器，用于存储计算机程序；82.处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述第一方面的人员身份的识别方法中任一实施例的方法。83.根据本公开实施例的第四个方面，提供的一种计算机可读介质，该计算机程序被处理器执行时，实现如上述第一方面的人员身份的识别方法中任一实施例的方法。84.根据本公开实施例的第五个方面，提供的一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在设备上运行时，使得该设备中的处理器执行用于实现如上述第一方面的人员身份的识别方法中任一实施例的方法中各步骤的指令。85.根据本公开实施例的第六个方面，提供的一种计算机程序产品，其上存储有计算机程序，该计算机程序被处理器执行时，实现如上述第一方面的人员身份的识别方法中任一实施例的方法。86.基于本公开上述实施例提供的人员身份的识别方法、存储介质和计算机程序产品，可以从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，上述至少两个目标人员标识具有不同的关联关系信息，然后，分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息，最后，将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果，其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。本公开实施例中，可以基于轻量级梯度提升机预先构建的识别模型，识别两个目标人员标识指示的人员是否为同一人员，由此，通过选用轻量级梯度提升机可以提高表征能力和性能，提高了身份识别的准确度。87.下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。附图说明88.构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。89.参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：90.图1为本公开人员身份的识别方法的第一个实施例的流程图。91.图2为本公开人员身份的识别方法的第二个实施例的流程图。92.图3a‑图3f为本公开人员身份的识别方法的一个实施例的应用场景示意图。93.图4为本公开人员身份的识别装置的一个实施例的结构示意图。94.图5是本公开一示例性实施例提供的电子设备的结构图。具体实施方式95.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。96.本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。97.还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。98.还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。99.另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。100.还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。101.同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。102.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。103.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。104.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。105.本公开实施例可以应用于终端设备、计算机系统和服务器中的至少一种电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统和服务器中的至少一种电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。106.终端设备、计算机系统和服务器中的至少一种电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。107.请参考图1，示出了根据本公开的人员身份的识别方法的第一个实施例的流程100。该人员身份的识别方法，包括：108.101，从预先确定的人员标识集合中，确定至少两个相同的目标人员标识。109.在本实施例中，人员身份的识别方法的执行主体(例如服务器、终端设备、人员身份的识别装置等)可以通过有线连接方式或者无线连接方式从其他电子设备或者本地，获取预先确定的人员标识集合。然后，从该人员标识集合中，确定至少两个相同的目标人员标识。110.其中，人员标识集合中可以包含多个人员标识。人员标识可以是任何可以用于标识人员的信息。例如人员标识可以是人员的姓名。人员标识集合中，可以包含两个或多个相同的人员标识。预先确定的人员标识集合，可以是各种预先确定的人员标识的集合。实践中，可以将人员标识集合进行存储。作为示例。人员标识集合可以包括但不限于：从官方渠道获取的某一区域(例如国内)内的全部或部分公司中的职员的人员标识(例如姓名)。111.在这里，不同人员可以采用相同人员标识来表征。例如，两个自然人的姓名相同，若将姓名作为自然人的人员标识，那么，这两个自然人可以采用相同人员标识(也即姓名)来表征。112.实践中，人员标识集合中的人员标识，可以采用知识图谱中的节点或者其他形式表征。113.上述至少两个目标人员标识具有不同的关联关系信息。关联关系信息，可以包括：已存储的信息中，任何与人员标识具有关联关系的信息。例如，关联关系可以包括但不限于：人员标识指示的人员所属的团体组织的团体组织信息、年龄、性别、籍贯等等。114.这里，若人员标识集合中的人员标识采用知识图谱中的节点表征，那么，人员标识具有的关联关系信息，可以采用上述知识图谱或另一知识图谱中的节点或者边来表征；若人员标识集合中的人员标识存储于二维表或者数据库中，那么，人员标识具有的关联关系信息，可以与该人员标识关联存储于上述二维表或者数据库中。115.作为示例，上述101可以具体包含如下步骤：从预先确定的人员姓名集合中，确定人员姓名相同(也即两字符串相同)但隶属于不同公司的两个人员姓名。例如，隶属于甲公司的张三和隶属于乙公司的张三。116.102，分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息。117.在本实施例中，上述执行主体可以分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息。118.其中，团体组织信息，可以包括：已存储的、与人员标识(包含目标人员标识)具有关联关系的团体组织的信息。团体组织信息为人员标识指示的人员所在的团体组织的信息。例如，团体组织信息可以包括以下至少一项公司信息：所确定的至少两个公司信息之间的关系特征、与所确定的至少两个公司信息之间存在关联关系的公司信息、与所确定的至少两个公司信息之间存在关联关系的人员信息。可选的，团体组织信息还可以包括人员所在的城市信息、家庭信息等。119.需要说明的是，实践中，通常存在同一自然人隶属于两个或多个团体组织(例如同一自然人担任两家公司的股东)的情况，然而，在海量数据的应用场景下，通常无法将同一自然人隶属的全部团体组织的团体组织信息进行汇总和存储。这里，所确定出的人员标识对应的团体组织信息，允许并非涵盖该人员标识指示的人员隶属的全部团体组织的团体组织信息。120.103，将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。121.在本实施例中，上述执行主体可以将所确定的团体组织信息输入至基于轻量级梯度提升机(lightgbm，lightgradientboostingmachine)预先构建的识别模型，经由上述识别模型生成识别结果。122.其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。识别模型可以用于识别至少两个目标人员标识指示的人员是否为同一人员。123.作为示例，上述执行主体可以将所确定的团体组织信息中的两两团体组织信息，依次输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。124.这里，在模型选型方面，选用集成树模型中的轻量级梯度提升机。集成树模型与深度神经网络等方法相比，能够更加直接和妥善地处理非线性问题。进一步地，本实施例中，通过选用轻量级梯度提升机可以提高表征能力和性能，进而提高身份识别的准确度。125.实践中，上述识别模型可以基于预先确定的获取样本信息集合，采用有监督的方式训练得到。其中，上述样本信息集合中的样本信息包括团体组织信息和预先标注的、与团体组织信息相对应的标签信息，标签信息表征团体组织信息对应的两个人员标识是否指示同一人员。126.本公开的上述实施例提供的人员身份的识别方法，可以从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，上述至少两个目标人员标识具有不同的关联关系信息，之后，分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息，最后，将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果，其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。由此，通过选用轻量级梯度提升机可以提高表征能力和性能，进而提高了身份识别的准确度。127.在本实施例的一些可选的实现方式中，上述执行主体可以采用以下方式。来执行上述103：128.首先，在所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值的情况下，从所确定的团体组织信息中，选取预设的第二数量阈值个团体组织信息。其中，第一数量阈值、第二数量阈值可以分别为预先确定的数值，第一数量阈值可以大于第二数量阈值。129.之后，将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。130.可以理解，上述可选的实现方式中，在所确定的团体组织信息指示的团体组织的数量过多(即所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值)的情况下，可以从中选取部分团体组织信息，作为识别模型的输入。这样，可以在团体组织的数量过多的情况下，通过限制团体组织信息的数量为第二数量阈值，来减少识别模型的输入数据，这样可以提高身份识别的速度。131.在本实施例的一些可选的实现方式中，上述执行主体也可以采用以下方式，来执行上述103：132.首先，在所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值的情况下，确定所确定的团体组织信息指示的团体组织所在的区域，得到区域集合。其中，团体组织所在的区域，可以是团体组织(例如公司)的活动区域或者注册区域等等。133.之后，针对上述区域集合中的区域，从位于该区域的团体组织的团体组织信息中，选取至少一个团体组织信息。134.最后，将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。135.可以理解，上述可选的实现方式中，在所确定的团体组织信息指示的团体组织的数量过多(即所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值)的情况下，可以优先在不同的区域(例如城市)中进行分组采样，从中选取部分团体组织信息，作为识别模型的输入。这样，可以在团体组织的数量过多的情况下，通过分组采用，来减少识别模型的输入数据，这样可以提高身份识别的速度。136.在本实施例的一些可选的实现方式中，上述执行主体还可以采用以下方式，来执行上述103：137.将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型确定上述至少两个目标人员标识对应的团体组织信息之间的欧式距离，以及基于上述欧氏距离生成识别结果。138.可以理解，上述可选的实现方式中，可以采用识别模型计算团体组织信息之间的欧式距离，并基于欧氏距离生成识别结果，由此，在人员标识集合为知识图谱中的节点表征的人员标识的集合的情况下，可以将图域特征转化为欧式空间中的特征，进而实现身份识别。139.在本实施例的一些可选的实现方式中，上述执行主体可以执行如下步骤：140.将上述识别模型和所确定的团体组织信息输入至预先训练的解释模型，经由上述解释模型生成上述识别模型针对上述识别结果的解释信息。141.其中，解释模型可以是shap(shapleyadditiveexplanation)模型、lime(localinterpretablemodel‑agnosticexplanations)模型等。142.可以理解，现有技术中，由于模型的使用往往欠缺可解释性，无法在实际业务中简单、直观地给出预测结果的原因，导致其无法得到充分的应用。上述可选的实现方式中，可以通过解释模型对于识别模型生成的识别结果进行解释，说明主要影响因素，从而能够排除多重共线性对于特征效应的影响。143.在本实施例的一些可选的实现方式中，上述执行主体可以执行如下步骤：144.首先，获取样本信息集合。其中，上述样本信息集合中的样本信息包括团体组织信息和预先标注的、与团体组织信息相对应的标签信息。标签信息表征团体组织信息对应的两个人员标识是否指示同一人员。145.之后，从上述样本信息集合中，确定训练样本集合。这里，可以按照一定的策略或者随机的从样本信息集合中，选取样本信息，从而得到训练样本集合。146.随后，将上述训练样本集合中的训练样本包括的团体组织信息作为输入数据，将与输入数据相对应的标签信息作为期望输出数据，训练得到识别模型。147.可以理解，上述可选的实现方式中，可以采用有监督的方式训练得到识别模型。148.在上述可选的实现方式中的一些应用场景下，上述执行主体还可以执行如下步骤：149.首先，从上述样本信息集合中，确定验证样本集合。这里，可以按照一定的策略或者随机的从样本信息集合中，选取样本信息，从而得到验证样本集合。例如，可以随机地将样本信息集合划分为两部分，将其中一部分样本信息的集合作为训练样本集合，将另一部分样本信息的集合作为验证样本集合。这里，训练样本集合和验证样本集合二者中的样本信息的数量可以任意确定。例如，训练样本集合中的样本信息的数量，与验证样本集合中的样本信息的数量，二者的比值可以是4比1。150.之后，基于上述验证样本集合，计算上述识别模型的受试者工作特征曲线下面积(roc，receiveroperatingcurve)、准确率(accuracy)、精确率(precision)、召回率(recall)中的至少一项。151.可以理解，上述应用场景中，可以通过计算上述识别模型的受试者工作特征曲线下面积、准确率、精确率、召回率中的至少一项，来评估识别模型的识别结果，进而确保所应用的识别模型在身份识别上具有较高的正确性。152.在本实施例的一些可选的实现方式中，团体组织信息包括公司信息。在此基础上，上述执行主体可以采用如下方式，来执行上述102：分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的公司信息。153.进一步地，上述执行主体可以采用如下方式，来执行上述103：154.将以下至少一项输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果：155.第一项，所确定的至少两个公司信息之间的关系特征。例如，一个人在两个公司的参股时间、投资金额、两个公司的分支机构之间的关系信息等。156.第二项，与所确定的至少两个公司信息之间存在关联关系(例如投资关系)的各个公司信息。例如，各个公司信息指示的公司的实收资本总和、股东数量均值等。157.第三项，与所确定的至少两个公司信息之间存在关联关系的人员信息。例如，知识图谱中，表征各个人员信息(可以采用知识图谱中的一个节点表征)的节点的度数的倒数之和等。158.可以理解，上述可选的实现方式中，可以基于上述至少一项生成识别结果，从而可以进一步提高身份识别的准确度。159.在本实施例的一些可选的实现方式中，用于训练上述识别模型的特征数据的维数大于或等于100。160.作为示例，可以在递归特征移除(recursivefeatureelimination，rfe)的基础上，从多维特征(例如可以是345维特征)中选择部分特征(例如可以选取105维特征)进入识别模型。161.可以理解，上述可选的实现方式中，可以通过选用较多维数的特征，来实现身份识别，从而进一步提高了身份识别的准确度。162.进一步参考图2，图2是本公开的人员身份的识别方法的第二个实施例的流程图。该人员身份的识别方法的流程200，包括：163.201，从知识图谱中的节点表征的人员标识的集合中，确定至少两个相同的目标人员标识。164.在本实施例中，人员身份的识别方法的执行主体(例如服务器、终端设备、人员身份的识别装置等)可以通过有线连接方式或者无线连接方式从其他电子设备或者本地，获取知识图谱中的节点表征的人员标识的集合。然后，从该人员标识集合中，确定至少两个相同的目标人员标识。165.其中，人员标识集合中可以包含多个人员标识。人员标识可以是任何可以用于标识人员的信息。例如人员标识可以是人员的姓名。166.在这里，不同人员可以采用相同人员标识来表征。例如，两个自然人的姓名相同，若将姓名作为自然人的人员标识，那么，这两个自然人可以采用相同人员标识(也即姓名)来表征。167.预先确定的人员标识集合，可以是各种预先确定的人员标识的集合。实践中，可以将人员标识集合进行存储。作为示例。人员标识集合可以包括但不限于：从官方渠道获取的某一区域(例如国内)的全部或部分公司中的职员的人员标识(例如姓名)。人员标识集合中的人员标识，可以采用知识图谱中的节点表征。该知识图谱中的边可以表征与节点具有关联关系的关系信息或属性信息。168.这里，知识图谱中可以包含至少两个指代同一人员标识的节点，但不同节点的关联关系信息通常不同。由此，上述执行主体可以从知识图谱中的节点表征的人员标识(例如姓名)的集合中，确定至少两个相同的目标人员标识。169.在本实施例中，关联关系信息采用预先确定的知识图谱中的节点或者边表征，人员标识采用上述知识图谱中的节点表征。170.202，分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息。171.在本实施例中，上述执行主体可以分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息。其中，团体组织信息为人员标识指示的人员所在的团体组织的信息172.在本实施例中，202与图1对应实施例中的102基本一致，这里不再赘述。173.203，从将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。174.在本实施例中，上述执行主体可以将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。175.在本实施例中，步骤203与图1对应实施例中的步骤103基本一致，这里不再赘述。176.需要说明的是，除上面所记载的内容外，本技术实施例还可以包括与图1对应的实施例相同或类似的特征、效果，在此不再赘述。177.从图2中可以看出，本实施例中的人员身份的识别方法的流程200可以从知识图谱中的节点表征的人员标识的集合中，确定至少两个相同的目标人员标识，由此，可以基于轻量级梯度提升机，来识别知识图谱中的节点表征的人员标识指示的人员是否为同一人员。这样，可以将知识图谱中图结构的节点和/或边之间的关系信息，抽象为轻量级梯度提升机构建的识别模型中的特征数据，从而提高了大数据应该用场景下身份识别的准确度。178.在本实施例的一些可选的实现方式中，上述执行主体还可以执行如下步骤：179.首先，基于上述识别结果，采用相同聚类标识，对上述知识图谱中表征同一人员的多个目标人员标识进行标记。180.之后，可以基于上述知识图谱中的目标人员标记的每个聚类标识，计算针对该聚类标识的识别结果的精准性、全面性、准确性中的至少一项。181.这里，在经由上述识别模型获得识别结果后，知识图谱中表征同一人员的多个人员标识可以标记有相同的聚类标识。这样，对于每个聚类标识，可以得到针对该聚类标识的预测的团体组织信息指示的团体组织的集合(以下称预测团体组织集合)，以及针对该聚类标识的真实的团体组织信息指示的团体组织的集合(以下称真实团体组织集合)。其中，真实的团体组织信息指示的团体组织的集合，可以基于样本信息集合中的标签信息得到。182.作为示例，针对该聚类标识的识别结果的精准性p、全面性r、准确性a，可以采用如下公式计算得到：183.p＝tp÷(tp fp)184.r＝tp÷(tp fn)185.a＝tp÷(tp fp fn)186.其中，tp表示预测团体组织集合与真实团体组织集合的交集中的团体组织的数量，即预测正确的数量；fp表示预测团体组织集合与真实团体组织集合的差集中的团体组织的数量，即预测错误的数量；fn表示真实团体组织集合与预测团体组织集合的差集中的团体组织的数量，即预测遗漏的数量。187.可以理解，上述可选的实现方式中，可以基于知识图谱针对该聚类标识的识别结果的精准性、全面性、准确性中的至少一项，来度量聚类结果，以便得知识别结果最终是否没有包含错误的关系、是否包含了所有的关系，以及准确性。从而实现了基于精准性、全面性、准确性的识别结果的评估。188.下面以团体组织信息为公司信息为例，对本实施例进行举例说明：189.请参考图3a‑图3f，图3a‑图3f为本公开人员身份的识别方法的一个实施例的应用场景示意图。190.在图3a中：首先，可以进行数据加工准备。191.该应用场景中，涉及的数据主要包括两部分：192.第一部分是原始数据。这里可以通过第三方采购的方式获取房地产行业相关的所有企业及人员数据。例如：公司基本信息、主要人员、股东信息、变更信息、人基本信息等。由于企业库中天然存在着关联的特征，因此数据可以以知识图谱的方式呈现。其中，知识图谱可以包含节点和边。每个节点可以是公司节点(表征公司)或人员节点(表征人员)，边表征法人、投资、任职等关系。公司和人员节点上都可以具有额外的信息。193.第二部分是样本信息集合。其中，可以将样本信息集合划分为训练样本集合、测试样本集合和验证样本集合。这里，可以通过接口调用等方式获取样本信息集合用于构建识别模型，对于同名人员的所有公司，选取任意两个公司作为组合。如果这个“公司c1‑人员p‑公司c2”三元组中，两家公司的同名人员是同一自然人，那么就是我们预测问题的正例(label＝1)，反之为负例(label＝0)。其中，公司c1‑人员p‑公司c2，可以表征知识图谱中，表征公司c1的公司节点和表征公司c2的公司节点，分别与表征人员p的人员节点具有关联关系，然而，在该知识图谱中，与表征公司c1的公司节点具有关联关系的表征人员p的人员节点，以及与表征公司c2的公司节点具有关联关系的表征人员p的人员节点，二者并非一个人员节点，也即，该知识图谱中，采用两个人员节点来分别表征：与表征公司c1的公司节点具有关联关系的表征人员p的人员节点，以及与表征公司c2的公司节点具有关联关系的表征人员p的人员节点。194.之后，可以进行metapath图特征工程步骤。这里，可以基于metapath的图特征工程，将图结构问题抽象，转化为欧式空间问题。其中，metapath为包含关系信息的路径，而这些关系信息定义在不同类型的对象之间。195.具体而言，可以基于以下三种metapath进行图特征工程，将以下三种metapath输入至识别模型，以使图结构数据抽象到欧式特征空间：公司c1‑公司c2、公司c1‑公司c’‑公司c2、公司c1‑人员p’‑公司c2。196.其中，公司c1、公司c2中分别包含人员p。该应用场景中，所需确定的是公司c1中的人员p与公司c2中的人员p是否为同一自然人。如果公司c1中的人员p与公司c2中的人员p是否为同一自然人，那么可以将知识图谱(也可以称之为企业关系图谱)中的公司c1中的人员p与公司c2中的人员p聚合在一起并赋予相同的聚合分割id(即上述聚类标识)。此外，可以通过特征工程的方式，将领域知识(domainknowledge)融合在识别模型的输入数据中，从而将图结构转化为欧式空间问题，从而更好地学习。这样的方式在数据规模有限的情况下是较为理想的，而在样本更加丰富的，基于图神经网络(gnn，graphneuralnetworks)的端到端学习可能是更加理想的。197.作为示例，请参考图3b，图3b是采用“公司c1‑公司c’‑公司c2”来表征metapath的一个示意图。在图3b中，虚框内的公司1‑3，可以采用“公司c1‑公司c’‑公司c2”来表征metapath。198.此外，公司c1‑公司c2，可以用于加工公司c1和公司c2之间关系的特征，如人员p在公司c1、公司c2的参股时间、投资金额、公司c1、公司c2的分支机构关系等；也可以用于加工公司c1和公司c2的属性相似度的特征，如公司名称分词的jaccard相似度。公司c1‑公司c’‑公司c2，可以用于加工中间多个公司c’的特征，并进行聚合，如多个公司c’的实收资本总和、股东数量均值等；也可以用于加工两端公司(即公司c1和公司c2)与中间公司c’之间的关系的特征，如股权比例信息等。公司c1‑人员p’‑公司c2，可以用于加工中间人员p’的特征，并进行聚合，如人员节点的度数(即图中的边的数量)的倒数的总和等；也可以用于加工两端公司(即公司c1和公司c2)与中间人员p’的关系的特征，如中间人员p’在公司c1和公司c2的任职类型等。199.在本示例中，可以创建345维特征，在此仅选取4个典型特征如下表所示：200.典型特征取值示例*公司1xxx科技有限公司公司2yyy科技有限公司同名人员甲公司1投资公司2金额100万元公司名称jaccard相似度0.5与这两家公司都有关联的公司数3与这两家公司都有关联的人名数2201.然后，可以使用集成树模型(例如lightgbm)进行识别，并使用shap作为解释模型提供模型预测结果的解释。202.这里，在模型选型方面，选用集成树模型。首先，集成树模型与深度神经网络等方法相比，能够更加直接和妥善地处理非线性问题，此处选择了表征能力和性能均较好的lightgbm。可解释性方面，通过shap(shapleyadditiveexplanation)的方法对于lightgbm的预测结果进行解释，说明主要影响因素，该方法能够排除多重共线性对于特征效应的影响。203.这里，对识别模型进行建模的流程和步骤主要包括：数据预处理、探索性数据分析(exploratorydataanalysis，eda)、管道模型(pipeline)构建、特征选择、贝叶斯优化调参、模型评估。其中：204.在特征选择方面：在递归特征移除(recursivefeatureelimination，rfe)的基础上，提出了使用固定比例代替固定数量的方法，使得前期收敛较快，而后期特征选择更加精细。最终，我们从345维特征中共选择了105维特征进入最后的模型。rfe迭代过程中，特征数、auc(roc(receiveroperatingcharacteristiccurve)曲线下方的面积大小，areaundercurve)指标的变动情况如图3c所示。205.在模型评估方面：我们在两个局部和全局两个层面上进行了模型评估，并在时间维度上评估模型的稳定性。其中：206.局部层面是指“公司c1‑人员p‑公司c2”的关系预测是否正确，也即识别结果是否正确。具体可以通过以下方面进行评估：受试者工作特征曲线下面积(auc‑roc)、准确率(accuracy)、精确率(precision)、召回率(recall)等。其中roc曲线下面积auc达到了0.9768，roc曲线如图3d所示。207.全局层面是指，通过全局精准率和全局召回率，来评估聚类结果是否准确、是否全面，主要定义如下两个指标：全局精准率和全局召回率。其中，全局精准率表征聚类结果划分的自然人不包含错误关系的比例。全局召回率表征实际的自然人(基于标签信息确定)其所有的关系都被找到的比例。时间维度模型稳定性主要使用一段时间后的数据重新评估模型效力衰减情况。208.随后，也可以采用shap解释模型，来生成上述识别模型针对上述识别结果的解释信息。209.具体而言，可以通过shap的方法对于lightgbm的预测结果进行解释，说明主要影响因素，该方法能够排除多重共线性对于特征效应的影响。解释信息可以反映出：对于模型预测产生正向影响的因素，即关系成立的原因，并且长度越长代表重要性越高；以及负向因素，即关系不成立的原因。210.接下来，可以进行企业人员聚合分割，获得聚类结果。211.具体而言，可以基于关系阈值联通分量的聚合分割，训练置信度模型，提供多种置信度度量。212.我们选定阈值后通过计算图联通分量(connectedcomponents)的方式，将不同公司中同名人员中应该是同一自然人的聚合在一起，并将不同的联通分量分割，赋予不同的聚合分割id。例如，某相同人名人员p在四家公司中出现，它们分别是c1、c2、c3、c4，且预测结果如下表所示：213.公司公司预测c1c21c1c31c1c40c2c30c2c40c3c40214.则c1、c2、c3中的人员应该被赋予相同的聚合分割id，而c4中的人员则是单独的聚合分割id，作为示例，c1、c2、c3、c4之间的关系可以如图3e所示。215.下面，可以继续进行置信度建模。216.具体而言，我们在两个局部和全局两个层面上进行了模型评估，并且在时间维度上评估模型的稳定性。局部层面是指“公司c1‑人员p‑公司c2”的关系预测是否正确，全局层面是指我们认为是聚合分割结果是否准确、是否全面。217.我们提出了“精准性”、“全面性”、“准确性”三种置信度的定义，分别度量聚合分割结果：是否没有包含错误的关系；是否包含了所有的关系；综合的准确性度量。我们可以通过子模型训练的方法较好地给出置信度分数。218.这里，在经由上述识别模型获得识别结果后，知识图谱中表征同一人员的多个人员标识可以标记有相同的聚类标识。这样，对于每个聚类标识，可以得到针对该聚类标识的预测的公司的集合(以下称预测公司集合)，以及针对该聚类标识的真实的公司的集合(以下称真实公司集合)。其中，真实的公司的集合，可以基于样本信息集合中的标签得到。219.示例性的，可以采用如下公式，来计算精准性p、全面性r和准确性a三个置信度：220.p＝tp÷(tp fp)221.r＝tp÷(tp fn)222.a＝tp÷(tp fp fn)223.其中，tp表示预测公司集合与真实公司集合的交集中的公司的数量，即预测正确的数量；fp表示预测公司集合与真实公司集合的差集中的公司的数量，即预测错误的数量；fn表示真实公司集合与预测公司集合的差集中的公司的数量，即预测遗漏的数量。224.需要说明的是，我们首先找到该聚合分割id所包含的公司交集最大的真实自然人作为该聚合分割id的真实自然人，如果有两个以上真实自然人交集数量相等，则取外部差集最小的公司集合。225.示例性的，可以通过图3f给出三个计算示例，其中实线框代表预测公司集合、虚线框代表真实公司集合。226.此外，可以通过子模型的方式学习并预测这三种置信度。例如，组内平均预测概率越小，则精准性置信度越低，即可能有错误；组间最大预测概率越大，则全面性置信度越低，即可能有遗漏。本部分子模型的特征工程、模型选型部分不再详细介绍，主要参考以上思想即可较为容易地实现。227.最后，可以进行模型部署上线和模型监控迭代。228.具体地，可以通过分布式模型部署预测的方式，使用jpmml模型对于新样本进行离线的预测。此外，模型上线后还需要定期地更新验证数据，监控模型评价指标衰减情况，必要时进行迭代更新。229.上述应用场景中，可以提高公司中人员身份识别的准确性、结果可解释，并且可以分置信度地解决人员身份识别问题，使用部分相对准确的自然人身份信息，补充不同公司的同名人员应该是同一自然人的关系。同时考虑企业节点属性、图结构关联关系、交互特征等信息。模型选型具有非线性拟合能力，同时具有一定的可解释性。结果处理能够给出解释外，还应给出预测的置信度，便于区分处理。230.进一步参考图4，作为对上述各图所示方法的实现，本公开提供了一种人员身份的识别装置的一个实施例，该装置实施例与图1、图2、图3a‑图3f所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图1、图2、图3a‑图3f所示的方法实施例相同或相应的特征，以及产生与图1、图2、图3a‑图3f所示的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。231.如图4所示，本实施例的人员身份的识别装置400包括：第一确定单元401、第二确定单元402和第一输入单元403。其中，第一确定单元401，被配置成从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，上述至少两个目标人员标识具有不同的关联关系信息；第二确定单元402，被配置成分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息；第一输入单元403，被配置成将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果，其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。232.在本实施例中，人员身份的识别装置400的第一确定单元401可以从预先确定的人员标识集合中，确定至少两个相同的目标人员标识。其中，上述至少两个目标人员标识具有不同的关联关系信息。233.在本实施例中，上述第二确定单元402可以分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息。其中，团体组织信息为人员标识指示的人员所在的团体组织的信息。234.在本实施例中，上述第一输入单元403可以将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。235.在本实施例的一些可选的实现方式中，上述第一输入单元403包括：236.第一选取子单元(图中未示出)，被配置成响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，从所确定的团体组织信息中，选取预设的第二数量阈值个团体组织信息；237.第一输入子单元(图中未示出)，被配置成将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。238.在本实施例的一些可选的实现方式中，上述第一输入单元403包括：239.第一确定子单元(图中未示出)，被配置成响应于所确定的团体组织信息指示的团体组织的数量大于或等于预设的第一数量阈值，确定所确定的团体组织信息指示的团体组织所在的区域，得到区域集合；240.第二选取子单元(图中未示出)，被配置成针对上述区域集合中的区域，从位于该区域的团体组织的团体组织信息中，选取至少一个团体组织信息；241.第二输入子单元(图中未示出)，被配置成将所选取的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果。242.在本实施例的一些可选的实现方式中，上述第一输入单元403包括：243.第三输入子单元(图中未示出)，被配置成将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型确定上述至少两个目标人员标识对应的团体组织信息之间的欧式距离，以及基于上述欧氏距离生成识别结果。244.在本实施例的一些可选的实现方式中，上述装置400还包括：245.第二输入子单元(图中未示出)，被配置成将上述识别模型和所确定的团体组织信息输入至预先训练的解释模型，经由上述解释模型生成上述识别模型针对上述识别结果的解释信息。246.在本实施例的一些可选的实现方式中，上述装置400还包括：247.获取单元(图中未示出)，被配置成获取样本信息集合，其中，上述样本信息集合中的样本信息包括团体组织信息和预先标注的、与团体组织信息相对应的标签信息，标签信息表征团体组织信息对应的两个人员标识是否指示同一人员；248.第三确定单元(图中未示出)，被配置成从上述样本信息集合中，确定训练样本集合；249.训练单元(图中未示出)，被配置成将上述训练样本集合中的训练样本包括的团体组织信息作为输入数据，将与输入数据相对应的标签信息作为期望输出数据，训练得到识别模型。250.在本实施例的一些可选的实现方式中，上述装置400还包括：251.第四确定单元(图中未示出)，被配置成从上述样本信息集合中，确定验证样本集合；252.第一计算单元(图中未示出)，被配置成基于上述验证样本集合，计算上述识别模型的受试者工作特征曲线下面积、准确率、精确率、召回率中的至少一项。253.在本实施例的一些可选的实现方式中，关联关系信息采用预先确定的知识图谱中的节点或者边表征，人员标识采用上述知识图谱中的节点表征；以及254.上述第一确定单元401包括：255.第二确定子单元(图中未示出)，被配置成从上述知识图谱中的节点表征的人员标识的集合中，确定至少两个相同的目标人员标识。256.在本实施例的一些可选的实现方式中，上述装置400还包括：257.标记单元(图中未示出)，被配置成基于上述识别结果，采用相同聚类标识，对上述知识图谱中表征同一人员的多个目标人员标识进行标记；258.第二计算单元(图中未示出)，被配置成基于上述知识图谱中的目标人员标记的聚类标识，计算上述知识图谱的识别结果的精准程度、全面程度、准确程度的至少一项。259.在本实施例的一些可选的实现方式中，团体组织信息包括公司信息；以及260.上述第二确定单元402包括：261.第三确定子单元(图中未示出)，被配置成分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的公司信息；以及262.上述第一输入单元401包括：263.第三输入子单元(图中未示出)，被配置成将以下至少一项输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果：264.所确定的至少两个公司信息之间的关系特征；265.与所确定的至少两个公司信息之间存在关联关系的公司信息；266.与所确定的至少两个公司信息之间存在关联关系的人员信息。267.在本实施例的一些可选的实现方式中，用于训练上述识别模型的特征数据的维数大于或等于100。268.本公开的上述实施例提供的人员身份的识别装置400中，第一确定单元401可以从预先确定的人员标识集合中，确定至少两个相同的目标人员标识，其中，上述至少两个目标人员标识具有不同的关联关系信息，之后，第二确定单元402可以分别从上述至少两个目标人员标识具有的关联关系信息中，确定上述至少两个目标人员标识分别对应的团体组织信息，其中，团体组织信息为人员标识指示的人员所在的团体组织的信息，最后，第一输入单元403可以将所确定的团体组织信息输入至基于轻量级梯度提升机预先构建的识别模型，经由上述识别模型生成识别结果，其中，上述识别结果表征上述至少两个目标人员标识指示的人员是否为同一人员。这样，本公开实施例中，可以基于轻量级梯度提升机预先构建的识别模型，识别两个目标人员标识指示的人员是否为同一人员，由此，通过选用轻量级梯度提升机可以提高表征能力和性能，提高了身份识别的准确度。269.下面，参考图5来描述根据本公开实施例的电子设备。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。270.图5图示了根据本公开实施例的电子设备的框图。271.如图5所示，电子设备5包括一个或多个处理器501和存储器502。272.处理器501可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。273.存储器502可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器501可以运行所述程序指令，以实现上文所述的本公开的各个实施例的人员身份的识别方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。274.在一个示例中，电子设备还可以包括：输入装置503和输出装置504，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。275.例如，在该电子设备是第一设备或第二设备时，该输入装置503可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置503可以是通信网络连接器，用于从第一设备和第二设备接收所采集的输入信号。276.此外，该输入装置503还可以包括例如键盘、鼠标等等。该输出装置504可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置504可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。277.当然，为了简化，图5中仅示出了该电子设备中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。278.除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的人员身份的识别方法中的步骤。279.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。280.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd‑rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。281.以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。282.本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。283.本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。284.本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。285.可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。286.本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：数据处理方法、装置、电子设备及计算机可读存储介质与流程

人员身份的识别方法、存储介质和计算机程序产品与流程

相关文献

最热文献