对象集合识别方法、装置、计算机设备及存储介质与流程

2022-06-11 17:37:36 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别涉及对象集合识别方法、装置、计算机设备及存储介质。

背景技术：

2.随着医保体系的不断完善，医保已成为人民群众生活的重要组成部分，但随之而来的，非正常的医保行为也时有发生，如何有效识别非正常医保行为已经成为业内亟待解决。
3.在相关技术中，通常基于已经被发现存在非正常医保行为的用户，对该用户进行属性特征提取，并将该用户的属性特征与其他各个用户的属性特征进行相似性计算，将与该用户属性特征相似的其他用户作为可能存在非正常医保行为的用户，从而达到对可能存在非正常医保行为的用户进行筛选的目的。
4.然而，上述方案仅通过用户属性特征进行非正常医保用户识别，容易出现误识别的情况，导致识别的准确性较低。

技术实现要素：

5.本技术实施例提供了一种对象集合识别方法、装置、计算机设备及存储介质，可以提高非正常行为的对象筛选的准确性，该技术方案如下：
6.一方面，提供了一种对象集合识别方法，所述方法包括：
7.获取各个对象对应的异构图，所述异构图用于指示所述各个对象与各个服务机构之间的关系；
8.基于所述异构图，提取所述各个对象各自的关系特征；
9.获取所述各个对象各自的行为序列，所述行为序列中包含对象和服务机构之间的交互行为的行为记录；且所述行为序列中的行为记录按照时序排列；
10.基于所述各个对象各自的行为序列，提取所述各个对象各自的行为时序特征；
11.基于所述各个对象各自的关系特征，以及所述各个对象各自的行为时序特征对所述各个对象进行聚类，获得至少一个对象集合；
12.从所述至少一个对象集合中识别出目标对象集合；所述目标对象集合是存在指定交互行为的对象集合。
13.另一方面，提供了一种对象集合识别装置，所述装置包括：
14.异构图获取模块，用于获取各个对象对应的异构图，所述异构图用于指示所述各个对象与各个服务机构之间的关系；
15.第一特征获取模块，用于基于所述异构图，提取所述各个对象各自的关系特征；
16.序列获取模块，用于获取所述各个对象各自的行为序列，所述行为序列中包含对象和服务机构之间的交互行为的行为记录；且所述行为序列中的行为记录按照时序排列；
17.第二特征获取模块，用于基于所述各个对象各自的行为序列，提取所述各个对象
各自的行为时序特征；
18.聚类模型，用于基于所述各个对象各自的关系特征，以及所述各个对象各自的行为时序特征对所述各个对象进行聚类，获得至少一个对象集合；
19.识别模块，用于从所述至少一个对象集合中识别出目标对象集合；所述目标对象集合是存在指定交互行为的对象集合。
20.在一种可能的实现方式中，所述服务机构包括第一类型机构，以及第二类型机构；所述第一类型机构用于向对象提供与所述交互行为对应的目标服务，所述第二类型机构用于为对象接受所述目标服务所需的资源提供资源补偿；
21.所述异构图获取模块，用于，
22.获取所述各个对象各自的对象信息、各个所述第一类型机构的机构信息以及各个所述第二类型机构的机构信息；
23.基于所述各个对象各自的对象信息、各个所述第一类型机构的机构信息以及各个所述第二类型机构的机构信息，生成所述异构图；
24.其中，所述异构图中包含与对象对应的对象节点、与所述第一类型机构对应的第一类型机构节点以及与所述第二类型机构对应的第二类型机构节点；所述对象节点与所述第一类型机构节点之间的边用于指示所述第一类型机构向对象提供所述目标服务的次数；所述对象节点与所述第二类型机构节点之间的边用于指示对象与所述第二类型机构之间存在从属关系。
25.在一种可能的实现方式中，所述行为记录用于指示对象接受所述第一类型机构提供的所述目标服务的行为信息；
26.其中，所述行为信息包括：所述第一类型机构的机构标识、所述目标服务的发生时间以及与所述目标服务对应的资源数量。
27.在一种可能的实现方式中，所述聚类模型，用于，
28.将所述各个对象各自的关系特征，与所述各个对象各自的行为时序特征进行拼接，获得所述各个对象各自的聚类特征；
29.基于所述各个对象各自的聚类特征进行聚类，获得所述至少一个对象集合。
30.在一种可能的实现方式中，所述聚类模型，用于，
31.通过相似节点加速库，获取所述各个对象各自对应的相似对象集合，所述相似对象集合中包含与对应对象之间的相似度距离最近的n个其它对象；所述相似度距离用于标识两个对象之间的聚类特征之间的相似度；
32.基于所述各个对象各自的相似对象集合，以及所述各个对象与各自的相似对象集合中的对象之间的相似度距离进行聚类，获得所述至少一个对象集合。
33.在一种可能的实现方式中，所述聚类模型，用于，
34.获取所述各个对象各自的对象属性特征；
35.将所述各个对象各自的关系特征、所述各个对象各自的行为时序特征、以及所述各个对象各自的对象属性特征进行拼接，获得所述各个对象各自的聚类特征。
36.在一种可能的实现方式中，所述第二特征获取模块，用于，
37.将目标对象的行为序列输入时序挖掘模型，获得所述时序挖掘模型输出的，所述目标对象的行为时序特征；所述目标对象是所述各个对象中的任意一个对象；
38.其中，所述时序挖掘模型包括词-向量模型，以及基于转换器的双向编码表征bert模型中的至少一种。
39.在一种可能的实现方式中，所述第一特征获取模块，用于，
40.将所述异构图输入图神经网络模型，获得所述图神经网络输出的，所述各个对象各自的关系特征；
41.所述图神经网络包括hinsage模型。
42.在一种可能的实现方式中，所述图神经网络为基于注意力机制的图神经网络。
43.在一种可能的实现方式中，所述识别模块，用于，
44.对所述至少一个对象集合进行异常检测，获得所述至少一个对象集合中的异常团体集合；
45.基于目标规则对所述至少一个对象集合进行匹配，获得所述至少一个对象集合中的规则匹配团体集合；所述目标规则包括存在指定交互行为的对象集合所满足的规则；
46.对所述异常团体集合与所述规则匹配团体集合取交集，获得所述目标对象集合。
47.在一种可能的实现方式中，所述识别模块，用于，
48.提取所述至少一个对象集合各自的团体特征；
49.将所述至少一个对象集合各自的团体特征输入团体检测模型，获得所述团体检测模型的团体检测结果，所述团体检测结果用于指示所述目标对象集合。
50.另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条计算机指令，所述至少一条计算机指令由所述处理器加载并执行以实现上述对象集合识别方法。
51.另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现上述对象集合识别方法。
52.另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的对象集合识别方法。
53.本技术提供的技术方案可以包括以下有益效果：
54.通过异构图提取对象与服务机构之间的关系相关的关系特征，并通过对象与机构之间的行为记录构成的时序序列提取对象的行为时序特征，再结合两种特征对各个对象进行聚类，再从聚类得到的对象集合中识别出存指定交互行为的对象集合。由于异构图能够有效的整合对象与服务机构之间的联系，可以更加有效的学习到不同的对象表示，同时，对象的行为记录构成的时序序列能够更好的体现出对象之间的行为相似度，因此，上述方案通过异构图和行为序列的结合，能够准确的对对象进行聚类，从而提高从聚类结果中识别出的，存在指定交互行为的对象集合的准确性。
附图说明
55.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
56.图1示出了本技术一示例性实施例示出的对象集合识别方法的流程图；
57.图2示出了本技术一示例性实施例提供的对象集合识别方法的流程图；
58.图3是图2所示实施例涉及的两种类型的点的示意图；
59.图4是图2所示实施例涉及的加速过程示意图；
60.图5是图2所示实施例涉及的对象集合检测框架的示意图；
61.图6是图2所示实施例涉及的可视化聚类效果图；
62.图7示出了本技术一示例性实施例提供的对象集合识别装置的方框图；
63.图8是根据一示例性实施例示出的计算机设备的结构框图。
具体实施方式
64.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
65.应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
66.本技术实施例提供了一种目标对象集合识别方法，可以提高获取非正常交互服务的效率和准确性。本技术各个实施例所示的方案可应用于云技术、人工智能、智慧交通等各种场景。为便于理解，下面对本技术涉及的几个名词进行解释。
67.1)图嵌入(graph embedding)
68.图嵌入是一种将图数据(通常为高维稠密的矩阵)映射为低稠密向量的过程，旨在将图的节点表示成一个低维向量空间，同时保留网络的拓扑结构和节点信息，以便在后续的图分析任务中可以直接使用现有的机器学习算法。
69.2)异构图
70.异构图指的是图中存在不同类型的节点和边(节点和边至少有一个具有多种类型)，常见于知识图谱的场景。最简单的处理异构信息的方式是使用独热编码类型信息并拼接在节点原有表示上。异质图在实际生活中比同质图要更为常见，或者可以认为同质图中的节点间存在多种类型的边(关系)，同时每一条边所具有的不同属性也会影响节点间的远近亲疏。
71.异构图表示学习的目的是为每个节点寻求一个有意义的向量表示，以方便后续应用，如链路预测、个性化推荐、节点分类等。然而，这个任务实现起来很困难。因为不仅需要将异构结构组成的多种类型的节点和边的信息整合，还需要考虑与每个节点相关联的异构属性、异构内容。尽管在同构图嵌入、属性图嵌入以及图神经网络等方面做了大量的工作，但很少有人能够有效地联合考虑异构结构(图)信息以及各节点的异构内容信息。
72.3)人工智能(artificial intelligence，ai)
73.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能
以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
74.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
75.4)机器学习(machine learning，ml)
76.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
77.图1示出了本技术一示例性实施例示出的对象集合识别方法的流程图，该对象集合识别方法可以由计算机设备执行，该计算机设备可以实现为服务器或者终端，如图1所示，该对象集合识别方法包括：
78.步骤110，获取各个对象对应的异构图，异构图用于指示各个对象与各个服务机构之间的关系。
79.其中，上述对象可以是指用户，比如医保用户。
80.在本技术实施例中，上述异构图中除了包含对象对应的节点之外，还包含各个服务机构对应的节点，对象对应的节点与服务机构对应的节点之间存在边，可以表示该对象与该服务机构之间存在一定的关系。
81.步骤120，基于异构图，提取各个对象各自的关系特征。
82.在本技术实施例中，基于上述异构图，可以提取各个对象与各个服务机构之间的关系相关的特征，即上述关系特征。
83.步骤130，获取各个对象各自的行为序列，行为序列中包含对象和服务机构之间的交互行为的行为记录；且行为序列中的行为记录按照时序排列。
84.在本技术实施例中，一个对象与某一个服务机构之间发生的一次交互行为，可以通过一条行为记录来进行标识，对于同一个对象与各个服务机构之间发生的历次交互行为对应的行为记录，可以按照时间先后的顺序进行排列，得到该对象的行为序列。
85.步骤140，基于各个对象各自的行为序列，提取各个对象各自的行为时序特征。
86.在本技术实施例中，上述行为时序特征，可以同时表征对象与各个服务机构之间发生的交互行为，以及交互行为发生的时间。
87.步骤150，基于各个对象各自的关系特征，以及各个对象各自的行为时序特征对各个对象进行聚类，获得至少一个对象集合。
88.其中，上述每个对象集合可以是聚类得到的一个用户团体。
89.步骤160，从至少一个对象集合中识别出目标对象集合；目标对象集合是存在指定交互行为的对象集合。
90.其中，上述指定交互行为可以是非正常的交互行为，比如，以医疗保险领域的非正常行为团体挖掘场景为例，上述指定交互行为可以是非正常的医保报销行为等。
91.综上所述，本技术实施例所示的方案，通过异构图提取对象与服务机构之间的关系相关的关系特征，并通过对象与机构之间的行为记录构成的时序序列提取对象的行为时序特征，再结合两种特征对各个对象进行聚类，再从聚类得到的对象集合中识别出存在指定交互行为的对象集合。由于异构图能够有效的整合对象与服务机构之间的联系，可以更加有效的学习到不同的对象表示，同时，对象的行为记录构成的时序序列能够更好的体现出对象之间的行为相似度，因此，上述方案通过异构图和行为序列的结合，能够准确的对对象进行聚类，从而提高从聚类结果中识别出的，存在指定交互行为的对象集合的准确性。
92.其中，本技术实施例所示的方案可以应用于各种存在非正常行为的对象集合的识别场景。
93.比如，在一种可能的实现方式中，本技术所提供的对象集合识别方法可以应用于医疗保险领域，在该领域中，各个对象为医保的参保人，各个服务机构是提供医保消费服务的机构，该交互行为可以为就诊行为/医保消费行为，通过本技术提供的对象集合识别方法可以筛选出具有非正常的交互行为的医疗保险对象集合，比如，骗保团体，从而实现对非正常行为团体的分析判断。
94.再比如，本技术各实施例所示的方案在电子凭证实时监管中，也能有比较良好的应用，例如，针对电子凭证的实时数据，对于对象新加入的行为信息和个人信息，通过本技术所示的方案提供的框架，可以有效的进行非正常团体的挖掘。
95.或者，本技术所提供的对象集合识别方法也可以应用于其它涉及非正常行为的领域，比如网络刷单监察领域，在该领域中，各个对象为具有网络购物行为的用户，各个服务机构可以是网店店家，该交互行为可以为网络购物行为，通过本技术提供的对象集合识别方法可以筛选出具有非正常行为(比如刷单)的用户团体，从而实现对疑似刷单团体的分析判断。
96.图2示出了本技术一示例性实施例提供的对象集合识别方法的流程图，该对象集合识别方法可以由计算机设备执行，该计算机设备可以实现为服务器或者终端，如图2所示，该目标对象集合识别方法包括：
97.步骤210，获取各个对象对应的异构图，异构图用于指示各个对象与各个服务机构之间的关系。
98.在一种可能的实现方式中，服务机构包括第一类型机构，以及第二类型机构；第一类型机构用于向对象提供与交互行为对应的目标服务，第二类型机构用于为对象接受目标服务所需的资源提供资源补偿；
99.获取各个对象对应的异构图，包括：
100.获取各个对象各自的对象信息、各个第一类型机构的机构信息以及各个第二类型机构的机构信息；
101.基于各个对象各自的对象信息、各个第一类型机构的机构信息以及各个第二类型机构的机构信息，生成异构图；
102.其中，异构图中包含与对象对应的对象节点、与第一类型机构对应的第一类型机构节点以及与第二类型机构对应的第二类型机构节点；对象节点与第一类型机构节点之间的边用于指示第一类型机构向对象提供目标服务的次数；对象节点与第二类型机构节点之间的边用于指示对象与第二类型机构之间存在从属关系。
103.以医疗保险领域的非正常行为团体挖掘场景为例，在本技术实施例所示的方案中，使用异构图表示来整合个人、医院/医生以及投保单位之间的交互信息，其中，个人对应上述对象，医院/医生对应上述第一类型机构，交互行为对应就诊行为，目标服务对应诊察治疗服务，投保单位对应上述第二类型机构，资源补偿对应医保报销服务。
104.步骤220，将异构图输入图神经网络模型，获得图神经网络模型输出的，各个对象各自的关系特征。
105.以医疗保险领域的非正常团体识别方案为例，由于异构图表示能够比较有效的整合不同类型节点之间的联系，因此，通过异构图神经网络在针对一个具有个人信息、医生信息/医院信息、机构信息的图上可以更加有效的学习到不同的个人表示(对应上述关系特征)，用于后面的团体聚类。
106.在一种可能的实现方式中，图神经网络包括hinsage模型。
107.在本技术实施例中，以医疗保险领域的非正常团体识别方案为例，其中异构图的建立过程如下：首先分为个人节点，医院节点，以及单位节点(对应投保单位)。节点属性分别为个人信息，医院信息，单位信息；节点与节点的之间边分别是个人到医院的就诊次数，个人和单位的归属关系。
108.本技术实施例所示的方案可以用hinsage模型作为异构表征抽取的图神经网络，与graphsage同构图神经网络模型类似，hinsage也包括采样和特征聚合两个过程，其利用了顶点特征(比如文本信息、顶点信息、顶点的度)，并且利用了每个顶点邻居的拓扑结构和顶点特征在邻居中的分布，最后学习到一个函数，该函数可以用来生成未见过(也就是未作为训练数据)的顶点的特征表示。此外，hinsage模型还训练了一组聚合函数(aggregator functions)，这些聚合函数可以学习如何从一个顶点的局部邻居聚合特征信息。在推断过程中，模型可以利用这些聚合函数来对未见过的顶点生成嵌入表示(embedding)。
109.其中，hinsage模型在特征聚合时所采用的是异质均值聚合(heterogeneous mean aggregator)，它是均值聚合在异构图上的扩展。hinsage模型在做特征聚合的时候主要可以包括以下几步：
110.1)先对不同类型的邻居节点分别做均值聚合，并与不同的权值矩阵相乘，变换成相同的维度；
111.2)然后将不同类型节点的特征求和后，再求均值，得到邻居特征聚合后的结果r1；
112.3)将父节点的特征矩阵与相应的权值矩阵相乘，得到父节点的结果r2；
113.4)然后将邻居特征聚合后的结果r1与父节点的结果r2拼接起来，作为父节点新的特征矩阵。
114.通过上述过程，hinsage模型不仅考虑了自身节点的相关特征，还考虑了邻居节点的特征信息和网络结构拓扑信息。
115.在一种可能的实现方式中，图神经网络为基于注意力机制的图神经网络。
116.在本技术实施例中，还可以通过注意力机制对图神经网络进行改进，以便图神经网络能够更好的学习到节点之间的关系。
117.步骤230，获取各个对象各自的行为序列，行为序列中包含对象和服务机构之间的交互行为的行为记录；且行为序列中的行为记录按照时序排列。
118.在一种可能的实现方式中，上述行为记录用于指示对象接受第一类型机构提供的
目标服务的行为信息；
119.其中，行为信息包括：第一类型机构的机构标识、目标服务的发生时间以及与目标服务对应的资源数量。
120.比如，以医疗保险领域的非正常行为对象集合挖掘场景为例，对象的一条行为记录可以包括对象就诊的医院、就诊时间、医疗消费数额等等。
121.可选的，上述行为信息也可以根据应用场景的特点而包含其它信息，比如，还是以医疗保险领域为例，上述对象的一条行为记录还可以包括诊断结果、科室、医生等等。
122.在本技术实施例中，计算机设备可以获取各个对象在一定的时间段内(比如一年内或者半年内)的行为记录，按照时间顺序进行排列，得到上述行为序列。
123.比如，以医疗保险领域的非正常行为用户团体挖掘场景为例，计算机设备可以从医疗机构获取各个用户的年度诊疗统计信息，从年度诊疗统计信息中提取不同时间的诊疗记录，并整理为不同的时间点上的行为记录，再按照时间先后顺序进行排列，即可以得到该用户的行为序列。
124.步骤240，基于各个对象各自的行为序列，提取各个对象各自的行为时序特征。
125.在一种可能的实现方式中，基于各个对象各自的行为序列，提取各个对象各自的行为时序特征，包括：
126.将目标对象的行为序列输入时序挖掘模型，获得时序挖掘模型输出的，目标对象的行为时序特征；目标对象是各个对象中的任意一个对象；
127.其中，时序挖掘模型包括词-向量(word2vec)模型，以及基于转换器的双向编码表征(bidirectional encoder representations from transformers，bert)模型中的至少一种。
128.以医疗保险领域的非正常行为用户团体挖掘场景为例，计算机设备可以获取用户的就诊行为或者个人年度统计信息，利用word2vec或者bert从时序上建模个人的就诊行为信息，这种方式可以有效的结合不同个人的时序就诊信息，从而可以挖掘具有相似就诊行为的个人，对于医疗保险领域具有非正常行为的团体来说，相似就诊行为是一个比较重要的特征，利用这样的方式能够更好的发现具有非正常行为的团体。
129.以医疗保险领域的非正常行为用户团体挖掘场景为例，对于用户就诊的时序信息(即上述行为序列)，本技术所示的方案可以使用两种方式进行特征挖掘，类似文本处理的方案，首先，本方案定义token为，psn_id：医院_时间_金额，序列是用户的就诊序列。用word2vec模型或者bert模型进行训练，相当于先对时序就诊行为进行聚类，有助于发现集中非正常行为信息。为了得到个人的时序就诊序列表示，本方案可以采取以下两种方式：
130.1)基于word2vec的就诊序列表示：
131.采用word2vec来对用户行为序列进行建模，可以是指将用户就诊行为序列看做一个文档，将序列当中的每一个行为记录看做文档中的词，将行为之间的共现关系作为上下文，使用skip-gram模型(一种在给出目标单词(中心单词，对应本技术实施例中的行为记录)的情况下，预测其上下文单词的模型)进行训练，可以得到行为记录的表征向量，最后将用户的行为记录的序列所对应的embedding做同维加和平均，得到用户的表征向量(对应上述行为时序特征)。
132.2)基于bert的就诊序列表示：
133.鉴于bert在文本上的优异效果，本技术实施例所示的方案还可以使用bert来对用户的行为序列做建模。
134.本技术实施例的方案中，在bert的损失函数中去掉next sentence(下一句子)损失函数。bert中的next sentence是为了训练一个理解句子间关系的模型，而引入的一个下一句预测的任务。对于非正常行为的团体挖掘场景下的用户的行为序列来说，这个损失函数(loss)会表现为判断两个行为序列是不是由同一个用户产生的，在非正常行为的团体挖掘场景的作用较小，因此可以在bert模型的训练过程中去除这个损失函数。
135.在一种可能的实现方式中，在上述步骤240中，上述word2vec模型，以及bert模型可以结合使用，比如，计算机设备将word2vec模型和bert模型分别输出的特征，对应用户进行融合(比如拼接或者加权求和等等)，作为各个用户各自的行为时序特征。
136.步骤250，将各个对象各自的关系特征，与各个对象各自的行为时序特征进行拼接，获得各个对象各自的聚类特征。
137.在本技术实施例中，对于各个对象中的任意对象，计算机设备可以将该对象的关系特征与该对象的行为时序特征进行拼接，从而得到该对象的聚类特征。其中，每个对象都做上述处理，即可以得到各个对象各自的聚类特征，以便后续聚类时使用。
138.在一种可能的实现方式中，将各个对象各自的关系特征，与各个对象各自的行为时序特征进行拼接，获得各个对象各自的聚类特征，包括：
139.获取各个对象各自的对象属性特征；
140.将各个对象各自的关系特征、各个对象各自的行为时序特征、以及各个对象各自的对象属性特征进行拼接，获得各个对象各自的聚类特征。
141.在本技术实施例中，除了考虑对象与机构之间的关系，以及对象的行为序列之外，还可以考虑对象的个人属性，比如，以医疗保险领域的非正常行为用户团体挖掘场景为例，用户的个人属性可以包括：参保单位、人员类别(例如企业职工、个体户、农民等等)、年龄、性别等等。在获取聚类特征，也可以将个人属性对应的对象属性特征，与用户的关系特征和行为时序特征进行拼接。
142.在另一种可能的实现方式中，上述对象属性特征也可以融合在时序特征中，也就是说，计算机设备可以将上述个人属性作为异构图中各个对象节点对应的个人信息的一部分，输入至图神经网络中进行处理，获得各个对象各自的关系特征，此时的关系特征中不仅包含对象与机构之间的关系，还包含对象的个人属性的相关特征。
143.步骤260，基于各个对象各自的聚类特征进行聚类，获得至少一个对象集合。
144.在本技术实施例中，计算机设备对各个对象进行聚类，可以是指将各个对象中，聚类特征之间的相似度高的多个对象划分到一个对象集合。
145.比如，计算机设备可以通过dbscan(density-based spatial clustering of applications with noise，基于密度的噪声应用空间聚类)聚类算法进行聚类，该算法过程可以如下：
146.首先先定义三种类型的点：
147.1)核心点：在半径eps内含有超过minpts数目的点；
148.2)边界点：在半径eps内点的数量小于minpts，但是落在核心点的邻域内的点；
149.3)噪音点：既不是核心点也不是边界点的点。
150.请参考图3，其示出了本技术实施例涉及的两种类型的点的示意图。如图3所示，图中黑色的点为边界点31，因为其在半径eps内，边界点的领域内的点不超过minpts个，这里设置的minpts可以由对象设置，比如设置为5；而中间白色的点所以为核心点32，因为其邻域内的点的数量超过minpts(5)个，其邻域内的点就是黑色的边界点。
151.dbscan的算法流程如下：
152.1)将所有点标记为核心点、边界点或噪声点；
153.2)删除噪声点；
154.3)为距离在eps之内的所有核心点之间赋予一条边；
155.4)每组连通的核心点形成一个簇；
156.5)将每个边界点指派到一个与之关联的核心点的簇中(即对应核心点的半径范围之内)。
157.在一种可能的实现方式中，基于各个对象各自的聚类特征进行聚类，获得至少一个对象集合，包括：
158.通过相似节点加速库，获取各个对象各自对应的相似对象集合，相似对象集合中包含与对应对象之间的相似度距离最近的n个其它对象；相似度距离用于标识两个对象之间的聚类特征之间的相似度；
159.基于各个对象各自的相似对象集合，以及各个对象与各自的相似对象集合中的对象之间的相似度距离进行聚类，获得至少一个对象集合。
160.以医疗保险领域的非正常行为用户团体挖掘场景为例，医疗保险基金监管的用户量数据非常的庞大，为了加速聚类算法，本技术实施例所示的方案可以利用加速库(比如faiss加速库)来对dbscan进行加速，其中，在寻找dbscan中的核心点和边界点的过程中，可以用faiss来加快寻找速度，统计搜索范围(range_search)返回结果的个数即可。
161.faiss是一个聚类和相似性搜索库，是目前已成熟的近似近邻搜索库。其实现过程可以包括：获取向量、构建索引(基于暴力，倒排，乘积量化等)、以及检索top k相似的query(查询)等步骤。请参考图4，其示出了本技术实施例涉及的加速过程示意图。
162.如图4所示，一方面，以目标对象的聚类特征作为搜索查询词，通过蒸馏bert模型41进行处理，得到向量化的查询词信息；另一方面，将数据库中的其它对象的聚类特征输入蒸馏bert模型42，得到其它对象的聚类特征信息；然后将矢量化的查询词信息，以及其它对象的聚类特征向量输入faiss加速库43，构建faiss索引，通过构建的faiss索引输出与查询词信息最接近的k个特征向量，继而根据最接近的k个特征向量输出搜索结果(也就是与目标对象之间的相似度距离最小的k个对象)。
163.步骤270，从至少一个对象集合中识别出目标对象集合；目标对象集合是存在指定交互行为的对象集合。
164.在一种可能的实现方式中，上述，从至少一个对象集合中识别出目标对象集合，包括：
165.对至少一个对象集合进行异常检测，获得至少一个对象集合中的异常团体集合；
166.基于目标规则对至少一个对象集合进行匹配，获得至少一个对象集合中的规则匹配团体集合；目标规则包括存在指定交互行为的对象集合所满足的规则；
167.对异常团体集合与规则匹配团体集合取交集，获得目标对象集合。
168.在本技术实施例中，在识别具有指定交互行为的目标对象集合时，分别用规则异常检测和异常检测算法来检测异常团体，然后，在确定目标对象集合时，使用规则和异常算法检测的交叉团体作为目标对象集合，更加准确的发现识别具有非正常行为的对象集合。
169.其中，上述目标规则可以包括具有指定交互行为的对象集合所满足的相关属性/参数满足参数阈值，比如补偿或者申请补偿的资源量(例如年度报销费用)大于资源量阈值等等。
170.比如，在本技术实施例所示的方案中，计算机设备首先用异常检测算法(比如独立森林(iforest)算法)和基于规则统计的算法分别对具有非正常行为的对象集合进行检测，然后利用异常检测算法检测出来的团体和用规则检测出来的团体取交集，得到最终的高可疑的目标对象集合。在得到高可疑的目标对象集合之后，可以进一步将检测出的目标对象集合的对象信息提交给相应的部门或者管理人员进行后续处理。
171.在一种可能的实现方式中，从至少一个对象集合中识别出目标对象集合，包括：
172.提取至少一个对象集合各自的团体特征；
173.将至少一个对象集合各自的团体特征输入团体检测模型，获得团体检测模型的团体检测结果，团体检测结果用于指示目标对象集合。
174.在本技术实施例所示的方案中，在目标对象集合检测方面，也可以采用机器学习的其他算法(比如极端梯度增压(extreme gradient boosting，xgb)算法)来识别目标对象集合。
175.可选的，在另一种可能的实现方式中，也可以将团体检测模型、异常检测算法以及规则检测算法结合使用，也就是，对团体检测模型、异常检测算法以及规则检测算法分别检测出的对象集合取交集。
176.请参考图5，其示出了本技术实施例涉及的一种用户团体检测框架的示意图。以医疗保险领域的非正常行为用户团体挖掘场景为例，如图5所示，该用户团体检测框架包括特征提取组件51、聚类组件52、识别组件53。
177.其中，特征提取组件51用于提取异构图的嵌入表示、用户属性的嵌入表示以及用户的就诊时序特征表示。
178.例如，上述特征提取组件51中包含图神经网络模型、属性提取模型以及时序挖掘模型等特征提取网络模型；其中，图神经网络模型用于对异构图进行处理，输出异构图的嵌入表示；属性提取模型用于对用户的属性特征进行处理，输出用户属性的嵌入表示；时序挖掘模型用于对用户的就诊时序序列进行处理，输出用户的就诊时序特征表示。
179.上述聚类组件52用于根据上述各个用户的异构图的嵌入表示、用户属性的嵌入表示以及用户的就诊时序特征表示等用户特征信息，对各个用户进行聚类，得到聚类结果，即若干个用户团体(对象集合)。
180.上述识别组件53结合异常检测和规则判断，识别出医疗保险领域的非正常行为用户团体。
181.在本技术实施例中，上述聚类过程中的聚类指标可以使用轮廓系数、ch(calinski-harabaz)值和bdi指数(davies-boulding index，戴维斯-博尔丁指数)等，来量化聚类的效果，以医疗保险领域的非正常行为用户团体挖掘场景为例，通过计算发现，对于个人和就诊数据的聚类结果来看，本技术实施例所示的方案都能够得到可接受的轮廓系
数、ch值和bdi指数的得分。
182.对本技术实施例所示的方案的聚类结果进行tsne降维可视化处理，也就是在聚类完成之后，通过tsne(t-stochastic neighbour embedding，t分布-随机近邻嵌入)降维到三维之后，可视化展示聚类的效果。请参考图6，其示出了本技术实施例涉及的可视化聚类效果图。由于聚出来的类比较多，为了直观表示，如图6所示，本技术实施例将蔟61、簇62和其他一些少量样本进行可视化展示，通过直观的观测可以发现，本技术实施例所示的方案中，聚类算法可以有效的将个人或者就诊数据进行聚类。
183.对不同的目标对象集合，本技术实施例所示的方案还可以使用一些词云的方式为目标对象集合打上标签(词云分析)。
184.在本技术实施例所示的方案中，在获取到目标对象集合之后，可以从业务上对目标对象集合进行排序，得到一些典型的样例作为高度疑似存在非正常行为的团体，然后将这些高度疑似存在非正常行为的团体的相关信息提交给下一级处理人员/部分，以进行进一步调查/确认。
185.综上所述，本技术实施例所示的方案，通过异构图提取对象与服务机构之间的关系相关的关系特征，并通过对象与机构之间的行为记录构成的时序序列提取对象的行为时序特征，再结合两种特征对各个对象进行聚类，再从聚类得到的对象集合中识别出存在指定交互行为的对象集合。由于异构图能够有效的整合对象与服务机构之间的联系，可以更加有效的学习到不同的对象表示，同时，对象的行为记录构成的时序序列能够更好的体现出对象之间的行为相似度，因此，上述方案通过异构图和行为序列的结合，能够准确的对对象进行聚类，从而提高从聚类结果中识别出的，存在指定交互行为的对象集合的准确性。
186.图7示出了本技术一示例性实施例提供的对象集合识别装置的方框图，该对象集合识别装置可以应用于计算机设备中，该计算机设备可以实现为服务器或者终端，如图7所示，该对象集合识别装置包括：
187.异构图获取模块701，用于获取各个对象对应的异构图，所述异构图用于指示所述各个对象与各个服务机构之间的关系；
188.第一特征获取模块702，用于基于所述异构图，提取所述各个对象各自的关系特征；
189.序列获取模块703，用于获取所述各个对象各自的行为序列，所述行为序列中包含对象和服务机构之间的交互行为的行为记录；且所述行为序列中的行为记录按照时序排列；
190.第二特征获取模块704，用于基于所述各个对象各自的行为序列，提取所述各个对象各自的行为时序特征；
191.聚类模型705，用于基于所述各个对象各自的关系特征，以及所述各个对象各自的行为时序特征对所述各个对象进行聚类，获得至少一个对象集合；
192.识别模块706，用于从所述至少一个对象集合中识别出目标对象集合；所述目标对象集合是存在指定交互行为的对象集合。
193.在一种可能的实现方式中，所述服务机构包括第一类型机构，以及第二类型机构；所述第一类型机构用于向对象提供与所述交互行为对应的目标服务，所述第二类型机构用于为对象接受所述目标服务所需的资源提供资源补偿；
194.所述异构图获取模块701，用于，
195.获取所述各个对象各自的对象信息、各个所述第一类型机构的机构信息以及各个所述第二类型机构的机构信息；
196.基于所述各个对象各自的对象信息、各个所述第一类型机构的机构信息以及各个所述第二类型机构的机构信息，生成所述异构图；
197.其中，所述异构图中包含与对象对应的对象节点、与所述第一类型机构对应的第一类型机构节点以及与所述第二类型机构对应的第二类型机构节点；所述对象节点与所述第一类型机构节点之间的边用于指示所述第一类型机构向对象提供所述目标服务的次数；所述对象节点与所述第二类型机构节点之间的边用于指示对象与所述第二类型机构之间存在从属关系。
198.在一种可能的实现方式中，所述行为记录用于指示对象接受所述第一类型机构提供的所述目标服务的行为信息；
199.其中，所述行为信息包括：所述第一类型机构的机构标识、所述目标服务的发生时间以及与所述目标服务对应的资源数量。
200.在一种可能的实现方式中，所述聚类模型705，用于，
201.将所述各个对象各自的关系特征，与所述各个对象各自的行为时序特征进行拼接，获得所述各个对象各自的聚类特征；
202.基于所述各个对象各自的聚类特征进行聚类，获得所述至少一个对象集合。
203.在一种可能的实现方式中，所述聚类模型705，用于，
204.通过相似节点加速库，获取所述各个对象各自对应的相似对象集合，所述相似对象集合中包含与对应对象之间的相似度距离最近的n个其它对象；所述相似度距离用于标识两个对象之间的聚类特征之间的相似度；
205.基于所述各个对象各自的相似对象集合，以及所述各个对象与各自的相似对象集合中的对象之间的相似度距离进行聚类，获得所述至少一个对象集合。
206.在一种可能的实现方式中，所述聚类模型705，用于，
207.获取所述各个对象各自的对象属性特征；
208.将所述各个对象各自的关系特征、所述各个对象各自的行为时序特征、以及所述各个对象各自的对象属性特征进行拼接，获得所述各个对象各自的聚类特征。
209.在一种可能的实现方式中，所述第二特征获取模块704，用于，
210.将目标对象的行为序列输入时序挖掘模型，获得所述时序挖掘模型输出的，所述目标对象的行为时序特征；所述目标对象是所述各个对象中的任意一个对象；
211.其中，所述时序挖掘模型包括词-向量模型，以及基于转换器的双向编码表征bert模型中的至少一种。
212.在一种可能的实现方式中，所述第一特征获取模块702，用于，
213.将所述异构图输入图神经网络模型，获得所述图神经网络输出的，所述各个对象各自的关系特征；
214.所述图神经网络包括hinsage模型。
215.在一种可能的实现方式中，所述图神经网络为基于注意力机制的图神经网络。
216.在一种可能的实现方式中，所述识别模块706，用于，
217.对所述至少一个对象集合进行异常检测，获得所述至少一个对象集合中的异常团体集合；
218.基于目标规则对所述至少一个对象集合进行匹配，获得所述至少一个对象集合中的规则匹配团体集合；所述目标规则包括存在指定交互行为的对象集合所满足的规则；
219.对所述异常团体集合与所述规则匹配团体集合取交集，获得所述目标对象集合。
220.在一种可能的实现方式中，所述识别模块706，用于，
221.提取所述至少一个对象集合各自的团体特征；
222.将所述至少一个对象集合各自的团体特征输入团体检测模型，获得所述团体检测模型的团体检测结果，所述团体检测结果用于指示所述目标对象集合。
223.综上所述，本技术实施例所示的方案，通过异构图提取对象与服务机构之间的关系相关的关系特征，并通过对象与机构之间的行为记录构成的时序序列提取对象的行为时序特征，再结合两种特征对各个对象进行聚类，再从聚类得到的对象集合中识别出存在指定交互行为的对象集合。由于异构图能够有效的整合对象与服务机构之间的联系，可以更加有效的学习到不同的对象表示，同时，对象的行为记录构成的时序序列能够更好的体现出对象之间的行为相似度，因此，上述方案通过异构图和行为序列的结合，能够准确的对对象进行聚类，从而提高从聚类结果中识别出的，存在指定交互行为的对象集合的准确性。
224.图8示出了本技术一示例性实施例示出的计算机设备800的结构框图。该计算机设备可以实现为本技术上述方案中的服务器。所述计算机设备800包括中央处理单元(central processing unit，cpu)801、包括随机存取存储器(random access memory，ram)802和只读存储器(read-only memory，rom)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述计算机设备800还包括用于存储操作系统809、应用程序810和其他程序模块811的大容量存储设备806。
225.所述大容量存储设备806通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备806及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说，所述大容量存储设备806可以包括诸如硬盘或者只读光盘(compact disc read-only memory，cd-rom)驱动器之类的计算机可读介质(未示出)。
226.不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读寄存器(erasable programmable read only memory，eprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory，eeprom)闪存或其他固态存储其技术，cd-rom、数字多功能光盘(digital versatile disc，dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备806可以统称为存储器。
227.根据本公开的各种实施例，所述计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在所述系统总线805上的网络接口单元807连接到网络808，或者说，也可以使用网络接口单元807来连接到其他类型
的网络或远程计算机系统(未示出)。
228.所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条计算机指令存储于存储器中，中央处理器801通过执行该至少一条计算机指令来实现上述各个实施例所示的对象集合识别方法中的全部或者部分步骤。
229.在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行以实现上述对象集合识别方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器、随机存取存储器、只读光盘、磁带、软盘和光数据存储设备等。
230.在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例所示方法的全部或部分步骤。
231.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
232.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于有用神经网络激活函数的VLSI实现的有效方法与流程

对象集合识别方法、装置、计算机设备及存储介质与流程

相关文献

最热文献