一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于图论的团队挖掘分析方法与流程

2022-02-19 03:48:48 来源:中国专利 TAG:


1.本发明涉及数据分析技术领域,特别是一种基于图论的团队挖掘分析方法。


背景技术:

2.对案件的关联分析过程中,会对关联人员之间的关系进行采集分析。获取分析数据后,基于他们的同行、同案情况,再通过人工判断其是否属于一个或多个团队,也可在现有系统中建立新的模型牵扯出新的团队。但是目前的分析方法存在如下缺陷:1)每次建立新的模型都需要进行开发等,且与业务绑定密切,耦合度高,也没有一种科学且完整的技术方法去从大数据资源当中寻找数据之间的关系,无法通过技术手段来支持团队分析的业务。
3.2)缺乏一种自动有效的分析手段去分析出团队内部各成员之间的关系情况。
4.3)在寻找团队上下线,往往存在噪音而导致增加了工作人员的人工研判分析工作,有时工作人员是逐个团队成员去查找他们的非已知团队内部的关系人及分析其关系情况,效率低下。
5.4)对于关系型数据没有统一的关系分析技术与相关流程进行处理,更没有采用基于图论的数据结构及相关算法进行分析挖掘,大部分只是简单的图形化展示,或只能一层一层地拓展数据关系。


技术实现要素:

6.本发明需要解决的技术问题是提供了一种基于图论的团队挖掘分析方法,以解决背景技术中的问题,以解决对数据关系图形化分析在算法方面的缺失,可以排除分支杂音,给出一个机器预估的团队,并能寻求数据与数据之间的最短路径,发现数据相互之间的关联关系。
7.为解决上述技术问题,本发明所采取的技术方案如下。
8.一种基于图论的团队挖掘分析方法,包括以下步骤:s1、对各类与人类关系行为相关的数据资源进行汇聚并作标准化处理;s2、对已接入并标准化处理后的数据进行预处理,将数据中的标识号进行提取,并建立标识号之间的关系;s3、开展数据的进阶处理,基于图论运用环形算法,挖掘发现与某个明确的关联人员相关的一个或多个团队;s4、找出相关团队后,分析团队内部成员关系情况;s5、挖掘发现团队的上下线人员情况;s6、通过人工研判方式对团队网络进行拓展,重复进行步骤s4和步骤s5。
9.进一步优化技术方案,所述步骤s1中,与人类关系行为相关的数据资源包括但不限于网络行为数据、通联行为数据、交易行为数据、寄递行为数据、轨迹同行数据。
10.进一步优化技术方案,所述步骤s1中,与人类关系行为相关的数据资源根据所对
应行业的数据标准格式规范进行转换,并去除无效数据。
11.进一步优化技术方案,所述步骤s2包括以下步骤:s21、标识号提取:遍历所有数据中的标识号字段,从中提取标识号,作为明确号码;遍历扫描所有数据中的业务行为字段,从中提取标识号,作为隐性号码;s22、关系提取及关系分类:用所述步骤s21中明确号码与所有标准化数据的标识号字段及对端标识号字段进行精确比对,命中后则建立起标识号与标识号间的关系,定义并建立为硬性关系;用所述步骤s21中的明确号码和隐性号码与所有标准化数据的业务行为字段作模糊比对,命中后则建立起该明确号码和隐性号码与该比中记录中的所有标识号字段号码的两两关系,而在所有记录中的业务行为字段中的文本如能提取到多个标识号,即这些多个标识号也能建立两两关系,这类关系定义并建立为潜在关系;s23、实体及关系存储:将所述步骤s21和步骤s22获得的标识号及其两两关系存储到数据库中。
12.进一步优化技术方案,所述步骤s3包括以下步骤:s31、选中一个目标节点,并作为起点;s32、从起点开始,选定遍历深度,查找所述步骤s31的所有关联节点及两两关系,进行图的构建,形成树型结构;s33、对树型结构进行深度遍历,运用环形算法对每个树节点进行计算,形成节点集合;s34、将节点集合作为团队雏形。
13.进一步优化技术方案,所述步骤s33中,对每个树节点判断其是否至少有两个可连接的节点及路径;如果不存在至少两个可连接的节点及路径,则该树节点属于环外;如果存在至少两个可连接的节点及路径,则延着任一条路径的方向继续查找后续的路径及节点,如最终能通向该树节点,则该树节点属于环内,被归到环型集合中。
14.进一步优化技术方案,所述步骤s4包括以下步骤:s41、在团队中,选中目标节点,分析出目标节点与该团队中其它每一个节点的最短路径;s42、在与目标节点有关系的所有节点中,任意选中其中一个节点,并从选中节点与目标节点的最短路径中提取路径段落,根据被提取的路径段落的关系类型、连通量以及数量来对路径段落进行综合计算,并得到选中节点与目标节点的关系密切度;s43、对除所述步骤s42选中节点的其它与目标节点有关系的节点,重复执行所述步骤s42,得到所有与目标节点有关系的节点的关系密切度;s44、继续遍历团队中的其它目标节点,并分析出该目标节点与团队中其它每一个节点的最短路径,重复执行所述步骤s42和步骤s43,最后得出团队内每一个节点与其它节点的关系密切度。
15.进一步优化技术方案,所述步骤s5包括以下步骤:s51、对团队内所有节点按照设定的遍历深度分别进行图的构建,形成多个子图;s52、以团队内的每一个节点为起点,对每一个图进行遍历,以查找出所有叶子节点,并把在团队内的叶子节点排除掉;
s53、遍历未被所述步骤s52排除的叶子节点,根据起点与叶子节点的连通量和路径段落数量,计算各叶子节点得分;s54、将所述步骤s53中各叶子节点得分进行比较,取分值达到设定阈值的节点作为疑似上下线,归收集为由多个上下线节点结成的集合;该集合的节点为该团队的上下线人员。
16.由于采用了以上技术方案,本发明所取得技术进步如下。
17.本发明通过运用基于图论的相关算法(树构造、遍历算法、环形算法),以一个关联人员为起点通过本发明的处理方案能自动快速地找出与该关联人员相关的团队,能够明确团队内部成员间的关系密切度,更能进行深度挖掘,以发现出这些团队的上下线人员,以便工作人员能够基于自动化的处理结果作进一步的研判工作。
18.本发明是基于图论的数据关系分析方法,将具体业务与技术解耦,通过对数据间的联系进行分析以支撑团队分析业务的处理,本发明能支持任何通过人类行为产生的关系数据进行分析,包括但不限于:网络行为数据、通联行为数据、交易行为数据、寄递行为数据、轨迹同行数据等。
19.1、本发明基于图论从数据与数据间的关系来找团队,能与业务解耦,更能适应在多种业务的关系数据支撑下,找出团队雏形;2、本发明提供了关系密切度指标,让工作人员能快速了解团队内部成员间的关系密切度,为工作人员指明侦查方向,明确调查重点;3、本发明是融入团队概念,基于图论运用环形算法分析出团队之后,再对团队往外延伸并发现团队的上下线节点,将节点噪音降低,为工作人员的人工研判工作减负。
附图说明
20.图1为本发明的总体流程图;图2为本发明团队关系示意图;图3为本发明基于图论的数据结构示意图。
具体实施方式
21.下面将结合附图和具体实施例对本发明进行进一步详细说明。
22.一种基于图论的团队挖掘分析方法,结合图1至图3所示,包括以下步骤:s1、对各类与人类关系行为相关的数据资源进行汇聚并作标准化处理。
23.s11、数据汇聚:与人类关系行为相关的数据资源包括但不限于网络行为数据、通联行为数据、交易行为数据、寄递行为数据、轨迹同行数据等,作为原始数据进行存储。
24.s12、标准化处理:对原始数据根据该行业的数据标准格式规范进行转换,数据中必须至少包括的标准字段含:标识号字段、时间字段、业务行为字段、对端标识号字段,最终形成标准数据库。
25.根据业务定义的唯一数据键将数据去重,并去除无效数据。
26.s2、数据预处理:对已接入并标准化处理后的数据进行预处理,将数据中的标识号进行提取,并建立标识号之间的关系。步骤s2包括以下步骤:s21、标识号提取:
1)遍历所有数据中的标识号字段,从中提取不仅限于身份证号、电话号码、qq号码等的标识号,这些号码作为明确号码;2)遍历扫描所有数据中的业务行为字段,该字段会提及到某某标识号,从字段中提取不仅限于身份证号、电话号码、qq号码等的标识号,这些号码作为隐性号码。
27.s22、关系提取及关系分类:1)用步骤s21中明确号码与所有标准化数据的标识号字段及对端标识号字段进行精确比对,命中后则建立起标识号与标识号间的关系,定义并建立为硬性关系;2)用步骤s21中的明确号码和隐性号码与所有标准化数据的业务行为字段作模糊比对,命中后则建立起该明确号码和隐性号码与该比中记录中的所有标识号字段号码的两两关系,而在所有记录中业务行为字段中的文本如能提取到多个标识号,即在里面的多个标识号也是有关系的,这些多个标识号也能建立两两关系,这类关系定义并建立为潜在关系。
28.s23、实体及关系存储:将步骤s21和步骤s22获得的标识号及其两两关系(硬性关系及潜在关系)存储到数据库中,标识号作为一个实体去存储,每个实体的关系区分为硬关系和潜在关系。
29.s3、进阶处理(团队挖掘分析):开展数据的进阶处理,基于图论运用环形算法,挖掘发现与某个明确的关联人员相关的一个或多个团队。步骤s3包括以下步骤:s31、选中一个目标节点,目标节点为明确的涉案关联人员,并作为起点。
30.s32、从起点开始,选定遍历深度(默认5层),运用浅度遍历算法查找步骤s31的所有关联节点及两两关系,进行图的构建,形成树型结构。
31.s33、对树型结构进行深度遍历,运用环形算法对每个树节点进行计算,对每个树节点判断其是否至少有两个可连接的节点及路径。
32.如果不存在至少两个可连接的节点及路径,则该树节点属于环外;如果存在至少两个可连接的节点及路径,则延着任一条路径的方向,并结合运用深度遍历算法继续查找后续的路径及节点,如最终能通向该“该树节点自己”,则该树节点属于环内,被归到环型集合中,形成节点集合。
33.s34、将节点集合作为以“涉案关联人员”为起点的团队雏形。
34.s4、找出相关团队后,分析团队内部成员关系情况,分析团队内成员之间关系密切度。步骤s4包括以下步骤:s41、在团队中,选中目标节点,如选中涉案关联人员节点a,运用最短路径算法分析出目标节点a与该团队中其它每一个节点的最短路径。
35.s42、在与目标节点有关系的所有节点中,任意选中其中一个节点,如选中节点c,并从选中节点与目标节点的最短路径中提取路径段落(比如:目标节点为a,选中节点为c,对于路径a

b

c,节点a与节点c的是通过b来连接的,那该路径则存在两个路径段落ab和bc),根据这些路径段落的关系类型(不同关系的权重不同)、发生关系的次数(连通量),以及与路径段落的数量(段落数量越少越高分),对路径段落进行分析、计算,综合计算出一个分值,得到选中节点c与与目标节点a的关系密切度。
36.s43、对除步骤s42选中节点的其它与目标节点有关系的节点,重复执行步骤s42,得到所有与目标节点a有关系的节点的关系密切度,此时得知目标节点a与团队中其它节点
的关系密切度。
37.s44、继续遍历团队中的其它目标节点,并分析出该目标节点与团队中其它每一个节点的最短路径,重复执行步骤s42和步骤s43,最后得出团队内每一个节点与其它节点的关系密切度。
38.s5、挖掘发现团队的上下线人员情况。步骤s5包括以下步骤:s51、在找出团队后,对环内(团队内)所有节点按照设定的遍历深度分别进行图的构建,形成多个子图。设定的遍历深度默认3层。
39.s52、以团队内的每一个节点(如:a节点)为起点,运用深度遍历算法,相应地对每一个图进行遍历,以查找出所有叶子节点,并把在团队内的叶子节点排除掉。
40.s53、遍历未被步骤s52排除的叶子节点,根据起点与叶子节点的连通量和路径段落数量,计算各叶子节点得分。计算a节点与这些叶子节点的连通量(连接次数)与路径段落数;对以上这些连通量(越多越高分)及路径段落(越少越高分)综合运算得到最终得分,作为这些叶子节点的分数。
41.s54、将步骤s53中各叶子节点得分进行比较,取分值分值较高(达到设定的阈值)的节点作为疑似上下线,归收集为由多个上下线节点结成的集合。该集合的节点为该团队的上下线人员。
42.s6、工作人员通过人工研判方式对团队网络进行拓展,拓展后继续对团队成员关系情况分析(重复进行步骤s4),并继续挖掘团队的上下线(重复进行步骤s5)。
43.本发明利用了图论的环形算法,为刑侦业务提供了团队的基本雏形,包括但不限于所有环形的关系人。假如某个上级隐藏地非常之深,不与团队的其他下级联系,只与某个关键人物联系,不在环中,本发明还可以将环形的所有节点对应的度(也就是当前节点有多少个关系)作为属性,寻找与环形节点联系最多的那个分支,也纳入进来。
44.如环形示例图2所示,f和g虽然不属于环形,但是由于f和环形里的节点e通讯次数多达十次,所以进一步分析的时候,需要纳入群体里来;而假如上下线f隐藏的更深,经过了联系多个下级节点才真正联系到团队中的其中一个节点,那么则需要把挖掘分析层级作提升。
45.本发明在团队挖掘分析方面,与以往的技术方案相比,本发明具有的有益效果为:1)在找相关团队方面的处理以前:找团队是基于同行、同案等固定关系找团队,与业务耦合性高,无法基于图论的方式与算法来找团队。
46.现在:基于图论从数据与数据间的关系来找团队,能与业务解耦,更能适应在多种业务的关系数据支撑下,找出团队雏形。
47.2)在分析团队内部各成员与其它成员的关系密切度的处理以前:团队内部没有体现内部各人关系程度的指标,当遇到一些10人以上团队时,无法快速清晰地了解成员各自关系情况。
48.现在:提供了关系密切度指标,让工作人员能快速了解团队内部成员间的关系密切度,为工作人员指明侦查方向,明确调查重点。
49.3)在分析团队的疑似上下线方面的处理以前:脱离了团队的概念,直接运用传统关系分析算法找出多个节点共同联系且
联系次数较多的节点,作为上下线节点来处理,导致节点噪音过多,不利于精准发现上下线人员。
50.现在:是融入团队概念,基于图论运用环形算法分析出团队之后,再对团队往外延伸并发现团队的上下线节点,将节点噪音降低,为工作人员的人工研判工作减负。
51.本发明通过运用基于图论的相关算法(树构造、遍历算法、环形算法),以一个关联人员为起点通过本发明的处理方案能自动快速地找出与该关联人员相关的团队,能够明确团队内部成员间的关系密切度,更能进行深度挖掘,以发现出这些团队的上下线人员,以便工作人员能够基于自动化的处理结果作进一步的研判工作。
52.本发明是基于图论的数据关系分析方法,将具体业务与技术解耦,通过对数据间的联系进行分析以支撑团队分析业务的处理,本发明能支持任何通过人类行为产生的关系数据进行分析,包括但不限于:网络行为数据、通联行为数据、交易行为数据、寄递行为数据、轨迹同行数据等。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献