一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种案件大数据网络身份关联与人物画像方法与流程

2022-11-23 17:08:14 来源:中国专利 TAG:


1.本发明涉及大数据领域,具体的说,涉及了一种案件大数据网络身份关联与人物画像方法。


背景技术:

2.网络身份关联与人物关系画像能够辅助相关部门更快速、更有效地识别人员自身信息及其与其他人员之间的关系,为风险预警等工作提供丰富的数据支持。然而,目前的处理方法在人员的网络身份关联过程中存在人员身份关联琐碎、人物关系抽取效率不高的问题。
3.在现实世界的网络中缺乏清晰的宏观社团结构,即很难观察到具有明确聚类属性的社团,采用常用算法很难检测到。其原因是现实网络中的簇相互重叠,并且有许多边缘跨越簇边界。因此,真实世界的网络图在宏观层面上并没有显示出清晰的集群结构。但是,虽然社团检测问题在宏观上很难,但在微观上却较为简单。因为即使一个节点是许多社团的一部分,如果我们限制一个节点和它的一个邻居,这两个节点之间只会具有一个或有限个存在交互的社团。
4.另外,由于网络活动中用户数据的多源异构性,所以基于不同数据类型进行研究的思路区别很大,当前主要的研究路线有:基于用户属性的身份关联,即对不同平台所共有用户属性数据进行相似度计算,然后采用分类法或者赋权法的方式判断两个用户是否属于同一自然人;基于用户关系的身份关联,一种是有先验节点的方法,另一种是无先验节点的方法;基于用户生成内容的身份关联,在自然语言处理研究领域中有许多相关研究。但在跨社交网络的用户身份关联任务中,文本对象多为不规范短文本,且用户原创内容较少,仅通过文本内容进行关联难度较大,所以在数据条件支撑的情况下,通过结合用户生成内容附带的时间、空间等信息进行身份关联。
5.当前用户身份关联的技术研究是通过数据挖掘或者机器学习的方法对用户进行划分与聚类,从而进行身份的关联。主要的研究思路分为基于用户的注册信息的虚拟身份关联技术、基于用户所发文本的内容的虚拟身份关联技术和基于用户在社交网络平台中用户的社交关系的虚拟身份关联技术,但是这些技术仍然存在查全率不高、准确度不高,或者是效率低等问题。


技术实现要素:

6.本发明的目的是针对现有技术的不足,提供一种案件大数据网络身份关联与人物画像方法。
7.为了实现上述目的,本发明所采用的技术方案是:
8.本发明提供一种案件大数据网络身份关联与人物画像方法,所述方法包括:
9.步骤1,获取案件数据;
10.步骤2,对获取的数据进行清洗;
11.步骤3,采用重叠社团发现技术识别重要目标;
12.步骤4,用户博文向量化;
13.步骤5,用户个人信息向量化;
14.步骤6,源用户和候选用户的博文相似度计算。
15.基于上述,步骤1中的案件数据包括:用户id,用户昵称,ip地址,上级和真实姓名。
16.基于上述,步骤2中数据的清洗包括:
17.步骤2-1,若数据中存在空白的内容,则将该条数据删除;若数据中存在多个属性项完全重复的记录,则只保留一条记录并将其余删除;
18.步骤2-2,进行中文字段匹配;
19.首先,利用知识库对明显等价的特殊字段进行初步匹配;然后,利用中文自动分词技术,对经过初步匹配后的字符序列进行分词处理,形成含有分词标记的字符序列;
20.步骤2-3,进行基于编辑距离的相似度计算;
21.编辑距离(m 1)
×
(n 1)阶矩阵d
ij
的计算公式如下:
[0022][0023]
式中,d
ij
=d(s1…
si,t1…
ti),0≤i≤m,0≤j≤n,d
ij
表示从{s1…
si},到{t1…
ti}的编辑距离,s指代源字符串,t指代目标字符串;
[0024]
步骤2-4,基于改进n-gram算法的数据清洗;
[0025]
使用动态大小的滑动窗口进行字段匹配,设定窗口大小的初值n0,后续窗口的大小随执行过程计算得出;
[0026]
窗口大小计算方法:记当前正在处理的窗口为n1,r1和r
l
分别表示窗口内的第一条和最后一条记录,则二者之间的距离d
t
满足:
[0027][0028]
此时窗口n1内各记录之间的平均距离为d
t
(r1,r
l
)/n1;
[0029]
下一步窗口的大小n2为:为窗口最小阈值。
[0030]
基于上述,步骤3中采用重叠社团发现技术识别重要目标的方法:
[0031]
定义要处理的图g=(v,e)由有限个结点v和节点之间的边组成,且满足:对于任意(u,v)∈e,u≠v;(u,v)∈e,当且仅当(v,u)∈e,最终检测到的聚类为s’,则由g产生s’的具体步骤如下:
[0032]
步骤3-1:对于图g中的每个结点u,使用局部聚类算法划分出结点u 的ego-net:
[0033][0034]
其中,tu=n
p
(a
l
,g[nu]),n
p
表示集合的数目;
[0035]
步骤3-2:创建副本集合v’;
[0036]
v中的每个结点u对应v’中的tu个副本,分别表示为ui,i=1,2,

, tu;
[0037]
步骤3-3:增加副本之间的边;
[0038]
如果(u,v)∈e,且那么在e’中增加一条边(ui,vj);
[0039]
步骤3-4:在g

=(v

,e

)上利用全局聚类算法ag进行聚类,获取v

的分区s


[0040]
步骤3-5:对于v’的划分中的每个集合c

∈s

,关联一个由v的对应节点组成的簇即输出s

={c(c

)|c

∈s

}。
[0041]
基于上述,步骤4中用户博文向量化表示如下:
[0042]
博文进行分词处理后,博文呈现出一个大小为n的词表,表中的第i 个语义词表示为:
[0043]
wordi=(sitei,vectori)
[0044]
式中,sitei表示语义词在语义向量词典中的位置,vectori表示语义词对应的语义向量;
[0045]
由n个语义词组成的二元组构成博文的初始向量表示为:
[0046]
blog=(word1,word2,word3,

,wordn)
[0047]
选定源用户的一条博文blog1与待比较的候选用户的一条博文blog2,采用平均池化方法,获得源用户的固定维度的博文向量v1,公式如下:
[0048][0049][0050]
式中,n1表示源用户博文中语义词的数量,α表示每个语义词的权重;
[0051]
采用带权重的平均池化计算方法,获得与源用户博文向量相同维度的候选用户博文向量v2:
[0052][0053][0054][0055]
式中,β表示相同语义词的权重的波动幅度,γi表示第i个语义词的权重。
[0056]
基于上述,步骤5中用户个人信息向量化内容如下:
[0057]
对具有辨识度的五个维度的公开特征信息进行表示和one-hot编码处理:性别、所在地省份、所在城市、星座和登录方式;由于省份和城市的可能值较多,所以先省份进行编号组成字典,然后将用户省份用字典中对应的编号代替从而实现数字化,同理对城市进行数字化,然后根据样本数据,使用python中的sklearn中的onehotencoder,对用户个人信息进行 one-hot编码,获得源用户个人信息向量i1={i
11
,i
12
,i
13
,i
14
,i
15
}和候选用户个人信
息向量i2={i
21
,i
22
,i
23
,i
24
,i
25
}。
[0058]
基于上述,步骤6中源用户和候选用户的博文相似度计算公式如下:
[0059][0060]
使用余弦相似度计算,计算源用户和候选用户的个人信息相似性,计算公式如下:
[0061][0062]
分别计算出了源用户和候选用户的博文相似度和个人信息相似度之后,接下来找到恰当的用户个人信息的权重δ,使得加权后的结果精确最高,即可刻画出人物画像;其中,加权后的相似度表示为:
[0063]
s(p1,p2)=δ
×
s(i1,i2) (1-δ)
×
s(v1,v2)。
[0064]
本发明相对现有技术具有突出的实质性特点和显著进步,具体的说:
[0065]
(1)本发明能够对涉案数据进行很好的处理;
[0066]
(2)本发明中采用基于重叠社团发现的重要目标识别技术,利用局部聚类结构的引导来检测重叠社团,将复杂的重叠聚类问题降低为一个更简单、更易于处理的非重叠分区问题;
[0067]
(3)本发明利用向量表示、行为关联等方法,构建基于多维特征的网络用户身份关联模型,挖掘跨社交平台用户关联关系和还原用户社交关系网络。
具体实施方式
[0068]
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
[0069]
实施例1
[0070]
本实施例提供了一种案件大数据网络身份关联与人物画像方法,所述方法包括:
[0071]
步骤1,获取案件数据;其中,案件数据包括:用户id,用户昵称, ip地址,上级和真实姓名。
[0072]
步骤2,对获取的数据进行清洗;
[0073]
具体的清洗方法:
[0074]
步骤2-1,若数据中存在空白的内容,则将该条数据删除;若数据中存在多个属性项完全重复的记录,则只保留一条记录并将其余删除;
[0075]
步骤2-2,进行中文字段匹配;
[0076]
首先,利用知识库对明显等价的特殊字段进行初步匹配;然后,利用中文自动分词技术,对经过初步匹配后的字符序列进行分词处理,形成含有分词标记的字符序列;其中,知识库是指已有的开源中文词汇库;
[0077]
步骤2-3,进行基于编辑距离的相似度计算;
[0078]
编辑距离(m 1)
×
(n 1)阶矩阵d
ij
的计算公式如下:
[0079][0080]
式中,d
ij
=d(s1…
si,t1…
ti),0≤i≤m,0≤j≤n,d
ij
表示从{s1…
si},到{t1…
ti}的编辑距离,s指代源字符串,t指代目标字符串;
[0081]
步骤2-4,基于改进n-gram算法的数据清洗;
[0082]
在改进的n-gram算法中,使用动态大小的滑动窗口进行字段匹配;窗口大小由当前窗口大小ni、窗口内首尾记录间的距离d
t
以及窗口最小阈值确定;在算法运行时设定窗口大小的初值n0,后续窗口的大小随算法执行过程得出;
[0083]
窗口大小计算方法:记当前正在处理的窗口为n1,r1和r
l
分别表示窗口内的第一条和最后一条记录,则二者之间的距离d
t
满足:
[0084][0085]
此时窗口n1内各记录之间的平均距离为d
t
(r1,r
l
)/n1;
[0086]
下一步窗口的大小n2为:为窗口最小阈值。
[0087]
步骤3,采用重叠社团发现技术识别重要目标;
[0088]
具体的识别重要目标的方法:
[0089]
重叠社团的发现主要包括两个步骤:局部ego-net分析和全局图划分。第一步中,首先为每一个节点u创建一个ego-net,然后将节点u的邻居节点分隔出来。对于其中的每个社团,创建一个新的节点u的副本,每个副本与这部分节点中的一个聚类存在唯一关联关系。然后,将结点之间存在于原始图中的每条边映射到副本中。在第二步全局图划分中,采用图划分算法在副本图中进行划分,并输出检测到的聚类;
[0090]
定义要处理的图g=(v,e)由有限个结点v和节点之间的边组成,且满足:对于任意(u,v)∈e,u≠v;(u,v)∈e,当且仅当(v,u)∈e,最终检测到的聚类为s’,则由g产生s’的具体步骤如下:
[0091]
步骤3-1:对于图g中的每个结点u,使用局部聚类算法划分出结点u 的ego-net:
[0092][0093]
其中,tu=n
p
(a
l
,g[nu]),n
p
表示集合的数目;
[0094]
步骤3-2:创建副本集合v’;
[0095]
v中的每个结点u对应v’中的tu个副本,分别表示为ui,i=1,2,

, tu;
[0096]
步骤3-3:增加副本之间的边;
[0097]
如果(u,v)∈e,且那么在e’中增加一条边(ui,vj);
[0098]
步骤3-4:在g

=(v

,e

)上利用全局聚类算法ag进行聚类,获取v

的分区s


[0099]
步骤3-5:对于v’的划分中的每个集合c

∈s

,关联一个由v的对应节点组成的簇即输出 s

={c(c

)|c

∈s

}。
[0100]
步骤4,用户博文向量化;
[0101]
由于博文表达的随意性和数据源的庞杂性,需要对博文进行定量分析,拟采用向量化方法。首先对博文数据做分词处理,然后将语义词用词典中对应的语义向量替代,然后通过基于卷积神经网络的博文向量表示模型,实现用户博文的向量化,从而便于后面的源用户与候选用户的相似度比较;
[0102]
具体的用户博文向量化表示如下:
[0103]
博文进行分词处理后,博文呈现出一个大小为n的词表,表中的第i 个语义词表示为:
[0104]
wordi=(sitei,vectori)
[0105]
式中,sitei表示语义词在语义向量词典中的位置,vectori表示语义词对应的语义向量;
[0106]
由n个语义词组成的二元组构成博文的初始向量表示为:
[0107]
blog=(word1,word2,word3,

,wordn)
[0108]
选定源用户的一条博文blog1与待比较的候选用户的一条博文blog2,构建模型比较它们的语义;
[0109]
由于源用户博文作为被比较对象,源用户博文中每个语义词都是待比对用户博文的重要衡量内容,所以博文中的所有语义词均作为核心词,采用平均池化方法,获得源用户的固定维度的博文向量v1,公式如下:
[0110][0111][0112]
式中,n1表示源用户博文中语义词的数量,α表示每个语义词的权重;
[0113]
作为待比对的候选用户博文,把博文中与源用户博文相同或相近的语义词作为重点,所以要增大这部分的语义词的权重,采用带权重的平均池化计算方法,获得与源用户博文向量相同维度的候选用户博文向量v2:
[0114][0115][0116][0117]
式中,β表示相同语义词的权重的波动幅度,γi表示第i个语义词的权重。
[0118]
步骤5,用户个人信息向量化;
[0119]
个人信息的多维化与不连续性,不能直接用作用户身份关联的相似度计算,需要对用户个人信息进行编码向量化,对用户个人信息进行one-hot编码,将用户个人信息转换
为稀疏向量表示;
[0120]
具体的用户个人信息向量化内容如下:
[0121]
对具有辨识度的五个维度的公开特征信息进行表示和one-hot编码处理:性别、所在地省份、所在城市、星座和登录方式;由于省份和城市的可能值较多,所以先省份进行编号组成字典,然后将用户省份用字典中对应的编号代替从而实现数字化,同理对城市进行数字化,然后根据样本数据,使用python中的sklearn中的onehotencoder,对用户个人信息进行 one-hot编码,获得源用户个人信息向量i1={i
11
,i
12
,i
13
,i
14
,i
15
}和候选用户个人信息向量i2={i
21
,i
22
,i
23
,i
24
,i
25
}。
[0122]
步骤6,源用户和候选用户的博文相似度计算;
[0123]
将用户的个人信息和发文行为进行向量化表示之后,便可以计算源用户和候选用户之间的相似性,继而计算用户之间的综合相似性。
[0124]
其中,源用户和候选用户的博文相似度计算公式如下:
[0125][0126]
使用余弦相似度计算,计算源用户和候选用户的个人信息相似性,计算公式如下:
[0127][0128]
分别计算出了源用户和候选用户的博文相似度和个人信息相似度之后,接下来找到恰当的用户个人信息的权重δ,使得加权后的结果精确最高,即可刻画出人物画像;其中,加权后的相似度表示为:
[0129]
s(p1,p2)=δ
×
s(i1,i2) (1-δ)
×
s(v1,v2)。
[0130]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献