一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于知识图谱和主成分分析的群租房多维识别方法与流程

2022-02-20 05:38:23 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,具体为一种基于知识图谱和主成分分析的群租房多维识别方法。


背景技术:

2.当前主要有两类识别群租房的方法:
3.1.基于群众投诉反馈信息,组织专人走访,判断是否为群租房;
4.2.基于房屋生活数据,通过挖掘异常数据,例如计算用水量与用电量的比值,比值越大的越异常,计算疑似群租房的置信度。
5.现有方法中,方法一过于依赖人工,虽可信度较高,但效率极低,方法二考虑的维度较为单一,易造成漏判,因此我们对此做出改进,提出一种基于知识图谱和主成分分析的群租房多维识别方法。


技术实现要素:

6.为了解决上述技术问题,本发明提供了如下的技术方案:
7.本发明一种基于知识图谱和主成分分析的群租房多维识别方法,包括以下步骤:
8.步骤一:构建人房知识图谱;
9.步骤二:基于主成分分析计算各判定指标的权重;
10.步骤三:计算群租房判定阈值;
11.步骤四:识别群租房。
12.作为本发明的一种优选技术方案,所述步骤一中,构建人房知识图谱包括:
13.获取房屋和人物的多源异构数据,作为构建人房知识图谱的基础数据,包括房屋基本信息、房屋的用水数据、房屋的用电数据、房屋的用气数据、快递数据、人物基本信息、人物关系数据、人房关系数据等;
14.设计人房知识图谱的本体,基于本体定义从基础数据抽取实体和关系,特别地,需要对房屋实体设置一个类别标签,用以区分已经被确认是群租房的房屋和未被确认的房屋,可用于判定阈值的计算,已被确认的房屋数据标签值可设为“群租房”;
15.将实体和关系数据导入图数据库,构建人房知识图谱。
16.作为本发明的一种优选技术方案,所述基于主成分分析计算各判定指标的权重包括:
17.设计判定指标:由于群租房与非群租房在很多特征上的数值表现是有显著差异的,所以可以基于业务专家的经验将这些特征提炼出来作为识别群租房的判定指标(fi,i=1,2,

n),例如房屋水电比(群租房的用水与用电量的比值一般会高于非群租房)、快递数量(群租房的快递数量一般会高于非群租房屋)、人员关系亲疏度(群租房的租客一般与房主的关系较为疏远或没有关系,而非群租房的住客与房主的关系较为丰富且紧密)等;
18.数据提取与归一化:按照设定好的判定指标,从人房知识图谱中提取所有房屋实
体的相关数据,提取的数据格式为:{"id":"房屋实体主键","f1":"房屋对应指标f1的值",

,"fn":"房屋对应指标fn的值"},每一个房屋实体对应一条上述格式的数据,之后,将所有房屋实体数据汇总,然后基于每个指标列数据的实际特征情况和业务需求,设计或选择合适的归一化函数对fi列数据进行归一化处理,最终输出结果,每个指标列只使用一个归一化函数处理,不同指标列数据可以使用不同的归一化函数;
19.采用主成分分析计算指标的权重:主成分分析(pca, principalcomponentanalysis)是一种统计方法,它通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,将上面归一化后的房屋数据作为输入,使用pca 计算各个主成分(即各指标)的方差贡献率作为指标的权重值,方差贡献率越大则该主成分的重要性越强;
20.生成判定函数:y=v1f1(x) v2f2(x)

v
nfn
(x),其中,x为从知识图谱中提取的某个房屋数据,vi(=1,2

,n)是指标的权重值,fi(x)表示房屋x的指标fi归一化后的数值。
21.作为本发明的一种优选技术方案,所述计算群租房判定阈值包括:
22.从归一化处理中提取已知群租房的各指标维度的数据;
23.将上一步骤中提取的已知群租房数据代入群租房判定函数,计算每个历史群租房的判定得分,取所有历史群租房的判定得分的平均数作为判断待识别房屋是否是群租房的判定阈值;
24.为了保证判定结果的时效性以适应实时多变的数据情况,结合实际数据增量更新的频率,灵活地将计算判定阈值的操作设置为周期性的,选择日更或周更。
25.作为本发明的一种优选技术方案,所述识别群租房包括:
26.从人房知识图谱中提取待识别房屋在各指标维度上的数据;
27.将待识别房屋的各指标维度的数据代入群租房判定函数,输出待识别房屋的判定得分;
28.将待识别房屋的判定得分与群租房判定阈值比较,如果大于等于判定阈值则认为待识别房屋是疑似群租房,并从人房知识图谱中捞取待识别房屋实体的关联数据,可限定遍历层数,由业务决定,作为判定结果的可解释性说明,一般以关系图的形式可视化展示。
29.本发明的有益效果是:该种基于知识图谱和主成分分析的群租房多维识别方法:
30.1、构建人房知识图谱汇聚房屋的多源异构数据,保证分析维度的多样性与全面性。特别地,用图结构来组织数据相较于传统方式而言,可以将许多关系维度的数据利用起来,参与到群租房的判定过程中去;
31.2、针对房屋的多源异构数据,采用主成分分析方法计算判定指标的权重,避免人为指定权重值,保证权重设定的科学性与客观性。同时,针对数据更新的频率,定期更新权重值,确保权重设定的时效性;
32.3、基于已知群租房数据集,采用群租房判定函数计算出群租房的判定阈值,避免阈值设定的随意性;
33.最后,基于判定公式和判定阈值对待查房屋进行判定,若判定为群租房,则查询人房知识图谱挖掘出待查房屋的多维数据,作为判定的依据,保证了判定结果的可解释性。
附图说明
34.图1是本发明一种基于知识图谱和主成分分析的群租房多维识别方法的整体流程图;
35.图2是本发明一种基于知识图谱和主成分分析的群租房多维识别方法的人房知识图谱本体语义网络图;
36.图3是本发明一种基于知识图谱和主成分分析的群租房多维识别方法的指标与归一化函数图;
37.图4是本发明一种基于知识图谱和主成分分析的群租房多维识别方法的房屋实体和房主关系结构示例图。
具体实施方式
38.以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
39.实施例:如图1-4所示,本发明一种基于知识图谱和主成分分析的群租房多维识别方法,包括以下步骤:
40.步骤一:构建人房知识图谱;
41.步骤二:基于主成分分析计算各判定指标的权重;
42.步骤三:计算群租房判定阈值;
43.步骤四:识别群租房。
44.其中,步骤一中,构建人房知识图谱包括:
45.获取房屋和人物的多源异构数据,作为构建人房知识图谱的基础数据,包括房屋基本信息、房屋的用水数据、房屋的用电数据、房屋的用气数据、快递数据、人物基本信息、人物关系数据、人房关系数据等;
46.设计人房知识图谱的本体,基于本体定义从基础数据抽取实体和关系,特别地,需要对房屋实体设置一个类别标签,用以区分已经被确认是群租房的房屋和未被确认的房屋,可用于判定阈值的计算,已被确认的房屋数据标签值可设为“群租房”;
47.将实体和关系数据导入图数据库,构建人房知识图谱。
48.其中,基于主成分分析计算各判定指标的权重包括:
49.设计判定指标:由于群租房与非群租房在很多特征上的数值表现是有显著差异的,所以可以基于业务专家的经验将这些特征提炼出来作为识别群租房的判定指标(fi,i=1,2,

n),例如房屋水电比(群租房的用水与用电量的比值一般会高于非群租房)、快递数量(群租房的快递数量一般会高于非群租房屋)、人员关系亲疏度(群租房的租客一般与房主的关系较为疏远或没有关系,而非群租房的住客与房主的关系较为丰富且紧密)等;
50.数据提取与归一化:按照设定好的判定指标,从人房知识图谱中提取所有房屋实体的相关数据,提取的数据格式为:{"id":"房屋实体主键","f1":"房屋对应指标f1的值",

,"fn":"房屋对应指标fn的值"},每一个房屋实体对应一条上述格式的数据,之后,将所有房屋实体数据汇总,然后基于每个指标列数据的实际特征情况和业务需求,设计或选择合适的归一化函数对fi列数据进行归一化处理,最终输出结果,每个指标列只使用一个归一化函数处理,不同指标列数据可以使用不同的归一化函数;
51.采用主成分分析计算指标的权重:主成分分析是一种统计方法,它通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分,将上面归一化后的房屋数据作为输入,使用pca计算各个主成分(即各指标)的方差贡献率作为指标的权重值,方差贡献率越大则该主成分的重要性越强;
52.生成判定函数:y=v1f1(x) v2f2(x)

v
nfn
(x),其中,x为从知识图谱中提取的某个房屋数据,vi(=1,2

,n)是指标的权重值,fi(x)表示房屋x的指标fi归一化后的数值。
53.其中,计算群租房判定阈值包括:
54.从归一化处理中提取已知群租房的各指标维度的数据;
55.将上一步骤中提取的已知群租房数据代入群租房判定函数,计算每个历史群租房的判定得分,取所有历史群租房的判定得分的平均数作为判断待识别房屋是否是群租房的判定阈值;
56.为了保证判定结果的时效性以适应实时多变的数据情况,结合实际数据增量更新的频率,灵活地将计算判定阈值的操作设置为周期性的,选择日更或周更。
57.其中,识别群租房包括:
58.从人房知识图谱中提取待识别房屋在各指标维度上的数据;
59.将待识别房屋的各指标维度的数据代入群租房判定函数,输出待识别房屋的判定得分;
60.将待识别房屋的判定得分与群租房判定阈值比较,如果大于等于判定阈值则认为待识别房屋是疑似群租房,并从人房知识图谱中捞取待识别房屋实体的关联数据,可限定遍历层数,由业务决定,作为判定结果的可解释性说明,一般以关系图的形式可视化展示。
61.构建人房知识图谱:首先,根据业务需求和数据情况设计合适的本体,如图2;接着,将获取的数据提取成本体设计中的实体和关系如图4;最后,将实体和关系导入图数据库(例如neo4j),就完成了知识图谱的构建;
62.基于主成分分析计算各判定指标的权重:首先,根据业务专家经验选择合理的判定指标,同时设计好每个指标的归一化函数,如图3,可以将房屋实体的的指标数据设计为从f1到f
10
的判定指标,分别为,指标f1为近6个月住客不同户籍地数量,指标f2为近6个月住客手机号不同归属地数量,指标f3为近6个月住客最大年龄差值,指标f4为6个月平均用水量,指标f5为6个月平均用电量,指标f6为近6 个月平均用气量,指标f7为近6个月关联人员数量,指标f8为近6 个月住客的男/女人数离差,指标f9近6个月寄递外卖人数,指标f
10
为近6个月住客与房主关系疏远度,其中,可以为每个指标都设计合适的归一化函数,本案例中设计的函数为:
[0063][0064]
其中,xi表示某指标上一条数据,n为数据总数量
[0065][0066]
其中,x0表示当前房屋的房主,xi则表示房屋的住客。 count_path(x0,xi)计算房主与住客间的不超过2跳的通联路径数量,当路径数超过10时则值为10;
[0067]
上述函数为关系疏远度的计算函数,因为数值已经控制在区间 [0,1],所以无需再进行归一化;
[0068]
接着,从知识图谱中提取所有房屋实体的指标数据并做归一化处理,处理后的房屋数据示例结果如下表1:
[0069]
序号f1f2f3f4f5f6f7f8f9f
10
10.6320.5410.5830.7120.4590.5030.7920.3610.1020.287

0.5790.4970.4110.6370.5230.6480.7560.6320.2010.193n0.3210.5430.6970.5460.4120.3320.6880.4820.3110.448
[0070]
捞取上表中指标属性为“群租房”的房屋实体的指标数据,然后,采用pca计算各指标的方差贡献率作为指标的权重值,最后,生成判定函数y=0.21
×
f1(x) 0.15
×
f2(x)

0.13
×f10
(x),详细权重值结果如下表2:
[0071][0072][0073]
计算群租房判定阈值:首先,捞取表1中标签属性为“群租房”的房屋实体的指标数据;然后,将每个已知群租房的数据代入判定函数计算判定得分(score);最后,计算所有已知群租房的判定得分的平均值作为判定阈值(threshold),结果如下表3:
[0074][0075]
识别群租房:首先,根据待查条件从人房知识图谱中定位到对应房屋实体;然后,根据待查房屋实体的id到表1中提取其归一化后的指标数据,代入判定函数计算得出判定得分;接着,比较待查房屋的判定得分是否大于等于判定阈值,若大于则认为待查房屋是疑似群租房;最后,返回识别结果,并从人房知识图谱捞取待查房屋的详细数据,图上展示作为结论的可解释性说明。
[0076]
最后应说明的是:在本发明的描述中,需要说明的是,术语“竖直”、“上”、“下”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0077]
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0078]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献