一种基于聚类算法的高危地区识别方法与流程

2022-04-27 02:08:34 来源：中国专利 TAG：

1.本发明涉及高危地区识别技术领域，尤其涉及一种基于聚类算法的高危地区识别方法。

背景技术：

2.所谓高危地区是指：在某些特定的地址或者地区范围频繁的出现某些高危特征的人员，(所谓高危特征应根据识别需求及相关法规而定义)，则可以将该地址区域设定为具有某种特征的高危地区。相关部门在日常管理的过程中，当区域内人员的来源地、居住地具有某种高危地区特征的时候，将采取高危地区相应的应对手段，对此人员进行重点防控。
3.目前对高危地区的识别主要采用如下两种方式来实现：
4.经验：仅基于工作中长期积累形成的业务经验，出现错漏的概率比较大；
5.规则引擎：如果是将经验电子化，则进一步可以转化为规则，通过规则引擎实现自动的匹配。规则引擎计算方便，效率高，但是对于规则的维护仍然需要人工，如果规则更新不及时，则无法反应客观情况的变化。

技术实现要素：

6.针对上述现有技术中的问题，本发明的目的在于提供一种基于聚类算法的高危地区识别方法，通过对相关系统的历史信息进行处理，生成训练数据集，采用自动的特征提取和无监督聚类机器学习算法实现地区与高危特征的聚类，实现自动的高危地区的识别。
7.本发明是通过如下技术方案实现的：一种基于聚类算法的高危地区识别方法，包括以下步骤：
8.对接相关部门的信息系统，获取历史案件数据，根据案件数据生成案事件信息、地址信息、高危特征的关联数据集，作为训练数据集；通过中文分词技术实现对案件文本文件的特征化，同时针对高危特征词进行案件的特征化，高危特征词的表述符合相关法律法规中的约定，比如盗窃、抢劫等，地址信息应对应涉案人员的居住地地址和户籍地址；
9.提取所述训练数据集中的地址信息，并对所述地址信息进行编码，每个地址对应生成一个地址向量，最终形成地址向量集；
10.对所述地址向量集内相似度超过设定阈值的所述地址向量进行归并。
11.提取所述训练数据集中的高危特征，对高危特征进行编码，形成高危特征向量集；提取所有样本中的高危特征，对文本进行索引，形成最终高危特征编码。如盗窃-》1，抢劫-》2。
12.关联所述地址向量集与所述高危特征向量集后得到高危地区特征向量集；如{xx省，xx市，xx县，盗窃}转化为高危地区特征向量可以化为{1，2，5，6， 9}；
13.对高危地区特征向量集使用聚类算法计算，进行聚类模型训练，生成模型库；
14.根据目标用户的身份数据提取居住信息，并对所述居住信息进行编码生成待识别地址编码；
15.所述待识别地址编码与所述模型库进行匹配，经过模型预测后，判断目标用户是否来自有高危特征的区域。
16.进一步，设定更新周期，定期获取新增的案件数据，生成与所述训练数据集格式相同的增量数据集，提取并关联与所述增量数据集相应的地址向量集和高危特征向量集，并更新至当前的高危地区特征向量集，重新进行聚类模型训练，更新所述模型库。
17.进一步，所述对地址进行编码具体为：首先采用国家标准地理信息库进行分词，对每个词进行数字索引，从而实现地址的向量化。为提高泛化，地址精确到市级或县级。
18.进一步，通过欧氏距离算法对地址向量计算相似度，通过多轮迭代，将相似度大于一个阈值的地址组合进行合并。
19.地址向量的相似度的计算如下：a＝(a[1]，a[2]，
…
，a[n])和b＝(b[1]， b[2]，
…
，b[n])之间的距离ρ(a，b)定义为下面的公式：
[0020][0021]
其中d值越小，则说明两个地址向量a、b的相似度越高。
[0022]
进一步，所述聚类模型训练具体为：所述聚类算法是基于spark实现的 k-means算法；计算k值；输入计算好的k值和特征向量；经计算结果存储到模型库中。
[0023]
进一步，聚类(k-means)算法过程如下：
[0024]
1、给定初始数据集k-means会把数据分成k个簇，每个簇代表不同的类别；
[0025]
2、从训练集中随机选取k个质心，分别为并初始化簇
[0026]
3、计算xi到质心向量的距离μj的距离d
ij
,选择d
ij
时最小时cm为xi的类别，更新cm＝cm∪xi，
[0027]
4、重新计算cj的质心：
[0028][0029]
5、重复如上3,4过程直到k个质心向量不在发生变化，或者达到迭代次数。
[0030]
在采用k-means聚类算法的时候，需要人工或者通过计算的方式获取到k 值，k值的准确性直接影响到最终聚类的效果。一般k值的选取采用人工计算的方式。首先人工预估k值，然后通过elbow算法来进行验证。elbow算法计算不同的k值的时候的损失函数的值，当损失函数变化率发生变化较大的时候，则说明该k值为合适的k值；计算到k值后，基于spark实现kmeans算法，并输入计算好的k值和特征向量，得到的结果存储到结果库中；
[0031]
在聚类计算的时候，如果聚类效果不好的时候，需要进行调整k值和修改特征的编码算法。
[0032]
1、一种基于聚类算法的高危地区识别系统，包括第一获取单元，用于对接相关部门的信息系统，获取历史案件数据，根据案件数据生成包括案件信息、地址信息、高危特征的关联数据集，作为训练数据集；
[0033]
地址向量生成单元，用于提取所述训练数据集中的地址信息，并对地址进行编码，每个地址对应生成一个地址向量，最终形成地址向量集；
[0034]
地址向量归并单元，用于对所述地址向量集内相似度超过设定阈值的所述地址向量进行归并；
[0035]
第二获取单元，用于对接相关部门的信息系统，结合实时流处理技术获取增量数据集，所述增量数据集为随时间更新不断产生的新数据；
[0036]
高危特征向量生成单元，用于提取所述训练数据集和增量数据集中的高危特征，对高危特征进行编码，形成高危特征向量集；
[0037]
向量合并单元，用于关联所述地址向量集与所述高危特征向量集后得到高危地区特征向量集；
[0038]
模型库生成单元，用于对高危地区特征向量集使用聚类算法计算，进行聚类模型训练，生成模型库；
[0039]
识别单元，用于提取目标用户的居住信息，并对所述居住信息进行编码生成待识别地址编码；
[0040]
模型预测单元，用于将所述待识别地址编码与所述模型库进行匹配，预测判断目标用户是否来自具有高危特征的区域。
[0041]
进一步，还包括更新单元，用于更新所述模型库，具体为：设定更新周期，定期获取新增的案件数据，生成与所述训练数据集格式相同的增量数据集，提取并关联与所述增量数据集相应的地址向量集和高危特征向量集，并更新至当前的高危地区特征向量集，重新进行聚类模型训练，更新所述模型库。
[0042]
本发明的有益效果为：本方法采用非监督学习，不需要大量的标注数据，训练成本低，同时采用spark分布式计算作为训练方法，训练速度块，可使用的数据集更大，能够快速验证模型。模型训练成功后，可以支持相关部门的日常行政和社会管理工作，能够不需要经验就可以快速判断目标人员的居住地和户籍地的高危地区特征，实现快速响应，提高相关部门工作效率，降低研判成本。
附图说明
[0043]
图1为本发明流程图；
[0044]
图2聚类过程流程图；
[0045]
图3为关联数据集的表格。
具体实施方式
[0046]
为能清楚说明本方案的技术特点，下面通过具体实施方式，对本方案进行阐述。
[0047]
实施例一，参见图1-图3，本发明是通过如下技术方案实现的：一种基于聚类算法的高危地区识别方法，包括以下步骤：
[0048]
对接相关部门的信息系统，获取历史案件数据，根据案件数据生成包括案件信息、地址信息、高危特征的关联数据集，作为训练数据集；通过中文分词技术实现对案件文本文件的特征化，同时针对高危特征词进行案件的特征化，高危特征词的表述应符合相关法律法规中的约定，比如盗窃、抢劫等，地址信息应对应涉案人员的居住地地址和户籍地址；
[0049]
提取所述训练数据集中的地址信息，并对所述地址信息进行编码，每个地址对应生成一个地址向量，最终形成地址向量集；
[0050]
对所述地址向量集内相似度超过设定阈值的所述地址向量进行归并；
[0051]
提取所述训练数据集中的高危特征，对高危特征进行编码，形成高危特征向量集；提取所有样本中的高危特征，对文本进行索引，形成最终高危特征编码。如盗窃-》1，抢劫-》2。
[0052]
关联所述地址向量集与所述高危特征向量集后得到高危地区特征向量集；如{xx省，xx市，xx县，盗窃}转化为高危地区特征向量可以化为{1，2，5，6， 9}；
[0053]
对高危地区特征向量集使用聚类算法计算，进行聚类模型训练，生成模型库；
[0054]
根据目标用户的身份数据提取居住信息，并对所述居住信息进行编码生成待识别地址编码；
[0055]
所述待识别地址编码与所述模型库进行匹配，经过模型预测后，判断目标用户是否来自有高危特征的区域。
[0056]
设定更新周期，定期获取新增的案件数据，生成与所述训练数据集格式相同的增量数据集，提取并关联与所述增量数据集相应的地址向量集和高危特征向量集，并更新至当前的高危地区特征向量集，重新进行聚类模型训练，更新所述模型库。
[0057]
所述对地址进行编码具体为：首先采用国家标准地理信息库进行分词，对每个词进行数字索引，从而实现地址的向量化。为提高泛化，地址精确到市级或县级。
[0058]
通过欧氏距离算法对地址向量计算相似度，通过多轮迭代，将相似度大于一个阈值的地址组合进行合并。
[0059]
地址向量的相似度的计算如下：a＝(a[1]，a[2]，
…
，a[n])和b＝(b[1]， b[2]，
…
，b[n])之间的距离ρ(a，b)定义为下面的公式：
[0060][0061]
其中d值越小，则说明两个地址向量a、b的相似度越高。
[0062]
所述聚类模型训练具体为：所述聚类算法是基于spark实现的k-means算法；计算k值；输入计算好的k值和特征向量；经计算结果存储到模型库中。
[0063]
聚类(k-means)算法过程如下：
[0064]
1、给定初始数据集k-means会把数据分成k个簇，每个簇代表不同的类别；
[0065]
2、从训练集中随机选取k个质心，分别为并初始化簇
[0066]
3、计算xi到质心向量的距离μj的距离d
ij
,选择d
ij
时最小时cm为xi的类别，更新cm＝cm∪xi，
[0067]
4、重新计算cj的质心：
[0068]
[0069]
5、重复如上3,4过程直到k个质心向量不在发生变化，或者达到迭代次数。
[0070]
在采用k-means聚类算法的时候，需要人工或者通过计算的方式获取到k 值，k值的准确性直接影响到最终聚类的效果。一般k值的选取采用人工计算的方式。首先人工预估k值，然后通过elbow算法来进行验证。elbow算法计算不同的k值的时候的损失函数的值，当损失函数变化率发生变化较大的时候，则说明该k值为合适的k值；计算到k值后，基于spark实现kmeans算法，并输入计算好的k值和特征向量，得到的结果存储到结果库中；
[0071]
在聚类计算的时候，如果聚类效果不好的时候，需要进行调整k值和修改特征的编码算法。
[0072]
2、实施例二，一种基于聚类算法的高危地区识别系统，包括
[0073]
3、第一获取单元，用于对接相关部门的信息系统，获取历史案件数据，根据案件数据生成包括案件信息、地址信息、高危特征的关联数据集，作为训练数据集；
[0074]
地址向量生成单元，用于提取所述训练数据集中的地址信息，并对地址进行编码，每个地址对应生成一个地址向量，最终形成地址向量集；
[0075]
地址向量归并单元，用于对所述地址向量集内相似度超过设定阈值的所述地址向量进行归并；
[0076]
第二获取单元，用于对接相关部门的信息系统，结合实时流处理技术获取增量数据集，所述增量数据集为随时间更新不断产生的新数据；
[0077]
高危特征向量生成单元，用于提取所述训练数据集和增量数据集中的高危特征，对高危特征进行编码，形成高危特征向量集；
[0078]
向量合并单元，用于关联所述地址向量集与所述高危特征向量集后得到高危地区特征向量集；
[0079]
模型库生成单元，用于对高危地区特征向量集使用聚类算法计算，进行聚类模型训练，生成模型库；
[0080]
识别单元，用于提取目标用户的居住信息，并对所述居住信息进行编码生成待识别地址编码；
[0081]
模型预测单元，用于将所述待识别地址编码与所述模型库进行匹配，预测判断目标用户是否来自具有高危特征的区域。
[0082]
还包括更新单元，用于更新所述模型库，具体为：设定更新周期，定期获取新增的案件数据，生成与所述训练数据集格式相同的增量数据集，提取并关联与所述增量数据集相应的地址向量集和高危特征向量集，并更新至当前的高危地区特征向量集，重新进行聚类模型训练，更新所述模型库。
[0083]
本发明创造的描述中，前面的详细描述已经通过使用框图、流程图和/或示例阐述了装置和/或过程的各种实施例。在这样的框图、流程图和/或示例包含一个或多个功能和/或操作的程度上，本领域技术人员将理解的是，这样的框图、流程图或示例内的每个功能和/或操作可通过许多各种不同的硬件、软件、固件或实际上它们的任何组合被单独地和/或集体地实现。
[0084]
在系统的各方面的硬件和软件实施方式之间几乎没有差别；硬件或软件的使用通常是(但并不总是，因为在某些情景中在硬件和软件之间的选择可能变得重要)代表成本与效率折衷的设计选择。存在本文中所述的过程和/或系统和/ 或其它技术可借以被实现的
各种手段(例如，硬件、软件和/或固件)，并且优选的手段将随着其中过程和/或系统和/或其它技术被部署的情景的不同而改变。例如，如果实施者确定速度和准确性是极为重要的，那么实施者可选择主要为硬件和/或固件的手段；如果灵活性是极为重要的，那么实施者可选择主要为软件的实施方式；或者，但同样可替换地，实施者可选择硬件、软件和/或固件的某组合。
[0085]
本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述，当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于区块链的人脸验证方法、设备和计算机可读存储介质

一种基于聚类算法的高危地区识别方法与流程

相关文献

最热文献