基于数据重复度的意见线索智能归集方法及系统与流程

2022-07-02 14:42:20 来源：中国专利 TAG：

1.本发明涉及数据处理和数据监管技术领域，具体地说是一种基于数据重复度的意见线索智能归集方法及系统。

背景技术：

2.随着时代的快速发展，法制的进步，城乡居民的维权意识逐渐提升，对自身利益收到侵害时越来越多选择向相关部门进行反馈，造成了意见线索处理数量剧增。意见线索的处理速度和效果直接关系到居民的生活幸福度，因此相关部门对意见线索处理的时限、处理方式要求越来越严格，相关处理人员工作强度和压力大，催生了意见线索处理系统的快速建设。
3.现有意见线索系统没有对重复的意见线索数据进行归集，存在同一意见线索数据重复处理的问题，导致处理效率不佳、处理周期长的问题。

技术实现要素：

4.本发明的技术任务是提供一种基于数据重复度的意见线索智能归集方法及系统，来解决意见线索数据重复，处理周期长的问题。
5.本发明的技术任务是按以下方式实现的，一种基于数据重复度的意见线索智能归集方法，该方法具体如下：
6.获取意见线索数据中判断重复率的关键指标，并对关键指标进行预处理；
7.使用levenshtein distance算法计算关键指标的重复率；
8.将归集为一类的意见线索数据进行批量处理。
9.作为优选，关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间。
10.更优地，对关键指标进行预处理具体如下：
11.对意见线索内容进行分词处理。
12.作为优选，使用levenshtein distance算法计算关键指标的重复率具体如下：
13.使用levenshtein distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离；
14.将关键指标的字符串长度减去计算出的关键指标的编辑距离后，在除以关键指标的字符串长度计算出关键指标的重复率；
15.根据关键指标的重复率归类意见线索。
16.更优地，根据关键指标的重复率归类意见线索的情况如下：
17.①
、将意见线索中至少两个关键指标重复率高于70％的意见线索归类为极相似意见线索；
18.②
、将意见线索中至少两个关键指标重复率高于50％且低于70％的意见线索归类为相似意见线索。
19.更优地，使用levenshtein distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离具体如下：
20.设意见线索a的意见线索对象字符串长度为m，意见线索b的意见线索对象字符串长度为n,根据意见线索a和意见线索b建立一个(m 1)x(n 1)的数组；其中，(m 1)为行，(n 1)为列，(m 1)x(n 1)的数组用于保存完成字符串转换所需最少步数；
21.设将意见线索a的意见线索字符串x[1..m]转换到意见线索b的意见线索字符串y[1
…
n]需要的最少步数为levenst[m][n]的值；
[0022]
将levenst第0行初始化为0到n，第0列初始化为0到m；
[0023]
为了将x[1...i]经过最少次数的增、删、改操作转换为y[1...j]，字符串x和字符串y的每一个字符两两进行比较，两两比较时，从levenst[i-1][j] 1、levenst[i][j-1] 1、levenst[i-1][j-1] eq中取最小值即为levenst[i][j]的值，具体为：
[0024]
若x[i]和y[j]相等，则eq＝0；
[0025]
若x[i]和y[j]不相等，则eq＝1；
[0026]
将字符串x和字符串y中所有字母都遍历对比完成后，将字符串x转换为字符串y所需最少步骤数为levenst[m][n]，即为编辑距离。
[0027]
作为优选，将归集为一类的意见线索数据进行批量处理具体如下：
[0028]
处理意见线索数据时，查找是否有极相似及相似意见线索数据：
[0029]
若有，则查看极相似及相似意见线索数据的详情，并从极相似及相似线索数据中选择属性相同的意见线索事件的数据进行批量处理。
[0030]
一种基于数据重复度的意见线索智能归集系统，该系统包括，
[0031]
获取模块，用于获取意见线索数据中判断重复率的关键指标，并对关键指标进行预处理；其中，关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间；
[0032]
计算模块，用于使用levenshtein distance算法计算关键指标的重复率；
[0033]
处理模块，用于将归集为一类的意见线索数据进行批量处理。
[0034]
一种电子设备，包括：存储器和至少一个处理器；
[0035]
其中，所述存储器上存储有计算机程序；
[0036]
所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如上述的基于数据重复度的意见线索智能归集方法。
[0037]
一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的基于数据重复度的意见线索智能归集方法。
[0038]
本发明的基于数据重复度的意见线索智能归集方法及系统具有以下优点：
[0039]
(一)本发明旨在通过对意见线索数据中的意见线索对象、意见线索内容、意见线索属地等关键指标进行分词，根据关键指标的重复度，对意见线索数据进行归集分类，推动城乡居民的意见线索问题迅速批量处理，解决了人工分辨意见线索数据重复的问题，提高意见线索事件的办理效率，提高公众服务能力，推动意见线索处理分发的信息化、智能化、规范化；
[0040]
(二)本发明实现了对重复的意见线索数据进行归集分类，将从各个地方汇聚来的意见线索数据快速智能的归集分类，用户在使用本发明处理意见线索数据时，会推送重
复度高的同一类意见线索数据，用户可将属于同一事件的意见线索数据批量进行处理，提高意见线索的处理效率，同时降低人工劳动强度；
[0041]
(三)本发明能够提醒用户重复率高的意见线索数据，用户可通过此提醒，将属于同一意见线索事件的数据进行批量处理，提高工作效率，推动城乡居民的意见线索问题迅速批量处理，解决意见线索数据重复，处理不及时问题；
[0042]
(四)本发明通过意见线索数据关键指标的重复度，将意见线索数据进行归集分类，方便用户将重复的意见线索数据进行批量处理，大大减少了处理重复意见线索数据的时间，解决了人工分辨意见线索数据重复的问题，通过意见线索数据重复度归集分类，推动了意见线索事件处理的规范化、信息化、智能化，最终实现意见线索事件的快速处理，提高处理效率。
附图说明
[0043]
下面结合附图对本发明进一步说明。
[0044]
附图1为基于数据重复度的意见线索智能归集方法的示意图；
[0045]
附图2为编辑距离举例的示意图。
具体实施方式
[0046]
参照说明书附图和具体实施例对本发明的基于数据重复度的意见线索智能归集方法及系统作以下详细地说明。
[0047]
实施例1：
[0048]
如附图1所示，本实施例的基于数据重复度的意见线索智能归集方法，该方法具体如下：
[0049]
s1、获取意见线索数据中判断重复率的关键指标，并对关键指标进行预处理；
[0050]
s2、使用levenshtein distance算法计算关键指标的重复率；
[0051]
s3、将归集为一类的意见线索数据进行批量处理。
[0052]
本实施例步骤s1中的关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间。
[0053]
本实施例步骤s1中的对关键指标进行预处理具体如下：
[0054]
对意见线索内容进行分词处理。
[0055]
本实施例步骤s2中的使用levenshtein distance算法计算关键指标的重复率具体如下：
[0056]
s201、使用levenshtein distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离；
[0057]
s202、将关键指标的字符串长度减去计算出的关键指标的编辑距离后，在除以关键指标的字符串长度计算出关键指标的重复率；
[0058]
s203、根据关键指标的重复率归类意见线索。
[0059]
本实施例步骤s203中的根据关键指标的重复率归类意见线索的情况如下：
[0060]
①
、将意见线索中至少两个关键指标重复率高于70％的意见线索归类为极相似意见线索；
[0061]
②
、将意见线索中至少两个关键指标重复率高于50％且低于70％的意见线索归类为相似意见线索。
[0062]
本实施例步骤s201中的使用levenshtein distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离具体如下：
[0063]
s20101、设意见线索a的意见线索对象字符串长度为m，意见线索b的意见线索对象字符串长度为n,根据意见线索a和意见线索b建立一个(m 1)x(n 1) 的数组；其中，(m 1)为行，(n 1)为列，(m 1)x(n 1)的数组用于保存完成字符串转换所需最少步数；
[0064]
s20102、设将意见线索a的意见线索字符串x[1..m]转换到意见线索b的意见线索字符串y[1
…
n]需要的最少步数为levenst[m][n]的值；
[0065]
s20103、将levenst第0行初始化为0到n，第0列初始化为0到m；
[0066]
s20104、为了将x[1...i]经过最少次数的增、删、改操作转换为y[1...j]，字符串x和字符串y的每一个字符两两进行比较，两两比较时，从 levenst[i-1][j] 1、levenst[i][j-1] 1、levenst[i-1][j-1] eq中取最小值即为levenst[i][j]的值，具体为：
[0067]
①
若x[i]和y[j]相等，则eq＝0；
[0068]
②
若x[i]和y[j]不相等，则eq＝1；
[0069]
s20105、将字符串x和字符串y中所有字母都遍历对比完成后，将字符串 x转换为字符串y所需最少步骤数为levenst[m][n]，即为编辑距离。
[0070]
如附图2所示，比如计算has和have的编辑距离，先初始化二维数组 levenst[4][5]，然后从字符串has第一个字母开始，依次和y中的字母 (y[1...j])进行比较，然后得出相应位置(levenst[1,j])上的最少转换步骤数。如果两个字母相等，则在此位置的左 1，上 1，左上 0三个数中获取最小的值存入；若不等，则在从此位置的左，上，左上三个位置中获取最小的值再加上1。首先对比字符串x中第一个字母h和字符串y中第一个字母h，发现两个字母相等，所以对比左 1、上 1、左上 0三个位置得出最小值0存入 levenst[1][1]，再对比x字符串中第一个字母h和字符串y中的第二个字符a，发现不相等，所以从左 1，上 1，左上 1中取最小值1存入levenst[1][2]，依次类推得到has到have的编辑距离为2。
[0071]
本实施例步骤s3中的将归集为一类的意见线索数据进行批量处理具体如下：
[0072]
处理意见线索数据时，查找是否有极相似及相似意见线索数据：
[0073]
若有，则查看极相似及相似意见线索数据的详情，并从极相似及相似线索数据中选择属性相同的意见线索事件的数据进行批量处理。
[0074]
实施例2：
[0075]
本实施例的基于数据重复度的意见线索智能归集系统，该系统包括，
[0076]
获取模块，用于获取意见线索数据中判断重复率的关键指标，并对关键指标进行预处理；其中，关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间；
[0077]
计算模块，用于使用levenshtein distance算法计算关键指标的重复率；
[0078]
处理模块，用于将归集为一类的意见线索数据进行批量处理。
[0079]
实施例3：
[0080]
本发明实施例还提供了一种电子设备，包括：存储器和至少一个处理器；
[0081]
其中，所述存储器存储计算机执行指令；
[0082]
所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行本发明任一实施例中的基于数据重复度的意见线索智能归集方法。
[0083]
实施例4：
[0084]
本发明实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于数据重复度的意见线索智能归集方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
[0085]
在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
[0086]
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如 cd-rom、cd-r、cd-rw、dvd-rom、dvd-rym、dvd-rw、dvd rw)、磁带、非易失性存储卡和rom。可选择地，可以由通信网络从服务器计算机上下载程序代码。
[0087]
此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。
[0088]
此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。
[0089]
最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：通过自动化测试虚拟机技术实现同步待测对象属性的方法与流程

基于数据重复度的意见线索智能归集方法及系统与流程

相关文献

最热文献