一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种项目申报数据的查重分析方法与流程

2022-04-09 09:39:21 来源:中国专利 TAG:


1.本发明涉及查重技术领域,具体涉及一种项目申报数据的查重分析方法。


背景技术:

2.各企事业单位在申报发展资金的时候,需要上报项目立项情况,详细介绍项目的技术指标(产品参数)、经济指标;项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息,这些信息有文字的,有表格的,也有图片(如技术架构、技术方案等)。每个单位根据项目所属,可以向不同的厅局申报项目,为了防止项目的重复申报、多头申报,项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断,但是工作量大,缺乏有效比对,效率低下,而且主观性强,不够客观。因此,本领域技术人员提供了一种项目申报数据的查重分析方法,以解决上述背景技术中提出的问题。


技术实现要素:

3.为解决上述技术问题,本发明提供一种项目申报数据的查重分析方法,包括如下步骤:
4.1、标题分类:通过对项目申报的标题进行分类,根据申报的位置和申报的关键词,将相近的项目合并存储到相应的类别内。
5.2、格式合并:对类别内的项目格式进行比对,将填报位置和填报格式准确的项目申报数据分入模板项目内,对于文字、图片或文件的位置不正确的申报文件,分为非项目模板单独存储;
6.3、查重分析依次分为文字比对、表格比对和文件比对三个项目,文字比对是将数据中相同文字进行提取,并对相同文字中的文字进行替换,替换后对字符串进行比对,并将字符串填回原项目申报数据中,根据字符串的占总文字的重复率进行判断。
7.表格比对是根据表格的固有形式,提取表头和标题,将对应的数据提取成a1,b1
……
,将数据与其他申报数据或模板数据中的a2,b2
……
集合在一起,计算出a1相对于a2、b1相对于b2的涨幅,将项目相关的涨幅算出波动率,根据预定的波动率判断是否位于可推测的范围内,判断是否为重复数据,进行结果比对;
8.文件比对是对申报数据中的文件和图片单独提取进行比对;
9.4、最后,将各个比对的结果输出呈标准文档。
10.优选的:所述非项目模板内的数据进行关键词提取,并填入事先准备好的模板项目,并入项目模板,并标记,进行后期查重分析。
11.优选的:所述图片单独提取进行比对是将图片进行常用图标筛选,将图片分为常用图表、流程图、公式、彩色图片和其他类,将常用图表导入表格对比中进行比对。
12.优选的:将流程图进行文字辨识后,导入文字对比中进行比对。
13.优选的:将彩色图片和其他类进行轮廓对比,得出差异结果。
14.优选的:将文件用预安装的软件打开,将打开的文件进行图片识别,将图片导入图
片筛选中进行比对,对于其他的三维、表述其他内容的视图,根据常用的标准和方向生成标准视图,进行区域和色块对比,将差异结果截图输出,方便后期比对。
15.优选的:所述标准文档分为重复部分、特异部分和不能解析部分,并输出查重率,供工作人员进行人工筛选和比对,提供参考。
16.优选的:在对项目申报数据进行查重时,对同一项目的不同申报文件,可指定一个最佳模板方案,后期比对时,将与最佳模板的差异单独分列一栏进行的比对和提取。
17.本发明的技术效果和优点:
18.1、本发明通过对项目申请数据进行分类、提高查重的效率,将申请分为文字、表格、文件部分,分别进行比对,最终结合后生成查重文档,供工作人员进行人工筛选和比对,提供参考。
19.2、在对项目申报数据进行查重时,对同一项目的不同申报文件,可指定一个最佳模板方案,后期比对时,将与最佳模板的差异单独分列一栏进行的比对和提取。
附图说明
20.图1是本申请的系统框图;
21.图2是本申请中文字比对的系统框图;
22.图3是本申请中表格比对的系统框图;
23.图4是本申请中文件比对的系统框图;
具体实施方式
24.下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
25.请参阅图1~4,在本实施例中提供一种项目申报数据的查重分析方法,包括如下步骤:
26.1、标题分类:通过对项目申报的标题进行分类,根据申报的位置和申报的关键词,将相近的项目合并存储到相应的类别内。
27.2、格式合并:对类别内的项目格式进行比对,将填报位置和填报格式准确的项目申报数据分入模板项目内,对于文字、图片或文件的位置不正确的申报文件,分为非项目模板单独存储,并将非项目模板内的数据进行关键词提取,并填入事先准备好的模板项目,并入项目模板,并标记,进行后期查重分析;
28.3、查重分析依次分为文字比对、表格比对和文件比对三个项目,文字比对是将数据中相同文字进行提取,并对相同文字中的文字进行替换,替换后对字符串进行比对,并将字符串填回原项目申报数据中,根据字符串的占总文字的重复率进行判断。
29.表格比对是根据表格的固有形式,提取表头和标题,将对应的数据提取成a1,b1
……
,将数据与其他申报数据或模板数据中的a2,b2
……
集合在一起,计算出a1相对于a2、b1相对于b2的涨幅,将项目相关的涨幅算出波动率,根据预定的波动率判断是否位于可
推测的范围内,判断是否为重复数据,进行结果比对;
30.文件比对是对申报数据中的文件和图片单独提取,将图片进行常用图标筛选,将图片分为常用图表、流程图、公式、彩色图片和其他类,将常用图表导入表格对比中进行比对,将流程图进行文字辨识后,导入文字对比中进行比对,将彩色图片和其他类进行轮廓对比,得出差异结果;将文件用预安装的软件打开,将打开的文件进行图片识别,将图片导入图片筛选中进行比对,对于其他的三维、表述其他内容的视图,根据常用的标准和方向生成标准视图,进行区域和色块对比,将差异结果截图输出,方便后期比对。
31.4、最后,将各个比对的结果输出呈标准文档,分为重复部分、特异部分和不能解析部分,并输出查重率,供工作人员进行人工筛选和比对,提供参考。
32.在对项目申报数据进行查重时,对同一项目的不同申报文件,可指定一个最佳模板方案,后期比对时,将与最佳模板的差异单独分列一栏进行的比对和提取。
33.显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。本发明中未具体描述和解释说明的结构、装置以及操作方法,如无特别说明和限定,均按照本领域的常规手段进行实施。


技术特征:
1.一种项目申报数据的查重分析方法,其特征在于,包括如下步骤:1、标题分类:通过对项目申报的标题进行分类,根据申报的位置和申报的关键词,将相近的项目合并存储到相应的类别内;2、格式合并:对类别内的项目格式进行比对,将填报位置和填报格式准确的项目申报数据分入模板项目内,对于文字、图片或文件的位置不正确的申报文件,分为非项目模板单独存储;3、查重分析依次分为文字比对、表格比对和文件比对三个项目,文字比对是将数据中相同文字进行提取,并对相同文字中的文字进行替换,替换后对字符串进行比对,并将字符串填回原项目申报数据中,根据字符串的占总文字的重复率进行判断;表格比对是根据表格的固有形式,提取表头和标题,将对应的数据提取成a1,b1
……
,将数据与其他申报数据或模板数据中的a2,b2
……
集合在一起,计算出a1相对于a2、b1相对于b2的涨幅,将项目相关的涨幅算出波动率,根据预定的波动率判断是否位于可推测的范围内,判断是否为重复数据,进行结果比对;文件比对是对申报数据中的文件和图片单独提取进行比对。4、最后,将各个比对的结果输出呈标准文档。2.根据权利要求1所述的一种项目申报数据的查重分析方法,其特征在于,所述非项目模板内的数据进行关键词提取,并填入事先准备好的模板项目,并入项目模板,并标记,进行后期查重分析。3.根据权利要求1所述的一种项目申报数据的查重分析方法,其特征在于,所述图片单独提取进行比对是将图片进行常用图标筛选,将图片分为常用图表、流程图、公式、彩色图片和其他类,将常用图表导入表格对比中进行比对。4.根据权利要求3所述的一种项目申报数据的查重分析方法,其特征在于,将流程图进行文字辨识后,导入文字对比中进行比对。5.根据权利要求3所述的一种项目申报数据的查重分析方法,其特征在于,将彩色图片和其他类进行轮廓对比,得出差异结果。6.根据权利要求1所述的一种项目申报数据的查重分析方法,其特征在于,将文件用预安装的软件打开,将打开的文件进行图片识别,将图片导入图片筛选中进行比对,对于其他的三维、表述其他内容的视图,根据常用的标准和方向生成标准视图,进行区域和色块对比,将差异结果截图输出,方便后期比对。7.根据权利要求1所述的一种项目申报数据的查重分析方法,其特征在于,所述标准文档分为重复部分、特异部分和不能解析部分,并输出查重率,供工作人员进行人工筛选和比对,提供参考。8.根据权利要求1所述的一种项目申报数据的查重分析方法,其特征在于,在对项目申报数据进行查重时,对同一项目的不同申报文件,可指定一个最佳模板方案,后期比对时,将与最佳模板的差异单独分列一栏进行的比对和提取。

技术总结
本发明公开了一种项目申报数据的查重分析方法,进行标题分类、格式合并和查重分析,查重分析依次分为文字比对、表格比对和文件比对三个项目,本发明通过对项目申请数据进行分类、提高查重的效率,将申请分为文字、表格、文件部分,分别进行比对,最终结合后生成查重文档,供工作人员进行人工筛选和比对,提供参考,在对项目申报数据进行查重时,对同一项目的不同申报文件,可指定一个最佳模板方案,后期比对时,将与最佳模板的差异单独分列一栏进行的比对和提取。比对和提取。比对和提取。


技术研发人员:袁婷婷 陈中凯
受保护的技术使用者:杭州知萃科技有限公司
技术研发日:2021.12.21
技术公布日:2022/4/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献