一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种应用于招投标的数据挖掘方法、系统及设备与流程

2022-06-22 23:18:47 来源:中国专利 TAG:
1.本发明涉及数据处理
技术领域
:,具体地,涉及一种应用于招投标的数据挖掘方法、系统及设备。
背景技术
::2.随着互联网的快速发展及“互联网 ”时代的到来,“数字化改革”也在实际生产生活中得以实现。在当前国际环境以及疫情的影响下,随着“云服务”技术的逐步完善,“远程开标”、“远程评标”得以实现,标志着招投标领域基本实现了数字化转型。3.一方面,海量的招投标数据是实现数据挖掘的前提,招投标数据是否全面则决定了数据挖掘的有效性,但由于招投标数据有强时间持续性、数据格式极度异构和信息分布零散等特点,如何全面地采集到有效的招投标数据仍然是本领域有待解决的技术问题。4.另一方面,采集到的非结构化招投标数据中包含大量的表格数据,如何从这些表格数据中高效、准确地挖掘出关键数据是急需解决的技术问题。5.并且,现有的招投标领域的数据挖掘系统大多没有结合业务需求进行数据的分析与应用的阶段,没有将挖掘的数据真正地应用到投标服务业务中。技术实现要素:6.本发明的目的是提供一种应用于招投标的数据挖掘方法、系统及设备,解决了现有技术中存在的数据采集缺乏全面性、关键数据的挖掘缺乏准确性和没有数据的分析与应用等问题,同时基于消息推送技术对招投标数据进行流水线的处理,实现数据的实时动态解析,大大地提升了程序的可维护性;在编程的实现上把处理数据的代码进行了工具类化的封装,具备良好的扩展性和组件的复用性。7.为了实现上述目的,本发明第一方面提供一种应用于招投标的数据挖掘方法,包括:采集第一招投标数据;对第一招投标数据进行预处理;对预处理后的第一招投标数据进行数据挖掘以形成第二招投标数据,所述数据挖掘包括关键数据的提取、关键信息的清洗和已清洗数据的加工处理;对第二招投标数据进行分析处理以形成第三招投标数据;对第三招投标数据进行可视化处理。8.进一步地,第一招投标数据至少包括以下几个阶段的数据:招标公告、资格预审补遗/澄清、招标文件补遗/答疑、流标或终止公告、开标记录和评标结果公示。9.进一步地,采用任务调度方法进行第一招投标数据的采集,所述任务调度方法包括:设置至少两个采集程序分别对不同数据中心的所述第一招投标数据进行采集;将同一招投标项目的数据合并;第一判断步骤,所述第一判断步骤为:判断是否是多标段数据,在判断结果为是的情况下拆分成多条招投标记录,然后进行第二判断步骤;在判断结果为否的情况下进行第二判断步骤;第二判断步骤,所述第二判断步骤为:判断是否带有附件,在判断结果为是的情况下下载附件并将其上传至文件管理系统,然后进行数据预处理;在判断结果为否的情况下进行数据预处理。10.进一步地,所述关键数据的提取包括web表格数据提取,所述web表格数据提取的步骤包括:接收web网页文本数据;执行第三判断步骤,所述第三判断步骤为:判断是否含有表格结构,在判断结果为是的情况下进行如下步骤:一是抽取表格结构信息,采用正则表达式方法结合预设的关键属性词典提取得到初步的关键信息;二是提取表格结构,结合预设的关键属性词典,提取初步的关键信息;在判断结果为否的情况下通过采用正则表达式方法、开源命名实体识别工具以及预设的关键属性词典,提取初步的关键信息;对初步的关键信息做标准化处理,得到标准的关键信息。11.进一步地,所述关键数据的提取包括pdf表格数据提取,所述pdf表格数据提取的步骤包括:接收pdf文件或pdf下载的url链接;第四判断步骤,所述第四判断步骤为:判断接收的数据类型是url链接还是pdf文件;在判断结果为url链接的情况下先下载pdf文件,然后将相应的pdf数据读取为字节流的格式;在判断结果为pdf文件的情况下将相应的pdf数据读取为字节流的格式;对pdf数据进行初步处理;第五判断步骤,所述第五判断步骤为:判断pdf内容是否需要旋转;在判断结果为是的情况下进行旋转操作,直至可以正常提取内容,然后进行第六判断步骤;在判断结果为否的情况下进行第六判断步骤;第六判断步骤,所述第六判断步骤为:判断是否包含表格;在判断结果为是的情况下对每页pdf进行表格提取,结合预设的关键属性词典,得到初步的关键信息,对初步提取的关键信息做标准化处理,得到标准的关键信息。12.进一步地,所述关键数据的提取包括word文档表格数据提取,所述word文档表格数据提取的步骤包括:接收word文档数据;对word文档数据进行解析,结合预设的关键属性词典提取得到初步的关键信息;对初步的关键信息做标准化处理,得到标准的关键信息。13.进一步地,所述关键信息的清洗采用正则表达式方法实现,所述正则表达式方法包括:对一定数量的不同样本进行观察,总结关键信息的表述方式,形成匹配的正则表达式,对关键信息进行清洗。14.进一步地,所述已清洗数据的加工处理包括废标原因分类,所述废标原因分类对招投标报价中关于废标原因的文字性描述进行分类,采用基于支持向量机的tgrocery模块实现所述废标原因分类。15.进一步地,所述已清洗数据的加工处理包括降幅计算,所述降幅计算是利用清洗后的限价和投标报价金额计算该报价的降幅,计算公式为:降幅=((限价-投标报价)÷限价)×100%。16.进一步地,所述已清洗数据的加工处理包括活跃度计算,所述活跃度值由注册地得分、投标区域占比得分、中标次数得分三者计算得出。17.进一步地,所述第三招投标数据包括竞争对手分析数据、业主招标情况分析数据、目标投标单位市场活跃度分析数据、目标投标单位报价分析与预测数据、市场中标排名分析数据。18.进一步地,还包括流程监控和数据质量监控;所述流程监控对数据采集、数据预处理、数据挖掘和数据分析处理的处理流程进行监控,所述流程监控的步骤包括:实时采集所述数据采集、数据预处理、数据挖掘和数据分析处理的日志数据;如果异常则将异常信息可视化展示,并发送包含异常信息的邮件给运维人员;所述数据质量监控对清洗后的关键信息进行展示和纠错,所述数据质量监控的步骤包括:建立清洗后的关键信息的标准化数据库;设定对清洗后的关键信息进行筛选的条件;展示符合筛选条件的数据记录;如需更改,则根据关联的招投标项目的原文进行相应数据的修改。19.本发明第二方面提供一种应用于招投标的数据挖掘系统,包括:数据采集模块,被配置为采集第一招投标数据,所述第一招投标数据至少包括以下几个阶段的数据:招标公告、资格预审补遗/澄清、招标文件补遗/答疑、流标或终止公告、开标记录和评标结果公示;数据预处理模块,被配置为对采集到的第一招投标数据进行预处理;数据挖掘层,被配置为对预处理后的第一招投标数据进行数据挖掘以形成第二招投标数据,所述数据挖掘层包括数据提取模块、数据清洗模块和数据加工模块,所述数据提取模块被配置为基于预处理后的第一招投标数据提取关键信息,并进行标准化处理,形成标准的关键信息;所述数据清洗模块被配置为对标准的关键信息进行清洗;所述数据加工模块被配置为对已清洗的数据进行加工处理,所述数据加工模块包括废标原因分类子模块、降幅计算子模块和活跃度计算子模块,所述废标原因分类子模块被配置为对招投标报价中关于废标原因的文字性描述进行分类,所述降幅计算子模块被配置为利用清洗后的限价金额和投标报价金额计算该报价的降幅,所述活跃度计算子模块被配置为通过注册地得分、投标区域占比得分、中标次数得分三者计算得出投标活跃度;数据应用层,被配置为对第二招投标数据进行分析处理以形成第三招投标数据,并对第三招投标数据进行可视化处理;所述数据应用层包括潜在竞争对手分析子模块、业主招标情况分析子模块、目标投标单位市场活跃度分析子模块、目标投标单位报价分析与预测子模块、市场中标排名分析子模块;所述潜在竞争对手分析子模块被配置为对第三招投标数据进行统计分析以筛选出潜在竞争对手,并进行可视化处理;所述业主招标情况分析子模块被配置为对第三招投标数据进行统计分析以得到业主招标情况数据,并进行可视化处理;所述目标投标单位市场活跃度分析子模块被配置根据活跃度值对目标单位的市场活跃度进行打分和根据活跃度得分评定该单位历史投标情况和行为,并进行可视化处理;所述目标投标单位报价分析与预测子模块被配置为根据第三招投标数据进行目标单位报价分析和预测,并进行可视化处理;市场中标排名分析子模块被配置为对第三招投标数据进行统计分析以得到市场中标排名数据,并进行可视化处理;数据通信模块,被配置为在各模块之间传输数据;数据存储模块,被配置为存储预处理后的第一招投标数据、第二招投标数据以及第三招投标数据;系统监控模块,被配置为对系统流程和数据质量进行监控,所述系统监控模块包括流程监控子模块和数据质量监控子模块;所述流程监控子模块被配置为对数据采集、数据预处理、数据挖掘和数据分析处理的处理流程进行监控,所述数据质量监控子模块被配置为对清洗后的关键信息进行展示和纠错。20.本发明第三方面提供一种应用于招投标的数据挖掘设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行前述的应用于招投标的数据挖掘方法。21.上述技术方案中,通过采集招投标整个流程中各个阶段产生的公开数据,如:招标公告、资格预审补遗/澄清、招标文件补遗/答疑、流标或终止公告、开标记录和评标结果公示等,保证了较强时间持续性的数据的准确性,为后续的数据挖掘打好基础;对于文本描述、表格描述、pdf文件、图片文件、excel文件和word文档等数据格式极度异构的招投标数据进行预处理为后续的文件解析提供更好的数据基础;采用任务调度方法对于分布在各个数据中心的招投标数据进行采集,保证了数据采集的全面性;对web、pdf、word文件中的复杂表格数据的提取分别采用了对应的方法,提高了数据挖掘的有效性和准确性;对表述不一致的关键信息进行清洗后再进行加工处理,提高了加工处理结果的可参考性;对整个处理流程进行监控,确保系统的正常运行,及时发现问题与bug,方便系统维护;通过设置条件查询筛选出可能有误的关键信息,并推送到可视化平台上,方便人工对提取的关键信息进行纠错;针对挖掘、清洗和加工后的招投标数据进行了数据的统计分析与应用,帮助企业发掘及了解潜在竞争对手,提升对招投标风险的把控,更好的服务于企业招投标业务;基于消息推送技术对招投标数据进行流水线的处理,实现数据的实时动态解析,将数据处理过程分为了数据提取、数据清洗和数据加工等环节大大的提升了程序的可维护性;在编程的实现上把处理数据的代码进行了工具类化的封装,易于程序使用不同省份的场景,具备良好的扩展性和组件的复用性。附图说明22.附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:图1是本发明应用于招投标的数据挖掘方法的流程示意图;图2是本发明任务调度方法的流程示意图;图3是本发明web表格数据提取方法的流程示意图;图4是本发明pdf表格数据提取方法的流程示意图;图5是本发明word文档表格数据提取方法的流程示意图;图6是本发明对第二招投标数据进行分析处理步骤中一个示例的示意图;图7是本发明流程监控可视化界面示意图;图8是本发明数据质量监控的编辑界面示意图;图9是本发明应用于招投标的数据挖掘系统的结构示意图;图10是本发明技术实现的流程示意图。具体实施方式23.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。24.实施例1:参照图1所示,本发明实施例提供一种应用于招投标的数据挖掘方法,包括:步骤s1:采集第一招投标数据;步骤s2:对第一招投标数据进行预处理;步骤s3:对预处理后的第一招投标数据进行数据挖掘以形成第二招投标数据,所述数据挖掘包括关键数据的提取、关键信息的清洗和已清洗数据的加工处理;步骤s4:对第二招投标数据进行分析处理以形成第三招投标数据;步骤s5:对第三招投标数据进行可视化处理。25.招投标数据与普通数据不同,有比较强的时间持续性,其中比较重要的的数据如项目投资金额、最高限价、评标方法、评标参数、投标报价、投标名次、评标得分、中标前三名、投标降幅、中标单位和中标金额等等重要信息仅采集一个时刻的数据并不能完全反应出来,要收集招投标全生命周期的数据才能为后续的数据挖掘打好基础。因此,本实施例s1步骤中所述的第一招投标数据主要包括招投标整个流程中各个阶段产生的公开数据,如:招标公告、资格预审补遗/澄清、招标文件补遗/答疑、流标或终止公告、开标记录和评标结果公示等阶段。在数据采集步骤中充分考虑了数据的关联性,采集到的数据更全面,为后续的数据挖掘打好数据基础。26.在全国公共资源交易过程中每天能够产生海量的招投标数据,这些招投标数据分布在各个省地市的公共资源交易中心,本实施例采用任务调度方法进行分布零散的招投标数据采集,如图2所示,所述任务调度方法包括:步骤s10:设置至少两个采集程序分别对不同数据中心的所述第一招投标数据进行采集;步骤s11:将同一招投标项目的数据合并;步骤s12:第一判断步骤,所述第一判断步骤为:判断是否是多标段数据,在判断结果为是的情况下拆分成多条招投标记录,然后进行第二判断步骤;在判断结果为否的情况下进行第二判断步骤;步骤s13:第二判断步骤,所述第二判断步骤为:判断是否带有附件,在判断结果为是的情况下下载附件并将其上传至文件管理系统,然后进行数据预处理;在判断结果为否的情况下进行数据预处理。27.本实施例中采集程序为基于java与python的网络爬虫,在步骤s13中将下载的附件上传至fastdfs文件系统进行存储。应用时,可根据需要对采集程序的实现方法和数量进行适应性调整,采用任务调度方法进行分布零散的招投标数据采集在很大程度上提高了数据采集效率,保证了数据的全面性。28.采集到的招投标数据往往呈现方式多样化,如:文本描述、表格描述、pdf文件、图片文件、excel文件和word文档等等,这些数据的格式极度异构,在本实施例中针对采集到的异构数据进行预处理,预处理主要包括数据去重、去噪和集成等,经预处理的数据可以为后续的文件解析提供更好的支持。29.由于一条招投标项目完整的信息可能分布在招标流程的不同阶段,且各个阶段的数据类型不统一,在本实施例s3步骤中的数据挖掘主要包括关键数据的提取、关键信息的清洗和已清洗数据的加工处理,对预处理后的第一招投标数据进行流水线的数据挖掘处理形成第二招投标数据,方便后期数据分析。挖掘的关键数据包括:招标公告中涉及的限价或投资额、项目工程概况或建设规模,开标记录公示中涉及的投标单位名称、投标报价、限价(如果有)信息,评标结果公示中涉及的项目业主、项目类型、项目建设地点、项目开标时间、投标但单位名称、投标报价、得分、排名、项目经理或项目负责人、类似业绩等。主要清洗的关键信息有:单位名称、限价金额、投标报价、人员名称等。加工处理的关键信息有:废标原因分类、降幅计算、排名计算、活跃度计算等。数据挖掘环节中涉及的具体的方法将在其他实施例中详细说明,此处不再赘述。30.本实施例结合企业招投标业务需求对第二招投标数据进行分析处理以形成第三招投标数据,将分析处理后的结果数据应用到投标服务业务中,并对第三招投标数据进行可视化处理,更加直观的帮助企业发掘及了解潜在竞争对手,提升对招投标风险的把控,更好的服务于企业招投标业务。31.实施例2:参照图3所示,基于本发明的第一个实施例,关键数据的提取包括web表格数据提取,所述web表格数据提取的步骤包括:步骤s310:接收web网页文本数据;步骤s311:执行第三判断步骤,所述第三判断步骤为:判断是否含有表格结构,在判断结果为是的情况下进行如下步骤:一是抽取表格结构信息,采用正则表达式方法结合预设的关键属性词典提取得到初步的关键信息;二是提取表格结构,结合预设的关键属性词典,提取初步的关键信息;在判断结果为否的情况下通过采用正则表达式方法、开源命名实体识别工具以及预设的关键属性词典,提取初步的关键信息;步骤s312:对初步的关键信息做标准化处理,得到标准的关键信息。32.web表格数据提取主要是接收传入的web网页文本,本实施例主要利用python的lxml模块、re模块、pandas模块以及开源命名实体识别工具,对网页文本进行处理和提取。具体实现步骤为:通过lxml模块分析网页表格结构,判断是否含有表格结构,如果含有表格则判断是否包含多个表格,如包含多个表格则定位到第一个表格,执行后续的关键信息提取步骤,循环本步骤直至多个表格均执行完后续的关键信息提取步骤,如果只含有一个表格则执行后续的关键信息提取步骤;关键信息提取步骤包括:一是利用lxml的etree功能(爬虫)结合xpath语法对表格结构信息进行抽取,在表格结构信息抽取时使用路径表达式在html\xml文档中选取节点,节点是通过沿着路径或者step来选取的,可以快速的定位特定元素以及获取节点信息,然后结合re模块和预设的关键属性词典,提取得到初步的关键信息;二是利用lxml模块的etree功能结合xpath语法提取表格结构,再结合pandas模块的read_html接口和预设的关键属性词典,提取初步的关键信息,如果不含表格结构,通过re模块、开源命名实体识别工具以及关键属性词典,对关键信息进行提取;然后对提取到的初步的关键信息做统一化处理,得到标准的关键信息,采用上述方法可实现高效、准确的web表格数据的提取。33.本实施例中关键数据的提取还包括pdf表格数据提取,如图4所示,所述pdf表格数据提取的步骤包括:步骤s320:接收pdf文件或pdf下载的url链接;步骤s321:第四判断步骤,所述第四判断步骤为:判断接收的数据类型是url链接还是pdf文件;在判断结果为url链接的情况下先下载pdf文件,然后将相应的pdf数据读取为字节流的格式;在判断结果为pdf文件的情况下将相应的pdf数据读取为字节流的格式;步骤s322:对pdf数据进行初步处理;步骤s323:第五判断步骤,所述第五判断步骤为:判断pdf内容是否需要旋转;在判断结果为是的情况下进行旋转操作,直至可以正常提取内容,然后进行第六判断步骤;在判断结果为否的情况下进行第六判断步骤;步骤s324:第六判断步骤,所述第六判断步骤为:判断是否包含表格;在判断结果为是的情况下对每页pdf进行表格提取,结合预设的关键属性词典,得到初步的关键信息,对初步提取的关键信息做标准化处理,得到标准的关键信息。34.pdf表格数据提取主要是接收传入的pdf文件或pdf下载的url链接,本实施例主要利用python的pdfplumber模块、re模块对pdf数据进行处理和提取。具体实现步骤为:将相应的pdf数据读取为字节流的格式,方便后期的统一操作,利用pdfplumber模块获取pdf数据及pdf数据每页的对象,并判断每页pdf内容是否需要旋转,如果需旋转则利用pypdf2模块的pdffilereader类和pdffilewriter类对pdf进行旋转操作,直至可以正常提取内容,判断每页pdf是否包含表格,如包含则判断是否包含多个表格,如含有多个表格则利用pdfplumber模块的extract_tables接口对每页pdf进行表格提取;如只含有一个表格则利用pdfplumber模块的extract_table接口对每页pdf进行表格提取;将提取出的表格中同一行的每个元素连接成一个字符串,如不是空字符串则保留此行数据,如是空字符串则删除此行,以解决提取出来的表格存在空行的问题;结合预设的关键属性词典,得到初步的关键信息,然后对初步提取的关键信息做统一化处理,得到标准的关键信息。采用上述方法可实现高效、准确的pdf表格数据的提取。35.本实施例中关键数据的提取还包括word文档表格数据提取,如图5所示:所述word文档表格数据提取的步骤包括:步骤s330:接收word文档数据;步骤s331:对word文档数据进行解析,结合预设的关键属性词典提取得到初步的关键信息;步骤s332:对初步的关键信息做标准化处理,得到标准的关键信息。36.word文档表格数据提取主要是接收传入的word文档文件,具体步骤为:接收word文档数据,判断文件类型是doc格式还是docx格式,对doc格式文档调用java的word解析接口,对docx格式文档调用python的word解析接口,结合预设的关键属性词典得到初步的关键信息,然后对初步提取的关键信息做统一化处理,得到标准的关键信息,采用上述方法可实现高效、准确的word文档表格数据的提取。37.本实施例中所述预设的关键属性词典主要包括:招标公告中涉及的限价或投资额、项目工程概况或建设规模,开标记录公示中涉及的投标单位名称、投标报价、限价(如果有)信息,评标结果公示中涉及的项目业主、项目类型、项目建设地点、项目开标时间、投标单位名称、投标报价、得分、排名、项目经理或项目负责人、类似业绩等。38.本实施例中提供的方法还包括流程监控,所述流程监控是对数据采集、数据预处理、数据挖掘和数据分析处理的处理流程进行监控,所述流程监控的步骤包括:实时采集所述数据采集、数据预处理、数据挖掘和数据分析处理的日志数据;如果异常则将异常信息可视化展示,并发送包含异常信息的邮件给运维人员,应用时流程监控的可视化界面如图7所示,通过上述方式可及时发现数据处理过程中的问题,并进行及时解决。39.实施例3:基于本发明的第二个实施例,所述关键信息的清洗采用正则表达式方法实现,所述正则表达式方法包括:对一定数量的不同样本进行观察,总结关键信息的表述方式,形成匹配的正则表达式,对关键信息进行清洗。40.表1本实施例中主要清洗的关键信息有:单位名称、限价金额、投标报价、人员名称等。以投标报价为例,表1列举出了勘察设计招投标项目中关于投标报价的几种常见表述,可以看到提取出来的投标报价的表述方式非常多样化,主要表述方式为报价金额、报价降幅、废标原因及投标文件被认定为不合格所依据的评审因素和评审标准的条款等等。在对投标报价进行清洗时,首先建立正则表达式,主要包括阿拉伯数字正则表达式、投标降幅正则表达式、投标金额正则表达式、废标原因正则表达式、中文大写数字正则表达式等;然后采用正则表达式判断待清洗信息是否包含阿拉伯数字,如包含则采用正则表达式判断是否是投标降幅率,如是投标降幅率则提取投标降幅率,提取出的投标降幅率将服务于进一步的数据分析应用;如不是投标降幅率则采用正则表达式判断是否为投标金额,如是投标金额则提取,如不是则采用正则表达式判断是否为废标原因,如是则提取并存储;当在判断阿拉伯数字为投标金额的情况下,还采用正则表达式判断待清洗信息是否包含中文大写数字,如包含则判断是否包含金额单位,如:百、佰、千、仟、万、萬、亿、億等,如包含金额单位则进行单位换算,然后将阿拉伯数字金额与中文大写数字金额进行比对以进行投标金额的校验;当待清洗信息中包含多个投标报价时,如表1中序号5的表述中所包含的勘察费、岩土设计费、工程设计费和污染源调查及水质检测费,则采用正则表达式将多个金额进行提取求和。采用上述方法极大地提升了数据清洗的速度,大大地减小了数据清洗的处理数据量,并保证了数据清洗的准确性。在实际应用时可将上述正则表达式组合使用进行关键信息的清洗,也可考虑nlp技术在关键信息的清洗过程的应用。41.本实施例对清洗后的数据进行加工处理,所述已清洗数据的加工处理包括废标原因分类,所述废标原因分类对招投标报价中关于废标原因的文字性描述进行分类,表2示例了6种废标原因的表述。本实施例采用python的第三方库tgrocery实现废标原因的分类,实际应用时也可以采用其他方法实现废标原因分类。42.表2本实施例中已清洗数据的加工处理还包括降幅计算,所述降幅计算是利用清洗后的限价和投标报价金额计算该报价的降幅,限价的常见表述方式如表3所示,计算公式为:降幅=((限价-投标报价)÷限价)×100%,降幅的计算是为了服务于进一步的数据分析应用,如:目标投标单位报价的分析与预测。43.表3本实施例中已清洗数据的加工处理还包括活跃度计算,所述活跃度值由注册地得分、投标区域占比得分、中标次数得分三者计算得出。具体表示为以下公式:活跃度=注册地得分 投标区域占比得分 中标次数得分,活跃度总分值为100分,其中:注册地得分取值为:0-20分,由公司注册属地与统计范围中的省份对比得出;投标区域占比得分取值:0-30分,投标区域占比是在统计范围内从清洗的数据中统计计算的结果;中标次数得分取值:0-50分,中标次数是在统计范围内从清洗好的数据中的统计;其中,统计范围是指某个年度、某个省份等,如:xxx公司,2021年在四川的活跃度。44.本实施例对第二招投标数据进行分析处理以形成第三招投标数据,所述第三招投标数据包括竞争对手分析数据、业主招标情况分析数据、目标投标单位市场活跃度分析数据、目标投标单位报价分析与预测数据、市场中标排名分析数据,并对第三招投标数据进行可视化处理和展示。其中潜在竞争对手分析数据、业主招标情况分析数据和市场中标排名分析数据是根据得到的第二招投标数据的统计得出,主要统计指标是开标时间、投标单位名称、业主单位名称、项目所属省份。目标投标单位市场活跃度分析是根据第二招投标数据和活跃度值,对目标单位的市场活跃度进行打分,根据活跃度得分初步评定该单位历史投标情况和行为,本实施例对上述分析处理后的数据进行可视化处理并展示,可以设定省份、年度等条件进行目标投标单位市场活跃度分析,图6示出的是四川范围内2021年目标投标单位市场活跃度分析结果,主要内容包括活跃度分值、中标率、年度趋势分析、参与项目规模分析和投标/中标降幅分布等。目标投标单位报价分析与预测是根据第二结构化数据,针对某家单位,抽取出近期投标数据,主要包括开标时间、项目名称、限价、报价、降幅以及排名,并对数据做初步处理,如:缺失值处理、异常值检测与处理、根据开标时间排序、根据项目名称和限价金额筛选具有关联性数据,再对该单位在下一次类似项目投标的报价进行预测得到科学合理的报价预测,从而应用到投标服务业务中,本实施例对上述分析处理后的数据进行可视化处理并展示。45.本实施例通过对挖掘形成的结构化数据进行上述的分析与应用,主要实现了以下几个方面的有益效果:1)弥补了市场开标记录数据的不足;2)增强了企业经营能力分析业务,对标从业企业相关业务能力;3)帮助企业发掘及了解潜在竞争对手,提升对招投标风险的把控;4)大大地提升企业的生产效率,大幅度地降低企业的经营成本。46.在实际应用中,由于数据提取和数据清洗与加工环节的不确定因素影响,导致关键信息的结果反常态,从而导致数据的质量和准确性有所损失。为了保证数据质量和准确性以及保障后期分析与应用的科学与合理性,本实施例增加了对数据质量的监控,数据质量监控对清洗后的关键信息进行展示和纠错,数据质量监控的步骤包括:建立清洗后的关键信息的标准化数据库;设定对清洗后的关键信息进行筛选的条件;展示符合筛选条件的数据记录;如需更改,则根据关联的招投标项目的原文进行相应数据的修改。应用时,数据质量监控支持对清洗后的关键信息进行筛选,如:降幅范围、单位名称等。当需要对数据质量进行监控时,先设定好筛选条件,从筛选出的符合条件的招投标项目中选定并点击需要更改数据的招投标项目后,可进入图8所示的数据编辑界面,此处会展示招投标项目文件的原文,可参照原文进行相应数据的修改,从而具有目标性的更正提取的关键信息。47.参照图9,本发明还提供一种应用于招投标的数据挖掘系统,包括:数据采集模块,被配置为采集第一招投标数据,所述第一招投标数据至少包括以下几个阶段的数据:招标公告、资格预审补遗/澄清、招标文件补遗/答疑、流标或终止公告、开标记录和评标结果公示;数据预处理模块,被配置为对采集到的第一招投标数据进行预处理;数据挖掘层,被配置为对预处理后的第一招投标数据进行数据挖掘以形成第二招投标数据,所述数据挖掘层包括数据提取模块、数据清洗模块和数据加工模块,所述数据提取模块被配置为基于预处理后的第一招投标数据提取关键信息,并进行标准化处理,形成标准的关键信息;所述数据清洗模块被配置为对标准的关键信息进行清洗;所述数据加工模块被配置为对已清洗的数据进行加工处理,所述数据加工模块包括废标原因分类子模块、降幅计算子模块和活跃度计算子模块,所述废标原因分类子模块被配置为对招投标报价中关于废标原因的文字性描述进行分类,所述降幅计算子模块被配置为利用清洗后的限价金额和投标报价金额计算该报价的降幅,所述活跃度计算子模块被配置为通过注册地得分、投标区域占比得分、中标次数得分三者计算得出投标活跃度;数据应用层,被配置为对第二招投标数据进行分析处理以形成第三招投标数据,并对第三招投标数据进行可视化处理;所述数据应用层包括潜在竞争对手分析子模块、业主招标情况分析子模块、目标投标单位市场活跃度分析子模块、目标投标单位报价分析与预测子模块、市场中标排名分析子模块;所述潜在竞争对手分析子模块被配置为对第三招投标数据进行统计分析以筛选出潜在竞争对手,并进行可视化处理;所述业主招标情况分析子模块被配置为对第三招投标数据进行统计分析以得到业主招标情况数据,并进行可视化处理;所述目标投标单位市场活跃度分析子模块被配置根据活跃度值对目标单位的市场活跃度进行打分和根据活跃度得分评定该单位历史投标情况和行为,并进行可视化处理;所述目标投标单位报价分析与预测子模块被配置为根据第三招投标数据进行目标单位报价分析和预测,并进行可视化处理;市场中标排名分析子模块被配置为对第三招投标数据进行统计分析以得到市场中标排名数据,并进行可视化处理;数据通信模块,被配置为在各模块之间传输数据;数据存储模块,被配置为存储预处理后的第一招投标数据、第二招投标数据以及第三招投标数据;系统监控模块,被配置为对系统流程和数据质量进行监控,所述系统监控模块包括流程监控子模块和数据质量监控子模块;所述流程监控子模块被配置为对数据采集、数据预处理、数据挖掘和数据分析处理的处理流程进行监控,所述数据质量监控子模块被配置为对清洗后的关键信息进行展示和纠错。48.本发明项目应用于招投标的数据挖掘系统的具体实施方式与上述应用于招投标的数据挖掘方法各实施例基本相同,在此不再赘述。49.本发明还提供一种应用于招投标的数据挖掘设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行前述的应用于招投标的数据挖掘方法。50.如图10所示,本发明在具体实现时结合了第三方工具、基于kafka消息推送技术和相关算法,第三方工具主要为java、python及开源命名实体识别工具等等,在前述的实施例中均已做说明,这里不再赘述。在基于海量的招投标数据进行处理时需兼顾到处理效率,因此本发明采用基于kafka消息推送技术对招投标数据进行流水线的处理,以异步模式进行各环节数据的推送,例如:数据提取程序作为生产者时,将提取的数据在内存中累计到一定数量后以batch的形式发送数据,数据清洗程序作为消费者接收数据进行处理,然后作为生产者将清洗后的数据以batch的形式发送给数据加工程序,batch的数量大小可以根据实际情况进行调整,通过调整batch的大小,可以大幅度地提升数据通信的性能,具体参数设置可以在权衡效率和时效性后进行适应性调整;另一方面采用基于kafka消息推送技术将处理过程分为了数据提取、数据清洗和数据加工等环节,还有效地提升了程序的可维护性。流程监控主要是通过对流水线上各个环节的程序运行所产生的日志文件进行监控,并以可视化形式展示出来,由于日志记录信息非常详细,如果流水线某个节点程序异常会及时在可视化监控平台上展示出来。本发明涉及的相关算法在前述实施例中已做说明,这里不再赘述。51.本发明在编程实现上把处理数据的程序代码进行了工具类化的封装,易于程序使用不同省份的场景,具备良好的扩展性和组件的复用性。52.本发明项目应用于招投标的数据挖掘设备的具体实施方式与上述应用于招投标的数据挖掘方法各实施例基本相同,在此不再赘述。53.以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。54.另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。55.此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献