一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种招投标采集数据自动结构化的方法、系统和介质与流程

2022-07-14 00:52:15 来源:中国专利 TAG:


1.本技术涉及招投标数据处理领域,特别是涉及一种招投标采集数据自动结构化的方法、系统和介质。


背景技术:

2.目前,随着互联网数字化进程的不断加深,数据成为了政府或企业执行工程项目的重要判断依据,如何高效准确地从拥有海量数据的互联网中筛选出需要的目标数据,并将该目标数据处理成优质的结构化数据,是当下亟需解决的问题。尤其是在工程招投标领域,需要将招标、中标公告中所包含的数据进行结构化,并作用于工程来保证保险领域的市场分析和企业风控等环节。
3.目前针对相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种招投标采集数据自动结构化的方法、系统和介质,以至少解决相关技术中如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题。
5.第一方面,本技术实施例提供了一种招投标采集数据自动结构化的方法,所述方法包括:
6.根据数据源的网络地址,获取业务需求对应的详情页数据;
7.对所述详情页数据进行数据清洗,得到预处理数据;
8.根据标点符号对所述预处理数据进行拆分,得到切分数据;
9.将所述切分数据按预设规则进行数据组装,得到拼接数据;
10.通过训练好的命名实体识别模型对所述拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到所述业务需求对应的结构化数据。
11.在其中一些实施例中,根据数据源的网络地址,获取需求对应的详情页数据包括:
12.以数据源的发布时间作为标识符设置定时任务,通过所述数据源的网络地址,自动获取业务需求对应的列表页数据,若所述定时任务执行异常,则发送第一预警通知;
13.设置采集任务,从所述列表页数据中采集详情页数据,若所述采集任务执行异常,则发送第二预警通知。
14.在其中一些实施例中,将所述切分数据按预设规则进行数据组装,得到拼接数据包括:
15.依次判断文本中未进行拼接的切分数据的长度是否小于500字符;
16.若是,则将所述切分数据与下一条切分数据进行拼接,继续所述判断,直到拼接后的长度不小于500字符,得到拼接数据;
17.若否,则返回所述切分数据作为拼接数据。
18.在其中一些实施例中,在通过训练好的命名实体识别模型对所述拼接数据进行解
析之前,所述方法包括:
19.利用训练数据对基于bert、bi-lstm和crf组合的命名实体识别模型进行细粒化训练,其中,所述训练数据中每句话的长度不超过512字符,所述细粒化训练包括基于bio标注机制的训练和基于bioes标注机制的训练。
20.在其中一些实施例中,根据标点符号对所述预处理数据进行拆分,得到切分数据包括:
21.以句号作为标识符拆分所述预处理数据,得到切分数据。
22.在其中一些实施例中,通过训练好的命名实体识别模型对所述拼接数据进行解析包括:
23.将训练好的基于bert、bi-lstm和crf组合的命名实体识别模型部署在分布式服务器端,对所述拼接数据进行并发分析。
24.在其中一些实施例中,对所述详情页数据进行数据清洗,得到预处理数据包括:
25.采用正则匹配清洗所述详情页数据中的html标签和噪音数据,得到预处理数据。
26.在其中一些实施例中,在得到所述需求对应的结构化数据之后,所述方法包括:
27.对所述结构化数据进行数据清洗和格式统一,并存储到mysql数据库中,再通过规则校验将优质的结构化数据上传到云存储平台。
28.第二方面,本技术实施例提供了一种招投标采集数据自动结构化的系统,所述系统包括数据获取模块、数据处理模块和模型解析模块;
29.所述数据获取模块用于根据数据源的网络地址,获取业务需求对应的详情页数据;
30.所述数据处理模块用于对所述详情页数据进行数据清洗,得到预处理数据;
31.所述数据处理模块用于根据标点符号对所述预处理数据进行拆分,得到切分数据;
32.所述数据处理模块用于将所述切分数据按预设规则进行数据组装,得到拼接数据;
33.所述模型解析模块用于通过训练好的命名实体识别模型对所述拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到所述业务需求对应的结构化数据。
34.第三方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的招投标采集数据自动结构化的方法。
35.相比于相关技术,本技术实施例提供的一种招投标采集数据自动结构化的方法、系统和介质,根据数据源的网络地址,获取业务需求对应的详情页数据;对详情页数据进行数据清洗,得到预处理数据;根据标点符号对预处理数据进行拆分,得到切分数据;将切分数据按预设规则进行数据组装,得到拼接数据;通过训练好的命名实体识别模型对拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到业务需求对应的结构化数据,解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,减少了采集文本的噪声,保证在输入模型解析前的文本的可靠性,改进了模型的输入方式,避免需求关键字被截断,实现了招投标数据的自动化和智能化获取。
附图说明
36.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
37.图1是根据本技术实施例的招投标采集数据自动结构化方法的步骤流程图;
38.图2是根据本技术实施例的招投标采集数据自动结构化方法的流程示意图;
39.图3是根据本技术实施例的招投标采集数据自动结构化系统的结构框图;
40.图4是根据本技术实施例的电子设备的内部结构示意图。
41.附图说明:31、数据获取模块;32、数据处理模块;33、模型解析模块。
具体实施方式
42.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
43.显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
44.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
45.除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
46.本技术实施例提供了一种招投标采集数据自动结构化的方法,图1是根据本技术实施例的招投标采集数据自动结构化方法的步骤流程图,如图1所示,该方法包括以下步
骤:
47.步骤s102,根据数据源的网络地址,获取业务需求对应的详情页数据;
48.具体地,以数据源的发布时间作为标识符设置定时任务,通过数据源的网络地址,自动获取业务需求对应的列表页数据,若定时任务执行异常,则发送第一预警通知;
49.设置采集任务,从列表页数据中采集详情页数据,若采集任务执行异常,则发送第二预警通知。
50.优选地,图2是根据本技术实施例的招投标采集数据自动结构化方法的流程示意图,如图2步骤1所示,通过设定定时任务,以发布时间作为标识符,自动获取业务覆盖地区公共资源交易中心列表页数据。如果程序执行异常,向负责人发送通知,修复后重新执行;
51.如图2步骤2所示,根据上述标识符筛选完列表页后,进入符合要求的详情页,采集详情页内容。如果程序执行异常,向负责人发送通知,修复后重新执行
52.需要说明的是,由于爬虫是向网页发送请求,然后抓取内容,当业务量覆盖全国各地区上百城市后,个别的采集模块出现问题时,技术人员往往不能及时定位,影响数据的准确性和时效性。因此,在最初采集部分设置了两个预警模块,能够及时发现因为网站宕机或域名变更等原因导致的程序错误,提升了爬虫模块的抗压性和稳定性。
53.步骤s104,对详情页数据进行数据清洗,得到预处理数据;
54.具体地,如图2步骤3所示,采用正则匹配清洗详情页数据中的html标签和噪音数据,得到预处理数据。
55.步骤s106,根据标点符号对预处理数据进行拆分,得到切分数据;
56.具体地,以句号作为标识符拆分预处理数据,得到切分数据。
57.优选地,如图2步骤4所示,招标公告文本内容不同于一般新闻、故事等文本,其具有一定的格式,所需字段往往只与上下几个字有语义相关性。比如:“3.1资质要求:投标人须具备市政公用工程施工总承包叁级(或以上)资质。”上下文文本仅有“3.1资质要求:”几个字与所需求字段“投标人须

xx资质”语义相关。另外,对于招标公告而言,每句话一般不超过512个字符,同时由于bert模型的输入长度被限制为512字符,在解析篇章级别的长文本时一般采用固定长度字符截断或者使用滑动窗口截断,这种截断方法可能会导致需求字段被切开,从而导致识别错误,精度下滑,所以将预处理数据以句号作为标识符进行拆分,保证所需求字段不会被分割开。bert会借助自注意力机制(self-attention)充分学习文本中的每个词之间的语义关联,从而使得预训练的原始词向量变成符合招标公告语义的新的词向量。
58.步骤s108,将切分数据按预设规则进行数据组装,得到拼接数据;
59.具体地,依次判断文本中未进行拼接的切分数据的长度是否小于500字符;若是,则将切分数据与下一条切分数据进行拼接,继续判断,直到拼接后的长度不小于500字符,得到拼接数据;若否,则返回切分数据作为拼接数据。
60.优选地,如图2步骤6所示,步骤s106中按句号进行拆分,能够提高精度,但是模型在使用时需要考虑解析效率,设计一种数据拼接算法,能够最大化利用bert,对于文本a中的一条数据a,若a的长度小于500,则拼接a中第二条数据b,否则返回a;若a b的长度小于500,则继续拼接下一条数据,以此类推。
61.步骤s110,通过训练好的命名实体识别模型对拼接数据进行解析,分别将相同文
本的解析字段输入同一个数据字典,得到业务需求对应的结构化数据。
62.具体地,将训练好的基于bert、bi-lstm和crf组合的命名实体识别模型部署在分布式服务器端,对拼接数据进行并发分析。
63.优选地,如图2步骤7所示,模型对拼接后的段落数据进行解析,将属于相同文本的解析字段输入同一个数据字典。此时,每篇招标或中标公告都会变为一个只包含所需字段的数据字典。此外,模型解析采用分布式,能够进一步提升解析效率。
64.在其中一些实施例中,在步骤s110,通过训练好的命名实体识别模型对拼接数据进行解析之前,还包括:
65.如图2步骤5所示,利用训练数据对基于bert、bi-lstm和crf组合的命名实体识别模型进行细粒化训练,其中,训练数据中每句话的长度不超过512字符,细粒化训练包括基于bio标注机制的训练和基于bioes标注机制的训练。
66.需要说明的是,上述训练数据可以是步骤s106中得到的切分数据,也可以是训练语料库中每句话长度不超过512字符的数据。
67.在其中一些实施例中,在步骤s110,得到需求对应的结构化数据之后,还包括:
68.对结构化数据进行数据清洗和格式统一,并存储到mysql数据库中,再通过规则校验将优质的结构化数据上传到云存储平台。
69.优选地,如图2步骤8、9和10所示,由于覆盖地区广,数据复杂性高,为了保证数据质量,在模型解析之后对特定字段进行了数据清洗。比如:招标代理机构,全部为“某某公司”,超出公司部分噪声通过正则匹配去除;对于不同地区的“开标时间”,时间格式不一致,本方法在此步骤将其统一。经过清洗的数据存入mysql数据库,然后通过规则校验,将满足条件的优质数据存入云存储平台,在有业务需求时进行调用。
70.通过本技术实施例中的步骤s102至步骤s110,根据bert词嵌入原理和招中标公告文本的特殊形式,以句号作为标识符切分文本来更精确的调整词向量。能够保证所需求字段不会被分割开,且能够进行更加细粒化的训练,来更好的调整词向量的语义,使得词向量更加贴合招中标公告所处的语义环境,使得模型中的特征提取能够取得更好的效果,最终获取更加精确的需求字段。进一步地,通过算法拼接,将文本a中的n条句子会被拼接成k个长度保持在500左右的段落。对于模型而言,解析每一条数据消耗的时间为m,拼接前对于每个文本解析消耗的时间为n
×
m,拼接后消耗的时间为k
×
m个段落输入已训练模型。而k远小于n,如此就能极大提升模型的解析效率。并且对于bert而言,之前通过细粒化的训练已经调整了词向量的语义,此时进行拼接并不会影响解析的精确度。解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题。
71.需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
72.本技术实施例提供了一种招投标采集数据自动结构化的系统,图3是根据本技术实施例的招投标采集数据自动结构化系统的结构框图,如图3所示,该系统包括数据获取模块31、数据处理模块32和模型解析模块33;
73.数据获取模块31用于根据数据源的网络地址,获取业务需求对应的详情页数据;
74.数据处理模块32用于对详情页数据进行数据清洗,得到预处理数据;
75.数据处理模块32用于根据标点符号对预处理数据进行拆分,得到切分数据;
76.数据处理模块32用于将切分数据按预设规则进行数据组装,得到拼接数据;
77.模型解析模块33用于通过训练好的命名实体识别模型对拼接数据进行解析,分别将相同文本的解析字段输入同一个数据字典,得到业务需求对应的结构化数据。
78.通过本技术实施例中的数据获取模块31、数据处理模块32和模型解析模块33,解决了如何高效准确地从拥有海量数据的互联网中筛选出目标数据的问题,减少了采集文本的噪声,保证在输入模型解析前的文本的可靠性,改进了模型的输入方式,避免需求关键字被截断,实现了招投标数据的自动化和智能化获取。
79.需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
80.本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
81.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
82.需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
83.另外,结合上述实施例中的招投标采集数据自动结构化的方法,本技术实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种招投标采集数据自动结构化的方法。
84.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种招投标采集数据自动结构化的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
85.在一个实施例中,图4是根据本技术实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种招投标采集数据自动结构化的方法,数据库用于存储数据。
86.本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以
包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
87.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
88.本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
89.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献