一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标的物信息提取方法、装置、计算机设备及存储介质与流程

2021-10-20 00:22:00 来源:中国专利 TAG:提取 招标 装置 机及 特别


1.本发明涉及计算机及招标技术领域,特别涉及一种标的物信息提取方法、装置、计算机设备及存储介质。


背景技术:

2.招标业务是企业进行项目管理的一项重要工作,招标文档通常具有相对规范化的书写要求和文本内容。对于招标业务而言,招标管理企业数据产生速度快、数量高,而且企业在招标项目管理过程中的标的物信息提取依然采用人工方式进行,不仅消耗大量的人力和物力,也难以保证所提取标的物的准确率。
3.可见,如果将招标文档的文本内容作为语料进行研究,能够实现标准招标文档的管理、应用、反馈、更新迭代等功能,有利于提高企业工作人员的工作效率和招标业务的质量,也有利于控制风险,以及促进企业对招标的管理方式朝着智能化、电子化的方向发展。因此,有必要提供一种标的物信息提取方案来实现招标项目管理的标准化、高效化与准确化。


技术实现要素:

4.本发明要解决的技术问题是:提供一种标的物信息提取方案,以提高企业工作人员的工作效率和招标业务的质量,促进企业对招标的管理方式朝着智能化、电子化的方向发展。
5.为解决上述技术问题,本发明提供了一种标的物信息提取方法,包括:
6.获取待提取标的物信息的当前招标文档;
7.对所述当前招标文档的文本内容进行数据清洗,得到初始数据;
8.基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集;
9.基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
10.可选地,所述对所述当前招标文档的文本内容进行数据清洗,包括:
11.将html格式的当前招标文档转换成目标格式的文本内容;
12.对文本内容进行数据清洗并去除无用信息,得到初始数据。
13.可选地,所述基于正则匹配的方式从所述初始数据中定位到疑似存在标的物信息的关键句集,包括:
14.利用预先建立的规则集与字段词典对所述初始数据中疑似存在标的物信息的关键句集进行定位。
15.可选地,按照如下方式建立规则集与字段词典,包括:
16.将历史招标文档中标的物信息的关联内容作为初始信息;其中,所述标的物信息的关联内容至少包括所述历史招标文档的文档名称;
17.从所述初始信息中去除预设符号,得到有效数据;
18.检测所述有效数据中是否包含预设的针对于每种项目类型的高频词;
19.若包含,则以检测到的高频词为分割点去除分割点后面的文本内容,得到有效数据的主体内容;
20.去除所述有效数据的主体内容中的非关键数据;其中,所述非关键数据为对于提取标的物信息不具有显著影响的数据;
21.对去除非关键数据后的所述有效数据的主体内容进行冗余及兼容处理,建立规则集与字段词典。
22.可选地,所述基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息,包括:
23.利用循环神经网络识别模型对所述目标短语集中的短语进行命名实体标注;
24.从标注的目标短语集中剔除非结构化短语,得到结构化的标的物信息。
25.可选地,所述利用循环神经网络识别模型对所述目标短语集中的短语进行命名实体标注,包括:
26.将所述目标短语集中的各短语输入至所述循环神经网络识别模型的输入层,并转换为对应的词向量;
27.将各个词向量输入至所述循环神经网络识别模型的卷积层,所述卷积层利用最大下采样算法对所述各个词向量进行特征向量提取,得到最优局部特征向量;
28.将所述最优局部特征向量依次输入所述循环神经网络模型中的线性连接层和非线性激活层,并提取到高层抽象特征向量;
29.将所述高层抽象特征向量输入至所述循环神经网络识别模型的输出层,通过计算隶属于各个预设分类标签的概率确定各个高层抽象特征向量所对应的短语的命名实体标注的标注结果。
30.可选地,所述基于标注结果提取到结构化的标的物信息之后,还包括:
31.对所提取的标的物信息与标准化数据进行信息整合;其中,所述标准化数据至少包括:项目名称、委托单位。
32.为解决上述技术问题,本发明提供了一种标的物信息提取装置,其特征在于,包括:
33.文档获取模块,用于获取待提取标的物信息的当前招标文档;
34.预处理模块,用于对所述当前招标文档的文本内容进行数据清洗,得到初始数据;
35.定位模块,用于基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集;
36.标的物信息提取模块,用于基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
37.可选地,所述预处理模块,具体用于将html格式的当前招标文档转换成目标格式的文本内容;对文本内容进行数据清洗并去除无用信息,得到初始数据。
38.可选地,所述定位模块,具体用于利用预先建立的规则集与字段词典对所述初始数据中疑似存在标的物信息的关键句集进行定位。
39.可选地,还包括规则集与字段词典建立模块,用于将历史招标文档中标的物信息
的关联内容作为初始信息;其中,所述标的物信息的关联内容至少包括所述历史招标文档的文档名称;从所述初始信息中去除预设符号,得到有效数据;检测所述有效数据中是否包含预设的针对于每种项目类型的高频词;若包含,则以检测到的高频词为分割点去除分割点后面的文本内容,得到有效数据的主体内容;去除所述有效数据的主体内容中的非关键数据;其中,所述非关键数据为对于提取标的物信息不具有显著影响的数据;对去除非关键数据后的所述有效数据的主体内容进行冗余及兼容处理,建立规则集与字段词典。
40.可选地,所述标的物信息提取模块,包括:标注子模块和结构化子模块;其中,
41.所述标注子模块,用于利用循环神经网络识别模型对所述目标短语集中的短语进行命名实体标注;
42.所述结构化子模块,用于从标注的目标短语集中剔除非结构化短语,得到结构化的标的物信息。
43.可选地,所述标注子模块,具体用于:将所述目标短语集中的各短语输入至所述循环神经网络识别模型的输入层,并转换为对应的词向量;将各个词向量输入至所述循环神经网络识别模型的卷积层,所述卷积层利用最大下采样算法对所述各个词向量进行特征向量提取,得到最优局部特征向量;将所述最优局部特征向量依次输入所述循环神经网络模型中的线性连接层和非线性激活层,并提取到高层抽象特征向量;将所述高层抽象特征向量输入至所述循环神经网络识别模型的输出层,通过计算隶属于各个预设分类标签的概率确定各个高层抽象特征向量所对应的短语的命名实体标注的标注结果。
44.可选地,还包括标的物信息整合模块,用于在基于标注结果提取到结构化的标的物信息之后,对所提取的标的物信息与标准化数据进行信息整合;其中,所述标准化数据至少包括:项目名称、委托单位。
45.为解决上述技术问题,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
46.为解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述方法。
47.与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
48.应用本发明提供的方案进行标的物信息提取时,获取待提取标的物信息的当前招标文档,对当前招标文档的文本内容进行数据清洗并得到初始数据,通过数据清洗的步骤有利于提高标的物信息提取的准确性;为了使得提取效果不受招标文档所涉及行业领域宽泛的影响,采用基于正则匹配方式从初始数据中获得疑似存在标的物信息的关键句集对应的目标短语集,以及基于命名实体识别的方式从目标短语集提取到结构化的标的物信息。
49.由以上可知,在提取招标文档中的标的物信息时,利用正则匹配方式能够获取到疑似存在标的物信息的目标短语集,然后利用命名实体识别方式对目标短语集中的短语进行标注,并对标注后的目标短语集进行筛选,从而获得结构化的标的物信息,能够对标的物信息进行自动化提取,且所提取的标的物信息为结构化的标的物信息,能够提高企业工作人员的工作效率和招标业务的质量,使得招标业务更加智能化、电子化。另外,通过与人工标注的标的物信息进行比对,发现该方法能够在标的物信息提取时取得良好效果。
附图说明
50.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
51.图1为本发明实施例提供的标的物信息提取方法的一种流程图;
52.图2为本发明实施例提供的建立规则集与字段词典的一种流程图;
53.图3为基于图2所示的规则集与字段字典提取的目标短语集的示意图;
54.图4为本发明实施例提供的对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息的一种流程图;
55.图5为本发明实施例提供的对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息的另一种流程图;
56.图6为本发明实施例提供的循环神经网络识别模型的结构图;
57.图7为本发明实施例提供的标的物信息提取方法的另一种流程图;
58.图8为应用图7所示方法实施例进行标的物信息提取的示意图;
59.图9为本发明实施例提供的标的物信息提取装置的一种结构图;
60.图10为本发明实施例提供的计算机设备的一种结构图。
具体实施方式
61.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
62.随着自然语言处理以及数据挖掘技术的发展,对非结构化数据进行信息抽取的需求日益增长。通常,文本信息抽取常用的方法主要包括基于规则、基于统计以及深度学习三大类。基于规则,主要是采用字符串及模式匹配的方法,通过正则匹配的方法实现,操作较简单,但高度依赖抽取规则,主要适用于规范性文档。基于统计,依赖于实际文本训练学习,精度较高但过程较复杂。而招标文档文本通常具有一定规范性,采用基于规则的方法对招标文档文本文件进行信息抽取较为适宜,最终实现标的物信息提取。
63.为提高企业工作人员的工作效率和招标业务的质量,促进企业对招标的管理方式朝着智能化、电子化的方向发展,本发明提供了一种标的物信息提取方法、装置、计算机设备及存储介质。
64.本发明实施例提供的标的物信息提取方法,包括:获取待提取标的物信息的当前招标文档;对所述当前招标文档的文本内容进行数据清洗,得到初始数据;基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集;基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
65.应用本发明提供的方案进行标的物信息提取时,利用正则匹配方式能够获取到疑似存在标的物信息的目标短语集,然后利用命名实体识别方式对目标短语集中的短语进行
标注,并对标注后的目标短语集进行筛选,从而获得结构化的标的物信息,能够对标的物信息进行自动化提取,且所提取的标的物信息为结构化的标的物信息,提高了企业工作人员的工作效率和招标业务的质量,使得招标业务更加智能化、电子化。
66.如图1所示,为本发明实施例提供的标的物信息提取方法的一种流程图,该标的物信息提取方法可以包括以下步骤:
67.步骤s100:获取待提取标的物信息的当前招标文档。
68.通常,招标文档可以分为线上文档和线下文档两种形式,对于html格式的招标文档而言,在进行数清洗时,可以将html格式的当前招标文档转换成目标格式的文本内容;进而对文本内容进行数据清洗并去除无用信息,得到初始数据。
69.实际应用中,可以将html格式的招标文档的全部或部分转换成文本内容如txt文本文档的文本内容,并且,还可以将转换成的文本内容存储到文本文档中以便后续继续使用。一种实现方式中,可以利用python自带的htmlparser实现文档格式转换,并通过定义html文本内容提取解析器将招标公告文本的主体内容解析出来。
70.步骤s200:对所述当前招标文档的文本内容进行数据清洗,得到初始数据。
71.通常,招标文档的文本内容会包含一些对于提取标的物信息无用的信息,例如项目编号、标段编号等等,为了保证标的物信息提取的准确性,需要对招标文档的文本内容进行数据清洗,将删除无用信息之后的招标文档作为初始数据。
72.步骤s300:基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集。
73.正则,顾名思义就是规则。而正则表达式,就是从字符串中总结出规则,并用正则表达式的形式对这种规则进行总结,从而将这种规则表达出来。可见,正则表达式就是一种可以对字符串进行操作的逻辑公式,通过预先把某些特定的字符及其组合形式定义好,便构造成了“规则字符串”(即:表示字符串的规则、一种可对字符串进行过滤的逻辑)。正则匹配的设计思想是,用一种概括描述性的语言定义字符串的规则,符合这种规则的字符串就“匹配”。
74.对正则表达式的研究起始于对人类神经系统工作模式的研究,其中有两位神经生理学家——warren mcculloch与walter pitts研究出了一种描述神经网络的数学方式,将生物学中的神经元描述为自动控制元。1956年,正则表达式(regular expression,可缩写为re、regex、regexp等,又名常规表示法、正规表达式等)的概念由数学家——stephen kleene在题为“神经网事件的表示法”的论文中提出。这种描述正则集代数的表达式可以通过字符格式的匹配进行词法分析,其本身首先使用单个的字符串来描述,其作用是阐释或匹配一个及以上符合某一种句法规则的字符串,因此作为一种表示性语言,正则表达式有其专属的一系列表达方式,来表达符合各种规则的字符类。正则表达式凭借强大、精确的模式描述能力在各个领域均得到了广泛的使用,unix里的qed编辑器是正则表达式的第一个实用应用程序,随后正则表达式在各种计算机语言中不断发展,在各个领域扩大应用范围。现在各种文本编辑工具、程序设计语言、词法分析器等都嵌入了正则表达式匹配,从而支持对文本进行高效查找替换等功能。
75.需要说明的是,基于正则匹配方式获取的所述关键句集对应的目标短语集包含对标的物提取具有显著影响的关键数据,例如项目名称、招标条件、项目概况、招标范围几项
关键数据。
76.一种情形中,如图2所示,可以按照如下方式建立规则集与字段词典:
77.步骤s301:将历史招标文档中标的物信息的关联内容作为初始信息;其中,所述标的物信息的关联内容至少包括所述历史招标文档的文档名称。
78.对于一份招标文档而言,与标的物具有关联的内容可以来自于招标文档的文档名称,还可以来自于招标文档的文档正文,通常情况下,文档名称是包含标的物信息的,因此,为了快速而准确地提取标的物信息,可以将招标文档的文档名称作为初始信息。进一步的,当以招标文档的文档名称为初始信息的标的物信息提取失败时,可以将招标文档的文档正文的部分或全部作为初始信息进行标的物提取。
79.步骤s302:从所述初始信息中去除预设符号,得到有效数据。
80.招标文档的文档内容往往包含一些对提取标的物信息无用的符号,例如项目名称中的“#”、顿号、空格、括号,等等。针对这种情形,本发明预先设置一定数量的符号即预设符号,这样,当检测到历史招标文档或当前招标文档中存在预设符号中的符号时便可删除相应的符号,从而能够得到对于提取标的物信息有用的有效数据。
81.步骤s303:检测所述有效数据中是否包含预设的针对于每种项目类型的高频词,若包含则执行步骤s304,若不包含则执行步骤s305。
82.基于统计数据可知,对于招标文档而言,不论其行业分类和项目类型,通常存在一定数量的通用的高频词,而这些高频词对于提取标的物信息是无用的,并且,一个句子中,位于这些高频词之后的文本内容对于提取标的物信息也是无用的,因此,本发明预先设置一定数量的高频词,当检测到历史招标文档或当前招标文档中存在高频词时删除位于该高频词后面的文本内容。
83.步骤s304:以检测到的高频词为分割点去除分割点后面的文本内容,得到有效数据的主体内容。
84.步骤s305:去除所述有效数据的主体内容中的非关键数据;其中,所述非关键数据为对于提取标的物信息不具有显著影响的数据。
85.步骤s306:对去除非关键数据后的所述有效数据的主体内容进行冗余及兼容处理,建立规则集与字段词典。
86.请参见图3,下面以“某集团2018年9月四大管道设备采购招标公告”为例进行说明。首先,去除“#”、顿号、空格、括号及其中内容等,得到“某集团2018年9月四大管道设备采购招标公告”;以总结出来的高频词“采购”为分割点将该词语后面的内容进行裁剪,得到“某集团2018年9月四大管道设备”;将多数语料中都会出现的企业单位名称、项目日期等内容及其前面的部分裁剪掉,得到“四大管道设备”;对一些常用词结构进行裁剪,如“框架”、“框架协议”、“年度”等冗词,当然这个例子中不存在这些词语,便不做裁剪。而“乌海能源锚具(框架)采购公开招标项目招标公告”,这个例子中存在“框架”这些词,将其经过前三步的裁剪后,便需要进行第四步的裁剪。也就是说,非关键数据作为对于提取标的物信息不具有显著影响的数据,通常包括多数招标文档的主体内容都包含的必要信息(如企业单位名称、项目日期等内容)及必要信息前面的内容,这些数据对于提取标的物信息不具有显著影响,因此需要去除,以有效建立规则集与字段词典。
87.在去除非关键数据后,有效数据的主体内容中剩余的内容为对提取标的物信息有
用的关键数据,然而,在有效数据的主体内容中,还会存在一定程度的冗余词汇,例如货物类型的招标文档中往往会有“框架”、“框架协议”、“年度”等冗词,服务类型的招标文档中往往会有"项目(. )(项目)"等短语结构。因此,为了降低数重复数据的处理工作量,还需要对有效数据的主体内容进行冗余及兼容处理,从而建立较为有效的规则集与字段词典。
88.步骤s400:基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
89.命名实体识别是对计算机可读取的非结构化、半构化或结构化文本进行结构化处理。非结构化文本没有统一的规则与排版格式等,对该类文本进行命名实体识别主要是在文法的基础上,对大量文本进行训练和学习实现;结构化文本主要来自数据库,有统一格式,可以直接抽取关键信息;半结构化文本一般没有固定格式,不能直接处理。命名实体识别的研究方法可以大致概括为基于规则(如采用字符串及模式匹配的方法)、基于统计(如基于不同的文字出现的概率来识别)、以及基于深度学习(如深度神经网络、长短时记忆网络等)三大类。
90.在本发明的另一个实施例中,如图4所示,可以按照以下方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息:
91.步骤s401:利用循环神经网络识别模型对所述目标短语集中的短语进行命名实体标注。
92.步骤s402:从标注的目标短语集中剔除非结构化短语,得到结构化的标的物信息。
93.请参见图5和图6,一种优选地实现方式中,可以按照以下方式对所述目标短语集中的短语进行命名实体标注:
94.步骤s4011:将所述目标短语集中的各短语输入至所述循环神经网络识别模型的输入层,并转换为对应的词向量。
95.本发明实施例采用循环神经网络识别模型进行标的物信息提取,由于神经网络模型的输入为向量,因此,本发明实施例利用word2vec将进入输入层的目标短语集中的各短语转换为对应的词向量。需要说明的是,word2vec函数可用于生成将文本中的短语转换为词向量的模型。一种实现方式中,可以使用python的第三方工具包gensim中所集成的word2vec函数。
96.步骤s4012:将各个词向量输入至所述循环神经网络识别模型的卷积层,所述卷积层利用最大下采样算法对所述各个词向量进行特征向量提取,得到最优局部特征向量。
97.本文通过最大下采样的算法来捕获卷积层中的最优局部特征,从而用于该循环神经网络识别模型实现标的物命名实体识别。对于卷积层而言,其输出的特征向量的维度取决于输入的句子中的短语的个数,由于关键句集中的每个句子对应的目标短语集中短语数量不同,导致卷积层输出的特征向量的维度也不相同。为了避免句首和句尾在下采样过程中出现边界问题进而对标的物信息的提取造成影响,卷积层所捕获的局部特征需要通过某种方式进行组合,从而使得输出的特征向量的维度是固定的,而与输入卷积层的特征向量的维度没有关系,从而消除目标短语集中短语数量不同带来的影响。
98.具体地,可以按照以下表达式进行下采样,得到的当前层的输出为:
99.100.其中,为当前层的输出向量,为上一层的输出向量,t表示下采样选取区域的大小,i表示第i个神经元,为卷积层中隐藏单元的个数。
101.由上述表达式可知,通过函数在第i个神经元附近的区域t内选取特征向量最大的作为第i个神经元的输出,即
102.需要说明的是,为卷积层中隐藏单元的个数,也是对输入层输出的特征向量进行下采样的滑动窗口所生成的局部特征向量的维度大小。
103.影响短语衍生实体标注结果的主要因素来自于:以其为中心的附近范围内的设定窗口内的短语。对于给定的要标注的短语,滑动窗口法只考虑该词周围固定窗口大小范围内的短语对该短语的标注结果的影响,而其他的短语则忽略不计,这就导致对靠近句首或者句尾的短语并不是十分友好,滑动窗口对于这类短语有一个“越界”的问题,若以开头的短语为中心的话其左边的区域并无短语。为了解决这个问题,本发明采用句子扩充法进行解决:在句首与句尾填充二分之一窗口大小个特殊的“填充词”,以保证每一个以短语为中心的窗口都不会出现空的情况,保证每一个词都能“拥有”自己的窗口,从而保证该“边界问题”不会对实验结果产生影响,该“填充词”的词向量利用零初始化方法进行初始化。通过下采样层,特征向量的维度不统一的问题可以得到解决,消除了目标短语集中短语数量不同带来的影响,因此不需要对待标注短语的上下文信息进行舍弃。
104.步骤s4013:将所述最优局部特征向量依次输入所述循环神经网络模型中的线性连接层和非线性激活层,并提取到高层抽象特征向量。
105.通过最大下采样层得到最优局部特征向量之后,该固定维度大小的向量会被输入到循环神经网络识别模型的隐含层中并用于后续的标签判别。如图5所示,其隐含层包括3层即:第一层线性连接层、第二次非线性激活层和第三次softmax层。
106.其中,线性连接层主要是对输入的最优局部向量进行线性组合,以获取更复杂的特征。在线性连接层所进行的操作可以用以下公式来表示:
[0107][0108]
其中,w
l
是第一层线性连接层的线性连接参数,b
l
是当前层的偏置值,为上一层的输出向量即本层的输入向量,为本层的输出向量。
[0109]
另外,如果将第一层线性连接层的隐藏单元的个数定义为那么,通过线性连接操作,可以得到维度为的向量,该向量则作为第二次非线性激活层的输入向量进行激活操作。
[0110]
非线性激活层利用特定的非线性激活函数对线性连接层的输出向量进行激活操作。非线性激活函数是捕获高层抽象特征的关键,如果没有非线性激活函数,则神经网络模型便退化为线性模型。通常情况下,为了更充分的抽取高层特征,几个线性连接层和非线性激活层会相互交织堆叠在一起,以获取更高阶的特征表示,但是模型训练的代价会随着神经网络深度的增加而呈指数级增长,因此神经网络层数的选取需要根据实验结果以及计算
能力而定。由于实验室硬件的计算资源有限,图5采用单层线性连接层和非线性激活层的组合来进行高层抽象特征的提取,需要说明的是,实际应用中本领域技术人员可以根据实际情况来设定。另外,为了加快模型训练的速度,本文采用hardtanh函数作为非线性激活层的激活函数,主要缘于其在求导过程中简易的计算过程,其函数表达式如下:
[0111][0112]
其中,x为上一层的输出。
[0113]
分析上述hardtanh函数可知,该函数在[

1,1]区间上的导数恒为1,而在其他区间上的导数则为0,因此,循环神经网络识别模型在利用反向传播算法进行训练的时候计算要更为简便,加速了模型的训练过程。
[0114]
softmax层是将线性预测值转换为类别概率,可以采用如下函数:
[0115][0116]
其中,σ
i
(z)为上一层的输入z
i
属于标签i的概率,exp的含义是每一个z
i
取自然底数幂值,k为神经元个数。
[0117]
需要说明的是,将神经网络的k个神经元的输出带入到softmax的结果其实就是对每一个z
i
取自然底数幂值,从而变成一个非负的值,然后除以所有项的和进行归一化,由于z
i
是最初的输入短语通过循环神经网络识别模型的层层变换得来的,所以每一个z
i
都代表了一个短语,因此,每一个输出σ
i
(z)可以看作输入的待标注短语属于标签i的概率,或者称为似然(likelihood)。
[0118]
步骤s4014:将所述高层抽象特征向量输入至所述循环神经网络识别模型的输出层,通过计算隶属于各个预设分类标签的概率确定各个高层抽象特征向量所对应的短语的命名实体标注的标注结果。
[0119]
该循环神经网络模型最终的输出是对输入的句子对应的各个短语进行词性标注,标注模式中所有的标签类型如下表所示:
[0120]
b

begini

insidee

end表示实体开始表示实体内部表示实体尾部s

singleo

other 表示本身就是实体表示其他非实体字符 [0121]
下面以“使用的离子交换树脂采购”为例,模型的输出结果如下:
[0122]
使用的离子o

othero

otherb

begini

inside交换树脂采购i

insidee

ends

singleo

other
[0123]
从上述两个表格可知,关键句集中的句子所对应的目标短语集中的各个短语中的不同短语会被标注为不同的词性。进一步的,针对不同的标注结果,在提取标的物信息时按
照如下处理方式进行提取:1)若关键句集中的句子对应的目标短语集中的各个短语全部标注为实体的短语,直接确定该关键句为标的物信息;2)若关键句集中的句子对应的目标短语集中的各个短语在句首和/或句尾标注为其他非实体字符的短语,删除标注为其他实体字符对应的短语,并将关键句中保留下的各短语作为标的物;3)若关键句集中的句子对应的目标短语集中的各个短语全部标注为其他非实体字符的短语,直接删除关键句。
[0124]
应用本发明提供的方案进行标的物信息提取时,利用正则匹配方式能够获取到疑似存在标的物信息的目标短语集,然后利用命名实体识别方式对目标短语集中的短语进行标注,并对标注后的目标短语集进行筛选,从而获得结构化的标的物信息,能够对标的物信息进行自动化提取,且所提取的标的物信息为结构化的标的物信息,提高了企业工作人员的工作效率和招标业务的质量,使得招标业务更加智能化、电子化。另外,通过与人工标注的标的物信息进行比对,发现该方法能够在标的物信息提取时取得良好效果。
[0125]
进一步的,在对含有标的物的短语进行命名实体标注时,分别对比了卷积神经网络cnn、反馈式神经网络hnn、深度神经网络dnn、循环神经网络rnn四种网络的标注效果,如下表所示:
[0126] dnncnnhnnrnn召回率91.22%95.43%95.22%95.65%准确率91.59%95.43%95.49%95.81%f1分数91.32%95.41%95.30%95.42%
[0127]
可以看到在基于dnn、cnn、hnn、rnn的神经网络在实体命名分类上rnn表现最好,其准确率相比其三个网络中最高的hnn还要高出0.3%。本发明同时还对不同行业以及不同项目类型的数据进行了十折交叉验证,得到的准确率均在95.8%左右,可见,本方案具有较好的鲁棒性。
[0128]
如图7所示,为本发明实施例提供的标的物信息提取方法的一种流程图,该标的物信息提取方法可以包括以下步骤:
[0129]
步骤s110:获取待提取标的物信息的当前招标文档。
[0130]
步骤s210:对所述当前招标文档的文本内容进行数据清洗,得到初始数据。
[0131]
步骤s310:基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集。
[0132]
步骤s410:基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
[0133]
需要说明的是,图7所示方法实施例中的步骤s110至步骤s410与图1所示方法实施例中的步骤s100至步骤s400相类似,相关之处可参见图1所示方法实施例,此处不再赘述。
[0134]
步骤s500:对所提取的标的物信息与标准化数据进行信息整合;其中,所述标准化数据至少包括:项目名称、委托单位。
[0135]
请参见图8,将当前招标文档中的“项目名称 关键字段”作为进行标的物信息提取的初始数据,基于预先建立的规则集与字段词典获得该初始数据对应的目标短语集,进而基于循环神经网络识别模型进行标的物提取,考虑到上述提及的标的物标注结果可知,当关键句集中的句子对应的目标短语集中的各个短语全部标注为其他非实体字符的短语,直接删除关键句,也就是未提取到标的物信息,表明标的物信息提取失败。针对这种情况,为
了保证招标业务能够实现自动化和电子化,还可以通过对所提取的标的物信息与标准化数据进行信息整合的方式提取标的物信息,具体的,基于当前招标文档中的项目名称或委托单位等关键字段与标准化数据进行匹配,进而在匹配成功后提取到相应的标的物信息。
[0136]
在实际的招标业务中,除了招标文档外往往还存在一些标准化数据例如招标项目信息表,当应用本发明提供的方案提取出标的物信息后,需要与上述标准化数据进行信息整合。以招标业务信息表为例进行说明,采用近似匹配的方式将当前招标文档与招标业务信息表对应起来,例如将当前招标文档中的项目名称与招标业务信息表中的项目名称进行匹配,可以在招标项目信息表中插入标的物信息,再通过连接操作在招标业务信息表的表格中加入项目名称,委托单位,且标的物字段中得到格式化的标的物信息。
[0137]
图7所述方法实施例具备图1所示方法实施例的全部有益效果,除此之外,当基于招标文档的标的物信息提失败时,能够通过将提取的标的物信息与标准化数据进行信息整合,来获得最终的标的物信息,提高了标的物提取的准确率和提取标的物信息的成功率。
[0138]
下面结合实验,对本发明实施例提供的标的物信息提取方法的效果进行验证。
[0139]
(1)实验所用的数据集介绍:
[0140]
来自国家能源招标网的完整招标文档,共计有33586份。其中,部分招标文档所对应招投标项目有分类结果等更详细的信息,部分没有分类结果等信息。有招投标项目名称和委托单位等信息、且已知对应的分类结果的项目资料共计19980条,且在完整招标文档集中均有对应招标文档,为保证资料信息数量一致,本发明在后期进行了信息整合。
[0141]
(2)实验的设置如下:
[0142]
编程语言为python3,因为需要使用不同的第三方库,所以实验中用到了不同的解释器,集成工具使用的是pycharm社区版。
[0143]
(3)建立的正则表达式处理结构如下表所示:
[0144][0145]
(4)实验结果如下:
[0146]
为了评价方法效果,从19980条招标文档文本中随机抽取1%(即200份)招标文档,并将这些招标文档进行效果评估,得到的结构化字段的准确率和召回率均高于90%,且货物类招标文档相对更为规范,该类招标文档的准确率和召回率更高。采用基于规则的方法对招标文档文本文件进行信息抽取较为适宜,最终实现标的物提取。
[0147]
下面再对本发明实施例提供的标的物信息提取装置进行说明。
[0148]
如图9所示,为本发明提供实施例提供的标的物信息提取装置的一种结构图,包括以下模块:文档获取模块610、预处理模块620、定位模块630和标的物信息提取模块640。
[0149]
其中,文档获取模块610,用于获取待提取标的物信息的当前招标文档;
[0150]
预处理模块620,用于对所述当前招标文档的文本内容进行数据清洗,得到初始数据;
[0151]
定位模块630,用于基于正则匹配方式从所述初始数据中定位到疑似存在标的物信息的关键句集,并获得所述关键句集对应的目标短语集;
[0152]
标的物信息提取模块640,用于基于命名实体识别方式对所述目标短语集进行数据分类标注,并基于标注结果提取到结构化的标的物信息。
[0153]
应用本发明提供的方案进行标的物信息提取时,利用正则匹配方式能够获取到疑似存在标的物信息的目标短语集,然后利用命名实体识别方式对目标短语集中的短语进行标注,并对标注后的目标短语集进行筛选,从而获得结构化的标的物信息,能够对标的物信息进行自动化提取,且所提取的标的物信息为结构化的标的物信息,提高了企业工作人员的工作效率和招标业务的质量,使得招标业务更加智能化、电子化。
[0154]
一种情形中,所述预处理模块620,具体用于将html格式的当前招标文档转换成目标格式的文本内容;对文本内容进行数据清洗并去除无用信息,得到初始数据。
[0155]
另一种情形中,所述定位模块630,具体用于利用预先建立的规则集与字段词典对所述初始数据中疑似存在标的物信息的关键句集进行定位。
[0156]
在本发明的一个实施例中,还包括规则集与字段词典建立模块,用于将历史招标文档中标的物信息的关联内容作为初始信息;其中,所述标的物信息的关联内容至少包括所述历史招标文档的文档名称;从所述初始信息中去除预设符号,得到有效数据;检测所述有效数据中是否包含预设的针对于每种项目类型的高频词;若包含,则以检测到的高频词为分割点去除分割点后面的文本内容,得到有效数据的主体内容;去除所述有效数据的主体内容中的非关键数据;其中,所述非关键数据为对于提取标的物信息不具有显著影响的数据;对去除非关键数据后的所述有效数据的主体内容进行冗余及兼容处理,建立规则集与字段词典。
[0157]
一种实现方式中,所述标的物信息提取模块640,包括:标注子模块和结构化子模块。其中,所述标注子模块,用于利用循环神经网络识别模型对所述目标短语集中的短语进行命名实体标注;所述结构化子模块,用于从标注的目标短语集中剔除非结构化短语,得到结构化的标的物信息。
[0158]
一种情形中,所述标注子模块,具体用于:将所述目标短语集中的各短语输入至所述循环神经网络识别模型的输入层,并转换为对应的词向量;将各个词向量输入至所述循环神经网络识别模型的卷积层,所述卷积层利用最大下采样算法对所述各个词向量进行特征向量提取,得到最优局部特征向量;将所述最优局部特征向量依次输入所述循环神经网络模型中的线性连接层和非线性激活层,并提取到高层抽象特征向量;将所述高层抽象特征向量输入至所述循环神经网络识别模型的输出层,通过计算隶属于各个预设分类标签的概率确定各个高层抽象特征向量所对应的短语的命名实体标注的标注结果。
[0159]
另一种情形中,还包括标的物信息整合模块,用于在基于标注结果提取到结构化的标的物信息之后,对所提取的标的物信息与标准化数据进行信息整合;其中,所述标准化
数据至少包括:项目名称、委托单位。当基于招标文档的标的物信息提失败时,能够通过将提取的标的物信息与标准化数据进行信息整合,来获得最终的标的物信息,提高了标的物提取的准确率和提取标的物信息的成功率。
[0160]
为解决上述技术问题,本发明提供了一种计算机设备,如图10所示,包括存储器710、处理器720及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
[0161]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括,但不仅限于处理器720、存储器710。本领域技术人员可以理解,图10仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
[0162]
所称处理器720可以是中央处理单元(central processing unit,cpu),还可以是其它通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0163]
所述存储器710可以是所述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。所述存储器710也可以是计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器710还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器710用于存储所述计算机程序以及所述计算机设备所需的其它程序和数据。所述存储器710还可以用于暂时地存储已经输出或者将要输出的数据。
[0164]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在、未装配入计算机设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述程序被处理器执行时实现上述所述的方法。
[0165]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器710、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电
信信号。
[0166]
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
[0167]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0168]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0169]
应当理解,在本技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本技术。如在本技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0170]
还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0171]
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到所描述条件或事件”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到所描述条件或事件”或“响应于检测到所描述条件或事件”。
[0172]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜