一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据去重标记码生成方法、系统、电子设备及存储介质与流程

2021-11-10 03:35:00 来源:中国专利 TAG:


1.本发明涉及数据处理中运用多维度文本特征进行去重的领域,具体涉及到一种数据去重标记码生成方法、系统、电子设备及存储介质。


背景技术:

2.在大规模数据去重的方式中,较常使用的是使用tf

idf余弦相似度通过查库计算的方式进行去重,在数据量过大的情况下计算耗时过长,对于大批量流式处理数据入库过慢;或者先通过simhash对文本进行编码,再进行相似度计算的方式进行去重,simhash在处理招投标这种半结构化数据时,由于文本较短、对整体文本的simhash编码特征少,非大段文本的特征形式处理不当导致去重效果较差,该方法也需要进行相似度计算,故也存在数据量过大的情况下计算耗时过长,对于大批量流式处理数据入库过慢的问题。


技术实现要素:

3.有鉴于此,本发明实施例提供了一种数据去重标记码生成方法、系统、电子设备及存储介质,以解决现有技术中招投标数据去重效率低的缺点。
4.为此,本发明实施例提供了如下技术方案:
5.根据第一方面,本发明实施例提供了一种数据去重标记码生成方法,包括:获取招投标数据集,所述招投标数据集中包括多个采集到的招投标数据;根据招投标数据集得到每一个招投标数据的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征;根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征;根据每一个招投标数据的招标编号得到每一个招投标数据对应的编号特征;根据每一个招投标数据的招标单位名称得到每一个招投标数据对应的单位名称特征;根据每一个招投标数据的招标阶段类型得到每一个招投标数据对应的阶段类型特征;根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码。
6.可选地,根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征的步骤中,包括:获取预设阶段类别字典;根据预设阶段类别字典分别去除每一个招投标数据的招标标题中的阶段类型词;对去除阶段类型词的招标标题进行分词,得到每一个招投标数据对应的标题分词;分别计算每一个招投标数据对应的标题分词中每一分词的tfidf值;将tfidf值高的第一预设数量的分词作为标题提取关键词;将标题提取关键词按照第一预设顺序进行排序,得到标题排序关键词,并将标题排序关键词作为每一个招投标数据对应的标题特征。
7.可选地,根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特
征的步骤中,包括:分别对每一个招投标数据的招标内容进行分词,得到内容分词;根据预设停用词字典去除内容分词中的停用词;对去除停用词后的内容分词进行词频统计,将词频高的第二预设数量的内容分词作为第一内容关键词;对去除停用词后的内容分词进行词长度排序,将词长度高的第三预设数量的内容分词作为第二内容关键词;将第一内容关键词和第二内容关键词中共同出现的关键词作为内容提取关键词;将内容提取关键词按照第二预设顺序进行排序,得到内容排序关键词,并将内容排序关键词作为每一个招投标数据对应的内容特征。
8.可选地,根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码的步骤中,包括:将每一个招投标数据对应的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征按照第一预设拼接顺序进行拼接,得到第一拼接特征;将第一拼接特征进行编码加密,得到每一个招投标数据的数据编码。
9.可选地,根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码的步骤中,包括:将每一个招投标数据对应的标题特征、内容特征、编号特征和单位名称特征按照第二预设拼接顺序进行拼接,得到第二拼接特征;将第二拼接特征进行编码加密,得到每一个招投标数据的组编码。
10.可选地,根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码的步骤之后,还包括:获取去重需求;根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据。
11.可选地,当去重需求为根据去重标记码中的数据编码进行去重时,根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据的步骤中,包括:按照数据编码对招投标数据进行编码排序;获取每一个招投标数据的采集入库时间;按照采集入库时间对具有相同数据编码的招投标数据进行时间排序;将具有相同数据编码的招投标数据中采集入库时间早的招投标数据保留,并将采集入库时间早的招投标数据作为去重后招投标数据。
12.根据第二方面,本发明实施例提供了一种数据去重标记码生成系统,包括:第一获取模块,用于获取招投标数据集,所述招投标数据集中包括多个采集到的招投标数据;第一处理模块,用于根据招投标数据集得到每一个招投标数据的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;第二处理模块,用于根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征;第三处理模块,用于根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征;第四处理模块,用于根据每一个招投标数据的招标编号得到每一个招投标数据对应的编号特征;第五处理模块,用于根据每一个招投标数据的招标单位名称得到每一个招投标数据对应的单位名称特征;第六处理模块,用于根据每一个招投标数据的招标阶段类型得到每一个招投标数据对应的阶段类型特征;第七处理模块,用于根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;第八处理模块,用于根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;第九处理模块,用于根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码。
13.可选地,所述第二处理模块包括:第一获取单元,用于获取预设阶段类别字典;第一处理单元,用于根据预设阶段类别字典分别去除每一个招投标数据的招标标题中的阶段类型词;第二处理单元,用于对去除阶段类型词的招标标题进行分词,得到每一个招投标数据对应的标题分词;第三处理单元,用于分别计算每一个招投标数据对应的标题分词中每一分词的tfidf值;第四处理单元,用于将tfidf值高的第一预设数量的分词作为标题提取关键词;第五处理单元,用于将标题提取关键词按照第一预设顺序进行排序,得到标题排序关键词,并将标题排序关键词作为每一个招投标数据对应的标题特征。
14.可选地,所述第三处理模块包括:第六处理单元,用于分别对每一个招投标数据的招标内容进行分词,得到内容分词;第七处理单元,用于根据预设停用词字典去除内容分词中的停用词;第八处理单元,用于对去除停用词后的内容分词进行词频统计,将词频高的第二预设数量的内容分词作为第一内容关键词;第九处理单元,用于对去除停用词后的内容分词进行词长度排序,将词长度高的第三预设数量的内容分词作为第二内容关键词;第十处理单元,用于将第一内容关键词和第二内容关键词中共同出现的关键词作为内容提取关键词;第十一处理单元,用于将内容提取关键词按照第二预设顺序进行排序,得到内容排序关键词,并将内容排序关键词作为每一个招投标数据对应的内容特征。
15.可选地,所述第七处理模块包括:第十二处理单元,用于将每一个招投标数据对应的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征按照第一预设拼接顺序进行拼接,得到第一拼接特征;第十三处理单元,用于将第一拼接特征进行编码加密,得到每一个招投标数据的数据编码。
16.可选地,所述第八处理模块包括:第十四处理单元,用于将每一个招投标数据对应的标题特征、内容特征、编号特征和单位名称特征按照第二预设拼接顺序进行拼接,得到第二拼接特征;第十五处理单元,用于将第二拼接特征进行编码加密,得到每一个招投标数据的组编码。
17.可选地,还包括:第二获取模块,用于获取去重需求;第十处理模块,用于根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据。
18.可选地,当去重需求为根据去重标记码中的数据编码进行去重时,所述第十处理模块包括:第十六处理单元,用于按照数据编码对招投标数据进行编码排序;第二获取单元,用于获取每一个招投标数据的采集入库时间;第十七处理单元,用于按照采集入库时间对具有相同数据编码的招投标数据进行时间排序;第十八处理单元,用于将具有相同数据编码的招投标数据中采集入库时间早的招投标数据保留,并将采集入库时间早的招投标数据作为去重后招投标数据。
19.根据第三方面,本发明实施例提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行上述第一方面任意一项描述的数据去重标记码生成方法。
20.根据第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行上述第一方面任意一项描述的数据去重标记码生成方法。
21.本发明实施例技术方案,具有如下优点:
22.本发明实施例提供了一种数据去重标记码生成方法、系统、电子设备及存储介质,其中,该方法包括:获取招投标数据集,所述招投标数据集中包括多个采集到的招投标数据;根据招投标数据集得到每一个招投标数据的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征;根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征;根据每一个招投标数据的招标编号得到每一个招投标数据对应的编号特征;根据每一个招投标数据的招标单位名称得到每一个招投标数据对应的单位名称特征;根据每一个招投标数据的招标阶段类型得到每一个招投标数据对应的阶段类型特征;根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码。上述步骤,先根据获取到的招投标数据集确定每一个招投标数据对应的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;其次,根据招标标题确定标题特征,根据招标内容确定内容特征,根据招标编号确定编号特征,根据招标单位名称确定编号特征,根据招标阶段类型确定阶段类型特征;之后,根据标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;根据标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;最后,将数据编码和组编码作为每一个招投标数据对应的去重标记码,通过去重标记码进行招投标数据的去重处理,该方法不需要通过相似度计算便可确定重复数据,提高了招投标数据的去重效率。
附图说明
23.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1为本发明实施例的数据去重标记码生成方法的一个具体示例的流程图;
25.图2为本发明实施例的数据去重标记码生成方法的另一个具体示例的流程图;
26.图3为本发明实施例的数据去重标记码生成系统的一个具体示例的框图;
27.图4为本发明实施例的电子设备的示意图。
具体实施方式
28.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.本发明实施例提供了一种数据去重标记码生成方法,如图1所示,该方法包括步骤s1

s10。
30.步骤s1:获取招投标数据集,所述招投标数据集中包括多个采集到的招投标数据。
31.本实施例中,通过网络爬虫对招投标数据进行数据采集,将采集到的多个招投标数据组成招投标数据集,本实施例中对招投标数据的获取方式仅作示意性描述,不以此为限;当然,在其它实施例中,还可以通过现有技术中的其它技术获取到招投标数据,如通过商业接口得到招投标数据,根据实际需要合理设置即可。
32.步骤s2:根据招投标数据集得到每一个招投标数据的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型。
33.本实施例中,对招投标数据集中的每一个招投标数据分别进行标题提取,得到每一个招投标数据对应的招标标题。招标标题的具体提取方法可以是后端采集而来,算法处理直接从队列中提取出招投标数据对应的内容和标题;当然,在其它实施例中,还可以采用现有技术中的其它标题提取方法得到招投标数据的招标标题;本实施例中对此仅作示意性说明,不以此为限。
34.本实施例中,对招投标数据集中的每一个招投标数据分别进行内容提取,得到每一个招投标数据对应的招标内容。招标内容的具体提取方法可以是后端采集而来,算法处理直接从队列中提取出招投标数据对应的内容和标题;当然,在其它实施例中,还可以采用现有技术中的其它内容提取方法得到招投标数据的招标内容;本实施例中对此仅作示意性说明,不以此为限。
35.本实施例中,招标编号指的是招标文件项目编号,每一个招标项目具有唯一的项目编号,通过项目编号区分不同的标。对招投标数据集中的每一个招投标数据分别进行项目编号提取,得到每一个招投标数据对应的招标编号。招标编号的具体提取方法可以是运用正则表达式,招投标数据本身为半结构化数据,每一个标都对应一个唯一的招标编号,且描述招标编号的文字内容都相对固定。如

招标编号:2019

10

09

广字mnq’或者

项目编号:2019

10

09

广字mnq’,将招投标数据中固定出现的描述招标编号的词组收录利用正则的方式从招投标内容中抽取出来;当然,在其它实施例中,还可以采用现有技术中的其它项目编号提取方法得到招投标数据的招标编号;本实施例中对此仅作示意性说明,不以此为限。
36.本实施例中,对招投标数据集中的每一个招投标数据分别进行招标单位提取,得到每一个招投标数据对应的招标单位名称。招标单位名称的具体提取方法可以是正则表达式抽取,将招标内容中以

招标人
’‘
招标单位’开头的文本内容利用正则表达式抽取出来作为招标单位;当然,在其它实施例中,还可以采用现有技术中的其它单位名称提取方法得到招投标数据的招标单位名称;本实施例中对此仅作示意性说明,不以此为限。
37.本实施例中,招标阶段类型指的是招标过程中不同的阶段,具体的招标阶段类型分为招标公告和中标结果两大类,每一类又分为磋商、竞谈、询价、更正、成交、流标等20多种小类型。通过对大量历史招投标数据的统计得到每一个小类型对应的关键词;之后,将各类别下的关键词和对应的招标阶段类型进行映射,预先生成预设阶段类别字典。本实施例中对招标阶段类型的具体分类仅作示意性描述,不以此为限。
38.具体的,招标阶段类型的确定过程是在对标题进行阶段类型词去除的时候,将标题对应的阶段类型词保留下来,并将该保留下来的阶段类型词作为该招投标数据对应的阶段类型关键词,将阶段类型关键词在预先映射好的预设阶段类别字典中进行查找,找到该阶段类型关键词对应的阶段类型,进而得出招标阶段类型。
39.步骤s3:根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征。
40.本实施例中,通过对招投标数据的分析,重复的情况分为两种,其一是完全相同,其二是同一个标的不同阶段,例如:“某公司模拟训练大楼强弱电改造项目招标公告”和“某公司模拟训练大楼强弱电改造项目中标公告”,这两条数据都是同一个标的内容,招标编号及其他相关内容均为相同,但是这样的数据在数据处理时不能算作重复,这就涉及到标的阶段类型,阶段类型用来表示同一标的不同生命周期,以便在后续的数据展示中提供更多的价值。
41.招投标数据的标题中通常包括涉及阶段类型的词语,例如,标题“某部队模拟训练大楼强弱电改造项目招标公告”中的“招标公告”表示该标的阶段类型;标题“某部队模拟训练大楼强弱电改造项目中标公告”中的“中标公告”则表示该标的阶段类型。
42.本实施例中,由于招标阶段类型是用于表示标的不同阶段的特征,故标题中无需考虑阶段类型,故在进行标题关键词提取之前,先去除标题中提及的阶段类型的词语。之后,分别对每一个招投标数据对应的去除阶段类型词语后的招标标题进行关键词提取得到标题关键词,将标题关键词按照一定的顺序排列后作为每一个招投标数据对应的标题特征。
43.步骤s4:根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征。
44.本实施例中,分别对每一个招投标数据的招标内容进行分词,分词后进行词频统计,取词频数值前top m的m个关键词,再按照词长度进行排序,取长度前top n的n个词,最后取词频top m的m个关键词和词长度top n的n个词中共同出现的词作为标的内容关键词放入列表作为输出,将内容关键词按照一定的顺序排列后作为每一个招投标数据对应的内容特征。
45.步骤s5:根据每一个招投标数据的招标编号得到每一个招投标数据对应的编号特征。
46.本实施例中,分别将获取到的每一个招投标数据的招标编码作为招投标数据对应的编号特征。
47.步骤s6:根据每一个招投标数据的招标单位名称得到每一个招投标数据对应的单位名称特征。
48.本实施例中,一般情况下相同的标的招标单位为同一家,使用招标单位名称作为判断依据,提高数据重复判定的准确性。分别将获取到的每一个招投标数据的招标单位名称作为招投标数据对应的单位名称特征。
49.步骤s7:根据每一个招投标数据的招标阶段类型得到每一个招投标数据对应的阶段类型特征。
50.本实施例中,分别将获取到的每一个招投标数据的招标阶段类型作为招投标数据对应的阶段类型特征。
51.步骤s8:根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码。
52.本实施例中,分别将每一个招投标数据对应的标题特征、内容特征、编号特征、单
位名称特征和阶段类型特征按照一定的先后排列顺序进行拼接,并对拼接后的上述多维特征进行编码,具体可以是md5编码;编码后得到每一个招投标数据对应的数据编码。
53.步骤s9:根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码。
54.本实施例中,分别将每一个招投标数据对应的标题特征、内容特征、编号特征和单位名称特征按照一定的先后排列顺序进行拼接,并对拼接后的上述多维特征进行编码,具体可以是md5编码;编码后得到每一个招投标数据对应的组编码。
55.步骤s10:根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码。
56.本实施例中,一个招投标数据对应一个数据编码和一个组编码,将招投标数据对应的数据编码和组编码作为该招投标数据的去重标记码,后续根据去重标记码便可对招投标数据库中的数据进行去重处理。具体地,对招投标数据库的所有数据都打上数据编码unique_code和组编码group_code这两个码,可以按unique_code一个码对招投标数据库作分组去重处理;也可以按照group_code和unique_code两个码共同对招投标数据库作分组去重处理,这种处理可以展示同一个标的不同阶段。
57.上述步骤,先根据获取到的招投标数据集确定每一个招投标数据对应的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;其次,根据招标标题确定标题特征,根据招标内容确定内容特征,根据招标编号确定编号特征,根据招标单位名称确定编号特征,根据招标阶段类型确定阶段类型特征;之后,根据标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;根据标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;最后,将数据编码和组编码作为每一个招投标数据对应的去重标记码,通过去重标记码进行招投标数据的去重处理,该方法不需要通过相似度计算便可确定重复数据,提高了招投标数据的去重效率。
58.作为示例性的实施例,步骤s3根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征的步骤中,包括步骤s31

s36。
59.s31:获取预设阶段类别字典。
60.本实施例中,阶段类型指的是同一个标的不同生命周期,也就是同一个标在招标过程中不同的阶段。具体的招标阶段类型分为招标公告和中标结果两大类型,每一大类型又分为磋商、竞谈、询价、更正、成交、流标等20多种小类型。每一个小类型下面又包括多个代表相应类型的关键词,这些关键词是通过对大量历史招投标数据进行统计得到的。将小类型下的关键词和大类型进行对应,每一个大类型对应一个阶段类型,这样便形成了阶段类型关键词和阶段类型的映射关系,生成阶段类型关键词和阶段类型的映射字典,这个预先映射好的词典即为预设阶段类别字典。
61.s32:根据预设阶段类别字典分别去除每一个招投标数据的招标标题中的阶段类型词。
62.本实施例中,将每一个招投标数据的招标标题中的词语分别与预设阶段类别字典中的阶段性关键词进行比较,当招标标题中出现预设阶段类别字典中的阶段性关键词时,将标题中的阶段性关键词去除。
63.本实施例中,去除掉阶段类型词后,不能直接将标题作为整体直接转码。招投标的
标题存在一个问题,标的信息属于不同网站采集时增加或删减一个或多个词展现出的内容不同,但实际上也是相同的标;而且在实际数据库中,这样的重复信息占比略大,所以针对标题在后续步骤中还需要进行提取关键词。
64.s33:对去除阶段类型词的招标标题进行分词,得到每一个招投标数据对应的标题分词。
65.本实施例中,对招标标题去除阶段类型词后,进行分词,分词后得到每一个招投标题的标题分词。具体的分词方法可以是结巴分词;当然,在其它实施例中,还可以采用现有技术中的其它分词方法,本实施例中对此仅作示意性描述,不以此为限。
66.s34:分别计算每一个招投标数据对应的标题分词中每一个分词的tfidf值。
67.本实施例中,对标题分词进行词频统计,计算出每一个分词出现的频率和逆文档频率,得到每一个分词的tfidf值。
68.s35:将tfidf值高的第一预设数量的分词作为标题提取关键词。
69.本实施例中,第一预设数量可以是3个,也就是选取tfidf值高的3个分词作为标题提取关键词。当然,在其它实施例中,第一预设数量还可以是2个或者4个;本实施例中对第一预设数量仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
70.具体地,将标题分词中各个分词按照tfidf值进行升序或者降序排列,之后,取tfidf值高的3个分词作为招标标题对应的标题提取关键词。
71.s36:将标题提取关键词按照第一预设顺序进行排序,得到标题排序关键词,并将标题排序关键词作为每一个招投标数据对应的标题特征。
72.本实施例中,第一预设顺序可以是汉字拼音首字母顺序;当然,在其它实施例中,第一预设顺序也可以是汉字笔画数。本实施例中对此仅作示意性描述,不以此为限。
73.本实施例中,对标题提取关键词按照第一预设顺序进行排列,排列后的标题提取关键词即为招标标题对应的标题排序关键词,并将招标标题对应的标题排序关键词作为招标标题的标题特征。
74.上述步骤,在处理标题时,根据预设阶段类别字典将阶段类型相关的词去除,预设阶段类别字典使用的是前期经过数据统计出的阶段类别字典表;去除掉阶段类型词后,还需要从标题中提取关键词,利用tfidf的方式从标题中提取出第一预设数量关键词作为标题提取关键词,并对标题提取关键词进行排序,将排序后的标题提取关键词作为待转码的招标标题特征项。通过上述步骤能够屏蔽掉由于网站不同对标题特征造成的词噪音。
75.作为示例性的实施例,步骤s4根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征的步骤中,包括步骤s41

s46。
76.步骤s41:分别对每一个招投标数据的招标内容进行分词,得到内容分词。
77.本实施例中,从标的正文内容考虑,同样是由于采集的原因,尽管正文内容描述的是同一个标的内容,但是文章整体并不是完全一样,例如排版格式不同或者标头结尾不同等。并且招投标数据内容的长度一般都在500个字左右,所以考虑用内容关键词的方式来代表当前标的内容。
78.本实施例中,对招标内容进行分词,分词后得到每一个招投标数据的招标内容对应的内容分词。具体的分词方法可以是结巴分词;当然,在其它实施例中,还可以采用现有技术中的其它分词方法,本实施例中对此仅作示意性描述,不以此为限。
79.步骤s42:根据预设停用词字典去除内容分词中的停用词。
80.本实施例中,预设停用词字典是通过对大量历史招投标内容进行统计得出的。具体的,预设停用词字典可以是哈工大停用词词库;也可以是四川大学机器学习智能实验室停用词库;还可以是百度停用词表。本实施例中对此仅作示意性描述,不以此为限;在其它实施例中还可以是其它停用词表,根据需要合理设置即可。
81.步骤s43:对去除停用词后的内容分词进行词频统计,将词频高的第二预设数量的内容分词作为第一内容关键词。
82.本实施例中,第二预设数量可以是5个,也就是选取词频值高的5个分词作为第一内容关键词。当然,在其它实施例中,第二预设数量还可以是4个或者6个;本实施例中对第二预设数量仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
83.本实施例中,对去除停用词后的内容分词进行词频统计,计算出每一个分词的词频,将词频进行比较,选取词频值高的5个分词作为招标内容对应的第一内容关键词。
84.步骤s44:对去除停用词后的内容分词进行词长度排序,将词长度高的第三预设数量的内容分词作为第二内容关键词。
85.本实施例中,第三预设数量可以是10个;当然,在其它实施例中,第三预设数量还可以是8个或者12个。本实施例中对第三预设数量仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
86.本实施例中,对去除停用词后的内容分词进行词长度统计,统计每一个内容分词的词长度,将词长度高的10个内容分词作为第二内容关键词。
87.步骤s45:将第一内容关键词和第二内容关键词中共同出现的关键词作为内容提取关键词。
88.本实施例中,将第一内容关键词和第二内容关键词进行比较,找出共同出现的关键词,将这些共同出现的关键词作为招标内容对应的内容提取关键词。
89.步骤s46:将内容提取关键词按照第二预设顺序进行排序,得到内容排序关键词,并将内容排序关键词作为每一个招投标数据对应的内容特征。
90.本实施例中,第二预设顺序可以是汉字拼音首字母顺序;当然,在其它实施例中,第二预设顺序也可以是汉字笔画数。本实施例中对此仅作示意性描述,不以此为限。
91.本实施例中,对内容提取关键词按照第二预设顺序进行排列,排列后的内容提取关键词即为招标内容对应的内容排序关键词,并将招标内容对应的内容排序关键词作为招标内容的内容特征。
92.上述步骤,先对标的内容分词;分词后去停用词,以便分出的词都具有强招投标特征;计算各个分词的词频,取第二预设数量的词频数高的分词作为第一内容分词;再按照词长度进行排序,取第三预设数量的词长度高的分词作为第二内容分词;之后,取第一内容分词和第二内容分词共同出现的词作为标的内容提取关键词;并对内容提取关键词进行排序,将排序后的内容提取关键词作为待转码的招标内容特征项。通过上述步骤能够屏蔽掉由于网站不同对内容特征造成的干扰。
93.作为示例性的实施例,步骤s8根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码的步骤中,包括步骤s81

s82。
94.步骤s81:将每一个招投标数据对应的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征按照第一预设拼接顺序进行拼接,得到第一拼接特征。
95.本实施例中,第一预设拼接顺序可以是标题特征w1、内容特征w2、编号特征w3、单位名称特征w4和阶段类型特征w5;当然,在其它实施例中,第一预设拼接顺序还可以是其它顺序,如编号特征w3、单位名称特征w4、标题特征w1、内容特征w2和阶段类型特征w5。本实施例中对此仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
96.本实施例中,将上述所有特征以字符串的形式拼接,不用转向量,第一拼接特征为result 1=w1 w2 w3 w4 w5。
97.步骤s82:将第一拼接特征进行编码加密,得到每一个招投标数据的数据编码。
98.本实施例中,编码加密方式是md5编码;当然,在其它实施例中,编码加密方式还可以是其它现有技术中的加密方法,如sha256加密,hmac加密。本实施例中对此仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
99.本实施例中,第一拼接特征为result 1=w1 w2 w3 w4 w5;对第一拼接特征编码后得到的数据编码为:unique_code=md5(result 1)。
100.上述步骤,将每一个招投标数据对应的各个维度的特征进行直接拼接,无需进行向量转化,拼接后得到第一拼接特征,并对第一拼接特征进行编码得到数据编码;针对招投标这种特定的数据形式开发出一套编码方式,将数据编码以标签的形式伴随数据入库,后续便可根据数据编码进行的重复数据的判断,不通过计算的方式便可确定重复数据,提高了数据去重效率。
101.作为示例性的实施例,步骤s9根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码的步骤中,包括步骤s91

s92。
102.步骤s91:将每一个招投标数据对应的标题特征、内容特征、编号特征和单位名称特征按照第二预设拼接顺序进行拼接,得到第二拼接特征。
103.本实施例中,第二预设拼接顺序可以是标题特征w1、内容特征w2、编号特征w3和单位名称特征w4;当然,在其它实施例中,第二预设拼接顺序还可以是其它顺序,如编号特征w3、单位名称特征w4、标题特征w1和内容特征w2。本实施例中对此仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
104.本实施例中,将上述多个特征以字符串的形式拼接,不用转向量,第二拼接特征为result 2=w1 w2 w3 w4。
105.步骤s92:将第二拼接特征进行编码加密,得到每一个招投标数据的组编码。
106.本实施例中,编码加密方式是md5编码;当然,在其它实施例中,编码加密方式还可以是其它现有技术中的加密方法,如sha256加密,hmac加密。本实施例中对此仅作示意性描述,不以此为限,在实际应用中根据需要合理设置即可。
107.本实施例中,第二拼接特征为result 2=w1 w2 w3 w4;对第二拼接特征编码后得到的组编码为:group_code=md5(result 2)。分组编码不考虑标的阶段类型特征w5,会将所有的重复内容分为一组;如果将组编码group_code和数据编码unique_code结合来使用,就可以展示出同一个标的生命周期。
108.上述步骤,将每一个招投标数据对应的多个特征进行直接拼接,无需进行向量转化,拼接后得到第二拼接特征,并对第二拼接特征进行编码得到组编码;组编码不考虑标的
阶段类型特征,将组编码以标签的形式伴随数据入库,后续便可根据组编码查看同一个标的不同阶段。
109.作为示例性的实施例,步骤s10根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码的步骤之后,还包括步骤s11

s12。
110.步骤s11:获取去重需求。
111.本实施例中,去重需求是根据客户需求确定的。具体的,去重需求可以是根据去重标记码中的数据编码进行去重;也可以是根据去重标记码中的组编码和数据编码进行去重。
112.步骤s12:根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据。
113.本实施例中,对招投标数据库的所有招投标数据都打上数据编码unique_code和组编码group_code两个编码。
114.当去重需求是根据去重标记码中的数据编码进行去重时,则数据去重时仅使用去重标记码中的数据编码,也即是仅采用数据编码对招投标数据进行去重处理。
115.当去重需求是根据去重标记码中的组编码和数据编码进行去重时,则数据去重时使用去重标记码中的组编码和数据编码,先使用组编码group_code进行分组,找到属于同一标的数据,将同一个标的不同阶段分为一组;然后,在组内使用数据编码unique_code进行分组,这样一条标的生命周期就展示出来了。
116.上述步骤,根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,增加了数据处理的灵活性和多样性。
117.作为示例性的实施例,当去重需求为根据去重标记码中的数据编码进行去重时,步骤s12根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据的步骤中,包括步骤s121

s124。
118.步骤s121:按照数据编码对招投标数据进行编码排序。
119.本实施例中,相同数据编码的招投标数据便是重复数据,对每一个招投标数据的数据编码进行排序,找到数据编码相同的招投标数据,以便对具有相同数据编码的招投标数据进行去重。
120.步骤s122:获取每一个招投标数据的采集入库时间。
121.本实施例中,招投标数据在采集入库的时候,需要记录下每一个招投标数据的采集入库时间,后续根据入库的先后时间去除相同的招投标数据。
122.步骤s123:按照采集入库时间对具有相同数据编码的招投标数据进行时间排序。
123.本实施例中,将具有相同数据编码的招投标数据按照采集入库时间进行排序,具体的时间排序方式可以是时间由早到晚的顺序,也可以是时间由晚到早的顺序,根据实际需要合理设置即可。
124.步骤s124:将具有相同数据编码的招投标数据中采集入库时间早的招投标数据保留,并将采集入库时间早的招投标数据作为去重后招投标数据。
125.本实施例中,在多个具有相同数据编码的招投标数据中,将采集入库时间最早的招投标数据保留,去除其它重复的数据,这个保留下来的采集入库时间最早的招投标数据便是去重后招投标数据。
126.上述步骤,按照采集入库时间对具有相同数据编码的招投标数据进行数据去重,将采集入库时间最早的招投标数据作为去重后招投标数据,实现了重复数据的去除。
127.下面以一个具体的示例进行详细说明,如图2所示,图2为文本输入后的操作分解并转码入库的流程。
128.先确定多个维度判断标的重复,在标的内容中,有多个特征可以判断出两个标是否为同一个内容,这里考虑到标的特性,选用招标编号作为其中一个维度的判断条件,因为每个标的招标编码是唯一的。
129.第二维度从文本内容上选择,首先是标题,通过对招投标数据的分析,重复的情况分为两种,其一是完全相同,其二是同一个标的不同阶段,例如:“某公司模拟训练大楼强弱电改造项目招标公告”和“某公司模拟训练大楼强弱电改造项目中标公告”,这两条数据都是同一个标的内容,招标编号及其它相关内容均为相同,但是这样的数据在业务处理时不能算作重复,这就涉及到另一个标签码
‑‑‑‑‑
group_code,group_code是用来将同一标的不同生命周期,以便在后续的数据展示中提供更多的价值。继续回到第二个维度的内容选择,考虑到标的阶段特征,在处理标题时,将阶段相关的关键词去除,使用的是前期经过数据统计出的阶段类别字典表(从大类上分为招标公告和中标结果,每一类又分为磋商,竞谈,询价,更正,成交,流标等20多种类型)去除掉阶段关键词后,还需要从标题中提取关键词,不能直接将标题作为整体直接转码。当标的信息属于不同网站采集时增加或删减一个或多个词展现出的内容,实际上也是相同的标。而且在实际数据库中,这样的重复信息占比略大,所以针对标题的第二个处理就是提取关键词,利用tfidf的方式从标题中提取出三个关键词,作为待转码的标题特征项,以此屏蔽掉由于网站不同造成的词噪音。
130.第三个维度从标的正文内容考虑,同样是由于采集的原因,尽管正文内容描述的是同一个标的内容,但是文章整体并不是完全一样,例如排版格式不同或者标头结尾不同等。并且招投标数据内容的长度一般都在500个字左右,所以考虑用关键词的方式来代表当前标的内容。
131.第四个维度就是使用项目类型,如果项目类型相同,则可辅助判断是否为同一个标。
132.第五个维度就是招标单位,使用提取出的招标单位作为判断依据,一般情况下相同的标的内容招标单位为同一家。
133.以上是确定五个维度来判断标的重复与否。
134.具体地,标题按照标的阶段类型词典去掉其中的阶段类型词,然后使用tfidf的方式提取出三个关键词,并以列表的方式作为输出形式,作为w1;标的内容分词,去停用词,分词时加入招投标相关字典(由数据统计得来),以便分出的词都具有强招投标特征,计算词频,取词频数前5位的关键词,再按照词长度进行排序,取前10,最后取词频top5和词长度top10共同出现的词作为标的内容关键词放入列表作为输出,以w2表示;招标编号作为w3;招标单位作为w4;最后将项目类型作为w5输出,项目类型是在对标题做项目类型关键词去除的时候保留下来对应类型字典表映射得出。
135.将上述所有特征以字符串的形式拼接,不用转向量,result 1=w1 w2 w3 w4 w5,unique_code=md5(result 1)。类似地,result 2=w1 w2 w3 w4,group_code=md5(result 2)。也就是说分组码不考虑标的阶段类型w5,会将所有的重复内容分为一组。
136.对数据库的所有数据都打上unique_code和group_code两个码,如果仅按unique_code做分组条件,会将库里unique_code相同的数据分为一组,此时按时间选取其中一条即可完成去重。
137.如果结合group_code来使用,就可以展示出同一个标的生命周期,先使用group_code进行分组,使用group_code后会将当前标的不同阶段分为一组,此时在组内使用unique_code进行分组就会展示出一条标的的生命周期。
138.在本实施例中还提供了一种数据去重标记码生成系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
139.本实施例还提供一种数据去重标记码生成系统,如图3所示,包括:
140.第一获取模块1,用于获取招投标数据集,所述招投标数据集中包括多个采集到的招投标数据;
141.第一处理模块2,用于根据招投标数据集得到每一个招投标数据的招标标题、招标内容、招标编号、招标单位名称和招标阶段类型;
142.第二处理模块3,用于根据每一个招投标数据的招标标题得到每一个招投标数据对应的标题特征;
143.第三处理模块4,用于根据每一个招投标数据的招标内容得到每一个招投标数据对应的内容特征;
144.第四处理模块5,用于根据每一个招投标数据的招标编号得到每一个招投标数据对应的编号特征;
145.第五处理模块6,用于根据每一个招投标数据的招标单位名称得到每一个招投标数据对应的单位名称特征;
146.第六处理模块7,用于根据每一个招投标数据的招标阶段类型得到每一个招投标数据对应的阶段类型特征;
147.第七处理模块8,用于根据每一个招投标数据的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征得到每一个招投标数据对应的数据编码;
148.第八处理模块9,用于根据每一个招投标数据的标题特征、内容特征、编号特征和单位名称特征得到每一个招投标数据对应的组编码;
149.第九处理模块10,用于根据每一个招投标数据的数据编码和组编码得到每一个招投标数据对应的去重标记码。
150.作为示例性的实施例,所述第二处理模块包括:第一获取单元,用于获取预设阶段类别字典;第一处理单元,用于根据预设阶段类别字典分别去除每一个招投标数据的招标标题中的阶段类型词;第二处理单元,用于对去除阶段类型词的招标标题进行分词,得到每一个招投标数据对应的标题分词;第三处理单元,用于分别计算每一个招投标数据对应的标题分词中每一分词的tfidf值;第四处理单元,用于将tfidf值高的第一预设数量的分词作为标题提取关键词;第五处理单元,用于将标题提取关键词按照第一预设顺序进行排序,得到标题排序关键词,并将标题排序关键词作为每一个招投标数据对应的标题特征。
151.作为示例性的实施例,所述第三处理模块包括:第六处理单元,用于分别对每一个
招投标数据的招标内容进行分词,得到内容分词;第七处理单元,用于根据预设停用词字典去除内容分词中的停用词;第八处理单元,用于对去除停用词后的内容分词进行词频统计,将词频高的第二预设数量的内容分词作为第一内容关键词;第九处理单元,用于对去除停用词后的内容分词进行词长度排序,将词长度高的第三预设数量的内容分词作为第二内容关键词;第十处理单元,用于将第一内容关键词和第二内容关键词中共同出现的关键词作为内容提取关键词;第十一处理单元,用于将内容提取关键词按照第二预设顺序进行排序,得到内容排序关键词,并将内容排序关键词作为每一个招投标数据对应的内容特征。
152.作为示例性的实施例,所述第七处理模块包括:第十二处理单元,用于将每一个招投标数据对应的标题特征、内容特征、编号特征、单位名称特征和阶段类型特征按照第一预设拼接顺序进行拼接,得到第一拼接特征;第十三处理单元,用于将第一拼接特征进行编码加密,得到每一个招投标数据的数据编码。
153.作为示例性的实施例,所述第八处理模块包括:第十四处理单元,用于将每一个招投标数据对应的标题特征、内容特征、编号特征和单位名称特征按照第二预设拼接顺序进行拼接,得到第二拼接特征;第十五处理单元,用于将第二拼接特征进行编码加密,得到每一个招投标数据的组编码。
154.作为示例性的实施例,还包括:第二获取模块,用于获取去重需求;第十处理模块,用于根据去重需求和每一个招投标数据对应的去重标记码对招投标数据进行去重处理,得到去重后的招投标数据。
155.作为示例性的实施例,当去重需求为根据去重标记码中的数据编码进行去重时,所述第十处理模块包括:第十六处理单元,用于按照数据编码对招投标数据进行编码排序;第二获取单元,用于获取每一个招投标数据的采集入库时间;第十七处理单元,用于按照采集入库时间对具有相同数据编码的招投标数据进行时间排序;第十八处理单元,用于将具有相同数据编码的招投标数据中采集入库时间早的招投标数据保留,并将采集入库时间早的招投标数据作为去重后招投标数据。
156.本实施例中的数据去重标记码生成系统是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
157.上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
158.本发明实施例还提供了一种电子设备,如图4所示,该电子设备包括一个或多个处理器71以及存储器72,图4中以一个处理器71为例。
159.该控制器还可以包括:输入装置73和输出装置74。
160.处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接,图4中以通过总线连接为例。
161.处理器71可以为中央处理器(central processing unit,cpu)。处理器71还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。
162.存储器72作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本技术实施例中的数据去重标记码生成方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的数据去重标记码生成方法。
163.存储器72可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器72可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器72可选包括相对于处理器71远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
164.输入装置73可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。
165.一个或者多个模块存储在存储器72中,当被一个或者多个处理器71执行时,执行如图1所示的方法。
166.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指示相关的硬件来完成,被执行的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述数据去重标记码生成方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read

only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid

state drive,ssd)等;存储介质还可以包括上述种类的存储器的组合。
167.虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献