一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种标签生成方法、装置、计算机设备及存储介质与流程

2022-03-26 12:29:56 来源:中国专利 TAG:


1.本发明涉及计算机软件技术领域,特别涉及一种标签生成方法、装置、计算机设备及存储介质。


背景技术:

2.现有标签生成技术,通常是基于人工手动在数据库字段级进行标签定义、整理后,配置到系统后台中,并通过代码对应生成每个标签的逻辑,但这种方式存在耗费大量人工的问题。另外,基于传统的关系型数据库进行标签的提取和计算,但是在数据量较大时,存在数据存储空间不足、运算效率慢等缺点。同时,在进行标签管理时,需要手动维护每个标签的元数据,这便会导致标签数量过多时可能会存在遗漏、错误等情况。


技术实现要素:

3.本发明实施例提供了一种标签生成方法、装置、计算机设备及存储介质,旨在提高标签生成效率和标签管理效果。
4.第一方面,本发明实施例提供了一种标签生成方法,包括:
5.获取包含不同类别标签的历史数据记录,并基于历史数据记录中的标签构建一标签元数据表;
6.将所述历史数据记录中的标签汇总归纳为所述标签元数据表中的标签配置信息;
7.基于所述标签配置信息对所述标签元数据表中的各标签进行提取,并根据提取得到的标签构建一原始标签数据表;
8.通过预设的标签映射表对所述原始标签数据表进行标签清洗处理,并将标签清洗后的原始标签数据表设置为最终的标签数据表。
9.第二方面,本发明实施例提供了一种标签生成装置,包括:
10.数据获取单元,用于获取包含不同类别标签的历史数据记录,并基于历史数据记录中的标签构建一标签元数据表;
11.汇总归纳单元,用于将所述历史数据记录中的标签汇总归纳为所述标签元数据表中的标签配置信息;
12.标签提取单元,用于基于所述标签配置信息对所述标签元数据表中的各标签进行提取,并根据提取得到的标签构建一原始标签数据表;
13.标签清洗单元,用于通过预设的标签映射表对所述原始标签数据表进行标签清洗处理,并将标签清洗后的原始标签数据表设置为最终的标签数据表。
14.第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的标签生成方法。
15.第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所
述的标签生成方法。
16.本发明实施例提供了一种标签生成方法、装置、计算机设备及存储介质,该方法包括:获取包含不同类别标签的历史数据记录,并基于历史数据记录中的标签构建一标签元数据表;将所述历史数据记录中的标签汇总归纳为所述标签元数据表中的标签配置信息;基于所述标签配置信息对所述标签元数据表中的各标签进行提取,并根据提取得到的标签构建一原始标签数据表;通过预设的标签映射表对所述原始标签数据表进行标签清洗处理,并将标签清洗后的原始标签数据表设置为最终的标签数据表。本发明实施例通过将历史数据记录中的标签归纳总结为标签配置信息,并以此构建原始标签数据表,然后结合标签映射表对所述原始标签数据表进行清洗等处理,从而得到最终的标签数据表,如此可以提高标签生成效率和标签管理效果。
附图说明
17.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本发明实施例提供的一种标签生成方法的流程示意图;
19.图2为本发明实施例提供的一种标签生成装置的示意性框图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
22.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
23.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
24.下面请参见图1,图1为本发明实施例提供的一种标签生成方法的流程示意图,具体包括:步骤s101~s104。
25.s101、获取包含不同类别标签的历史数据记录,并基于历史数据记录中的标签构建一标签元数据表;
26.s102、将所述历史数据记录中的标签汇总归纳为所述标签元数据表中的标签配置信息;
27.s103、基于所述标签配置信息对所述标签元数据表中的各标签进行提取,并根据提取得到的标签构建一原始标签数据表;
28.s104、通过预设的标签映射表对所述原始标签数据表进行标签清洗处理,并将标签清洗后的原始标签数据表设置为最终的标签数据表。
29.本实施例中,通过将历史数据记录中的标签归纳总结为标签配置信息,并以此构建原始标签数据表,然后结合标签映射表对所述原始标签数据表进行清洗等处理,从而得到最终的标签数据表,如此可以提高标签生成效率和标签管理效果。
30.另外,本实施例还通过自定义标签的方式,即对标签进行归纳总结为标签配置信息,以此涵盖了标签类型无法定义的复杂标签生成。并且在生成过程中,可以通过sql语句实现复杂逻辑的标签的生成。
31.在一实施例中,所述步骤s102包括:
32.当所述历史数据记录中的标签对应数据值为多个时,则将所述标签归纳为一列多标签;
33.当所述历史数据记录中的标签对应数据值为一个时,则将所述标签归纳为一列单标签;
34.当所述历史数据记录中的标签对应有标识编码时,则将所述标签归纳为独热编码标签;
35.当所述历史数据记录中的标签为表头名时,则将所述标签归纳为表标签;
36.当所述历史数据记录中的标签对应数据值通过计算得到时,则将所述标签归纳为自定义标签;
37.将所述一列多标签、一列单标签、独热编码标签、表标签和自定义标签设置为所述标签配置信息。
38.本实施例中根据标签在历史数据记录中所对应的数据值或者标识等,将标签分别归纳为一列多标签、一列单标签、独热编码标签、表标签和自定义标签,并进一步的,将一列多标签、一列单标签、独热编码标签、表标签和自定义标签汇总为所述标签配置信息。
39.举例来说,若所述历史数据记录中的一列为:

企业类型’,其中数据值为

五百强企业、上市公司’,可以看出,两个标签(即五百强企业、上市公司)被分隔符

、’隔开了,即通过在配置分隔符,可以自动切分标签,因此可以将此类型标签定义为

一列多标签’;若所述历史数据记录中的一列为

绿色通道企业’,有绿色通道企业资质的,会在对应字段存储一个

绿色通道’值,因此可以将此类型标签定义为

一列单标签’;若所述历史数据记录中的一列名为

是否中国500强’,列中的存储值为0或1,即如果对应企业为中国500强则标识为1,否则为0,那么可以将这种情况下的标签定义为

独热编码标签’;若所述历史数据记录中的表名为

绿色通道企业名单’,那么可以将这种情况下的标签定义为

表本身为标签’,即表标签;而对于标签数据需要通过计算得到的标签,便可以将其定义为

自定义标签’,同时通过配置标签计算逻辑(sql)来定义具体的计算规则。
40.在一实施例中,所述步骤s103包括:
41.基于所述一列多标签、一列单标签、独热编码标签、表标签和自定义标签,对所述标签元数据表中的标签进行批次提取;
42.将批次提取的标签按顺序依次设置,以此构建所述原始标签数据表。
43.本实施例中,在将标签归纳为不同类型后,能够使所述标签元数据表中的标签均对应有各自的标签配置信息,即所属标签类型等。然后依据该标签配置信息对所述标签元
数据表中的标签按照类型分批次提取,并且按照提取的顺序对标签按区域设置或者按顺序排列,并将由此形成的表单设置为所述原始标签数据表。当然,在所述原始标签数据表中,不同类型标签之间的顺序可以自由设置,例如一列标签位于一列单标签之前,又或者独热编码标签位于自定义标签之后等等。
44.在一实施例中,所述标签生成方法还包括:
45.获取企业标准信息表,并基于所述企业标准信息表对所述原始标签数据表中的企业基本信息进行矫正、补全处理,以使所述原始标签数据表中的各标签与企业正确关联。
46.本实施例中,根据已有的企业标准信息表(即包含了真实准确的企业基本信息,例如企业名称、统一代码、注册号等等),对原始标签数据表中的企业基本信息(例如名称、统一代码、注册号)进行矫正、补全等操作,以保证所述原始标签数据表中的标签能够关联到正确的企业及企业信息。
47.在一实施例中,所述步骤s104包括:
48.基于所述标签映射表,将所述原始标签数据表中名称不同、含义相同的标签映射为一个标准标签;
49.获取所述原始标签数据表中名称相同的标签,并根据所述企业标准信息表对名称相同的标签进行去重处理。
50.本实施例中,所述的标签映射表中配置有对于来源于不同数据表中的标签应如何进行清洗的信息,以及该标签的标准名称。例如,一家企业在两个不同数据表中被分别标记为

中国500强’以及

五百强’,这两个标签名称不同,但是本质上的含义是一致的,因此通过在所述标签映射表中将这两个标签映射到一个标准的

中国五百强’标签上,可以保证最终标签的一致性以及准确性。在一具体实施例中,根据历史数据记录中的标签以及过往标签配置经验,可以构建一标签映射体系,通过该标签映射体系可以确定是否对标签的名称进行映射以及应该映射为哪一标准名称等。
51.进一步的,在一实施例中,所述标签生成方法还包括:
52.对经过映射处理和去重处理后的标签设置有效期限;
53.对所述原始标签数据表中的失效标签和过期标签进行禁用处理。
54.本实施例中,对标签设置有效性以及有效期限,使标签仅在有效期限内可以使用,而一旦超过有效期限,则使标签失去其有效性,则转变为失效标签或者过期标签。而对于失效标签和过期标签来说,可以及时对其进行禁用处理,避免被使用后方才发现已经失效或者过期,如此可以提高使用体验度。
55.在一实施例中,所述标签生成方法还包括:
56.基于spark sql加载hive的配置文件,并获取得到hive的元数据信息;
57.通过所述hive的元数据信息将所述标签数据表存储为hive表;
58.基于spark sql对所述hive表进行相应操作。
59.本实施例中,通过使用大数据技术,基于hive(数据仓库工具)和spark(一种计算引擎)等对标签数据表进行数据存储以及处理,可以并发的处理标签计算的过程,减少数据的存储空间和提高标签生成的效率,还可以通过横向扩展硬件资源实现线性的提升。具体的,首先通过spark sql加载hive的配置文件,以获取相应的元数据信息,并以此将所述标签数据表存储为hive表,然后便可以通过spark sql对所述hive表进行相应操作,例如查
询、更新等等。进一步的,通过分布式计算,可以在极短时间内,生成百万级别数据标签。通过上述步骤可以有效的保证生成的标签数据的准确性、及时性,同时仅需极少的人工干预流程,与现有标签生成技术相比,在效率方面具有极大的提升。
60.图2为本发明实施例提供的一种标签生成装置200的示意性框图,该装置200包括:
61.数据获取单元201,用于获取包含不同类别标签的历史数据记录,并基于历史数据记录中的标签构建一标签元数据表;
62.汇总归纳单元202,用于将所述历史数据记录中的标签汇总归纳为所述标签元数据表中的标签配置信息;
63.标签提取单元203,用于基于所述标签配置信息对所述标签元数据表中的各标签进行提取,并根据提取得到的标签构建一原始标签数据表;
64.标签清洗单元204,用于通过预设的标签映射表对所述原始标签数据表进行标签清洗处理,并将标签清洗后的原始标签数据表设置为最终的标签数据表。
65.在一实施例中,所述汇总归纳单元202包括:
66.第一归纳单元,用于当所述历史数据记录中的标签对应数据值为多个时,则将所述标签归纳为一列多标签;
67.第二归纳单元,用于当所述历史数据记录中的标签对应数据值为一个时,则将所述标签归纳为一列单标签;
68.第三归纳单元,用于当所述历史数据记录中的标签对应有标识编码时,则将所述标签归纳为独热编码标签;
69.第四归纳单元,用于当所述历史数据记录中的标签为表头名时,则将所述标签归纳为表标签;
70.第五归纳单元,用于当所述历史数据记录中的标签对应数据值通过计算得到时,则将所述标签归纳为自定义标签;
71.汇总单元,用于将所述一列多标签、一列单标签、独热编码标签、表标签和自定义标签设置为所述标签配置信息。
72.在一实施例中,所述标签提取单元203包括:
73.批次提取单元,用于基于所述一列多标签、一列单标签、独热编码标签、表标签和自定义标签,对所述标签元数据表中的标签进行批次提取;
74.顺序设置单元,用于将批次提取的标签按顺序依次设置,以此构建所述原始标签数据表。
75.在一实施例中,所述标签生成装置200还包括:
76.矫正及补全单元,用于获取企业标准信息表,并基于所述企业标准信息表对所述原始标签数据表中的企业基本信息进行矫正、补全处理,以使所述原始标签数据表中的各标签与企业正确关联。
77.在一实施例中,所述标签清洗单元204包括:
78.标签映射单元,用于基于所述标签映射表,将所述原始标签数据表中名称不同、含义相同的标签映射为一个标准标签;
79.标签去重单元,用于获取所述原始标签数据表中名称相同的标签,并根据所述企业标准信息表对名称相同的标签进行去重处理。
80.在一实施例中,所述标签生成装置200还包括:
81.期限设置单元,用于对经过映射处理和去重处理后的标签设置有效期限;
82.禁用单元,用于对所述原始标签数据表中的失效标签和过期标签进行禁用处理。
83.在一实施例中,所述标签生成装置200还包括:
84.文件加载单元,用于基于spark sql加载hive的配置文件,并获取得到hive的元数据信息;
85.数据存储单元,用于通过所述hive的元数据信息将所述标签数据表存储为hive表;
86.表操作单元,用于基于spark sql对所述hive表进行相应操作。
87.由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
88.本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
89.本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
90.说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
91.还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献