一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种数据表分类方法和装置与流程

2022-08-10 18:20:30 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,特别涉及人工智能技术领域,尤其涉及一种数据表分类方法和装置。


背景技术:

2.在各行各业的信息化发展的进程中,越来越多的数据以结构化表的形式存在于数据库中。由于行业内发展速度快,业务来源广泛,业务线复杂,导致数据库中的众多数据表存储混乱。相关技术中,数据管理人员手动将数据库中的数据表进行归类,人工归类的方式依赖于数据管理人员的主观经验,数据管理人员只能通过表名或数据表的业务意义对数据表类型进行粗略判断,准确率较低;而且随着数据表数量不断增加,人工判断的方式会损耗大量人力资源,分类效率较低。


技术实现要素:

3.本发明的一个目的在于提供一种数据表分类方法,能够节约人力资源,提高数据表分类的准确性和效率。本发明的另一个目的在于提供一种数据表分类装置。本发明的再一个目的在于提供一种计算机可读介质。本发明的还一个目的在于提供一种计算机设备。
4.为了达到以上目的,本发明一方面公开了一种数据表分类方法,包括:
5.根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;
6.通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果。
7.优选的,在根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型之前,还包括:
8.按照预设的标记类别对获取的库内数据表进行标记,构建样本数据表。
9.优选的,样本数据表包括样本表名和样本表内数据;
10.根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型,包括:
11.根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型;
12.根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分类模型。
13.优选的,根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型,包括:
14.对样本表名进行编码预处理,得到表名编码;
15.将设置的全连接层添加至双向编码器,得到第一更新编码器;
16.按照预先设置的第一超参数,根据表名编码,对第一更新编码器进行训练,得到第一分类模型。
17.优选的,根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分
类模型,包括:
18.对样本表内数据进行数据预处理,得到数据编码;
19.将设置的全连接层组添加至双向编码器,得到第二更新编码器,全连接层组包括多个全连接层;
20.按照预先设置的第二超参数,根据数据编码,对第二更新编码器进行训练,得到第二分类模型。
21.优选的,对样本表内数据进行数据预处理,得到数据编码,包括:
22.从样本表内数据中筛选出字段类型为字符型的样本表内数据;
23.对筛选出的样本表内数据进行编码预处理,得到数据编码。
24.优选的,在对筛选出的样本表内数据进行编码预处理,得到数据编码之前,还包括:
25.统计筛选出的样本表内数据的数据量;
26.若数据量大于设置的数量阈值,随机采样指定数量的样本表内数据。
27.优选的,通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,包括:
28.通过第一分类模型,对待分类数据表进行分类,得到第一分类结果;
29.通过第二分类模型,对待分类数据表进行分类,得到第二分类结果;
30.对第一分类结果和第二分类结果进行判别,得到分类结果。
31.优选的,对第一分类结果和第二分类结果进行判别,得到分类结果,包括:
32.若第一分类结果与第二分类结果相同,则将第一分类结果作为待分类数据表的分类结果;
33.若第一分类结果与第二分类结果不同,生成并显示二次验证消息。
34.本发明还公开了一种数据表分类装置,包括:
35.构建单元,用于根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;
36.分类单元,用于通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果
37.本发明还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
38.本发明还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
39.本发明还公开了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述方法。
40.本发明根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1为本发明实施例提供的一种数据表分类方法的流程图;
43.图2为本发明实施例提供的又一种数据表分类方法的流程图;
44.图3为本发明实施例提供的一种全连接层设计的示意图;
45.图4为本发明实施例提供的一种全连接层组设计的示意图;
46.图5为本发明实施例提供的一种数据表分类装置的结构示意图;
47.图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
48.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
49.需要说明的是,本技术公开的一种数据表分类方法和装置可用于人工智能技术领域,也可用于除人工智能技术领域之外的任意领域,本技术公开的一种数据表分类方法和装置的应用领域不做限定。
50.为了便于理解本技术提供的技术方案,下面先对本技术技术方案的相关内容进行说明。大多数行业中,由于业务划分类别众多,存在大量的数据库表。随着业务不断发展,未来数据库表的数量将不断增加,因此,通过技术手段将大量数据库表进行归类整理能够为后续业务应用奠定的良好数据基础。
51.下面以数据表分类装置作为执行主体为例,说明本发明实施例提供的数据表分类方法的实现过程。可理解的是,本发明实施例提供的数据表分类方法的执行主体包括但不限于数据表分类装置。
52.图1为本发明实施例提供的一种数据表分类方法的流程图,如图1所示,该方法包括:
53.步骤101、根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型。
54.步骤102、通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果。
55.本发明实施例提供的技术方案中,根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。
56.图2为本发明实施例提供的又一种数据表分类方法的流程图,如图2所示,该方法包括:
57.步骤201、按照预设的标记类别对获取的库内数据表进行标记,构建样本数据表。
58.本发明实施例中,各步骤由数据表分类装置执行。
59.本发明实施例中,标记类别是根据库内数据表预先设置,库内数据表是数据管理人员依据表名已经分类完成的数据表。标记类别包括但不限于风险管理、零售、对公、资管、互联网金融、金融市场、信贷、渠道服务、合作方、运营支持、客户管理和营销服务,每种标记类别对应至少一种类别标签。例如:标记类别和对应的类别标签如表1所示:
60.表1
61.序号标记类别类别标签1风险管理risk...2零售retail...3对公pub...4资管asset...5互联网金融online、fin...6金融市场mon、market...7信贷loan...8渠道服务channel...9合作方partner...10运营支持oper、support...11客户管理及营销服务cust...
62.其中,风险管理对应的类别标签包括但不限于risk;零售对应的类别标签包括但不限于retail;对公对应的类别标签包括但不限pub;资管对应的类别标签包括但不限asset;互联网金融对应的类别标签包括但不限online和fin;金融市场对应的类别标签包括但不限mon和market;信贷对应的类别标签包括但不限loan;渠道服务对应的类别标签包括但不限channel;合作方对应的类别标签包括但不限partner;运营支持对应的类别标签包括但不限oper和support;客户管理及营销服务对应的类别标签包括但不限cust。
63.步骤202、根据构建的样本数据表,对双向编码器(bert)进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型。
64.本发明实施例中,样本数据表包括样本表名和样本表内数据。
65.本发明实施例中,双向编码器(bert)是一个预训练模型,所有的开发者都可以直接继承,不需要从头开始训练,所以只需要少量的样本数据表进行微调操作,本发明实施例的样本数足以满足模型微调(fine-tuning)的需求。
66.本发明实施例中,步骤202具体包括:
67.步骤2021、根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型。
68.本发明实施例中,对样本表名进行编码预处理,得到表名编码。具体地,读取每个样本数据表的表名,将表名内容进行编码,转换成bert模型所需的编码格式,符合bert的输入标准,通过标记开始([cls])和分隔([sep])表示文本内容的开始和分隔。值得说明的是,本发明实施例对具体编码方式不作限定。
[0069]
本发明实施例中,将设置的全连接层添加至双向编码器,得到第一更新编码器。其
中,全连接层的数量为一层,全连接层输出的神经元数依据预设的标记类别的数量设置,作为一种可选方案,全连接层输出的神经元数设置为11。
[0070]
图3为本发明实施例提供的一种全连接层设计的示意图,如图3所示,在bert输出层后添加一层输出神经元数为11(n=11)的全连接层。
[0071]
本发明实施例中,按照预先设置的第一超参数,根据表名编码,对第一更新编码器进行训练,得到第一分类模型。作为一种可选方案,第一超参数设置如下:批大小(batch size)设置为16,时期(epoch)设置为3,学习率(learning rate)设置为2e-5。具体地,按照第一超参数设置bert模型内部参数,并将表名编码划分为训练集、验证集和测试集;通过训练集对bert模型进行训练;通过验证集和测试集对bert模型进行验证和测试,并对模型参数按照实际需求进一步微调。
[0072]
步骤2022、根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分类模型。
[0073]
本发明实施例中,统计筛选出的样本表内数据的数据量;若数据量大于设置的数量阈值,随机采样指定数量的样本表内数据。值得说明的是,数量阈值可以根据实际情况进行设置,本发明实施例对此不作限定。作为一种可选方案,对于数据量大于设置的数量阈值的样本表,随机采样10万条数据作为训练样本数据,5万条数据作为验证样本数据,3万条数据作为测试样本数据。对数据量较大的样本表内数据作随机采样处理,能够减小硬件压力,提高训练效率。
[0074]
本发明实施例中,对样本表内数据进行数据预处理,得到数据编码。具体地,从样本表内数据中筛选出字段类型为字符型的样本表内数据;对筛选出的样本表内数据进行编码预处理,得到数据编码。具体地,读取每个样本数据表的样本表内数据,将样本表内数据进行编码,转换成bert模型所需的编码格式,符合bert的输入标准,通过标记开始([cls])和分隔([sep])表示文本内容的开始和分隔。值得说明的是,本发明实施例对具体编码方式不作限定。
[0075]
本发明实施例中,样本表内数据包括多种字段类型,其中数值型和时间型等字段类型的样本表内数据是无法对数据表的类别进行判断的,因此,筛选出字符型的样本表内数据进行数据编码,能够减小硬件压力,提高训练效率。
[0076]
本发明实施例中,将设置的全连接层组添加至双向编码器,得到第二更新编码器,全连接层组包括多个全连接层。其中,全连接层组包括3层全连接层,作为一种可选方案,3层全连接层输出的神经元数依次设置为128、64和11。
[0077]
图4为本发明实施例提供的一种全连接层组设计的示意图,如图4所示,在bert输出层后添加3层输出神经元数依次为128(n=128)、64(n=64)以及11(n=11)的全连接层。
[0078]
本发明实施例中,按照预先设置的第二超参数,根据数据编码,对第二更新编码器进行训练,得到第二分类模型。作为一种可选方案,第二超参数设置如下:批大小(batch size)设置为32,时期(epoch)设置为4,学习率(learning rate)设置为2e-5。具体地,按照第二超参数设置bert模型内部参数;通过训练样本数据的数据编码对bert模型进行训练;通过验证样本数据和测试样本数据的数据编码对bert模型进行验证和测试,并对模型参数按照实际需求进一步微调。
[0079]
步骤203、通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得
到分类结果。
[0080]
本发明实施例中,步骤203具体包括:
[0081]
步骤2031、通过第一分类模型,对待分类数据表进行分类,得到第一分类结果。
[0082]
具体地,将待分类数据表输入第一分类模型,输出第一分类结果。
[0083]
步骤2032、通过第二分类模型,对待分类数据表进行分类,得到第二分类结果。
[0084]
具体地,将待分类数据表输入第二分类模型,输出第二分类结果。
[0085]
步骤2033、对第一分类结果和第二分类结果进行判别,得到分类结果。
[0086]
具体地,若第一分类结果与第二分类结果相同,表明第一分类结果和第二分类结果是准确的,则将第一分类结果作为待分类数据表的分类结果;若第一分类结果与第二分类结果不同,表明第一分类结果和第二分类结果是不准确的,需要人工介入二次验证,生成并显示二次验证消息。
[0087]
值得说明的是,由于第一分类结果和第二分类结果相同,也可将第二分类结果作为待分类数据表的分类结果。
[0088]
进一步地,若第一分类结果与第二分类结果不同,生成并显示二次验证消息,二次验证消息可以显示在计算机界面上,也可以推送到数据管理人员的终端界面上,以通知数据管理人员人工介入进行二次验证,通过人工查看数据表对机器分类结果进行调整,提高分类准确率。
[0089]
本发明实施例中,能够对大量的数据表进行有效并且智能的管理,提升业务系统的层次性。对数据管理人员而言,能够更加快捷高效的进行数据探索工作;对于业务人员而言,能够对整个数据体系有了更加清晰的认知;能够提高数据表的可管理性,并提高数据表的分类效率。
[0090]
本发明实施例提供的数据表分类方法的技术方案中,根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。
[0091]
图5为本发明实施例提供的一种数据表分类装置的结构示意图,该装置用于执行上述数据表分类方法,如图5所示,该装置包括:构建单元11和分类单元12。
[0092]
构建单元11用于根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型。
[0093]
分类单元12用于通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果。
[0094]
本发明实施例中,该装置还包括:标记单元13。
[0095]
标记单元13用于按照预设的标记类别对获取的库内数据表进行标记,构建样本数据表。
[0096]
本发明实施例中,样本数据表包括样本表名和样本表内数据;构建单元11具体用于根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型;根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分类模型。
[0097]
本发明实施例中,构建单元11具体用于对样本表名进行编码预处理,得到表名编码;将设置的全连接层添加至双向编码器,得到第一更新编码器;按照预先设置的第一超参
数,根据表名编码,对第一更新编码器进行训练,得到第一分类模型。
[0098]
本发明实施例中,构建单元11具体用于对样本表内数据进行数据预处理,得到数据编码;将设置的全连接层组添加至双向编码器,得到第二更新编码器,全连接层组包括多个全连接层;按照预先设置的第二超参数,根据数据编码,对第二更新编码器进行训练,得到第二分类模型。
[0099]
本发明实施例中,构建单元11具体用于从样本表内数据中筛选出字段类型为字符型的样本表内数据;对筛选出的样本表内数据进行编码预处理,得到数据编码。
[0100]
本发明实施例中,该装置还包括:统计单元14和采样单元15。
[0101]
统计单元14用于统计筛选出的样本表内数据的数据量。
[0102]
采样单元15用于若数据量大于设置的数量阈值,随机采样指定数量的样本表内数据。
[0103]
本发明实施例中,分类单元12具体用于通过第一分类模型,对待分类数据表进行分类,得到第一分类结果;通过第二分类模型,对待分类数据表进行分类,得到第二分类结果;对第一分类结果和第二分类结果进行判别,得到分类结果。
[0104]
本发明实施例中,分类单元12具体用于若第一分类结果与第二分类结果相同,则将第一分类结果作为待分类数据表的分类结果;若第一分类结果与第二分类结果不同,生成并显示二次验证消息。
[0105]
本发明实施例的方案中,根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。
[0106]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0107]
本发明实施例提供了一种计算机设备,包括存储器和处理器,存储器用于存储包括程序指令的信息,处理器用于控制程序指令的执行,程序指令被处理器加载并执行时实现上述数据表分类方法的实施例的各步骤,具体描述可参见上述数据表分类方法的实施例。
[0108]
下面参考图6,其示出了适于用来实现本技术实施例的计算机设备600的结构示意图。
[0109]
如图6所示,计算机设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram))603中的程序而执行各种适当的工作和处理。在ram603中,还存储有计算机设备600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0110]
以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶反馈器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;
以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
[0111]
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
[0112]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0113]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0114]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0115]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0116]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0117]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0118]
本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关
规定。
[0119]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0120]
本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0121]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0122]
以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献