一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于字符匹配的数据分类方法、装置、设备以及存储介质与流程

2021-11-09 22:40:00 来源:中国专利 TAG:


1.本发明涉及数据建模技术领域,尤其涉及一种基于字符匹配的数据分类方法、装置、计算机设备以及存储介质。


背景技术:

2.随着信息化社会的到来,信息技术已逐渐渗透在人类的日常生活中,为人类的日常生活带来了极大的便利,如,当前的通信技术、人工智能技术、互联网技术、物联网技术等信息技术均为人类创造了更好的生活条件。在信息技术被广泛应用的同时,随之而来的是大量数据的产生,这些数据经过大数据技术处理之后,即能够为用户提供各种数据服务。而在大数据技术中,对源数据进行数据建模是其中的关键一环。在实际应用中,源数据通常较为散乱(如,数据类型不统一、数据内容缺乏统一的标准等),若将这些源数据直接用于提供数据服务,显然是无法实现对数据的高效利用,无法提供高质量的数据服务的。所以,在利用大数据技术为用户提供技术服务之前,通常需要对源数据进行数据建模。
3.数据建模是一项比较复杂的任务,通常不同的行业应用会有不同的建模需求,如,在某些行业应用中,进行数据建模时通常需要将业务数据分类至数据模型的各个数据分类中。在对业务数据进行分类的过程中,为了将业务数据准确地分类至合适的数据分类中,往往需要对业务数据进行较为复杂的分析(如,对业务数据中的字符进行语义理解、对业务数据进行聚类等)。通常对业务数据的分析过程越复杂,则得到的分类结果越准确,但是,更复杂的分析过程也意味着在分析过程中需要进行大量的计算,这将会导致数据分类效率的降低。目前,现有技术中亟需一种能够较好地兼顾分类效率和分类准确性的数据分类方法。


技术实现要素:

4.本发明所要解决的技术问题在于,目前的数据分类方法未能很好地兼顾数据分类的效率和准确性。
5.为了解决上述技术问题,本发明第一方面公开了一种基于字符匹配的数据分类方法,所述方法包括:
6.获取待分类的业务数据;
7.将所述业务数据与预设的数据模型中的每个数据进行字符匹配,得到所述数据模型中与所述业务数据相匹配的匹配数据,其中,所述数据模型中预设有多个数据分类,且所述数据模型中的每个数据均已被预先划分至各个数据分类中;
8.根据所述匹配数据在所述数据模型中对应的目标数据分类,将所述业务数据分类至所述数据模型中的所述目标数据分类中;
9.其中,所述匹配数据为相同数据或者近似数据,所述相同数据指所述数据模型中与所述业务数据的字符完全一致的数据,所述近似数据指所述数据模型中与所述业务数据的字符未完全一致,且包含所述业务数据中所有字符的数据。
10.本发明第二方面公开了一种基于字符匹配的数据分类装置,所述装置包括:
11.获取模块,用于获取待分类的业务数据;
12.匹配模块,用于将所述业务数据与预设的数据模型中的每个数据进行字符匹配,得到所述数据模型中与所述业务数据相匹配的匹配数据,其中,所述数据模型中预设有多个数据分类,且所述数据模型中的每个数据均已被预先划分至各个数据分类中;
13.分类模块,用于根据所述匹配数据在所述数据模型中对应的目标数据分类,将所述业务数据分类至所述数据模型中的所述目标数据分类中;
14.其中,所述匹配数据为相同数据或者近似数据,所述相同数据指所述数据模型中与所述业务数据的字符完全一致的数据,所述近似数据指所述数据模型中与所述业务数据的字符未完全一致,且包含所述业务数据中所有字符的数据。
15.本发明第三方面公开了一种计算机设备,所述计算机设备包括:
16.存储有可执行程序代码的存储器;
17.与所述存储器连接的处理器;
18.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于字符匹配的数据分类方法中的部分或全部步骤。
19.本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于字符匹配的数据分类方法中的部分或全部步骤。
20.本发明实施例中,首先获取待分类的业务数据,然后将业务数据中的字符与已存在的数据模型中的每一个数据中的字符进行匹配,得到业务数据对应的匹配数据,最后根据匹配数据在数据模型中的数据分类,将业务数据分类至数据模型的数据分类中,从而能够在进行业务数据的数据分类时,先通过字符匹配的方式从数据模型中匹配出业务数据对应的匹配数据,然后参照匹配数据在数据模型中的数据分类对待分类的业务数据进行分类,从而能够通过简单的字符匹配的方式实现对业务数据的分类,减少数据分类中进行的复杂的数据分析过程,在保证数据分类的准确性的同时,兼顾数据分类的效率。
附图说明
21.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本发明实施例公开的一种基于字符匹配的数据分类方法的流程示意图;
23.图2是本发明实施例公开的一种基于字符匹配的数据分类装置的结构示意图;
24.图3是本发明实施例公开的一种计算机设备的结构示意图;
25.图4是本发明实施例公开的一种计算机存储介质的结构示意图。
具体实施方式
26.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员
在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
28.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
29.本发明公开了一种基于字符匹配的数据分类方法、装置、计算机设备以及存储介质,首先获取待分类的业务数据,然后将业务数据中的字符与已存在的数据模型中的每一个数据中的字符进行匹配,得到业务数据对应的匹配数据,最后根据匹配数据在数据模型中的数据分类,将业务数据分类至数据模型的数据分类中,从而能够在进行业务数据的数据分类时,先通过字符匹配的方式从数据模型中匹配出业务数据对应的匹配数据,然后参照匹配数据在数据模型中的数据分类对待分类的业务数据进行分类,从而能够通过简单的字符匹配的方式实现对业务数据的分类,减少数据分类中进行的复杂的数据分析过程,在保证数据分类的准确性的同时,兼顾数据分类的效率。以下分别进行详细说明。
30.实施例一
31.请参阅图1,图1是本发明实施例公开的一种基于字符匹配的数据分类方法的流程示意图。如图1所示,该基于字符匹配的数据分类方法可以包括以下操作:
32.101、获取待分类的业务数据。
33.在上述步骤101中,待分类的业务数据可以是从互联网上爬取的相关数据或者从指定的系统中获取的数据。如,在对于某些行业应用的数据建模中,可以从中国裁判文书网、北大法宝等网站爬取案件资料作为业务数据,也可以从行业应用的内部的管理系统中获取业务数据。
34.102、将所述业务数据与预设的数据模型中的每个数据进行字符匹配,得到所述数据模型中与所述业务数据相匹配的匹配数据,其中,所述数据模型中预设有多个数据分类,且所述数据模型中的每个数据均已被预先划分至各个数据分类中,所述匹配数据为相同数据或者近似数据,所述相同数据指所述数据模型中与所述业务数据的字符完全一致的数据,所述近似数据指所述数据模型中与所述业务数据的字符未完全一致,且包含所述业务数据中所有字符的数据。
35.在上述步骤102中,一个已存在的数据模型通常包含有多个数据层,每个数据层用于存储对应级别的分类的数据。
36.优选地,本实施例可以应用于某些行业应用的数据模型中,具体可以包含三层数据层,其中,一层为一级业务分类,用于存放一级业务分类的数据,二层为二级业务分类,用于存放二级业务分类的数据,三层为三级业务分类,用于存放三级业务分类的数据。一级业务分类可以包括a、b、c、d、e、f、g、h、i等。二级业务分类是在一级业务分类下继续进行的分类,如,一级业务分类a对应的二级业务分类可以包含aa、ab、ac等19项二级业务分类。三级
业务分类是在二级业务分类下继续进行的分类,如,二级业务分类aa对应的三级业务分类可以包含aaa、aab、aac等16项三级业务分类。假设,数据a在数据建模的过程中被分类的一级业务分类为a,二级业务分类为aa,三级业务分类为 aaa,则将数据a存储数据模型的一层数据层的a分类中,二层数据层的aa 分类中,三层数据层的aaa分类中。基于数据模型对业务数据执行匹配操作的过程,可以是一个在数据模型中查找与业务数据相同的已存在的数据的过程,其可以通过字符匹配的方式或者数值匹配的方式来实现。例如,通过字符匹配的方式进行匹配操作,则可以是通过将业务数据中的字符和数据模型中已存在的数据中的字符进行匹配来实现,若数据模型中已存在的数据中的字符和业务数据中的字符完全一致,则确定业务数据在数据模型中存在匹配的相同数据,若数据模型中已存在的数据中的字符包含业务数据中所有的字符,且数据模型中已存在的数据中的字符相对于业务数据中所有的字符还有多余的字符,则确定业务数据在数据模型中存在匹配的近似数据,例如,数据模型中已存在的数据a为字段名“提出xx建议部门类型_代码”,若业务数据也为字段名“提出xx建议部门类型_代码”,则业务数据与数据a的字符完全一致,则可以确定业务数据在数据模型中存在匹配的相同数据,若业务数据为字段名“提出xx建议部门类型”,则数据a包含业务数据,且数据a相对于业务数据还存在多余的字符“_代码”,则可以确定业务数据在数据模型中存在匹配的近似数据,若业务数据为字段名“提出xx建议部门类型_名称”,则数据a未能包含业务数据中所有的字符,则可以确定业务数据在数据模型中不存在匹配数据。
37.103、根据所述匹配数据在所述数据模型中对应的目标数据分类,将所述业务数据分类至所述数据模型中的所述目标数据分类中。
38.可选地,所述根据所述匹配数据在所述数据模型中对应的目标数据分类,将所述业务数据分类至所述数据模型中的所述目标数据分类中,包括:
39.当所述匹配数据为所述相同数据时,将所述相同数据在所述数据模型的数据分类确定为所述目标数据分类,并将所述业务数据分类至所述目标数据分类中;
40.当所述匹配数据为所述近似数据时,按照预设的查找方式在所述数据模型中查找与所述业务数据对应的相似数据,基于所述相似数据在所述数据模型的数据分类确定所述目标数据分类,并将所述业务数据分类至所述目标数据分类中。
41.在上述步骤103中,继续以xx行业应用为例,假设,数据a为字段名“提出xx建议部门类型_代码”,若业务数据也为字段名“提出xx建议部门类型_ 代码”,则可以确定出业务数据与数据模型中的数据a匹配(也即与业务数据匹配的相同数据为数据a),将业务数据分类至与数据a相同的分类(即一级业务分类为a,二级业务分类为aa,三级业务分类为aaa),即可以完成业务数据在数据模型中的分类,实现对业务数据的分类。若业务数据为字段名“提出xx 建议部门类型_名称”,而字段名“提出xx建议部门类型_名称”并不存在数据模型中,所以可以将业务数据删除,不添加至数据模型中。若业务数据为字段名“提出xx建议部门类型”,业务数据与数据a并不完全相同,但是部分相似,即数据a为与业务数据匹配的近似数据,此时,则可以从数据模型中查找与业务数据对应的相似数据。假设,查找到的业务数据的相似数据包括字段名“提出xx 建议部门类型_名称”和字段名“提出xx建议部门类型_代码”,则可以将业务数据和相似数据均推送至预设的终端(即相似处理操作),由人工根据业务数据和相似数据进行业务数据的分类,实现对业务数据的建模。如,操作人员在接收到业务数据和相似数据之后,对业务数据进行了检查,确认业务数据与字段名“提出xx建
议部门类型_代码”更为匹配,则可以将业务数据分类至与字段名“提出 xx建议部门类型_代码”相同的分类,实现对业务数据的分类。
42.可见,实施图1所描述的基于字符匹配的数据分类方法,首先获取待分类的业务数据,然后将业务数据中的字符与已存在的数据模型中的每一个数据中的字符进行匹配,得到业务数据对应的匹配数据,最后根据匹配数据在数据模型中的数据分类,将业务数据分类至数据模型的数据分类中,从而能够在进行业务数据的数据分类时,先通过字符匹配的方式从数据模型中匹配出业务数据对应的匹配数据,然后参照匹配数据在数据模型中的数据分类对待分类的业务数据进行分类,从而能够通过简单的字符匹配的方式实现对业务数据的分类,减少数据分类中进行的复杂的数据分析过程,在保证数据分类的准确性的同时,兼顾数据分类的效率。
43.在一个可选的实施例中,所述按照预设的查找方式在所述数据模型中查找与所述业务数据对应的相似数据,包括:
44.将所述业务数据和所述数据模型中的数据分别映射为数据向量空间中的数据向量;
45.基于所述业务数据和所述数据模型中的数据分别对应的数据向量,从所述数据模型的数据中筛选出与所述业务数据对应的相似数据。
46.在该可选的实施例中,业务数据和数据模型中的数据的形式通常无法直接进行比较,所以可以将业务数据和数据模型中的数据映射为数据向量空间中的数据向量,从而能够实现业务数据和数据模型中的数据的比较,从而能够从数据模型的数据中筛选出相似数据。如,数据“提出xx建议部门”映射的数据向量为(3,2),数据“提出xx建议部门类型_名称”、“提出xx建议部门代码”和“提出xx建议部门类型_代码”映射的数据向量分别为(3,2.1)、(3,2.2)、(3,2.22)。其中,可以通过词嵌入word embedding的方式将数据映射为数据向量空间中的数据向量。
47.可见,实施该可选的实施例,将业务数据和数据模型中的数据均映射为数据向量空间中的数据向量,从而能够基于业务数据和数据模型中的数据对应的数据向量筛选出业务数据对应的相似数据。
48.在一个可选的实施例中,所述基于所述业务数据和所述数据模型中的数据分别对应的数据向量,从所述数据模型的数据中筛选出与所述业务数据对应的相似数据,包括:
49.根据历史半径确定出当前半径,其中,所述历史半径是上一次筛选相似数据的过程中所确定出的半径,所述当前半径大于所述历史半径;
50.根据业务数据向量和所述当前半径确定出数据向量范围,其中,所述业务数据向量是所述业务数据在所述数据向量空间中所对应的向量,所述数据向量范围是在所述数据向量空间中,以所述业务数据向量为中心,以所述当前半径为半径的圆形范围;
51.判断所述数据向量范围内的数据向量的数量是否大于历史数据向量范围内的数据向量的数量,其中,所述历史数据向量范围是在所述数据向量空间中,以所述业务数据向量为中心,以所述历史半径为半径的圆形范围;
52.当所述数据向量范围内的数据向量的数量未大于所述历史数据向量范围内的数据向量的数量时,将所述数据向量范围内的数据向量在所述数据模型中所对应的数据确定为与所述业务数据对应的相似数据。
53.在该可选的实施例中,在将业务数据和数据模型中的数据映射为数据向量空间中的数据向量之后,即可以通过以下过程从数据模型中的数据筛选出相似数据:首先可以预设一个初始的半径,然后不断地增加半径,并在每次半径增加时,判断该次半径对应的数据向量范围内的数据向量的数量是否大于上一次半径所对应的数据向量范围(即历史数据向量范围)内的数据向量的数量,也即判断该次半径对应的数据向量范围内的数据向量相对于上一次半径所对应的数据向量范围内的数据向量是否有新增加的数据向量,若该次半径对应的数据向量范围内的数据向量的数量未大于上一次半径所对应的数据向量范围内的数据向量的数量(即该次半径对应的数据向量范围内的数据向量相对于上一次半径所对应的数据向量范围内的数据向量没有新增加的数据向量),即可以将该次半径对应的数据向量范围内的数据向量所对应的数据确定为业务数据的相似数据,若该次半径对应的数据向量范围内的数据向量的数量大于上一次半径所对应的数据向量范围内的数据向量的数量(即该次半径对应的数据向量范围内的数据向量相对于上一次半径所对应的数据向量范围内的数据向量有新增加的数据向量),即继续增加半径,进入下一轮筛选,这样即能够实现从数据模型的数据中筛选出业务数据对应的相似数据。其中,数据向量之间的距离的计算可以通过计算数据向量之间的欧式距离的方式来实现。
54.可见,实施该可选的实施例,通过不断地增加数据向量范围的半径,并在每次半径增加时,判断该次半径对应的数据向量范围内的数据向量的数量是否大于上一次半径所对应的数据向量范围内的数据向量的数量,若未大于,则将该次半径对应的数据向量范围内的数据向量所对应的数据确定为业务数据的相似数据,从而能够实现基于业务数据和数据模型中的数据对应的数据向量从数据模型的数据中筛选出业务数据对应的相似数据。
55.在一个可选的实施例中,所述根据历史半径确定出当前半径,包括:
56.通过以下公式以指数增长的方式,根据历史半径计算出当前半径:
57.y=log
a x;
58.z=a
y 1

59.其中,y为所述历史半径对应的指数值,a为预设的底数,x为所述历史半径,z为所述当前半径。
60.在该可选的实施例中,数据向量范围的半径可以是以指数增长的形式不断地增长的,从而可以利用指数增长的特性快速地完成相似数据的筛选。如,第一次半径的取值为2、第二次半径的取值为4、第三次半径的取值为8。可选地,半径的取值还可以以固定的数值逐步增长,如,第一次半径的取值为2、第二次半径的取值为4、第三次半径的取值为6,每次半径都增加2。
61.可见,实施该可选的实施例,以指数增长的方式基于历史半径计算当前半径,从而能够利用指数增长的特性快速地完成相似数据的筛选。
62.在一个可选的实施例中,所述获取待分类的业务数据之后,所述方法还包括:
63.对所述业务数据执行预设的数据标准化处理,以完成对所述业务数据的标准化。
64.在该可选的实施例中,在实际应用中,获取到的业务数据的数据形式通常各种各样,缺乏统一标准,不利于按照统一标准服务于不同的应用系统,容易降低数据使用效率。所以,在对业务数据进行数据建模时,还可以对业务数据进行数据标准化处理(具体稍后描述),从而能够使业务数据按照统一标准服务于不同的应用系统,提高数据使用效率。
65.可见,实施该可选的实施例,在对业务数据进行数据建模时,还对业务数据进行数据标准化处理,从而能够使业务数据按照统一标准服务于不同的应用系统,提高业务数据的使用效率。
66.在一个可选的实施例中,所述对所述业务数据执行预设的数据标准化处理,包括:
67.判断所述业务数据中是否存在表结构中文字段名称;
68.当判断出所述业务数据中存在所述表结构中文字段名称时,按照预设的中英文转换方式,将所述业务数据中的表结构中文字段名称转换为表结构英文字段名称;
69.判断所述业务数据的表结构英文字段名称是否在预设的特殊转换表格中,其中,所述特殊转换表格中记录有多个目标表结构英文字段名称和每个所述目标表结构英文字段名称所对应的特殊转换方式,所述目标表结构英文字段名称是指需要执行特殊转换的表结构英文字段名称;
70.当判断出所述业务数据的表结构英文字段名称在所述特殊转换表格中时,按照目标特殊转换方式,将所述业务数据的表结构英文字段名称转换为特殊表结构英文字段名称,所述目标特殊转换方式是指所述业务数据的表结构英文字段名称在所述特殊转换表格中所对应的特殊转换方式。
71.在该可选的实施例中,可以通过开源python包pypinyin将业务数据中的表结构中文字段名称转换为表结构英文字段名称。具体地,可以将表结构中文字段名称中每个中文的拼音首字母作为该中文对应的英文以形成表结构中文字段名称对应的表结构英文字段名称(即中英文转换方式),如,表结构中文字段名称“提出xx建议部门类型_代码”转换成的表结构英文字段名称为“tcjcjybmlx_dm”。对于部分特有的表结构英文字段名称,还可以继续对其进行特殊的自定义的转换。特殊转换表格的内容可以如下表所示:
[0072][0073][0074]
从特殊转换表格的内容中可以看出表结构中文字段名称“中止”转换成表结构英文字段名称“zz”之后,表结构英文字段名称“zz”还需要转换成特殊表结构英文字段名称“zzm”。
[0075]
可见,实施该可选实施例,将业务数据中的表结构中文字段名称转换为表结构英文字段名称,还根据预设的特殊转换表格对表结构英文字段名称继续进行特殊转换,从而实现对业务数据的数据标准化处理,使业务数据能够按照统一标准服务于不同的应用系
统,提高业务数据的使用效率。
[0076]
在一个可选的实施例中,所述对所述业务数据执行预设的数据标准化处理,包括:
[0077]
判断所述业务数据中是否存在合并数据;
[0078]
当判断出所述业务数据中存在所述合并数据时,根据所述合并数据所对应的源数据的数据类型重新设置所述合并数据的数据类型;
[0079]
其中,所述源数据是指上游系统中的原始数据,所述合并数据是由所述源数据合并后得到的数据。
[0080]
在该可选的实施例中,一个合并数据通常由多个上游系统中的原始数据(即源数据)合并得到。若合并数据是字符类数据,则可以选择合并数据对应的所有的源数据中字符长度最大的源数据所对应的数据类型作为合并数据的数据类型。若合并数据是时间戳类数据,则可以选择合并数据对应的所有的源数据中时间精度最小的源数据所对应的数据类型作为合并数据的数据类型。如,合并数据对应的源数据包含date数据类型和timestamp数据类型,其中,timestamp数据类型的时间精度可以精确到纳秒,date数据类型的时间精度可以精确到秒,所以选择timestamp数据类型作为合并数据的数据类型。若合并数据是数字类数据,则可以选择合并数据对应的所有的源数据中数据精度最小的源数据所对应的数据类型作为合并数据的数据类型。
[0081]
可见,实施该可选的实施例,根据业务数据中的合并数据所对应的源数据的数据类型重新设置合并数据的数据类型,从而实现对业务数据的数据标准化处理,使业务数据能够按照统一标准服务于不同的应用系统,提高业务数据的使用效率。
[0082]
可选地,还可以:将所述基于字符匹配的数据分类方法的基于字符匹配的数据分类信息上传至区块链中。
[0083]
具体来说,基于字符匹配的数据分类信息是通过运行所述基于字符匹配的数据分类方法后得到的,用于记录基于字符匹配的数据分类情况,例如,业务数据的获取时间、业务数据的数据来源、数据模型中的数据分类等等。将基于字符匹配的数据分类信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该基于字符匹配的数据分类信息,以便查证所述基于字符匹配的数据分类方法的基于字符匹配的数据分类信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0084]
实施例二
[0085]
请参阅图2,图2是本发明实施例公开的一种基于字符匹配的数据分类装置的结构示意图。如图2所示,该基于字符匹配的数据分类装置可以包括:
[0086]
获取模块201,用于获取待分类的业务数据;
[0087]
匹配模块202,用于将所述业务数据与预设的数据模型中的每个数据进行字符匹配,得到所述数据模型中与所述业务数据相匹配的匹配数据,其中,所述数据模型中预设有多个数据分类,且所述数据模型中的每个数据均已被预先划分至各个数据分类中;
[0088]
分类模块203,用于根据所述匹配数据在所述数据模型中对应的目标数据分类,将
所述业务数据分类至所述数据模型中的所述目标数据分类中;
[0089]
其中,所述匹配数据为相同数据或者近似数据,所述相同数据指所述数据模型中与所述业务数据的字符完全一致的数据,所述近似数据指所述数据模型中与所述业务数据的字符未完全一致,且包含所述业务数据中所有字符的数据。
[0090]
在一个可选的实施例中,所述分类模块203根据所述匹配数据在所述数据模型中对应的目标数据分类,将所述业务数据分类至所述数据模型中的所述目标数据分类中的具体方式为:
[0091]
当所述匹配数据为所述相同数据时,将所述相同数据在所述数据模型的数据分类确定为所述目标数据分类,并将所述业务数据分类至所述目标数据分类中;
[0092]
当所述匹配数据为所述近似数据时,按照预设的查找方式在所述数据模型中查找与所述业务数据对应的相似数据,基于所述相似数据在所述数据模型的数据分类确定所述目标数据分类,并将所述业务数据分类至所述目标数据分类中。
[0093]
在一个可选的实施例中,所述分类模块203按照预设的查找方式在所述数据模型中查找与所述业务数据对应的相似数据的具体方式为:
[0094]
将所述业务数据和所述数据模型中的数据分别映射为数据向量空间中的数据向量;
[0095]
基于所述业务数据和所述数据模型中的数据分别对应的数据向量,从所述数据模型的数据中筛选出与所述业务数据对应的相似数据。
[0096]
在一个可选的实施例中,所述分类模块203基于所述业务数据和所述数据模型中的数据分别对应的数据向量,从所述数据模型的数据中筛选出与所述业务数据对应的相似数据的具体方式为:
[0097]
根据历史半径确定出当前半径,其中,所述历史半径是上一次筛选相似数据的过程中所确定出的半径,所述当前半径大于所述历史半径;
[0098]
根据业务数据向量和所述当前半径确定出数据向量范围,其中,所述业务数据向量是所述业务数据在所述数据向量空间中所对应的向量,所述数据向量范围是在所述数据向量空间中,以所述业务数据向量为中心,以所述当前半径为半径的圆形范围;
[0099]
判断所述数据向量范围内的数据向量的数量是否大于历史数据向量范围内的数据向量的数量,其中,所述历史数据向量范围是在所述数据向量空间中,以所述业务数据向量为中心,以所述历史半径为半径的圆形范围;
[0100]
当所述数据向量范围内的数据向量的数量未大于所述历史数据向量范围内的数据向量的数量时,将所述数据向量范围内的数据向量在所述数据模型中所对应的数据确定为与所述业务数据对应的相似数据。
[0101]
在一个可选的实施例中,所述分类模块203根据历史半径确定出当前半径的具体方式为:
[0102]
通过以下公式以指数增长的方式,根据历史半径计算出当前半径:
[0103]
y=log
a x;
[0104]
z=a
y 1

[0105]
其中,y为所述历史半径对应的指数值,a为预设的底数,x为所述历史半径,z为所述当前半径。
[0106]
在一个可选的实施例中,所述装置还包括:
[0107]
数据标准化处理模块,用于对所述业务数据执行预设的数据标准化处理,以完成对所述业务数据的标准化。
[0108]
在一个可选的实施例中,所述数据标准化处理模块对所述业务数据执行预设的数据标准化处理的具体方式为:
[0109]
判断所述业务数据中是否存在表结构中文字段名称;
[0110]
当判断出所述业务数据中存在所述表结构中文字段名称时,按照预设的中英文转换方式,将所述业务数据中的表结构中文字段名称转换为表结构英文字段名称;
[0111]
判断所述业务数据的表结构英文字段名称是否在预设的特殊转换表格中,其中,所述特殊转换表格中记录有多个目标表结构英文字段名称和每个所述目标表结构英文字段名称所对应的特殊转换方式,所述目标表结构英文字段名称是指需要执行特殊转换的表结构英文字段名称;;
[0112]
当判断出所述业务数据的表结构英文字段名称在所述特殊转换表格中时,按照目标特殊转换方式,将所述业务数据的表结构英文字段名称转换为特殊表结构英文字段名称,所述目标特殊转换方式是指所述业务数据的表结构英文字段名称在所述特殊转换表格中所对应的特殊转换方式。
[0113]
在一个可选的实施例中,所述数据标准化处理模块对所述业务数据执行预设的数据标准化处理的具体方式为:
[0114]
判断所述业务数据中是否存在合并数据;
[0115]
当判断出所述业务数据中存在所述合并数据时,根据所述合并数据所对应的源数据的数据类型重新设置所述合并数据的数据类型;
[0116]
其中,所述源数据是指上游系统中的原始数据,所述合并数据是由所述源数据合并后得到的数据。对于上述基于字符匹配的数据分类装置的具体描述可以参照上述基于字符匹配的数据分类方法的具体描述,为避免重复,在此不再一一赘述。
[0117]
实施例三
[0118]
请参阅图3,图3是本发明实施例公开的一种计算机设备的结构示意图。如图3所示,该计算机设备可以包括:
[0119]
存储有可执行程序代码的存储器301;
[0120]
与存储器301连接的处理器302;
[0121]
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于字符匹配的数据分类方法中的步骤。
[0122]
实施例四
[0123]
请参阅图4,本发明实施例公开了一种计算机存储介质401,计算机存储介质401存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于字符匹配的数据分类方法中的步骤。
[0124]
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的
劳动的情况下,即可以理解并实施。
[0125]
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read

onlymemory,rom)、随机存储器(randomaccessmemory,ram)、可编程只读存储器(programmableread

onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammablereadonlymemory,eprom)、一次可编程只读存储器(one

timeprogrammableread

onlymemory,otprom)、电子抹除式可复写只读存储器(electrically

erasableprogrammableread

onlymemory,eeprom)、只读光盘(compactdiscread

onlymemory,cd

rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0126]
最后应说明的是:本发明实施例公开的一种基于字符匹配的数据分类方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献