一种结构化数据的类型识别方法、装置、设备和介质与流程

2023-01-14 14:38:59 来源：中国专利 TAG：

1.本技术涉及数据分析技术领域，特别是涉及一种结构化数据的类型识别方法、装置、设备和计算机可读存储介质。

背景技术：

2.常见的包含文本内容的文件可以大致分为非结构化数据和结构化数据两大类，非结构化数据指一般性的设计文档、文章、报告等文件，从内容组织上往往不呈现特定的结构；而结构化数据指一定结构形式组织存在的文件，大多以表格主，包括excel文件、逗号分隔值(comma-separated values，csv)文件、数据库文件等。
3.非结构化数据可以直接利用文本聚类、文本分类、关键字规则匹配、文档指纹等技术进行识别。而结构化数据的文档内容往往呈现按照字段或标题的同质化、重复化、不同字段或标题之间相关度不高等特性，无法直接利用非结构化数据的识别技术。
4.传统方式中对于结构化数据的处理方式有两种，一种方式可以按照结构化数据的字段或标题来生成模板，对后续的结构化数据进行匹配，如果对应的字段或标题相同，那么认为这两种结构化数据属于同一类别。这种方法的缺点就是只考虑字段和标题，并未考虑到字段或标题对应的正文内容。在实际应用中往往涉及字段或标题的修改，按照原始的字段或标题生成的模板将无法识别修改后的字段或标题。
5.另一种方式是生成结构化数据的指纹，对后续需要识别的数据用相同的方法生成指纹，对比两个指纹之间的相似程度来确定两种结构化数据是否属于同一类别。这种方法是从全局内容去生成的指纹，一个结构化数据往往包含多个字段或标题，每个字段或标题有其对应的字段内容，基于全局内容生成指纹进行数据类型识别的方式，只是对数据进行整体评估，无法充分考虑数据中不同字段或标题的字段内容所属的数据类型，导致无法准确的识别出数据类型。
6.可见，如何提升结构化数据类型识别的准确性，是本领域技术人员需要解决的问题。

技术实现要素：

7.本技术实施例的目的是提供一种结构化数据的类型识别方法、装置、设备和计算机可读存储介质，可以提升结构化数据类型识别的准确性。
8.为解决上述技术问题，本技术实施例提供一种结构化数据的类型识别方法，包括：
9.获取待识别数据；
10.依据所述待识别数据中包含的字段类型，将所述待识别数据划分为多个数据项；
11.对各所述数据项进行特征提取，得到词向量集合；
12.基于所述词向量集合与各数据类型的聚类向量集合的相似度，确定出所述待识别数据的数据类型。
13.可选地，所述对各所述数据项进行特征提取，得到词向量集合包括：
14.对各所述数据项进行分词处理，得到各所述数据项各自对应的初始词向量；
15.对各所述初始词向量进行降维处理，得到所述词向量集合。
16.可选地，所述方法还包括：
17.获取至少一个数据类型对应的结构化数据；其中，每种数据类型的结构化数据中包含的文件数量为多个；
18.依据目标数据类型的目标结构化数据中包含的字段类型，将所述目标结构化数据划分为多个目标数据项；其中，所述目标数据类型为所述至少一个数据类型中的任意一个数据类型；
19.对各所述目标数据项进行特征提取，得到目标词向量集合；
20.按照设定的聚类规则对所述目标词向量集合进行聚类，得到所述目标数据类型的目标聚类向量集合。
21.可选地，所述基于所述词向量集合与各数据类型的聚类向量集合的相似度，确定出所述待识别数据的数据类型包括：
22.计算所述词向量集合中各词向量与第一数据类型的聚类向量集合中各第一聚类向量的距离值；其中，所述第一数据类型为所述各所述数据类型中的任意一种数据类型；
23.依据各词向量与各第一聚类向量的距离值以及设定的簇间距离值，确定出所述词向量集合与所述第一数据类型的聚类向量集合的相似向量个数；
24.基于所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及所述相似向量个数，计算出所述词向量集合与所述第一数据类型的聚类向量集合的相似度；
25.根据所述词向量集合与各所述数据类型的聚类向量集合的相似度，确定出相似度满足预设要求的数据类型作为所述待识别数据的数据类型。
26.可选地，所述依据各词向量与各第一聚类向量的距离值以及设定的簇间距离值，确定出所述词向量集合与所述第一数据类型的聚类向量集合的相似向量个数包括：
27.选取每个词向量与各第一聚类向量的距离值的最小值；
28.统计所有所述最小值中取值小于所述簇间距离值的个数；
29.将所述个数作为所述词向量集合与所述第一数据类型的聚类向量集合的相似向量个数。
30.可选地，所述基于所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及所述相似向量个数，计算出所述词向量集合与所述第一数据类型的聚类向量集合的相似度包括：
31.若所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第一预设条件，则将所述相似向量个数作为所述词向量集合与所述第一数据类型的聚类向量集合的相似度。
32.可选地，所述基于所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及所述相似向量个数，计算出所述词向量集合与所述第一数据类型的聚类向量集合的相似度包括：
33.若所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第二预设条件，则基于所述相似向量个数，确
定出所述词向量集合与所述第一数据类型的聚类向量集合的并集数；
34.将所述相似向量个数与所述并集数的比值作为所述词向量集合与所述第一数据类型的聚类向量集合的相似度。
35.本技术实施例还提供了一种结构化数据的类型识别装置，包括获取单元、划分单元、提取单元和确定单元；
36.所述获取单元，用于获取待识别数据；
37.所述划分单元，用于依据所述待识别数据中包含的字段类型，将所述待识别数据划分为多个数据项；
38.所述提取单元，用于对各所述数据项进行特征提取，得到词向量集合；
39.所述确定单元，用于基于所述词向量集合与各数据类型的聚类向量集合的相似度，确定出所述待识别数据的数据类型。
40.可选地，所述提取单元包括分词子单元和降维子单元；
41.所述分词子单元，用于对各所述数据项进行分词处理，得到各所述数据项各自对应的初始词向量；
42.所述降维子单元，用于对各所述初始词向量进行降维处理，得到所述词向量集合。
43.可选地，所述装置还包括聚类单元；
44.所述获取单元，用于获取至少一个数据类型对应的结构化数据；其中，每种数据类型的结构化数据中包含的文件数量为多个；
45.所述划分单元，用于依据目标数据类型的目标结构化数据中包含的字段类型，将所述目标结构化数据划分为多个目标数据项；其中，所述目标数据类型为所述至少一个数据类型中的任意一个数据类型；
46.所述提取单元，用于对各所述目标数据项进行特征提取，得到目标词向量集合；
47.所述聚类单元，用于按照设定的聚类规则对所述目标词向量集合进行聚类，得到所述目标数据类型的目标聚类向量集合。
48.可选地，所述确定单元包括距离计算子单元、个数确定子单元、相似度计算子单元和作为子单元；
49.所述距离计算子单元，用于计算所述词向量集合中各词向量与第一数据类型的聚类向量集合中各第一聚类向量的距离值；其中，所述第一数据类型为所述各所述数据类型中的任意一种数据类型；
50.所述个数确定子单元，用于依据各词向量与各第一聚类向量的距离值以及设定的簇间距离值，确定出所述词向量集合与所述第一数据类型的聚类向量集合的相似向量个数；
51.所述相似度计算子单元，用于基于所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及所述相似向量个数，计算出所述词向量集合与所述第一数据类型的聚类向量集合的相似度；
52.所述作为子单元，用于根据所述词向量集合与各所述数据类型的聚类向量集合的相似度，确定出相似度满足预设要求的数据类型作为所述待识别数据的数据类型。
53.可选地，所述个数确定子单元用于选取每个词向量与各第一聚类向量的距离值的最小值；统计所有所述最小值中取值小于所述簇间距离值的个数；将所述个数作为所述词
向量集合与所述第一数据类型的聚类向量集合的相似向量个数。
54.可选地，所述相似度计算子单元用于若所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第一预设条件，则将所述相似向量个数作为所述词向量集合与所述第一数据类型的聚类向量集合的相似度。
55.可选地，所述相似度计算子单元用于若所述词向量集合中包含的词向量个数与所述第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第二预设条件，则基于所述相似向量个数，确定出所述词向量集合与所述第一数据类型的聚类向量集合的并集数；将所述相似向量个数与所述并集数的比值作为所述词向量集合与所述第一数据类型的聚类向量集合的相似度。
56.本技术实施例还提供了一种结构化数据的类型识别设备，包括：
57.存储器，用于存储计算机程序；
58.处理器，用于执行所述计算机程序以实现如上述任意一项所述结构化数据的类型识别方法的步骤。
59.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意一项所述结构化数据的类型识别方法的步骤。
60.由上述技术方案可以看出，获取待识别数据；考虑到结构化数据中不同字段类型的数据具有无关性，因此可以依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项；对各数据项进行特征提取，得到词向量集合。基于词向量集合与各数据类型的聚类向量集合的相似度，确定出待识别数据的数据类型。词向量集合中包含了每个数据项对应的词向量，在计算词向量集合与聚类向量集合的相似度时，会对向量集合中的每个向量进行分析，实现了对每个数据项的单独分析，保证了数据类型的准确识别，提升了数据类型识别的泛化能力。并且本技术中是对待识别数据的各数据项进行分析，即使数据的字段或标题进行了修改，也可以实现数据类型的准确识别。
附图说明
61.为了更清楚地说明本技术实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
62.图1为本技术实施例提供的一种结构化数据的类型识别的场景示意图；
63.图2为本技术实施例提供的一种结构化数据的类型识别方法的流程图；
64.图3为本技术实施例提供的一种结构化数据的类型识别装置的结构示意图；
65.图4为本技术实施例提供的一种结构化数据的类型识别设备的结构示意图。
具体实施方式
66.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他
实施例，都属于本技术保护范围。
67.为了使本技术领域的人员更好地理解本技术方案，下面结合附图和具体实施方式对本技术作进一步的详细说明。
68.传统方式中按照结构化数据的字段或标题来生成模板，对后续的结构化数据进行匹配，但是如果涉及字段或标题的修改，按照原始的字段或标题生成的模板将无法识别修改后的字段或标题。另一种方式是生成结构化数据的指纹，对后续需要识别的数据用相同的方法生成指纹，对比两个指纹之间的相似程度来确定两种结构化数据是否属于同一类别。基于全局内容生成指纹进行数据类型识别的方式，只是对数据进行整体评估，无法充分考虑数据中不同字段或标题的字段内容所属的数据类型，导致无法准确的识别出数据类型。
69.因此，本技术实施例提供了一种结构化数据的类型识别方法、装置、设备和计算机可读存储介质。图1为本技术实施例提供的一种结构化数据的类型识别的场景示意图，系统获取到待识别数据之后，可以依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项。图1中是以待识别数据划分为n个数据项为例，为了便于对各数据项进行数据分析，可以对各数据项进行特征提取，得到词向量集合。图1中每个数据项有其对应的一个词向量，可以将待识别数据对应的所有词向量称作词向量集合。
70.在本技术实施例中可以将各数据类型的聚类向量进行汇总，作为聚类向量集合，图1中是以m种数据类型为例，每种数据类型有其对应的一个聚类向量。基于词向量集合与各数据类型的聚类向量集合的相似度，可以确定出待识别数据的数据类型。在计算词向量集合与聚类向量集合的相似度时，会对向量集合中的每个向量进行分析，也即实现了对每个数据项的单独分析，保证了数据类型的准确识别。并且本技术中是对待识别数据的各数据项进行分析，即使数据的字段或标题进行了修改，也可以实现数据类型的准确识别。
71.接下来，详细介绍本技术实施例所提供的一种结构化数据的类型识别方法。图2为本技术实施例提供的一种结构化数据的类型识别方法的流程图，该方法包括：
72.s201：获取待识别数据。
73.待识别数据可以是需要识别数据类型的结构化数据。
74.s202：依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项。
75.字段类型可以是待识别数据中包含的字段或标题。对于相同的字段或标题对应的字段内容可以作为同一个数据项。待识别数据中包含的字段类型有多少种，便可以划分出多少个数据项。
76.以excel表格为例，假设excel表格包含有3列数据，第一列数据对应的标题为“公司名”，第二列数据对应的标题为“公司规模”，第三列数据对应的标题为“公司业务”。“公司名”、“公司规模”和“公司业务”属于3种不同的标题，因此在实际应用中，可以将这个excel表格划分为3个数据项，每一列数据即为一个数据项。
77.s203：对各数据项进行特征提取，得到词向量集合。
78.在实际应用中，为了便于系统对数据项进行分析，可以对每个数据项进行特征提取，得到每个数据项对应的词向量。在本技术实施例中，可以将所有数据项对应的词向量进行汇总作为词向量集合。
79.s204：基于词向量集合与各数据类型的聚类向量集合的相似度，确定出待识别数
据的数据类型。
80.在本技术实施例中，可以将常见的数据类型进行汇总，将每个数据类型对应的数据特征以聚类向量的形式进行记录。
81.相似度越高，说明词向量集合中包含的各词向量与聚类向量集合中包含的数据特征越相近。在实际应用中，可以计算词向量集合与每种数据类型的聚类向量集合的相似度，将相似度最高的数据类型作为待识别数据的数据类型。
82.由上述技术方案可以看出，获取待识别数据；考虑到结构化数据中不同字段类型的数据具有无关性，因此可以依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项；对各数据项进行特征提取，得到词向量集合。基于词向量集合与各数据类型的聚类向量集合的相似度，确定出待识别数据的数据类型。词向量集合中包含了每个数据项对应的词向量，在计算词向量集合与聚类向量集合的相似度时，会对向量集合中的每个向量进行分析，实现了对每个数据项的单独分析，保证了数据类型的准确识别，提升了数据类型识别的泛化能力。并且本技术中是对待识别数据的各数据项进行分析，即使数据的字段或标题进行了修改，也可以实现数据类型的准确识别。
83.在本技术实施例中，可以对各数据项进行分词处理，得到各数据项各自对应的初始词向量；对各初始词向量进行降维处理，得到词向量集合。
84.分词处理的方式较为常规，在实际应用中，可以利用词向量技术，例如词袋模型，对数据项进行分词处理，得到数据项对应的初始词向量。
85.在实际应用中，可以采用奇异值分解(singular value decompositionm，svd)对初始词向量进行降维处理。
86.通过对初始词向量进行降维处理，可以降低初始词向量中重复数据造成的计算量增大的问题，进一步提升了系统对待识别数据进行数据类型识别的效率。
87.在本技术实施例中，为了快速准确的确定出待识别数据所属的数据类型，可以预先建立好各数据类型的聚类向量集合。聚类向量集合的建立过程包括获取至少一个数据类型对应的结构化数据。每种类型的结构化数据的处理方式类似，以至少一个数据类型中的任意一个数据类型即目标数据类型为例，依据目标数据类型的目标结构化数据中包含的字段类型，将目标结构化数据划分为多个目标数据项。对各目标数据项进行特征提取，得到目标词向量集合；按照设定的聚类规则对目标词向量集合进行聚类，得到目标数据类型的目标聚类向量集合。
88.依据目标数据类型的目标聚类向量集合的获取方式，可以得到每种数据类型各自对应的聚类向量集合，将所有数据类型对应的聚类向量集合进行汇总作为各数据类型的聚类向量集合。
89.其中，每种数据类型的结构化数据中包含的文件数量为多个。
90.对于同一种数据类型的文件而言，每个文件所包含的字段或标题不一定需要相同，但是字段或标题对应的内容需要是同类型的，并且字段或标题的数量需要相同。
91.将目标结构化数据划分为多个目标数据项的实现与将待识别数据划分为多个数据项的实现原理相同，可以参见s202的操作，在此不再赘述。对各目标数据项进行特征提取，得到目标词向量集合的实现方式，可以参见s203的操作，在此不再赘述。
92.目标词向量集合中包含了目标数据类型对应的结构化数据的数据特征。为了对目
标词向量集合中包含的相同或相近的数据特征进行融合，可以按照设定的聚类规则对目标词向量集合进行聚类。
93.其中，聚类规则可以根据层次聚类的方法设置。层次聚类的方法属于常规技术，在此不再展开介绍。
94.在本技术实施例中，同种数据类型的结构化数据中包含的文件数量可以为多个，相应的，同种数据类型下每个数据项对应的词向量个数往往有多个，通过对词向量集合进行聚类处理，可以将具有相同或相近数据特征的词向量进行融合，从而可以得到数据特征更加全面的聚类向量。
95.通过预先建立各数据类型的聚类向量集合，在后续执行数据类型的识别时，直接将待识别数据的词向量集合与各数据类型的聚类向量集合执行相似度计算即可，使得数据类型的识别过程更加快速和便捷。
96.在本技术实施例中，可以通过计算向量之间的距离值并依据向量中包含的向量个数，确定出词向量集合与聚类向量集合的相似度。在实际应用中，可以计算词向量集合中各词向量与第一数据类型的聚类向量集合中各第一聚类向量的距离值。依据各词向量与各第一聚类向量的距离值以及设定的簇间距离值，确定出词向量集合与第一数据类型的聚类向量集合的相似向量个数。基于词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及相似向量个数，计算出词向量集合与第一数据类型的聚类向量集合的相似度。
97.其中，第一数据类型为各数据类型中的任意一种数据类型。在本技术实施例中，可以将第一数据类型的聚类向量集合中各聚类向量统称为第一聚类向量。
98.计算两个向量的距离值可以是计算两个向量的余弦(cos)距离或者是计算两个向量的曼哈顿距离或者是杰卡德系数(jaccard)距离等。向量之间距离值的计算属于常规技术，在此不再展开介绍。
99.距离值越小，说明词向量与聚类向量之间的相关性越高，词向量属于该聚类向量所对应的数据类型的概率就越大。在本技术实施例中，可以设置簇间距离值，选取出与聚类向量具有较强相关性的词向量。
100.相似向量可以是与第一聚类向量的距离值小于簇间距离值的词向量。在实际应用中，可以选取每个词向量与各第一聚类向量的距离值的最小值；统计所有最小值中取值小于簇间距离值的个数；将个数作为词向量集合与第一数据类型的聚类向量集合的相似向量个数。
101.参见词向量集合与第一数据类型的聚类向量集合的相似度的计算方式，可以计算出词向量集合与各种数据类型的聚类向量集合各自对应的相似度，根据词向量集合与各数据类型的聚类向量集合的相似度，可以确定出相似度满足预设要求的数据类型作为待识别数据的数据类型。在实际应用中，可以选取出相似度大于预设相似度值的数据类型作为待识别数据的数据类型。当相似度大于预设相似度值的数据类型有多个时，可以选取相似度最高的数据类型作为待识别数据的数据类型。
102.通过计算向量之间的距离值可以准确的识别词向量集合中各词向量与聚类向量集合中各聚类向量之间的相似性。并结合词向量集合中包含的词向量个数与各数据类型下聚类向量集合中包含的聚类向量的个数，可以评估出词向量集合与各数据类型下聚类向量
集合的相似性。
103.在本技术实施例中，根据应用场景需求的不同，基于词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及相似向量个数，计算出词向量集合与第一数据类型的聚类向量集合的相似度的方式有所差异。在实际应用中，若词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第一预设条件，则将相似向量个数作为词向量集合与第一数据类型的聚类向量集合的相似度。
104.若词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第二预设条件，则基于相似向量个数，确定出词向量集合与第一数据类型的聚类向量集合的并集数；将相似向量个数与并集数的比值作为词向量集合与第一数据类型的聚类向量集合的相似度。
105.其中，预设阈值的取值可以根据实际需求设置，在此不做限定。
106.第一预设条件可以为绝对差值是否大于预设阈值，绝对差值满足第一预设条件即绝对差值大于预设阈值，说明词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数偏差较多，此时可以直接将相似向量个数作为词向量集合与第一数据类型的聚类向量集合的相似度。
107.第二预设条件可以为绝对差值是否小于或等于预设阈值，绝对差值满足第二预设条件即绝对差值小于或等于预设阈值，说明词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数较为相近，此时可以将相似向量个数与并集数的比值作为词向量集合与第一数据类型的聚类向量集合的相似度。
108.根据不同的应用场景需求调整相似度的计算方式，可以使得计算出的相似度更加符合实际需求，从而可以更加准确的选取出待识别数据的数据类型。
109.图3为本技术实施例提供的一种结构化数据的类型识别装置的结构示意图，包括获取单元31、划分单元32、提取单元33和确定单元34；
110.获取单元31，用于获取待识别数据；
111.划分单元32，用于依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项；
112.提取单元33，用于对各数据项进行特征提取，得到词向量集合；
113.确定单元34，用于基于词向量集合与各数据类型的聚类向量集合的相似度，确定出待识别数据的数据类型。
114.可选地，提取单元包括分词子单元和降维子单元；
115.分词子单元，用于对各数据项进行分词处理，得到各数据项各自对应的初始词向量；
116.降维子单元，用于对各初始词向量进行降维处理，得到词向量集合。
117.可选地，装置还包括聚类单元；
118.获取单元，用于获取至少一个数据类型对应的结构化数据；其中，每种数据类型的结构化数据中包含的文件数量为多个；
119.划分单元，用于依据目标数据类型的目标结构化数据中包含的字段类型，将目标结构化数据划分为多个目标数据项；其中，目标数据类型为至少一个数据类型中的任意一
个数据类型；
120.提取单元，用于对各目标数据项进行特征提取，得到目标词向量集合；
121.聚类单元，用于按照设定的聚类规则对目标词向量集合进行聚类，得到目标数据类型的目标聚类向量集合。
122.可选地，确定单元包括距离计算子单元、个数确定子单元、相似度计算子单元和作为子单元；
123.距离计算子单元，用于计算词向量集合中各词向量与第一数据类型的聚类向量集合中各第一聚类向量的距离值；其中，第一数据类型为各数据类型中的任意一种数据类型；
124.个数确定子单元，用于依据各词向量与各第一聚类向量的距离值以及设定的簇间距离值，确定出词向量集合与第一数据类型的聚类向量集合的相似向量个数；
125.相似度计算子单元，用于基于词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数以及相似向量个数，计算出词向量集合与第一数据类型的聚类向量集合的相似度；
126.作为子单元，用于根据词向量集合与各数据类型的聚类向量集合的相似度，确定出相似度满足预设要求的数据类型作为待识别数据的数据类型。
127.可选地，个数确定子单元用于选取每个词向量与各第一聚类向量的距离值的最小值；统计所有最小值中取值小于簇间距离值的个数；将个数作为词向量集合与第一数据类型的聚类向量集合的相似向量个数。
128.可选地，相似度计算子单元用于若词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第一预设条件，则将相似向量个数作为词向量集合与第一数据类型的聚类向量集合的相似度。
129.可选地，相似度计算子单元用于若词向量集合中包含的词向量个数与第一数据类型的聚类向量集合中包含的第一聚类向量的个数的绝对差值满足第二预设条件，则基于相似向量个数，确定出词向量集合与第一数据类型的聚类向量集合的并集数；将相似向量个数与并集数的比值作为词向量集合与第一数据类型的聚类向量集合的相似度。
130.图3所对应实施例中特征的说明可以参见图2所对应实施例的相关说明，这里不再一一赘述。
131.由上述技术方案可以看出，获取待识别数据；考虑到结构化数据中不同字段类型的数据具有无关性，因此可以依据待识别数据中包含的字段类型，将待识别数据划分为多个数据项；对各数据项进行特征提取，得到词向量集合。基于词向量集合与各数据类型的聚类向量集合的相似度，确定出待识别数据的数据类型。词向量集合中包含了每个数据项对应的词向量，在计算词向量集合与聚类向量集合的相似度时，会对向量集合中的每个向量进行分析，实现了对每个数据项的单独分析，保证了数据类型的准确识别，提升了数据类型识别的泛化能力。并且本技术中是对待识别数据的各数据项进行分析，即使数据的字段或标题进行了修改，也可以实现数据类型的准确识别。
132.图4为本技术实施例提供的一种结构化数据的类型识别设备40的结构示意图，包括：
133.存储器41，用于存储计算机程序；
134.处理器42，用于执行计算机程序以实现如上述任意一项结构化数据的类型识别方
法的步骤。
135.本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任意一项结构化数据的类型识别方法的步骤。
136.以上对本技术实施例所提供的一种结构化数据的类型识别方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围内。
137.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
138.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种线程负载均衡的方法、装置、设备和介质与流程

一种结构化数据的类型识别方法、装置、设备和介质与流程

相关文献

最热文献