基于神经网络的数据规范性检查方法、装置、设备及介质与流程

2022-06-01 02:14:18 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，特别涉及一种基于神经网络的数据规范性检查方法、装置、设备及介质。

背景技术：

2.随着政府数字化改革的不断推进，数据安全对于政府工作的重要性也越发明显。对于政府部门而言，针对公共数据开展数据安全防护便成为了工作重点。作为数据安全领域里的一个重要检查项，数据规范性检查对于公共数据的安全建设是必不可缺的一步，它是检查数据是否按照业务要求和规范性进行保存。
3.现有技术中的数据规范性检查方法，有的通过数据部门的员工进行人为检查，这种最基础的人为检查方式往往需要耗费大量的人力和时间，在效率上无法满足实际的业务需求。有的通过设定正则式进行数据匹配，通过正则方式进行的数据匹配，也会由于需要大量复杂的正则式导致检测规则的泛化性较差，从而出现遗漏，其庞大的数据量和众多的数据存储格式也影响检查的效率和准确性。

技术实现要素：

4.本技术实施例提供了一种基于神经网络的数据规范性检查方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。
5.第一方面，本技术实施例提供了一种基于神经网络的数据规范性检查方法，包括：
6.获取待检查的数据；
7.将待检查的数据输入预训练的数据类型识别模型，得到每列数据的数据类型；
8.将每列数据以及对应的数据类型输入预训练的规范性检查模型，得到每列数据的规范性检查结果。
9.在一个可选地实施例中，将待检查的数据输入预训练的数据类型识别模型之前，还包括：
10.制定目标数据类别，目标数据类别为一级或多级目标数据类别；
11.获取每个最小级别的目标数据类别对应的数据并进行标注，得到第一数据集；
12.将第一数据集分为训练集和测试集，根据训练集和测试集训练数据类型识别模型。
13.在一个可选地实施例中，将待检查的数据输入预训练的数据类型识别模型，得到每列数据的数据类型，包括：
14.将待检查的数据输入预训练的数据类型识别模型，得到每列数据中每个数据的数据类型；
15.对每列数据中所有数据的数据类型进行投票，将比例较多的数据类型作为该列数
据的数据类型，将数据类型比例相等的列定义为其他类型，将无法识别数据类型的列定义为其他类型；
16.统计其他类型的数据列中的数据类型，并进行标注，得到更新后的训练数据集；
17.根据更新后的训练数据集训练数据类型识别模型，得到更新后的数据类型识别模型；
18.根据更新后的数据类型识别模型再次识别其他类型的数据列的数据类型，直到得到所有数据列的数据类型。
19.在一个可选地实施例中，将每列数据以及对应的数据类型输入预训练的规范性检查模型之前，还包括：
20.根据待检查数据对应的部门业务，设定待检查数据类别，待检查数据类别为一级数据类别；
21.获取待检查数据类别对应的数据并进行标注，得到第二数据集，其中，第二数据集中的数据格式满足预设的规范性检查规则；
22.将第二数据集分为训练集和测试集，根据训练集和测试集训练规范性检查模型。
23.在一个可选地实施例中，将每列数据以及对应的数据类型输入预训练的规范性检查模型，得到每列数据的规范性检查结果，包括：
24.将每列数据以及对应的数据类型输入预训练的规范性检查模型；
25.判断每列数据的数据类型是否属于待检查数据类别，若不属于，则确定该列数据的格式不规范。
26.在一个可选地实施例中，还包括：
27.若某列数据的数据类型属于预设的待检查数据类别，则输出该列数据中每个数据的数据类型；
28.判断该列数据中每个数据的数据类型是否全部相同，若全部相同，则确定该列数据的格式规范；
29.若不是全部相同，则确定该列数据的格式不规范。
30.在一个可选地实施例中，数据类型识别模型以及规范性检查模型的神经网络结构为改进的gae网络结构，改进的gae网络结构包括编码层以及反编码层，编码层包括依次连接的gnn网络以及fc网络，反编码层包括fc网络。
31.第二方面，本技术实施例提供了一种基于神经网络的数据规范性检查装置，包括：
32.获取模块，用于获取待检查的数据；
33.识别模块，用于将待检查的数据输入预训练的数据类型识别模型，得到每列数据的数据类型；
34.检查模块，用于将每列数据以及对应的数据类型输入预训练的规范性检查模型，得到每列数据的规范性检查结果。
35.第三方面，本技术实施例提供了一种基于神经网络的数据规范性检查设备，包括处理器和存储有程序指令的存储器，处理器被配置为在执行程序指令时，执行上述实施例提供的基于神经网络的数据规范性检查方法。
36.第四方面，本技术实施例提供了一种计算机可读介质，其上存储有计算机可读指令，计算机可读指令被处理器执行以实现上述实施例提供的一种基于神经网络的数据规范
性检查方法。
37.本技术实施例提供的技术方案可以包括以下有益效果：
38.根据本技术实施例提供的基于神经网络的数据规范性检查方法，使用先数据类型识别再数据格式检查的方式，提高数据规范性检查的效率；使用预训练的神经网络模型代替正则表达式对数据类型进行识别，从而避免由于正则表达式的局限性和强匹配性导致的数据类型识别遗漏；使用神经网络模型代替人工数据服务，减少人员对公共数据的接触，从而保障了数据共享和使用安全；使用神经网络代替人工数据规范性检查，减少人工过程的时间，从而提高了数据规范性检查的效率，适应业务发展要求和性能需求。
39.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
41.图1是根据一示例性实施例示出的一种基于神经网络的数据规范性检查方法的流程示意图；
42.图2是根据一示例性实施例示出的一种数据识别模型的训练方法示意图；
43.图3是根据一示例性实施例示出的一种数据识别模型的更新方法示意图；
44.图4是根据一示例性实施例示出的一种改进的gae网络结构的示意图；
45.图5是根据一示例性实施例示出的一种基于神经网络的数据规范性检查装置的结构示意图；
46.图6是根据一示例性实施例示出的一种基于神经网络的数据规范性检查设备的结构示意图；
47.图7是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
48.以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。
49.应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
50.下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
51.现有技术中的数据规范性检查方法，有的通过数据部门的员工进行人为检查，这种最基础的人为检查方式往往需要耗费大量的人力和时间，在效率上无法满足实际的业务需求。有的通过设定正则式进行数据匹配，通过正则方式进行的数据匹配，也会由于需要大量复杂的正则式导致检测规则的泛化性较差，从而出现遗漏，其庞大的数据量和众多的数
据存储格式也影响检查的效率和准确性。
52.基于此，本技术实施例提供了一种基于神经网络模型的数据规范性检查方法，针对政府公共数据，选用先数据类型识别再检查的方式，提高数据规范性检查效率。使用模型识别替代人工分类，提高数据分类的效率，减少政府人力资源的需求。使用gae神经网络代替正则表达式对数据类型进行识别，提高识别的泛化能力和准确率。
53.下面将结合附图对本技术实施例提供的基于神经网络的数据规范性检查方法进行详细介绍。参见图1，该方法具体包括以下步骤。
54.步骤s101、获取待检查的数据。
55.在一种可能的实现方式中，本技术实施例中的数据检查方法，可以对政府部门的公共数据进行规范检查，公共数据主要是指政府在行政执法过程中产生的信息，比如行政许可、法院诉讼等这些活动所带来的信息。由于这些信息是因为政府和法律的强制力产生的，对于企业和个人的生产、经营、履约有一定的影响，也涉及到公众和他人的利益。对于政府部门而言，针对公共数据开展数据安全防护便成为了工作重点。因此，可以获取政府部门产生的公共数据作为待检查的数据，对政府部门的公共数据进行规范检查。
56.可选地，本技术实施例的适用范围，包括但不限于政府公共数据场景，同样适用于企业的行业数据。
57.步骤s102、将待检查的数据输入预训练的数据类型识别模型，得到每列数据的数据类型。
58.在一种可能的实现方式中，将待检查的数据输入预训练的数据类型识别模型之前，还包括，训练数据类型识别模型。
59.具体地，首先制定目标数据类别，目标数据类别为一级或多级目标数据类别。将常见数据类型制定为模型需要识别的目标数据类别。如电话号码、人名、地址、时间等作为一级类别。根据需求可以在一级类别下设立二级类别，如电话号码类别下设立二级类别有手机号码、座机号码、内网短号等。
60.进一步地，获取每个最小级别的目标数据类别对应的数据并进行标注，得到第一数据集。获取的一般是二级目标类别，当没有二级目标类别时，将一级目标类别作为最小类别，选取至少300条数据作为标注数据，选取的数据中尽可能有不同的表现形式，如手机号码的表现形式可以为133-****-****、133********等不同格式，得到最终的第一数据集。标注数据中允许含有噪声数据，即格式不符合该类别的数据。
61.进一步地，将第一数据集分为训练集和测试集，根据训练集和测试集训练数据类型识别模型。其中，数据类型识别模型包括但不限于机器学习模型，如knn，svm等，神经网络模型，如cnn，rnn，gnn等。
62.在一种可能的实现方式中，数据类型识别模型采用改进的gae网络结构，如图4所示，改进的gae网络结构包括编码层以及反编码层，编码层包括依次连接的gnn网络以及fc网络，反编码层包括fc网络。通过采用改进的gae网络结构，能缩短模型训练时间，同时具有泛化性能更好，鲁棒性更高，推理速度更快的优点。
63.具体地，根据改进的gae神经网络结构进行模型训练，利用模式编码技术对数据规则特征编码化，生成初始特征向量x1；利用模式编码技术对机器学习统计特征编码化，生成初始特征向量x2；利用模式编码技术对数据语义特征编码化，生成初始特征向量x3；x1，x2，
x3向量重编码，并进行标准向量化，得到标准向量x。随机二八分测试集和训练集。
64.进一步地，构建模型评估指标，获取构建的图自编码神经网络gae，并设置默认初始参数。将训练集输入已构建的图自编码神经网络模型gae，进行参数更新，用测试集输入模型，如若不满足评估指标，则返回并按手册进行参数调整，如满足评估指标，则数据识别模型构建完成。
65.图2是根据一示例性实施例示出的一种数据识别模型的训练方法示意图，如图2所示，首先制定目标数据类别，可创建一级目标类别，根据需要适应性创建二级目标类别。
66.进一步地，选取训练数据，选取的一般是二级目标类别，当没有二级目标类别时，将一级目标类别作为最小类别，选取至少300条数据作为标注数据。进一步地，进行特征提取并向量化，利用模式编码技术对数据规则特征编码化，生成初始特征向量x1；利用模式编码技术对机器学习统计特征编码化，生成初始特征向量x2；利用模式编码技术对数据语义特征编码化，生成初始特征向量x3；x1，x2，x3向量重编码，并进行标准向量化，得到标准向量x。随机二八分测试集和训练集。
67.利用训练集和测试集训练模型，更新参数，直到满足模型评估指标，得到训练好的数据类型识别模型。
68.进一步地，将待检查的数据输入训练好的数据类型识别模型，得到每列数据中每个数据的数据类型。对每列数据中所有数据的数据类型进行投票，将比例较多的数据类型作为该列数据的数据类型，将数据类型比例相等的列定义为其他类型，将无法识别数据类型的列定义为其他类型。
69.在一个示例性场景中，假设一列仅有3个值，分别根据模型的识别结果为a,a,b，则通过投票得出该列的数据类型为a；假设一列仅有4个值，分别根据模型的识别结果为a,a,b,b，则通过投票得出该列的数据类型为其他类型；假设一列仅有3个值，均无法被识别出数据类型，则该列的数据类型为其他。综上，将该列所有值的数据类型进行投票，比例多的类型即为该列的类型。
70.进行每列的数据类型识别之后，判断是否所有列的数据类型都能得出，若每个列的数据类型都能得出，则执行步骤s103，将每列数据以及对应的数据类型输入预训练的规范性检查模型。若有的列的数据类型为其他类型，则根据其他类型的数据列更新数据类型识别模型。
71.具体地，统计其他类型的数据列中的每个数据的数据类型，并进行标注，得到更新后的训练数据集。
72.若其他类型的数据集dother内有数据，则统计其他类型的数据列中的每个数据的数据类型，并进行标注，得到新的数据类型集合supdate，同样需要制定一级类别，并根据需要制定二级类别。为数据类型集合supdate中的每一最小类别(一般是二级类别，当没有二级类别时，将一级类别作为最小类别)选取至少300条数据作为标注数据，选取的数据中尽可能有不同的表现形式，得到更新后的训练数据集dupdate。标注数据中允许含有噪声数据，即格式不符合该类别的数据。
73.根据更新后的训练数据集训练数据类型识别模型，得到更新后的数据类型识别模型。训练方式同数据类型识别模型的训练方式相同，直至满足评估标准。得到更新后的数据类型识别模型。
74.根据更新后的数据类型识别模型再次识别其他类型的数据列的数据类型，直到得到所有数据列的数据类型。若该步骤后仍有无法区分类别的数据列，则重复上述更新模型的步骤，或人工进行类型标注。最终得到每列数据的数据类型。
75.图3是根据一示例性实施例示出的一种数据识别模型的更新方法示意图，如图3所示，使用数据类型识别模型遍历目标数据库(待检查数据库)中的所有数据列，判断该列数据是否被识别为其他类型，若是，则对该列中的数据进行人工标注，并根据标注后的数据更新数据类型识别模型，用更新后的数据类型识别模型对其他类型的数据列进行分类。若没有被识别为其他类型的数据列，则根据每个值的分类结果得到每列的数据类型，汇总得到所有数据列的数据类型。
76.通过上述方式，先对每列数据的数据类型进行识别，可以提高规范性检查的效率。
77.步骤s103、将每列数据以及对应的数据类型输入预训练的规范性检查模型，得到每列数据的规范性检查结果。
78.在一种可能的实现方式中，将每列数据以及对应的数据类型输入预训练的规范性检查模型之前，还包括：训练规范性检查模型。
79.具体地，根据待检查数据对应的部门业务，设定待检查数据类别，待检查数据类别为一级数据类别。根据本部门业务情况，整理数据类别。与步骤s102不同的是，规范性检查的数据类别仅设立到一级类别，如电话号码、手机号码、姓名、时间等。
80.获取待检查数据类别对应的数据并进行标注，得到第二数据集，其中，第二数据集中的数据格式满足预设的规范性检查规则。例如，为每一类别选取至少300条数据作为标注数据，选取的数据中表现形式应相同，并符合本部门规范性检查规则，得到第二数据集。
81.将第二数据集分为训练集和测试集，根据训练集和测试集训练规范性检查模型。
82.具体地，对第二数据集中的数据进行特征提取并向量化，利用模式编码技术对数据规则特征编码化，生成初始特征向量x1；利用模式编码技术对机器学习统计特征编码化，生成初始特征向量x2；利用模式编码技术对数据语义特征编码化，生成初始特征向量x3；x1，x2，x3向量重编码，并进行标准向量化，得到标准向量x。随机二八分测试集和训练集。
83.利用训练集和测试集训练改进的gae网络，更新参数，直到满足模型评估指标，得到训练好的规范性检查模型。通过采用改进的gae网络模型，能缩短模型训练时间，同时具有泛化性能更好，鲁棒性更高，推理速度更快的优点。
84.进一步地，将每列数据以及对应的数据类型输入预训练的规范性检查模型。
85.首先，模型判断每列数据的数据类型是否属于本部门待检查数据类别，若不属于，则确定该列数据的格式不规范。若某列数据的数据类型属于预设的待检查数据类别，则输出该列数据中每个数据的数据类型。
86.进一步地，判断该列数据中每个数据的数据类型是否全部相同，若全部相同，则确定该列数据的格式规范，若不是全部相同，例如，分类结果中包含两个不同的类别，或者分类结果中包含无法识别的其他类型，则确定该列数据的格式不规范。整理得到最终的数据规范性检查结果。
87.根据本技术实施例提供的基于神经网络的数据规范性检查方法，使用先数据类型识别再数据格式检查的方式，提高数据规范性检查的效率；使用预训练的神经网络模型代替正则表达式对数据类型进行识别，从而避免由于正则表达式的局限性和强匹配性导致的
数据类型识别遗漏；使用神经网络模型代替人工数据服务，减少人员对公共数据的接触，从而保障了数据共享和使用安全，减少人工过程的时间，从而提高了数据规范性检查的效率，适应业务发展要求和性能需求。
88.本技术实施例还提供一种基于神经网络的数据规范性检查装置，该装置用于执行上述实施例的基于神经网络的数据规范性检查方法，如图5所示，该装置包括：
89.获取模块501，用于获取待检查的数据；
90.识别模块502，用于将待检查的数据输入预训练的数据类型识别模型，得到每列数据的数据类型；
91.检查模块503，用于将每列数据以及对应的数据类型输入预训练的规范性检查模型，得到每列数据的规范性检查结果。
92.需要说明的是，上述实施例提供的基于神经网络的数据规范性检查装置在执行基于神经网络的数据规范性检查方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于神经网络的数据规范性检查装置与基于神经网络的数据规范性检查方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。
93.本技术实施例还提供一种与前述实施例所提供的基于神经网络的数据规范性检查方法对应的电子设备，以执行上述基于神经网络的数据规范性检查方法。
94.请参考图6，其示出了本技术的一些实施例所提供的一种电子设备的示意图。如图6所示，电子设备包括：处理器600，存储器601，总线602和通信接口603，处理器600、通信接口603和存储器601通过总线602连接；存储器601中存储有可在处理器600上运行的计算机程序，处理器600运行计算机程序时执行本技术前述任一实施例所提供的基于神经网络的数据规范性检查方法。
95.其中，存储器601可能包含高速随机存取存储器(ram：random access memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口603(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。
96.总线602可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。其中，存储器601用于存储程序，处理器600在接收到执行指令后，执行程序，前述本技术实施例任一实施方式揭示的基于神经网络的数据规范性检查方法可以应用于处理器600中，或者由处理器600实现。
97.处理器600可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器600中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器600可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理
器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601，处理器600读取存储器601中的信息，结合其硬件完成上述方法的步骤。
98.本技术实施例提供的电子设备与本技术实施例提供的基于神经网络的数据规范性检查方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。
99.本技术实施例还提供一种与前述实施例所提供的基于神经网络的数据规范性检查方法对应的计算机可读存储介质，请参考图7，其示出的计算机可读存储介质为光盘700，其上存储有计算机程序(即程序产品)，计算机程序在被处理器运行时，会执行前述任意实施例所提供的基于神经网络的数据规范性检查方法。
100.需要说明的是，计算机可读存储介质的例子还可以包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。
101.本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的基于神经网络的数据规范性检查方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
102.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
103.以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种协同作战复杂战场信息查看和使用权限定义方法与流程

基于神经网络的数据规范性检查方法、装置、设备及介质与流程

相关文献

最热文献