数据挖掘方法、电子设备和计算机可读存储介质与流程

2021-11-18 02:27:00 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，特别是涉及一种数据挖掘方法、电子设备和计算机可读存储介质。

背景技术：

2.随着数据爆炸的时代来临，如何从海量的数据中挖掘出符合业务目标的数据成为了一个值得研究的方向。
3.现有技术中，对于数据的挖掘工作只侧重于数据挖掘这一个阶段，而缺少全周期的数据挖掘方法，以致数据挖掘的准确率较低。有鉴于此，如何实现全周期的数据挖掘，提高数据挖掘的准确率成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种数据挖掘方法、电子设备和计算机可读存储介质，能够实现全周期的数据挖掘，并形成多个闭环提高数据挖掘的准确率。
5.为解决上述技术问题，本技术第一方面提供一种数据挖掘方法，包括：获得第一数据集，并对所述第一数据集中的所有数据进行治理；从治理后的所述第一数据集中筛选获得质量评分大于或等于第一阈值的第二数据集以及质量评分小于所述第一阈值的第三数据集；响应于所述第三数据集内存在数据，则将所述第三数据集作为所述第一数据集，并返回对所述第一数据集中的所有数据进行治理的步骤，以形成对数据进行治理的闭环；响应于所述第二数据集内存在数据，则将所述第二数据集内的所有数据作为输入数据输入当前的业务结构，获得满足第一业务目标的输出结果；基于当前的所述业务结构每次输出的所述输出结果，对所述业务结构进行迭代优化，以形成对业务结构进行优化的闭环，从而获得目标业务结构以用于对所述输入数据进行数据挖掘。
6.为解决上述技术问题，本技术第二方面提供一种电子设备，该电子设备包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行上述第一方面所述的方法。
7.为解决上述技术问题，本技术第三方面提供一种计算机可读存储介质，其上存储有程序数据，所述程序数据被处理器执行时实现上述第一方面所述的方法。
8.本技术的有益效果是：本技术在获得第一数据集后对第一数据集中的所有数据先进行治理，将质量评分低于第一阈值的第三数据集进行治理，形成对数据进行治理的闭环以提高数据的质量，将质量评分大于或等于第一阈值的第二数据集内的数据作为输入数据，利用当前的业务结构对输入数据进行数据分析，以获得满足第一业务目标的输出结果，基于每次的输出结果对当前的业务结构进行迭代优化，形成对业务结构进行优化的闭环。故此，本技术形成了数据输入、数据治理和数据挖掘的控制闭环，形成全周期的数据挖掘，并且在数据治理和业务结构进行优化的过程中形成业务的闭环，从而在多次挖掘的过程中，提高数据挖掘的准确率。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：
10.图1是本技术数据挖掘方法一实施方式的流程示意图；
11.图2是本技术数据挖掘方法另一实施方式的流程示意图；
12.图3是图2中步骤s208对应的一实施方式的流程示意图；
13.图4是本技术图3中步骤s302对应的一实施方式的拓扑示意图；
14.图5是本技术电子设备一实施方式的结构示意图；
15.图6是本技术计算机可读存储介质一实施方式的结构示意图。
具体实施方式
16.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
17.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
18.请参阅图1，图1是本技术数据挖掘方法一实施方式的流程示意图，该方法包括：
19.s101：获得第一数据集，并对第一数据集中的所有数据进行治理。
20.具体地，获取到第一数据集后，判断第一数据集中数据的类型，基于数据的类型对第一数据集中的所有数据进行治理，以提高第一数据集中数据的质量。
21.在一应用方式中，获取到第一数据集后，对第一数据集中的数据进行数据清洗，以删除重复数据并纠正存在的错误数据，并提供数据一致性，进一步地，对清洗后的数据进行探索性数据分析(exploratory data analysis，eda)对清洗后的数据进行缺失性分析，将清洗后的数据中完全缺失和非完全缺失的数据进行修正，其中，完全随机缺失指的是数据的缺失是完全随机的且不依赖于任何不完全变量或完全变量，随机缺失指的是数据的缺失不是完全随机的即该类数据的缺失依赖于其他完全变量。
22.在一具体应用场景中，获取到的第一数据集中的数据为文本数据，对文本数据进行查重，以删除重复的无效数据并查找文本数据中的无效数据，利用某个变量的样本均值、中位数或众数代替无效数据，进而对清洗后的数据进行eda探查，对清洗后的数据中的缺失数据利用固定值、加权均值或缺失数据的相邻值进行修正。
23.s102：判断治理后的第一数据集中的数据的质量评分是否小于第一阈值。
24.具体地，对治理后的第一数据集中的数据进行质量探查，获取第一数据集中的数据的质量评分。
25.在一应用方式中，预先训练有对数据的质量进行评分的数据质量探查模型，将治
理后的第一数据集中的数据输入数据质量探查模型，利用数据质量探查模型输出数据对应的质量评分，当质量评分小于第一阈值时，则进入步骤s103，否则进入步骤s104。
26.s103：从治理后的第一数据集中筛选获得质量评分小于第一阈值的第三数据集，响应于第三数据集内存在数据，则将第三数据集作为第一数据集。
27.具体地，将质量评分小于第一阈值的数据组成第三数据集，当第三数据集中存在数据时，将第三数据集更新为第一数据集，进而返回对第一数据集中的所有数据进行治理的步骤，以形成对数据进行治理的闭环。
28.其中，将质量较低的数据再次进行数据治理，以实现数据治理阶段的闭环流程，提高用于数据挖掘的数据的质量。
29.在一应用方式中，获得第三数据集中数据的数量与第一数据集中数据的数量的比值，当比值大于预设数值时，则在返回对第一数据集中的所有数据进行治理的步骤之前调整对数据进行治理的策略，以提高数据治理后质量评分高于第一阈值的数据的比例。
30.s104：从治理后的第一数据集中筛选获得质量评分大于或等于第一阈值的第二数据集，响应于第二数据集内存在数据，则将第二数据集内的所有数据作为输入数据输入当前的业务结构，获得满足第一业务目标的输出结果。
31.具体地，将质量评分大于或等于第一阈值的数据组成第二数据集，当第二数据集内存在数据时将第二数据集中的所有数据作为输入数据，获取业务系统中的第一业务目标，利用当前的业务结构在输入数据中筛选出满足第一业务目标的输出结果。
32.可选地，对于初次筛选不满足第一业务目标的数据，可组成新的第二数据集进行再次筛选，以降低单次筛选的随机性导致数据挖掘不够准确的概率。
33.在一应用方式中，当第二数据集中存在数据，且该数据为文本数据时，业务结构包括词向量生成模型，利用词向量生成模型提取文本数据对应的词向量，基于词向量挖掘满足第一业务目标的输出结果。
34.s105：基于当前的业务结构每次输出的输出结果，对业务结构进行迭代优化，以形成对业务结构进行优化的闭环，从而获得目标业务结构以用于对输入数据进行数据挖掘。
35.具体地，基于业务结构当前的输出结果，判断当前的输出结果预测的准确率是否已超过预设的第二阈值，若未达到则对业务结构进行迭代优化从而形成对业务结构进行优化的闭环，以最终获得预测准确率超过第二阈值的业务结构作为目标业务结构。
36.进一步地，利用目标业务结构以用于对输入数据进行数据挖掘，从而筛选出满足第一业务目标的数据，用于支持业务应用，从而形成从数据输入到数据治理，从数据治理到数据筛选，从数据筛选至反馈满足业务目标的数据用于业务应用的全周期的业务挖掘流程。
37.上述方案，在获得第一数据集后对第一数据集中的所有数据先进行治理，将质量评分低于第一阈值的第三数据集进行治理，形成对数据进行治理的闭环以提高数据的质量，将质量评分大于或等于第一阈值的第二数据集内的数据作为输入数据，利用当前的业务结构对输入数据进行数据分析，以获得满足第一业务目标的输出结果，基于每次的输出结果对当前的业务结构进行迭代优化，形成对业务结构进行优化的闭环。故此，本技术形成了数据输入、数据治理和数据挖掘的控制闭环，形成全周期的数据挖掘，并且在数据治理和业务结构进行优化的过程中形成业务的闭环，从而在多次挖掘的过程中，提高数据挖掘的
准确率。
38.请参阅图2，图2是本技术数据挖掘方法另一实施方式的流程示意图，该方法包括：
39.s201：获得第一数据集，并对第一数据集中的所有数据进行治理。
40.具体地，获取到第一数据集后，对第一数据集中的数据进行数据治理，以提高第一数据集中数据的质量。
41.在一应用方式中，对第一数据集中的数据进行治理，获取到第一数据集中的无效数据，利用第一数据集中所有数据的中位值对无效数据进行替换，获取到第一数据集中的缺失数据，利用与缺失数据前向相邻的数据对缺失数据进行替换。
42.进一步地，第一业务目标与第一数据集匹配，基于第一数据集的类型确定第一业务目标，进而获得与第一业务目标匹配的业务结构。
43.在一应用场景中，第一业务目标与第一数据集匹配，获得第一数据集的步骤之后，还包括：响应于获得的第一数据集为包括位置信息的文本数据，基于位置信息获取与第一数据集匹配的第一业务目标；获取第一业务目标的业务类型，基于业务类型获取与业务类型匹配的业务结构。
44.具体地，当第一数据集为包括位置信息的文本数据时，根据位置信息获取与第一数据集中数据类型匹配的第一业务目标。
45.在一具体应用场景中，当第一数据集为包括位置信息的文本数据时，则基于位置信息选择以获取同行人作为第一业务目标，进而基于第一业务目标的类型，从业务系统中获取与业务类型相匹配的业务结构。整个业务系统可兼容多种类型的业务结构，基于第一数据集中数据所包含的信息，确定第一业务目标，从而在业务系统中获取与第一业务目标相匹配的业务结构，以提高业务系统应用于不同类型的数据的适配性。
46.s202：判断治理后的第一数据集中的数据的质量评分是否小于第一阈值。
47.具体地，对第一数据集中的数据进行数据质量探查，以获得第一数据集中各个数据的质量评分，若质量评分小于第一阈值，则进入步骤s203，若质量评分大于或等于第一阈值，则进入步骤s207。
48.在一应用方式中，训练一个数据质量探测模型，该数据质量探测模型与数据的类型相对应，当数据为文本数据时，则首先从数据的完整度进行质量评分，当数据为语音数据时则首先从数据的可识别度进行质量评分，当数据为图像数据时则首先从图像分辨率进行评分，进而从数据的有效信息量和无效信息量的角度进行数据的质量评分，第一阈值以总评分的60％设定，小于第一阈值的为低质量数据，大于或等于第一阈值的为高质量数据。
49.s203：从治理后的第一数据集中筛选获得质量评分小于第一阈值的第三数据集，响应于第三数据集内存在数据，则将第三数据集作为第一数据集。
50.具体地，从治理后的第一数据集中筛选出质量评分小于第一阈值的数据组成第三数据集，因此，第三数据集中的数据为低质量的数据，将第三数据集中的数据作为新的第一数据集，以便对低质量的数据再次进行数据治理。
51.s204：判断当前返回次数是否超过第三阈值。
52.具体地，当前返回次数的初始值为0，判断当前返回次数是否大于预设的第三阈值，若未超过，则进入步骤s205，若超过，则进入步骤s206。
53.s205：将当前返回次数加一。
54.具体地，当前返回次数未超过第三阈值时，则将当前返回次数加一并返回至对第一数据集中的所有数据进行治理的步骤。
55.s206：将第一数据集丢弃。
56.具体地，当前返回次数超过第三阈值时，则将第一数据集丢弃，以剔除多次治理后依然是低质量的数据，进而数据挖掘阶段无需对低质量的数据进行无意义的数据挖掘工作。
57.在一应用方式中，第三阈值为3，对低质量的数据进行多次治理，以提高第一数据集中的数据质量，增强数据挖掘的效果，将多次治理后质量评分依旧低于第一阈值的数据丢弃，以减轻数据治理和后续数据挖掘的负担。
58.可选地，返回对第一数据集中的所有数据进行治理的步骤之前，还包括：调整对第一数据集中的所有数据进行治理的策略。
59.具体地，当对数据进行过治理后，在返回对数据进行治理前，调整对数据进行治理的策略，从而对数据进行重新治理，以改善数据的治理效果。
60.在一应用方式中，在初次对数据进行治理时，对第一数据集中的数据进行治理，获取到第一数据集中的无效数据，利用第一数据集中所有数据的中位值对无效数据进行替换，获取到第一数据集中的缺失数据，利用与缺失数据前向相邻的数据对缺失数据进行替换。当再次返回至数据治理阶段前，将治理策略修改为利用第一数据集中所有数据的样本均值对无效数据进行替换，利用与缺失数据相邻的部分数据的加权均值对缺失数据进行替换。从而在初次治理后对治理效果不佳的数据，采用更加精细的数据修正方式，以提高数据治理的效果。
61.s207：从治理后的第一数据集中筛选获得质量评分大于或等于第一阈值的第二数据集。
62.具体地，将质量评分大于或等于第一阈值的数据组成第二数据集，当第二数据集中存在数据时进入步骤s208。
63.s208：响应于第二数据集内存在数据，则将第二数据集内的所有数据作为输入数据输入当前的业务结构，获得满足第一业务目标的输出结果。
64.具体地，获得与业务类型匹配的业务结构，进而将输入数据输入当前的业务结构，获得满足第一业务目标的输出结果。
65.在一应用场景中，当第一数据集为包括位置信息的文本数据时，将输入数据输入与业务类型匹配的业务结构，以获得输入数据对应的词向量；对词向量进行聚类归档，以获得满足第一业务目标的数据和不满足第一业务目标的数据作为输出结果。
66.具体地，基于位置信息获取与第一数据集匹配的第一业务目标，进而基于业务类型获取与业务类型匹配的业务结构。
67.进一步地，业务结构包括词向量生成模型，用于充分提取输入数据对应的词向量，进而以第一业务目标为挖掘依据利用k
‑
means、分层聚类、关联聚类算法中的任意一种聚类算法挖掘对词向量进行文本挖掘，从而获得满足第一业务目标的数据，赋予业务系统对自然语言的理解力，提高泛化能力。
68.在一应用场景中，请参阅图3，图3是图2中步骤s208对应的一实施方式的流程示意图，步骤s208具体包括：
69.s301：获得输入数据。
70.具体地，获得输入数据，其中输入数据为包括位置信息的文本数据，对输入数据进行数据预处理，以使输入数据与词向量模型匹配。
71.s302：利用sentence embedding生成模型获取输入数据的词向量。
72.具体地，请参阅图4，图4是本技术图3中步骤s302对应的一实施方式的拓扑示意图，业务结构包括sentence embedding生成模型，其中sentence embedding生成模型包括bert模块，所述将输入数据输入与业务类型匹配的业务结构，以获得输入数据对应的词向量的步骤，包括：
73.将输入数据分别输入不同的bert模块，以获得两个预设维度的第一词向量；将两个第一词向量分别输入不同的池化层，以获得对应的两个第二词向量；将两个第二词向量和两个第二词向量之间的差值输入分类器，以获得第二词向量的概率分布；基于概率分布以获得输入数据对应的词向量。
74.具体地，当处于训练阶段时，训练数据设置有第一标识，以用于区分训练阶段和应用阶段，在训练阶段，需要大量输入数据a和b，其中，a和b为文本的正负样本组合，经过bert模块后获得第一词向量，经过池化后分别获得第二词向量u和第二词向量v，将第二词向量u和第二词向量v以及两者的差值输入到softmax分类器中，以获得第二词向量的概率分布，基于第二词向量的概率分布从而获取概率最高的第二词向量作为输入数据对应的词向量。其中，左右分支的bert与池化共享权重，借助孪生网络思想，通过离线存储sentence embedding，提高系统的运行速度。
75.可选地，当处于应用阶段时，则只需要利用虚线框内的模块，对输入数据进行提取和转换，以挖掘输入数据高阶特征的词向量，提高词向量之间的分离度。
76.需要说明的是，bert模块包括向量生成单元、文本信息提取单元和位置信息提取单元；将输入数据分别输入不同的bert模块的步骤，包括：响应于bert模块获取到输入数据，输入数据经向量生成单元获得预设维度的向量，经文本信息提取单元获得文本信息向量，经位置信息提取单元获得位置信息向量；将预设维度的向量、文本信息向量和位置信息向量合成以获得预设维度的第一词向量。
77.具体地，bert模块将输入数据装换为词向量分为3个部分，输入数据经向量生成单元token embeddings获得预设维度的向量，经文本信息提取单元segment embeddings获得文本信息向量，经位置信息提取单元position embeddings获得位置信息向量，将各向量合成以获得预设维度的第一词向量，从而获取输入数据中多个层次和类型的信息，以便于挖掘出与第一业务目标相匹配的数据。
78.s303：利用聚类算法对词向量进行文本挖掘，以获得满足业务结构对应的输出结果。
79.具体地，利用k
‑
means、分层聚类、关联聚类算法中的任意一种聚类算法挖掘对词向量进行文本挖掘，从而获得满足第一业务目标的数据和不满足第一业务目标的数据，输出业务结构对应的输出结果。
80.s209：获得当前的业务结构输出的满足第一业务目标的输出结果。
81.具体地，获得当前的业务结构所输出的输出结果，输出结果中包括满足第一业务目标的数据和不满足第一业务目标的数据。
82.s210：判断当前的输出结果满足第一业务目标的准确率是否超过第二阈值。
83.具体地，对输出结果中判断是否满足第一业务目标的准确率进行校验，若准确率未超过第二阈值则进入步骤s211，若超过第二阈值则进入步骤s212。
84.s211：对业务结构进行优化。
85.具体地，对业务结构中的各参数进行修正，进而返回至获得当前的业务结构输出的满足第一业务目标的输出结果的步骤。通过对业务结构的迭代优化，形成对业务结构进行优化的闭环，以使业务结构对输入数据进行数据挖掘的能力不断增强。
86.可选地，当处于训练阶段时，当获取到输出结果的准确率超过第二阈值的业务结构后则将当前的业务结构固定作为目标业务结构。当处于应用阶段时，当输出结果的准确率未超过第二阈值，则对当前的目标业务结构进行优化，以更新当前的目标业务结构。
87.s212：将当前的业务结构作为目标业务结构，以使目标业务结构用于对输入数据进行筛选，以获得满足第一业务目标的数据。
88.具体地，将预测准确率超过第二阈值的业务结构作为目标业务结构，在获得目标业务结构之后，对任何经过数据清洗后获得的输入数据即可进行判断，以筛选出满足第一业务目标的数据，将业务结构的优化阶段与业务结构的应用阶段解耦开。
89.在本实施例中，数据治理和数据挖掘阶段分别形成各自阶段的子闭环，将数据质量连接数据治理与业务应用，实现对数据治理效果鉴定，并赋能后续的业务系统，将训练与应用解耦开，提高业务系统的运行效率以及数据挖掘的准确率。
90.请参阅图5，图5是本技术电子设备一实施方式的结构示意图，该电子设备50包括相互耦接的存储器501和处理器502，其中，存储器501存储有程序数据(图未示)，处理器502调用程序数据以实现上述任一实施例中的数据挖掘方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。
91.请参阅图6，图6是本技术计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质60存储有程序数据600，该程序数据600被处理器执行时实现上述任一实施例中的数据挖掘方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。
92.需要说明的是，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
93.另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
94.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
95.以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种任务请求的处理方法、装置、管理服务器和存储介质与流程

数据挖掘方法、电子设备和计算机可读存储介质与流程

相关文献

最热文献