一种数据处理方法、装置、设备和存储介质与流程

2021-10-24 05:20:00 来源：中国专利 TAG：数据处理装置方法设备存储介质

1.本技术涉及数据处理领域，尤其涉及一种数据处理方法、装置、设备和存储介质。

背景技术：

2.随着网络应用通讯技术的不断发展，对网络流量数据进行挖掘处理的需求也越来越普遍。现有技术中，主要是通过对网络流量数据进行标准化数据处理并且将问题数据过滤掉，来实现对网络流量数据的挖掘处理。
3.发明人在实现本发明的过程中，发现现有技术存在如下缺陷：在原始网络流量数据不完整的情况下，仅通过标准化处理而得到的网络流量数据可能会存在质量不高的问题，从而无法为后续业务系统提供数据支撑。

技术实现要素：

4.本发明实施例提供了一种数据处理方法、装置、设备和存储介质，以通过设置信息处理规则并且根据信息处理规则在知识库中确定目标用户信息，解决在原始网络流量数据不完整的情况下，仅通过标准化处理而得到的网络流量数据可能会存在质量不高的问题。
5.第一方面，本发明实施例提供了一种数据处理方法，包括：
6.获取用户使用网络过程中产生的当前网络流量数据；
7.获取信息处理规则；其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度；
8.当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息；其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的；
9.将所述目标用户信息对应回填到所述当前网络流量数据中。
10.第二方面，本发明实施例还提供了一种数据处理装置，包括：
11.获取模块，用于获取用户使用网络过程中产生的当前网络流量数据；
12.第一获取模块，获取信息处理规则；其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度；
13.确定模块，用于当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息；其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的；
14.回填模块，用于将所述目标用户信息对应回填到所述当前网络流量数据中。
15.第三方面，本发明实施例还提供了一种数据处理设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例中任一项所述方
法的步骤。
16.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例中任一项所述方法的步骤。
17.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息缺失时，能够通过当前网络流量数据在目标维度的关联维度下的已有用户信息，以及通过对用户使用网络过程中产生的网络流量数据实时学习积累得到的知识库，来回填当前网络流量数据中缺失的目标用户信息，使得当前网络流量数据更加完整，从而提高了网络流量数据的质量。
附图说明
18.图1为本发明实施例一提供的数据处理方法的一种流程图；
19.图2为本发明实施例二提供的数据处理方法的另一种流程图；
20.图3为本发明实施例三提供的数据处理方法的又一种流程图；
21.图4是本发明实施例四中的数据处理装置的一种结构示意图；
22.图5为本发明实施例五提供的数据处理设备的一种结构示意图。
具体实施方式
23.下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。
24.实施例一
25.图1为本发明实施例一提供的数据处理方法的一种流程图，本实施例可适用于对具有数据缺失的网络流量数据进行挖掘处理的情况，该方法可以由一种数据处理装置来执行，具体包括如下步骤：
26.s110、获取用户使用网络过程中产生的当前网络流量数据。
27.用户终端在使用互联网的过程中，通过与服务器的交互，会不断产生上网原始数据，经过对上网原始数据的解析，可以得到网络流量数据。其中，网络流量数据中可以包括用户上网的各类信息，例如，各类信息中可以包括该条网络流量数据的产生时间、该条网络流量数据所属用户的用户信息、所属用户的上网操作内容(如在微信群中发送了一条视频)。以用户使用微信为例，上述用户信息可以包括用户终端id、用户的微信号、用户上网所在地、用户的手机号、用户姓名以及相关的网络运营商信息等。同时，上述当前网络流量数据为当前待处理的网络流量数据。
28.本发明中运用卡夫卡对网络流量数据进行存储，卡夫卡是一种用于记录或信息存储的系统，卡夫卡可以对数据进行批量处理，具有存取速度快的特点。因此，可以将实时解析的网络流量数据接入到卡夫卡系统中，当需要对网络流量数据进行处理时，从卡夫卡系统中获取用户使用网络过程中产生的当前网络流量数据。
29.s120、获取信息处理规则。
30.其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度。目标维度可以理解为需要重点关注的用户信息所在的维度，关联
维度是与需要重点关注的用户信息相关联的用户信息所在的维度。通常，网络流量数据在目标维度下的用户信息可能会丢失，然而网络流量数据在关联维度下的用户信息不容易缺失，因此，可以考虑使用网络流量数据在关联维度下的用户信息来确定目标维度下缺失的用户信息。例如，以信息处理规则为用户的手机号/微信号为例，假设后续业务分析比较关注的是用户的手机号，同时，在一般情况下，考虑到网络流量数据中用户的微信号不容易缺失，因此，可以将用户的手机号设置为目标维度，用户的微信号设置为关联维度，利用用户的微信号来确定用户的手机号。需要说明的是，本技术实施例在此仅以信息处理规则为用户的手机号/微信号为例示出，在实际应用中，可以结合实际的业务需求设置对应的信息处理规则，如所设置的信息处理规则可以为用户的微信号/用户终端id(如国际移动用户识别码(international mobile subscriber identification number，imsi))。
31.这样，在对当前网络流量数据进行处理时，可以从当前网络流量数据对应的元数据中获取用于对当前网络流量数据进行处理的信息处理规则，从而获取到目标维度和关联维度。
32.s130、当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息。
33.可选的，确定所述当前网络流量数据在所述目标维度下的目标用户信息是否缺失的过程可以为：判断所述当前网络流量数据在所述目标维度下的内容是否为空；若是，则确定所述当前网络流量数据中的目标用户信息缺失；若否，则确定所述当前网络流量数据中的目标用户信息没有缺失。
34.其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的。
35.大量的网络流量数据中，针对同一用户，可能部分网络流量数据的质量较高，部分网络流量数据的质量较低，可以参照质量较高的网络流量数据对质量较低的网络流量数据中缺失的用户信息进行填补。因此，可以通过对质量较高的网络流量数据进行学习，从而从网络流量数据中学习到同一用户在目标维度和关联维度下的用户信息，这样，经过一段学习积累之后，知识库中便可以存储有多个用户在目标维度和关联维度下的用户信息。
36.这样，在当前网络流量数据在所述目标维度下的目标用户信息缺失时，便可以根据当前网络流量数据在关联维度下的已有用户信息，从知识库中查找已有用户信息，并将已有用户信息关联的用户信息确定为当前网络流量数据在目标维度下的目标用户信息。以目标维度为用户的手机号，关联维度为用户的微信号为例，同时假设当前网络流量数据中的微信号为123，当确定当前网络流量数据在维度“手机号”下的目标用户信息缺失时，此时便可以基于微信号“123”，从知识库中查找与微信号“123”关联的用户信息，并将该用户信息确定为当前网络流量数据在维度“手机号”下的目标用户信息。
37.s140、将所述目标用户信息对应回填到所述当前网络流量数据中。
38.将在s130中从知识库中得到的目标用户信息回填到当前网络流量数据中。继续以s130中的例子为例，在确定出当前网络流量数据在维度“手机号”下的目标用户信息之后，便可以将该目标用户信息回填到当前网络流量数据中，使得当前网络流量数据不再缺失目标用户信息。
39.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息缺失时，能够通过当前网络流量数据在目标维度的关联维度下的已有用户信息，以及通过对用户使用网络过程中产生的网络流量数据实时学习积累得到的知识库，来回填当前网络流量数据中缺失的目标用户信息，使得当前网络流量数据更加完整，从而提高了网络流量数据的质量。
40.实施例二
41.图2为本发明实施例二提供的数据处理方法的另一种流程图，实施例二对实施例一的技术方案进行了进一步的完善。如图2所示，一种数据处理方法包括如下步骤：
42.s210、获取用户使用网络过程中产生的当前网络流量数据。
43.s220、获取信息处理规则。
44.s230、当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息。
45.s240、将所述目标用户信息对应回填到所述当前网络流量数据中。
46.s250、当所述当前网络流量数据在所述目标维度下的目标用户信息没有缺失时，根据所述信息处理规则，从所述当前网络流量数据中的已有用户信息集中，提取所述目标用户信息以及所述目标用户信息的关联用户信息。
47.以目标维度为用户的手机号，关联维度为用户的微信号为例，同时假设当前网络流量数据中的微信号为123，当确定当前网络流量数据在维度“手机号”下的目标用户信息完整时，此时便从当前网络流量信息中提取维度“手机号”下的目标用户信息和维度“微信号”下的已有用户信息，维度“微信号”下的已有用户信息为目标用户信息的关联用户信息。
48.s260、将所述目标用户信息和所述关联用户信息进行关联，并根据所述信息处理规则将关联后的数据存储到所述知识库中。
49.在得到目标用户信息和关联用户信息之后，按照信息处理规则将目标用户信息和关联用户信息进行关联存储。继续以s250中的例子为例，将维度“手机号”下的目标用户信息和维度“微信号”下的已有用户信息关联存储到知识库中，便于在后续的网络流量数据中的目标用户信息缺失时利用知识库中的信息进行回填。在
50.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息没有缺失时，通过使用信息处理规则提取当前网络流量数据中的目标用户信息以及目标用户信息的关联用户信息，并将提取到的目标用户信息和关联用户信息关联存储到知识库中，通过对质量较高的网络流量数据的实时学习，使得知识库中积累到多个用户在目标维度和关联维度下的用户信息，为后续质量较低的网络流量数据的回填做好了准备。
51.可选的，可以对所述关联后的数据设置对应的数据老化时间，在所述数据老化时间超时后，从所述知识库中删除所述关联后的数据。根据实际情况预先定义老化时间，老化时间到达后，认为数据库中的数据已经不具有可参考性，甚至可能使补充完整后的网络流量数据出现错误，因此及时删除知识库中已老化的数据。
52.这样设置的好处在于，为知识库的可靠性提供保障，防止从知识库中获取到失效错误的信息。
53.实施例三
54.图3为本发明实施例三提供的数据处理方法的又一种流程图，实施例三对实施例一的技术方案进行了进一步的完善。如图3所示，一种数据处理方法包括如下步骤：
55.s310、获取用户使用网络过程中产生的当前网络流量数据。
56.s320、获取信息处理规则。
57.s330、当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息。
58.s340、将所述目标用户信息对应回填到所述当前网络流量数据中。
59.s350、根据回填后的所述当前网络流量数据中的业务操作类型和预设的规则映射关系，确定所述业务操作类型对应的目标提取字段；其中，所述规则映射关系中包括不同的业务操作类型与提取字段之间的映射关系。
60.通过将目标用户信息回填到当前网络流量数据中，当前网络流量数据得到了完善，即数据处理装置后续可以对完善后的网络流量数据进行进一步地挖掘处理。数据处理装置可以预先设置规则映射关系，用于指示业务操作类型与提取字段之间的映射关系。不同的业务操作类型所关注的信息不同，因此，可以为不同的业务操作类型设置对应的提取字段，仅从当前网络流量数据中提取该业务操作类型所关注的提取字段下的信息即可。例如，当业务操作类型为通过微信发送视频时，与该业务操作类型对应的提取字段可以包括发送视频的时间、地点、所占用的基站、发送者的手机号、微信号以及imsi等，以及接收者的微信号等。
61.因此，数据处理装置可以从当前网络流量数据中读取用户的业务操作类型，并从预设的规则映射关系中确定与该业务操作类型对应的目标提取字段。
62.s360、根据所述目标提取字段，对回填后的所述当前网络流量数据进行结构化提取，形成新网络流量数据。
63.数据处理装置根据目标提取字段，从当前网络流量数据中提取目标提取字段下的信息，从而形成新网络流量数据。例如，以s350中的例子为例，从当前网络流量数据中提取发送视频的时间、地点、所占用的基站、发送者的手机号、微信号以及imsi等字段下的信息，以及接收者的微信号等字段下的信息，将提取结果作为新的网络流量数据，用于后续的挖掘处理。
64.本实施例的技术方案，通过使用规则映射关系对回填后的当前网络流量数据进行结构化提取，使新网络流量数据相比原始数据量减小，解决了数据量大处理缓慢耗费资源的问题，达到了提高网络流量数据后续处理效率的效果。
65.在形成新网络流量数据之后，在上述实施例的基础上，可选的，存储所述新网络流量数据，并过滤回填后的所述当前网络流量数据。由于数据处理装置中的存储空间有限，因此在存储新网络流量数据之后，可以将结构化提取前的当前网络流量数据删除。
66.这样设置的好处在于，过滤掉重复或无用的网络流量数据，从而节省存储空间。
67.实施例四
68.图4是本发明实施例四中的数据处理装置的一种结构示意图，该装置可以执行上述各实施例中涉及到的一种数据处理方法。参照图4，该装置包括：
69.第一获取模块410，用于获取用户使用网络过程中产生的当前网络流量数据；
70.第二获取模块420，获取信息处理规则；其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度；
71.确定模块430，用于当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息；其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的；
72.回填模块440，用于将所述目标用户信息对应回填到所述当前网络流量数据中。
73.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息缺失时，能够通过当前网络流量数据在目标维度的关联维度下的已有用户信息，以及通过对用户使用网络过程中产生的网络流量数据实时学习积累得到的知识库，来回填当前网络流量数据中缺失的目标用户信息，使得当前网络流量数据更加完整，从而提高了网络流量数据的质量。
74.在上述实施例的基础上，数据处理装置还可以包括：
75.信息提取模块，用于当所述当前网络流量数据在所述目标维度下的目标用户信息没有缺失时，根据所述信息处理规则，从所述当前网络流量数据中的已有用户信息集中，提取所述目标用户信息以及所述目标用户信息的关联用户信息；
76.数据存储模块，用于将所述目标用户信息和所述关联用户信息进行关联，并根据所述信息处理规则将关联后的数据存储到所述知识库中。
77.在上述各实施例的基础上，数据处理装置还可以包括：
78.老化定时模块，用于对所述关联后的数据设置对应的数据老化时间；
79.数据删除模块，用于在所述数据老化时间超时后，从所述知识库中删除所述关联后的数据。
80.在上述实施例的基础上，确定模块430还用于判断所述当前网络流量数据在所述目标维度下的内容是否为空；若是，则确定所述当前网络流量数据中的目标用户信息缺失；若否，则确定所述当前网络流量数据中的目标用户信息没有缺失。
81.在上述实施例的基础上，数据处理装置还可以包括：
82.目标提取字段确定模块，用于根据回填后的所述当前网络流量数据中的业务操作类型和预设的规则映射关系，确定所述业务操作类型对应的目标提取字段；其中，所述规则映射关系中包括不同的业务操作类型与提取字段之间的映射关系；
83.结构化提取模块，用于根据所述目标提取字段，对回填后的所述当前网络流量数据进行结构化提取，形成新网络流量数据。
84.在上述实施例的基础上，数据处理装置还可以包括：
85.新网络流量数据存储模块，用于存储所述新网络流量数据，并过滤回填后的所述当前网络流量数据。
86.在上述实施例的基础上，第一获取模块410具体用于从卡夫卡系统中获取用户使用网络过程中产生的当前网络流量数据。
87.实施例五
88.图5为本发明实施例五提供的数据处理设备的一种结构示意图，如图5所示，该设
备包括处理器510、存储器520、输入装置530和输出装置540；设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。
89.存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种数据处理方法对应的程序指令/模块(例如，一种数据处理装置中的第一获取模块410、第二获取模块420、确定模块430和回填模块440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的一种数据处理方法。所述方法包括：
90.获取用户使用网络过程中产生的当前网络流量数据；
91.获取信息处理规则；其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度；
92.当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息；其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的；
93.将所述目标用户信息对应回填到所述当前网络流量数据中。
94.存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
95.输入装置530可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
96.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息缺失时，能够通过当前网络流量数据在目标维度的关联维度下的已有用户信息，以及通过对用户使用网络过程中产生的网络流量数据实时学习积累得到的知识库，来回填当前网络流量数据中缺失的目标用户信息，使得当前网络流量数据更加完整，从而提高了网络流量数据的质量。
97.实施例六
98.本发明实施例六还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现一种数据处理方法的步骤，该方法包括：
99.获取用户使用网络过程中产生的当前网络流量数据；
100.获取信息处理规则；其中，所述信息处理规则用于指示对当前网络流量数据进行处理的目标维度和所述目标维度的关联维度；
101.当所述当前网络流量数据在所述目标维度下的目标用户信息缺失时，根据所述当前网络流量数据在所述关联维度下的已有用户信息，从知识库中确定所述目标用户信息；其中，所述知识库中存储有同一用户在所述目标维度和关联维度下的用户信息，且该用户
信息是通过对用户使用网络过程中产生的网络流量数据进行实时学习后得到的；
102.将所述目标用户信息对应回填到所述当前网络流量数据中。
103.当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种数据处理方法中的相关操作。
104.通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储装置(read
‑
only memory，rom)、随机存取存储装置(random access memory，ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。
105.本实施例的技术方案，在当前网络流量数据在目标维度下的目标用户信息缺失时，能够通过当前网络流量数据在目标维度的关联维度下的已有用户信息，以及通过对用户使用网络过程中产生的网络流量数据实时学习积累得到的知识库，来回填当前网络流量数据中缺失的目标用户信息，使得当前网络流量数据更加完整，从而提高了网络流量数据的质量。
106.值得注意的是，上述一种数据处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。
107.注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于落点区域检测的多模式抓取避障检测优化方法与流程

一种数据处理方法、装置、设备和存储介质与流程

相关文献

最热文献