数据流的未关联数据的确定方法、装置与数据处理系统与流程

2022-04-09 06:48:16 来源：中国专利 TAG：

1.本技术涉及计算机领域，具体而言，涉及一种数据流的未关联数据的确定方法、装置、计算机可读存储介质、处理器与数据处理系统。

背景技术：

2.在实时数据处理实时数据流时，由于流消息的无限性以及消息乱序的影响，本应关联上的消息进入处理系统的时间可能有较大差异，同时一条流中的消息可能需要和另一条流的多条消息关联。
3.在上述场景下flink原生提供了一种对经过分组后的两条数据流进行关联的方式即intervaljoin，这种关联方式可以连接两个keyedstream,两个流(下面分别称为左流和右流)按照相同的key，在一个基于数据时间的时间段内进行连接，左流和右流中每条记录只关联另外一条流上同一时间段内相同key值的数据。进行完关联后，仍然保留输入流上的时间列，然后继续进行基于数据时间的操作。
4.现有主流技术在基于key和时间段进行两条数据流进行关联的数据处理场景下，主要是采用flink原生提供的intervaljoin算子来完成。其实现方式主要有如下几个步骤：
5.1)将两个数据流进行连接操作，使两个数据流之间可以实现状态共享，二者相同key的数据可以相互访问。
6.2)在连接后的数据流之上进行关联算子操作，在算子中定义了实际数据处理逻辑，以及两个状态对象(mapstate类型)，分别用来缓存两个流的数据，其中状态对象的key对应数据的时间戳，value对应相同时间戳的数据。
7.3)判断数据流中数据记录的延时，当数据时间小于当前的watermark值认为数据延时则不处理，反之将数据添加到对应的缓存状态对象中，key为数据的时间。
8.4)循环遍历另外一个状态对象中的数据对象(即另一条数据流中的数据元素)，如果该数据对象的数据时间在本数据对象的数据时间往前或往后的一段时间间隔内(时间间隔实际值可以通过算子参数传入)，则认为两个数据对象可以关联上，调用数据处理逻辑进行处理。
9.5)在上一步遍历后没有关联到另一条流中任何数据的数据对象则不做处理。
10.综上所诉，flink原生的intervaljoin算子对不满足关联条件的数据是直接丢弃处理，调用算子的应用程序无法对这部分数据进行发现做进一步的处理。
11.在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现要素：

12.本技术的主要目的在于提供一种数据流的未关联数据的确定方法、装置、计算机可读存储介质、处理器与数据处理系统，以解决现有技术中无法对未关联数据进行发现的
问题。
13.根据本发明实施例的一个方面，提供了一种数据流的未关联数据的确定方法，包括：获取第一数据对象的数据时间和第二数据对象的数据时间，所述第一数据对象为第一键数据流的数据对象，所述第二数据对象为第二键数据流的数据对象，所述数据时间为所述第一数据对象或者所述第二数据对象的产生的时间点；将所述数据时间在第一预定范围内的所述第二数据对象与对应的所述第一数据对象进行数据关联，使得关联上的所述第一数据对象的关联状态由未关联更新为已关联，所述第一预定范围与所述第一数据对象一一对应；将所述数据时间在第二预定范围内的所述第一数据对象与对应的所述第二数据对象进行数据关联，使得关联上的所述第二数据对象的关联状态由未关联更新为已关联，所述第二预定范围与所述第二数据对象一一对应；在所述第一数据对象的处理时间达到第一预定处理时间且所述第一数据对象的关联状态为所述未关联的情况下，记录所述第一数据对象，所述第一预定处理时间与所述第一数据对象一一对应；在所述第二数据对象的处理时间达到第二预定处理时间且所述第二数据对象的关联状态为所述未关联的情况下，记录所述第二数据对象，所述第二预定处理时间与所述第二数据对象一一对应。
14.可选地，在将所述数据时间在第一预定范围内的所述第二数据对象与对应的所述第一数据对象进行数据关联之前，所述方法还包括：在所述第一数据对象的数据时间小于第一水印时间的情况下，对所述第一数据对象进行锁定，使得所述第一数据对象无法进行数据关联；在所述第二数据对象的数据时间小于第二水印时间的情况下，对所述第二数据对象进行锁定，使得所述第二数据对象无法进行数据关联。
15.可选地，在将所述数据时间在第一预定范围内的所述第二数据对象与对应的所述第一数据对象进行数据关联，使得关联上的所述第一数据对象的关联状态由未关联更新为已关联之后，所述方法还包括：将所述第一数据对象和第一关联数据对象存储在所述第一数据对象的第一关联数据集合中，所述第一关联数据对象为所述第一数据对象关联上的所述第二数据对象；对所述第一关联数据集合进行数据处理。
16.可选地，在将所述数据时间在第二预定范围内的所述第一数据对象与对应的所述第二数据对象进行数据关联，使得关联上的所述第二数据对象的关联状态由未关联更新为已关联之后，所述方法还包括：将所述第二数据对象和第二关联数据对象存储在所述第二数据对象的第二关联数据集合中，所述第二关联数据对象为所述第二数据对象关联上的所述第一数据对象；对所述第二关联数据集合进行数据处理。
17.可选地，在获取第一数据对象的数据时间和第二数据对象的数据时间之前，所述方法还包括：将第一数据流的数据记录和第二数据流的数据记录按照所述数据时间进行分组，得到所述第一键数据流和所述第二键数据流，所述数据对象为一组所述数据时间相同的所述数据记录。
18.可选地，所述第一预定范围的最小值为所述第一数据对象的数据时间与第一时间间隔的差，所述第一预定范围的最大值为所述第一数据对象的数据时间与第二时间间隔的和，所述第二预定范围的最小值为所述第二数据对象的数据时间与第三时间间隔的差，所述第二预定范围的最大值为所述第二数据对象的数据时间与第四时间间隔的和。
19.根据本发明实施例的另一方面，还提供了一种数据流的未关联数据的确定装置，包括：获取单元，用于获取第一数据对象的数据时间和第二数据对象的数据时间，所述第一
数据对象为第一键数据流的数据对象，所述第二数据对象为第二键数据流的数据对象，所述数据时间为所述第一数据对象或者所述第二数据对象的产生的时间点；第一处理单元，用于将所述数据时间在第一预定范围内的所述第二数据对象与对应的所述第一数据对象进行数据关联，使得关联上的所述第一数据对象的关联状态由未关联更新为已关联，所述第一预定范围与所述第一数据对象一一对应；第二处理单元，用于将所述数据时间在第二预定范围内的所述第一数据对象与对应的所述第二数据对象进行数据关联，使得关联上的所述第二数据对象的关联状态由未关联更新为已关联，所述第二预定范围与所述第二数据对象一一对应；第一记录单元，用于在所述第一数据对象的处理时间达到第一预定处理时间且所述第一数据对象的关联状态为所述未关联的情况下，记录所述第一数据对象，所述第一预定处理时间与所述第一数据对象一一对应；第二记录单元，用于在所述第二数据对象的处理时间达到第二预定处理时间且所述第二数据对象的关联状态为所述未关联的情况下，记录所述第二数据对象，所述第二预定处理时间与所述第二数据对象一一对应。
20.根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。
21.根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。
22.根据本发明实施例的另一方面，还提供了一种数据处理系统，包括一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。
23.在本发明实施例中，上述数据流的未关联数据的确定方法中，首先，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；之后，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；之后，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；之后，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；最后，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。该方法将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
附图说明
24.构成本技术的一部分的说明书附图用来提供对本技术的进一步理解，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
25.图1示出了根据本技术的实施例的一种数据流的未关联数据的确定方法的流程示意图；
26.图2示出了根据本技术的实施例的一种数据流的未关联数据的确定装置的结构示意图；
27.图3示出了根据本技术的实施例的数据流的未关联数据的确定方法的流程示意图。
具体实施方式
28.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
29.为了使本技术领域的人员更好地理解本技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分的实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
30.需要说明的是，本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
31.应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。
32.为了便于描述，以下对本技术实施例涉及的部分名词或术语进行说明：
33.flink：apache flink是由apache软件基金会开发的开源流处理框架，其核心是用java和scala编写的分布式流数据流引擎。flink以数据并行和流水线方式执行任意流数据程序，flink的流水线运行时系统可以执行批处理和流处理程序。此外，flink的运行时本身也支持迭代算法的执行。
34.键数据流：即keyedstream，表示按指定定规则生成的键值key进行分组过的数据流，数据流是在时间分布和数量上无限的一系列数据记录的集合体，是对无边界数据集的抽象。数据记录是数据流的最小组成单元，对应现实中各个数据源产生的事件信息如：交易记录、网站的访问pv/uv、用户访问的内容、搜索的内容等。
35.正如背景技术中所说的，现有技术中的无法对未关联数据进行发现，为了解决上述问题，本技术的一种典型的实施方式中，提供了一种数据流的未关联数据的确定方法、装
置、计算机可读存储介质、处理器与数据处理系统。
36.根据本技术的实施例，提供了一种数据流的未关联数据的确定方法。
37.图1是根据本技术实施例的数据流的未关联数据的确定方法的流程图。如图1所示，该方法包括以下步骤：
38.步骤s101，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；
39.步骤s102，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；
40.步骤s103，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；
41.步骤s104，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；
42.步骤s105，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。
43.上述数据流的未关联数据的确定方法中，首先，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；之后，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；之后，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；之后，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；最后，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。该方法将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
44.需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
45.具体地，上述第一数据对象和上述第二数据对应均存储在缓存器中。
46.本技术的一种具体的实施例中，在上述数据对象的关联状态为未关联的情况下，记录上述第一数据对象或上述第二数据对象之后，或在上述数据对象关联之后，将上述第一数据对象或上述第二数据对象从缓存中器移除。
47.本技术的一种实施例中，在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联之前，上述方法还包括：在上述第一数据对象的数据时间小于第一水印时间的情况下，对上述第一数据对象进行锁定，使得上述第一数据对象无法进行数据关联；在上述第二数据对象的数据时间小于第二水印时间的情况下，对上述第二数据对象进行锁定，使得上述第二数据对象无法进行数据关联。在实际的应用中，数据对象可能会发生迟延，为了使得数据对象迟延导致对数据对象状态的误判，本实施例中，当上述第一数据对象的数据时间小于第一水印时间或当上述第二数据对象的数据时间小于第二水印时间，则判断数据对象发生了迟延，则将数据对象进行锁定，不进行下一步处理，在此种情况下，当前数据对应不会关联到任何一个数据对象。
48.本技术的再一种实施例中，在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联之后，上述方法还包括：将上述第一数据对象和第一关联数据对象存储在上述第一数据对象的第一关联数据集合中，上述第一关联数据对象为上述第一数据对象关联上的上述第二数据对象；对上述第一关联数据集合进行数据处理。本实施例中，在数据关联之后，还将第一数据对象和第一关联数据对象存储在第一关联数据集合中，便于用户后续对已经关联的数据进行数据处理。
49.本技术的又一种实施例中，在将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联之后，上述方法还包括：将上述第二数据对象和第二关联数据对象存储在上述第二数据对象的第二关联数据集合中，上述第二关联数据对象为上述第二数据对象关联上的上述第一数据对象；对上述第二关联数据集合进行数据处理。本实施例中，在数据关联之后，还将第二数据对象和第二关联数据对象存储在第二关联数据集合中，便于用户后续对已经关联的数据进行数据处理。
50.本技术的另一种实施例中，在获取第一数据对象的数据时间和第二数据对象的数据时间之前，上述方法还包括：将第一数据流的数据记录和第二数据流的数据记录按照上述数据时间进行分组，得到上述第一键数据流和上述第二键数据流，上述数据对象为一组上述数据时间相同的上述数据记录。为了使两个数据流之间可以实现状态共享，本实施例中，根据上述数据时间将第一数据流和第二数据流进行分组，得到第一键数据流和第二键数据流，上述数据对象为一组上述数据时间相同的上述数据记录，数据时间相同表面数据对象的键值相同，键值相同的数据对象可以互相访问，从而实现了两个数据流之间的状态共享。
51.本技术的再一种实施例中，上述第一预定范围的最小值为上述第一数据对象的数据时间与第一时间间隔的差，上述第一预定范围的最大值为上述第一数据对象的数据时间与第二时间间隔的和，上述第二预定范围的最小值为上述第二数据对象的数据时间与第三时间间隔的差，上述第二预定范围的最大值为上述第二数据对象的数据时间与第四时间间
隔的和。本实施例中，如果数据对象的数据时间在本数据对象的数据时间的前或后一段时间间隔内，则认为两个数据对象可以关联。
52.具体地，上述时间间隔的数值均大于0，上述时间间隔的数值可以根据用户的实际需要来设置。
53.本技术实施例还提供了一种数据流的未关联数据的确定装置，需要说明的是，本技术实施例的数据流的未关联数据的确定装置可以用于执行本技术实施例所提供的用于数据流的未关联数据的确定方法。以下对本技术实施例提供的数据流的未关联数据的确定装置进行介绍。
54.图2是根据本技术实施例的数据流的未关联数据的确定装置的示意图。如图2所示，该装置包括：
55.获取单元10，用于获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；
56.第一处理单元20，用于将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；
57.第二处理单元30，用于将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；
58.第一记录单元40，用于在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；
59.第二记录单元50，用于在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。
60.上述数据流的未关联数据的确定装置，包括获取单元、第一处理单元、第二处理单元、第一记录单元和第二记录单元，其中，获取单元用于获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；第一处理单元用于将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；第二处理单元用于将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；第一记录单元用于在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；第二记录单元用于在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第
二数据对象一一对应。该装置将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
61.具体地，上述第一数据对象和上述第二数据对应均存储在缓存器中。
62.本技术的一种具体的实施例中，在上述数据对象的关联状态为未关联的情况下，记录上述第一数据对象或上述第二数据对象之后，将上述第一数据对象或上述第二数据对象从缓存中器移除。
63.本技术的一种实施例中，上述装置还包括第一锁定单元和第二锁定单元，其中，上述第一锁定单元用于在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联之前，在上述第一数据对象的数据时间小于第一水印时间的情况下，对上述第一数据对象进行锁定，使得上述第一数据对象无法进行数据关联；上述第二锁定单元用于在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联之前，在上述第二数据对象的数据时间小于第二水印时间的情况下，对上述第二数据对象进行锁定，使得上述第二数据对象无法进行数据关联。在实际的应用中，数据对象可能会发生迟延，为了使得数据对象迟延导致对数据对象状态的误判，本实施例中，当上述第一数据对象的数据时间小于第一水印时间或当上述第二数据对象的数据时间小于第二水印时间，则判断数据对象发生了迟延，则将数据对象进行锁定，不进行下一步处理，在此种情况下，当前数据对应不会关联到任何一个数据对象。
64.本技术的再一种实施例中，上述装置还包括第一存储单元和第三处理单元，其中，上述第一存储单元用于在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联之后，将上述第一数据对象和第一关联数据对象存储在上述第一数据对象的第一关联数据集合中，上述第一关联数据对象为上述第一数据对象关联上的上述第二数据对象；上述第三处理单元用于对上述第一关联数据集合进行数据处理。本实施例中，在数据关联之后，还将第一数据对象和第一关联数据对象存储在第一关联数据集合中，便于用户后续对已经关联的数据进行数据处理。
65.本技术的又一种实施例中，上述装置还包括第二存储单元和第四处理单元，其中，上述第二存储单元用于在将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联之后，将上述第二数据对象和第二关联数据对象存储在上述第二数据对象的第二关联数据集合中，上述第二关联数据对象为上述第二数据对象关联上的上述第一数据对象；上述第四处理单元用于对上述第二关联数据集合进行数据处理。本实施例中，在数据关联之后，还将第二数据对象和第二关联数据对象存储在第二关联数据集合中，便于用户后续对已经关联的数据进行数据处理。
66.本技术的另一种实施例中，上述装置还包括第五处理单元，其中，上述第五处理单元用于在获取第一数据对象的数据时间和第二数据对象的数据时间之前，将第一数据流的数据记录和第二数据流的数据记录按照上述数据时间进行分组，得到上述第一键数据流和上述第二键数据流，上述数据对象为一组上述数据时间相同的上述数据记录。为了使两个
数据流之间可以实现状态共享，本实施例中，根据上述数据时间将第一数据流和第二数据流进行分组，得到第一键数据流和第二键数据流，上述数据对象为一组上述数据时间相同的上述数据记录，数据时间相同表面数据对象的键值相同，键值相同的数据对象可以互相访问，从而实现了两个数据流之间的状态共享。
67.本技术的再一种实施例中，上述第一预定范围的最小值为上述第一数据对象的数据时间与第一时间间隔的差，上述第一预定范围的最大值为上述第一数据对象的数据时间与第二时间间隔的和，上述第二预定范围的最小值为上述第二数据对象的数据时间与第三时间间隔的差，上述第二预定范围的最大值为上述第二数据对象的数据时间与第四时间间隔的和。本实施例中，如果数据对象的数据时间在本数据对象的数据时间的前或后一段时间间隔内，则认为两个数据对象可以关联。
68.具体地，上述时间间隔的数值均大于0，上述时间间隔的数值可以根据用户的实际需要来设置。
69.上述数据流的未关联数据的确定装置包括处理器和存储器，上述获取单元、第一处理单元、第二处理单元、第一记录单元和第二记录单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
70.处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中无法对未关联数据进行发现的问题。
71.存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flash ram)，存储器包括至少一个存储芯片。
72.本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述数据流的未关联数据的确定方法。
73.本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述数据流的未关联数据的确定方法。
74.本发明实施例提供了一种数据处理系统，包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法。
75.上述的数据处理系统，包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法，该方法将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
76.本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：
77.步骤s101，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；
78.步骤s102，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；
79.步骤s103，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；
80.步骤s104，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；
81.步骤s105，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。
82.本文中的设备可以是服务器、pc、pad、手机等。
83.本技术还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：
84.步骤s101，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；
85.步骤s102，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；
86.步骤s103，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；
87.步骤s104，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；
88.步骤s105，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。
89.为了使得本领域技术人员能够更加清楚地了解本公开的技术方案，以下将结合具体的实施例与对比例对本公开的技术方案进行详细说明。
90.实施例
91.该数据流的未关联数据的确定方法流程示意图如图3所示，该方法包括以下步骤：
92.将第一数据流的数据记录和第二数据流的数据记录按照所述数据时间进行分组，得到所述第一键数据流和所述第二键数据流，然后对所述第一键数据流和所述第二键数据流进行关联；
93.关联的过程如下：
94.分别将第一键数据流和第二键数据流分别写入缓存器，然后根据数据时间判断数
据对象是否延迟，如果延迟就锁定，如果没有延迟就进行数据对象关联，判断数据对象的数据时间是否在预定范围内，如果在就更新状态为已关联，然后关联数据对象，关联数据对象之后，将数据对象从缓存器中移除；
95.在第一数据对象的处理时间达到第一预定处理时间或第二数据对象的处理时间达到第二预定处理时间，如果关联状态中存在未关联状态，记录数据对象，然后将数据对象从缓存器中移除。
96.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
97.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
98.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
99.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
100.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的计算机可读存储介质包括：u盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
101.从以上的描述中，可以看出，本技术上述的实施例实现了如下技术效果：
102.1)、本技术的数据流的未关联数据的确定方法，首先，获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；之后，将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；之后，将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；之后，在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一
预定处理时间与上述第一数据对象一一对应；最后，在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。该方法将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
103.2)、本技术的数据流的未关联数据的确定装置，包括获取单元、第一处理单元、第二处理单元、第一记录单元和第二记录单元，其中，获取单元用于获取第一数据对象的数据时间和第二数据对象的数据时间，上述第一数据对象为第一键数据流的数据对象，上述第二数据对象为第二键数据流的数据对象，上述数据时间为上述第一数据对象或者上述第二数据对象的产生的时间点；第一处理单元用于将上述数据时间在第一预定范围内的上述第二数据对象与对应的上述第一数据对象进行数据关联，使得关联上的上述第一数据对象的关联状态由未关联更新为已关联，上述第一预定范围与上述第一数据对象一一对应；第二处理单元用于将上述数据时间在第二预定范围内的上述第一数据对象与对应的上述第二数据对象进行数据关联，使得关联上的上述第二数据对象的关联状态由未关联更新为已关联，上述第二预定范围与上述第二数据对象一一对应；第一记录单元用于在上述第一数据对象的处理时间达到第一预定处理时间且上述第一数据对象的关联状态为上述未关联的情况下，记录上述第一数据对象，上述第一预定处理时间与上述第一数据对象一一对应；第二记录单元用于在上述第二数据对象的处理时间达到第二预定处理时间且上述第二数据对象的关联状态为上述未关联的情况下，记录上述第二数据对象，上述第二预定处理时间与上述第二数据对象一一对应。该装置将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
104.3)、本技术的数据处理系统，包括一个或多个处理器，存储器以及一个或多个程序，其中，上述一个或多个程序被存储在上述存储器中，并且被配置为由上述一个或多个处理器执行，上述一个或多个程序包括用于执行任意一种上述的方法，该方法将第一键数据流和第二键数据流的数据对象进行数据关联，并在达到对应预定处理时间时记录没有关联上的数据对象，以便于后续对没有关联上的数据对象进一步进行处理，以避免数据处理过程中对没有关联上的数据对象直接丢弃处理，解决了现有技术中无法对未关联数据进行发现的问题。
105.以上上述仅为本技术的优选实施例而已，并不用于限制本技术，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

数据流的未关联数据的确定方法、装置与数据处理系统与流程

相关文献

最热文献