数据处理方法、装置、设备及存储介质与流程

2022-03-23 06:36:54 来源：中国专利 TAG：

1.本技术属于计算机技术领域，尤其涉及一种数据处理方法、装置、设备及存储介质。

背景技术：

2.金融数据在其结构上存在相应数据节点，数据结构的变化或者数据节点的产生就意味着企业面临的经营风险产生了较大的变化。因此，企业为了控制经营风险而最大化经营效率，需要对数据结构进行分析，对相关的数据结构节点能够做到较为准确的判断。
3.现有技术中的数据处理方法可以对时间序列数据的数据结构节点直接进行判断，然而其往往存在着滞后性偏差的问题。例如，预测模型需要选择一定窗宽的历史样本进行模型参数估计(如适应性算法等)，对窗口左侧节点的判断往往比较实际节点更向左移动，因此现有技术中对于数据结构节点的确定存在误差。

技术实现要素：

4.本技术实施例提供一种数据处理方法、装置、设备及存储介质，可以提高数据分析的准确率。
5.第一方面，本技术实施例提供一种数据处理方法方法，包括：
6.获取在目标区间内的时间序列数据的n个初始数据结构节点，其中，n≥3，且n为正整数，所述两个相邻初始数据结构节点之间包括多个数据点；所述目标区间为从时间序列数据中选取的任意一段区间；
7.计算所述目标区间内第一数据点对应的信息差异统计量，其中，所述第一数据点为所述目标区间内任意一个数据点，所述第一数据点对应的信息差异统计量为所述第一数据点对应的第一区间内的子区间的信息差异统计量，所述第一数据点对应的第一区间为所述第一数据点两侧相邻的两个数据点之间的区间，所述子区间为相邻两个数据点之间的区间；
8.根据所述每个第一数据点对应的信息差异统计量对所述n个初始数据结构节点进行校正，得到目标数据结构节点。
9.第二方面，本技术实施例提供一种数据处理装置，包括：
10.获取模块，用于获取在目标区间内的时间序列数据的n个初始数据结构节点，其中，n≥3，且n为正整数，所述两个相邻初始数据结构节点之间包括多个数据点；所述目标区间为从时间序列数据中选取的任意一段区间；
11.计算模块，用于计算所述目标区间内第一数据点对应的信息差异统计量，其中，所述第一数据点为所述目标区间内任意一个数据点，所述第一数据点对应的信息差异统计量为所述第一数据点对应的第一区间内的子区间的信息差异统计量，所述第一数据点对应的第一区间为所述第一数据点两侧相邻的两个数据点之间的区间，所述子区间为相邻两个数据点之间的区间；
12.校正模块，用于根据所述每个第一数据点对应的信息差异统计量对所述n个初始数据结构节点进行校正，得到目标数据结构节点。
13.第三方面，本技术实施例提供了一种电子设备，设备包括：处理器以及存储有计算机程序指令的存储器；
14.处理器执行计算机程序指令时实现如第一方面所示的数据处理方法。
15.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所示的数据处理方法。
16.第五方面，本技术实施例提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得所述电子设备执行如第一方面所示的数据处理方法。
17.本技术实施例提供的数据处理方法，首先从时间序列数据中选取一段区间确定为目标区间，获取在目标区间内的时间序列数据的n个初始数据结构节点，然后计算每个数据点对应的信息差异统计量，根据每个数据点对应的信息差异统计量对获得的n个初始数据结构节点进行校正，得到目标数据结构节点。计算每个数据点对应的信息差异统计量，可以将数据点相对于相邻数据点之间的信息差异进行量化，通过信息差异统计量即可判断出该数据点相较于前后相邻两个数据点的数据的信息变化量，因此可以通过信息差异统计量准确判断出数据结构节点，实现对数据结构节点的校正，提高数据结构节点判断的准确率。
附图说明
18.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1是本技术实施例提供的数据处理方法的流程示意图；
20.图2是本技术另一实施例提供的数据处理方法的流程示意图；
21.图3是本技术实施例提供的数据处理装置的结构示意图；
22.图4是本技术实施例提供的电子设备的结构示意图。
具体实施方式
23.下面将详细描述本技术的各个方面的特征和示例性实施例，为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本技术进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本技术，而不是限定本技术。对于本领域技术人员来说，本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
24.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括
……”
限定的要素，并不排除在包括
要素的过程、方法、物品或者设备中还存在另外的相同要素。
25.为了解决现有技术问题，本技术实施例提供了一种数据处理方法、装置、设备及存储介质。下面首先对本技术实施例所提供的数据处理方法进行介绍。
26.商业银行大量实证证据表明，以利率期限结构为代表的金融数据在其结构上存在相应数据节点，其结构节点的存在实际上是数据在其不同维度发展上(如时间序列发展上)的结构性变化显性表达。这种数据结构变化的发生标志着对应数据所传递的信息发生了重大变化，其可能是系统内部产生的结构性变化导致的，也可能是由于外部环境宏观因素或者政策影响导致的。如果数据表达的是企业的经营状况或其关心的相关指标，数据结构的变化或者数据节点的产生就意味着企业面临的经营风险产生了较大的变化。因此，企业从控制经营风险而最大化经营效率的根本出发，存在对数据结构分析的强烈需求，要求能够对相关的数据节点能够做到较为准确的判断。
27.现有技术中的数据处理方法可以对数据构建数据模型，并对数据结构节点直接进行判断，然而其往往存在着滞后性偏差的问题。例如，预测模型需要选择一定窗宽的历史样本进行模型参数估计(如适应性算法等)，对窗口左侧节点的判断往往比较实际节点更向左移动。左侧多出的样本点所含有信息是右侧区间内的信息是不一致的，使用其参与模型参数的估计反而会使得预测产生更大的偏误。
28.于是，为了能够有效、快速校正时间序列数据结构性节点，本技术提出了以信息熵为基础对时间序列数据的数据结构节点进行校正的数据处理方法。
29.下面对本技术中涉及的一些名词进行解释：
30.数据结构：本发明中的数据结构专指数据在不同维度上的统计学特征，是数据的具体信息表达。例如，有数据集合为所有1岁以内婴儿的体重数据，那么其均值即为其一项数据结构，表达的是1岁以内婴儿的平均升高这一信息。
31.图1示出了本技术一个实施例提供的数据处理方法的流程示意图。如图1所示，该方法包括如下步骤101至103。
32.步骤101，获取在目标区间内的时间序列数据的n个初始数据结构节点。
33.步骤102，计算目标区间内第一数据点对应的信息差异统计量。
34.步骤103，根据每个第一数据点对应的信息差异统计量对n个初始数据结构节点进行校正，得到目标数据结构节点。
35.上述各步骤的具体实现方式将在下文中进行详细描述。
36.本技术实施例提供的数据处理方法，根据每个数据点对应的信息差异统计量，可以判断出该数据点相较于前后相邻两个数据点的数据波动大小，因此可以通过信息差异统计量准确判断出数据结构节点，实现对数据结构节点的校正，提高数据结构节点判断的准确率。
37.下面介绍上述各个步骤的具体实现方式。
38.在步骤101中，获取在目标区间内的时间序列数据的n个初始数据结构节点。其中，n≥3，且n为正整数，两个相邻初始数据结构节点之间包括多个数据点；目标区间为从时间序列数据中选取的任意一段区间。
39.时间序列是指在一定时间内按时间顺序测量的某个变量的取值序列。在多个时间点观察或测量的任何事物都可以形成一段时间序列。时间序列(time series)数据是一种
重要的结构化数据形式。
40.具体地，在对时间序列数据进行分析处理时，首先需要在时间序列数据中选取一段数据区间作为数据处理的目标区间，针对目标区间内的时间序列数据，确定时间序列数据的初始数据结构节点。
41.在一些实施例中，可以通过数据结构节点算法获取时间序列数据的数据结构节点。
42.例如，在时间序列数据中选取每一段数据区间[x1,x
t
]作为目标区间，在区间[x1,x
t
]内的时间序列数据{x1,x2,x3,x4,x5…
,x
t
},通过数据结构节点算法得到数据结构节点集{x1,x4,
…
,x
t
}。
[0043]
在一些实施例中，获取在目标区间内的时间序列数据的n个初始数据结构节点，可以包括：
[0044]
根据时间序列数据构建时间序列模型；
[0045]
根据时间序列模型得到时间序列数据在目标区间内的n个初始数据结构节点。
[0046]
具体地，在获取一组数据后，对这组数据进行分析处理，需要先找到数据的特征，描述数据的特征，因此对时间序列数据进行分析可以是使用统计的手段对这个时间序列数据进行分析，以此对该数据的变化特性构建数据模型，根据数据模型可以得到该时间序列数据的数据结构节点。
[0047]
以市场利率期限的时间序列数据为例，在一些实施例中，利率期限的数据模型可以被表示为：
[0048]yt 1
＝e
t
(y
t 1
|θ,φ
t
)
[0049]
其中，φ
t
为历史信息集φ
t
＝{x
t
,y
t
}＝{x1,x2,
…
,x
t
,y1,y2,
…
,y
t
}，y
t
是相关产品的市场利率水平，x
t
是影响市场利率水平的因子向量，参数集为θ＝{θ1,θ2,
…
,θk}，参数集中包括了利率期限参数。
[0050]
根据时间序列数据模型获得初始数据结构节点，现有技术中存在多种方法，例如适应性算法等，具体操作方法可根据实际应用场景而确定，本技术对于初始数据结构节点的获取方法不做限定。
[0051]
例如，对于任意一段区间[x1,x
t
]上的时间序列数据{x1,x2,x3,x4,x5…
,x
t
},通过构建时间序列模型，可以获得该时间序列在区间[x1,x
t
]上的n个数据结构节点{x1,x5…
,x
t
}。
[0052]
在步骤102中，计算目标区间内第一数据点对应的信息差异统计量。
[0053]
信息差异统计量的是描述数据之间的信息量差异的统计量，差异反应了数据间的离散程度。
[0054]
其中，第一数据点可以为目标区间内任意一个数据点，第一数据点对应的信息差异统计量为第一数据点对应的第一区间内的子区间的信息差异统计量，第一数据点对应的第一区间为第一数据点两侧相邻的两个数据点之间的区间，子区间为相邻两个数据点之间的区间。例如，假设在目标区间[x1,x
t
]上的，时间序列数据为{x1,x2,x3,x4,x5…
,x
t
},则数据点x2对应的第一区间为[x1,x3)，而x2对应的第一区间内的子区间为[x1,x2)和[x2,x3)。
[0055]
对于数据之间的差异的统计量，差异统计量可以是：极差、四分位差、方差、标准差、测量相对离散程度的变异系数等等。
[0056]
在本技术一些实施例中，对第一数据点对应的信息差异统计量的计算，可以采用
以下方法：
[0057]
计算第一数据点对应的第一区间的信息熵和第一区间内的子区间的信息熵；
[0058]
根据第一区间的信息熵和第一区间内的每个子区间的信息熵，分别计算每个子区间与第一区间的绝对kl散度估计值；
[0059]
将子区间与第一区间的绝对kl散度估计值相加，得到第一数据点对应的信息差异统计量。
[0060]
熵在信息论中代表随机变量不确定度的度量，在数学上，信息熵是信息量的期望。利用信息熵可以对信息进行量化，计算出数据的信息量，即一个事件发生所带来的信息。因此可以基于信息熵公式和绝对kl散度公式对时间序列数据中的数据点两侧的子区间的信息差异统计量进行计算，得到每个数据点对应的信息差异的统计量。
[0061]
在本示例中，基于信息熵和最大化类kl散度技术，可以计算出第一数据点对应的信息差异统计量，将数据点之间的信息差异进行量化，直观的展现出数据点之间的信息差异。
[0062]
在一个示例中，以上述示例中的利率期限的时间序列数据为例，根据利率期限的时间序列数据模型y
t 1
＝e
t
(y
t 1
|θ,φ
t
)，其中，φ
t
为历史信息集φ
t
＝{x
t
,y
t
}＝{x1,x2,
…
,x
t
,y1,y2,
…
,y
t
}，y
t
是相关产品的市场利率水平，x
t
是影响市场利率水平的因子向量，参数集为θ＝{θ1,θ2,
…
,θk}，参数集中包括了利率期限参数。
[0063]
对于目标区间i＝[x0,x
t
]＝{x1,x2,x3,x4,x5…
,xs,
…
,x
t
}，信息熵的计算公式为：
[0064]
h(θs,i)＝-e(log f(x)|θs,i)
ꢀꢀ
(1)
[0065]
其中，f(
·
)是概率密度函数，样本x∈i，而参数集)是概率密度函数，样本x∈i，而参数集
[0066]
基于上述信息熵公式，可以通过绝对kl散度公式计算θs与θ
t
之间的信息差异量d
kl
(θs||θ
t
)：
[0067]
绝对kl散度计算公式为：
[0068][0069]
在一些实施例中，当θs和θ
t
表示两个区间的数据集时，可以通过以下公式计算两个区间的绝对kl散度估计值
[0070][0071]
其中，n为区间中的数据点的个数。
[0072]
当第一数据点为xs，第一区间为is∪i
s 1
，第一区间内子区间为is＝[x
s-1
,xs)和i
s 1
＝[x
s-1
,xs)，基于绝对kl散度估计值，通过以下公式计算区间is与区间i
s 1
的信息差异统计量ts：
[0073]
[0074]
在本示例中，基于信息熵和最大化类kl散度技术，对数据点两侧相邻的子区间的数据进行统计量构造，可以计算出数据点对应的信息差异统计量，将数据点之间的信息差异进行量化，直观的展现出数据点之间的信息差异。
[0075]
需要说明的是，本技术提出的上述计算方法并不限于利率期限的时间序列数据，因此对于信息差异的统计量的计算并不仅限于利率期限相关数据。对于不同类型的时间序列模型，相应的信息差异统计量的计算也可以进行相应的调整。例如，对于风险水平控制的调节，可以根据不同的数据特征，重新定义对应的绝对kl散度d
kl,m
(θs||θ
t
)＝e|(logf(xs)|θs,is)-(logf(xs)|θ
t
,is)|m，从而统计量则调整为，从而统计量则调整为
[0076]
在步骤103中，根据每个第一数据点对应的信息差异统计量对n个初始数据结构节点进行校正，得到目标数据结构节点。
[0077]
在步骤102中计算出每个目标区间内的数据点对应的信息差异统计量，因此根据每个第一数据点对应的信息差异统计量的数值大小，可以通过比较信息差异统计量的大小，找出数据产生变化的节点，即在一段区间内，信息差异统计量最大或者超过预设阈值的数据点为数据结构节点。
[0078]
具体地，对于获取的目标区间内的n个初始数据结构节点，对于每个初始数据结构节点进行校正，需要先确定每个初始数据结构节点的校正范围，确定好校正范围之后，通过校正范围内每个第一数据点对应信息差异统计量的数值大小，找出信息差异统计量最大的第一数据点，根据每个初始数据结构节点的矫正范围内的信息差异统计量最大的第一数据点，对初始数据结构节点进行校正。
[0079]
在一些示例中，可以将目标区间内超过预设阈值的信息差异统计量对应的数据点，确定为新的数据结构节点。
[0080]
在一些示例中，也可以根据获得的n个初始数据结构节点将目标区间划分为多个同质区间(即第二区间：初始数据结构节点两侧相邻的两个初始数据结构节点之间的区间)，对于每个同质区间将信息差异统计量最大的数据点确定为新的数据结构节点。
[0081]
例如：对于初始数据结构性节点集例如：对于初始数据结构性节点集(即获取在目标区间内的时间序列数据的n个初始数据结构节点)，根据初始数据结构节点对目标区间进行分割，得到多个同质区间：且且
[0082]
在一些实施例中，根据每个第一数据点对应的信息差异统计量对n个初始数据结构节点进行校正，得到目标数据结构节点，可以包括：
[0083]
确定步骤：针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点确定为第一初始数据结构节点，得到每个初始数据结构节点的第一初始数据结构节点；第二区间为初始数据结构节点两侧相邻的两个初始数据结构节点之间的区间；
[0084]
第一更新步骤：根据每个第一初始数据结构节点对初始数据结构节点进行更新；
[0085]
在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点；
[0086]
在不满足预设条件的情况下，循环执行确定步骤和第一更新步骤，直至满足预设条件。
[0087]
在一个示例中，如图2所示：
[0088]
s201，获取时间序列数据；
[0089]
s202，获取时间时序列数据初始数据结构节点和同质区间(相邻的两个初始数据结构节点之间的区间)：
[0090]
构建时间序列数据模型y
t 1
＝e
t
(y
t 1
|θ,φ
t
)，其中历史信息集为φ
t
＝{x
t
,y
t
}＝{x1,x2,
…
,x
t
,y1,y2,
…
,y
t
}，参数集为θ＝{θ1,θ2,
…
,θk}，目标区间i＝[x0,x
t
]。
[0091]
根据数据模型通过结构性节点算法获取初始数据结构性节点集根据数据模型通过结构性节点算法获取初始数据结构性节点集(即获取在目标区间内的时间序列数据的n个初始数据结构节点)，根据初始数据结构节点对目标区间进行分割，得到多个同质区间：且且
[0092]
s203、确认迭代次数。即除端点以外每个初始数据结构节点完成校正的次数。可以预先设置好每个初始数据结构节点的迭代(校正)次数，也可以设置其它停止迭代的条件。这一步骤可以设置，也可以不设置。
[0093]
s204、确定第s个节点(即)的对应的第二区间，根据第二区间内信息差异统计量最大的数据点校正第s个节点.
[0094]
(1)固定结构性节点和在区间(即对应的第二区间)中的寻找最大信息差异统计量的结构性节点的结构性节点即将第二区间中的每个第一数据点，代入上述公式(1)(2)(4)，得到第二区间内每个第一数据点对应的信息差异统计量；将数值最大的信息差异统计量记为将对应的第一数据点确定为第一初始数据结构节点
[0095]
(2)固定结构性节点和可在区间中寻找最大化统计量的结构性节点(即将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点确定为第一初始数据结构节点，得到该初始数据结构节点的第一初始数据结构节点)。
[0096]
(3)按步骤(2)，在对应第二区区间中确认相应的结构性节点(即确定步骤：针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点确定为第一初始数据结构节点，得到每个初始数据结构节点的第一初始数据结构节点)。
[0097]
获得首次迭代的结构性节点其中样本区间两端点保持不变。按结构性节点的变化，相应的同志区间的划分调整为(即第一更新步骤：根据每个第一初始数据结构节点对初始数据结构节点进行更新)。
[0098]
s205、判断是否除端点外的所有节点完成迭代，若是转到s206，若否转到s204；
[0099]
s206、判断是否完成迭代次数或者节点稳定：
[0100]
若否，转到s202，重复s202-205的工作进行第k次迭代。固定结构性节点和在区间中寻找最大化统计量的结构性节点即可获得第k次迭代生成的结构性节点集以及相应第k次迭代生成的同质区间以及相应第k次迭代生成的同质区间(即在不满足预设条件的情况下，循环执行确定步骤和第一更新步骤，直至满足预设条件。)
[0101]
若是，迭代至第k次或者结构性节点稳定或事先确定的相关迭代目标(如时间序列数据预测效果等)，则认为完成数据结构节点校正，即在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点。
[0102]
在本示例中，对于初始数据结构节点的校正，在完成一次校正即除端点外的每个初始数据结构节点都完成一次确认步骤和第一更新步骤的过程中保持初始数据结构节点不变，完成一次校正后，再根据获得的每个第一初始数据结构节点对所有初始数据结构节点进行更新，经过循环执行校正步骤，使得校正过程中数据结构节点收敛于正确的结构性断点。本示例的数据结构节点校正方法获得的数据结构节点稳定性更好。
[0103]
在一些实施例中，根据每个第一数据点对应的信息差异统计量对n个初始数据结构节点进行校正，得到目标数据结构节点，可以包括：
[0104]
第二更新步骤：针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点更新为初始数据结构节点，得到更新后的初始数据结构节点；第二区间为初始数据结构节点两侧相邻的两个初始数据结构节点之间的区间；
[0105]
在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点；
[0106]
在不满足预设条件的情况下，循环执行第二更新步骤，直至满足预设条件。
[0107]
在一个示例中，对于数据模型y
t 1
＝e
t
(y
t 1
|θ,φ
t
)，其中历史信息集为φ
t
＝{x
t
,y
t
}＝{x1,x2,
…
,x
t
,y1,y2,
…
,y
t
}，参数集为θ＝{θ1,θ2,
…
,θk}，目标区间i＝[x0,x
t
]。
[0108]
s301.获取在目标区间内的时间序列数据的n个初始数据结构节点。根据数据模型通过结构性节点算法获取初始数据结构性节点集通过结构性节点算法获取初始数据结构性节点集根据初始数据结构节点对目标区间进行分割，得到多个同质区间：且且且
[0109]
s302.将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点更新为初始数据结构节点，得到更新后的初始数据结构节点；下一个初始数据结构节点以更新后的初始数据结构节点为基础进行更新。
[0110]
固定结构性节点和在对应的第二区间中寻找最大化统计量的结构性节点即将第二区间中的每个第一数据点，代入上述公式(1)、(3)、(4)，得到第二区间内每个第一数据点对应的信息差异统计量；将数值最大的信息差异统计量记为将对应的第一数据点确定为第一初始数据结构节点节点
[0111]
固定结构性节点和可在在对应的第二区间(其中根据更新后的确定)中寻找最大化统计量的结构性节点
[0112]
s303.针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点更新为初始数据结构节点，得到更新后的初始数据结构节点，即第二更新步骤。
[0113]
按s302的步骤，在区间(其中(其中(其中为更新后的初始数据结构节点)中确认相应的结构性节点那么，可获得首次迭代的结构性节点其中样本区间两端点保持不变。按结构性节点的变化，相应的同质区间调整为端点保持不变。按结构性节点的变化，相应的同质区间调整为
[0114]
s304.在不满足预设条件的情况下，循环执行第二更新步骤，直至满足预设条件。
[0115]
重复s302-s303进行第k次迭代。固定结构性节点和在区间(其中)中寻找最大化统计量的结构性节点即可获得第k次迭代生成的结构性节点集以及相应第k次迭代生成的同质区间以及相应第k次迭代生成的同质区间
[0116]
s305.在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点。
[0117]
迭代至第k次达成结构性节点稳定或事先确定的相关迭代目标(如时间序列数据预测效果等)，则认为完成数据结构节点校正。
[0118]
在本示例中，对于初始数据结构节点的校正，在完成一次校正即对每个初始数据结构节点完成第二更新步骤的过程中，将新确认的数据结构节点对初始数据结构节点进行实时更新，下一个初始数据结构节点的校正以更新后的初始数据结构节点为基础进行校正。经过循环执行校正步骤，使得校正过程中数据结构节点收敛于正确的结构性断点，本示例的数据结构节点校正方法收敛速度更快。
[0119]
在一些实施例中，上述预设条件可以是完成预设次数数据结构节点校正或者数据结构节点趋于稳定。
[0120]
本技术实施例提供的数据处理方法，本技术实施例提供的数据处理方法，根据每个数据点对应的信息差异统计量的数值大小，可以判断出该数据点与前后相邻两个数据点之间的信息量差异的大小，因此可以通过信息差异统计量准确判断出数据结构节点，实现对数据结构节点的校正，提高数据结构节点判断的准确率。
[0121]
如图3所示，本技术实施例还提供了一种数据处理装置，包括获取模块301、计算模块302和校正模块303。
[0122]
获取模块301，用于获取在目标区间内的时间序列数据的n个初始数据结构节点，其中，n≥3，且n为正整数，两个相邻初始数据结构节点之间包括多个数据点；目标区间为从时间序列数据中选取的任意一段区间；
[0123]
计算模块302，用于计算目标区间内第一数据点对应的信息差异统计量，其中，第一数据点为目标区间内任意一个数据点，第一数据点对应的信息差异统计量为第一数据点对应的第一区间内的子区间的信息差异统计量，第一数据点对应的第一区间为第一数据点两侧相邻的两个数据点之间的区间，子区间为相邻两个数据点之间的区间；
[0124]
校正模块303用于根据每个第一数据点对应的信息差异统计量对n个初始数据结构节点进行校正，得到目标数据结构节点。
[0125]
在一些实施例中，为了快速获取时间序列数据的初始数据结构节点，上述数据处理装置还可以包括：
[0126]
模型构建模块，用于根据时间序列数据构建时间序列模型；
[0127]
数据结构节点获取模块，用于根据时间序列模型得到时间序列数据在目标区间内
的n个初始数据结构节点。
[0128]
在一个实施例中，为了使将第一数据点之间的信息差异进行量化，上述计算模块302，具体用于：
[0129]
计算第一数据点对应的第一区间的信息熵和第一区间内的子区间的信息熵；
[0130]
根据第一区间的信息熵和第一区间内的每个子区间的信息熵，分别计算每个子区间与第一区间的绝对kl散度估计值；
[0131]
将子区间与第一区间的绝对kl散度估计值相加，得到第一数据点对应的信息差异统计量。
[0132]
在一些实施例中，上述校正模块303，可以包括：
[0133]
确定单元，用于执行确定步骤：针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点确定为第一初始数据结构节点，得到每个初始数据结构节点的第一初始数据结构节点；第二区间为初始数据结构节点两侧相邻的两个初始数据结构节点之间的区间；
[0134]
第一更新单元，用于执行第一更新步骤：根据每个第一初始数据结构节点对初始数据结构节点进行更新；
[0135]
在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点；
[0136]
在不满足预设条件的情况下，循环执行确定步骤和第一更新步骤，直至满足预设条件。
[0137]
在一些实施例中，上述校正模块303，可以包括：
[0138]
第二更新模块，用于执行第二更新步骤：针对每个初始数据结构节点，分别执行以下操作：将初始数据结构节点对应的第二区间内信息差异统计量最大的第一数据点更新为初始数据结构节点，得到更新后的初始数据结构节点；第二区间为初始数据结构节点两侧相邻的两个初始数据结构节点之间的区间；
[0139]
在满足预设条件的情况下，将更新后的初始数据结构节点确定为目标数据结构节点；
[0140]
在不满足预设条件的情况下，循环执行第二更新步骤，直至满足预设条件。
[0141]
本技术实施例提供的数据处理装置，本技术实施例提供的数据处理方法，根据每个数据点对应的信息差异统计量的数值大小，可以判断出该数据点与前后相邻两个数据点之间的信息量差异的大小，因此可以通过信息差异统计量准确判断出数据结构节点，实现对数据结构节点的校正，提高数据结构节点判断的准确率。
[0142]
图4示出了本技术实施例提供的电子设备的硬件结构示意图。
[0143]
在电子设备可以包括处理器401以及存储有计算机程序指令的存储器402。
[0144]
具体地，上述处理器401可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0145]
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器402可包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个或更多个以上这些的组合。在合
适的情况下，存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器402可在综合网关容灾设备的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。
[0146]
存储器可包括只读存储器(rom)，随机存取存储器(ram)，磁盘存储介质设备，光存储介质设备，闪存设备，电气、光学或其他物理/有形的存储器存储设备。因此，通常，存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如，存储器设备)，并且当该软件被执行(例如，由一个或多个处理器)时，其可操作来执行参考根据本公开的一方面的方法所描述的操作。
[0147]
处理器401通过读取并执行存储器402中存储的计算机程序指令，以实现上述实施例中的任意一种数据处理方法。
[0148]
在一个示例中，电子设备还可包括通信接口403和总线404。其中，如图4所示，处理器401、存储器402、通信接口403通过总线404连接并完成相互间的通信。
[0149]
通信接口403，主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
[0150]
总线404包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线304可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
[0151]
另外，结合上述实施例中的数据处理方法，本技术实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据处理方法。
[0152]
需要明确的是，本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本技术的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本技术的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0153]
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0154]
还需要说明的是，本技术中提及的示例性实施例，基于一系列的步骤或者装置描
述一些方法或系统。但是，本技术不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
[0155]
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。
[0156]
以上，仅为本技术的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于数学孪生的网箱网衣破损检测方法、装置及存储介质与流程

数据处理方法、装置、设备及存储介质与流程

相关文献

最热文献