一种数据处理方法和装置与流程

2023-01-14 11:37:04 来源：中国专利 TAG：

1.本发明涉及电商及信息安全技术领域，尤其涉及一种数据处理方法和装置。

背景技术：

2.通过对电商等零售类的企业的经营数据比如所售卖的商品的销量、进货价格、售卖价格、广告所产生的数据等进行分析，可以控制电商等零售类的企业的经营成本、发现所售卖的商品存在的销量异常问题、商家的异常行为比如刷单问题、销售欺诈、恶性竞争等。
3.目前，对电商等零售类的企业的经营数据的分析主要通过设置异常阈值、构建线性回归以及聚类等方式完成。但是，针对具有分段连续特点的阶梯式分布数据比如在商品更新迭代比如新款电子产品上市后，旧款商品采购价格或售卖价格会呈现断崖式或阶梯式下跌，且在一段时间内基本保持相对稳定的价格，现有的数据分析方式由于针对整体数据的分析，并不会按照阶梯式分布数据的分段特点进行分段分析，导致分析的结果误差较大，不能准确的分析出数据的异常。

技术实现要素：

4.有鉴于此，本发明实施例提供一种数据处理方法和装置，能够对阶梯式分布数据进行分段分析，以有效的提高数据异常分析的准确性，以准确的发现与数据异常相关的异常行为。
5.为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理方法，包括：
6.接收数据处理请求，其中，所述数据处理请求包括待分析指标；
7.获取对应于所述待分析指标的数据序列，其中，所述数据序列包括所述待分析指标的对应于多个时间点的指标数值；
8.将所述数据序列包括的多个指标数值划分成多个数组对，其中，每一个所述数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠；
9.针对每一个所述数组对，根据所述数组对具有的两个互补的数据组所包括的指标数值，计算所述数组对的指标损失；
10.根据多个所述数组对的指标损失，确定指标损失最小的目标数组对；
11.分别确定所述目标数组对中每一个数据组的异常指标数值及对应于所述异常指标数值的异常行为；
12.将所述异常指标数值和所述异常行为对应推送给管理端。
13.可选地，所述数据处理请求还包括数据类型；
14.在所述数据类型满足预设的数据处理条件的情况，执行将所述数据序列包括的多个指标数值划分成多个数组对的步骤。
15.可选地，述将所述数据序列包括的多个指标数值划分成多个数组对，包括：
16.在每相邻两个时间点之间构建出初始分割点；
17.针对每一个所述初始分割点，将位于所述初始分割点两侧的指标数值划分到两个互补的数据组中，构成一个数组对。
18.可选地，所述计算所述数组对的指标损失，包括：
19.计算所述数组对具有的两个互补的数据组的数组均值；
20.针对每一个所述指标数值，计算所述指标数值相对于其所属数据组的数组均值的方差；
21.累加每一个所述指标数值所对应的方差，得到所述数组对的指标损失。
22.可选地，上述数据处理方法，还包括：
23.从多个所述初始分割点中筛选出对应于最小指标损失的数组对的实际分割点，并确定经过所述实际分割点的直线为所述数据序列的阶梯分割线，其中，所述阶梯分割线上的每一个点对应于所述实际分割点的时间点，且所述阶梯分割线上的各个点所对应的指标数值均不相同；
24.所述分别确定所述目标数组对中每一个数据组的异常指标数值，包括：
25.根据分布于所述阶梯分割线两侧的指标数值，分别确定分布于所述阶梯分割线两侧的异常指标数值。
26.可选地，所述在每相邻两个时间点之间构建出初始分割点，包括：
27.确定每相邻两个时间点的所述中间点为初始分割点。
28.可选地，所述确定异常指标数值，包括：
29.根据所述阶梯分割线和分布于所述阶梯分割线两侧的指标数值，在所述阶梯分割线两侧划分出异常区域；
30.从所述数据序列包括的多个指标数值中筛选出位于所述异常区域内的异常指标数值。
31.可选地，所述在所述实际分割点两侧划分出异常区域，包括：
32.绘制二维坐标系，其中，所述二维坐标系中的一条坐标轴对应于所述数据序列中的时间点，另一条坐标轴对应于所述待分析指标，所述阶梯分割线平行于所述另一条坐标轴；
33.按照分布于所述阶梯分割线两侧的指标数值的均值，在所述阶梯分割线的两侧分别绘制对应于均值的直线，并绘制连接两条所述直线的曲线；
34.根据绘制出的连接两条所述直线的曲线与所述实际分割线的交叉点所对应的指标数值以及预设的异常容忍度，确定所述阶梯分割线两侧的异常边界值；
35.根据所述异常边界值，在所述阶梯分割线的两侧分别绘制垂直于所述另一条坐标轴的异常边界曲线；
36.确定所述阶梯分割线的两侧中的每一侧的异常边界曲线为起点，远离该侧的对应于均值的直线的区域为该侧的异常区域。
37.可选地，所述数据处理请求还包括数据变更参数；
38.所述数据处理方法还包括：根据所述数据变更参数，将所述数据序列划分成多个数据子序列，其中，每相邻两个数据子序列中包括有多个重合的时间点和对应的指标数值；
39.所述将所述数据序列包括的多个指标数值划分成多个数组对，包括：将每一个所述数据子序列包括的多个指标数值划分成多个数组对。
40.第二方面，本发明实施例提供一种数据处理装置，包括：接收模块、数据分析模块以及推送模块，其中，
41.所述接收模块，用于接收数据处理请求，其中，所述数据处理请求包括待分析指标；
42.所述数据分析模块，用于获取对应于所述待分析指标的数据序列，其中，所述数据序列包括有所述待分析指标的对应于多个时间点的指标数值；将所述数据序列包括的多个指标数值划分成多个数组对，其中，每一个所述数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠；针对每一个所述数组对，根据所述数组对具有的两个互补的数据组所包括的指标数值，计算所述数组对的指标损失；根据多个所述数组对的指标损失，确定所述数据序列的阶梯分割线；根据多个所述数组对的指标损失，确定指标损失最小的目标数组对；分别确定所述目标数组对中每一个数据组的异常指标数值及对应于所述异常指标数值的异常行为；
43.所述推送模块，用于将所述异常指标数值和所述异常行为对应推送给管理端。
44.上述发明中的一个实施例具有如下优点或有益效果：通过将数据序列包括的多个指标数值划分成多个数组对，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠，然后通过计算数组对的指标损失，实现对数据序列分割，即确定指标损失最小的目标数组对。然后根据分布于阶梯分割线两侧的指标数值，分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为，即实现对数据序列分段，然后针对每一段确定异常指标数值以及异常行为，对阶梯式分布数据进行分段分析，避免差异化比较大的数据相互干扰，以有效的提高数据异常分析的准确性，以准确的发现与数据异常相关的异常行为。
45.上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
46.附图用于更好地理解本发明，不构成对本发明的不当限定。其中：
47.图1是本发明实施例可以应用于其中的示例性系统架构图；
48.图2是根据本发明实施例的数据处理方法的主要流程的示意图；
49.图3是根据本发明实施例的数据序列划分成多个数组对的主要流程的示意图；
50.图4是根据本发明实施例的数据序列的初始分割点、实际分割点、阶梯分割线之间关系示意图；
51.图5是根据本发明实施例的计算数组对的指标损失的主要流程的示意图；
52.图6是根据本发明实施例的在实际分割点两侧划分出异常区域的主要流程的示意
图；
53.图7是根据本发明实施例的阶梯分割线、异常边界曲线以及异常区域之间关系的示意图；
54.图8是根据本发明另一实施例的数据处理方法的主要流程的示意图；
55.图9是根据本发明实施例的数据处理装置的主要模块的示意图；
56.图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
57.以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
58.图1示出了可以应用本发明实施例的数据处理方法或数据处理装置的示例性系统架构100。
59.如图1所示，系统架构100可以包括数据管理者的终端设备101、102、103，网络104，管理数据的数据库105以及服务器106。网络104用以在数据管理者的终端设备101、102、103和服务器106之间、数据库105和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
60.数据管理者可以使用终端设备101、102、103通过网络104与服务器106交互，以接收或发送信息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如数据展示应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
61.管理数据的数据库105可以存放有多种数据，比如电商平台的进货信息如供货商、供货价格、进货日期等，电商平台对不同商品的销售日期、销量、价格、退货量、企业的运营成本比如广告支出等。
62.服务器106可以是提供各种服务的服务器，例如对数据库105所管理的数据提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对从数据库105中获取到的数据进行处理，并将处理结果(例如数据的异常值以及异常行为
‑‑
仅为示例)提供给终端设备101、102、103。
63.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
64.需要说明的是，本发明实施例所提供的数据处理方法一般由服务器106执行，相应地，数据处理装置一般设置于服务器106中。
65.应该理解，图1中的终端设备、网络、数据库和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的用户终端设备、网络、数据库和服务器。
66.图2是根据本发明实施例的一种数据处理方法的主要流程示意图。如图2所示，该数据处理方法可包括如下步骤：
67.步骤s201：接收数据处理请求，其中，数据处理请求包括待分析指标；
68.其中，该数据处理请求可以是用户(比如企业的监督部门等)根据需求发起的，也可以是预先设定好的定时触发任务发起的。
69.该待分析指标可以为针对投放的某一个广告，每一个手机号码所收到的该广告短信数量，也可以是对于物品(比如办公用品、电商平台所销售的商品等)的采购价格、电商平台所销售的商品的价格、销量等。
70.步骤s202：获取对应于待分析指标的数据序列，其中，数据序列包括待分析指标的对应于多个时间点的指标数值；
71.比如，待分析指标为物品的采购价格，则数据序列可以包括一个时间段内各个时间点该物品的采购价格。又比如，待分析指标为物品的销量，则数据序列可以包括一个时间段内各个时间点该物品的销量。
72.另外，该时间点的粒度可以根据用户需求设置，比如时间点粒度可以为一天、一小时、一个月、一周等。
73.其中，数据序列包括的各个指标数值与时间点一一对应。
74.下面以表1所示的某一物品的采购价格y(元)与采购时间x(周)之间的关系为例，详细说明数据序列。
75.表1
76.x122233456789910y1541514151413.514832822
77.如表1所示，在第2周对于物品有三个采购价格(该三个采购价格可能是来源于不同供货商导致的、也可以是在第2周内不同时间采购造成的)，第3周有两个采购价格，第9周有两个采购价格。
78.针对如表1所示的一个时间点对应有多个指标数值得情况，一般是以该时间点所对应的指标数值的均值作为该时间点的指标数值，比如，时间点2周对应的指标数值11，时间点3对应的指标数值14.5，时间点9对应的指标数值5，以保证时间点与指标数值一一对应。针对表1的数据得到的数据序列如表2所示。
79.表2
80.x12345678910y151114.513.51483252
81.步骤s203：将数据序列包括的多个指标数值划分成多个数组对，其中，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠；
82.步骤s204：针对每一个数组对，根据数组对具有的两个互补的数据组所包括的指标数值，计算数组对的指标损失；
83.通过该数组对的指标损失可以考量该数组对所具有的两个互补的数据组的均衡性，即数组对的指标损失越小，该数组对所具有的两个互补的数据组的划分越均衡，数组对的指标损失越大，该数组对所具有的两个互补的数据组的划分则失衡。而数组对所具有的两个互补的数据组的划分越均衡说明数组对构建的越合理，以此来衡量阶梯分布的数据的阶梯位置划分的合理性。实现对阶梯分布的数据进行合理的划分数据组。
84.步骤s205：根据多个数组对的指标损失，确定指标损失最小的目标数组对；
85.步骤s206：分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为；
86.其中，异常行为可以根据预先设置的一场指标区间与异常行为的映射关系确定出。比如，针对销量来说，在销量过高的一个指标区间内可以映射为刷单行为、销售作弊等，又比如，采购价格超过某一指标异常区间可以映射为采购成本异常，又比如，销售价格的异常指标在另一指标异常区间可以映射为恶性竞争、商品翻新销售等异常行为。步骤s207：将异常指标数值和异常行为对应推送给管理端。
87.值得说明的是，本发明实施例提供的方案主要是针对如电商平台、仓库等涉及数据量比较大、数据指标比较多且数据呈阶梯式分布的场景。
88.另外，除了上述场景之外，本技术方案还可以针对广告投放场景，对于广告投放场景，上述待分析指标可以是投放目标投放广告的频次或者投放目标的覆盖范围等，相应地，在由于为某一投放目标投放广告的频次过高或者投放目标覆盖范围过于单一等原因出现异常指标数值的情况下，通过上述方案可以监控广告投放，以避免资源的浪费。
89.在图2所示的实施例中，通过将数据序列包括的多个指标数值划分成多个数组对，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠，然后通过计算数组对的指标损失，实现对数据序列分割，即确定指标损失最小的目标数组对。然后根据分布于阶梯分割线两侧的指标数值，分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为，即实现对数据序列分段，然后针对每一段确定异常指标数值以及异常行为，对阶梯式分布数据进行分段分析，避免差异化比较大的数据相互干扰，以有效的提高数据异常分析的准确性，以准确的发现与数据异常相关的异常行为。
90.另外，通过本发明实施例提供的方案，在准确的发现异常指标数值的情况下，可以辅助企业的监督人员及时发现异常以及找出异常原因。减少了以往人工抽样监测的不确定性，降低人工成本，提高工作效率。
91.进一步地，上述数据处理请求还可包括数据类型；相应地，在数据类型满足预设的数据处理条件的情况，执行将数据序列包括的多个指标数值划分成多个数组对的步骤。其中，数据类型可以是与待分析指标相匹配的类型，比如，针对价格这一待分析指标，其数据类型即为随时间变化的价格，针对销量这一待分析指标，其数据类型即为随时间变化的销量等。另外，数据类型还可以是直接指示获取的数据序列中的待分析指标的指标数值是阶梯分布的数据。相应地，该数据处理条件可以定义有需要处理的数据类型。即通过该过程，实现仅针对阶梯分布的数据按照本发明实施例提供的数据处理方法进行处理，针对其他类型的数据，则可采用现有的数据处理方法比如异常阈值设定、线性回归和分类算法等进行处理，现有的数据处理方法并不是本发明实施例所要保护的技术方案，在此不再赘述。
92.值得说明的是，本发明实施例提供的技术方案与现有的数据处理方法可以封装到同一装置中，以满足不同数据处理的需求。
93.在本发明实施例中，如图3所示，上述将数据序列包括的多个指标数值划分成多个数组对的具体实施方式可包括如下步骤：
94.步骤s301：在每相邻两个时间点之间构建出初始分割点；
95.以上表2所示的数据序列为例，详细说明每相邻两个时间点以及初始分割点。每相邻两个时间点则为：1和2，2和3，3和4，4和5，5和6，6和7，7和8，8和9。该初始分割点可以为相邻两个时间点之间的任意值，比如，针对相邻的两个时间点1和2来说，其初始分割点可以为1.1、1.2、1.3、1.5、1.7、1.9等。
96.步骤s302：针对每一个初始分割点，将位于初始分割点两侧的指标数值划分到两个互补的数据组中，构成一个数组对。
97.其中，在每相邻两个时间点之间构建出初始分割点的具体实施方式可包括：确定每相邻两个时间点的中间点为初始分割点。以方便初始分割点的确定，同时能够方便后续确定异常边界值，以及提高异常边界值的准确度。
98.比如，针对表2来说，确定每相邻两个时间点的中间点为初始分割点可如表3所示。
99.表3
100.初始分割点1.502.503.504.505.506.507.508.509.50
101.针对初始分割点1.5来说，其对应的数组对中的两个互补的数据组：{15}、{11，14.5，13.5，14，8，3，2，5，2}；针对初始分割点2.5来说，其对应的数组对中的两个互补的数据组：{15，11}、{14.5，13.5，14，8，3，2，5，2}；针对初始分割点3.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5}、{13.5，14，8，3，2，5，2}；针对初始分割点4.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5}、{14，8，3，2，5，2}；针对初始分割点5.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5，14}、{8，3，2，5，2}；针对初始分割点6.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5，14，8}、{3，2，5，2}；针对初始分割点7.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5，14，8，3}、{2，5，2}；针对初始分割点8.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5，14，8，3，2}、{5，2}；针对初始分割点9.5来说，其对应的数组对中的两个互补的数据组：{15，11，14.5，13.5，14，8，3，2，5}、{2}。
102.在本发明实施例中，如图4所示，上述计算数组对的指标损失的具体实施方式可包括如下步骤：
103.步骤s401：计算数组对具有的两个互补的数据组的数组均值；
104.该步骤s401的具体实施方式可通过下述计算公式(1)计算得到。
[0105][0106]
其中，ci表征一个数组对f中数据组i的数组均值；n表征数据组i包括的指标数值的总个数；y
ij
表征数据组i包括的第j个指标数值。
[0107]
步骤s402：针对每一个指标数值，计算指标数值相对于其所属数据组的数组均值的方差；
[0108]
该步骤可以通过下述计算公式(2)计算得到。
[0109]kfij
＝(y
ij-ci)2ꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0110]
其中，k
fij
表征一个数组对f中数据组i包括的第j个指标数值相对于其所属数据组i的数组均值ci的方差。
[0111]
步骤s403：累加每一个指标数值所对应的方差，得到数组对的指标损失。
[0112]
该步骤可以通过下述计算公式(3)计算得到。
[0113][0114]
其中，lossf表征数组对f的指标损失；k
f1j
表征数组对f中第1个数据组包括的第j个指标数值相对于其所属第1个数据组的数组均值ci的方差；n表征数组对f中第1个数据组包括的指标数值的总个数；k
f2j
表征数组对f中第2个数据组包括的第j个指标数值相对于其所属第2个数据组的数组均值ci的方差；m表征数组对f中第2个数据组包括的指标数值的总个数。
[0115]
比如，针对上述表2所示的数据序列来说，其得到的各个数据组的初始分割点、各个数组的均值、数据组包括的指标数值相对于其所属数据组的数组均值的方差以及各个数组对的指标损失可如下表4所示。
[0116]
表4
[0117][0118]
通过上述计算得到指标损失可以比较好的评估数组对切分是否合理，以保证数据能够按照其阶梯分布切分。
[0119]
另外，在上述图3所示的实施例基础上，上述数据处理方法，还可进一步包括：从多个初始分割点中筛选出对应于最小指标损失的数组对的实际分割点，并确定经过实际分割点的直线为数据序列的阶梯分割线，其中，阶梯分割线上的每一个点对应于实际分割点的时间点，且阶梯分割线上的各个点所对应的指标数值均不相同；相应地，分别确定目标数组对中每一个数据组的异常指标数值的具体实施方式可包括：根据分布于阶梯分割线两侧的指标数值，分别确定分布于阶梯分割线两侧的异常指标数值。
[0120]
针对上述表2至表4的变化过程如图5所示，即首先构建出二位坐标系，其中，坐标系的y轴为待分析指标的指标数值，x轴为各个时间点，如图5标示出了通过上述表4得到了实际分割点o，以及经过该实际分割点o的阶梯分割线l。
[0121]
在阶梯分割线基础上，上述确定异常指标数值的具体实施方式可包括：根据阶梯
分割线和分布于阶梯分割线两侧的指标数值，在阶梯分割线两侧划分出异常区域；从数据序列包括的多个指标数值中筛选出位于异常区域内的异常指标数值。
[0122]
具体地，如图6所示，上述在实际分割点两侧划分出异常区域的具体实施方式可包括如下步骤：
[0123]
步骤s601：绘制二维坐标系，其中，二维坐标系中的一条坐标轴对应于数据序列中的时间点，另一条坐标轴对应于待分析指标，阶梯分割线平行于另一条坐标轴；
[0124]
如图7所示，绘制出对应于上述表2至表4提供的具体实例的二维坐标系，其中，坐标系的y轴为待分析指标的指标数值，x轴为各个时间点。
[0125]
步骤s602：按照分布于阶梯分割线两侧的指标数值的均值，在阶梯分割线的两侧分别绘制对应于均值的直线，并绘制连接两条直线的曲线；
[0126]
如图7所示，分布于阶梯分割线l左侧的指标数值的均值为13.1，分布于阶梯分割线l右侧的指标数值的均值为4.2，即在阶梯分割线l左侧绘制y＝13.1的直线，在阶梯分割线l右侧绘制y＝4.2的直线。连接直线y＝13.1与直线y＝4.2的的曲线l'。
[0127]
步骤s603：根据绘制出的连接两条直线的曲线与实际分割线的交叉点所对应的指标数值以及预设的异常容忍度，确定阶梯分割线两侧的异常边界值；
[0128]
比如，如图7所示的绘制出的连接两条直线的曲线l'与实际分割线l的交叉点o'所对应的指标数值以及异常容忍度，确定阶梯分割线两侧的异常边界值。该异常容忍度可以根据需求进行相应地设置，比如，容忍度为0，则异常边界值为y＝交叉点o'所对应的指标数值；又比如，容忍度为20％，则实际分割线l的左侧的异常边界值为y等于交叉点o'所对应的指标数值的(1-20％)，即异常边界值为y等于交叉点o'所对应的指标数值的80％，即相对于交叉点o'所对应的指标数值向下浮动20％；实际分割线l的左侧的异常边界值为y等于交叉点o'所对应的指标数值的(1 20％)，即异常边界值为y等于交叉点o'所对应的指标数值的120％，即相对于交叉点o'所对应的指标数值向上浮动20％。
[0129]
步骤s604：根据异常边界值，在阶梯分割线的两侧分别绘制垂直于另一条坐标轴的异常边界曲线；
[0130]
如图7所示的垂直于y轴的阶梯分割线左侧的异常边界曲线r1，垂直于y轴的阶梯分割线右侧的异常边界曲线r2。
[0131]
步骤s605：确定阶梯分割线的两侧中的每一侧的异常边界曲线为起点，远离该侧的对应于均值的直线的区域为该侧的异常区域。
[0132]
如图7所示，在阶梯分割线左侧，异常边界曲线r1为起点，远离y＝13.1支线的区域t1，在阶梯分割线右侧，异常边界曲线r2为起点，远离y＝4.2支线的区域t2。
[0133]
在本发明实施例中，上述数据处理请求还可进一步包括：数据变更参数；相应地，上述数据处理方法还可包括：根据数据变更参数，将数据序列划分成多个数据子序列，其中，每相邻两个数据子序列中包括有多个重合的时间点和对应的指标数值；上述将数据序列包括的多个指标数值划分成多个数组对的具体实现可包括：将每一个数据子序列包括的多个指标数值划分成多个数组对。通过该过程可以进一步提高指标数值划分的准确性，同时提高异常指标数值以及异常行为的准确性。
[0134]
下面电商平台所销售的物品的销量等数据为例，详细说明本发明实施例提供的数据处理过程。如图8所示，该数据处理方法可包括如下步骤：
[0135]
步骤s801：接收数据处理请求，其中，数据处理请求包括待分析指标、数据类型以及数据变更参数；
[0136]
其中，该数据处理请求可以是用户(比如电商平台的商品监督部门等)根据需求发起的，也可以是预先设定好的定时触发任务发起的。
[0137]
针对电商平台所销售的物品的销量来说，待分析指标可以为某一特定物品(比如物品名称、物品编码sku)所对应的销量指标，比如物品a在每一天的销量、物品b在每一天的销量等。
[0138]
针对电商平台所销售的物品的价格来说，待分析指标可以为某一特定物品(比如物品名称、物品编码sku)所对应的单件价格指标，比如物品a在每一天的销售价格、物品b在每一天的销售价格等。
[0139]
在某一个数据处理时间周期内具体包括哪一种物品的销量、哪一种物品的价格，数据处理所针对的时间段(比如物品a从销售以来到当前时间这一整个事件段内每一天的销量和/或每一天的售价等)可根据实际需求定义。
[0140]
其中，数据类型可以为阶梯分布类的数据、曲线类的数据等，也可以与待分析指标相匹配的类型，比如，针对物品的价格，其数据类型可以为单件物品的价格(即单价)随时间的变化趋势，针对物品的销量，其数据类型可以为物品的单位时间(每天、每小时、每月等)的销量随时间的变化趋势等。
[0141]
其中，数据变更参数可以是指示数据变更周期的参数、待分析指标的不同时间的指标数值之间的差值所需超过的指标阈值等。比如某一电子产品随着新产品的发布，每一年/半年/一个季度下调一次价格，则该电子产品对应的变更周期(如一年/半年/一个季度)或者2倍的变更周期(如两年/一年/半年)以及起始时间点或者变更周期所对应的变更时间点。又比如，针对某一种电子产品，每发布两代的该电子产品的价格差值(比如该电子产品为第一代产品，该第一代产品的刚开始发布的时候的价格与发布了第三代后第一代产品的价格之间的差值、发布了第三代后第一代产品的价格与发布了第五代后第一代产品的价格的差值、发布了第二代后第一代产品的价格与发布了第四代后第一代产品的价格的差值)一般不低于2000，则该2000可以作为该电子产品价格分割差值，比如，以开始发布的时候的价格为基准，与每一个时间点的价格做差值，在连续多个时间点的价格与开始发布的时候的价格之间的差值不低于2000，则以开始出现超过2000这一差值的时间点作为划分出数据子序列的分割点。
[0142]
步骤s802：获取对应于待分析指标的数据序列，其中，数据序列包括待分析指标的对应于多个时间点的指标数值；
[0143]
比如对于某一物品的销量，其数据序列一般包括每天的物品的销量的数值。
[0144]
对于某一物品的价格，如果是监控价格随时间的变化以及发现异常售卖价格/采购价格等，其数据序列一般包括每天的物品的销售单价、对应于不同供销商的采购价格等。
[0145]
步骤s803：根据数据变更参数，将数据序列划分成多个数据子序列，其中，每相邻两个数据子序列中包括有多个重合的时间点和对应的指标数值；
[0146]
比如，电子产品s的数据变更参数为每半年调整一次产品的价格，起始时间为2019年12月1日，截至日期为2022年12月1日，则数据序列包括有从2019年12月1日到2022年12月1日之间的电子产品s每一天的销售价格，则将该数据序列划分成的多个数据子序列分别：
包括有2019年12月1日到2020年12月1日之间的电子产品s每一天的销售价格的数据子序列1，包括有2020年6月1日到2021年6月1日之间的电子产品s每一天的销售价格的数据子序列2，包括有2020年12月1日到2021年12月1日之间的电子产品s每一天的销售价格的数据子序列3，包括有2021年6月1日到2022年6月1日之间的电子产品s每一天的销售价格的数据子序列4，2021年12月1日到2022年12月1日之间的电子产品s每一天的销售价格的数据子序列5。
[0147]
在后续步骤中以该数据子序列为基础完成。
[0148]
另外，对于不存在数据变更参数的数据处理请求，则直接以该数据处理请求对应的数据序列为基础进行下面的步骤。
[0149]
步骤s804：在数据类型满足预设的数据处理条件的情况，针对每一个数据子序列或者数据序列在每相邻两个时间点之间构建出初始分割点；
[0150]
该数据处理条件可以预先定义有多种可以处理的数据类型或者阶梯分布式数据等，如果数据类型属于数据处理条件预先定义的可以处理的数据类型或者属于数据处理条件包括的阶梯分布式数据，则确定该数据处理请求所包括的数据类型满足预设的数据处理条件。
[0151]
以天为单位统计的销量或者价格为例，则时间点一般为1、2、3、4、5、6、7、8、9、10、11、
……
等，则每相邻两个时间点之间构建出初始分割点是指1与2之间的任意一个点，2与3之间的任意一个点，3与4之间的任意一个点，4与5之间的任意一个点等。为了方便初始分割点的确定，该初始分割点可以为距离相邻两个时间点中的较小的时间点/较大的时间点一个固定间隔比如0.1、0.2、0.6等。一个优选地实施例中，该初始分割点为相邻两个时间点的中点，以方便后续异常边界值的确定，并能够有效地提高异常边界值的准确性。
[0152]
步骤s805：针对每一个初始分割点，将位于初始分割点两侧的指标数值划分到两个互补的数据组中，构成多个数组对；
[0153]
其中，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点完全不重叠；
[0154]
比如，针对电商平台所销售的物品在一段时间内的销量如下表5所示。
[0155]
表5
[0156]
x(天)12345678910y(件)150401401351408030208020
[0157]
以每相邻两个时间点的中点作为初始分割点，则初始分割点：1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5、9.5。相应地，初始分割点1.5对应的数组对1：数据组{150}以及其互补的数据组{40，140，135，140，80，30，20，80，20}；初始分割点2.5对应的数组对2：数据组{150，40}以及其互补的数据组{140，135，140，80，30，20，80，20}；初始分割点3.5对应的数组对3：数据组{150，40，140}以及其互补的数据组{135，140，80，30，20，80，20}；初始分割点4.5对应的数组对4：数据组{150，40，140，135}以及其互补的数据组{140，80，30，20，80，20}；初始分割点5.5对应的数组对5：数据组{150，40，140，135，140}以及其互补的数据组{80，30，20，80，20}；初始分割点6.5对应的数组对6：数据组{150，40，140，135，140，80}以及其互补的数据组{30，20，80，20}；初始分割点7.5对应的数组对7：数据组{150，40，140，135，140，80，30}
以及其互补的数据组{20，80，20}；初始分割点8.5对应的数组对8：数据组{150，40，140，135，140，80，30，20}以及其互补的数据组{80，20}；初始分割点9.5对应的数组对9：数据组{150，40，140，135，140，80，30，20，80}以及其互补的数据组{20}。
[0158]
步骤s806：针对每一个数组对，计算数组对具有的两个互补的数据组的数组均值；
[0159]
数组均值由数据组包括的各个数据的加和除以数据组包括的数据的个数得到。
[0160]
比如，针对上述表1的数据构建的数组对1至9来说，数组对1中一个数据组仅有一个150，则其均值即为150，该数组对1中另一个数据组的均值为各个数据的加(即40 140 135 140 80 30 20 80 20)的结果和除以数据组包括数据的总个数(即9)，得到76。
[0161]
通过该步骤得到的上述表5的数据构建的数组对1至9包括的各个数据组的均值可如下表6所示。
[0162]
表6
[0163][0164]
值得说明的是，针对表6中包括小数的均值可以按照四舍五入的方式仅保留均值的整数部分，该设置可以根据用户需求进行相应地设置，在此不做限定。
[0165]
步骤s807：针对每一个指标数值，计算指标数值相对于其所属数据组的数组均值的方差；
[0166]
该步骤s807计算每一个指标数值相对于其所属数据组的数组均值的方差可以根据上述计算公式(2)计算得到，在此不再赘述。
[0167]
步骤s808：累加每一个指标数值所对应的方差，得到数组对的指标损失；
[0168]
该步骤s808可以根据上述计算公式(3)计算得到，在此不再赘述。
[0169]
步骤s809：根据多个数组对的指标损失，确定指标损失最小的目标数组对；
[0170]
该指标损失最小说明该目标数组对所包括的两个互补的数据组比较平衡。
[0171]
步骤s810：从多个初始分割点中筛选出对应于最小指标损失的数组对的实际分割点，并在绘制的二维坐标系中确定经过实际分割点的直线为数据序列的阶梯分割线；
[0172]
其中，阶梯分割线上的每一个点对应于实际分割点的时间点，且阶梯分割线上的各个点所对应的指标数值均不相同；
[0173]
其中，二维坐标系中的一条坐标轴对应于数据序列中的时间点，另一条坐标轴对应于待分析指标，阶梯分割线平行于另一条坐标轴；
[0174]
比如，通过上述过程得到的最小指标损失的数组对的实际分割点为5.5，则经过坐标点5.5且平行于指示待分析指标的坐标轴的直线为阶梯分割线。该绘制二维坐标系和阶梯分割线的过程与上述图4所示的过程类似，在此不再赘述。
[0175]
步骤s811：按照分布于阶梯分割线两侧的指标数值的均值，在阶梯分割线的两侧分别绘制对应于均值的直线，并绘制连接两条直线的曲线；
[0176]
步骤s812：根据绘制出的连接两条直线的曲线与实际分割线的交叉点所对应的指标数值以及预设的异常容忍度，确定阶梯分割线两侧的异常边界值；
[0177]
其中，预设的异常容忍度可以根据需求进行相应地设置，比如，相对于交叉点的指标数值上浮或者下降0、20％、10％等。
[0178]
步骤s813：根据异常边界值，在阶梯分割线的两侧分别绘制垂直于另一条坐标轴的异常边界曲线；
[0179]
步骤s814：确定阶梯分割线的两侧中的每一侧的异常边界曲线为起点，远离该侧的对应于均值的直线的区域为该侧的异常区域；
[0180]
上述步骤s811至步骤s814绘制对应于均值的直线，并绘制连接两条直线的曲线、构建异常边界曲线以及异常区域等过程类似，在此不再赘述。
[0181]
步骤s815：从数据序列包括的多个指标数值中筛选出位于异常区域内的异常指标数值及对应于异常指标数值的异常行为；
[0182]
比如，销量过高可能存在刷单的异常行为，销量过低可能需要调整营销策略等。通过提供该异常指标数值，可以使用户能够发现存在的问题，做到运营监控和管理。
[0183]
步骤s816：将异常指标数值和异常行为对应推送给管理端。
[0184]
图9是本发明实施例提供的一种数据处理装置的结构示意图。如图6所示，该数据处理装置900可包括：接收模块901、数据分析模块902以及推送模块903，其中，
[0185]
接收模块901，用于接收数据处理请求，其中，数据处理请求包括待分析指标；
[0186]
数据分析模块902，用于获取对应于待分析指标的数据序列，其中，数据序列包括有待分析指标的对应于多个时间点的指标数值；将数据序列包括的多个指标数值划分成多个数组对，其中，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠；针对每一个数组对，根据数组对具有的两个互补的数据组所包括的指标数值，计算数组对的指标损失；根据多个数组对的指标损失，确定数据序列的阶梯分割线；根据多个数组对的指标损失，确定指标损失最小的目标数组对；分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为；
[0187]
推送模块903，用于将异常指标数值和异常行为对应推送给管理端。
[0188]
在本发明实施例中，数据分析模块902，进一步用于在数据处理请求包括的数据类型满足预设的数据处理条件的情况，执行将数据序列包括的多个指标数值划分成多个数组对的步骤。
[0189]
在本发明实施例中，数据分析模块902，进一步用于在每相邻两个时间点之间构建出初始分割点；针对每一个初始分割点，将位于初始分割点两侧的指标数值划分到两个互补的数据组中，构成一个数组对。
[0190]
在本发明实施例中，数据分析模块902，进一步用于计算数组对具有的两个互补的数据组的数组均值；针对每一个指标数值，计算指标数值相对于其所属数据组的数组均值的方差；累加每一个指标数值所对应的方差，得到数组对的指标损失。
[0191]
在本发明实施例中，数据分析模块902，进一步用于从多个初始分割点中筛选出对应于最小指标损失的数组对的实际分割点，并确定经过实际分割点的直线为所述数据序列
的阶梯分割线，其中，阶梯分割线上的每一个点对应于实际分割点的时间点，且阶梯分割线上的各个点所对应的指标数值均不相同；根据分布于阶梯分割线两侧的指标数值，分别确定分布于阶梯分割线两侧的异常指标数值。
[0192]
在本发明实施例中，数据分析模块902，进一步用于确定每相邻两个时间点的中间点为初始分割点。
[0193]
在本发明实施例中，数据分析模块902，进一步用于根据阶梯分割线和分布于阶梯分割线两侧的指标数值，在阶梯分割线两侧划分出异常区域；从数据序列包括的多个指标数值中筛选出位于异常区域内的异常指标数值。
[0194]
在本发明实施例中，数据分析模块902，进一步用于绘制二维坐标系，其中，二维坐标系中的一条坐标轴对应于数据序列中的时间点，另一条坐标轴对应于待分析指标，阶梯分割线平行于另一条坐标轴；按照分布于阶梯分割线两侧的指标数值的均值，在阶梯分割线的两侧分别绘制对应于均值的直线，并绘制连接两条直线的曲线；根据绘制出的连接两条直线的曲线与实际分割线的交叉点所对应的指标数值以及预设的异常容忍度，确定阶梯分割线两侧的异常边界值；根据异常边界值，在阶梯分割线的两侧分别绘制垂直于另一条坐标轴的异常边界曲线；确定阶梯分割线的两侧中的每一侧的异常边界曲线为起点，远离该侧的对应于均值的直线的区域为该侧的异常区域。
[0195]
在本发明实施例中，数据分析模块902，进一步用于根据数据处理请求包括的数据变更参数，将数据序列划分成多个数据子序列，其中，每相邻两个数据子序列中包括有多个重合的时间点和对应的指标数值；将每一个数据子序列包括的多个指标数值划分成多个数组对。
[0196]
下面参考图10，其示出了适于用来实现本发明实施例的终端设备或者服务器的计算机系统1000的结构示意图。图10示出的终端设备或者服务器仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。
[0197]
如图10所示，计算机系统1000包括中央处理单元(cpu)1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中，还存储有系统1000操作所需的各种程序和数据。cpu 1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
[0198]
以下部件连接至i/o接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
[0199]
特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时，执行本发明的系
统中限定的上述功能。
[0200]
需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
[0201]
附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0202]
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接收模块、数据分析模块以及推送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，接收模块还可以被描述为“接收数据处理请求的模块”。
[0203]
作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：接收数据处理请求，其中，数据处理请求包括待分析指标；获取对应于待分析指标的数据序列，其中，数据序列包括待分析指标的对应于多个时间点的指标数值；将数据序列包括的多个指标数值划分成多个数组对，其中，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠；针对每一个数组对，根据数组对具有的两个互补的数据组所包括的指标数值，计算数组对的指标损失；根据多个数组对的指标损失，确定指
标损失最小的目标数组对；分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为；将异常指标数值和异常行为对应推送给管理端。
[0204]
根据本发明实施例的技术方案，通过将数据序列包括的多个指标数值划分成多个数组对，每一个数组对具有两个互补的数据组，每一个数据组由一个指标数值或者多个连续变化的时间点的指标数值构成，两个互补的数据组包括的所有指标数值与所述数据序列包括的所有指标数值一一对应，且两个互补的数据组所包括的指标数值的时间点不重叠，然后通过计算数组对的指标损失，实现对数据序列分割，即确定指标损失最小的目标数组对。然后根据分布于阶梯分割线两侧的指标数值，分别确定目标数组对中每一个数据组的异常指标数值及对应于异常指标数值的异常行为，即实现对数据序列分段，然后针对每一段确定异常指标数值以及异常行为，对阶梯式分布数据进行分段分析，避免差异化比较大的数据相互干扰，以有效的提高数据异常分析的准确性，以准确的发现与数据异常相关的异常行为。
[0205]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种农产品信息溯源方法、系统、电子设备及介质与流程

一种数据处理方法和装置与流程

相关文献

最热文献