一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据分析的方法、装置、电子设备和可读介质与流程

2022-08-13 12:45:26 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及一种数据分析的方法、装置、电子设备和可读介质。


背景技术:

2.随着计算机技术的发展,通过计算机和互联网进行的业务和服务与日俱增。在业务过程中会产生大量业务数据,利用这些业务数据来分析和整理对业务产生影响的关键因素有利于对业务内容和经营方式进行及时调整。
3.在相关技术中,对业务数据进行分析的方法会采用机器学习模型进行,利用专家标注好的数据来对机器模型进行训练,再利用训练好的机器模型来进行数据分析。
4.然而,上述的方式需要专家对大量数据进行分析和标注以用于训练,才能得到准确的机器模型,因此需要投入的人力较多,因此提高方案的人工成本,影响方案的整体效率。


技术实现要素:

5.基于上述技术问题,本技术提供一种数据分析的方法、装置、电子设备和可读介质,以降低数据分析方案的人力成本,提高数据分析方案的整体效率。
6.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
7.根据本技术实施例的一个方面,提供一种数据分析方法,包括:
8.获取业务的特征变化序列,所述特征变化序列包括在预设时段内采集到的业务数据;
9.获取所述业务的对象变化序列,所述对象变化序列表示基于所述业务数据统计得到的结果;
10.根据所述特征变化序列进行估算,生成对象变化估计数据,所述对象变化估计数据表示基于所述业务数据预测得到的结果;
11.根据所述对象变化估计数据和所述对象变化序列进行模型统计,得到统计数据,所述统计数据表示所述特征变化序列与所述对象变化序列之间的显著性关系;
12.根据所述统计数据,确定所述特征变化序列的变化与所述对象变化序列的变化之间的相关性,得到数据分析结果。
13.根据本技术实施例的一个方面,提供一种数据分析装置,包括:
14.特征变化获取模块,用于获取业务的特征变化序列,所述特征变化序列包括在预设时段内采集到的业务数据;
15.对象变化获取模块,用于获取所述业务的对象变化序列,所述对象变化序列表示基于所述业务数据统计得到的结果;
16.数据估算模块,用于根据所述特征变化序列进行估算,生成对象变化估计数据,所
述对象变化估计数据表示基于所述业务数据预测得到的结果;
17.模型统计模块,用于根据所述对象变化估计数据和所述对象变化序列进行模型统计,得到统计数据,所述统计数据表示所述特征变化序列与所述对象变化序列之间的显著性关系;
18.结果分析模块,用于根据所述统计数据,确定所述特征变化序列的变化与所述对象变化序列的变化之间的相关性,得到数据分析结果。
19.在本技术的一些实施例中,基于以上技术方案,所述特征变化序列包括p个业务变化序列,所述对象变化序列包括p个对象变化数据;数据估算模块包括:
20.因子生成子模块,用于根据所述p个业务变化序列和所述p个对象变化数据,生成影响因子,所述影响因子表示第p个对象变化数据受所述p个业务变化序列影响的程度或者受p-1个对象变化数据影响的程度;
21.估计数据生成子模块,用于根据所述影响因子对所述p个业务变化序列进行加权,生成对象变化估计数据。
22.在本技术的一些实施例中,基于以上技术方案,所述影响因子包括第一影响参数,每个业务变化序列包括m个业务特征,所述m为大于或等于1的整数,所述第一影响参数包括m个业务参数,所述业务参数表示对应业务特征对于对象变化数据的影响程度;因子生成子模块包括:
23.业务参数确定单元,用于根据所述m个业务参数与对应的m个业务特征的加权和以及所述业务变化序列对应的对象变化数据,确定所述m个业务参数;
24.参数生成单元,用于将各个业务变化序列对应的业务参数合并成为所述第一影响参数,所述第一影响参数为p
×
m的矩阵,每个元素表示对应的业务变化序列中的业务特征对于对象变化数据的影响程度。
25.在本技术的一些实施例中,基于以上技术方案,估计数据生成子模块包括:
26.业务加权单元,用于根据所述第一影响参数中各个元素对对应业务变化序列中的对应业务特征进行加权,得到p
×
m个加权业务特征;
27.特征求和单元,用于对所述p
×
m个加权业务特征求和,得到p个估计数据。
28.在本技术的一些实施例中,基于以上技术方案,模型统计模块包括:
29.第一离散关系值确定子模块,用于根据所述对象变化估计数据与所述p个对象变化数据之间的映射关系,确定离散关系值,所述离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
30.第一统计求和子模块,用于对所述离散关系值进行统计求和,得到所述统计数据。
31.在本技术的一些实施例中,基于以上技术方案,结果分析模块包括:
32.第一统计分布子模块,用于将所述对象变化数据的数量输入统计分布函数,得到所述统计阈值;
33.第一关联确定子模块,用于若所述统计数据大于所述统计阈值,则确定所述p个业务变化序列的变化对所述第p个对象变化数据的变化存在关联;
34.第一关联确定子模块,还用于若所述统计数据小于或者等于所述统计阈值,则确定所述p个业务变化序列对所述第p个对象变化数据不存在关联。
35.在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
36.第一标准差确定模块,用于确定p个对象变化数据的对象标准差;
37.第一统计值确定模块,用于对于所确定的业务变化序列,确定业务变化序列中每个业务特征对应的第一影响参数中的元素与所述对象标准差的比值,得到每个业务特征的特征统计值;
38.第一相关性确定模块,用于根据每个业务特征的特征统计值以及特征统计值阈值的比较结果,确定每个业务特征的变化与对象变化数据变化的相关性。
39.在本技术的一些实施例中,基于以上技术方案,所述影响因子还包括第二影响参数,所述第二影响参数包括p-1个对象参数,所述对象参数表示对应的对象变化数据对第p个对象变化数据的影响程度;业务参数确定单元包括:
40.对象参数确定子单元,用于根据所述m个业务参数与对应的m个业务特征的加权和、所述p-1个对象参数与对应的p-1个对象变化数据的加权和以及所述业务变化序列对应的对象变化数据,确定所述m个业务参数和所述p-1个对象参数;
41.数据分析装置还包括:
42.第二影响参数确定子单元,用于根据计算得到的p-1个对象参数与所述第p个对象变化数据对应的预设的对象参数,确定所述第二影响参数。
43.在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
44.加权变化数据确定模块,用于根据所述第二影响参数中各个对象参数对对应的对象变化数据进行加权,得到p个加权变化数据;
45.变化预估数据确定模块,用于对所述p个加权变化数据求和,得到变化预估数据,所述变化预估数据表示基于所述p-1个对象变化数据预测得到的结果。
46.在本技术的一些实施例中,基于以上技术方案,模型统计模块包括:
47.第二离散关系值确定子模块,用于根据所述对象变化估计数据与所述p个对象变化数据之间的映射关系,确定离散关系值,所述离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
48.第二统计求和子模块,用于对所述离散关系值进行统计求和,得到所述统计数据。
49.在本技术的一些实施例中,基于以上技术方案,结果分析模块包括:
50.第二统计分布子模块,将所述对象变化数据的数量输入统计分布函数进行计算,得到所述统计阈值;
51.第二关联确定子模块,用于若所述统计数据大于所述统计阈值,则确定所述p-1个对象变化数据的变化与所述第p个对象变化数据的变化存在关联;
52.第二关联确定子模块,还用于若所述统计数据小于或者等于所述统计阈值,则确定所述p-1个对象变化数据的变化与所述第p个对象变化数据的变化不存在关联。
53.在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
54.第二标准差确定模块,用于确定所述p-1个对象变化数据的对象标准差;
55.第二统计值确定模块,用于对于所述p-1个对象变化数据,计算每个对象变化数据对应的对象参数与所述对象标准差的比值,得到所述p-1个对象变化数据的对象统计值;
56.第二相关性确定模块,用于根据所述p-1个对象变化数据的特征统计值以及对象统计值阈值的比较结果,确定所述p-1个对象变化数据分别对第p个对象变化数据的影响。
57.根据本技术实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以
及存储器,用于存储处理器的可执行指令;其中,该处理器配置为经由执行可执行指令来执行如以上技术方案中的数据分析方法。
58.根据本技术实施例的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时实现如以上技术方案中的数据分析方法。
59.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供数据分析方法。
60.在本技术的实施例中,首先获取到业务的特征变化序列和业务的对象变化序列,其中,特征变化序列是基于待分析数据生成的,而对象变化序列表示基于业务数据统计得到的结果;随后,根据特征变化序列进行估算,生成对象变化估计数据,对象变化估计数据表示基于业务数据预测得到的结果;然后,根据对象变化估计数据和对象变化序列进行模型统计,得到统计数据,统计数据表示特征变化序列与对象变化序列之间的显著性关系;最后根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,得到数据分析结果。在进行数据分析的过程中,直接根据从业务数据中获取到的特征变化序列估算来得到对象变化估计数据并且进行模型统计,利用统计数据分析对象变化数据的变化与特征变化序列的变化的相关性,从而直接使用原始数据来进行分析过程,而免去对数据进行辨别和标注的过程,可以降低数据分析方案的人力成本,提高了数据分析方案的整体效率。
61.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
62.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
63.图1为本技术实施例中一个实施环境的示意图;
64.图2为本技术实施例中的整体方案的示意流程图;
65.图3为本技术实施例中一种数据分析方法的示意流程图;
66.图4为本技术实施例中一种数据分析方法的示意流程图;
67.图5为本技术实施例中一种数据分析方法的示意流程图;
68.图6为本技术实施例中一种数据分析方法的示意流程图;
69.图7为本技术实施例中一种数据分析方法的示意流程图;
70.图8为本技术实施例中一种数据分析方法的示意流程图;
71.图9为本技术实施例中一种数据分析方法的示意流程图;
72.图10为本技术实施例中一种数据分析方法的示意流程图;
73.图11为本技术实施例中一种数据分析方法的示意流程图;
74.图12为本技术实施例中一种数据分析方法的示意流程图;
75.图13为本技术实施例中一种数据分析方法的示意流程图;
76.图14为本技术实施例中一种数据分析方法的示意流程图;
77.图15示意性地示出了本技术实施例中数据分析装置的组成框图。
78.图16示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
具体实施方式
79.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
80.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
81.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
82.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
83.应理解,本技术中的数据分析方法可以应用于基于业务数据进行因果分析的场景中,并且具体可以应用在车联网中的优惠加油、出行服务运营活动的场景和产品中。以优惠加油为例,加油站在日常的运营过程中,可以通过车辆网积累到大量的车辆加油数据以及相关的销售数据和数据通信数据等,在不同的销售周期中,由于各方面的销售条件的变化,例如促销活动、油价升降、节假日等日期的影响和大型集体活动等事项,也会导致业务数据发生变化,例如,销量变化或者访问量变化等。通过本技术的方案,可以基于从车辆网中收集到的业务相关的特征数据,分析出优惠加油等业务的访问量或者访客数量收到哪些种类的业务数据的影响,从而能够对访客数量产生变化的原因进行分析以及做出相应的调整。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
84.车联网的概念源于物联网,即车辆物联网,是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与车、人、路、服务平台等之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,同时提高交通运行效率,提升社会交通服务的智能化水平。
85.下面结合具体实施方式对本技术提供的技术方案做出详细说明。请参阅图1,图1为本技术实施例中一个实施环境的示意图。该实施环境包括车载终端110、服务器120、和管理终端130,车载终端110与服务器120之间通过有线或者无线网络进行通信;其中服务器120上部署有数据分析装置,数据分析装置会接收车载终端110中发送的数据,并且对数据进行分析,生成数据分析结果。用户可以通过管理终端130来浏览服务器上的数据分析结果。具体地,在日常服务过程中,车载终端110会将需要收集的数据发送给服务器120。服务
器120会在收集到足够的数据后对所收集到的数据进行数据分析,从而得到数据分析结果以供经营人员或者管理人员了解业务中发生的变化以及产生变化的原因。以加油为例,管理人员发现在在预设时段内的访客数量下降,则可以通过数据分析结果来寻找访客数量下降的原因。根据数据分析结果,可能会发现业务数据中优惠活动被点击的数量对于销量产生了影响,从而可以了解是由于优惠活动改变而导致的销量下降。
86.服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处不对此进行限制。
87.车载终端110和管理终端130可以是手机、电脑、智能语音交互设备、智能家电、车载终端设备、飞行器等,但并不局限于此。车载终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。客户端110以及服务器120的数量也不做限制。
88.下面以车联网为例对本技术的方案的整体流程进行介绍。请参阅图2,图2为本技术实施例中的整体方案的示意流程图。如图2所示,方案总体包括六个阶段,分别为:数据采集阶段210、因果模型构建阶段220、因果模型回归阶段230、统计归因模型构建阶段240、统计归因模型检验阶段250以及索源阶段260。数据分析的具体目标是,在确定了作为分析目标的目标变量的情况下,分析哪些输入特征对该目标变量存在影响,因此,在数据采集阶段210中会获取到作为分析目标的目标变量数据以及需要分析影响的输入特征数据。具体地,数据分析装置会从车联网收集若干期加油业务的业务数据,并且从业务数据中提取出参与优惠加油活动的交易对象数量的变化数量作为目标变量数据。具体地,对于业务的分期可以按照时间来进行,例如以一周、十天或者一个月为周期来获取数据。输入特征数据通常是业务相关的数据,并且也按照与目标变量一样的规则分期获取。具体地,每期的数据中会获取例如节假日加油交易量变动数据、访问/收藏/评论优惠加油活动的行为变动数据、数据采集过程中的链路变动数据、价格变动数据等。在因果模型构建阶段220中,会根据数据采集阶段210中收集的数据来构建基于时间序列及特征数据的因果模型。其中,所收集到的数据会按照数据的分期的时间顺序来进行排列,从而形成时间序列。因果模型可以是特定的算法或者模型,根据所收集到的目标变量数据和输入特征数据的类型、数据数量以及特征数量等信息来对应地确定具体的计算方式,从而构建出因果模型。在因果模型回归阶段230中,根据构建好的模型,将收集到的信息输入到模型中来进行回归计算。按照分期的时间顺序依次递进地对模型进行求解,来得到模型中的参数。随后,在统计归因模型构建阶段240中,利用因果模型构建阶段220中构建的模型以及因果模型回归阶段230中计算得到的模型参数,根据收集到的输入特征数据来估计目标数据,从而得到对象变化估计数据。在统计归因模型检验阶段250中,对对象变化估计数据和收集的目标变量数据之间的关联关系进行比对和分析,则可以分析出输入特征数据是否对目标变量数据产生了影响,例如,在输入特征数据中包括了过多无用特征的情况下,输入特征数据则可能会目标变量数据没有足够的影响。在基于时间序列进行分析的情况下,也可以分析出历史的目标变量数据是否对其之后的目标变量数据产生影响,即第p-1期的目标变量数据是否对第p期的目标变量数据存在影响。例如,将交易量作为目标变量,若在第p-1期内的交易量较高,可能会引起市场需求降
低而导致第p期的交易量下降,从而产生影响。在索源阶段260中,可以对在统计归因模型检验阶段250中确定的对目标变量数据产生影响的输入特征数据或者历史的目标变量数据进行进一步分析,从而确定具体是哪个特征或者具体是哪一期的变量数据产生的影响。
89.以下对本技术实施例中的数据分析方法进行进一步介绍。请参阅图3,图3为本技术实施例中一种数据分析方法的示意流程图。如图3所示,该数据分析方法至少包括步骤s310至s350,详细介绍如下:
90.步骤s310,获取业务的特征变化序列,特征变化序列包括在预设时段内采集到的业务数据;
91.步骤s320,获取业务的对象变化序列,对象变化序列表示基于业务数据统计得到的结果。
92.特征变化序列指的是通常是在预设时段内采集到的业务数据,这些数据在发生变化时,会导致业务数据中相关联的其他数据发生变化。对象变化序列指基于业务数据统计得到的结果,其通常被认为是受到其他数据变化的影响而发生变化,因此,可以基于业务数据的变化情况来统计得到对象变化序列,例如在分析客户数量变化时,对象变化序列可以客户变化量,它是基于业务上的其他数据发生变化而导致的客户数量变化结果而生成的。例如,客户数量降低了30名,则对象变化序列中则包括元素30。待分析数据通常是服务过程中的业务数据。在获取数据的过程中,可以从车辆网存储的业务数据中按照时间顺序划分并提取出p期业务数据。从每期数据中按照数据提取规则提取出相应的特征变化序列和对象变化序列。具体地,特征变化序列中通常会包括一个或者多个业务特征,例如,节假日加油交易数量变动数据、点击/搜藏/评论优惠加油行为变动数据、数据采集过程中的链路变动数据以及价格变动数据等。数据分析装置会根据各个特征的规则从业务数据中计算和提取出这些各个业务特征,从而形成特征变化序列。对象变化序列的提取方式与特征变化序列相同。
93.步骤s330,根据特征变化序列进行估算,生成对象变化估计数据,对象变化估计数据表示基于业务数据预测得到的结果。
94.数据分析过程针对于对象变化序列进行。假定对象变化序列中包括p个对象变化数据,在对象变化序列按照时间序列进行排序的情况下,其他p-1个对象变化数据可以被认为是第p个对象变化数据的历史数据。数据分析装置中配置有因果模型。该因果模型中包含p个特征变化序列以及p-1个对象变化数据与第p个对象变化数据的关联关系,而p个特征变化序列和p-1个对象变化数据对第p个对象变化数据产生影响的程度则由因果模型中的参数来表示。根据特征变化序列和对象变化序列,可以对因果模型中的相关参数进行计算,从而确定出对应于本次采集到的业务数据的因果模型。利用所确定的因果模型,可以根据特征变化序列对对象变化序列中的数据进行估算,从而得到对象变化估计数据。如果对象变化序列中存在多个对象变化数据,则会基于因果模型来对应地估算出多个对象变化估计数据。
95.步骤s340,根据对象变化估计数据和对象变化序列进行模型统计,得到统计数据,统计数据表示特征变化序列与对象变化序列之间的显著性关系。
96.每个特征变化序列会存在对应的对象变化估计数据。数据分析装置将对象变化估计数据与对应的对象变化序列按照预设的统计模型进行统计,则可以得到对象变化估计数
据和对象变化序列的统计数据。统计模型通常取决于所采集到的特征变化序列和对象变化序列中的数据类型,例如根据输入满足参数统计和非参数统计的条件以及样本情况来确定。统计数据可以直接体现出对象变化估计数据与对象变化序列之间的显著性关系。而每个对象变化估计数据对应于一个特征变化序列,因此,统计数据也表示出特征变化序列与对象变化序列之间的显著性关系。
97.步骤s350,根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,得到数据分析结果。
98.数据分析装置据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,从而得到数据分析结果。具体地,数据分析装置可以对统计数据的分布情况与预设的分布函数的结果进行比对分析,来评估对象变化估计数据和对象变化数据之间是否存在相关性。相关性通常包括正相关和负相关以及具体地线性相关、非现行相关等关系形式。如果对象变化估计数据与对象变化数据之间存在相关性,则判断对应的特征变化序列对对象变化数据存在影响,反之,如果不存在关联关系,则判断特征变化序列对对象变化数据无影响。
99.在本技术的实施例中,首先获取到业务的特征变化序列和业务的对象变化序列,其中,特征变化序列是基于待分析数据生成的,而对象变化序列表示基于业务数据统计得到的结果;随后,根据特征变化序列进行估算,生成对象变化估计数据,对象变化估计数据表示基于业务数据预测得到的结果;然后,根据对象变化估计数据和对象变化序列进行模型统计,得到统计数据,统计数据表示特征变化序列与对象变化序列之间的显著性关系;最后根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,得到数据分析结果。在进行数据分析的过程中,直接根据从业务数据中获取到的特征变化序列估算来得到对象变化估计数据并且进行模型统计,利用统计数据分析对象变化数据的变化与特征变化序列的变化的相关性,从而直接使用原始数据来进行分析过程,而免去对数据进行辨别和标注的过程,降低了方案的人力成本,提高的方案的整体效率。
100.在本技术的一个实施例中,请参阅图4,图4为本技术实施例中一种数据分析方法的示意流程图。如图4所示,基于上述的技术方案,特征变化序列包括p个业务变化序列,对象变化序列包括p个对象变化数据;上述步骤s330,根据特征变化序列进行估算,生成对象变化估计数据,包括如下步骤:
101.步骤s410,根据p个业务变化序列和p个对象变化数据,生成影响因子,影响因子表示第p个对象变化数据受p个业务变化序列影响的程度或者受p-1个对象变化数据影响的程度;
102.步骤s420,根据影响因子对p个业务变化序列进行加权,生成对象变化估计数据。
103.在根据特征变化序列进行估算中,采用因果模型来对历史的对象变化数据和业务变化序列对要分析的对象变化数据的影响程度来确定,确定的结果采用影响因子的形式。因果模型可以在进行数据分析之前预先确定,也可以在分析过程中再确定。因果模型可以采用机器学习模型或者计算公式的形式来实现。以计算公式为例,假定收集到第t-p期到第t期的数据,对象变化数据为留存交易变化率{y
t-i
|i=0,1,...,p},而特征变化序列为{x
t-i,j
|i=0,1,...,p;j=1,...,m},其中特征变化序列包括j个业务特征向量,则因果模型可以按照如下的公式进行计算:
[0104][0105]
其中,y
t-i
表示t-i期优惠加油业务的留存交易变化率向量,y
t
表示t期的优惠加油业务的留存交易变化率向量,x
t-i,j
表示t-i期第j个特征向量(包括,参与优惠活动客户数量变化率、节假日加油交易变化率、点击/搜藏/评论优惠加油行为变化率、数据采集过程中的链路数据变化率、价格变化率等),b
0j
表示第t期第j个业务特征的影响因子,即影响程度,a0表示截距项,ai表示第t-i期加油数据向量的影响因子,b
ij
表示第t-i期第j个业务特征的影响因子,e
t
表示第t期残差序列向量。在该示例中,将获取到的p个特征变化序列和p个对象变化数据带入到因果模型公式中进行求解,就可以得到对应的影响因子a={ai|i=0,1,...,p}以及b={b
ij
|i=0,1,...,p;j=1,...,m}。
[0106]
在本技术的实施例中,对于特征变化序列包括的每个业务变化序列计算出对应影响因子,从而能够细分出具体的业务变化序对于要分析的对象变化数据的影响,提升数据分析的粒度,有利于提升分析结果的准确性。
[0107]
在本技术的一个实施例中,请参阅图5,图5为本技术实施例中一种数据分析方法的示意流程图。如图5所示,基于上述的技术方案,影响因子包括第一影响参数,每个业务变化序列包括m个业务特征,m为大于或等于1的整数,第一影响参数包括m个业务参数,业务参数表示对应业务特征对于对象变化数据的影响程度;上述步骤s410,根据p个业务变化序列和p个对象变化数据,生成影响因子,包括如下步骤:
[0108]
步骤s510,根据m个业务参数与对应的m个业务特征的加权和以及业务变化序列对应的对象变化数据,确定m个业务参数;
[0109]
步骤s520,将各个业务变化序列对应的业务参数合并成为第一影响参数,第一影响参数为p
×
m的矩阵,每个元素表示对应的业务变化序列中的业务特征对于对象变化数据的影响程度。
[0110]
具体地,每个业务变化序列包括m个业务特征,业务特征是从业务数据中获取的能够体现业务情况变化的特征。在获取业务变化序列中,会针对每个业务特征来提取数据,从而组成业务变化序列。因此,p个业务变化序列所包括的业务特征相同,但具体特征值取决于具体数据。具体地,参照上文中等式(1),对于各个业务变化序列,m个业务特征与对应的m个业务参数的加权和与对应的对象变化数据之间存在等式关系。例如,对于第p-3个业务变化序列,在不考虑时间顺序其之前的其他p-4个业务变化序列的影响的情况下,应存在如下等式:
[0111][0112]
其中,y
m-3
是第p-3个对象变化数据,x
m-3-i,j
表示第p-3-i个业务变化序列中的第j个业务特征,其他参数与等式(1)中相同参数的含义相同。将第p-3个业务变化序列中的m个业务特征和对象变化数据带入到上述的等式(2)中进行计算,就可以得到第一影响参数中的各个业务参数b
ij
。对于p个业务变化序列,对每个业务变化序列迭代进行计算,就可以得到p
×
m个业务参数,从而合并形成第一影响参数b={b
ij
|i=0,1,...,p;j=1,...,m}。
[0113]
在本技术的实施例中,对于业务变化数据中的每个业务特征计算出对应业务参数,从而能够细分出具体的各个业务特征对于要分析的对象变化数据的影响,提升数据分
析的粒度,有利于提升分析结果的准确性。
[0114]
在本技术的一个实施例中,请参阅图6,图6为本技术实施例中一种数据分析方法的示意流程图。如图6所示,基于上述的技术方案,上述步骤s420,根据影响因子对p个业务变化序列进行加权,生成对象变化估计数据,包括如下步骤:
[0115]
步骤s610,根据第一影响参数中各个元素对对应业务变化序列中的对应业务特征进行加权,得到p
×
m个加权业务特征;
[0116]
步骤s620,对p
×
m个加权业务特征求和,得到p个估计数据。
[0117]
数据分析装置会根据第一影响参数中各个元素对对应的业务变化序列中的对应业务特征进行加权,从而得到p
×
m个加权业务特征。具体地,第一影响参数b={b
ij
|i=0,1,...,p;j=1,...,m}中共有p
×
m个业务参数,将各个业务参数与业务变化序列{x
t-i,j
|i=0,1,...,p;j=1,...,m}中对应的业务特征进行加权计算,就能够得到p
×
m个加权业务特征。将所得到的p
×
m个加权业务特征求和,所得到的业务对象变化估计数据就可以作为对象变化估计数据。具体地,对象变化估计数据可以按照如下的方式进行计算:
[0118][0119]
其中,是业务对象变化估计数据。每个业务特征序列都可以对应地计算得到一个对象变化估计数据。
[0120]
在本技术的实施例中,采用加权求和的方式计算对象变化估计数据,能够充分考虑到业务特征序列中各个业务特征对待分析的对象变化数据的影响,有利于提升分析过程的完整性。
[0121]
在本技术的一个实施例中,请参阅图7,图7为本技术实施例中一种数据分析方法的示意流程图。如图7所示,基于上述的技术方案,上述步骤s340,根据对象变化估计数据和对象变化序列进行模型统计,得到统计数据,包括如下步骤:
[0122]
步骤s710,根据对象变化估计数据与p个对象变化数据之间的映射关系,确定离散关系值,离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
[0123]
步骤s720,对离散关系值进行统计求和,得到统计数据。
[0124]
具体地,离散关系值可以采用方差等形式来确定,对象变化估计数据与p个对象变化数据之间的映射关系确定为方差的计算方式。数据分析装置会根据预定的统计计算模型来计算p个业务变化序列的统计数据。具体地,统计数据可以按照如下的等式进行计算:
[0125][0126]
其中,是计算得到的p个业务对象变化估计数据,是为p个对象变化数据的均值,其中,在计算得到p个业务变化序列所对应的统计数据f
x
后,则可以将统计数据与统计阈值相比较,来确定对对象变化数据产生影响的业务变化序列。统计阈值可以预先确定,其通常与获取所获取数据的期数相关,即与对象变化数据的数
量相关,例如,统计阈值可以根据卡方分布、正态分布或者f分布等分布查表获得。
[0127]
在本技术的实施例中,通过对象变化估计数据与p个对象变化数据方差计算统计值,再根据统计值与统计阈值来确定数据分析结果,从而能够准确分析业务变化序列与对象变化数据的关联关系,从而确保分析结果的准确性。
[0128]
在本技术的一个实施例中,请参阅图8,图8为本技术实施例中一种数据分析方法的示意流程图。如图8所示,基于上述的技术方案,上述步骤s350,根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,得到数据分析结果,包括如下步骤:
[0129]
步骤s810,将对象变化数据的数量输入统计分布函数,得到统计阈值;
[0130]
步骤s820,若统计数据大于统计阈值,则确定p个业务变化序列的变化对第p个对象变化数据的变化存在关联;
[0131]
步骤s830,若统计数据小于或者等于统计阈值,则确定p个业务变化序列对第p个对象变化数据不存在关联。
[0132]
数据分析装置将对象变化数据的数量输入统计分布函数进行计算,得到统计阈值。统计分析函数根据所采用统计检验方法来确定。例如,以f统计为例,统计阈值可以是f
0.95
(2,p-2)。随后,将业务变化序列统计值与统计阈值相比较。如果业务变化序列统计值大于统计阈值f
x
》f
0.95
(2,p-2),则确定p个业务变化序列对第p个对象变化数据产生影响。否则,如果业务变化序列统计值小于或者等于统计阈值f
x
≤f
0.95
(2,p-2),则确定p个业务变化序列对第p个对象变化数据未产生影响。可以理解的是,取决于所采用的统计检验方法不同,统计阈值的计算方式可以是不同的。
[0133]
在本技术的实施例中,提供了通过比较统计值和统计阈值来确定对对象变化数据产生影响的业务变化序列的具体实施方式,提升方案的可实施性。
[0134]
在本技术的一个实施例中,请参阅图9,图9为本技术实施例中一种数据分析方法的示意流程图。如图9所示,基于上述的技术方案,上述步骤s350,根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,得到数据分析结果之后,方法还包括如下步骤:
[0135]
步骤s910,确定p个对象变化数据的对象标准差;
[0136]
步骤s920,对于所确定的业务变化序列,确定业务变化序列中每个业务特征对应的第一影响参数中的元素与对象标准差的比值,得到每个业务特征的特征统计值;
[0137]
步骤s930,根据每个业务特征的特征统计值以及特征统计值阈值的比较结果,确定每个业务特征的变化与对象变化数据变化的相关性。
[0138]
具体地,数据分析装置计算p个对象变化数据的对象标准差。具体地,对象标准差可以采用如下的方式计算:
[0139][0140]
随后,对于确定对对象变化数据存在影响的业务变化序列,计算业务变化序列中每个业务特征对应的第一影响参数中的元素与对象标准差的比值,得到每个业务特征的特征统计值。具体地,每个业务特征的特征统计值按照如下的方式进行计算:
[0141]
[0142]
其中,bj={b
ij
|i=1,...,p}表示业务特征的第j个业务参数。根据等式(6)可以看出,对于第j个业务特征,会将p个业务变化序列中各个序列的第j个特征对应的业务参数求和,在除以对象标准差,从而形成第j个业务特征的特征统计值。
[0143]
在计算得到每个业务特征的特征统计值后,数据分析装置将每个业务特征的特征统计值与特征统计值阈值相比较,来确定每个业务特征的变化与对象变化数据变化的相关性。特征统计值阈值是基于特征统计值的计算方式以及业务变化序列的数量确定的。具体地,特征统计值可以采用t
0.95
(p),通过查表的方式来确定具体值。对于第j个业务特征,如果tj》t
0.95
(p),则标识该业务特征对于第p个对象变化数据存在影响,否则,则该第j个业务特征则对第p个对象变化数据无影响。
[0144]
在本技术的实施例中,对于通过各个业务特征的业务参数进行统计计算,从而确定出各个业务特征对于对象变化数据的影响,提升了数据分析结果的粒度,有利于提升数据分析准确性。
[0145]
在本技术的一个实施例中,请参阅图10,图10为本技术实施例中一种数据分析方法的示意流程图。如图10所示,基于上述的技术方案,影响因子还包括第二影响参数,第二影响参数包括p-1个对象参数,对象参数表示对应的对象变化数据对第p个对象变化数据的影响程度;上述步骤s510,根据m个业务参数与对应的m个业务特征的加权和以及业务变化序列对应的对象变化数据,确定m个业务参数,包括如下步骤:
[0146]
步骤s1010,根据m个业务参数与对应的m个业务特征的加权和、p-1个对象参数与对应的p-1个对象变化数据的加权和以及业务变化序列对应的对象变化数据,确定m个业务参数和p-1个对象参数;
[0147]
步骤s510,根据m个业务参数与对应的m个业务特征的加权和以及业务变化序列对应的对象变化数据,确定m个业务参数之后,方法还包括如下步骤:
[0148]
步骤s1020,根据得到的p-1个对象参数与第p个对象变化数据对应的预设的对象参数,确定第二影响参数。
[0149]
其中,p个对象变化数据是按照时间序列的顺序进行排序。在时间序列中靠后的对象变化数据可能会受到之前的对象变化数据的影响。第二影响参数中所包括的p-1个对象参数对应于在第p个对象变化数据之前的p-1个对象变化数据,可以理解,相对于第p个对象变化数据而言,时间序列中更靠前的p-1个对象变化数据可以被认为是历史数据。对象参数表示对应的对象变化数据对第p个对象变化数据的影响程度。数据分析装置根据m个业务参数与对应的m个业务特征的加权和、p-1个对象参数与对应的p-1个对象变化数据的加权和以及业务变化序列对应的对象变化数据,计算m个业务参数和p-1个对象参数。具体地,m个业务参数和p-1个对象参数的计算方式可以参阅上文中的介绍的等式(1)来进行计算,获取到的对象变化数据率{y
t-i
|i=0,1,...,p}和业务变化序列{x
t-i,j
|i=0,1,...,p;j=1,...,m}输入到等式(1)中来求解,从而得到p-1个对象参数a={ai|i=1,...,p}以及第一影响参数b={b
ij
|i=0,1,...,p;j=1,...,m}。然后,数据分析装置根据计算得到的p-1个对象参数a={ai|i=1,...,p}与第p个对象变化数据对应的预设的对象参数a0,确定第二影响参数。具体地,将p-1个对象参数a={ai|i=1,...,p}与预设的对象参数a0合并,就可以得到第二影响参数a={ai|i=0,1,...,p}。
[0150]
本技术的实施例中,在计算影响因子的过程中,将对象变化数据的时间序列业务
变化序列一起进行计算,从而得到对应于业务变化序列第一影响参数和对应于对象变化数据第二影响参数,从而在确定各个业务特征对对象变化数据的影响关系时,考虑到来自时间序列的影响,有利于提升数据分析结果的完整性。
[0151]
在本技术的一个实施例中,请参阅图11,图11为本技术实施例中一种数据分析方法的示意流程图。如图11所示,基于上述的技术方案,在上述步骤s330,根据特征变化序列进行估算,生成对象变化估计数据之后,本技术介绍的方法还包括如下的步骤:
[0152]
步骤s1110,根据第二影响参数中各个对象参数与对对应的对象变化数据进行加权,得到p个加权变化数据;
[0153]
步骤s1120,对p个加权变化数据求和,得到变化预估数据,变化预估数据表示基于p-1个对象变化数据预测得到的结果。
[0154]
在计算得到第二影响参数之后,数据分析装置会利用第二影响参数和对应的p个对象变化数据来估算出p个加权变化数据。具体地,数据分析装置先根据第二影响参数a={ai|i=0,1,...,p}中各个对象参数与对对应的对象变化数据{y
t-i
|i=0,1,...,2p}进行加权计算,得到p个加权变化数据,随后对p个加权变化数据求和,得到变化预估数据。变化预估数据的计算可以采用如下的等式进行计算:
[0155][0156]
其中,为估计对象数据。
[0157]
在本技术的实施例中,采用加权求和的方式计算对象变化估计数据,能够充分考虑到基于时间序列的各个历史对象变化数据对待分析的对象变化数据的影响,有利于提升分析过程的完整性。
[0158]
在本技术的一个实施例中,请参阅图12,图12为本技术实施例中一种数据分析方法的示意流程图。如图12所示,基于上述的技术方案,上述步骤s340,根据对象变化估计数据和对象变化序列进行模型统计,得到统计数据,包括如下的步骤:
[0159]
步骤s1210,根据对象变化估计数据与p个对象变化数据之间的映射关系,确定离散关系值,离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
[0160]
步骤s1220,对离散关系值进行统计求和,得到统计数据。
[0161]
具体地,离散关系值可以采用方差等形式来确定,对象变化估计数据与p个对象变化数据之间的映射关系确定为方差的计算方式。具体地,数据分析装置会根据预定的统计计算模型来计算p个对象变化数据{y
t-i
|i=0,1,...,p}的统计数据。具体地,统计数据可以按照如下的等式进行计算:
[0162][0163]
其中,是计算得到的p个估计对象数据,是为p个对象变化数据的均值,其中,在计算得到p个对象变化数据所对应的统计数据fy后,则可以将统计数据与统计阈值相比较,来确定对p-1个对象变化数据对第p个对象变化数据产生
的影响。统计阈值可以预先确定,其通常与获取所获取数据的期数相关,即与对象变化数据的数量相关,例如,统计阈值可以根据卡方分布、正态分布或者f分布等分布查表获得。
[0164]
在本技术的实施例中,通过估计对象数据与p个对象变化数据的方差计算统计值,再根据统计值与统计阈值来确定数据分析结果,从而能够准确分析历史对象变化数据与待分析的对象变化数据的关联关系,从而确保提升原因分析过程所覆盖的影响因素的范围,从而提升归因分析结果的完整性。
[0165]
在本技术的一个实施例中,请参阅图13,图13为本技术实施例中一种数据分析方法的示意流程图。如图13所示,基于上述的技术方案,上述步骤s350,根据统计数据,确定特征变化序列的变化与对象变化序列的变化之间的相关性,包括如下步骤:
[0166]
步骤s1310,将对象变化数据的数量输入统计分布函数,得到统计阈值;
[0167]
步骤s1320,若对象变化数据统计值大于统计阈值,则确定p-1个对象变化数据的变化与第p个对象变化数据的变化存在关联;
[0168]
步骤s1330,若对象变化数据统计值小于或者等于统计阈值,则确定p-1个对象变化数据的变化与第p个对象变化数据的变化不存在关联。
[0169]
数据分析装置将对象变化数据的数量输入统计分布函数进行计算,得到统计阈值。统计分析函数根据所采用统计检验方法来确定。例如,以f统计为例,统计阈值可以是f
0.95
(2,p-2)。随后,将对象变化数据统计值与统计阈值相比较。如果对象变化数据统计值大于统计阈值fy》f
0.95
(2,p-2),则确定p-1个对象变化数据对第p个对象变化数据产生影响。否则,如果对象变化数据统计值小于或者等于统计阈值fy≤f
0.95
(2,p-2),则确定p-1个对象变化数据对第p个对象变化数据未产生影响。p-1个对象变化数据的变化与第p个对象变化数据的变化之间存在关联,通常可以包括正相关、负相关、线性相关等关系形式。可以理解的是,取决于所采用的统计检验方法不同,统计阈值的计算方式可以是不同的。
[0170]
在本技术的实施例中,提供了通过比较统计值和统计阈值来确定对对象变化数据产生影响的对象变化数据的具体实施方式,提升方案的可实施性。
[0171]
在本技术的一个实施例中,请参阅图14,图14为本技术实施例中一种数据分析方法的示意流程图。如图14所示,基于上述的技术方案,上述步骤s350,根据所述统计数据,确定所述特征变化序列的变化与所述对象变化序列的变化之间的相关性,得到数据分析结果之后,方法还包括如下步骤:
[0172]
步骤s1410,确定p-1个对象变化数据的对象标准差;
[0173]
步骤s1420,对于p-1个对象变化数据,确定每个对象变化数据对应的对象参数与对象标准差的比值,得到p-1个对象变化数据的对象统计值;
[0174]
步骤s1430,根据p-1个对象变化数据的特征统计值以及对象统计值阈值的比较结果,确定p-1个对象变化数据分别对第p个对象变化数据的影响。
[0175]
具体地,数据分析装置计算p-1个对象变化数据的对象标准差。具体地,对象标准差可以采用如下的方式计算:
[0176][0177]
随后,对于确定对第p个对象变化数据存在影响的对象变化数据,计算p-1对象变
化数据中每个对象变化数据对应的第二影响参数中的元素与对象标准差的比值,得到每个业务特征的特征统计值。具体地,每个业务特征的特征统计值按照如下的方式进行计算:
[0178][0179]
其中,a={a
l
|l=1,...,p}表示第l个对象变化数据。
[0180]
在计算得到每个对象变化数据的特征统计值后,数据分析装置将p-1个对象变化数据的特征统计值与特征统计值阈值相比较,来确定每个对象变化数据对对象变化数据的影响。特征统计值阈值是基于特征统计值的计算方式以及业务变化序列的数量确定的。具体地,特征统计值可以采用t
0.95
(p),通过查表的方式来确定具体值。对于第l个对象变化数据,如果tj》t
0.95
(p),则表示该对象变化数据对于第p个对象变化数据存在影响,否则,则该第l个对象变化数据则对第p个对象变化数据无影响。
[0181]
在本技术的实施例中,对于通过p-1个对象变化数据和对应的对象参数进行统计计算,从而确定出各个业务特征对于对象变化数据的影响,从而考虑到对象变化数据的时间序列的影响,有利于提升数据分析的完整性和因素的覆盖范围。
[0182]
下面以加油站的业务数据为例,对本技术的方案中的完整流程进行介绍。具体地,假定数据源中已经存在t期业务数据,数据分析装置从数据源中获取p期数据,并且从中提取出第t-p期到第t期的参与活动的客户中留存客户数量变化率作为要分析的目标数据{y
t-i
|i=0,1,...,p},并获取t-p期、

、t期中节假日加油客户变动数据、客户点击/搜藏/评论优惠加油行为变动数据、数据采集过程中的链路变动数据、价格变动数据等业务特征作为输入特征数据{x
t-i,j
|i=0,1,...,p;j=1,...,m}。,随后,基于所获取的目标数据和输入特征数据的类型和数量,构建书基于时间序列和特征数据的因果模型。具体的因果模型可以采用上位中的等式(1)来进行。将目标数据{y
t-i
|i=0,1,...,p}和输入特征数据{x
t-i,j
|i=0,1,...,p;j=1,...,m}带入到等式(1)中进行回归计算,在对于每个目标数据进行计算后,得到因果模型的模型参数a={ai|i=0,1,...,p}以及b={b
ij
|i=0,1,...,p;j=1,...,m}。在得到模型参数后,则可以利用参数来估计目标数据,再利用估计的目标数据与真实的目标数据来进行因果分析。对于特征数据的估计计算利用上文中的等式(3)进行计算,将模型参数b={b
ij
|i=0,1,...,p;j=1,...,m}和特征数据{x
t-i,j
|i=0,1,...,p;j=1,...,m}输入到等式(3)中进行计算,从而得到基于特征数据估计的目标数据序列对于目标数据的估计计算利用上文中的等式(7)来进行计算,将模型参数a={ai|i=0,1,...,p}和时间序列数据{y
t-i
|i=0,1,...,2p}输入到等式(7)中进行计算,从而能够得到基于时间序列数据预估的目标数据随后,数据分析装置采用f统计模型来确定特征数据和时间序列数据是否对真实的目标序列产生影响。f统计模型的计算方式参照上文描述的等式(4)和等式(8)来进行。具体地,数据分析装置将基于特征数据估计的目标数据序列与真实的目标数据序列{y
t-i
|i=0,1,...,p}带入到等式(4)中进行计算,从而能够得到特征数据的f统计量f
x
,将基于时间序列数据预估的目标数据与真实的目标数据序列{y
t-i
|i=0,1,...,p}带等式(8)中进行计算,从而得到基于时间序列数据的历史数据的f统计量fy。根据所获取的数据的期数p查表,可以得到统计阈值f
0.95
(2,p-2)。将f
x
和fy分别与f
0.95
(2,p-2)比较,如果f
x
》f
0.95
(2,p-2)则表示特征数据x对目标数据y存在影响,否则,则特征数据x不是目标数据y的影响因素。基于时间序列数据的历史数据类似,如果fy》f
0.95
(2,p-2)则表示历史的时间序列{y
t-i
|i=1,...,p}对目标数据y
t
存在影响,否则,则历史的时间序列{y
t-i
|i=1,...,p}不是目标数据y
t
的影响因素。
[0183]
基于所确定的影响因素,还可以进一步确定影响因素中具体是哪些特征对目标数据产生影响。具体地,数据分析装置通过t统计模型来进行判断。t统计模型的计算公式可以采用上文中描述的等式(6)和等式(10)来进行。对于特征数据,将模型参数b={b
ij
|i=0,1,...,p;j=1,...,m}和真实的目标数据序列{y
t-i
|i=0,1,...,p}带入等式(6)中进行计算,从而能够得到特征数据中各个业务特征的统计值tj。通过查询统计表来得到阈值t
0.95
(p),如果统计值大于阈值tj》t
0.95
(p),则表示对应的业务特征是目标数据y
t
的影响因素,否则,则表示该业务特征不是目标数据y
t
的影响因素。对于历史目标数据的过程类似,将模型参数a={ai|i=1,...,p}和真实的目标数据序列{y
t-i
|i=0,1,...,p}带入到等式(10)中进行计算,从而得到基于时间序列的统计量t
l
,通过查询统计表来得到阈值t
0.95
(p),如果统计值大于阈值t
l
》t
0.95
(p),则表示第l个历史目标数据是目标数据y
t
的影响因素,否则,则该历史目标数据不是目标数据y
t
的影响因素。
[0184]
应当注意,尽管在附图中以特定顺序描述了本技术中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0185]
以下介绍本技术的装置实施,可以用于执行本技术上述实施例中的数据分析方法。图15示意性地示出了本技术实施例中数据分析装置的组成框图。如图15所示,数据分析装置1500主要可以包括:
[0186]
特征变化获取模块1510,用于获取业务的特征变化序列,所述特征变化序列包括在预设时段内采集到的业务数据;
[0187]
对象变化获取模块1520,用于获取所述业务的对象变化序列,所述对象变化序列表示基于所述业务数据统计得到的结果;
[0188]
数据估算模块1530,用于根据所述特征变化序列进行估算,生成对象变化估计数据,所述对象变化估计数据表示基于所述业务数据预测得到的结果;
[0189]
模型统计模块1540,用于根据所述对象变化估计数据和所述对象变化序列进行模型统计,得到统计数据,所述统计数据表示所述特征变化序列与所述对象变化序列之间的显著性关系;
[0190]
结果分析模块1550,用于根据所述统计数据,确定所述特征变化序列的变化与所述对象变化序列的变化之间的相关性,得到数据分析结果。
[0191]
在本技术的一些实施例中,基于以上技术方案,所述特征变化序列包括p个业务变化序列,所述对象变化序列包括p个对象变化数据;数据估算模块1530包括:
[0192]
因子生成子模块,用于根据所述p个业务变化序列和所述p个对象变化数据,生成影响因子,所述影响因子表示第p个对象变化数据受所述p个业务变化序列影响的程度或者受p-1个对象变化数据影响的程度;
[0193]
估计数据生成子模块,用于根据所述影响因子对所述p个业务变化序列进行加权,
生成对象变化估计数据。
[0194]
在本技术的一些实施例中,基于以上技术方案,所述影响因子包括第一影响参数,每个业务变化序列包括m个业务特征,所述m为大于或等于1的整数,所述第一影响参数包括m个业务参数,所述业务参数表示对应业务特征对于对象变化数据的影响程度;因子生成子模块包括:
[0195]
业务参数确定单元,用于根据所述m个业务参数与对应的m个业务特征的加权和以及所述业务变化序列对应的对象变化数据,确定所述m个业务参数;
[0196]
参数生成单元,用于将各个业务变化序列对应的业务参数合并成为所述第一影响参数,所述第一影响参数为p
×
m的矩阵,每个元素表示对应的业务变化序列中的业务特征对于对象变化数据的影响程度。
[0197]
在本技术的一些实施例中,基于以上技术方案,估计数据生成子模块包括:
[0198]
业务加权单元,用于根据所述第一影响参数中各个元素对对应业务变化序列中的对应业务特征进行加权,得到p
×
m个加权业务特征;
[0199]
特征求和单元,用于对所述p
×
m个加权业务特征求和,得到p个估计数据。
[0200]
在本技术的一些实施例中,基于以上技术方案,模型统计模块1540包括:
[0201]
第一离散关系值确定子模块,用于根据所述对象变化估计数据与所述p个对象变化数据之间的映射关系,确定离散关系值,所述离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
[0202]
第一统计求和子模块,用于对所述离散关系值进行统计求和,得到所述统计数据。
[0203]
在本技术的一些实施例中,基于以上技术方案,结果分析模块1550包括:
[0204]
第一统计分布子模块,用于将所述对象变化数据的数量输入统计分布函数,得到所述统计阈值;
[0205]
第一关联确定子模块,用于若所述统计数据大于所述统计阈值,则确定所述p个业务变化序列的变化对所述第p个对象变化数据的变化存在关联;
[0206]
第一关联确定子模块,还用于若所述统计数据小于或者等于所述统计阈值,则确定所述p个业务变化序列对所述第p个对象变化数据不存在关联。
[0207]
在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
[0208]
第一标准差确定模块,用于确定p个对象变化数据的对象标准差;
[0209]
第一统计值确定模块,用于对于所确定的业务变化序列,确定业务变化序列中每个业务特征对应的第一影响参数中的元素与所述对象标准差的比值,得到每个业务特征的特征统计值;
[0210]
第一相关性确定模块,用于根据每个业务特征的特征统计值以及特征统计值阈值的比较结果,确定每个业务特征的变化与对象变化数据变化的相关性。
[0211]
在本技术的一些实施例中,基于以上技术方案,所述影响因子还包括第二影响参数,所述第二影响参数包括p-1个对象参数,所述对象参数表示对应的对象变化数据对第p个对象变化数据的影响程度;业务参数确定单元包括:
[0212]
对象参数确定子单元,用于根据所述m个业务参数与对应的m个业务特征的加权和、所述p-1个对象参数与对应的p-1个对象变化数据的加权和以及所述业务变化序列对应的对象变化数据,确定所述m个业务参数和所述p-1个对象参数;
[0213]
数据分析装置还包括:
[0214]
第二影响参数确定子单元,用于根据计算得到的p-1个对象参数与所述第p个对象变化数据对应的预设的对象参数,确定所述第二影响参数。
[0215]
在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
[0216]
加权变化数据确定模块,用于根据所述第二影响参数中各个对象参数对对应的对象变化数据进行加权,得到p个加权变化数据;
[0217]
变化预估数据确定模块,用于对所述p个加权变化数据求和,得到变化预估数据,所述变化预估数据表示基于所述p-1个对象变化数据预测得到的结果。
[0218]
在本技术的一些实施例中,基于以上技术方案,模型统计模块1540包括:
[0219]
第二离散关系值确定子模块,用于根据所述对象变化估计数据与所述p个对象变化数据之间的映射关系,确定离散关系值,所述离散关系值标识对象变化估计数据与对象变化数据之间的离散程度;
[0220]
第二统计求和子模块,用于对所述离散关系值进行统计求和,得到所述统计数据。
[0221]
在本技术的一些实施例中,基于以上技术方案,结果分析模块1550包括:
[0222]
第二统计分布子模块,将所述对象变化数据的数量输入统计分布函数进行计算,得到所述统计阈值;
[0223]
第二关联确定子模块,用于若所述统计数据大于所述统计阈值,则确定所述p-1个对象变化数据的变化与所述第p个对象变化数据的变化存在关联;
[0224]
第二关联确定子模块,还用于若所述统计数据小于或者等于所述统计阈值,则确定所述p-1个对象变化数据的变化与所述第p个对象变化数据的变化不存在关联。
[0225]
在本技术的一些实施例中,基于以上技术方案,数据分析装置还包括:
[0226]
第二标准差确定模块,用于确定所述p-1个对象变化数据的对象标准差;
[0227]
第二统计值确定模块,用于对于所述p-1个对象变化数据,计算每个对象变化数据对应的对象参数与所述对象标准差的比值,得到所述p-1个对象变化数据的对象统计值;
[0228]
第二相关性确定模块,用于根据所述p-1个对象变化数据的特征统计值以及对象统计值阈值的比较结果,确定所述p-1个对象变化数据分别对第p个对象变化数据的影响。
[0229]
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
[0230]
图16示出了适于用来实现本技术实施例的电子设备的计算机系统的结构示意图。
[0231]
需要说明的是,图16示出的电子设备的计算机系统1600仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0232]
如图16所示,计算机系统1600包括中央处理单元(central processing unit,cpu)1601,其可以根据存储在只读存储器(read-only memory,rom)1602中的程序或者从储存部分1608加载到随机访问存储器(random access memory,ram)1603中的程序而执行各种适当的动作和处理。在ram 1603中,还存储有系统操作所需的各种程序和数据。cpu 1601、rom 1602以及ram 1603通过总线1604彼此相连。输入/输出(input/output,i/o)接口1605也连接至总线1604。
[0233]
以下部件连接至i/o接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极
射线管(cathode ray tube,crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分1607;包括硬盘等的储存部分1608;以及包括诸如lan(local area network,局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至i/o接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入储存部分1608。
[0234]
特别地,根据本技术的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(cpu)1601执行时,执行本技术的系统中限定的各种功能。
[0235]
需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0236]
附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0237]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多
模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0238]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
[0239]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
[0240]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献