一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于多维数据集的对话式归因分析方法、装置及设备与流程

2022-06-01 00:43:39 来源:中国专利 TAG:


1.本技术属于数据归因分析领域,尤其涉及一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质。


背景技术:

2.在多维数据分析的场景中,当分析对比不同时间下,数据的变化时(例如,5月相较于4月,手机收入下降的原因),需要从不同维度拆解数据定位造成该差异的原因。一般情况下,针对多维度数据的分析一般是依赖于人的固有经验、通过固定的数据处理工具(excel等)方式从数据集中推测出现问题的原因,通过对比不同维度数据在前后的变化得到结论,这种数据归因分析方式效率低下。
3.因此,如何提高数据归因分析的效率是本领域技术人员亟需解决的技术问题。


技术实现要素:

4.本技术实施例提供一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质,能够提高数据归因分析的效率。
5.第一方面,本技术实施例提供一种基于多维数据集的对话式归因分析方法,包括:
6.解析原始问句,确定原始问句中的关键信息;
7.基于关键信息,确定原始问句为归因分析类问句;
8.基于关键信息,从底层数仓中筛选相关数据,得到数据表;
9.获取数据表中其他维度的信息,得到数据集;
10.遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
11.将惊奇值最高的维度,确定为原因存在维度。
12.可选的,在将惊奇值最高的维度,确定为原因存在维度之后,方法还包括:
13.计算原因存在维度中每个维度成员的差异贡献度;
14.将差异贡献度低于阈值的维度成员剔除。
15.可选的,在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,方法还包括:
16.根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
17.计算排名前三的维度中每个维度成员的差异贡献度;
18.根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
19.可选的,方法还包括:
20.基于关键信息,确定当前分析视角下的当前指标;
21.根据预制的指标关系图谱,查询当前指标对应的关联指标。
22.可选的,方法还包括:
23.判断当前指标和关联指标是否出现相同方向的变化;
24.若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
25.可选的,方法还包括:
26.通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
27.可选的,方法还包括:
28.对数据集中任意维度进行下钻,得到下钻后的数据集;
29.针对下钻后的数据集,返回循环执行流程。
30.第二方面,本技术实施例提供了一种基于多维数据集的对话式归因分析装置,包括:
31.问句解析模块,用于解析原始问句,确定原始问句中的关键信息;
32.问句归类模块,用于基于关键信息,确定原始问句为归因分析类问句;
33.数据筛选模块,用于基于关键信息,从底层数仓中筛选相关数据,得到数据表;
34.信息获取模块,用于获取数据表中其他维度的信息,得到数据集;
35.惊奇值计算模块,用于遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
36.原因存在维度确定模块,用于将惊奇值最高的维度,确定为原因存在维度。
37.可选的,装置还包括:
38.差异贡献度计算模块,用于在将惊奇值最高的维度,确定为原因存在维度之后,计算原因存在维度中每个维度成员的差异贡献度;
39.维度成员剔除模块,用于将差异贡献度低于阈值的维度成员剔除。
40.可选的,装置还包括:
41.维度排序模块,用于在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
42.差异贡献度计算模块,用于计算排名前三的维度中每个维度成员的差异贡献度;
43.差异贡献度筛选模块,用于根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
44.可选的,装置还包括:
45.当前指标确定模块,用于基于关键信息,确定当前分析视角下的当前指标;
46.关联指标查询模块,用于根据预制的指标关系图谱,查询当前指标对应的关联指标。
47.可选的,装置还包括:
48.相同方向变化判断模块,用于判断当前指标和关联指标是否出现相同方向的变化;
49.驱动关系确定模块,用于若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
50.可选的,装置还包括:
51.可视化显示模块,用于通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
52.可选的,装置还包括:
53.维度下钻模块,用于对数据集中任意维度进行下钻,得到下钻后的数据集;
54.循环执行模块,用于针对下钻后的数据集,返回循环执行流程。
55.第三方面,本技术实施例提供了一种电子设备,电子设备包括:处理器以及存储有计算机程序指令的存储器;
56.处理器执行计算机程序指令时实现如第一方面所示的对话式归因分析方法。
57.第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的基于多维数据集的对话式归因分析方法。
58.本技术实施例的基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质,能够提高数据归因分析的效率。
59.该基于多维数据集的对话式归因分析方法,包括:解析原始问句,确定原始问句中的关键信息;基于关键信息,确定原始问句为归因分析类问句;基于关键信息,从底层数仓中筛选相关数据,得到数据表;获取数据表中其他维度的信息,得到数据集;遍历数据集的所有其他维度,分别计算每个维度的惊奇值;将惊奇值最高的维度,确定为原因存在维度,能够提高数据归因分析的效率。
附图说明
60.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
61.图1是本技术一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图;
62.图2是本技术一个实施例提供的对话式归因分析界面显示图;
63.图3是本技术一个实施例提供的指标之间的关联关系展示示意图;
64.图4是本技术一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图;
65.图5是本技术一个实施例提供的基于多维数据集的对话式归因分析装置的结构示意图;
66.图6是本技术一个实施例提供的电子设备的结构示意图。
具体实施方式
67.下面将详细描述本技术的各个方面的特征和示例性实施例,为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本技术进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本技术,而不是限定本技术。对于本领域技术人员来说,本技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本技术的示例来提供对本技术更好的理解。
68.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
69.在多维数据分析的场景中,当分析对比不同时间下,数据的变化时(例如,5月相较于4月,手机收入下降的原因),需要从不同维度拆解数据定位造成该差异的原因。一般情况下,针对多维度数据的分析一般是依赖于人的固有经验、通过固定的数据处理工具(excel等)方式从数据集中推测出现问题的原因,通过对比不同维度数据在前后的变化得到结论,这种数据归因分析方式效率低下。
70.为了解决现有技术问题,本技术实施例提供了一种基于多维数据集的对话式归因分析方法、装置、设备及计算机可读存储介质。下面首先对本技术实施例所提供的基于多维数据集的对话式归因分析方法进行介绍。
71.图1示出了本技术一个实施例提供的基于多维数据集的对话式归因分析方法的流程示意图。如图1所示,该基于多维数据集的对话式归因分析方法包括:
72.s101、解析原始问句,确定原始问句中的关键信息。
73.解析原始问句,可以通过自然语言(nlp)技术解析问句,确定问句中的关键信息。
74.例如,原始问句为:5月相较4月欧洲区运费上涨的原因。下文中的例子均基于该原始问句。
75.关键信息包括:基期:4月;当期:5月;指标:运费;维度:区域=欧洲区;方向:上涨;意图:归因分析。
76.s102、基于关键信息,确定原始问句为归因分析类问句。
77.s103、基于关键信息,从底层数仓中筛选相关数据,得到数据表。
78.根据s101中得到的关键信息,识别该问题为归因分析类问题。同时,依据s101中的关键信息,从底层数仓中筛选相关数据。
79.本例:期间「4-5月」,区域=欧洲的所有相关数据。
80.获取数据表中其他维度的信息。
81.本例中,其他维度包括:产品、区域、运输方式。
82.指标:运费。
83.下面表1为示例数据表。
84.表1
[0085][0086]
s104、获取数据表中其他维度的信息,得到数据集。
[0087]
s105、遍历数据集的所有其他维度,分别计算每个维度的惊奇值。
[0088]
s106、将惊奇值最高的维度,确定为原因存在维度。
[0089]
在得到了要进行分析的数据集后,一般认为原因存在于维度之中。因此:
[0090]
对于遍历数据的所有其他维度,一般认为异常存在维度成员占比发生变化的维度。
[0091]
因此需要通过算法量化每个成员占比发生变化的维度。本方案使用熵算法计算每个维度的成员的惊奇值s。
[0092][0093]
pi=fi/f,qi=ai/a
[0094]
i代表维度下的某个成员。f代表基期聚合值,a代表当期聚合值。本例中a=500万(欧洲区5月的运费),f=400万(欧洲区4月的运费)。
[0095]
计算每个维度的惊奇值:
[0096]
s=∑si[0097]
一般认为,原因存在于s值大的维度。
[0098]
在一个实施例中,在将惊奇值最高的维度,确定为原因存在维度之后,方法还包括:
[0099]
计算原因存在维度中每个维度成员的差异贡献度;
[0100]
将差异贡献度低于阈值的维度成员剔除。
[0101]
在一个实施例中,在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,方法还包括:
[0102]
根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
[0103]
计算排名前三的维度中每个维度成员的差异贡献度;
[0104]
根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
[0105]
具体地,计算每个维度成员的贡献度。
[0106]
贡献度意为对差异做出贡献的程度,计算公式为:
[0107]
countri=(a
i-fi)/(a-f)
[0108]
本例中ai=100万(5月欧洲区,空运方式的运费);
[0109]
fi=200万(4月欧洲区,空运方式的运费)。
[0110]
当确定原因存在于哪个维度之后,需要定位不同成员对差异的贡献程度,一般认为,对差异贡献度高的是需要关注的原因。
[0111]
在计算得到所有维度成员的countri(贡献度)后,将其和阈值(本系统中取1%)进行比较,剔除低于阈值(影响较小)的成员。
[0112]
计算所有维度的countri(贡献度),对所有维度进行排序,取s最大的前三,在每个维度中取countri的前三。
[0113]
图2是本技术一个实施例提供的对话式归因分析界面显示图,图2是针对1—5月运费归因分析,维度贡献前三的分别是区域维度、运输方式维度和产品维度,其中,各产品贡献度前三的分别是产品a、产品b和产品c。
[0114]
在一个实施例中,方法还包括:
[0115]
基于关键信息,确定当前分析视角下的当前指标;
[0116]
根据预制的指标关系图谱,查询当前指标对应的关联指标。
[0117]
在一个实施例中,方法还包括:
[0118]
判断当前指标和关联指标是否出现相同方向的变化;
[0119]
若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
[0120]
具体地,对当前指标进行关联分析(例如,分析和运费相关的指标,找出指标的关联关系)。
[0121]
查询在当前分析视角下的关联指标。
[0122]
本例中,分析视角为:欧洲区运费。
[0123]
在分析欧洲区运费时,需要同时分析和运费相关的其他关联指标。
[0124]
运费=运输量*运输费率。
[0125]
根据指标关系图谱查询关联指标。通过构建指标关系图谱的方式,可以确定在分析视角后找到关联指标的关系。本方案中,指标图谱的构建是预制的。
[0126]
根据指标之间的关联关系,计算是否存在驱动关系。
[0127]
当核心指标上涨时,核心指标和关联指标同时出现了相同方向的变化(同涨同跌),认为驱动关系成立。
[0128]
本例中:如果运费和运输量在4-5月发生了上升。
[0129]
同时由关系图谱可知,运输量和运费存在正相关关系,则可判断,运输量上升导致了运输费用的提高。
[0130]
图3是本技术一个实施例提供的指标之间的关联关系展示示意图,图3显示了运费和运输量之间的关联关系。
[0131]
在一个实施例中,方法还包括:通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。此外,还可以上文所有步骤中得到的结果均通过可视化卡片形式显示。
[0132]
在一个实施例中,方法还包括:对数据集中任意维度进行下钻,得到下钻后的数据
集;针对下钻后的数据集,返回循环执行流程。
[0133]
下面通过图4对上述所举例子进行系统说明,如图4所示,针对欧洲区运费同比上升的原因,依次进行以下步骤:
[0134]
s01:自然语言解析;s02:数据组装;s03:读取metadata信息;s04:维度分析;s05:指标分析;s06:分析结果可视化。
[0135]
此外,还可以对数据集中任意维度进行下钻的情况下,针对欧洲区、空运、运费同比上升的原因,返回循环执行s02。
[0136]
图5示出了本技术实施例提供的基于多维数据集的对话式归因分析装置的结构示意图。如图5所示,该基于多维数据集的对话式归因分析装置,包括:
[0137]
问句解析模块501,用于解析原始问句,确定原始问句中的关键信息;
[0138]
问句归类模块502,用于基于关键信息,确定原始问句为归因分析类问句;
[0139]
数据筛选模块503,用于基于关键信息,从底层数仓中筛选相关数据,得到数据表;
[0140]
信息获取模块504,用于获取数据表中其他维度的信息,得到数据集;
[0141]
惊奇值计算模块505,用于遍历数据集的所有其他维度,分别计算每个维度的惊奇值;
[0142]
原因存在维度确定模块506,用于将惊奇值最高的维度,确定为原因存在维度。
[0143]
在一个实施例中,装置还包括:
[0144]
差异贡献度计算模块,用于在将惊奇值最高的维度,确定为原因存在维度之后,计算原因存在维度中每个维度成员的差异贡献度;
[0145]
维度成员剔除模块,用于将差异贡献度低于阈值的维度成员剔除。
[0146]
在一个实施例中,装置还包括:
[0147]
维度排序模块,用于在遍历数据集的所有其他维度,分别计算每个维度的惊奇值之后,根据各个惊奇值的高低,按照从高到低的顺序对所有维度进行排序,筛选出排名前三的维度;
[0148]
差异贡献度计算模块,用于计算排名前三的维度中每个维度成员的差异贡献度;
[0149]
差异贡献度筛选模块,用于根据各个差异贡献度的大小,分别筛选出排名前三的维度中排名前三的差异贡献度。
[0150]
在一个实施例中,装置还包括:
[0151]
当前指标确定模块,用于基于关键信息,确定当前分析视角下的当前指标;
[0152]
关联指标查询模块,用于根据预制的指标关系图谱,查询当前指标对应的关联指标。
[0153]
在一个实施例中,装置还包括:
[0154]
相同方向变化判断模块,用于判断当前指标和关联指标是否出现相同方向的变化;
[0155]
驱动关系确定模块,用于若当前指标和关联指标出现相同方向的变化,则确定当前指标和关联指标之间存在驱动关系。
[0156]
在一个实施例中,装置还包括:
[0157]
可视化显示模块,用于通过可视化卡片形式显示当前指标和关联指标之间存在驱动关系。
[0158]
在一个实施例中,装置还包括:
[0159]
维度下钻模块,用于对数据集中任意维度进行下钻,得到下钻后的数据集;
[0160]
循环执行模块,用于针对下钻后的数据集,返回循环执行流程。
[0161]
图5所示装置中的各个模块/单元具有实现图1中各个步骤的功能,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
[0162]
图6示出了本技术实施例提供的电子设备的结构示意图。
[0163]
电子设备可以包括处理器601以及存储有计算机程序指令的存储器602。
[0164]
具体地,上述处理器601可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0165]
存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器602可包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在电子设备的内部或外部。在特定实施例中,存储器602可以是非易失性固态存储器。
[0166]
在一个实施例中,存储器602可以是只读存储器(read only memory,rom)。在一个实施例中,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存或者两个或更多个以上这些的组合。
[0167]
处理器601通过读取并执行存储器602中存储的计算机程序指令,以实现上述实施例中的任意一种基于多维数据集的对话式归因分析方法。
[0168]
在一个示例中,电子设备还可包括通信接口603和总线610。其中,如图6所示,处理器601、存储器602、通信接口603通过总线610连接并完成相互间的通信。
[0169]
通信接口603,主要用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。
[0170]
总线610包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线610可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0171]
另外,结合上述实施例中的基于多维数据集的对话式归因分析方法,本技术实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于多维数据集的对话式归因分析方法。
[0172]
需要明确的是,本技术并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本技术的方法过程并不限于所描述和示出的具体步骤,本领域的
技术人员可以在领会本技术的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
[0173]
以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本技术的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
[0174]
还需要说明的是,本技术中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本技术不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
[0175]
上面参考根据本技术的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本技术的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
[0176]
以上所述,仅为本技术的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献