数据看板生成方法、装置、设备和介质与流程

2021-11-26 22:48:00 来源：中国专利 TAG：

1.本技术一般涉及数据处理领域，具体涉及人工智能数据处理，尤其涉及一种数据看板生成方法、装置、设备和介质。

背景技术：

2.随着互联网业务和产品的发展，持续产生大量的数据，合理利用并展示这些数据，可以促使业务和产品测量越来越科学。然而，由于数据量巨大，如何合理的展示这些海量数据中的重要数据，给业务与研发人员带来了巨大的挑战。
3.相关技术中进行数据划分严重依赖于业务人员和/或研发人员的知识体系，例如图1所示，对同一组数据可能划分出不同的指标体系结构，不便于业务人员从指标体系中有效的获得数据信息。

技术实现要素：

4.鉴于现有技术中的上述缺陷或不足，期望提供一种数据看板生成方法、装置、设备和介质，提高指标体系构建中指标划分的合理性。
5.第一方面，本技术实施例提供了一种数据看板生成方法，包括以下步骤：
6.获取待处理的原始数据，并基于原始数据的维度特征生成指标数据表，其中，维度特征包括目标维度特征；
7.基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，并标记指标数据对应的层级位置，指标数据为维度特征的特征值；
8.基于目标维度特征、指标数据及其对应的层级位置，生成数据看板。
9.第二方面，本技术实施例提供了一种数据看板生成装置，包括：
10.获取模块，用于获取待处理的原始数据，并基于原始数据的维度特征生成指标数据表，其中，维度特征包括目标维度特征；
11.分裂模块，用于基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，并标记指标数据对应的层级位置，指标数据为维度特征的特征值；
12.组合模块，用于基于目标维度特征、指标数据及其对应的层级位置，生成数据看板。
13.在一些实施例中，分裂策略包括层级分裂策略，分裂模块，用于：
14.基于指标数据表，计算指标数据表中全部数据对应的信息纯度；
15.针对每个维度特征，确定维度特征对应的量化纯度；
16.基于层级分裂策略对应的量化纯度的变化趋势，从指标数据表中依次确定用于分裂的维度特征，并将维度特征被分裂的第一次序作为层级位置。
17.在一些实施例中，层级分裂策略对应的影响程度的变化趋势为从大到小，分裂模块，用于：
18.对每个维度特征对应的量化纯度进行比较，提取当前至少一个量化纯度中的最大
值；
19.将量化纯度中的最大值对应的维度特征标记为当前用于分裂的目标维度特征，并记录目标维度特征被分裂的第一次序；
20.重复上述步骤，直至每个维度特征均被标记为目标维度特征。
21.在一些实施例中，分裂策略还包括属性分裂策略，分裂模块，用于：
22.基于指标数据表，识别每个维度特征对应的至少一个指标数据的属性类型，指标数据的属性类型根据指标数据的连续程度确定；
23.基于指标数据的属性类型，确定用于对维度特征进行分裂的属性分裂策略；
24.基于属性分裂策略，对维度特征进行属性分裂，得到用于作为分裂节点的指标数据及其对应的第二次序，并将第二次序作为层级位置。
25.在一些实施例中，分裂模块，用于：
26.在属性类型为离散型时，基于指标数据的个数对维度特征进行分裂；
27.在属性类型为连续型时，基于贪心算法对维度特征进行分裂。
28.在一些实施例中，分裂模块，用于：
29.在属性类型为离散型时，将维度特征对应的每个指标数据均作为分裂节点，并随机获取指标数据的第二次序；
30.在属性类型为连续型时，基于贪心算法从指标数据中确定至少一个用于进行分裂的指标数据，并记录每个被分裂的指标数据的第二次序。
31.在一些实施例中，层级位置包括指标数据所属的维度特征被分裂的第一次序和指标数据在层间被分裂的第二次序，组合模块，用于：
32.将指标数据按照第一次序逐渐增大的顺序自目标维度特征纵向排列，并将属于相同维度特征的至少一个指标数据按照第二次序水平排列；
33.在两个相邻第一次序的指标数据之间建立线性连接关系，得到数据看板。
34.第三方面，本技术实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，该处理器执行该程序时实现如本技术实施例描述的方法。
35.第四方面，本技术实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本技术实施例描述的方法。
36.本技术通过结合决策树思想对指标数据进行分裂，以构建指标体系，大大提高了指标体系构建中指标划分的合理性和数据看板的可读性。
37.本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
38.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
39.图1为相关技术中构建的指标体系示意图；
40.图2为本技术实施例提供的数据看板生成方法的架构示意图；
41.图3为本技术实施例提出的一种数据看板生成方法的流程示意图；
42.图4为本技术实施例提出的另一种数据看板生成方法的流程示意图；
43.图5为本技术实施例对维度特征划分后数据看板结构示意图；
44.图6为本技术实施例提出的又一种数据看板生成方法的流程示意图；
45.图7为本技术实施例提出的再一种数据看板生成方法的流程示意图；
46.图8为本技术实施例提出的一种数据看板生成装置的结构示意图；
47.图9示出了适于用来实现本技术实施例的电子设备或服务器的计算机系统的结构示意图。
具体实施方式
48.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。
49.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
50.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
51.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能新片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
52.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
53.语音技术(speech technology)的关键技术有自动语音识别技术(asr)和语音合成技术(tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
54.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技
术。
55.机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
56.自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景，
57.随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。
58.本技术实施例提供的方案涉及人工智能的机器学习等技术，具体通过如下实施例进行说明。
59.为了更清楚的描述本技术，以下为对相关技术术语的解释：
60.数据可视化：指将大型数据集中的数据以图形、图像的形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化主要旨在借助于图形化手段，清晰有效地传达信息。
61.数据看板：数据看板是数据可视化的载体，通过合理的页面布局、效果设计来将可视化数据更好的展现。数据看板作为一种数可视化展现的载体，其展现内容可以包含文字数据和图表集合中的其中一种或多种。一个好的数据看板能够直观的展示数据中包含的信息，也可以方便开发人员进行查找和发现问题。
62.指标：一种特定类型的元数据，通过特定逻辑计算出来的能量化实物发展程度的度量，如注册用户数、用户支付金额等，是业务和数据的交汇点。
63.维度：分析观察指标的角度，如时间、年龄、性别、渠道等角度。
64.指标体系：从业务出发，经过模块化、体系化的维度拆解，最终形成有机统一、相对独立且能反映产品规律与经营状况的一系列指标群。指标体系的原则包括全面性、科学性和层次性，全面性是指指标体系要全面充分反映业务的各个维度、各个方面，科学性是指指标的计算方法是科学合理的，层次性是指建立的指标体系可以为进一步的因素分析创造条件，且指标体系层级关系会含有相互包含的项。
65.决策树：决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法。
66.目前，实现的数据看板大都是由开发人员基于业务人员的相关数据展示需求进行相应的开发，然后再在界面中进行展示，这样的数据看板季度依赖于业务人员的个人知识面和对业务的理解程度，是一种高度定制化的数据看板。这给业务人员和研发人员带来了巨大的挑战。
67.例如，对指标的划分强依赖于业务人员和研发人员的知识结构和对业务的理解程度；需要业务人员和研发人员之间进行较好的配合才能完成，极大的增加了数据看板的开
发成本；数据看板的展示方式基于业务人员的需求由研发人员定制开发，同一组数据，基于不同的需求进行不同的开发，当开发出来后需要调整需求时仍需要研发人员介入等。
68.本技术实施例的数据看板生成方法，可以应用于如图2所示的应用环境中。请参考图2，图2是本技术实施例提供的数据看板生成方法的架构示意图。
69.如图2所示，用户终端1可以通过网络2和服务器3进行通信。其中，用户终端1可以包括但不限于个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。
70.用户终端1和服务器3之间通过有效或无线网络2进行直接或间接地连接。可选地，上述的无线通信网络或有限通信网络可以使用标准通信技术和/或协议。网络通常为因特网，也可以是任何网络，包括但不限于局域网(local area network，lan)、城域网(metropolitan area network，man)、广域网(wide area network，wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。
71.服务器3可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器。其中，服务器3向用户终端1提供生成的数据看板，以供业务人员和/或研发人员查看。
72.具体地，用户终端1可以用来采集至少一个用户提供的原始数据，然后通过有线或无线网络2将采集到的原始数据发送至服务器3，服务器3执行本技术实施例提出的数据看板生成方法，基于用户终端1提供的原始数据生成数据看板，并发送至业务人员和/或研发人员对应的用户终端1中，以供业务人员和/或研发人员查看数据看板信息，进而通过对数据看板中的信息进行分析实现对产品的优化、用户反馈等。
73.为了便于理解和说明，下面通过图2至图详细阐述本技术实施例提供的数据看板生成方法、装置、设备和介质。
74.图3为本技术实施例提出的一种数据看板生成方法的流程示意图。其中，需要说明的是，本实施例的数据看板生成方法的执行主体为数据看板生成装置，数据看板生成装置可以由软件和/或硬件的方式实现，该实施例中的数据看板生成装置可以配置在电子设备中，也可以配置在用于对电子设备进行控制的服务器中，该服务器与电子设备进行通信进而对其进行控制。
75.其中，本实施例中的电子设备可以包括但不限于个人计算机、平台电脑、智能手机、智能音箱等设备，该实施例对电子设备不作具体限定。
76.步骤101，获取待处理的原始数据，并基于原始数据的维度特征生成指标数据表。
77.其中，原始数据为用于生成数据看板的数据，原始数据可包括用户通过用户终端输入的输入数据、安装在用户终端的应用程序通过对用户行为进行监控采集得到的采集数据或应用程序对用户评价产生的评价数据中的至少一种。
78.例如，用户在应用程序中注册账号时，通常需要提供性别、年龄等信息，应用程序通过接收用户输入的输入数据来获取用于数据看板展示的原始数据，或者，应用程序在用户进行线上支付时，采集用户支付的金额采集数据，来获取用于数据看板展示的原始数据。
79.在一个或多个实施例中，每个原始数据都对应有一个维度特征，例如，用户输入的性别数据对应的维度即为“性别”，对应的指标值为“男”或“女”，用户输入的学历数据对应
的维度即为“学历”，对应的指标值可为“高中”、“本科”、“硕士”、“博士”等。
80.可选的，指标数据表由维度特征和指标组成，其中，指标数据表的每一列都属于一个维度，该维度特征标签下每一行为每个用户对应的指标值，指标值对应的名称为指标数据。例如，表1
81.表1
82.性别(离散)年龄(离散)学历(离散)分数(连续)收入(目标)男18本科1010000男25硕士2020000女20本科1015000女50博士3030000男15高中200女58高中101000
83.其中，表1中，维度特征包括“性别”、“年龄”、“学历”、“分数”、“收入”，可以理解为第一个用户的性别特征对应的指标值为“男”，年龄特征对应的指标值为“18”，学历特征对应的指标值为“本科”，分数特征对应的指标值为“10”，收入特征对应的指标值为“10000”。其中，性别特征对应的指标数据包括“男”和“女”，学历特征对应的指标数据包括“高中”、“本科”、“硕士”、“博士”。
84.在一个或多个实施例中，目标维度特征是根据业务需求确定的，业务需求可由业务人员提供。
85.应当理解的是，在指标数据表中的每个维度特征，均与目标维度特征具有相关关系。也就是说，在根据原始数据构建指标数据表时，可先获取目标维度特征，然后基于目标维度特征确定于目标维度特征相关的至少一个相关维度特征，根据相关维度特征和目标维度特征构建指标数据表的标签行，然后从原始数据中筛选属于相关维度特征和目标维度特征的指标值，将指标值按照每个用户一行的方式填入指标数据表，从而形成最终的指标数据表。或者，有针对性的获取至少一个维度的指标数据，根据以维度特征为列以用户为行的方式构建指标数据表，然后从指标数据表中的至少一个维度特征中选取一个维度特征作为目标维度特征，其他维度特征作为相关维度特征。
86.步骤102，基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，并标记指标数据对应的层级位置，指标数据为维度特征的特征值。
87.可选的，指标分裂策略可为决策树算法，例如自上而下的贪婪算法，以确保每个阶段能够选择分类效果最好的维度特征作为分裂节点，优选的，可使用id3、c4.5、cart算法等。
88.在一个或多个实施例中，可使用决策树算法随指标数据表进行分裂，按照自上而下的顺序将分类效果最好的维度特征进行排序得到层级位置，并在每一层内对维度特征对应的至少一个指标值进行分裂，得到相应的分裂节点，直至将全部的指标数据均进行分类或者所有的维度特征均被使用为止。
89.步骤103，基于目标维度特征、指标数据及其对应的层级位置，生成数据看板。
90.在一个或多个实施例中，可将目标纬度特征作为数据看板的根节点，然后按照指标数据及其对应的层级位置发散分布设置数据看板节点，从而形成的树状数据展示结构作
为数据看板。
91.可选的，数据看板可由服务器生成并发送至用户终端进行展示，也可直接由用户终端自行生成并展示，本技术对此不作限定。
92.由此，本技术通过结合决策树思想对指标数据进行分裂，以构建指标体系，大大提高了指标体系构建中指标划分的合理性和数据看板的可读性。
93.基于本技术实施例的数据看板生成方法，可以直接依赖数据本身的特性构建指标体系(数据看板)，不用强依赖于业务人员和研发人员的知识储备和业务理解程度，使得最终生成的数据看板更符合数据本身的关联特性，而且，数据看板可根据指标分裂策略自行生成，无需业务人员和研发人员彼此沟通，大大降低了需求沟通时间，提高了数据反馈速度。
94.而且，本技术采用分裂策略构建数据看板，在发生数据异常时，研发人员仅需查看每层或层间分裂是否满足分裂策略即可，有效降低研发人员查找和发现问题的难度。
95.还需要说明的是，指标体系的构建一般包括两个主要方面：配置指标数据和配置指标体系的层次结构，在本技术实施例提出的一个或多个实施例中，指标数据就是单个指标或者不同维度特征下观测到的指标值，而各个指标之间的相关关系则是指标体系的层次结构。
96.需要说明的是，指标体系层级关系可以根据维度特征的多少进行不同的展示，基于决策树构造的思想，可以实现自动确定指标体系的层级关系，决策树的学习关键在于从指标数据中找到最后划分的维度特征，一般而言，随着划分的进行，我们希望决策树的分支节点所包含的样本尽可能的属于同一类别，即，节点越来越纯。
97.在一个或多个实施例中，分裂策略包括层级分裂策略，如图4和图5所示，步骤102，基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，并标记指标数据对应的层级位置，包括：
98.步骤1021，基于指标数据表，计算指标数据表中全部数据对应的信息纯度。
99.可选的，可利用基尼(gini)系数、信息熵和错误率来确定数据表中全部数据对应的信息纯度。优选的，采用信息熵来确定信息纯度，其中，信息熵(information entropy)的值越小，纯度越高。
100.步骤1022，针对每个维度特征，确定维度特征对应得量化纯度。
101.其中，指标数据表中全部数据对应的信息纯度可为每个维度特征对应的量化纯度的总和，因此，可对指标数据表对应的信息纯度进行拆分，来获取每个维度特征对应的量化纯度。
102.步骤1023，基于层级分裂策略对应的量化纯度的变化趋势，从指标数据表中依次确定用于分裂的维度特征，并将维度特征被分裂的第一次序作为层级位置。
103.可选的，量化纯度的变化趋势可为从大到小，其中，可采用信息增益(information gain)、信息增益比(information gain ratio)或者基尼指标(gini index)等方法来实现。举例来说，在使用信息增益来确定分裂的维度特征时，如果信息增益度值越大，表示该维度特征上会损失的纯度越大，该维度特征与目标维度特征之间的关联越紧密或影响越大，那么该维度特征应该在决策树的上层。
104.在一个或多个实施例中，层级分裂策略对应的量化纯度的变化趋势为从大到小，
基于层级分裂策略对应的量化纯度的变化趋势，从指标数据中依次确定用于分裂的维度特征，并将维度特征被分裂的第一次序作为层级位置，包括：对每个维度特征对应的量化纯度进行比较，提取当前至少一个量化纯度中的最大值，将量化纯度中的最大值对应的维度特征标记为当前用于分裂的目标维度特征，并记录目标维度特征被分裂的第一次序，重复上述步骤，直至每个维度特征均被标记为目标维度特征。
105.也就是说，在确定出每个维度特征对应的量化纯度之后，可将多个量化纯度互相比较，或者建立量化纯度的降序表格，得到量化纯度的最大值，并将量化纯度最大值对应的维度特征作为当前用于分裂的目标维度特征，例如，如果当前是第一次分裂，则量化纯度最大值对应的维度特征即为第一个被分裂的维度特征，该维度特征被分裂的第一次序为1，然后排除序列为1的维度特征，将其余尚未被分裂的维度特征对应的量化纯度进行比较，从尚未被分裂的维度特征的量化纯度中选取量化纯度最大值，将该量化纯度最大值对应的维度特征对应的被分裂的第一次序标记为2，以此类推，直至全部维度特征全部被标记有被分裂的第一次序。
106.由此，本技术能够决策树思想在构造数据看板时，能够将相关维度特征按照与目标维度特征之间联系从大到小的顺序进行排列，极大的方便了业务人员从数据看板中获取信息的效率，无需业务人员再根据自身对相关维度特征的了解进行错误的划分尝试，而且，数据看板能够辅助业务人员更好的指定后续工作计划，例如深化具有相关度高的维度特征对应的用户，或者调整针对相关度低的维度特征对应的用户的策略等。
107.在一个或多个实施例中，分裂策略还包括属性分裂策略，如图6所示，基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，包括：
108.步骤1024，基于指标数据表，识别每个维度特征对应的至少一个指标数据的类型，指标数据的属性类型根据指标数据的连续程度确定。
109.其中，指标数据的连续程度可分为离散型和连续型，离散型即为指标数据(指标值)彼此之间不连续，例如表1中的性别特征对应的指标数据“男”和“女”，连续型即为指标数据彼此之间连续，例如表1中的分数特征对应的指标数据“10”、“20”和“30”，指标数据的值间隔为10呈连续状态。
110.步骤1025，基于指标数据的属性类型，确定用于对维度特征进行分裂的属性分裂策略。
111.可选的，在属性类型为离散型时，基于指标数据的个数对维度特征进行分裂；在属性类型为连续型时，基于贪心算法对维度特征进行分裂。
112.应当理解的是，离散型指标数据彼此独立，无法进行分类划分，并且删除任一指标数据的属性类型都会影响业务人员和/或研发人员从数据看板获取信息的效率，而连续型指标数据具有连续性，彼此相连的指标数据之间具有相关性，因此，可以使用贪心算法对维度特征的指标数据进行分裂，以将连续数据划分成数据段，辅助生成数据看板，有效降低连续型指标数据所在层的节点数量，降低业务人员读图的难度，提高数据获取的效率，提高数据看板的也阅读性。
113.步骤1026，基于属性分裂策略，对维度特征进行属性分裂，得到用于作为分裂节点的指标数据及其对应的第二次序，并将第二次序作为层级位置。
114.可选的，在属性类型为离散型时，将维度特征对应的每个指标数据均作为分裂节
点，并随机获取指标数据的第二次序；在属性类型为连续型时，基于贪心算法从指标数据中确定至少一个用于分裂的指标数据，并记录每个被分裂的指标数据的第二次序。
115.也就是说，在指标数据的属性类型为离散时，可将维度特征对应的每个指标数据均作为分裂节点，例如性别特征对应的“男”和“女”，两个指标数据均作为分裂节点，此时，可随机获取每个两个指标数据的第二次序，即，可获取指标数据“男”对应的第二次序为1，指标数据“女”对应的第二次序为2，或者指标数据“女”对应的第二次序为1，指标数据“男”对应的第二次序为2。应当理解的是，指标数据随机获取的第二次序是连续且不重复的。
116.在指标数据的属性为连续型时，基于贪心算法从指标数据中确定至少一个用于分裂的指标数据，其中，贪心算法(又称贪婪算法)是指，对问题求解时，总是做出在当前看来最好的选择。也就是说，利用贪心算法从连续的多个指标值中选取对当前维度特征影响最大的指标数据作为分裂节点，以此类推，选择预设数量的指标数据作为分裂节点，或直至将全部的指标数据全部作为分裂节点。然后按照每个指标数据被贪心算法选择的顺序作为第二次序。应当理解的是，第二次序的标记方法与第一次序的标记方法相同，本技术在此不再赘述。
117.在一个或多个实施例中，层级位置包括指标数据所属的维度特征被分裂的第一次序和指标数据在层间被分裂的第二次序，基于目标维度特征、指标数据及其对应的层级位置，生成数据看板，包括：将指标数据按照第一次序逐渐增大的顺序自目标维度特征纵向排列，并将属于相同维度特征的至少一个指标数据按照第二次序水平排列；在两个相邻第一次序的指标数据之间建立线性连接关系，得到数据看板。
118.也就是说，将指标数据作为决策树的节点，将线性连接作为决策树节点之间的边，从而实现将指标数据表转换成数据看板。
119.可选的，纵向排列可从上向下，也可从下向上，水平排列可从左向右，也可从右向左，本技术在此不作限定。其中，本技术图5给出的是将维度特征按照从上向下的方式排列的示意图。
120.为了更清楚地理解本技术的发明构思，如图7所示，数据看板生成方法包括：
121.步骤201，服务器获取原始数据，并将原始数据进行处理得到指标数据表。
122.步骤202，服务器计算指标数据表对应的信息纯度。
123.步骤203，服务器确定尚未分裂的每个维度特征的量化纯度。
124.步骤204，服务器从尚未分裂的维度特征中选取任一维度特征。
125.步骤205，服务器判断将选取的维度特征进行分裂，纯度减小是否最大？
126.如果是，执行步骤206，如果否，则返回步骤204。
127.步骤206，服务器选择该维度特征进行分裂。
128.步骤207，服务器判断该维度特征对应的指标数据的类型。
129.如果指标数据为离散型，则执行步骤208，如果指标数据为连续型，则执行步骤209。
130.步骤208，服务器将维度特征对应的每个指标数据均作为分裂节点，并随机获取指标数据的顺序。
131.步骤209，服务器基于贪心算法从指标数据中依次确定用于分裂的指标数据，并记录分裂顺序。
132.步骤210，服务器判断是否还有未分裂的指标数据。
133.如果有，则返回步骤203，如果没有，则执行步骤211。
134.步骤211，服务器将指标数据按照分裂顺序从上至下和从左到右的顺序构建数据看板。
135.步骤212，服务器将数据看板发送至用户终端进行展示。
136.综上所述，本技术通过结合决策树思想对指标数据进行分裂，以构建指标体系，大大提高了指标体系构建中指标划分的合理性和数据看板的可读性。
137.应当注意，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。
138.图8为本技术实施例提出的一种数据看板生成装置的结构示意图。
139.如图8所示，本技术实施例提出的数据看板生成装置10，包括：
140.获取模块11，用于获取待处理的原始数据，并基于原始数据的维度特征生成指标数据表，其中，维度特征包括目标维度特征；
141.分裂模块12，用于基于指标分裂策略，从指标数据表中依次确定出用于作为分裂节点的指标数据，并标记指标数据对应的层级位置，指标数据为维度特征的特征值；
142.组合模块13，用于基于目标维度特征、指标数据及其对应的层级位置，生成数据看板。
143.在一些实施例中，分裂策略包括层级分裂策略，分裂模块12，用于：
144.基于指标数据表，计算指标数据表中全部数据对应的信息纯度；
145.针对每个维度特征，确定维度特征对应的量化纯度；
146.基于层级分裂策略对应的量化纯度的变化趋势，从指标数据表中依次确定用于分裂的维度特征，并将维度特征被分裂的第一次序作为层级位置。
147.在一些实施例中，层级分裂策略对应的影响程度的变化趋势为从大到小，分裂模块12，用于：
148.对每个维度特征对应的量化纯度进行比较，提取当前至少一个量化纯度中的最大值；
149.将量化纯度中的最大值对应的维度特征标记为当前用于分裂的目标维度特征，并记录目标维度特征被分裂的第一次序；
150.重复上述步骤，直至每个维度特征均被标记为目标维度特征。
151.在一些实施例中，分裂策略还包括属性分裂策略，分裂模块12，用于：
152.基于指标数据表，识别每个维度特征对应的至少一个指标数据的属性类型，指标数据的属性类型根据指标数据的连续程度确定；
153.基于指标数据的属性类型，确定用于对维度特征进行分裂的属性分裂策略；
154.基于属性分裂策略，对维度特征进行属性分裂，得到用于作为分裂节点的指标数据及其对应的第二次序，并将第二次序作为层级位置。
155.在一些实施例中，分裂模块12，用于：
156.在属性类型为离散型时，基于指标数据的个数对维度特征进行分裂；
157.在属性类型为连续型时，基于贪心算法对维度特征进行分裂。
158.在一些实施例中，分裂模块12，用于：
159.在属性类型为离散型时，将维度特征对应的每个指标数据均作为分裂节点，并随机获取指标数据的第二次序；
160.在属性类型为连续型时，基于贪心算法从指标数据中确定至少一个用于进行分裂的指标数据，并记录每个被分裂的指标数据的第二次序。
161.在一些实施例中，层级位置包括指标数据所属的维度特征被分裂的第一次序和指标数据在层间被分裂的第二次序，组合模块13，用于：
162.将指标数据按照第一次序逐渐增大的顺序自目标维度特征纵向排列，并将属于相同维度特征的至少一个指标数据按照第二次序水平排列；
163.在两个相邻第一次序的指标数据之间建立线性连接关系，得到数据看板。
164.综上所述，本技术通过结合决策树思想对指标数据进行分裂，以构建指标体系，大大提高了指标体系构建中指标划分的合理性和数据看板的可读性。
165.应当理解，数据看板生成装置10中记载的诸单元或模块与参考图3描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征同样适用于数据看板生成装置10及其中包含的单元，在此不再赘述。数据看板生成装置10可以预先实现在电子设备的浏览器或其他安全应用中，也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。数据看板生成装置10中的相应单元可以与电子设备中的单元相互配合以实现本技术实施例的方案。
166.在上文详细描述中提及的若干模块或者单元，这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
167.下面参考图9，图9示出了适于用来实现本技术实施例的电子设备或服务器的计算机系统的结构示意图，
168.如图9所示，计算机系统包括中央处理单元(cpu)901，其可以根据存储在只读存储器(rom)902中的程序或者从存储部分908加载到随机访问存储器(ram)903中的程序而执行各种适当的动作和处理。在ram903中，还存储有系统的操作指令所需的各种程序和数据。cpu901、rom902以及ram903通过总线904彼此相连。输入/输出(i/o)接口905也连接至总线904。
169.以下部件连接至i/o接口905；包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至i/o接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。
170.特别地，根据本技术的实施例，上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，
该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(cpu)901执行时，执行本技术的系统中限定的上述功能。
171.需要说明的是，本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd
‑
rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
172.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连接表示的方框实际上可以基本并行地执行，他们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
173.描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、分裂模块和组合模块。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，获取模块，还可以被描述为“获取待处理的原始数据，并基于所述原始数据的维度特征生成指标数据表，其中，所述维度特征包括目标维度特征”。
174.作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或多个程序，当上述程序被一个或者一个以上的处理器用来执行描述于本技术的数据看板生成方法。
175.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术
方案，同时也应涵盖在不脱离前述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本技术中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：多媒体信息识别方法、装置、电子设备及存储介质与流程

数据看板生成方法、装置、设备和介质与流程

相关文献

最热文献