一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据热度的分析方法、装置、设备及存储介质与流程

2021-12-14 22:53:00 来源:中国专利 TAG:
1.本发明涉及数据分析
技术领域
:,特别涉及一种数据热度的分析方法、装置、设备及存储介质。
背景技术
::2.随着大数据的发展,数据的需求也越来越丰富,人们通过对数据的各种研究以将其最大利用化,其中数据的热度能直观体现数据的影响范围和重要性。3.现有技术中,主要使用规则来计算热度值,由于货运领域的数据仓库新增业务较为频繁,对于数据维度的权重阈值难以科学设定,而且仅通过计算访问次数确定数据热度,无法考虑多方面的影响,无法得到准确的热度值。技术实现要素:4.本公开实施例提供了一种数据热度的分析方法、装置、设备及存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。5.第一方面,本公开实施例提供了一种数据热度的分析方法,包括:6.接收数据仓库中待统计数据表的查询信息、引用信息、用户互动信息、业务属性重要程度信息、数据发布时间信息以及数据使用时间信息;7.根据预训练的线性回归模型计算待统计数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息的数据维度数值;8.根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度。9.在一个实施例中,接收数据仓库中待统计数据表的用户互动信息之后,还包括:10.计算待统计数据表的曝光次数、浏览次数、点赞次数以及用户评分;11.根据曝光次数、浏览次数、点赞次数以及用户评分计算用户互动信息值。12.在一个实施例中,接收数据仓库中待统计数据表的业务属性重要程度信息之后,还包括:13.获取待统计数据表对应的业务属性类别;14.根据业务属性类别查询对应的业务属性重要程度值。15.在一个实施例中,根据预训练的线性回归模型计算数据维度数值之前,还包括:16.对多个数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息进行数据维度数值标注;17.将标注后的数据分为训练集和测试集;18.根据训练集和测试集训练线性回归模型,得到训练好的线性回归模型。19.在一个实施例中,线性回归模型的公式如下所示:20.s=w0 w1x1 w2x2 w3x3 w4x4;21.其中,s表示数据维度数值,x1表示数据表在预设周期内被查询的次数,x2表示数据表在预设周期内被引用的次数,x3表示用户互动信息值,x4表示业务属性重要程度值,w0...w4表示权重参数。22.在一个实施例中,根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度,包括根据如下公式计算数据的热度:[0023][0024]其中,f表示数据热度,s表示数据维度数值,mageinhours表示数据发布的时间与当前时间的差值,musedtimeinhour表示数据的最新使用时间。[0025]在一个实施例中,计算数据的热度之后,还包括:[0026]将数据仓库中的所有数据按照其对应的热度值进行从高到低排序,并将热度值排名在前的预设数量个数据推送给客户端展示。[0027]第二方面,本公开实施例提供了一种数据热度的分析装置,包括:[0028]数据接收模块,用于接收数据仓库中待统计数据表的查询信息、引用信息、用户互动信息、业务属性重要程度信息、数据发布时间信息以及数据使用时间信息;[0029]第一计算模块,用于根据预训练的线性回归模型计算待统计数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息的数据维度数值;[0030]第二计算模块,用于根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度。[0031]第三方面,本公开实施例提供了一种数据热度的分析设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的数据热度的分析方法。[0032]第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令可被处理器执行以实现上述实施例提供的一种数据热度的分析方法。[0033]本公开实施例提供的技术方案可以包括以下有益效果:[0034]根据本公开实施例提供的数据热度的分析方法,综合考虑了数据的查询次数、引用次数、发布时间、用户行为以及业务重要程度等多个维度的数据信息,而且使用线性回归算法为模型,通过模型计算出各个数据维度的权重,得到准确率较高的热度值,更加适合货运领域数据仓库中数据热度的计算场景。[0035]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。附图说明[0036]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。[0037]图1是根据一示例性实施例示出的一种数据热度的分析方法流程示意图;[0038]图2是根据一示例性实施例示出的一种数据血缘关系的示意图;[0039]图3是根据一示例性实施例示出的一种数据热度的分析装置结构示意图;[0040]图4是根据一示例性实施例示出的一种数据热度的分析设备结构示意图;[0041]图5是根据一示例性实施例示出的一种计算机存储介质的示意图。具体实施方式[0042]以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。[0043]应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。[0044]下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。[0045]在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。[0046]本实施例中的数据热度的分析方法,采用更加适合数据仓库数据热度的维度,使用线性回归来选择合适的维度权重,并使用了数据仓库的集市数据,以及集市数据所依赖的底层作为互动量维度,以及用户使用维度等多维度来计算热度,对维度扩展有较好的兼容,使得更加适合数据仓库场景。[0047]图1是根据一示例性实施例示出的一种数据热度的分析方法流程示意图,参见图1,该方法具体包括以下步骤。[0048]s101接收数据仓库中待统计数据表的查询信息、引用信息、用户互动信息、业务属性重要程度信息、数据发布时间信息以及数据使用时间信息。[0049]本实施例以货运领域数据仓库中数据热度的分析为例,为了提高数据热度统计的准确率,通过多个维度的数据进行统计。[0050]首先,采集数据仓库中待统计数据表的查询信息,通过用户在计算平台上执行的sq1语句脚本,将sq1语句脚本进行语法解析,生成语法数据,然后抽取使用的表,将使用的表次数进行累加,得到待统计数据表的查询次数。[0051]进一步地,根据待统计数据表的血缘关系计算引用次数。包括根据用户执行sql脚本程序构建表的数据血缘关系。按如下步骤构建表的血缘关系:[0052]i.收集dml语句以及insertddl语句;[0053]ii.将第i步收集的语句进行语法解析,生成抽象语法树;[0054]iii.遍历语法树获取其中的inputtable、outputtable信息;[0055]iv.将iii步骤获取的关系组建成树结构的血缘关系。[0056]图2是根据一示例性实施例示出的一种数据血缘关系的示意图,如图2所示,数据表table2引用数据表tablel,数据表table3和数据表table4引用数据表tablea,根据表的血缘关系可计算出待统计数据表的引用次数。[0057]进一步地,还包括采集待统计数据表的用户互动信息,根据接收到的用户互动信息计算用户互动值,包括:计算待统计数据表的曝光次数、浏览次数、点赞次数以及用户评分,根据曝光次数、浏览次数、点赞次数、用户评分计算用户互动信息值。在一种可能的实现方式中,根据如下公式计算用户互动信息值:[0058][0059]进一步地,还包括采集待统计数据表的业务属性重要程度信息,业务属性重要程度信息表明了该数据表对应的业务的重要程度,例如,在货运领域,车辆数据对应的重要程度就比较大,金融数据对应的重要程度相对就比较小,通过业务属性重要程度值进行描述。[0060]在一个实施例中,根据数据对应的业务的重要程度,设定业务重要程度信息表,该业务重要程度信息表中存储了不同种类的业务以及不同种类的业务对应的重要程度值。如下表所示:[0061]业务业务属性重要程度值车辆100用户80企业60其他40[0062]获取待统计数据表对应的业务属性类别,根据业务属性类别查询业务重要程度信息表,得到其对应的业务属性重要程度值,通过获取业务属性信息,可以得到更符合应用领域的高热度数据,提高数据的适用性。[0063]最后,采集并存储数据的时间信息,包括数据的发布时间信息以及数据的使用时间信息。[0064]根据该步骤,采集并分析待统计数据表的多个维度的数据,提高热度计算的准确率以及适用性。[0065]s102根据预训练的线性回归模型计算待统计数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息的数据维度数值。[0066]为了提高计算的准确度,本公开实施例采用线性回归模型计算各个维度数据的权重,得到各个数据维度的数值。[0067]具体地,首先获取大量数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息,根据获取到的数据计算每个数据表的查询次数、引用次数、用户互动信息值以及业务属性重要程度值。[0068]然后,通过专业业务人员对表结构热度进行评估,对获取的数据集进行人工标注,得到标注后的数据。对标注后的数据进行预处理,例如,对空值数据进行附零,对异常数据进行删除,对维度数据进行归一化,得到预处理后的标注数据,将预处理后的标注数据分为训练集和测试集,训练线性回归模型,得到训练好的线性回归模型。本实施例中的维度权重参数,是基于大量数据训练得到的,更加符合应用场景,解决了现有技术中人工标注、规则设定不准确的问题。[0069]在一个实施例中,线性回归模型的公式如下所示:[0070]s=w0 w1x1 w2x2 w3x3 w4x4[0071]其中,s表示数据维度数值,x1表示数据表在预设周期内被查询的次数,x2表示数据表在预设周期内被引用的次数,x3表示用户互动信息值,x4表示业务属性重要程度值,w0...w4表示权重参数。[0072]在一个可选地实施例中,可以根据如下公式扩展数据维度:[0073]s=w0 w1x1 w2x2 w3x3 w4x4 … wnxn;[0074]其中,xn表示扩展的数据维度,s表示数据维度数值,x1表示数据表在预设周期内被查询的次数,x2表示数据表在预设周期内被引用的次数,x3表示用户互动信息值,x4表示业务属性重要程度值,w0...wn表示权重参数,本公开实施例提供的线性回归模型,对维度扩展有较好的兼容,本领域技术人员可以根据实际应用自行扩展数据维度。[0075]在一种可能的实现方式中,训练线性回归模型时,可以通过5折交叉验证和网格化超参数进行模型参数选择,通过rmse值选择最优性能在测试集上进行测试,调整模型参数,直到测试集上的效果达到最优,并接近于训练集效果,得到训练好的线性回归模型。[0076]其中,5折交叉验证法包括步骤1:将数据集分为5部分;步骤2:选取其中一部分作为测试集,另外四部分作为训练集;步骤3:步骤2进行5次,每一次选取的测试集不同。通过进行交叉验证评估模型,可以提高模型训练的精度。[0077]得到训练好的线性回归模型之后,将步骤s101中待统计数据表的查询次数、引用次数、用户互动信息值、业务属性重要程度值输入线性回归模型,得到数据维度数值。[0078]s103根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度。[0079]在一个实施例中,根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度,包括根据如下公式计算数据的热度:[0080][0081]其中,f表示数据热度,s表示数据维度数值,mageinhours表示数据发布的时间与当前时间的差值,musedtimeinhour表示数据的最新使用时间。[0082]在一个可选地实施例中,计算出数据的热度之后,将热度值存储到元数据中,还包括将数据仓库中的所有数据按照其对应的热度值进行从高到低排序,并将热度值排名在前的预设数量个数据推送给客户端展示。在用户搜索或者查看数据资产时,可以更好的展示热度较高的数据,供用户较快的搜索到自己感兴趣的资产。进一步地,数据发布后,可以通过热度评估资产的价值,将资源投入到热度较高的数据资产的迭代开发中去,提高数据的质量和拓展数据应用的场景。[0083]在一个可选地实施例中,计算出数据的热度之后,还包括获取数据表的类型,对数据按照类型分类,对每个类型中的数据按照热度值从高到低进行排序,并将每个类型中热度值排名在前的预设数量个数据加入热度信息表。在热度信息表中分类存储,得到每个数据类型中热度较高的数据。可以更好的展示热度较高的数据,供用户较快的搜索到自己感兴趣的资产。[0084]在一个可选地实施例中,随着大数据平台的发展,大规模的数据仓库、数据湖等大型数据中心日益普遍,数据中心在持续沉淀数据的同时,也带来存储和性能的压力,因此,计算出数据的热度之后,还包括在预设周期内,将热度值低于预设热度阈值的数据进行清理,例如,获取数据的存储时长,当数据的存储时长大于预设时长阈值,且数据的热度低于预设热度阈值时,自动清理数据。也可将满足清理条件的数据发送给管理人员,接收到管理人员的删除指令后,进行清理。[0085]本公开实施例提供的数据热度的分析方法,不仅考虑了数据的查询使用次数,还综合考虑了数据的业务属性重要程度、用户互动信息等多个维度的数据,而且使用线性回归算法为模型,通过模型计算出各个数据维度的权重,在实际使用过程中也可以不断训练调整模型,得到更加符合货运领域数据的权重参数,进而得到准确率较高的热度值。给后期数据应用和扩展带来便利。[0086]本公开实施例还提供一种数据热度的分析装置,该装置用于执行上述实施例的数据热度的分析方法,如图3所示,该装置包括:[0087]数据接收模块301,用于接收数据仓库中待统计数据表的查询信息、引用信息、用户互动信息、业务属性重要程度信息、数据发布时间信息以及数据使用时间信息;[0088]第一计算模块302,用于根据预训练的线性回归模型计算待统计数据表的查询信息、引用信息、用户互动信息以及业务属性重要程度信息的数据维度数值;[0089]第二计算模块303,用于根据数据维度数值、数据发布时间信息、数据使用时间信息计算数据的热度。[0090]需要说明的是,上述实施例提供的数据热度的分析装置在执行数据热度的分析方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据热度的分析装置与数据热度的分析方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。[0091]本公开实施例还提供一种与前述实施例所提供的数据热度的分析方法对应的电子设备,以执行上述数据热度的分析方法。[0092]请参考图4,其示出了本技术的一些实施例所提供的一种电子设备的示意图。如图4所示,电子设备包括:处理器400,存储器401,总线402和通信接口403,处理器400、通信接口403和存储器401通过总线402连接;存储器401中存储有可在处理器400上运行的计算机程序,处理器400运行计算机程序时执行本技术前述任一实施例所提供的数据热度的分析方法。[0093]其中,存储器401可能包含高速随机存取存储器(ram:randomaccessmemory),也可能还包括非不稳定的存储器(non‑volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。[0094]总线402可以是isa总线、pci总线或eisa总线等。总线可以分为地址总线、数据总线、控制总线等。其中,存储器401用于存储程序,处理器400在接收到执行指令后,执行程序,前述本技术实施例任一实施方式揭示的数据热度的分析方法可以应用于处理器400中,或者由处理器400实现。[0095]处理器400可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器,包括中央处理器(centralprocessingunit,简称cpu)、网络处理器(networkprocessor,简称np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器400读取存储器401中的信息,结合其硬件完成上述方法的步骤。[0096]本技术实施例提供的电子设备与本技术实施例提供的数据热度的分析方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。[0097]本技术实施例还提供一种与前述实施例所提供的数据热度的分析方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘500,其上存储有计算机程序(即程序产品),计算机程序在被处理器运行时,会执行前述任意实施例所提供的数据热度的分析方法。[0098]需要说明的是,计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。[0099]本技术的上述实施例提供的计算机可读存储介质与本技术实施例提供的数据热度的分析方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。[0100]以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献