一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

页面访问信息的获取方法及装置与流程

2021-10-29 20:12:00 来源:中国专利 TAG:数据处理 装置 获取 页面 方法


1.本发明涉及数据处理技术领域,尤其涉及一种页面访问信息的获取方法、装置、设备及存储介质。


背景技术:

2.随着大数据时代的到来,越来越多的系统日志被采集、传输和存储。流计算是一种基于日志流的计算新模式,在日志传输阶段,通过在内存中实时运算,计算出日志中不同分组的统计数据,为业务决策提供实时的数据支撑。
3.例如通过获取网站访问日志,采用流计算的方式计算出不同页面的页面访问信息,以便网站管理人员分析网站的用户流量,为网站的管理提供数据基础。但相关技术中,对于页面访问信息例如独立访客数或用户号码包的获取往往结果不够精确,且过程比较繁琐、处理速度较慢。


技术实现要素:

4.本发明实施例提供一种页面访问信息的获取方法、装置及存储介质,能够实现快速、精准的获取页面访问信息。
5.本发明实施例的技术方案是这样实现的:
6.本发明实施例提供一种页面访问信息的获取方法,包括:
7.获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据,所述日志数据包括:所述目标页面的独立访客标识;
8.基于所述日志数据,分别对各所述时间窗口内的独立访客标识进行去重处理,得到在各所述时间窗口内所述目标页面的独立访客标识;
9.以所述目标页面的页面标识为主键、以所述访客标识为子键、并获取所述子键对应的值,采用键-值存储方式,存储各所述时间窗口内所述目标页面的独立访客标识至数据库;
10.基于所述数据库的存储结构,查询得到所述目标页面的页面访问信息,所述页面访问信息包括以下至少之一:
11.所述目标时间段内所述目标页面对应的独立访客数、所述目标时间段内所述目标页面对应的访客标识集合。
12.本发明实施例提供一种页面访问信息的获取装置,包括:
13.获取模块,用于获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据,所述日志数据包括:所述目标页面的独立访客标识
14.运行模块,用于基于所述日志数据,分别对各所述时间窗口内的独立访客标识进行去重处理,得到在各所述时间窗口内所述目标页面的独立访客标识;以所述目标页面的页面标识为主键、以所述访客标识为子键、并获取所述子键对应的值,采用键-值存储方式,存储各所述时间窗口内所述目标页面的独立访客标识至数据库;基于所述数据库的存储结
构,查询得到所述目标页面的页面访问信息,所述页面访问信息包括以下至少之一:所述目标时间段内所述目标页面对应的独立访客数、所述目标时间段内所述目标页面对应的访客标识集合。
15.在上述方案中,所述获取模块,还用于通过分布式日志系统,获取所述目标页面在包含至少两个时间窗口的目标时间段内的日志数据。对应地,所述运行模块,还用于将在各所述时间窗口内所述目标页面的独立访客标识,回传至所述分布式日志系统。
16.在上述方案中,所述运行模块,还用于基于所述日志数据,采用流计算方式,分别记录各所述时间窗口内所述目标页面的独立访客标识,使得同一时间窗口内相同的独立访客标识仅记录一次。
17.在上述方案中,所述运行模块,还用于以所述目标页面的页面标识为主键、以所述访客标识为子键、并以所述访客标识关联的访问时间或访问顺序为值,存储各所述时间窗口内所述目标页面的独立访客标识至数据库。
18.在上述方案中,所述运行模块,还用于当所述页面访问信息包括所述独立访客数时,基于所述数据库的存储结构,从所述数据库中查询所述主键包括的所述子键的数量,并将查询得到的所述数量作为所述独立访客数。
19.在上述方案中,所述运行模块,还用于当所述页面访问信息包括所述访客标识集合时,基于所述数据库的存储结构,从所述数据库中查询所述主键包括的至少一个子键;获取查询得到的各所述子键对应的访客标识,以得到所述访客标识集合。
20.在上述方案中,所述运行模块,还用于当所述页面访问信息包括所述访客标识集合时,以所述目标时间段对应的时长为新时间窗口的大小,获取连续的至少两个新时间窗口内目标页面的日志数据;基于所述至少两个新时间窗口内目标页面的日志数据,分别对各所述新时间窗口内的独立访客标识进行去重处理,得到在各所述新时间窗口内所述目标页面的独立访客标识;存储各所述新时间窗口内所述目标页面的独立访客标识至所述数据库,以基于所述数据库的存储结构,查询得到所述目标页面的页面访问信息。
21.在上述方案中,所述装置还包括:输出模块,用于输出查询得到的所述目标页面的页面访问信息。
22.在上述方案中,所述输出模块,还用于发送所述访客标识集合,以呈现对应所述访客标识集合的下载功能项,所述下载功能项,用于供接收到针对所述下载功能项的触发操作时,下载所述访客标识集合。
23.本发明实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的页面访问信息的获取方法。
24.本发明实施例具有以下有益效果:
25.应用本发明上述实施例,通过对日志数据中各时间窗口内的独立访客标识进行去重处理,得到在各时间窗口内目标页面的独立访客标识,实现了对目标时间段内日志数据在第一阶段的去重处理及数据压缩;通过键-值存储方式存储第一阶段的去重结果至数据库中,进而基于数据库的存储结构,查询得到目标页面的页面访问信息,实现了对目标时间段内日志数据在第二阶段精准的去重处理,获取到准确的页面访问信息;同时,由于第二阶段的去重借助了键-值数据库,也即借助硬盘存储,提高了硬盘利用率的同时,也实现了对内存资源的充分利用,提高了数据处理效率。
附图说明
26.图1是相关技术中基于流计算系统获取的页面访问信息的结果示意图;
27.图2是本发明实施例提供的页面访问信息的获取方法的实施场景示意图;
28.图3是本发明实施例提供的电子设备的结构示意图;
29.图4是本发明实施例提供的页面访问信息的获取方法的流程示意图;
30.图5是本发明实施例提供的页面访问信息查询结果呈现界面的示意图;
31.图6是本发明实施例提供的页面访问信息的获取方法的一个可选的交互流程示意图;
32.图7是本发明实施例提供的页面访问信息的获取方法的流程示意图;
33.图8是本发明实施例提供的基于时间窗口对独立访客标识去重处理的示意图;
34.图9是本发明实施例提供的基于键值存储方式对独立访客标识的精确去重示意图;
35.图10是基于本发明实施例提供的页面访问信息获取方法获取的访问信息结果的示意图;
36.图11是是本发明实施例提供的页面访问信息的获取装置的结构示意图。
具体实施方式
37.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
38.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
39.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
40.对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
41.1)数据库(db,database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
42.2)数据库管理系统(dbms,database management system),是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式数据库、可扩展标记语言(xml,extensible markup language)数据库;或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(sql,structured query language)、xquery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些dbms能够跨类别,例如,同时支持多种
查询语言。
43.3)大数据(bd,big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
44.4)流计算,实时获取来自不同数据源的海量数据,经过实时分析处理,获取数据中有价值的信息。在日志传输阶段就对流入的日志逐条进行计算,具有较高的时效性。
45.5)页面访问量(pv,page view),访客进入某网站后,浏览过的该网站网页的数量。页面每被打开一次,页面访问量pv的值就增加一次。
46.6)独立访客数(uv,unique visitor),是指按照ip基准或cookie基准统计的用户数,针对同一页面,一个独立用户打开一次或打开多次,独立访客数的值都只增加一。
47.7)用户号码包,用户标识集合,这里,用户标识是指网络上用户登录时用于识别用户身份的标识号,例如用户登录微信等各种软件时使用的用户id信息等。
48.流计算作为一种基于日志流的计算新模式,在日志传输阶段,通过在内存中实时运算,计算出日志中不同分组的统计数据,可以为业务决策提供实时的数据支撑。例如通过网站访问日志,流计算任务可以计算出每个网页的页面访问量和独立访客数。但独立访客数的计算属于基数统计,是一个相对比较复杂的指标,因为精确的基数统计需要消耗与总数量成正比例的存储空间,所以在大数据量情况下,流计算需要占用大量的系统内存空间来完成这一计算。
49.相关技术中,对于流计算中独立访客数这一指标的计算方法主要分为三类:
50.第一,利用极致的节约内存的存储方案,例如bit-map算法。
51.第二,采用基于概率论的统计算法,例如hyperloglog算法;
52.第三,直接通过离线计算来回补统计数据;
53.1)类似bit-map的内存计算方法,只是将内存使用进行了压缩,虽然能够得到准确的独立访客数和用户号码包,但压缩比始终有限。当数据量超过bit-map的存储上限时,也无法满足要求;并且这类方案系统复杂性普遍较高。
54.2)基于概率的近似算法,本质上是基于概率论的思想来进行近似统计,可以解决内存占用的问题,但只能反馈业务的独立访客数近似值。在一些对数字非常敏感(如商业化营销等)和需要用户号码包(如实时推荐)的场景下,无法满足业务要求。
55.3)流计算中不进行独立访客数的计算,而是通过离线运算进行回补,导致统计数据延迟较大,失去了流计算原有的实时性,计算结果的价值也大打折扣。参见图1,图1为相关技术中基于流计算系统获取的页面访问信息的结果示意图。其中标号11所示为目标页面在目标时间段内的页面访问数变化曲线,标号12所示为目标页面在目标时间段内的独立访客数变化曲线。相关技术中,流计算系统向用户输出的数据通常以实时数据曲线的方式进行展示,不会提供精确的独立访客数和对应的访客标识集合。用户基于上述流计算系统,只能获知目标页面的页面访问信息的走向情况。
56.基于此,本发明实施例提供一种页面访问信息的获取方法、装置、设备和存储介
质,能够实现精准的页面访问信息的获取,并且处理速度快。
57.首先说明本发明实施例提供的页面访问信息的获取方法的实施场景,参见图2,图2是本发明实施例提供的页面访问信息的获取方法的实施场景示意图,为实现支撑一个示例性应用,终端400(包括终端400-1至终端400-n)通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
58.在上述实施场景中,终端400-2至终端400-n上均设置有应用客户端,如游戏客户端、社交应用客户端,当应用客户端运行时,应用客户端通过终端发送相应的日志数据至服务器,以使服务器100基于接收到的日志数据对应用客户端中的目标页面进行日志数据分析以获取页面访问信息,然后服务器100将获取到的页面访问信息发送给管理员所对应的终端(即终端400-1)进行呈现。
59.具体地,终端400-2至终端400-n,用于运行应用客户端,并发送相应的日志数据至服务器100。
60.服务器100,用于接收日志数据,获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据,并基于日志数据,分别对各时间窗口内的独立访客标识进行去重处理,得到在各时间窗口内所述目标页面的独立访客标识;以目标页面的页面标识为主键、以访客标识为子键、并获取子键对应的值,采用键-值存储方式,将各时间窗口内目标页面的独立访客标识存储至数据库;基于数据库的存储结构,查询得到目标页面的页面访问信息。
61.服务器100,还用于发送目标页面的页面访问信息至终端400-1。
62.终端400-1,用于呈现目标页面的页面访问信息。
63.在实际应用中,服务器100既可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
64.下面对本发明实施例提供的实施页面访问信息的获取方法的电子设备的硬件结构做详细说明,电子设备包括但不限于服务器或终端。参见图3,图3是本发明实施例提供的电子设备的结构示意图,图3所示的电子设备200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。电子设备200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统240。
65.处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
66.用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输
入按钮和控件。
67.存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
68.存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only me mory),易失性存储器可以是随机存取存储器(ram,random access memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。
69.在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
70.操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
71.网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
72.呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
73.输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
74.在一些实施例中,本发明实施例提供的页面访问信息的获取装置可以采用软件方式实现,图3示出了存储在存储器250中的页面访问信息的获取装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、运行模块2552和输出模块2553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
75.在另一些实施例中,本发明实施例提供的页面访问信息的获取装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的页面访问信息的获取装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的页面访问信息的获取方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated cir cuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。
76.基于上述对本发明实施例的页面访问信息的获取方法的实施场景及电子设备的说明,下面说明本发明实施例提供的页面访问信息的获取方法。参见图4,图4是本发明实施例提供的页面访问信息的获取方法的流程示意图;在一些实施例中,该页面访问信息的获取方法可由服务器或终端单独实施,或由服务器及终端协同实施,以服务器实施为例,本发明实施例提供的页面访问信息的获取方法包括:
77.步骤401:服务器获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
78.这里,目标页面可以为特定应用中的特定页面,如游戏应用的首页;日志数据为终端传输的针对目标页面在目标时间段内的日志数据,可以包括目标页面的页面标识,如页面对应的统一资源定位符(url,uniform resource loca tor)、独立访客标识、用户具体操作、日志时间等;时间窗口的数量可以根据时间窗口的大小以及目标时间段的时长确定,各个时间窗口之间是连续的,共同组成目标时间段,而关于目标时间段长度和时间窗口大小的设定,由于时间窗口的大小,与时间窗口内的数据量成正比,时间窗口设置的越大,时间窗口内的数据量越多,相应的,后续进行压缩时,压缩比例越大,占用的系统内存越小;但是时间窗口内数据量越多,在进行去重处理时,计算的时效性也会相应的降低,因此,在设置目标时间段和时间窗口的大小时,需要依据业务的时效性需求和系统的内存大小进行设定,例如,目标时间段的长度为一天,时间窗口大小为3个小时。
79.在实际应用中,服务器接收到针对目标页面的访问信息获取请求,对访问信息获取请求进行解析,得到目标页面的页面标识以及目标时间段后,获取目标页面在至少两个连续的时间窗口共同组成的目标时间段内的日志数据。
80.在另一些实施例中,服务器还可以通过分布式日志系统,获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
81.这里,分布式日志系统用于收集日志数据,例如,kafka系统、rocketmq系统等,具备高吞吐量、高水平扩展、实时响应等特点,以确保能够完整的收集到针对目标页面的所有日志数据,为实时数据分析提供实时数据。
82.在实际应用中,服务器通过分布式日志系统来收集针对目标页面在目标时间段内的日志数据,并根据时间窗口大小以及目标时间段的值,确定时间窗口的数量,将日志数据按照时间窗口对应的时间,分组至各个时间窗口内,完成对包含至少两个时间窗口的目标时间段内的日志数据采集。
83.举例来说,服务器在接收到针对目标页面的访问信息获取请求后,对访问信息获取请求进行解析,得到目标页面的页面标识url和目标时间段如2019年10月1日9点至14点。将时间窗口大小设定为1个小时,由此,将目标时间段划分为5个连续的时间窗口。服务器通过分布式日志系统kafka收集目标页面在这5个时间窗口对应的时间段内的日志数据。
84.步骤402:基于日志数据,服务器分别对各时间窗口内的独立访客标识进行去重处理,得到在各时间窗口内目标页面的独立访客标识。
85.在一些实施例中,服务器可以通过如下方式对各时间窗口内的独立访客标识进行去重处理:基于所述日志数据,采用流计算方式,分别记录各时间窗口内目标页面的独立访客标识,使得同一时间窗口内相同的独立访客标识仅记录一次。
86.在实际应用中,由于用户会反复浏览一个页面,可能会存在多条与同一个独立访客标识相关联的日志数据,并且日志数据会持续不断的快速产生。为了从海量的日志数据中,获取有价值的页面访问信息,需要对日志数据进行实时计算。服务器基于获取的日志数据,使用流计算框架,例如storm、flink等,实时的对各个时间窗口内的独立访客标识进行去重处理,当相同的时间窗口内出现多条与同一个独立访客标识相关联的日志时,仅对该独立访客标识记录一次,如此,从各时间窗口内提取出有效的独立访客记录。
87.在一些实施例中,当服务器通过分布式日志系统获取目标页面在目标时间段内的日志数据后,并得到各时间窗口内的目标页面的独立访客标识之后,还可以将在各时间窗
口内目标页面的独立访客标识,回传至分布式日志系统。
88.在实际应用中,服务器在得到各时间窗口内的目标页面的独立访客标识后,可以将页面标识对应的所有独立访客标识作为一条记录回传到分布式日志系统中。
89.举例来说,服务器将采集的日志数据流入到流计算框架storm中,分别记录各时间窗口内针对目标页面的独立访客标识,当同一个时间窗口内,相同独立访客标识关联的日志数据存在多条时,但服务器仅对该独立访客标识记录一次,从而对各时间窗口内的独立访客标识进行去重处理。服务器将一个目标页面的页面标识对应的所有独立访客标识作为一条记录回传至分布式日志系统中,以供后续处理。
90.本发明实施例通过分别对各时间窗口内的独立访客标识去重,实现对原始日志数据的压缩,提高系统的处理速度,保证系统处理的及时性。
91.步骤403:服务器以目标页面的页面标识为主键、以访客标识为子键、并获取子键对应的值,采用键-值存储方式,存储各时间窗口内目标页面的独立访客标识至数据库。
92.这里,由于子键对应的值并不会对页面访客信息的获取造成任何限制,因此,其可以是预先设置的固定的值,也可以是与访客标识关联的访问参数。
93.在一些实施例中,服务器可通过如下方式存储各时间窗口内目标页面的独立访客标识至数据库:以目标页面的页面标识为主键、以访客标识为子键、并以访客标识关联的访问时间或访问顺序为值,存储各所述时间窗口内所述目标页面的独立访客标识至数据库。
94.这里,访客标识关联的访问时间或访问顺序,可以根据实际情况进行具体限定,例如访问时间可以为独立访客标识访问目标页面的时间,或为服务器将独立访客标识存储到数据库的时间;访问顺序可以为独立访客标识对应的访问窗口的顺序等,这里就不进行具体限定了。
95.在实际应用中,服务器虽然对各时间窗口内的独立访客标识进行去重处理,但是在不同时间窗口之间还是可能存在多条相同的独立访客标识的记录,为了获取目标页面在目标时间段内的有效访问信息,还需将对应目标时间段的多个时间窗口内的独立访客标识进行精确去重。服务器采用键-值存储结构的数据库,如leveldb等,以目标页面的页面标识作为主键,独立访客标识作为子键,并以与独立访客标识相关联的访问时间或访问顺序作为参数值,将对应目标时间段的多个时间窗口内的独立访客标识存储至数据库中。关于存储独立访客标识所使用的键-值存储结构的数据库,这里就不具体限制了。
96.作为示例,服务器借助leveldb的键-值文件存储结构,将目标页面的页面标识url作为主键,将独立访客标识作为子键,参数值为独立访客标识访问目标页面的时间或预先设定的一个固定值,将经过去重处理后的各时间窗口对应的独立访客标识记录存储于leveldb中。
97.步骤404:服务器基于数据库的存储结构,查询得到目标页面的页面访问信息。
98.这里,页面访问信息包括以下至少之一:目标时间段内目标页面对应的独立访客数、目标时间段内目标页面对应的访客标识集合。
99.在一些实施例中,当页面访问信息包括所述独立访客数时,服务器可以通过如下方式查询得到目标页面的页面访问信息:
100.基于所述数据库的存储结构,从数据库中查询主键包括的子键的数量,并将查询得到的数量作为独立访客数。
101.在另一些实施例中,当页面访问信息包括所述访客标识集合时,服务器还可以通过如下方式查询得到目标页面的页面访问信息:
102.基于数据库的存储结构,从数据库中查询主键包括的至少一个子键;获取查询得到的各子键对应的访客标识,以得到访客标识集合。
103.在实际应用中,当服务器采用键-值存储方式存储各个时间窗口内的独立访客标识时,若服务器查询某个页面标识对应的独立访客数时,直接通过查询该页面标识对应的主键包括的子键数量,即可得到该页面标识对应的独立访客数;若服务器查询某个页面标识对应的访客标识集合时,直接导出该页面标识对应的主键下的所有子键,即可得到该页面标识对应的访客标识集合。
104.本发明实施例基于数据库的存储结构,能够准确的查询出目标页面在目标时间段内的独立访客数和/或访客标识集合,实现精准的页面访问数据获取,提高了信息的精确性。
105.在一些实施例中,服务器在基于数据库的存储结构,查询得到目标页面的页面访问信息之后,还可以输出查询得到的目标页面的页面访问信息。
106.在实际应用中,服务器在查询到针对目标页面的访问信息后,可以将页面访问信息发送给指定的终端,也可以通过连接显示设备,输出目标页面的访问信息的查询结果界面。
107.在一些实施例中,当页面访问信息包括所述访客标识集合时,服务器可以通过如下方式输出查询得到的目标页面的页面访问信息:
108.服务器发送访客标识集合,以使终端呈现对应所述访客标识集合的下载功能项。
109.这里,下载功能项可以为终端呈现的页面访问信息的查询结果界面上的表示下载功能的图标或按键等,用于供接收到针对下载功能项的触发操作时,下载访客标识集合;对下载功能项的触发操作可以为单击、双击或长按等操作。
110.在实际应用中,当用户想要获取目标页面的访客标识集合时,可以通过触发终端呈现的页面访问信息界面上的下载功能项,对目标页面对应的访客标识集合进行下载。示例性地,参见图5,图5是本发明实施例提供的页面访问信息查询结果呈现界面的示意图,标号51所示为界面中的下载功能项,终端在接收到用户对标号52所示的下载功能项的触发操作后,下载该时间段内的目标页面的访客标识集合。
111.在另一些实施例中,服务器在输出查询得到的目标页面的页面访问信息之后,还可以通过如下方式继续查询针对目标页面的页面访问信息:
112.当页面访问信息包括访客标识集合时,服务器以目标时间段对应的时长为新时间窗口的大小,获取连续的至少两个新时间窗口内目标页面的日志数据;基于至少两个新时间窗口内目标页面的日志数据,分别对各新时间窗口内的独立访客标识进行去重处理,得到在各新时间窗口内目标页面的独立访客标识;存储各新时间窗口内目标页面的独立访客标识至数据库,以基于数据库的存储结构,查询得到目标页面的页面访问信息。
113.这里,新时间窗口的粒度可以为目标时间段的大小的整数倍。
114.在实际应用中,服务器将目标时间段对应的时长设置为新时间窗口的大小的整数倍,例如,用户设定的目标时间段为一天,将新时间窗口的长度设置为两天,服务器获取连续的两个新时间窗口对应的时间段即四天内的日志数据,分别获取第一天的访客标识集合
和第二天的访客标识集合,根据独立访客标识,对第一天的访客标识集合和第二天的访客标识集合进行去重处理,再分别获取第三天的访客标识集合和第四天的访客标识集合,根据独立访客标识,对第三天的访客标识集合和第四天的访客标识集合进行去重处理,分别得到各新时间窗口内的目标页面的独立访客标识,将其存储至数据库中,基于数据库的存储结构,获取这四天内的页面访客信息。
115.如此,在已经进行去重处理后的目标时间段的访客标识集合的基础上,将时间窗口的长度扩大化,以获取目标页面在较长时间段内的页面访问信息,极大程度上压缩了新时间窗口内对应时间段内的页面访问信息的数量,提高系统整体处理效率。
116.下面,继续对本发明实施例提供的页面访问信息的获取方法进行介绍,在一些实施例中,该页面访问信息的获取方法可由服务器或终端实施,或由服务器及终端协同实施,图6是本发明实施例提供的页面访问信息的获取方法的一个可选的交互流程示意图,参见图6,本发明实施例提供的页面访问信息的获取方法由终端及服务器协同实施。
117.步骤601:终端呈现对应目标页面的信息配置界面。
118.这里,信息配置界面中包含访问信息获取功能项;
119.步骤602:终端接收并呈现基于信息配置界面输入的页面参数;
120.这里,页面参数包括:目标时间段对应的时间参数、时间窗口对应的窗口大小参数、访问信息获取指令所指示获取的页面访问信息参数。
121.在一些实施例中,终端可通过在针对目标页面的信息配置界面中呈现文本指令输入框,接收并呈现用户基于文本指令输入框输入的文本形式的页面参数。
122.在实际应用中,终端向用户呈现的针对目标页面的信息配置界面中呈现文本指令输入框,用户通过文本指令输入框输入目标时间段对应的时间参数、时间窗口对应的窗口大小参数、访问信息获取指令所指示获取的页面访问信息参数等页面参数,终端在接收到用户输入的页面参数后,将页面参数呈现在信息配置页面上,以便用户确认页面参数。
123.步骤603:终端响应于针对访问信息获取功能项的触发操作,基于页面参数生成访问信息获取请求。
124.在实际应用中,当用户确认页面参数后,触发访问信息获取功能项,终端响应于用户对访问信息获取功能项的触发操作,生成携带有页面参数的访问信息获取请求。
125.步骤604:终端向服务器发送携带有页面参数的访问信息获取请求。
126.步骤605:服务器接收并解析访问信息获取请求,获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
127.在实际应用中,服务器接收到针对目标页面的页面访问信息获取请求后,对页面访问信息获取请求进行解析,得到页面访问信息获取指令中携带的页面参数,从而获取目标页面在至少两个连续的时间窗口共同组成的目标时间段内的日志数据。
128.在一些实施例中,服务器可通过分布式日志系统,获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
129.这里,分布式日志系统用于收集日志数据,例如,kafka系统、rocketmq系统等,具备高吞吐量、高水平扩展、实时响应等特点,以确保能够完整的收集到针对目标页面的所有日志数据,为实时数据分析提供实时数据。
130.在实际应用中,服务器通过分布式日志系统来收集针对目标页面在目标时间段内
的日志数据,并根据时间窗口大小以及目标时间段的值,确定时间窗口的数量,将日志数据按照时间窗口对应的时间,分组至各个时间窗口内,完成对包含至少两个时间窗口的目标时间段内的日志数据采集。
131.步骤606:服务器基于日志数据,分别对各时间窗口内的独立访客标识进行去重处理,得到在各时间窗口内目标页面的独立访客标识。
132.在一些实施例中,服务器还可以通过如下方式对各时间窗口内的独立访客标识进行去重处理:基于所述日志数据,采用流计算方式,分别记录各时间窗口内目标页面的独立访客标识,使得同一时间窗口内相同的独立访客标识仅记录一次。
133.在实际应用中,由于用户会反复浏览一个页面,可能会存在多条与同一个独立访客标识相关联的日志数据,并且日志数据会持续不断的快速产生。为了从海量的日志数据中,获取有价值的页面访问信息,需要对日志数据进行实时计算。服务器基于获取的日志数据,使用流计算框架,例如storm、flink等,实时的对各个时间窗口内的独立访客标识进行去重处理,当相同的时间窗口内出现多条与同一个独立访客标识相关联的日志时,仅对该独立访客标识记录一次,如此,从各时间窗口内提取出有效的独立访客记录。
134.在一些实施例中,当服务器通过分布式日志系统获取目标页面在目标时间段内的日志数据后,并得到各时间窗口内的目标页面的独立访客标识之后,还可以将在各时间窗口内目标页面的独立访客标识,回传至分布式日志系统。
135.步骤607:服务器以目标页面的页面标识为主键、以访客标识为子键、并获取所述子键对应的值,采用键-值存储方式,存储各时间窗口内目标页面的独立访客标识至数据库。
136.这里,由于子键对应的值并不会对页面访客信息的获取造成任何限制,因此,其可以是预先设置的固定的值,也可以是与访客标识关联的访问参数。
137.在一些实施例中,服务器可通过如下方式存储各时间窗口内目标页面的独立访客标识至数据库:
138.服务器以目标页面的页面标识为主键、以访客标识为子键、并以访客标识关联的访问时间或访问顺序为值,存储各所述时间窗口内所述目标页面的独立访客标识至数据库。
139.这里,访客标识关联的访问时间或访问顺序,可以根据实际情况进行具体限定,例如访问时间可以为独立访客标识访问目标页面的时间,或为服务器将独立访客标识存储到数据库的时间;访问顺序可以为独立访客标识对应的访问窗口的顺序等,这里就不进行具体限定了。
140.步骤608:服务器基于数据库的存储结构,查询得到目标页面的页面访问信息。
141.这里,页面访问信息包括以下至少之一:目标时间段内目标页面对应的独立访客数、目标时间段内目标页面对应的访客标识集合。
142.在一些实施例中,当页面访问信息包括所述独立访客数时,服务器可以通过如下方式查询得到目标页面的页面访问信息:
143.基于所述数据库的存储结构,从数据库中查询主键包括的子键的数量,并将查询得到的数量作为独立访客数。
144.在另一些实施例中,当页面访问信息包括所述访客标识集合时,服务器还可以通
过如下方式查询得到目标页面的页面访问信息:
145.基于数据库的存储结构,从数据库中查询主键包括的至少一个子键;获取查询得到的各子键对应的访客标识,以得到访客标识集合。
146.在实际应用中,当服务器采用键-值存储方式存储各个时间窗口内的独立访客标识时,若服务器查询某个页面标识对应的独立访客数时,直接通过查询该页面标识对应的主键包括的子键数量,即可得到该页面标识对应的独立访客数;若服务器查询某个页面标识对应的访客标识集合时,直接导出该页面标识对应的主键下的所有子键,即可得到该页面标识对应的访客标识集合。
147.步骤609:服务器将查询得到的页面访问信息返回至终端。
148.步骤610:终端将服务器返回的目标页面的页面访问信息呈现给用户。
149.在实际应用中,终端在接收到服务器发送的查询结果后,通过页面访问信息的查询结果界面,向用户展示目标页面在目标时间段内的访问信息。
150.在一些实施例中,当页面访问信息包括所述访客标识集合时,终端还可以呈现对应所述访客标识集合的下载功能项。
151.这里,下载功能项,用于供接收到针对下载功能项的触发操作时,下载访客标识集合,可以为终端呈现的页面访问信息界面上的表示下载功能的图标或按键等;对下载功能项的触发操作可以为单击、双击或长按等操作。
152.在另一些实施例中,服务器在查询得到的目标页面的页面访问信息之后,还可以通过如下方式继续查询针对目标页面的页面访问信息:
153.当页面访问信息包括访客标识集合时,服务器以目标时间段的整数倍对应的时长为新时间窗口的大小,获取连续的至少两个新时间窗口内目标页面的日志数据;基于至少两个新时间窗口内目标页面的日志数据,分别对各新时间窗口内的独立访客标识进行去重处理,得到在各新时间窗口内目标页面的独立访客标识;存储各新时间窗口内目标页面的独立访客标识至所述数据库,以基于数据库的存储结构,查询得到目标页面的页面访问信息。
154.在实际应用中,服务器将目标时间段对应的时长设置为新时间窗口的大小的整数倍,例如,用户设定的目标时间段为一天,将新时间窗口的长度设置为两天。
155.如此,在已经进行去重处理后的目标时间段的访客标识集合的基础上,将时间窗口的长度扩大化,以获取目标页面在较长时间段内的页面访问信息,极大程度上压缩了新时间窗口内对应时间段内的页面访问信息的数量,提高系统整体处理效率。
156.下面,将以游戏官网页面的独立访客数计算为例说明本发明实施例在一个实际的应用场景中的示例性应用。
157.参见图7,图7是本发明实施例提供的页面访问信息的获取方法的流程示意图。
158.步骤701:服务器获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
159.这里,目标页面可以为特定应用中的特定页面,如游戏应用的首页;日志数据为终端传输的目标页面的在目标时间段内的日志数据,可以包括目标页面的页面标识,如页面对应的url、独立访客标识、用户具体操作、日志时间等;时间窗口的数量可以根据时间窗口的大小以及目标时间段的长度确定,各个时间窗口之间是连续的,共同组成目标时间段,而
目标时间段大小和时间窗口大小的设定,可以依据实际需要设定,例如,目标时间段的长度为一天,时间窗口大小为3个小时。
160.在实际应用中,服务器接收到针对目标页面的访问信息获取请求,对访问信息获取请求进行解析,得到目标页面的页面标识以及目标时间段后,获取目标页面在至少两个连续的时间窗口共同组成的目标时间段内的日志数据。
161.在一些实施例中,服务器可通过分布式日志系统,获取目标页面在包含至少两个时间窗口的目标时间段内的日志数据。
162.这里,分布式日志系统用于收集日志数据,例如,kafka系统、rocketmq系统等,具备高吞吐量、高水平扩展、实时响应等特点,以确保能够完整的收集到针对目标页面的所有日志数据,为实时数据分析提供实时数据。
163.作为示例,终端在呈现访问信息获取界面之后,用户可以通过访问信息获取界面输入针对游戏官网页面的访问信息获取指令,访问信息获取指令携带有游戏官网页面的页面标识url、目标时间段等页面参数,终端接收到针对游戏官网页面的访问信息获取指令后,向服务器发送携带有页面参数的页面访问信息获取请求,服务器接收并解析访问信息获取请求,得到页面参数,从而通过高速日志队列kafka获取游戏官网页面在至少两个连续的时间窗口共同组成的目标时间段内的原始日志数据,这里原始日志数据包含游戏官网页面的页面标识url、用户的qq号、日志时间等。
164.步骤702:基于日志数据,服务器分别对各时间窗口内的独立访客标识进行去重处理,得到在各时间窗口内目标页面的独立访客标识。
165.在一些实施例中,服务器可通过如下方式对各时间窗口内的独立访客标识进行去重处理:基于所述日志数据,采用流计算方式,分别记录各时间窗口内目标页面的独立访客标识,使得同一时间窗口内相同的独立访客标识仅记录一次。
166.在实际应用中,由于用户会反复浏览一个页面,可能会存在多条与同一个独立访客标识相关联的日志数据,并且日志数据会持续不断的快速产生。为了从海量的日志数据中,获取有价值的页面访问信息,需要对日志数据进行实时计算。服务器基于获取的日志数据,使用流计算框架,例如storm、flink等,实时的对各个时间窗口内的独立访客标识进行去重处理,当相同的时间窗口内出现多条与同一个独立访客标识相关联的日志时,仅对该独立访客标识记录一次,如此,从各时间窗口内提取出有效的独立访客记录。这里,各时间窗口去重后的独立访客记录的数据量相较于各时间窗口的原始日志数据量,已经压缩了一定比例。示例性地,参见表1,表1为时间窗口大小与压缩比的关系表。
167.表1
168.时间窗口大小(s)压缩比(%)30s90.21%45s91.14%60s93.61%120s96.12%
169.由表1可知,时间窗口大小和原始日志数据的压缩比之间,基本成正比例关系,即时间窗口设置越大,压缩比越大,但对应的计算时效性也会相应降低。因此,时间窗口大小,需要综合考虑业务需求(时效性)和系统内存大小来定,达到一个最佳平衡点。
170.在另一些实施例中,当服务器通过分布式日志系统获取目标页面在目标时间段内的日志数据后,并得到各时间窗口内的目标页面的独立访客标识之后,还可以将在各时间窗口内目标页面的独立访客标识,回传至分布式日志系统。
171.在实际应用中,服务器在得到各时间窗口内的目标页面的独立访客标识后,可以将页面标识对应的所有独立访客标识作为一条记录回传到分布式日志系统中。
172.举例来说,服务器将采集的日志数据流入到流计算框架storm中,分别记录各时间窗口内游戏官网页面的用户的qq号,当同一个时间窗口内,相同用户qq号关联的日志数据存在多条时,但终端仅对该用户qq号记录一次,从而对各时间窗口内的用户qq号进行去重处理。服务器将一个页面标识url对应的所有用户qq号作为一条记录回传至分布式日志系统kafka中,从而实现了对原始日志数据的压缩。
173.示例性地,参见图8,图8为本发明实施例提供的基于时间窗口对独立访客标识去重处理的示意图,标号81所示为针对两个url的20条原始日志;标号82所示为一个时间窗口,其中,服务器在该时间窗口内将原始日志按照ur l分为两个组,单个qq针对一个url来说只会记录一次;标号83所示为从流计算内存回传到kafka的两条记录。
174.步骤703:服务器以目标页面的页面标识为主键、以访客标识为子键、并获取子键对应的值,采用键-值存储方式,存储各时间窗口内目标页面的独立访客标识至数据库。
175.这里,由于子键对应的值并不会对页面访客信息的获取造成任何限制,因此,其可以是预先设置的固定的值,也可以是与访客标识关联的访问参数。
176.在一些实施例中,服务器可通过如下方式存储各时间窗口内目标页面的独立访客标识至数据库:服务器以目标页面的页面标识为主键、以访客标识为子键、并以访客标识关联的访问时间或访问顺序为值,存储各所述时间窗口内所述目标页面的独立访客标识至数据库。
177.在实际应用中,服务器虽然对各时间窗口内的独立访客标识进行去重处理,但是在不同时间窗口之间还是可能存在多条相同的独立访客标识的记录,为了获取目标页面在目标时间段内的有效访问信息,服务器还需将对应目标时间段的多个时间窗口内的独立访客标识进行精确去重。服务器采用键-值存储结构的数据库,如leveldb等,以目标页面的页面标识作为主键,独立访客标识作为子键,并以与独立访客标识相关联的访问时间或访问顺序作为参数值,将对应目标时间段的多个时间窗口内的独立访客标识存储至数据库中。关于存储独立访客标识所使用的键-值存储结构的数据库,这里就不具体限制了。
178.举例来说,服务器借助leveldb的key-value文件存储结构,将游戏官网页面的页面标识url作为主key,将用户的qq号作为子key,value可以为用户qq插入的时间,或者是预先设定的一个固定值,将kafka中保存的各时间窗口内游戏官网页面的页面标识url对应的用户qq号记录存储于leveldb中。
179.示例性地,参见图9,图9是本发明实施例提供的基于键值存储方式对独立访客标识的精确去重示意图,标号91所示为kafka中保存的各时间窗口内页面标识url对应的用户qq号记录;标号92所示为leveldb的存储结构;其中标号93所示为主key,即游戏官网页面的页面标识url;标号94所示为子key,即用户的qq号,标号95所示为参数值,即用户qq插入的时间。如此,将kafka中保存的各时间窗口内游戏官网页面的页面标识url对应的用户qq号记录存储于leveldb中。如此,服务器完成了对独立访客标识精确去重。
180.步骤704:服务器基于数据库的存储结构,查询得到目标页面的页面访问信息。
181.这里,页面访问信息包括以下至少之一:目标时间段内目标页面对应的独立访客数、目标时间段内目标页面对应的访客标识集合。
182.在一些实施例中,当页面访问信息包括所述独立访客数时,服务器可以通过如下方式查询得到目标页面的页面访问信息:基于所述数据库的存储结构,从数据库中查询主键包括的子键的数量,并将查询得到的数量作为独立访客数。
183.在另一些实施例中,当页面访问信息包括所述访客标识集合时,服务器还可以通过如下方式查询得到目标页面的页面访问信息:基于数据库的存储结构,从数据库中查询主键包括的至少一个子键;获取查询得到的各子键对应的访客标识,以得到访客标识集合。
184.在实际应用中,在采用键-值存储方式下,当服务器查询某个页面标识对应的独立访客数时,直接通过查询该页面标识对应的主键包括的子键数量,即可得到该页面标识对应的独立访客数。当服务器查询某个页面标识对应的访客标识集合时,直接导出该页面标识对应的主键下的所有子键,即可得到该页面标识对应的访客标识集合。
185.步骤705:服务器输出查询得到的目标页面的页面访问信息。
186.在实际应用中,服务器在查询到针对目标页面的访问信息后,可以将页面访问信息发送给指定的终端,也可以通过连接显示设备,输出目标页面的访问信息的查询结果界面。
187.在一些实施例中,当页面访问信息包括所述访客标识集合时,服务器可以通过如下方式输出查询得到的目标页面的页面访问信息:
188.服务器发送访客标识集合,以使终端呈现对应所述访客标识集合的下载功能项。
189.这里,下载功能项可以为终端呈现的页面访问信息的查询结果界面上的表示下载功能的图标或按键等,用于供接收到针对下载功能项的触发操作时,下载访客标识集合;对下载功能项的触发操作可以为单击、双击或长按等操作。
190.在另一些实施例中,服务器在输出查询得到的目标页面的页面访问信息之后,还可以通过如下方式继续查询针对目标页面的页面访问信息:
191.当页面访问信息包括访客标识集合时,服务器以目标时间段的整数倍对应的时长为新时间窗口的大小,获取连续的至少两个新时间窗口内目标页面的日志数据;基于至少两个新时间窗口内目标页面的日志数据,分别对各新时间窗口内的独立访客标识进行去重处理,得到在各新时间窗口内目标页面的独立访客标识;存储各新时间窗口内目标页面的独立访客标识至数据库,以基于数据库的存储结构,查询得到目标页面的页面访问信息。
192.这里,新时间窗口的粒度可以为目标时间段的大小的整数倍。
193.在实际应用中,服务器将目标时间段的整数倍对应的时长设置为新时间窗口的大小,例如,用户设定的目标时间段为一天,将新时间窗口的长度设置为两天。
194.如此,在已经进行去重处理后的目标时间段的访客标识集合的基础上,将时间窗口的长度扩大化,以获取目标页面在较长时间段内的页面访问信息,极大程度上压缩了新时间窗口内对应时间段内的页面访问信息的数量,提高系统整体处理效率。
195.本发明实施例提供的页面访问信息的获取方法还可以由终端来实施。在实际应用中,若方法由终端实施时,终端上可以有页面访问信息获取客户端,用户通过启动页面访问信息获取客户端输入针对目标页面的页面访问信息获取指令,实现对目标页面的访问信息
的获取。客户端在获取针对目标页面的页面访问信息后,向用户呈现对应的页面访问信息。示例性地,参见图10,图10是基于本发明实施例提供的页面访问信息获取方法获取的访问信息结果的示意图。其中,标号101所示为目标页面在设定时间段内的独立访客数;标号102所示为下载功能图标,用户通过触发标号102所示的下载功能图标,下载目标页面在设定时间段内的访客标识集合。
196.在整个系统计算环节中,除了流计算框架本身,还需要高速分布式日志系统和硬盘索引数据库的支持。在本发明实施例提供的页面访问信息的获取方法中,对于高速分布式日志系统可以选用kafka系统,由于kafka系统最高可以支持每秒百万级别的数据量写入,为第一阶段去重处理后的结果回传提供高速保障。而对于第二阶段的精确去重,实际上是一个硬盘随机写入并去重的过程,可以选用leveldb,配合固态硬盘写入,大大提高随机输入/输出性能,亿级别的用户号码包新增内容去重,也能够在秒级完成。在这里并不系统具体选用的高速分布式日志系统和硬盘索引数据库做具体限定,只要日志系统和索引数据库能够满足方案对组件的要求即可。
197.总体上来说,合理的控制时间窗口大小与原始日志压缩比之间的平衡,选用合适的高速分布式日志系统和硬盘索引数据库,就能够通过流计算的方式,获取精确的独立访客数和对应的访客标识集合。
198.下面继续说明本发明实施例提供的页面访问信息的获取装置255,在一些实施例中,页面访问信息的获取装置可采用软件模块的方式实现,参见图11,图11是本发明实施例提供的页面访问信息的获取装置255的结构示意图,本发明实施例提供的页面访问信息的获取装置255包括:
199.获取模块2551,用于响应于针对目标页面的访问信息获取指令,获取所述目标页面在包含至少两个时间窗口的目标时间段内的日志数据,所述日志数据包括:所述目标页面的独立访客标识
200.运行模块2552,用于基于所述日志数据,分别对各所述时间窗口内的独立访客标识进行去重处理,得到在各所述时间窗口内所述目标页面的独立访客标识;以所述目标页面的页面标识为主键、以所述访客标识为子键、并获取所述子键对应的值,采用键-值存储方式,存储各所述时间窗口内所述目标页面的独立访客标识至数据库;基于所述数据库的存储结构,查询得到所述目标页面的页面访问信息,所述页面访问信息包括以下至少之一:所述目标时间段内所述目标页面对应的独立访客数、所述目标时间段内所述目标页面对应的访客标识集合。
201.在一些实施例中,所述获取模块2551,还用于通过分布式日志系统,获取所述目标页面在包含至少两个时间窗口的目标时间段内的日志数据。对应地,所述运行模块2552,还用于将在各所述时间窗口内所述目标页面的独立访客标识,回传至所述分布式日志系统。
202.在一些实施例中,所述运行模块2552,还用于基于所述日志数据,采用流计算方式,分别记录各所述时间窗口内所述目标页面的独立访客标识,使得同一时间窗口内相同的独立访客标识仅记录一次。
203.在一些实施例中,所述运行模块2552,还用于以所述目标页面的页面标识为主键、以所述访客标识为子键、并以所述访客标识关联的访问时间或访问顺序为值,存储各所述时间窗口内所述目标页面的独立访客标识至数据库。
204.在一些实施例中,所述运行模块2552,还用于当所述页面访问信息包括所述独立访客数时,基于所述数据库的存储结构,从所述数据库中查询所述主键包括的所述子键的数量,并将查询得到的所述数量作为所述独立访客数。
205.在一些实施例中,所述运行模块2552,还用于当所述页面访问信息包括所述访客标识集合时,基于所述数据库的存储结构,从所述数据库中查询所述主键包括的至少一个子键;获取查询得到的各所述子键对应的访客标识,以得到所述访客标识集合。
206.在一些实施例中,所述装置还包括:输出模块2553,用于输出查询得到的所述目标页面的页面访问信息。
207.在一些实施例中,所述输出模块2553,还用于发送所述访客标识集合,以呈现对应所述访客标识集合的下载功能项,所述下载功能项,用于供接收到针对所述下载功能项的触发操作时,下载所述访客标识集合。
208.在一些实施例中,所述运行模块2552,还用于当所述页面访问信息包括所述访客标识集合时,以所述目标时间段对应的时长为新时间窗口的大小,获取连续的至少两个新时间窗口内目标页面的日志数据;基于所述至少两个新时间窗口内目标页面的日志数据,分别对各所述新时间窗口内的独立访客标识进行去重处理,得到在各所述新时间窗口内所述目标页面的独立访客标识;存储各所述新时间窗口内所述目标页面的独立访客标识至所述数据库,以基于所述数据库的存储结构,查询得到所述目标页面的页面访问信息。
209.本发明实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的页面访问信息的获取方法。
210.在一些实施例中,存储介质可以是fram、rom、prom、eprom、ee prom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
211.在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
212.作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(h tml,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
213.作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
214.综上所述,通过本发明实施例提供的页面访问信息的获取方法能够实现精准的页面访问数据获取,提高了页面访问信息的精确性,并且处理速度快,保证了处理的及时性。
215.以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜