一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

页面浏览质量评估方法及装置与流程

2021-11-30 21:01:00 来源:中国专利 TAG:


1.本发明涉及通信技术领域,具体涉及一种页面浏览质量评估方法及装置。


背景技术:

2.随着互联网用户的不断增长,各运营商网络带宽也在不断扩增,如何保障网络质量及用户上网感知,一直是各运营商在网络维护中的重点工作。dpi探针作为检测用户上网的重要手段,在运营商网络的覆盖率已超过50%以上,因此基于dpi数据评估用户上网感知的技术方案是目前应用最为广泛的。
3.基于dpi数据评估页面浏览质量,即,用户上网感知,主要是通过dpi探针对互联网链路上的报文进行业务识别,并将识别后的报文输送给采集服务器,采集服务器会将报文合成xdr话单,记录着用户信息、用户访问的业务、用户访问的具体资源、资源的信息、交互过程中的访问成功状态、时延、重传等用户上网信息,通过简单求和平均等方式,计算某资源icp、网站、域名等不同维度下质量指标数据,以此来评估用户上网感知。
4.然而,用户在浏览网页时,更关注的是主页面所呈现出的内容,对于页面上插入的一些小元素的时延等质量指标的感受并不明显。因此,上述评估用户页面浏览质量的方法的所得到的质差情况一般与用户浏览网页时的真实感受存在一定的出入。


技术实现要素:

5.鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的页面浏览质量评估方法及装置。
6.根据本发明实施例的一个方面,提供了一种页面浏览质量评估方法,包括:
7.获取访问网页页面时产生的页面拨测数据及针对多个页面元素产生的xdr话单,根据xdr话单确定页面元素质量指标数据;
8.利用预设页面合成算法对xdr话单进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素,将属于同一用户在同一时间访问的同一页面的页面元素进行页面合成,输出页面级质量指标集;
9.选取分位数,利用预设相似性算法,根据页面拨测数据及分位数下的页面元素质量指标数据计算得到m个相关系数,将m个相关系数中最大相关系数对应的分位数确定为目标分位数;
10.根据目标分位数及页面元素质量指标数据计算页面级质量指标数据。
11.根据本发明实施例的另一方面,提供了一种页面浏览质量评估装置,包括:
12.获取模块,适于获取访问网页页面时产生的页面拨测数据及针对多个页面元素产生的xdr话单;
13.确定模块,适于根据xdr话单确定页面元素质量指标数据;
14.页面合成模块,适于利用预设页面合成算法对xdr话单进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素,将属于同一用户在同一时间访问
的同一页面的页面元素进行页面合成,输出页面级质量指标集;
15.第一计算模块,适于选取分位数,利用预设相似性算法,根据页面拨测数据及分位数下的页面元素质量指标数据计算得到m个相关系数,将m个相关系数中最大相关系数对应的分位数确定为目标分位数;
16.第二计算模块,适于根据目标分位数及页面元素质量指标数据计算页面级质量指标数据。
17.根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
18.存储器用于存放至少一可执行指令,可执行指令使处理器执行上述页面浏览质量评估方法对应的操作。
19.根据本发明实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述页面浏览质量评估方法对应的操作。
20.本发明提供的方案,利用计算得到的页面级质量指标数据,来评估用户页面浏览质量,页面级质量指标数据是对用户真实上网记录数据的分析,真正做到了从用户角度出发,真实、精准、合理的反映用户上网感知,为评估用户上网感知,寻找质差资源提供了可靠的数据基础。而且,一方面避免了拨测数据定时定量带来的片面性,另一方面,避免了页面元素级质量指标数据评估时个别质差元素过差对整个网站质量造成的偏差。
21.上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
22.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
23.图1a示出了本发明实施例提供的页面浏览质量评估方法流程图;
24.图1b为http协议的页面浏览业务的页面元素质量指标的示意图;
25.图1c为http协议的页面浏览业务的页面拨测指标的示意图;
26.图1d为页面元素质量指标与页面拨测指标的对应关系的示意图;
27.图1e页面元素质量指标数据与页面拨测数据的线性回归示意图;
28.图2示出了本发明实施例提供的页面浏览质量评估装置的结构示意图;
29.图3示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
31.图1a示出了本发明实施例提供的页面浏览质量评估方法的流程图。如图1a所示,
该方法包括以下步骤:
32.步骤s101,获取访问网页页面时产生的页面拨测数据及针对多个页面元素产生的xdr话单,根据xdr话单确定页面元素质量指标数据。
33.具体地,可以利用拨测技术来获取用户访问页面时所产生的页面拨测数据,其中,页面拨测数据从用户侧角度反映了页面浏览质量,然而,拨测技术是定时定量对固定资源进行拨测,存在一定的片面性,但因其指标数据是从客户端发起报文开始计算,因此,相应的指标仍然是目前从用户侧角度评估质量感知比较有力的方式,其中,页面拨测数据可以包含:建立连接时延、首字节响应时延、页面主要展现时延、页面打开成功率、dns解析时延等。所以,可以基于页面拨测数据来计算页面级质量指标数据。
34.大多数情况下,网页页面是由多个不同的页面元素组成的,当访问一个网页页面时,除了主页面的get请求之外,还会并发出多个页面元素的get请求,可以通过浏览器抓包工具(例如,dpi探针)抓取到访问网页页面时所产生的所有的get请求对应的uri请求报文,包括获取页面元素(如png,jpg,video,html,js,css等)的uri请求报文。
35.可以将uri请求报文输送给采集服务器,再由采集服务器合成符合运营商统一规范的xdr话单。当用户访问某一页面时,浏览器会发出多个页面元素的get请求,产生多个tcp流,xdr话单的合成规则是逐get记录tcp流,即每一个页面元素的get请求在xdr话单中均会有一条记录,采集服务器将所生成的元素级xdr话单输送至hadoop大数据处理平台,在大数据处理平台上,对xdr话单进行后续处理。其中,xdr话单可以包含如下信息:业务标签、流开始时间、用户ip地址、用户终端信息、用户访问的资源uri、用户访问的资源域名、资源的上一级来源地址refer_uri、上下行流量、时延等信息。进而可以根据xdr话单确定页面元素质量指标数据。
36.所输出的页面元素质量指标数据是页面元素级的,为了能够更为精准合理的反映用户上网过程中页面浏览质量,需要计算页面级质量指标数据,下面详细介绍根据页面拨测数据及页面元素质量指标数据计算页面级质量指标数据的过程。
37.步骤s102,利用预设页面合成算法对xdr话单进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素,将属于同一用户在同一时间访问的同一页面的页面元素进行页面合成,输出页面级质量指标集。
38.在步骤s101中所获取的页面元素对应的xdr话单,是页面元素级的信息,因此,就需要先进行页面合成,根据所合成的页面输出确定页面级质量指标集,具体地,可以利用预设页面合成算法对xdr话单进行页面元素聚类处理,将属于同一用户在同一时间访问的同一页面的页面元素划分为一组,将属于同一用户在同一时间访问的同一页面的页面元素进行页面合成,输出页面级质量指标集。
39.网页页面中的页面元素的资源地址一般并不在同一个域名资源下,而是分布在不同的域名资源中,但是结合网页浏览的交互原理及uri请求报文的head头部信息可发现,除主页面html的get请求之外,不同get请求的来源地址refer_uri是相同的,且均为发起当前get请求的主页面地址,因此可基于refer_uri字段来定位哪些页面元素属于同一页面,由此来进行页面合成。
40.在大多数情况下,进行页面合成的页面元素需要是同一用户在同一时间访问的同一页面的页面元素,而所获取到的xdr话单中包含了很多信息,有些信息对于判断页面元素
是否为同一用户在同一时间访问的同一页面的页面元素并没有太多的帮助,反而会影响判断或者增加计算资源,为了避免多人同时访问同一个页面的情况,可以通过增加用户ip地址(userip)、用户终端信息(useragent)等信息进行区分,浏览同一页面各页面元素的get请求在时间上是相近的,因此,可以流开始时间字段进行相应的筛选,同时也能够保证页面合成效率。这里以预设页面合成字段包含:用户终端信息(useragent)、用户ip地址(userip)、来源地址(refer_uri)、流开始时间,来生成页面合成数据组,因此,在获取到xdr话单,可以根据xdr话单,生成包含预设页面合成字段的页面合成数据组。所生成的页面合成数据组是从xdr话单中提取出了预设页面合成字段对应的信息,页面合成数据组所包含的信息明显少于xdr话单。
41.具体地,定义r(h)表示用户ip地址字段,r(k)表示用户终端信息字段,r(u)表示来源地址字段,r(t)表示流开始时间字段,页面合成数据组可以表示为<rx(h),r
x
(k),r
x
(u),r
x
(t)>,数组集合表示为:s={<r1(h),r1(k),r1(u),r1(t)>,

,<r
x
(h),r
x
(k),r
x
(u),r
x
(t)>,

},数组s的大小为x。
42.定义h表示训练样本中的用户ip地址字段,k表示训练样本中的用户终端信息字段,u表示训练样本中的来源地址refer_uri字段,t表示训练样本中的流开始时间字段,每一条样本记录为s=<r
x
(h),r
x
(k),r
x
(u),r
x
(t)>(其中s∈s),由抓包工具获取到的用户ip地址、用户终端信息、来源地址refer_uri和流开始时间组成,分别被定义为r(h)、r(k)、r(u)和r(t)。所有用户ip的全域表示为h={h1,h2,

,h
l
},所有用户终端信息的全域表示为k={k1,k2,

,k
m
},所有来源地址refer_uri的全域表示为u={u1,u2,

,u
n
},所有流开始时间的全域表示为t={t1,t2,

,t
u
}。
43.在得到页面合成数据组后,可以利用预设页面合成算法对页面合成数据组进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素。可选地,根据网页浏览业务的交互原理可知,来源地址refer_uri字段r(u)元素是进行页面合成最关键最核心的字段,因此,需确保元素r
x
(u)值有效。具体地,可以根据来源地址对页面合成数据组进行有效性过滤,得到有效页面合成数据组,这里主要是过滤掉r
x
(u)值为空或异常的数据组,得到一个有效的页面合成数据组<r
x
(h),r
x
(k),r
x
(u),r
x
(t)>。
44.在本发明一种可选实施方式中,具体可以采用如下方法进行页面元素的分组:根据用户终端信息、用户ip地址及来源地址计算任意两个页面合成数据组之间的欧氏距离,若欧氏距离等于第一预设阈值,则将相应的页面合成数据组划分为同一类;针对划分为同一类的页面合成数据组,根据用户终端信息、用户ip地址、来源地址、流开始时间计算最小流开始时间对应的页面合成数据组与最大流开始时间对应的页面合成数据组之间的欧氏距离,若欧氏距离小于或等于第二预设阈值,则将相应的页面合成数据组对应的页面元素确定为属于同一用户在同一时间访问的同一页面的页面元素。
45.同一用户访问同一页面时,用户ip地址、用户终端信息、来源地址refer_uri是完全相同的,同一页面的任意两个页面元素之间的欧氏距离d
xy
都应为0,而用户ip地址、用户终端信息、来源地址refer_uri中任一项不同的两个样本记录之间的欧氏距离不等于0,可以确定第一次聚类处理为零距离聚类。因此,可以根据用户ip地址、用户终端信息、来源地址refer_uri(即页面合成数组<r(h),r(k),r(u)>)进行零距离聚类,具体地,根据用户终端信息、用户ip地址及来源地址来计算任意两个页面合成数据组之间的欧氏距离,判断所计
算得到的欧氏距离是否为第一预设阈值(其中,第一预设阈值为0),若欧氏距离等于第一预设阈值,则将相应的页面合成数据组划分为同一类;若欧氏距离不等于第一预设阈值,则确定相应的页面合成数据组不属于同一用户和/或不属于同一页面。
46.其中,二维空间两点a(x1,y1)和b(x2,y2)之间的欧氏距离计算方式如下:
[0047][0048]
三维空间两点a(x1,y1,z1)和b(x2,y2,z2)之间的欧氏距离计算方式如下:
[0049][0050]
n维空间两点a(x
11
,x
12


,x
1n
)和b(x
21
,x
22


,x
2n
)之间的欧氏距离计算方式如下:
[0051][0052]
本实施方式中,可以采用如下公式(1)来计算任意两个页面合成数据组(<r
x
(h),r
x
(k),r
x
(u)>和<r
y
(h),r
y
(k),r
y
(u)>)之间的欧氏距离:
[0053][0054]
为了方便实现页面合成数据组的划分,可以增加两个临时字段,分别为“页面id”和“页面元素id”,用于表示页面元素所属页面,以及标记页面元素。
[0055]
在实际应用中,很可能出现用户对感兴趣的内容进行两次或多次的访问,所以需要在时间上对不同次页面元素的访问请求进行区分,具体地,在进行零距离聚类将属于同一用户的同一页面对应的页面合成数据组划分为一类后,对于划分为同一类的页面合成数据组,按照流开始时间对同一类的页面合成数据组进行排序处理,例如,升序或降序排序,这里以升序排序为例进行介绍。
[0056]
浏览同一页面各元素的get请求在时间上是相近的,第二预设阈值为时间阀值,通常设定第二预设阈值为20s,当然本领域技术人员还可以根据实际设定成其它数值,例如,25s,第二预设阈值的数值不宜设置的过大。
[0057]
在本步骤中,在排序后,可以从排序后的页面合成数据组中选择最小流开始时间对应的页面合成数据组与最大流开始时间对应的页面合成数据组,根据用户终端信息、用户ip地址、来源地址、流开始时间采用公式(2)来计算最小流开始时间对应的页面合成数据组与最大流开始时间对应的页面合成数据组之间的欧氏距离,若欧氏距离小于或等于第二预设阈值,则将全部的页面元素均确定为属于同一用户在同一时间访问的同一页面的页面元素。在排序后,计算最小流开始时间对应的页面合成数据组与最大流开始时间对应的页面合成数据组之间的欧氏距离可以减少计算量,提升页面合成效率。
[0058][0059]
当然还可能出现最小流开始时间对应的页面合成数据组(也可以称为第一个页面合成数据组)与最大流开始时间对应的页面合成数据组之间的欧氏距离大于第二预设阈值的情况,说明最大流开始时间对应的页面合成数据组所对应的页面元素并不是同一次访问
的最后一个页面元素,需要继续探查同一次访问的最后一个页面元素,此时,可以以倒序方式选取未被选择的页面合成数据组,计算该页面合成数据组与第一个页面合成数据组之间的欧氏距离,判断所计算得到的欧氏距离是否小于或等于第二预设阈值,若所计算得到的欧氏距离是否小于或等于第二预设阈值,则将所选择的页面合成数据组与第一个页面合成数据组之间的页面元素(这里包含所选择的页面合成数据组及第一个页面合成数据组对应的页面元素)确定为属于同一用户在同一时间访问的同一页面的页面元素;若所计算得到的欧氏距离大于第二预设阈值,说明此次选择的页面合成数据组所对应的页面元素并不是同一次访问的最后一个页面元素,需要继续探查同一次访问的最后一个页面元素。实现过程与上述介绍类似这里不再赘述。在将部分页面元素确定为属于同一用户在同一时间访问的同一页面的页面元素之后,可能出现部分页面元素未被聚类的情况,此时可以继续按照上述描述进行聚类,需要说明的是,这里的所选择的第一个页面合成数据组是所剩余的页面合成数据组中流开始时间最小的页面合成数据组。对于页面元素之间的欧氏距离大于20s,则这两个页面元素被拆分成两个不同时间访问的页面元素,从而大幅提高了页面合成准确性。
[0060]
通过上述处理聚类得到用户ip地址、用户终端信息、来源地址refer_uri相一致,且上下搜索开始时间的时间间隔δt不超过20s的页面元素,为一个用户在某时间的一次访问纪录。这种基于聚类算法的页面合成可以避免多个用户访问同一页面的情况,大幅提高页面合成准确性。
[0061]
在确定了属于同一用户在同一时间访问的同一页面的页面元素后,可以对这些页面元素进行页面合成,得到合成页面。在合成页面后,可以输出页面级质量指标集,其中,页面级质量指标集包含:页面元素个数、页面元素打开成功率、页面客户端时延、页面服务端时延、页面打开时延。
[0062]
其中,页面元素个数:用户浏览一网页页面时,浏览器会同时并发多个get报文请求去获取图片,视频,文字等元素信息,将组成网页页面的这些元素统称为页面元素,页面元素个数指标可以恒量一个网页页面的复杂程度。
[0063]
页面元素打开成功率:用户浏览一网页页面时,浏览器同时并发多个get报文请求,但并不是所有get报文请求都会成功返回数据,因此将成功返回响应数据的get报文请求个数/全部get报文请求个数的值作为页面元素成功率,页面元素成功率指标可以恒量一个网页页面的展现程度。
[0064]
页面客户端时延:对用户访问同一页面的全部元素级xdr话单记录进行处理,按照传统算法输出访问网页页面各元素的客户端时延指标值,运用统计学中分位数定义从各元素客户端时延指标值集合中获取x分位数的元素客户端时延作为浏览该页面时的页面客户端时延值(此算法涉及到统计学中的分位数,此统计量比均值更加稳健,不受极端值的影响),如若组成该页面的元素个数超过6个,那么页面客户端时延是各组分位数之和。(浏览器的最大并发数为6,因此当页面组成元素超过6个时要进行多次分组并发)。
[0065]
页面服务端时延:对用户访问同一网页页面的全部xdr话单记录进行处理,按照传统算法输出访问网页页面各元素的服务器时延指标值,运用统计学中分位数定义从各元素服务器时延指标值集合中获取x分位数的元素客户端时延作为浏览此网页页面时的页面服务端时延值,如若组成该网页页面的元素个数超过6个,那么页面服务端时延值是各组分位
数之和。
[0066]
页面打开时延:对用户访问同一网页页面的全部xdr话单记录进行处理,按照传统算法输出访问网页页面各元素的应答时延指标值,运用统计学中分位数定义从应答时延指标值集合中获取x分位数的元素应答时延作为浏览此网页页面时的页面打开时延值,如若组成该网页页面的元素个数超过6个,那么页面打开时延值是各组分位数之和。
[0067]
步骤s103,选取分位数,利用预设相似性算法,根据页面拨测数据及分位数下的页面元素质量指标数据计算得到m个相关系数,将m个相关系数中最大相关系数对应的分位数确定为目标分位数。
[0068]
页面级质量指标集包含五个指标,其中,页面客户端时延、页面服务器时延、以及页面打开时延三个指标需要通过取分位数的元素级质量指标作为浏览此网页时的网页级质量指标,因此,分位数的确定是由页面元素级质量指标到页面级质量指标的关键。
[0069]
本步骤则是通过分析计算页面拨测数据与页面元素质量指标数据的相关性来确定目标分位数。例如,可以分别从原理层面和数据层面分析二者之间的相关性,页面浏览类业务是基于http、wap等协议的普通页面浏览业务,这里以http协议的页面浏览业务为例进行说明:
[0070]
1、从原理层面,对比页面拨测数据与页面元素质量指标数据的相关性
[0071]
http协议的页面浏览类业务的页面元素质量指标主要有tcp建链确认时延、tcp建链响应时延、http最后一个内容包时延等,当然还可能包含其它指标,例如,建立连接时延等,各指标在网页页面浏览过程示意图中的位置如图1b所示。
[0072]
http网页浏览类的页面拨测指标主要包括:建立连接时延、首字节时延、页面主要展现时延(元素下载元素汇聚得到)、页面打开成功率。各指标在网页页面浏览过程示意图中的位置如图1c所示。
[0073]
页面拨测数据是直接从客户端发起报文开始计算,而页面元素质量指标数据的只是其中一段,通过原理层面的对比分析,发现页面拨测数据和页面元素质量指标数据有如下的对应关系:建立连接时延-dns解析时延(页面拨测数据)<=>网页服务端时延 网页客户端时延(页面元素质量指标数据),网页主要展现时延-dns解析时延(页面拨测数据)<=>网页打开时延(页面元素质量指标数据),如图1d所示。
[0074]
在数据层面,预设相似性算法比如spearman相关性算法或者pearson相关性算法来计算目标分位数,这里以x表示分位数,以预设相似性算法为spearman相关性算法进行说明:计算页面拨测数据及分位数下的页面元素质量指标数据之间的相关性,将某一用户访问某网页页面的页面拨测数据指标值与同一用户访问同一网页时x分位数下的页面元素质量指标数据进行对比分析,通过对spearman相关系数的分析验证,确定能够更真实反应用户上网感知的x分位数。
[0075]
首先通过拨测系统得到用户打开网页集合a的相关页面拨测数据集合t
a
={t1,t2,t3…
t
n
},其中t1代表打开第1个页面的相应页面拨测数据,t2代表打开第2个页面的相应页面拨测数据,t
n
代表打开第n个页面的相应页面拨测数据。同时通过dpi深度报文解析设备获取用户访问这些网页页面各页面元素的xdr话单,将各页面元素相应页面元素质量指标数据组成集合t
b
={{t
11
,t
12
,t
13

},{t
21
,t
22
,t
23

},{t
31
,t
32
,t
33

}

{t
n1
,t
n2
,t
n3

}},其中t
11
代表用户访问第一个网页时get第一个元素的相应页面元素质量指标数据,t
12
代表用
户访问第一个网页时get第二个元素的相应页面元素质量指标数据,t
n1
代表用户访问第n个页面时get第1个元素的相应页面元素质量指标数据,以此类推。
[0076]
分别获取集合t
b
中各网页第5%*n{注:n取整数且0<n<21}个页面元素的集合,利用spearman相关性算法计算所获取的集合与t
a
的相关性,将相关系数ρ
x
(其中x=5%*n))最接近于1的取值作为页面元素级质量指标x分位数的提取依据,并以此分位数计算页面级质量指标数据。
[0077]
spearman等级相关系数计算公式如下:
[0078][0079]
其中,ρ为x分位数下页面元素级质量数据构成的页面级质量指标数据与页面拨测数据的相关系数ρ
x

[0080]
x
i
为t
a
集合中的元素值,为t
a
集合中元素的均值,
[0081]
y
i
为t
b
集合中的x分位数下元素的值,为t
b
集合中的x分位数下所有元素的均值。
[0082]
所计算得到的相关系数能够反映出页面拨测数据及第5%*n(0<n<21且n为整数)个页面元素组成的集合对应的页面元素质量指标数据的相关性强弱。
[0083]
如图1e所示,网页页面获取第75%个页面元素的页面元素质量指标数据与相应的页面拨测数据的相关系数ρ最大(相关系数ρ为0.85),因此以第三四分位数点(即:第75%个元素)作为页面级质量指标数据的提取依据。
[0084]
步骤s104,根据目标分位数及页面元素质量指标数据计算页面级质量指标数据。
[0085]
在确定了目标分位数后,可以根据目标分位数及页面元素质量指标数据计算页面级质量指标数据,其中,页面级质量指标数据的计算过程如下:
[0086]
页面元素个数=每一分组内xdr话单的条数
[0087]
页面元素打开成功率=针对get请求成功返回响应的页面元素个数/全部get请求对应的页面元素个数
[0088]
在本发明一种可选实施方式中,根据目标分位数及页面元素质量指标数据计算页面客户端时延数据具体包括:依据预设数值对页面元素进行分组,得到n个分组;针对每个分组,根据目标分位数提取对应页面元素的客户端时延数据;根据n个客户端时延数据计算得到页面客户端时延数据。
[0089]
页面客户端时延=按照每6个元素为一组并发的分组方式,通过x分位数提取每个分组中各元素的客户端时延数据(百分位点的定位:将上诉操作过程中pearson相关系数接近1的x定义为百分位点),最后将从各分组提取的数据进行累加。
[0090]
在本发明一种可选实施方式中,根据目标分位数及页面元素质量指标数据计算页面服务端时延数据具体包括:依据预设数值对页面元素进行分组,得到n个分组;针对每个分组,根据目标分位数提取对应页面元素的服务端时延数据;根据n个客户端时延数据计算得到页面服务端时延数据。
[0091]
页面服务端时延=按照每6个元素为一组并发的分组方式,通过x分位数提取每个分组中各页面元素的服务端时延数据(百分位点的定位:将上诉操作过程中pearson相关系数接近1的x定义为百分位点),最后将从各分组提取的数据进行累加
[0092]
在本发明一种可选实施方式中,根据目标分位数及页面元素质量指标数据计算页面打开时延数据具体包括:依据预设数值对页面元素进行分组,得到n个分组;针对每个分组,根据目标分位数提取对应页面元素的应答时延数据;根据n个客户端时延数据计算得到页面打开时延数据。
[0093]
页面打开时延=按照每6个元素为一组并发的分组方式,通过x分位数提取每个分组中各元素的应答时延数据(百分位点的定位:将上诉操作过程中pearson相关系数接近1的x定义为百分位点),最后将从各分组提取的数据进行累加。
[0094]
本发明提供的方案,利用计算得到的页面级质量指标数据,来评估用户页面浏览质量,页面级质量指标数据是对用户真实上网记录数据的分析,真正做到了从用户角度出发,真实、精准、合理的反映用户上网感知,为评估用户上网感知,寻找质差资源提供了可靠的数据基础。而且,一方面避免了拨测数据定时定量带来的片面性,另一方面,避免了页面元素级质量指标数据评估时个别质差元素过差对整个网站质量造成的偏差。
[0095]
图2示出了本发明实施例提供的页面浏览质量评估装置的结构示意图。如图2所示,该装置包括:获取模块201、确定模块202、页面合成模块203、第一计算模块204、第二计算模块205。
[0096]
获取模块201,适于获取访问网页页面时产生的页面拨测数据及针对多个页面元素产生的xdr话单;
[0097]
确定模块202,适于根据xdr话单确定页面元素质量指标数据;
[0098]
页面合成模块203,适于利用预设页面合成算法对xdr话单进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素,将属于同一用户在同一时间访问的同一页面的页面元素进行页面合成,输出页面级质量指标集;
[0099]
第一计算模块204,适于选取分位数,利用预设相似性算法,根据页面拨测数据及分位数下的页面元素质量指标数据计算得到m个相关系数,将m个相关系数中最大相关系数对应的分位数确定为目标分位数;
[0100]
第二计算模块205,适于根据目标分位数及页面元素质量指标数据计算页面级质量指标数据。
[0101]
可选地,页面级质量指标集包含:页面元素个数、页面元素打开成功率、页面客户端时延、页面服务端时延、页面打开时延。
[0102]
可选地,第二计算模块具体适于:依据预设数值对页面元素进行分组,得到n个分组;
[0103]
针对每个分组,根据目标分位数提取对应页面元素的客户端时延数据;
[0104]
根据n个客户端时延数据计算得到页面客户端时延数据。
[0105]
可选地,第二计算模块具体适于:依据预设数值对页面元素进行分组,得到n个分组;
[0106]
针对每个分组,根据目标分位数提取对应页面元素的服务端时延数据;
[0107]
根据n个客户端时延数据计算得到页面服务端时延数据。
[0108]
可选地,第二计算模块具体适于:依据预设数值对页面元素进行分组,得到n个分组;
[0109]
针对每个分组,根据目标分位数提取对应页面元素的应答时延数据;
[0110]
根据n个客户端时延数据计算得到页面打开时延数据。
[0111]
可选地,页面合成模块进一步适于:根据xdr话单,生成包含预设页面合成字段的页面合成数据组;
[0112]
利用预设页面合成算法对页面合成数据组进行页面元素聚类处理,确定属于同一用户在同一时间访问的同一页面的页面元素。
[0113]
可选地,预设页面合成字段包含:用户终端信息、用户ip地址、来源地址、流开始时间;
[0114]
页面合成模块进一步适于:根据用户终端信息、用户ip地址及来源地址计算任意两个页面合成数据组之间的欧氏距离,若欧氏距离等于第一预设阈值,则将相应的页面合成数据组划分为同一类;
[0115]
针对划分为同一类的页面合成数据组,根据用户终端信息、用户ip地址、来源地址、流开始时间计算最小流开始时间对应的页面合成数据组与最大流开始时间对应的页面合成数据组之间的欧氏距离,若欧氏距离小于或等于第二预设阈值,则将相应的页面合成数据组对应的页面元素确定为属于同一用户在同一时间访问的同一页面的页面元素。
[0116]
本发明提供的方案,利用计算得到的页面级质量指标数据,来评估用户页面浏览质量,页面级质量指标数据是对用户真实上网记录数据的分析,真正做到了从用户角度出发,真实、精准、合理的反映用户上网感知,为评估用户上网感知,寻找质差资源提供了可靠的数据基础。而且,一方面避免了拨测数据定时定量带来的片面性,另一方面,避免了页面元素级质量指标数据评估时个别质差元素过差对整个网站质量造成的偏差。
[0117]
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的页面浏览质量评估方法。
[0118]
图3示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
[0119]
如图3所示,该计算设备可以包括:处理器(processor)、通信接口(communications interface)、存储器(memory)、以及通信总线。
[0120]
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的页面浏览质量评估方法实施例中的相关步骤。
[0121]
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
[0122]
处理器可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0123]
存储器,用于存放程序。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0124]
程序具体可以用于使得处理器执行上述任意方法实施例中的页面浏览质量评估方法。程序中各步骤的具体实现可以参见上述页面浏览质量评估实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简
洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
[0125]
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
[0126]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0127]
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0128]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0129]
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0130]
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0131]
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除
存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献