一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于用户访问序列的系统功能解析的方法和系统与流程

2022-04-16 21:48:02 来源:中国专利 TAG:


1.本方案涉及web系统技术领域,尤其涉及一种基于用户访问序列的系统功能解析的方法和系统。


背景技术:

2.随着互联网的快速发展,海量的需求将集成于一个web系统中,使得web系统功能结构越来越复杂。
3.而该越来越复杂的web系统功能结构,是开发者基于自身的开发者视角开发的,而忽略了web系统的使用者的视角。因此,对于某个用户或者某个特定的用户群体而言,他们往往仅需要复杂web系统的中的某些关键功能,以及找到这些关键功能的访问路径。这就使得用户常常迷失在各种不熟悉或经过更新的web系统中,无法快捷找到所需要的信息内容和服务功能。


技术实现要素:

4.鉴于上述问题,本技术实施例提供一种基于用户访问序列的系统功能解析的方法和系统,旨在根据用户的访问序列,以web系统的实际使用者的视角建立web系统的功能解析图,以帮助用户在web系统中快捷地找到特定的内容信息和功能服务。
5.本技术实施例第一方面提供一种基于用户访问序列的系统功能解析的方法,所述方法包括:根据用户访问网页的访问序列,建立查询表;
6.根据所述访问序列中为html类型的多个数据对象,生成与所述多个数据对象分别对应的多个系统功能节点;
7.根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,根据分类结果对所述多个系统功能节点进行归并处理,获得多个目标系统功能节点;
8.根据所述查询表,对所述多个目标系统功能节点进行关联处理,获得与所述访问序列对应的图结构系统功能图;
9.展示所述图结构系统功能图,以供用户基于所述图结构系统功能图进行网页访问。
10.可选地,在获得与所述访问序列对应的图结构系统功能图之后,所述方法还包括:
11.根据所述访问序列中的时序信息和频次信息,对所述图结构系统功能图进行冗余边消除,获得与所述访问序列对应的树结构系统功能图;
12.所述展示所述图结构系统功能图,以供用户基于所述图结构系统功能图进行网页访问,包括:展示所述树结构系统功能图,以供用户基于所述树结构系统功能图进行网页访问。
13.可选地,所述方法还包括:
14.在所述树结构系统功能图的数据库服务端设置编辑接口;
15.根据用户的编辑操作,通过所述编辑接口对所述树结构系统功能图进行编辑。
16.可选地,所述根据所述访问序列中为html类型的多个数据对象,生成与所述多个数据对象分别对应的多个系统功能节点,包括:
17.提取所述html类型的多个数据对象的主题词;
18.以所述html类型的多个数据对象的主题词为节点名称,生成与所述html类型的多个数据对象分别对应的多个系统功能节点。
19.可选地,所述根据用户访问网页的访问序列,建立查询表,包括:
20.确定所述访问序列中数据对象的数据类型;
21.将数据类型为目标数据类型的各个数据对象各自的url作为索引项,建立所述查询表,所述目标数据类型为html类型或javascript类型。
22.可选地,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,根据分类结果对所述多个系统功能节点进行归并处理,获得多个目标系统功能节点,包括:
23.根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别;
24.将每个同质类别中的各个系统功能节点归并为该同质类别中访问频次最高的一个系统功能节点,并作为目标系统功能节点,获得与所述多个同质类别分别对应的多个目标系统功能节点。
25.可选地,所述根据所述查询表,对所述多个目标系统功能节点进行关联处理,获得与所述访问序列对应的图结构系统功能图,包括:
26.将每个目标系统功能节点的url分别输入所述查询表进行检索,获得每个目标系统功能节点各自对应的命中功能节点集合,一个目标系统功能节点对应的命中功能节点集合包括多个命中功能节点,所述多个命中功能节点为自身url与所述一个目标系统功能节点的url匹配的多个前序目标系统功能节点;
27.对每个目标系统功能节点,建立由目标系统功能节点对应的多个命中功能节点分别指向该目标系统功能节点的关联关系,一个关联关系为一条由起点目标系统功能节点指向终点目标系统功能节点的有向边;
28.根据每个目标系统功能节点建立的关联关系,获得所述图结构系统功能图。
29.可选地,在所述同质分类为对象同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别,包括:
30.对所述多个数据对象进行请求参数过滤处理,获得与所述多个数据对象分别对应的多个预处理url;
31.根据所述多个预处理url,将预处理url相同的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别;
32.在所述同质分类为内容同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别,包括:
33.根据提取的所述多个数据对象各自的主题词,将主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别;
34.在所述同质分类同时包括对象同质分类和内容同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别,包括:
35.根据所述多个数据对象各自对应的多个预处理url和提取的所述多个数据对象各自的主题词,将预处理url相同且主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别。
36.可选地,所述根据所述访问序列中的时序信息和频次信息,对所述图结构系统功能图进行冗余边消除,获得与所述访问序列对应的树结构系统功能图,包括:
37.根据每个关联关系中的起点目标系统功能节点的访问频次和时序信息,确定每个关联关系的边权,每个关联关系的边权为每个关联关系中的起点目标系统功能节点的时序与访问频次之差;
38.根据所述每个关联关系的边权,确定每个终点目标系统功能节点所具有的关联关系中边权最小的关联关系;
39.根据每个终点目标系统功能节点所具有的关联关系中边权最小的关联关系,消除每个终点目标系统功能节点所具有的关联关系中边权大于最小边权的关联关系,获得与所述访问序列对应的树结构系统功能图。
40.本技术实施例第二方面提供一种基于用户访问序列的系统功能解析的系统,所述系统包括:
41.查询表建立模块,用于根据用户访问网页的访问序列,建立查询表;
42.系统功能节点生成模块,用于根据所述访问序列中为html类型的多个数据对象,生成与所述多个数据对象分别对应的多个系统功能节点;
43.系统功能节点归并模块,用于根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,根据分类结果对所述多个系统功能节点进行归并处理,获得多个目标系统功能节点;
44.系统功能节点关联模块,用于根据所述查询表,对所述多个目标系统功能节点进行关联处理,获得与所述访问序列对应的图结构系统功能图;
45.显示模块,用于展示所述图结构系统功能图,以供用户基于所述图结构系统功能图进行网页访问。
46.一方面,本技术所述的基于用户访问序列的系统功能解析的方法,根据用户的访问序列,以web系统的实际使用者的视角建立web系统的功能解析图,以期指导用户与系统的交互,以此帮助用户在web系统中快捷地找到特定的内容信息和功能服务。
47.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,基于用户访问序列,解析建立的web系统的功能解析图,也就是基于用户访问序列,建立的针对该用户或该用户所属用户群体的web系统的功能结构图,排除了当前用户或用户群所不关心的功能点,从而使得解析出的功能结构减少了大量冗余信息,具有更强的针对性。
48.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,用户访问序列中包含该用户对于每个系统功能节点的访问频次信息,从而可以确定出每个系统功能节点在该用户的访问路径中的关键程度,或者用户对于该功能节点的关注程度,这使得解析建立的web系统的功能结构图中包含了用户视角的功能节点权重信息,使建立的web系统的
功能结构图具有更强的指导性。
49.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,用户访问序列基于用户在即时网络环境下的访问,在解析建立web系统的功能结构图时,不需依赖或影响当前的网络环境。主要包括:对于执行解析任务的机器的网络传输速度没有要求,能够支持不依赖网络传输速度的大批量解析任务;对于执行解析任务的机器的网络可达性没有要求,能够避免内外网域隔离等问题;对于需要建立功能结构图的目标web系统具有非侵入性,只需使用先前用户正常访问该目标web系统的数据记录,避免像网络爬虫那样对该目标web系统造成短时间内的较大负载。
附图说明
50.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
51.图1是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法的流程图;
52.图2是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的主题词提取流程图;
53.图3是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的基于url索引的系统功能节点的关联流程图;
54.图4是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的系统功能图的建立示意图;
55.图5是本技术一实施例示出的一种基于用户访问序列的树结构系统功能图的编辑接口设计的示意图;
56.图6是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法的另一种流程图;
57.图7是本技术一实施例示出的一种基于用户访问序列的系统功能解析的系统的示意图。
具体实施方式
58.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,均应属于本技术保护的范围。
59.图1是本技术一实施例示出的一种基于用户访问序列的系统功能解析的流程图。参照图1,本技术提供的基于用户访问序列的系统功能解析的方法,所述方法包括以下步骤:
60.步骤s11:根据用户访问网页的访问序列,建立查询表。
61.在本实施例中,用户的访问序列为用户访问一个web系统时产生的访问记录数据,
该访问记录数据以每个访问操作执行的时间顺序进行存储。在一个用户访问网页过程中,将产生多个访问操作,根据该多个访问操作,将生成该用户访问该网页的访问记录数据,也就是该用户在该网页中使用了哪些功能节点,浏览了哪些内容,由当前网页通过网页的功能节点跳转到了哪些子网页或同等级的其他网页。同时,产生的该访问记录数据以每个访问操作执行的时间顺序进行存储。
62.由此,根据一个用户访问网页的操作,可以获取到该用户在该web系统中的访问序列。该用户的访问序列包括html、javascript、image等多种不同类型的数据对象。每个数据对象至少包括时序信息和频次信息,时序信息即该用户执行各个访问操作的执行时间顺序,频次信息即该用户所点击操作的各个功能节点的频次和浏览的内容的频次。
63.为便于记录用户的访问序列,web应用需要运行在定制的浏览器中。这些定制的浏览器可以方便地按时间顺序抓取和保存每一次web请求的数据,用户每执行一个访问操作即发起一次web请求。同时,也可通过网络代理的方式记录用户的访问序列。对于用户访问序列中的每个数据对象,需要收集的内容包括:url、httpresponse和请求开始时刻。
64.在用户的访问序列中,存在html、javascript、image等多种不同类型的数据对象。其中,与web系统功能结构相关联的数据对象主要为html类型和javascript类型。html类型的数据对象往往直接对应到某个系统功能节点,同时又包含系统功能节点之间关联的指示信息;javascript类型的数据对象,往往不直接对应到某个系统功能节点,但包含了系统功能节点之间关联的指示信息。
65.而为了为后续在建立web系统中的系统功能节点之间的关联关系,提供高效的文本查询功能。根据该用户访问网页的访问序列,建立对应的查询表。该查询表建立对于http response body数据的倒排索引,其索引项为url,即:在查询表中输入url或url片段,可获取与该url或url片段相关联的http response body集合,进而得到与该url或url片段相关联的web系统的系统功能节点集合。
66.在本技术中,步骤s11具体包括:确定所述访问序列中数据对象的数据类型;将数据类型为目标数据类型的各个数据对象各自的url作为索引项,建立所述查询表,所述目标数据类型为html类型或javascript类型。
67.在本实施例中,本技术后续建立功能节点之间的关联关系所用到的数据类型为html类型和javascript类型。因此,将html类型和javascript类型确定为目标数据类型,对该用户访问网页的访问序列中的数据对象进行遍历,根据httpresponseheader中的“content-type”字段,确定每个数据对象的数据类型。在数据对象的数据类型为html类型或者javascript类型时,也就是数据对象的数据类型为目标数据类型时,则对当前数据对象的http response body进行文本切词,将进行文本切词后的当前数据对象加入以该数据对象的url或url片段为索引项的倒排索引中。对于其他数据类型为html类型或者javascript类型的数据对象同样以上述的方式加入到倒排索引中,以此建立对http response body数据的倒排索引的查询表。
68.步骤s12:根据所述访问序列中为html类型的多个数据对象,生成与所述多个数据对象分别对应的多个系统功能节点。
69.在本实施例中,在用户访问序列中,html类型的数据对象往往直接对应到某个系统功能节点,而一个用户的访问序列中往往存在多个html类型的数据对象。因此,根据数据
类型为html的数据对象,生成对应的系统功能节点。具体为,对用户访问序列中的所有数据对象进行遍历,根据http response header中的“content-type”字段,判断每个数据对象是否为html类型:若是,则为当前数据对象生成一个对应的系统功能节点。系统功能节点即为web系统所具有的各个功能。
70.在本技术中,步骤s12具体包括:提取所述html类型的多个数据对象的主题词;以所述html类型的多个数据对象的主题词为节点名称,生成与所述html类型的多个数据对象分别对应的多个系统功能节点。
71.在本实施例中,系统功能节点生成的关键点,在于系统功能节点的主题词抽取,需要通过提取的主题词对生成的系统功能节点进行命名。因此,对用户访问序列中的数据对象进行遍历,根据http response header中的“content-type”字段,确定每个数据对象是否为html类型。在数据对象为html类型时,则为该数据对象生成一个对应的系统功能节点,同时提取该数据对象的主题词,以提取的该数据对象的主题词,作为该数据对象所对应生成的系统功能节点的节点名称。应当理解的是,对于用户序列中的多个html类型的数据对象中的其他html类型的数据对象的节点名称命名方式与上述节点名称命名方式相同,在此不再赘述。
72.对于将用于生成系统功能节点的html类型的数据对象的dom树结构中,往往存在title字段,用于标明当前页面的主题,这种情况可以很方便地提取到数据对象的主题词。但在一些情况下,该title字段可能缺失,或者title的文本内容过长,从而无法相对简要地描述当前系统功能节点;在这些情况下,系统功能节点的主题词抽取,需要依赖于对html数据进行主题词抽取。而目前缺少对html数据进行主题词抽取的现成方法。
73.因此,本技术提出一种面向html的主题词抽取方法。由于html数据中包含分散的文本信息,大量的dom结构信息以及分散的javascript脚本。因此,本技术提出的面向html的主题词抽取方法,在进行文本主题词抽取之前,对复杂的html数据进行预处理,将其转化为简单的纯文本,而后再进行文本主题词的抽取,对复杂的html数据进行预处理后,对预处理后的html数据进行html关键内容的抽取和文本主题词抽取,具体为:
74.图2是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的主题词提取流程图。参照如2,首先获取html源数据,在获取到html源数据后,对html源数据进行编码检测,常见的情况有utf-8编码和gbk编码两种。基于检测到的编码类型,获取html解码后的源数据,使其中的中文部分得到正确解码。若中文部分未进行如上所述的正确解码,将导致后续关键内容抽取、关键内容分词和文本主题词抽取的过程无法正确执行。
75.在获取到html解码后的源数据后,对html解码后的源数据进行解析和过滤其中的冗余信息。具体为基于dom树结构对html解码后的源数据进行解析,并对dom树结构中的script信息和style信息进行过滤,从而获取到html解码后的源数据中的有效文本信息。
76.在获取到html的有效文本信息后,通过基于行块分布函数的通用网页正文抽取技术对有效文本信息进行关键内容抽取。具体为基于html中文本行块的分布规律,对html中的关键文本进行定位,从而抽取到html的有效文本信息中的关键内容。
77.在抽取到html的关键内容后,对关键内容进行分词和文本主题词抽取,使用兼容中英文的分词工具库,先对抽取得到的关键内容进行分词,得到分词列表。进而,利用tf-idf模型进行主题词抽取,计算分词列表中每个词的权重,通过权重排序得到主题词。在计
算过程中,可加入命名实体识别的过滤,将计算范围限定在名词以及特殊名词的范围内,从而提高计算的效率和主题词结果的准确性。
78.基于本技术所提出的面向html的主题词抽取方法,即使在html数据的title字段缺失,或者title的文本内容过长,也可以从html数据内容中提取到主题词,以用于对生成的对应的系统功能节点进行命名。
79.在本实施例中,生成的系统功能节点包括主题词、访问频次、同质分组等节点属性。
80.其中,对于主题词属性,通过面向html的主题词抽取方法,进行提取。对于访问频次属性,初始化访问频次为1,根据系统功能节点的访问进行累加操作。同质分组,具体为将生成系统功能节点所基于的数据对象设置为初始元素,将与当前系统功能节点所基于的数据对象同质的其他系统功能节点所基于的数据对象作为该初始元素所对应的同质元素,根据该初始元素和该同质元素构成同质数据对象集合。为同属于一个同质数据对象集合的每个系统功能节点设置同属分组标识,根据系统功能节点的同质分组标识,即可确定该系统功能节点所对应的同质数据对象集合。系统功能节点的同质分组标识即为该系统功能节点所具有的具体的同质分组属性。系统功能节点的同质分组用于记录当前节点所对应的同质数据对象集合,并在步骤s13中归并同质节点时,进行集合之间的并集操作。其中,主题词和访问频次在最终的系统功能图中直接呈现给用户;同质分组为隐藏属性,用于步骤s14中建立系统功能节点之间的关联操作。
81.步骤s13:根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,根据分类结果对所述多个系统功能节点进行归并处理,获得多个目标系统功能节点。
82.在本实施例中,在步骤s12根据html类型的多个数据对象,生成与所述html类型的多个数据对象分别对应的多个系统功能节点后,由于用户在一轮访问过程中对同一个web系统的系统功能节点可能存在两次或多次访问,因此,基于访问序列中为html类型的多个数据对象,生成的多个系统功能节点可能存在功能性质重复的系统功能节点。此时为避免最终生成的web系统的功能结构图产生冗余,因此需提前对功能性质重复的系统功能节点进行归并处理,对于功能性质重复的系统功能节点只保留其中的一个系统功能节点即可。同时,也可避免后续为系统功能节点建立冗余的关联关系。
83.在本实施例中,功能性质重复的系统功能节点也就是存在同质的系统功能节点,系统功能节点的同质可分为对象同质和内容同质两类。
84.对象同质指:两个系统功能节点指向相同的web后端api,而web后端所返回的具体内容可能有所不同。内容同质指:两个系统功能节点所对应的web后端请求返回的内容相同或相近,而它们所指向的web后端api或api的呈现形式可能有所不同。
85.对于对象同质,需要判断两个html源数据的url是否相同。url中可能存在请求参数,例如搜索引擎搜索不同的关键词,或是论坛分页加载的页码请求,这些不同参数的url,本质上属于对同一个web后端api的请求,即属于web系统结构中的同一功能节点。因此,在判断url是否相同时,需要先过滤请求参数,取出不含参的url作为识别单位,从而判断是否存在对象同质。
86.内容同质需要判断两个html源数据的文本内容是否表示同一个系统功能节点。通
过本技术所提出的面向html的主题词抽取方法进行主题词的提取,由此获得每个系统功能节点的title字段以及关键词的权重排序列表,它们可用于对html的文本内容进行表征。当两个系统功能节点的title字段不全为空时,可直接将两个title字段进行对比;否则,取出关键词列表中权重排序前三的关键词逐一进行对比。基于上述方法,可判断两个系统功能节点之间是否存在内容同质。
87.因此,本实施例中根据数据类型为html类型的多个数据对象的源数据,确定该多个数据对象所对应的多个系统功能节点之间是否存在同质的情况。将彼此同质的系统功能节点分类到同一个同质类别,对同一个同质类别中的多个系统功能节点进行归并处理,仅保留同一个同质类别中的一个系统功能节点作为目标系统功能节点。由于进行同质分类后,存在多个同质类别,每个同质类别中仅保留一个目标系统功能节点,因此经过同质分类后,获得与多个同质类别分别对应的多个目标系统功能节点。
88.示例地,生成的系统功能节点包括系统功能节点1、系统功能节点2、系统功能节点3、系统功能节点4、系统功能节点5。通过解析各个系统功能节点所对应的数据对象的源数据,确定到系统功能节点1和系统功能节点2彼此同质,系统功能节点3和系统功能节点4和系统功能节点5彼此同质。因此,将系统功能节点1和系统功能节点2彼此同质分类到同一个同质类别,将系统功能节点3和系统功能节点4和系统功能节点5分类到同一个同质类别。保留系统功能节点1和系统功能节点2中的任一个系统功能节点为目标系统功能节点,保留系统功能节点3和系统功能节点4和系统功能节点5中的任一个系统功能节点为目标系统功能节点。由此,获得与同质类别分别对应的两个目标系统功能节点。
89.在本技术中,步骤s13具体包括:根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别;将每个同质类别中的各个系统功能节点归并为该同质类别中访问频次最高的一个系统功能节点,并作为目标系统功能节点,获得与所述多个同质类别分别对应的多个目标系统功能节点。
90.在本实施例中,由于不同系统功能节点的关键程度不同或用户对于不同系统功能节点的重视程度不同,用户访问过程对每个系统功能节点的访问频次就不同。因此,为使得最终生成展示给用户的web系统的功能结构图更具指导意义,以帮助用户在web系统中快捷地找到特定的内容信息和功能服务,保留同一个同质类别中的用户访问频次最多的一个系统功能节点为目标系统功能节点。因此,根据多个系统功能节点各自对应的html类型的多个数据对象,对多个系统功能节点进行同质分类,获得多个同质类别。对于每个同质类别中的任意一个同质类别,将该同质类别中的各个功能节点进行归并处理,即仅保留该同质类别中访问频次最高的一个系统功能节点作为目标系统功能节点。由此,多个同质类别中每个同质类别都可获得一个目标系统功能节点。由此,获得与多个同质类别分别对应的多个目标系统功能节点。
91.在本技术中,在所述同质分类为对象同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别,包括:对所述多个数据对象进行请求参数过滤处理,获得与所述多个数据对象分别对应的多个预处理url;根据所述多个预处理url,将预处理url相同的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别。在所述同质分类为内容同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点
进行同质分类,获得多个同质类别,包括:根据提取的所述多个数据对象各自的主题词,将主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别。在所述同质分类同时包括对象同质分类和内容同质分类时,所述根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别,包括:根据所述多个数据对象各自对应的多个预处理url和提取的所述多个数据对象各自的主题词,将预处理url相同且主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别。
92.在本实施例中,系统功能节点的同质可分为对象同质和内容同质两类,对系统功能节点进行同质分类包括对象同质分类和内容同质分类。
93.在本实施例中,可仅基于对象同质,对生成的多个系统功能节点进行同质分类,即获取生成的多个系统功能节点各自对应的多个数据对象中的url,对获取到的多个数据对象中的url进行预处理,过滤掉url中的请求参数,由此获得与生成的多个系统功能节点分别对应的多个预处理url。
94.在获得的多个预处理url中存在彼此相同的预处理url,也存在彼此不同的预处理url。将预处理url相同的各个系统功能节点划分到同一个同质类别,由此获得多个同质类别。
95.示例地,生成的系统功能节点包括系统功能节点a、系统功能节点b、系统功能节点c、系统功能节点d、系统功能节点e。通过对系统功能节点a、b、c、d、e各自对应的多个数据对象进行请求参数过滤处理,获得与该多个数据对象分别对应的多个预处理url,分别为预处理urla、预处理urla、预处理urlb、预处理urlb、预处理urlb。根据获得的多个预处理url,将预处理url同为urla的系统功能节点a和系统功能节点b分类到同一个同质类别,将预处理url同为urlb的系统功能节点c和系统功能节点d和系统功能节点e分类到同一个同质类别。
96.在本实施例中,可仅基于内容同质,对生成的多个系统功能节点进行同质分类,即获取生成的多个系统功能节点各自对应的多个数据对象的主题词,其中,通过本技术上述提出的面向html的主题词抽取方法对数据对象的主题词进行提取。
97.在获得的多个数据对象的主题词中存在彼此相同的主题词,也存在彼此不同的主题词。将主题词相同的各个系统功能节点划分到同一个同质类别,由此获得多个同质类别。
98.在本实施例中,另一种可选的实施方式为,本技术通过本技术所提出的面向html的主题词抽取方法进行主题词的提取,由此获得每个系统功能节点的title字段以及关键词的权重排序列表,它们可用于对html的文本内容进行表征。当系统功能节点的title字段不全为空时,可直接将title字段进行匹配;否则,取出关键词列表中权重排序前三的关键词逐一进行对比,当两个系统功能节点权重排序前三的关键词都匹配时,确定该两个系统功能节点内容同质。基于上述方法,可判断各个系统功能节点之间是否存在内容同质。将内容同质相同的各个系统功能节点划分到同一个同质类别,由此获得多个同质类别。
99.步骤s14:根据所述查询表,对所述多个目标系统功能节点进行关联处理,获得与所述访问序列对应的图结构系统功能图。
100.在本实施例中,系统功能节点之间的关联,基于html之间的链接关系进行建立。但html数据之间的链接关系具有一定的复杂性,具体表现为html跳转的间接性与url匹配的模糊性两方面。
101.html跳转的间接性质:用户在页面上点击发生跳转的两个html之间,不一定存在直接的跳转关系,而可能需要以某一个或某些javascript数据对象作为中介。例如,一个html数据中可能包含某个javascript文件的url或url片段,在这个javascript文件的代码中,通过ajax请求,去获取另一个html的数据。
102.基于html跳转的间接性,也就是html之间可基于url的链接关系,直接反映不同web系统功能节点之间的链接跳转;而某些web系统功能节点之间缺少直接的html链接跳转关系,而是以某个或某些javascript文件作为中介进行跳转。因此,即使javascript本身不表示具体的每个web系统功能节点,也需要把它们加入用户访问序列的查询表中,否则将可能导致某些html数据所对应的web系统功能节点被孤立于整体的web系统功能解析图之外,无法形成连通图。
103.因此,用户访问序列的查询表中的数据需要包含html和javascript两类,以使得后续通过查询表进行检索来确定html数据之间的链接关系,根据确定的html数据之间的链接关系,建立的目标系统功能节点之间的关联关系更加准确。
104.url匹配的模糊性则表现为,html或javascript数据中的链接信息不一定为完整的url,也可能仅包含url片段。在实际链接的过程中,浏览器动态地进行url的片段拼接,从而获取完整的链接信息,完成链接跳转。这使得url的匹配无法直接使用全量的文本匹配。
105.因此,基于url的切片以linux的文件分隔符“/”作为分隔标记这一特性,可以采取浏览器动态拼接url的逆向过程,以完整的url作为初始查询项,在用户访问序列的查询表中进行检索。如果检索得到的命中节点集合为空,则将当前检索的url从头部进行切片降级,以“/”作为节标记,去除其头部的一节,将获得的url片段作为下一次查询的输入。若下次检索得到的命中节点集合仍为空,则循环进行上述切片降级过程和检索匹配过程,直至检索得到的命中节点集合不为空,或当前查询后的url片段无法再进行切片为止。由此,使得在根据完整url无法建立目标系统功能节点之间的关联关系时,通过url片段进行目标系统功能节点之间的关联关系的建立,使得最终建立的目标系统功能节点之间的关联关系更加完整。
106.在本实施例中,对步骤s13归并后得到的每个目标系统功能节点,分别以每个目标系统功能节点的url或url片段作为输入,在查询表中进行检索。由于用户的访问序列是基于时序的访问序列,只需对输入的url对应的目标系统功能节点之前执行访问操作的目标系统功能节点进行检索,也就是当前目标系统功能节点的前序目标系统功能节点进行检索。以此获得当前输入的url对应的目标系统功能节点对应的命中节点集合,建立由该命中节点集合中的每个目标系统功能节点分别指向该当前输入的url对应的目标系统功能节点的有向边的关联关系,由此建立该当前输入的url对应的目标系统功能节点的关联关系。其中,命中节点集合中的目标系统功能节点是与当前输入的url对应的目标系统功能节点的url匹配的各个目标系统功能节点。
107.在本实施例中,图3是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的基于url索引的系统功能节点的关联流程图。参照图3,首先是在查询表中输入目标系统功能节点的完整url进行查询,在查询结果为空时,以该完整url最后一个“/”对该完整url进行切分,仅保留最后一个“/”之前的第一url片段,将该第一url片段继续输入查询表中进行查询。在查询结果为空时,以该完整url倒数第二个“/”对该完整url进行切
分,仅保留倒数第个“/”之前的第二url片段,将该第二url片段继续输入查询表中进行查询,如此循环直至获取到查询结果,也就是获得当前输入的url对应的目标系统功能节点对应的命中节点集合为止。
108.对于所有目标系统功能节点的关联关系,均以上述关联关系的建立方法进行关联关系的建立。在完成对所有目标系统功能节点的关联关系建立后,获得与用户的访问序列对应的图结构系统功能图。
109.在本技术中,步骤s14具体包括:将每个目标系统功能节点的url分别输入所述查询表进行检索,获得每个目标系统功能节点各自对应的命中功能节点集合,一个目标系统功能节点对应的命中功能节点集合包括多个命中功能节点,所述多个命中功能节点为自身url与所述一个目标系统功能节点的url匹配的多个前序目标系统功能节点;对每个目标系统功能节点,建立由目标系统功能节点对应的多个命中功能节点分别指向该目标系统功能节点的关联关系,一个关联关系为一条由起点目标系统功能节点指向终点目标系统功能节点的有向边;根据每个目标系统功能节点建立的关联关系,获得所述图结构系统功能图。
110.在本实施例中,通过寻找不同功能节点之间的空间依赖关系,在图结构中为它们添加对应的有向边,以此对web系统功能节点进行关联。对步骤s13归并后得到的每个目标系统功能节点的url或url片段作为输入,分别在查询表中的进行检索。
111.以所有的目标系统功能节点中的任意一个目标系统功能节点为例进行说明。将该目标系统功能节点的url或url片段作为输入,在查询表中的进行检索。在检索过程中只检索时序在该目标系统功能节点之前的前序目标系统功能节点中进行检索,获取到url或url片段与该目标系统功能节点的url或url片段相匹配的所有前序目标系统功能节点,组成该目标系统功能节点的命中节点集合,命中节点集合中的目标系统功能节点统称为该目标系统功能节点对应的命中节点。对该目标系统功能节点建立由该命中节点集合中的各个命中节点分别指向该目标系统功能节点的有向边的关联关系。每条有向边对应一个关联关系,每条有向边中发出有向边的目标系统功能节点为该关联关系中的起点目标系统功能节点,有向边指向的目标系统功能节点为该关联关系中的终点目标系统功能节点。根据建立的所有关联关系,获得对应的图结构系统功能图。对于所有的目标系统功能节点中的其他目标系统功能节点的关联关系的建立与上述的建立方式相同,在此不再赘述。
112.示例地,图4是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法中的系统功能图的建立示意图。参照图4,在生成多个目标系统功能节点a、b、c、d、e、f、g、h后,分别以每个目标系统功能节点的url或url片段作为输入,在用户访问序列的查询表中进行检索。
113.将目标系统功能节点e的url或url片段作为输入,在用户访问序列的查询表中进行检索。由于检索的是当前目标系统功能节点的前序目标系统功能节点,而对于目标系统功能节点e而言,想要访问到目标系统功能节点e,需要先访问到目标系统功能节点a、b、c中的任意一者后,通过该任意一者访问到目标系统功能节点e。因此,目标系统功能节点e的前序目标系统功能节点为目标系统功能节点a、b、c。此时将目标系统功能节点e的url或url片段作为输入,在用户访问序列的查询表中进行检索,将检索到目标系统功能节点为a、b、c,然后将目标系统功能节点为a、b、c的url或url片段分别与目标系统功能节点e的url或url片段进行匹配。应当理解的是,输入为url,就将目标系统功能节点为a、b、c的url分别与目
标系统功能节点e的url进行匹配;输入为url的片段,就将目标系统功能节点为a、b、c的url片段分别与目标系统功能节点e的url片段进行匹配。又因为目标系统功能节点a、b、c与目标系统功能节点e都直接相关,因此目标系统功能节点为a、b、c的url或url片段都能与目标系统功能节点e的url或url片段相匹配,目标系统功能节点e的命中节点集合包括目标系统功能节点a、b、c。由此,为目标系统功能节点e建立由目标系统功能节点为a、b、c分别指向目标系统功能节点e的关联关系,在该多个关联关系中,目标系统功能节点为a、b、c分别都属于起点目标系统功能节点,目标系统功能节点e属于终点目标系统功能节点。
114.应当理解的是,输入目标系统功能节点的url或url片段是指先将目标系统功能节点的完整url输入查询表进行查询,在未获取到查询结果时,才对该完整url进行切片降级,将切片降级后的url片段输入查询表进行查询,直至获取到查询结果或直至切片降级到最后一级后,停止查询。
115.将目标系统功能节点h的url或url片段作为输入,在用户访问序列的查询表中进行检索。由于检索的是当前目标系统功能节点的前序目标系统功能节点,而对于目标系统功能节点h而言,想要访问到目标系统功能节点h,可以通过访问目标系统功能节点a、b、c中的任意一者后,通过该任意一者访问到目标系统功能节点e后,通过目标系统功能节点e访问到目标系统功能节点h;或通过访问目标系统功能节点d,访问到目标系统功能节点f,通过目标系统功能节点f再访问到目标系统功能节点h;或直接通过目标系统功能节点g访问到目标系统功能节点h。因此,目标系统功能节点h的前序目标系统功能节点为目标系统功能节点a、b、c、d、e、f、g。此时将目标系统功能节点h的url或url片段作为输入,在用户访问序列的查询表中进行检索,将检索到目标系统功能节点为a、b、c、d、e、f、g,然后将目标系统功能节点为a、b、c、d、e、f、g的url或url片段分别与目标系统功能节点e的url或url片段进行匹配。又因为目标系统功能节点e、f、g与目标系统功能节点h都是直接相关,因此目标系统功能节点e、f、g的url或url片段都能与目标系统功能节点h的url或url片段相匹配,目标系统功能节点e的命中节点集合包括目标系统功能节点e、f、g。由此,为目标系统功能节点h建立由目标系统功能节点为e、f、g分别指向目标系统功能节点h的关联关系。
116.而对于目标系统功能节点f,想要访问到f,则只需通过访问目标系统功能节点d,访问到目标系统功能节点f。因此,目标系统功能节点f的前序目标系统功能节点为目标系统功能节点d。同时,目标系统功能节点d直接与目标系统功能节点f相关联,因此目标系统功能节点d的url或url片段与目标系统功能节点f相匹配。由此,为目标系统功能节点f建立由目标系统功能节点为d指向目标系统功能节点f的关联关系。
117.在本实施例中,完成所有目标系统功能节点的关联关系的建立时,也就完成了对应于用户的访问序列的图结构系统功能图。
118.步骤s15:展示所述图结构系统功能图,以供用户基于所述图结构系统功能图进行网页访问。
119.在本实施例中,根据一个用户的访问序列建立的图结构系统功能图,可在对应的web系统中进行展示,以指导用户在该web系统中的访问行为,该用户基于该图结构系统功能图能够快捷地找到特定的内容信息和功能服务。同时对于一个相同的用户群体,其感兴趣的系统功能节点可能是类似的。因此,在基于一个用户的访问序列建立的图结构系统功能图,可展示给与该用户同一用户群体的用户,以指导该群体中的各个用户在该web系统中
的访问行为,该群体中的各个用户基于该图结构系统功能图能够快捷地找到特定的内容信息和功能服务。例如,对于学校的门户网站,对于学生用户这一群体都更关注于成绩查询等相关功能或内容,基于一个学生的访问序列,建立的图结构系统功能图,可用于指导学生用户这一群体中的所有用户的访问行为。因此可将基于该一个学生的访问序列,建立的图结构系统功能图,推送给学生用户这一个群体的所有用户,用于指导该群体中的所有用户的访问行为。
120.本技术所述的基于用户访问序列的系统功能解析的方法,具有以下优势:
121.一方面,本技术所述的基于用户访问序列的系统功能解析的方法,根据用户的访问序列,以web系统的实际使用者的视角建立web系统的功能解析图,以期指导用户与系统的交互,以此帮助用户在web系统中快捷地找到特定的内容信息和功能服务。
122.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,基于用户访问序列,解析建立的web系统的功能解析图,也就是基于用户访问序列,建立的针对该用户或该用户所属用户群体的web系统的功能结构图,排除了当前用户或用户群所不关心的功能点,从而使得解析出的功能结构减少了大量冗余信息,具有更强的针对性。
123.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,用户访问序列中包含该用户对于每个系统功能节点的访问频次信息,从而可以确定出每个系统功能节点在该用户的访问路径中的关键程度,或者用户对于该功能节点的关注程度,这使得解析建立的web系统的功能结构图中包含了用户视角的功能节点权重信息,使建立的web系统的功能结构图具有更强的指导性。
124.另一方面,本技术所述的基于用户访问序列的系统功能解析的方法,用户访问序列基于用户在即时网络环境下的访问,在解析建立web系统的功能结构图时,不需依赖或影响当前的网络环境。主要包括:对于执行解析任务的机器的网络传输速度没有要求,能够支持不依赖网络传输速度的大批量解析任务;对于执行解析任务的机器的网络可达性没有要求,能够避免内外网域隔离等问题;对于需要建立功能结构图的目标web系统具有非侵入性,只需使用先前用户正常访问该目标web系统的数据记录,避免像网络爬虫那样对该目标web系统造成短时间内的较大负载。
125.在本技术中,所述方法还包括:根据所述访问序列中的时序信息和频次信息,对所述图结构系统功能图进行冗余边消除,获得与所述访问序列对应的树结构系统功能图;展示所述树结构系统功能图,以供用户基于所述树结构系统功能图进行网页访问。
126.在本实施例中,上述基于用户的访问序列中对系统功能节点的访问路径,建立的图结构的系统功能图的路径依赖过于复杂,该图结构的系统功能图展示的系统功能结构图还是较为复杂。为了使用户能够更直观、更方便地通过系统功能结构图进行网页访问的指导,对建立的图结构的系统功能图进行更具层次的树结构的优化。
127.在本技术中,所述根据所述访问序列中的时序信息和频次信息,对所述图结构系统功能图进行冗余边消除,获得与所述访问序列对应的树结构系统功能图,具体包括:根据每个关联关系中的起点目标系统功能节点的访问频次和时序信息,确定每个关联关系的边权,每个关联关系的边权为每个关联关系中的起点目标系统功能节点的时序与访问频次之差;根据所述每个关联关系的边权,确定每个终点目标系统功能节点所具有的关联关系中边权最小的关联关系;根据每个终点目标系统功能节点所具有的关联关系中边权最小的关
联关系,消除每个终点目标系统功能节点所具有的关联关系中边权大于最小边权的关联关系,获得与所述访问序列对应的树结构系统功能图。
128.在本实施例中,采取基于冗余边消减的自动优化,根据用户访问序列中时序信息和频次信息,将路径依赖复杂的图结构优化为具有层次的树结构,具体为:通过最小树形图算法对图结构的系统功能图进行优化。输入为图结构的系统功能图,输出为去除了冗余边的树结构的系统功能图。去除冗余边的目标,是将图结构中的每个目标系统功能节点的入度削减为1,使得每个目标系统功能节点只包含一个前序目标系统功能节点。具体为:根据用户访问序列中与各个目标系统功能节点分别对应的各个数据对象的时序信息和频次信息,可以确定到各个目标系统功能节点各自的访问频次和访问时间。根据各个目标系统功能节点的访问时间,按访问时间先后顺序为所有目标系统功能节点分配一个时序数值编号。访问时间越靠前,时序数值编号越小。
129.根据各个目标系统功能节点各自的访问频次和时序数值编号,确定每个关联关系的边权,具体为:以其中一个关联关系为例进行说明,将该关联关系中的起点目标系统功能节点的时序数值编号与访问频次作差,获得该关联关系的边权。对于其他关联关系的边权与上述确定关联关系的实施方式相同,在此不再赘述。
130.在本实施例中,那些时序较前、访问频次较大的目标系统功能节点为较关键的目标系统功能节点,这类应当被优先选择。而时序较前、访问频次较大的目标系统功能节点具有较小边权。因此,在得到了所有关联关系的边权后,对指向同一个终点目标系统功能节点的所有关联关系的边权进行排序,确定出其中边权最小的一个关联关系,删除该所有关联关系中除该边权最小的一个关联关系外的其他所有关联关系。由此,对于每个终点目标系统功能节点,均只保留指向自身的一个边权最小的关联关系。由此完成图结构的系统功能图中的冗余边消除,获得与所述访问序列对应的树结构系统功能图。
131.应当理解的是,一个目标系统功能节点在一个关联关系中只可能是起点目标系统功能节点和终点目标系统功能节点中的一者。而一个目标系统功能节点在多个关联关系中可同时属于起点目标系统功能节点和终点目标系统功能节点。参照图4,在目标系统功能节点a指向目标系统功能节点e的关联关系中,目标系统功能节点e为终点目标系统功能节点;在目标系统功能节点e指向目标系统功能节点h的关联关系中,目标系统功能节点e为起点目标系统功能节点。参照图4,在目标系统功能节点d指向目标系统功能节点f的关联关系中,目标系统功能节点f为终点目标系统功能节点;在目标系统功能节点f指向目标系统功能节点h的关联关系中,目标系统功能节点f为起点目标系统功能节点等。
132.在本实施例中,由于web系统访问过程具有时序性,即发生a

b的链接跳转时,a在用户访问序列中总是出现在b之前。因此,可在步骤s14检索url匹配的过程中,只检索该url的前序的系统功能节点,这样使得步骤s14最终生成的系统功能解析图中不会存在环路。这样,在求解最小树形图算法的过程中,不再需要检测和去除环路,节省了时间开销。
133.在本实施例中,在求解最小树形图算法的过程中,需要进行连通性判断。连通性判断的过程,是指在循环消解环路的过程中,需要逐次判断当前有向图中是否所有节点可连通。若存在不可连通的节点,则最小树形图算法执行失败,结束算法流程。对于求解树结构系统功能图的过程中,不可连通存在两种可能:一种是用户在访问过程中存在直接输入url进行跳转的行为,则该次跳转将可能不满足html的链接跳转关系;另一种可能是html存在
较深层次的链接跳转关系,超出了本发明所采用的迭代检索和循环降级匹配的作用范围,例如可能存在不基于linux文件分隔符“/”的复杂url拼接。对于两种不可连通性,在下述的基于人机交互的反馈优化中,可通过人工优化,借助人工信息对非连通图的情况进行处理。
134.在本技术中,所述方法还包括:在所述树结构系统功能图的数据库服务端设置编辑接口;根据用户的编辑操作,通过所述编辑接口对所述树结构系统功能图进行编辑。
135.在本实施例中,将可视化的树结构系统功能图提供给用户,用户能够对生成的树结构系统功能图进行进一步编辑优化,以使得最终展示给用户,用于指导用户访问网页的树结构系统功能图,更符合用户的访问行为。通过为树结构系统功能图所在的数据库服务端设置编辑接口,根据用户的编辑操作行为,通过编辑接口对生成的树结构系统功能图进行编辑。
136.在与树结构系统功能图的数据库相关联的服务端上,提供可对树结构系统功能图进行添加、删除、修改、查询的rest接口。同时,在前端提供相应的可视化功能,对后端接口发送相应rest请求,从而提供对于用户可用的人机交互功能。
137.前端的人机交互界面主要用于展示和编辑树结构系统功能图。在前后端交互的设计中,定义可描述树结构系统功能图的bpmn交互语言。基于bpmn的描述符号和描述能力,用户可对树结构系统功能图进行节点添加、节点修改、节点删除、有向边添加、有向边删除以及图形拖拽。
138.后端主要连接树结构系统功能图的数据库,同时向前端提供可对树结构系统功能图进行添加、删除、修改、查询的rest接口。
139.在本实施例中,图5是本技术一实施例示出的基于用户访问序列的树结构系统功能图的编辑接口设计的示意图。参照图5,功能解析图添加接口用于加载用户输入的访问时间序列,或者根据用户指定的信息从系统数据库中加载相应的用户访问序列,并执行前述的步骤s12-s14,生成图结构系统功能图,以及完成基于冗余边消减的自动优化,生成树结构系统功能图,并在后端树结构系统功能图的数据库中进行保存。
140.功能解析图删除接口根据前端传回的树结构系统功能图id,可从后端数据库中删除相应的树结构系统功能图。
141.功能解析图修改接口根据前端记录的修改信息,以及前端传回的树结构系统功能图id,在后端树结构系统功能图的数据库中进行相应修改。
142.功能解析图查询接口接收前端传回的用户查询项,在树结构系统功能图的数据库中查询名称与查询项可匹配的数据集合,并将数据集合返回给前端。
143.在本实施例中,上述设置编辑接口目的在于将可视化的树结构系统功能图提供给用户,使用户能够对树结构进行编辑,从而对web系统功能结构产生反馈信息,根据反馈信息对可视化的树结构系统功能图进行进一步的反馈优化,以使获得的树结构系统功能图更适合于指导用户进行网页访问。同时可根据用户的反馈信息对非连通图的情况进行处理。
144.在本实施例中,本发明实施例所公开的基于用户访问序列的系统功能解析的方法,建立了两个重要模型:用户访问序列s和web系统功能结构g。用户访问序列s是一维的时间结构,s={item|item∈t}。其中,t为用户访问web系统过程中记录的访问轨迹trace,item为该访问轨迹中包含的web资源对象,item的构成为《timestamp,url,response,type》,其中timestamp为用户访问该资源对象的时间戳,url为该资源在网络中的url,response
为用户访问该资源时请求返回的响应包体内容,type为该资源的对象类型(例如html,javascript,以及text等类型)。web系统功能结构g是二维的空间结构,g的构成为《f,r》,f∈f,r∈r。其中,f为web系统功能节点,f的构成为《name,weight,info》,其中,name为当前web系统功能节点的主题词,weight为当前web系统功能节点的权重,info为当前web系统功能节点的相关信息;r为web系统功能节点之间的关联关系,r的构成为《source,destination》,source∈f,destination∈f,其中source为关联关系的出发点,destination为关联关系的终止点,r在有向图中表现为一条有向边,由source节点指向destination节点。
145.在本实施例中,图6是本技术一实施例示出的一种基于用户访问序列的系统功能解析的方法的另一种流程图。参照图6,本发明包括数据准备阶段,在该阶段中收集用户的访问序列,并根据用户的访问序列建立查询表。
146.在时间序列转化为空间结构阶段,本发明将用户访问序列s的一维时间结构转化为web系统功能结构g的二维空间结构。该阶段包含如下三个步骤:web系统功能节点的生成,web系统功能节点的归并,以及web系统功能节点之间的关联。
147.在空间结构优化阶段,本发明将对生成的web系统功能结构g的二维空间结构进行优化,将结构复杂的有向图优化为具有层次的树形结构,从而为用户展示更具指导意义的web系统功能结构。该阶段包含如下两个步骤:基于冗余边消减的自动优化,与基于人机交互的反馈优化。
148.其中,在未基于冗余边消减的自动优化之前。图结构的系统功能结构图基于web网页之间的链接关系得到,包含不同功能层级之间的复杂跳转网络,使得不同的功能层级相互交错,无法直接判断所属层次。因此,本技术基于用户访问序列中的时序信息和访问频次信息,将复杂的图结构消减为具有层次信息的树结构。
149.本发明实施例所公开的基于用户访问序列的系统功能解析的方法,还具有以下优势:
150.本发明所述的基于用户访问序列的系统功能解析的方法,通过冗余边消减的自动优化将图结构的系统功能图优化为树结构的系统功能图,使得最终呈现给用户的系统功能图更具层次,用户能够更直观地通过树结构系统功能图进行网页访问。以及基于人机交互的反馈优化对树结构系统功能图进行进一步地反馈优化,由于是基于用户的反馈信息进行的反馈优化,使得优化后的系统功能图更适合于指导用户进行网页访问。
151.本技术另一方面提供一种基于用户访问序列的系统功能解析的系统。图7是本技术一实施例示出的一种基于用户访问序列的系统功能解析的系统的结构图。参照图7,所述系统700包括:
152.查询表建立模块701,用于根据用户访问网页的访问序列,建立查询表;
153.系统功能节点生成模块702,用于根据所述访问序列中为html类型的多个数据对象,生成与所述多个数据对象分别对应的多个系统功能节点;
154.系统功能节点归并模块703,用于根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,根据分类结果对所述多个系统功能节点进行归并处理,获得多个目标系统功能节点;
155.系统功能节点关联模块704,用于根据所述查询表,对所述多个目标系统功能节点
进行关联处理,获得与所述访问序列对应的图结构系统功能图;
156.显示模块705,用于展示所述图结构系统功能图,以供用户基于所述图结构系统功能图进行网页访问。
157.进一步的,所述系统700还包括:
158.优化模块,用于根据所述访问序列中的时序信息和频次信息,对所述图结构系统功能图进行冗余边消除,获得与所述访问序列对应的树结构系统功能图;
159.所述显示模块705包括第一显示模块,用于展示所述树结构系统功能图,以供用户基于所述树结构系统功能图进行网页访问。
160.进一步的,所述系统700还包括:
161.交互模块,用于在所述树结构系统功能图的数据库服务端设置编辑接口;根据用户的编辑操作,通过所述编辑接口对所述树结构系统功能图进行编辑。
162.进一步的,所述系统功能节点生成模块702,包括:
163.主题词提取模块,用于提取所述html类型的多个数据对象的主题词;
164.系统功能节点生成子模块,用于以所述html类型的多个数据对象的主题词为节点名称,生成与所述html类型的多个数据对象分别对应的多个系统功能节点。
165.进一步的,所述查询表建立模块701,包括:
166.数据类型确定模块,用于确定所述访问序列中数据对象的数据类型;
167.查询表建立子模块,用于将数据类型为目标数据类型的各个数据对象各自的url作为索引项,建立所述查询表,所述目标数据类型为html类型或javascript类型。
168.进一步的,所述系统功能节点归并模块703,包括:
169.同质分类模块,用于根据所述多个系统功能节点各自对应的所述多个数据对象,对所述多个系统功能节点进行同质分类,获得多个同质类别;
170.目标系统功能节点确定模块,用于将每个同质类别中的各个系统功能节点归并为该同质类别中访问频次最高的一个系统功能节点,并作为目标系统功能节点,获得与所述多个同质类别分别对应的多个目标系统功能节点。
171.进一步的,所述系统功能节点关联模块704,包括:
172.命中功能节点集合确定模块,用于将每个目标系统功能节点的url分别输入所述查询表进行检索,获得每个目标系统功能节点各自对应的命中功能节点集合,一个目标系统功能节点对应的命中功能节点集合包括多个命中功能节点,所述多个命中功能节点为自身url与所述一个目标系统功能节点的url匹配的多个前序目标系统功能节点;
173.关联关系建立模块,用于对每个目标系统功能节点,建立由目标系统功能节点对应的多个命中功能节点分别指向该目标系统功能节点的关联关系,一个关联关系为一条由起点目标系统功能节点指向终点目标系统功能节点的有向边;
174.系统功能节点关联子模块,用于根据每个目标系统功能节点建立的关联关系,获得所述图结构系统功能图。
175.进一步的,在所述同质分类为对象同质分类时,所述同质分类模块,用于对所述多个数据对象进行请求参数过滤处理,获得与所述多个数据对象分别对应的多个预处理url;根据所述多个预处理url,将预处理url相同的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别;
176.在所述同质分类为内容同质分类时,所述同质分类模块,用于根据提取的所述多个数据对象各自的主题词,将主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别;
177.在所述同质分类同时包括对象同质分类和内容同质分类时,所述同质分类模块,用于根据所述多个数据对象各自对应的多个预处理url和提取的所述多个数据对象各自的主题词,将预处理url相同且主题词相匹配的数据对象所对应的系统功能节点分类到同一个同质类别,获得多个同质类别。
178.进一步的,所述优化模块,包括:
179.关联关系的边权确定模块,用于根据每个关联关系中的起点目标系统功能节点的访问频次和时序信息,确定每个关联关系的边权,每个关联关系的边权为每个关联关系中的起点目标系统功能节点的时序与访问频次之差;
180.优化子模块,用于根据所述每个关联关系的边权,确定每个终点目标系统功能节点所具有的关联关系中边权最小的关联关系;根据每个终点目标系统功能节点所具有的关联关系中边权最小的关联关系,消除每个终点目标系统功能节点所具有的关联关系中边权大于最小边权的关联关系,获得与所述访问序列对应的树结构系统功能图。
181.本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
182.以上对本技术提供的一种基于用户访问序列的系统功能解析的方法和系统进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
183.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献