一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于大数据的日志分析方法及终端与流程

2022-10-15 11:44:37 来源:中国专利 TAG:


1.本发明涉及大数据分析技术领域,特别涉及一种基于大数据的日志分析方法及终端。


背景技术:

2.在互联网应用这一领域,用户行为信息包括但不局限于以下内容:网络服务的访问次数、访问频度、访问停留时间、操作活跃时间、用户输入关键词、用户点击链接、用户交互操作(如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款)。
3.通过对用户行为信息的研究,可以从中发现用户在接入网络服务时表现出来的规律分布,并且为提升用户体验、高效信息推送和促进目标营销提供科学、准确的客观依据。现有技术中针对用户行为的研究与应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行为信息进行统计、分析的大数据技术。
4.大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。
5.基于大数据平台实现对全部用户行为信息的分析与利用,适应了用户行为信息自身规模庞大、数据格式复杂多元化、运算速度要求高的特点,能够满足各类型网络服务的实际需求。对于用户行为的分析,现有技术做过很多研究,其中,日志在计算机系统中是一个非常广泛的概念,它是安全审计的必要组成部分,日志数据是故障排除、除错、监控、安全、反诈骗、合规、电子取证等许多企业应用的基础。
6.为了维护系统的自身运行并保护合法用户的安全状况,计算机信息系统一般都会有相应的日志来记录信息系统有关日常事件、误操作、警报、错误以及用户的各种日常操作的日期时间和各种行为属性信息。
7.传统方式下,将计算机信息系统的日志保存到关系数据库中,通过数理统计等方法对日志进行挖掘分析以期发现用户的异常行为,随着日志数据的容量和类型的增长,对日志数据进行分析、追踪潜在的问题、发现错误变得越来越难,尤其是在多日志相关性分析出现之后,即便在最佳状态下,也需要经验丰富的操作人员跟踪事件链、过滤噪音,并最终诊断出导致复杂问题产生的根本原因,海量的日志数据对日志分析处理的效率提出了更高的要求,传统的日志存储和分析方法已经不能胜任大数据背景下的日志分析。


技术实现要素:

8.本发明所要解决的技术问题是:提供一种基于大数据的日志分析方法及终端,能对用户日志进行大数据分析。
9.为了解决上述技术问题,本发明采用的技术方案为:
10.一种基于大数据的日志分析方法,包括步骤:
11.s1、获取待分析的日志,并将获取的待分析的日志添加入日志池中;
12.s2、对日志池的日志进行预处理和分析以得到用户行为数据;
13.s3、对用户行为数据进行进行预处理与聚类;
14.s4、根据聚合后的用户行为数据建立用户行为数据本体模型,并将用户行为数据本体模型存储在数据库中;
15.s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据。
16.为了解决上述技术问题,本发明采用的另一种技术方案为:
17.一种基于大数据的日志分析终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
18.s1、获取待分析的日志,并将获取的待分析的日志添加入日志池中;
19.s2、对日志池的日志进行预处理和分析以得到用户行为数据;
20.s3、对用户行为数据进行进行预处理与聚类;
21.s4、根据聚合后的用户行为数据建立用户行为数据本体模型,并将用户行为数据本体模型存储在数据库中;
22.s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据。
23.本发明的有益效果在于:一种基于大数据的日志分析方法及终端,采集用户行为数据,对用户行为数据采用并行运算模型进行预处理与聚合,根据聚合后的用户行为数据,建立用户行为数据本体模型,并存储在数据库中,将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取行业信息,从而实现有效与精准的风向把控,日志分析处理效率较高,实用性强,适用范围广泛,易于推广,适合日志的大数据分析。
附图说明
24.图1为本发明实施例的一种基于大数据的日志分析方法的流程示意图;
25.图2为本发明实施例的一种基于大数据的日志分析终端的结构示意图。
26.标号说明:
27.1、一种基于大数据的日志分析终端;2、处理器;3、存储器。
具体实施方式
28.为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
29.请参照图1,一种基于大数据的日志分析方法,包括步骤:
30.s1、获取待分析的日志,并将获取的待分析的日志添加入日志池中;
31.s2、对日志池的日志进行预处理和分析以得到用户行为数据;
32.s3、对用户行为数据进行进行预处理与聚类;
33.s4、根据聚合后的用户行为数据建立用户行为数据本体模型,并将用户行为数据本体模型存储在数据库中;
34.s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据。
35.由上述描述可知,本发明的有益效果在于:一种基于大数据的日志分析方法及终
端,采集用户行为数据,对用户行为数据采用并行运算模型进行预处理与聚合,根据聚合后的用户行为数据,建立用户行为数据本体模型,并存储在数据库中,将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取行业信息,从而实现有效与精准的风向把控,日志分析处理效率较高,实用性强,适用范围广泛,易于推广,适合日志的大数据分析。
36.进一步地,所述步骤s3,对用户行为数据进行进行聚类具体包括:
37.s31、根据用户行为数据得到用户项目评价矩阵;
38.s32、根据用户项目评价矩阵使用相似度计算方法得到了用户相似度矩阵;
39.s33、根据用户项目评价矩阵和用户相似度矩阵将用户行为数据进行聚类。
40.由上述描述可知,实现对用户行为数据进行进行聚类。
41.进一步地,所述步骤s33包括:
42.s331、选取k个用户行为数据形成k个聚类,每个用户行为数据对应一个聚类,用户行为数据对应的用户项目评价矩阵作为对应聚类的聚类中心;
43.s332、选取一个新的用户行为数据,根据选取的用户行为数据与各个聚类中心的相似性,将加入到与其最相似的聚类中,并重新计算加入的聚类的聚类中心;
44.重复执行步骤s332直到重新计算的聚类中心与计算前的聚类中心的差小于设定阈值。
45.由上述描述可知,实现k-均值计算,k一均值聚类是无监督分类中的一种基本方法,属于划分聚类方法,优点是其非常简洁及高效,适合实现大数据下的日志分析。
46.进一步地,所述步骤s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据具体包括:通过用户的行为日志,采集用户最常浏览的模块信息,并进行统计,根据用户在插件超市中使用的插件次数,推理出功能受欢迎的插件排行,通过用户浏览量统计行业最热门的版块。
47.由上述描述可知,实现对行业风向的分析。
48.进一步地,所述步骤s3,对用户行为数据进行进行预处理具体包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中。
49.由上述描述可知,实现数据的预处理,加快数据的处理速度,适合大数据条件下的日志分析。
50.一种基于大数据的日志分析终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
51.s1、获取待分析的日志,并将获取的待分析的日志添加入日志池中;
52.s2、对日志池的日志进行预处理和分析以得到用户行为数据;
53.s3、对用户行为数据进行进行预处理与聚类;
54.s4、根据聚合后的用户行为数据建立用户行为数据本体模型,并将用户行为数据本体模型存储在数据库中;
55.s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据。
56.由上述描述可知,本发明的有益效果在于:一种基于大数据的日志分析方法及终端,采集用户行为数据,对用户行为数据采用并行运算模型进行预处理与聚合,根据聚合后
的用户行为数据,建立用户行为数据本体模型,并存储在数据库中,将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取行业信息,从而实现有效与精准的风向把控,日志分析处理效率较高,实用性强,适用范围广泛,易于推广,适合日志的大数据分析。
57.进一步地,所述步骤s3,对用户行为数据进行进行聚类具体包括:
58.s31、根据用户行为数据得到用户项目评价矩阵;
59.s32、根据用户项目评价矩阵使用相似度计算方法得到了用户相似度矩阵;
60.s33、根据用户项目评价矩阵和用户相似度矩阵将用户行为数据进行聚类。
61.由上述描述可知,实现对用户行为数据进行进行聚类。
62.进一步地,所述步骤s33包括:
63.s331、选取k个用户行为数据形成k个聚类,每个用户行为数据对应一个聚类,用户行为数据对应的用户项目评价矩阵作为对应聚类的聚类中心;
64.s332、选取一个新的用户行为数据,根据选取的用户行为数据与各个聚类中心的相似性,将加入到与其最相似的聚类中,并重新计算加入的聚类的聚类中心;
65.重复执行步骤s332直到重新计算的聚类中心与计算前的聚类中心的差小于设定阈值。
66.由上述描述可知,实现k-均值计算,k一均值聚类是无监督分类中的一种基本方法,属于划分聚类方法,优点是其非常简洁及高效,适合实现大数据下的日志分析。
67.进一步地,所述步骤s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据具体包括:通过用户的行为日志,采集用户最常浏览的模块信息,并进行统计,根据用户在插件超市中使用的插件次数,推理出功能受欢迎的插件排行,通过用户浏览量统计行业最热门的版块。
68.由上述描述可知,实现对行业风向的分析。
69.进一步地,所述步骤s3,对用户行为数据进行进行预处理具体包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中。
70.由上述描述可知,实现数据的预处理,加快数据的处理速度,适合大数据条件下的日志分析。
71.请参照图1,本发明的实施例一为:
72.一种基于大数据的日志分析方法及终端,其包括以下步骤:
73.s1、获取待分析的日志,并将获取的待分析的日志添加入日志池中;
74.具体而言,包括了请求处理时间、请求查询字符串、请求时间、请求序列等点击流信息,以及性别、年龄、职位等用户基本信息,同时还包括了插件点击次数、页面停留时长、资料点击热度、内容类别等用户本次请求的信息。
75.s2、对日志池的日志进行预处理和分析以得到用户行为数据;
76.具体而言,主要选取了其中的请求处理时间、请求查询字符串、请求序列、等点击流信息及每次点击相关的内容信息,并计算出页面浏览时间、访问次数、类目访问次数及总访问次数等统计信息,为了实现对用户行为的聚类,对数据进行了清洗,去除了只访问了首页的用户,清洗后的浏览记录,同时统计出每个访问中,用户在每个子页面的停留时间、浏
览次数、对所属类别的浏览时间总和等,并根据用户的浏览序列中的重复浏览页面及重返浏览页面等行为得出用户感兴趣的行业信息。数据集中包含了数值型也包含了字符型属性,必须对字符型属性进行数值化处理,用一组整数代码不同的类目名称方便进行数据处理。
77.即对日志池的日志进行清洗、整合的动作后进行数据分析以得到用户行为数据,所述用户行为数据包括用户行为主体、发生时间、发生的页面、上下滚动页面、移动或点击版块、页面停留时间、收藏、保存、访问同一页面次数、复制粘贴文字操作、当前用户的搜索条件、搜索关键字对应的标题、常用插件。
78.在本实施例中,可将分析得到的用户行为数据整理形成用户行为信息轨迹并在后台界面进行可视化展示。
79.s3、对用户行为数据进行进行预处理与聚类;
80.具体而言,所述预处理包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中。
81.所述聚合包括:对正确、但无效的用户行为信息,采用基于规则的用户行为聚合算法进行过滤、整合,对用户行为日志中各模块浏览时长、各模块资料使用情况,整理统计。
82.具体而言,包括步骤:
83.s31、根据用户行为数据得到用户项目评价矩阵;
84.将隐性的用户行为数据转化为显性的用户对项目评价,得到用户项目评价矩阵,然后采用改进后的相似度计算方法计算用户之间的相似度,接着对用户进行聚类,将用户按照他们的行为自动地划分为若干个用户聚类簇,最后根据用户对最近邻居的评分来预测其对目标项目的评分,进而产生推荐。
85.s32、根据用户项目评价矩阵使用相似度计算方法得到了用户相似度矩阵;
86.聚类过程的输入就是上一节得到的用户项目评价矩阵,通过这一矩阵,使用相似度计算方法,可以计算出用户之间的相似度,将这些计算结果用矩阵表示,即得到了用户相似度矩阵。
87.s33、根据用户项目评价矩阵和用户相似度矩阵将用户行为数据进行聚类。
88.接着我们采用基于k-means(k-均值)的用户行为聚类算法将用户行为数据进行聚类。
89.具体而言,包括以下步骤:
90.s331、选取k个用户行为数据形成k个聚类,每个用户行为数据对应一个聚类,用户行为数据对应的用户项目评价矩阵作为对应聚类的聚类中心;
91.s332、选取一个新的用户行为数据,根据选取的用户行为数据与各个聚类中心的相似性,将加入到与其最相似的聚类中,并重新计算加入的聚类的聚类中心。
92.具体而言,计算样本中的所有用户行为数据的用户项目评价矩阵的均值作为新的聚类中心。
93.重复执行步骤s332直到重新计算的聚类中心与计算前的聚类中心的差小于设定阈值。
94.s4、根据聚合后的用户行为数据建立用户行为数据本体模型,并将用户行为数据
本体模型存储在数据库中;
95.具体而言,使用owl-dl描述语言建立用户行为数据本体模型,并对本体模型进行分解,所述数据库采用开源的非关系型分布式数据库。
96.s5、对数据库中的用户行为数据本体模型进行推理得到行业风向数据。
97.具体而言,在本发明实例中,通过用户的行为日志,采集用户最常浏览的模块信息,并进行统计,根据用户在插件超市中使用的插件次数,推理出功能受欢迎的插件排行,还可以通过用户浏览量统计行业最热门的版块,帮助公司下一步发展做出统计规划。
98.请参照图2,本发明的实施例二为:
99.一种基于大数据的日志分析1,包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序,处理器2执行计算机程序时实现上述实施例一的步骤。
100.综上所述,本发明提供的一种基于大数据的日志分析方法及终端,采集用户行为数据,对用户行为数据采用并行运算模型进行预处理与聚合,根据聚合后的用户行为数据,建立用户行为数据本体模型,并存储在数据库中,将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取行业信息,从而实现有效与精准的风向把控,日志分析处理效率较高,实用性强,适用范围广泛,易于推广,适合日志的大数据分析。
101.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献