一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

大数据异常检测方法及系统与流程

2022-06-22 19:25:17 来源:中国专利 TAG:


1.本发明涉及大数据技术领域,具体而言,涉及大数据异常检测方法及系统。


背景技术:

2.在大数据技术领域中,对于存在的海量的数据,保障其数据安全是尤为重要的一个环节,例如,可以在接收到用于对数据进行查询的指令时,对指令进行分析以确定是否属于异常查询或确定异常查询的程度。但是,在现有技术中,一般仅依靠指令中携带的设备信息或者密码进行验证,使得存在对于异常检测的可靠度不高的问题。


技术实现要素:

3.有鉴于此,本发明的目的在于提供大数据异常检测方法及系统,以改善现有技术中异常检测的可靠度不高的问题。
4.为实现上述目的,本发明实施例采用如下技术方案:一种大数据异常检测方法,包括:在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
5.在一些优选的实施例中,在上述大数据异常检测方法中,所述在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表的步骤,包括:在接收到任意一条数据表查询请求指令的状态下,对所述数据表查询请求指令进行解析处理,以输出对应的指令解析结果;在所述指令解析结果表征所述数据表查询请求指令中携带有查询对象的数据标识信息时,依据所述数据标识信息确定出对应的目标数据表;在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表。
6.在一些优选的实施例中,在上述大数据异常检测方法中,所述在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表的步骤,包括:在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的数据
标识信息时,对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息;从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表。
7.在一些优选的实施例中,在上述大数据异常检测方法中,所述从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表的步骤,包括:对于存储的多个数据表中的每一个数据表,对该数据表与所述数据表描述信息进行匹配度计算处理,以输出该数据表对应的数据匹配度;从所述多个数据表中的每一个数据表对应的数据匹配度中,提取出具有最大值的数据匹配度,再将所述具有最大值的数据匹配度标记为目标数据匹配度,再将所述目标数据匹配度对应的数据表标记为所述数据表查询请求指令对应的目标数据表。
8.在一些优选的实施例中,在上述大数据异常检测方法中,所述依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:查找到在历史上对所述目标数据表进行查询形成的查询记录日志;对所述查询记录日志进行解析处理,以输出在历史上对所述目标数据表进行查询的每一条原始历史数据表查询请求指令;在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
9.在一些优选的实施例中,在上述大数据异常检测方法中,所述在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:在查询到多条原始历史数据表查询请求指令的状态下,对于所述多条原始历史数据表查询请求指令中的每一条原始历史数据表查询请求指令,对该原始历史数据表查询请求指令进行查询时间确定处理,以输出该原始历史数据表查询请求指令对应的历史查询时间,再对该原始历史数据表查询请求指令进行查询标签确定处理,以输出该原始历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的原始历史数据表查询请求指令对应的查询请求是否属于异常查询;依据每一条所述原始历史数据表查询请求指令对应的历史查询时间,对所述多条原始历史数据表查询请求指令进行排序处理,以输出所述多条原始历史数据表查询请求指令对应的历史请求指令排序序列,所述历史请求指令排序序列中的原始历史数据表查询请求指令依据对应的历史查询时间从晚到早的先后顺序进行排序;依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
10.在一些优选的实施例中,在上述大数据异常检测方法中,所述依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,包括:依次对所述历史请求指令排序序列中的每一条原始历史数据表查询请求指令进行遍历,直到满足以下条件停止进行遍历,再将已经遍历到的每一条原始历史数据表查询请求指令标记为历史数据表查询请求指令:已经遍历到的原始历史数据表查询请求指令的总数量大于预设数量;已经遍历到的原始历史数据表查询请求指令中第一原始历史数据表查询请求指令的总数量大于或等于目标数量,所述第一原始历史数据表查询请求指令对应的查询标签信息表征该第一原始历史数据表查询请求指令对应的查询请求属于异常查询;以及遍历到的原始历史数据表查询请求指令中第二原始历史数据表查询请求指令的总数量大于或等于预设数量阈值,所述第二原始历史数据表查询请求指令对应的查询标签信息表征该第二原始历史数据表查询请求指令对应的查询请求不属于异常查询,所述预设数量阈值大于所述目标数量。
11.在一些优选的实施例中,在上述大数据异常检测方法中,所述依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果的步骤,包括:对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
12.在一些优选的实施例中,在上述大数据异常检测方法中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,包括:对所述数据表查询请求指令进行内容识别处理,以输出对应的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出对应的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出对应的第二分词集合;对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词集合,再依据所述第一分词集合中所述第一关键词集合以外的第一分词词语进行集合构建处理,以输出对应的第一非关键词集合;
对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词集合,再依据所述第二分词集合中所述第二关键词集合以外的第二分词词语进行集合构建处理,以输出对应的第二非关键词集合;对于所述第一关键词集合中的每两个相邻的第一关键词语,从所述数据表描述信息中确定出该两个相邻的第一关键词语之间的间隔字数,以输出该两个相邻的第一关键词语之间的第一关键间隔字数,对于所述第一非关键词集合中的每两个相邻的第一非关键词语,从所述数据表描述信息中确定出该两个相邻的第一非关键词语之间的间隔字数,以输出该两个相邻的第一非关键词语之间的第一非关键间隔字数;对于所述第二关键词集合中的每两个相邻的第二关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二关键词语之间的间隔字数,以输出该两个相邻的第二关键词语之间的第二关键间隔字数,对于所述第二非关键词集合中的每两个相邻的第二非关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二非关键词语之间的间隔字数,以输出该两个相邻的第二非关键词语之间的第二非关键间隔字数;依据每两个相邻的第一关键词语之间的第一关键间隔字数,对所述第一关键词集合包括的多个第一关键词语进行分组处理,以输出对应的至少两个第一关键词组合,每两个第一关键词组合之间关于包括的相邻的第一关键词语之间的第一关键间隔字数的平均值之间的差值,小于或等于预先配置的第一字数阈值;依据每两个相邻的第二关键词语之间的第二关键间隔字数,对所述第二关键词集合包括的多个第二关键词语进行分组处理,以输出对应的至少两个第二关键词组合,每两个第二关键词组合之间关于包括的相邻的第二关键词语之间的第二关键间隔字数的平均值之间的差值,小于或等于所述第一字数阈值;依据每两个相邻的第一非关键词语之间的第一非关键间隔字数,对所述第一非关键词集合包括的多个第一非关键词语进行分组处理,以输出对应的至少两个第一非关键词组合,每两个第一非关键词组合之间关于包括的相邻的第一非关键词语之间的第一非关键间隔字数的平均值之间的差值,小于或等于预先配置的第二字数阈值;依据每两个相邻的第二非关键词语之间的第二非关键间隔字数,对所述第二非关键词集合包括的多个第二非关键词语进行分组处理,以输出对应的至少两个第二非关键词组合,每两个第二非关键词组合之间关于包括的相邻的第二非关键词语之间的第二非关键间隔字数的平均值之间的差值,小于或等于所述第二字数阈值;对于每一个所述第一关键词组合,分别对该第一关键词组合和每一个所述第二关键词组合进行关键词重合度计算处理,以输出该第一关键词组合对应的每一个关键词重合度,再从该第一关键词组合对应的每一个关键词重合度中,提取出具有最大值的关键词重合度作为对应的目标关键词重合度,再融合每一个所述第一关键词组合对应的目标关键词重合度,以输出第一关联度;对于每一个所述第一非关键词组合,分别对该第一非关键词组合和每一个所述第二非关键词组合进行关键词重合度计算处理,以输出该第一非关键词组合对应的每一个非关键词重合度,再从该第一非关键词组合对应的每一个非关键词重合度中,提取出具有最大值的非关键词重合度作为对应的目标非关键词重合度,再融合每一个所述第一非关键词组合对应的目标非关键词重合度,以输出对应的第二关联度;依据所述第一关联度和所述第二关联度进行加权求和计算,以输出所述数据表查
询请求指令和所述历史数据表查询请求指令之间的指令关联度,所述第一关联度对应的加权系数大于所述第二关联度对应的加权系数。
13.本发明实施例还提供一种大数据异常检测系统,包括:查询对象确定模块,用于在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表;请求指令确定模块,用于依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令;查询异常识别模块,用于依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
14.本发明实施例提供的大数据异常检测方法及系统,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度不高的问题。
15.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
16.图1为本发明实施例提供的大数据管理服务器的结构框图。
17.图2为本发明实施例提供的大数据异常检测方法包括的各步骤的流程示意图。
18.图3为本发明实施例提供的大数据异常检测系统的模块示意图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.参照图1,本发明实施例提供了一种大数据管理服务器。其中,所述大数据管理服务器可以包括存储器和处理器。
21.详细地,在一些实施方式中,所述存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连
接。所述存储器中可以存储有至少一个可以以软件或固件(firmware)的形式,存在的软件功能模块(计算机程序)。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序,从而实现本发明实施例提供的大数据异常检测方法。
22.详细地,在一些实施方式中,所述存储器可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。所述处理器可以是一种通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)、片上系统(system on chip,soc)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
23.参照图2,本发明实施例还提供一种大数据异常检测方法,可应用于上述大数据管理服务器。其中,所述大数据异常检测方法有关的流程所定义的方法步骤,可以由所述大数据管理服务器实现。
24.下面将对图2所示的具体流程,进行详细阐述。
25.步骤s110,在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。
26.在本发明实施例中,所述大数据管理服务器可以执行步骤s110,即在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。
27.步骤s120,依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。
28.在本发明实施例中,所述大数据管理服务器可以执行步骤s120,即依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。
29.步骤s130,依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
30.在本发明实施例中,所述大数据管理服务器可以执行步骤s130,即依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
31.基于上述的大数据异常检测方法,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度
不高的问题。
32.详细地,在一些实施方式中,步骤s110可以进一步包括以下的各步骤:在接收到任意一条数据表查询请求指令的状态下,对所述数据表查询请求指令进行解析处理,以输出对应的指令解析结果;在所述指令解析结果表征所述数据表查询请求指令中携带有查询对象的数据标识信息时,依据所述数据标识信息确定出对应的目标数据表;在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表。
33.详细地,在一些实施方式中,所述在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象额数据标识信息时,依据所述数据表查询请求指令在存储的多个数据表中查找出对应的目标数据表的步骤,可以进一步包括以下的各步骤:在所述指令解析结果表征所述数据表查询请求指令中未携带有查询对象的数据标识信息时,对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息;从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表。
34.详细地,在一些实施方式中,所述从存储的多个数据表中查找出与所述数据表描述信息匹配的一个数据表,再将该数据表标记为所述数据表查询请求指令对应的目标数据表的步骤,可以进一步包括以下的各步骤:对于存储的多个数据表中的每一个数据表,对该数据表与所述数据表描述信息进行匹配度计算处理(例如,可以参考现有技术中关于文本相似度的计算方式),以输出该数据表对应的数据匹配度;从所述多个数据表中的每一个数据表对应的数据匹配度中,提取出具有最大值的数据匹配度,再将所述具有最大值的数据匹配度标记为目标数据匹配度,再将所述目标数据匹配度对应的数据表标记为所述数据表查询请求指令对应的目标数据表。
35.详细地,在一些实施方式中,步骤s120可以进一步包括以下的各步骤:查找到在历史上对所述目标数据表进行查询形成的查询记录日志;对所述查询记录日志进行解析处理,以输出在历史上对所述目标数据表进行查询的每一条原始历史数据表查询请求指令;在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
36.详细地,在一些实施方式中,所述在查询到多条原始历史数据表查询请求指令的状态下,从所述多条原始历史数据表查询请求指令中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,可以进一步包括以下的各步骤:在查询到多条原始历史数据表查询请求指令的状态下,对于所述多条原始历史数据表查询请求指令中的每一条原始历史数据表查询请求指令,对该原始历史数据表查询请
求指令进行查询时间确定处理,以输出该原始历史数据表查询请求指令对应的历史查询时间,再对该原始历史数据表查询请求指令进行查询标签确定处理,以输出该原始历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的原始历史数据表查询请求指令对应的查询请求是否属于异常查询;依据每一条所述原始历史数据表查询请求指令对应的历史查询时间,对所述多条原始历史数据表查询请求指令进行排序处理,以输出所述多条原始历史数据表查询请求指令对应的历史请求指令排序序列,所述历史请求指令排序序列中的原始历史数据表查询请求指令依据对应的历史查询时间从晚到早的先后顺序进行排序;依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令。
37.详细地,在一些实施方式中,所述依据每一条所述原始历史数据表查询请求指令对应的查询标签信息,对所述历史请求指令排序序列进行筛选处理,以从所述历史请求指令排序序列中,提取出至少部分的原始历史数据表查询请求指令,以输出所述目标数据表对应的多条历史数据表查询请求指令的步骤,可以进一步包括以下的各步骤:依次对所述历史请求指令排序序列中的每一条原始历史数据表查询请求指令进行遍历,直到满足以下条件停止进行遍历,再将已经遍历到的每一条原始历史数据表查询请求指令标记为历史数据表查询请求指令:已经遍历到的原始历史数据表查询请求指令的总数量大于预设数量;已经遍历到的原始历史数据表查询请求指令中第一原始历史数据表查询请求指令的总数量大于或等于目标数量,所述第一原始历史数据表查询请求指令对应的查询标签信息表征该第一原始历史数据表查询请求指令对应的查询请求属于异常查询;以及遍历到的原始历史数据表查询请求指令中第二原始历史数据表查询请求指令的总数量大于或等于预设数量阈值,所述第二原始历史数据表查询请求指令对应的查询标签信息表征该第二原始历史数据表查询请求指令对应的查询请求不属于异常查询,所述预设数量阈值大于所述目标数量。
38.详细地,在一些实施方式中,步骤s130可以进一步包括以下的各步骤:对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度;对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令进行查询标签确定处理,以输出该历史数据表查询请求指令对应的查询标签信息,所述查询标签信息用于表征对应的历史数据表查询请求指令对应的查询请求是否属于异常查询;依据所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令对应的指令关联度和对应的查询标签信息(例如,在一种实施方式中,可以先确定出指令关联度大于预设阈值的每一条历史数据表查询请求指令,再从该历史数据表查询请求指令中确定出对应的查询标签信息表征存在异常的历史数据表查询请求指令的数量占比,再依据该
数量占比输出对应的查询异常识别结果,所述查询异常识别结果表征的异常程度与该数量占比之间具有正相关的关系),对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果。
39.详细地,在一些实施方式中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,可以进一步包括以下的各步骤:对所述数据表查询请求指令进行内容识别处理,以输出对应的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出对应的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出对应的第二分词集合;对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词集合,再依据所述第一分词集合中所述第一关键词集合以外的第一分词词语进行集合构建处理,以输出对应的第一非关键词集合;对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词集合,再依据所述第二分词集合中所述第二关键词集合以外的第二分词词语进行集合构建处理,以输出对应的第二非关键词集合;对于所述第一关键词集合中的每两个相邻的第一关键词语,从所述数据表描述信息中确定出该两个相邻的第一关键词语之间的间隔字数,以输出该两个相邻的第一关键词语之间的第一关键间隔字数,对于所述第一非关键词集合中的每两个相邻的第一非关键词语,从所述数据表描述信息中确定出该两个相邻的第一非关键词语之间的间隔字数(经研究发现,间隔字数可以在一定程度上表征描述习惯,从而确定出两次不同的描述是否来自同一用户,即通过不同描述之间的相似度确定出对应的关联度),以输出该两个相邻的第一非关键词语之间的第一非关键间隔字数;对于所述第二关键词集合中的每两个相邻的第二关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二关键词语之间的间隔字数,以输出该两个相邻的第二关键词语之间的第二关键间隔字数,对于所述第二非关键词集合中的每两个相邻的第二非关键词语,从所述历史数据表描述信息中确定出该两个相邻的第二非关键词语之间的间隔字数,以输出该两个相邻的第二非关键词语之间的第二非关键间隔字数;依据每两个相邻的第一关键词语之间的第一关键间隔字数,对所述第一关键词集合包括的多个第一关键词语进行分组处理,以输出对应的至少两个第一关键词组合,每两个第一关键词组合之间关于包括的相邻的第一关键词语之间的第一关键间隔字数的平均值之间的差值,小于或等于预先配置的第一字数阈值;依据每两个相邻的第二关键词语之间的第二关键间隔字数,对所述第二关键词集合包括的多个第二关键词语进行分组处理,以输出对应的至少两个第二关键词组合,每两个第二关键词组合之间关于包括的相邻的第二关键词语之间的第二关键间隔字数的平均值之间的差值,小于或等于所述第一字数阈值;依据每两个相邻的第一非关键词语之间的第一非关键间隔字数,对所述第一非关键词集合包括的多个第一非关键词语进行分组处理,以输出对应的至少两个第一非关键词
组合,每两个第一非关键词组合之间关于包括的相邻的第一非关键词语之间的第一非关键间隔字数的平均值之间的差值,小于或等于预先配置的第二字数阈值;依据每两个相邻的第二非关键词语之间的第二非关键间隔字数,对所述第二非关键词集合包括的多个第二非关键词语进行分组处理,以输出对应的至少两个第二非关键词组合,每两个第二非关键词组合之间关于包括的相邻的第二非关键词语之间的第二非关键间隔字数的平均值之间的差值,小于或等于所述第二字数阈值;对于每一个所述第一关键词组合,分别对该第一关键词组合和每一个所述第二关键词组合进行关键词重合度计算处理,以输出该第一关键词组合对应的每一个关键词重合度,再从该第一关键词组合对应的每一个关键词重合度中,提取出具有最大值的关键词重合度作为对应的目标关键词重合度,再融合每一个所述第一关键词组合对应的目标关键词重合度,以输出第一关联度;对于每一个所述第一非关键词组合,分别对该第一非关键词组合和每一个所述第二非关键词组合进行关键词重合度计算处理,以输出该第一非关键词组合对应的每一个非关键词重合度,再从该第一非关键词组合对应的每一个非关键词重合度中,提取出具有最大值的非关键词重合度作为对应的目标非关键词重合度,再融合每一个所述第一非关键词组合对应的目标非关键词重合度(如计算均值或者依据所述第一非关键词组合包括的词语数量进行加权求和计算等),以输出对应的第二关联度;依据所述第一关联度和所述第二关联度进行加权求和计算,以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度,所述第一关联度对应的加权系数大于所述第二关联度对应的加权系数。
40.详细地,在另一些实施方式中,所述对于所述多条历史数据表查询请求指令中的每一条历史数据表查询请求指令,对该历史数据表查询请求指令和所述数据表查询请求指令进行关联度计算处理,以输出该历史数据表查询请求指令对应的指令关联度的步骤,可以进一步包括以下的各步骤:对所述数据表查询请求指令进行内容识别处理,以输出所述数据表查询请求指令中携带的数据表描述信息,再对所述历史数据表查询请求指令进行内容识别处理,以输出所述历史数据表查询请求指令中携带的历史数据表描述信息,再对所述数据表描述信息进行分词处理,以输出所述数据表描述信息对应的第一分词集合,再对所述历史数据表描述信息进行分词处理,以输出所述历史数据表描述信息对应的第二分词集合;对所述第一分词集合进行关键词识别处理,以输出对应的第一关键词有序集合,对所述第二分词集合进行关键词识别处理,以输出对应的第二关键词有序集合,对所述第一关键词有序集合和所述第二关键词有序集合进行取交集处理,以输出对应的关键词交集集合;对于所述关键词交集集合中的每一个关键词语,确定该关键词语分别在所述第一关键词有序集合和所述第二关键词有序集合中的第一集合位置和第二集合位置,再对该第一集合位置和该第二集合位置进行位置距离计算处理,以输出该关键词语对应的位置距离信息,再依据所述关键词交集集合中的每一个关键词语对应的位置距离信息之间的平均值进行相关系数确定处理,以输出负相关的相关系数;依据所述关键词交集集合中的每一个关键词语在所述第一关键词有序集合中的集合位置,对所述第二关键词有序集合中的第二关键词语的排序进行调整,以输出对应的
调整第二关键词有序集合,所述关键词交集集合中的每一个关键词语在所述调整第二关键词有序集合中的先后关系和在所述第一关键词有序集合中的先后关系相同;再依据所述第二关键词有序集合和所述调整第二关键词有序集合之间关于第二关键词语的集合位置的变化关系,对所述历史数据表描述信息中第二关键词语所在的描述语句(分句处理形成)的位置进行调整,以输出对应的调整历史数据表描述信息;对于所述第一分词集合中的每两个相邻的第一关键词语,对该两个相邻的第一关键词语之间在所述数据表描述信息中的间隔字数进行统计处理,以输出该两个相邻的第一关键词语之间的第一统计字数,对于所述调整第二分词集合中的每两个相邻的第二关键词语,对该两个相邻的第二关键词语之间在所述调整历史数据表描述信息中的间隔字数进行统计处理,以输出该两个相邻的第二关键词语之间的第二统计字数;依据每两个相邻的第一关键词语之间的第一统计字数进行序列构建处理,以输出对应的第一字数序列,再依据每两个相邻的第二关键词语之间的第二统计字数进行序列构建处理,以输出对应的第二字数序列,再对该第一字数序列和该第二字数序列进行序列相似度计算处理(可以参照现有技术中关于序列相似度的计算方式),以输出对应的序列相似度;对所述关键词交集集合包括的关键词语的数量进行统计处理,以输出对应的交集数量,再分别对所述第一关键词有序集合和所述第二关键词有序集合中包括的关键词语的数量进行统计处理,以输出对应的第一词语数量和第二词语数量,再依据所述第一词语数量和所述第二词语数量之间的较大值与所述交集数量进行比值计算(例如,可以时后者除以前者,得到对应的数量比值),以输出对应的数量比值;依据所述相关系数和所述序列相似度和所述数量比值进行加权求和计算(具体的加权系数可以参照实际应用需求进行配置),以输出所述数据表查询请求指令和所述历史数据表查询请求指令之间的指令关联度。
41.参照图3,本发明实施例还提供一种大数据异常检测系统,可应用于上述大数据管理服务器。其中,所述大数据异常检测系统可以包括查询对象确定模块、请求指令确定模块和查询异常识别模块。
42.详细地,在一些实施方式中,所述查询对象确定模块,用于在接收到任意一条数据表查询请求指令的状态下,依据所述数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。所述请求指令确定模块,用于依据在历史上对所述目标数据表进行查询形成的查询记录日志,对所述目标数据表进行历史查询请求指令确定处理,以输出所述目标数据表对应的多条历史数据表查询请求指令。所述查询异常识别模块,用于依据所述多条历史数据表查询请求指令,对所述数据表查询请求指令进行查询异常识别处理,以输出对应的查询异常识别结果,所述查询异常识别结果用于表征所述数据表查询请求指令对应的查询请求的异常程度。
43.综上所述,本发明提供的大数据异常检测方法及系统,可以在接收到任意一条数据表查询请求指令的状态下,依据数据表查询请求指令进行查询对象确定处理,以输出对应的目标数据表。然后,依据在历史上对目标数据表进行查询形成的查询记录日志,对目标数据表进行历史查询请求指令确定处理,以输出目标数据表对应的多条历史数据表查询请求指令。最后,依据多条历史数据表查询请求指令,对数据表查询请求指令进行查询异常识
别处理,以输出对应的查询异常识别结果。通过在进行查询异常识别处理时,参考查询的目标数据表对应的多条历史数据表查询请求指令,识别依据更充分,从而改善现有技术中异常检测的可靠度不高的问题。
44.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献