一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种检测播出控制系统操作人员行为异常的方法与流程

2022-11-19 10:50:40 来源:中国专利 TAG:


1.本发明涉及信息安全技术领域,具体为一种检测播出控制系统操作人员行为异常的方法。


背景技术:

2.nlp(natural language processing,自然语言处理)是计算机科学领域与人工智能领域中的一个重要方向。旨在从文本数据中提取信息,目的是让计算机处理或“理解”自然语言,以执行机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文ocr和情感分析等。简单言之,nlp的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词,形成以最小词性为单位,且富含语义的词项单元。本发明中涉及自然语言处理中的tf-idf算法。
3.tf-idf(term frequency-inverse document frequency,词频-逆向文档频率)是nlp中的一个很有代表性的分析方法,是一种常用的词频统计方法,常被用于关键词提取、文本摘要、文章相似度计算等。其中tf(词频)表示词条w在文本中出现的频率,这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文档;idf(逆向文档频率)可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到:
[0004][0005]
逆文档频率分母之所以要加一,是为了避免分母为0
[0006]
如果包含词条w的文档越少,idf越大,则说明该词条具有很好的类别区分能力。tf-idf值即tf*idf,在对一篇文章进行tf-idf算法处理后,每个词条都得到一个与之对应的tf-idf值,某个词条对该篇文章的重要性越高,则其tf-idf值越大。
[0007]
从甲方网络安全运营视角来看,标准网络安全能力更多关注漏洞、威胁等底层事件。但用户在部署大量安全产品的情况下,仍有可能被攻击者通过0day漏洞、钓鱼攻击等方式绕过安全防线,而且安全分析工程师经常性的面对百万级(甚至千万级)的告警,很难做到完全不遗漏有威胁的攻击行为。
[0008]
在播出控制系统环境中,如果操作人员账号权限被黑客利用钓鱼等欺骗性攻击获得后,黑客可以利用该权限进行大量的非法操作,且网络安全检测和防御能力均对其无效。由此有必要发展从业务角度切入安全问题的方法,利用机器学习算法分析业务数据以检测异常的操作行为。


技术实现要素:

[0009]
本发明的目的在于提供一种检测播出控制系统操作人员行为异常的方法,以解决上述背景技术中提出的问题。
[0010]
为实现上述目的,本发明提供如下技术方案:一种检测播出控制系统操作人员行为异常的方法,包括检测系统,所述检测系统包括数据处理模块、tf-idf数值计算模块、数
值比对模块和告警模块,其中,所述数据处理模块对原始数据进行数据清洗、数据格式化、特征处理;所述tf-idf数值计算模块计算菜单对应的tf-idf数值;所述数值比对模块计算余弦值及偏离度;所述告警模块用于向用户反馈操作行为异常;在训练阶段,所述的数据处理模块与tf-idf数值计算模块连接;tf-idf数值计算模块与推理阶段的数值比对模块连接。在推理阶段,所述的数据处理模块与tf-idf数值计算模块连接;所述的tf-idf数值计算模块与数值比对模块连接;数值比对模块与告警模块连接。
[0011]
优选的,检测方法包括以下步骤:
[0012]
a、数据处理;包括对原始业务数据进行数据清洗、数据格式化、特征处理操作,本步骤的输出将作为下一步骤计算tf-idf数值的依据;
[0013]
b、计算tf-idf数值;主要负责计算出菜单一一对应的tf-idf值,在利用tf-idf算法计算出的结果中,每位操作人员点击每个菜单都有一个相对应的tf-idf值,本步骤的输出将作为后续计算余弦值步骤、计算偏离度步骤的依据;
[0014]
c、计算余弦值;本步骤以训练阶段计算出的tf-idf值和推理阶段计算出的tf-idf值为依据,利用余弦相似度算法计算出两个向量的余弦值,根据训练阶段的数据结果设定阈值,此阈值以及本步骤的输出将作为后续推出告警步骤的依据,能够找出哪位操作人员的操作行为存在异常;
[0015]
d、计算偏离度;本步骤同样以训练阶段计算出的tf-idf值和推理阶段计算出的tf-idf值为依据,计算出与训练阶段得到的tf-idf值和与之对应的推理阶段得到的tf-idf值一一对应的偏离度;
[0016]
e、推出告警;根据训练阶段的数据结果设定告警规则,此规则以及本步骤的输出将作为后续推出告警阶段的依据,能够判定哪位操作人员做了什么操作存在异常,增强结果的可解释性,并且减少了查询原始数据从而确认该员工做了什么操作被判定为异常的时间。
[0017]
优选的,所述步骤a具体步骤如下:
[0018]
a、首先设置操作人员id和菜单id,原始数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,在这里设置一个大字典,操作人员id与操作人员账号名称一一对应、菜单id与菜单名称一一对应;
[0019]
b、然后选择子集,选择需要进行分析的数据集中的数据列,在这里选择操作人员id、操作时间、菜单id三列;
[0020]
c、接着对操作时间及日期数据进行一致化处理,指定日期和时间的显示方式;
[0021]
d、最后量化菜单及时间,将菜单及时间数值化,以适应后续算法的使用。
[0022]
优选的,所述步骤b具体方法如下:计算每位操作人员点击每个菜单的tf值,即在操作数据中每位操作人员点击每个菜单的频率,计算操作人员1点击每点击a菜单的频率:
[0023][0024]
计算每个菜单的idf值,由“文档”数目除以包含该菜单的“文档”数目,再将得到的商取对数,把每个操作人员一天的操作数据当作一篇文档,在计算tf-idf值步骤采用tf-idf算法对经过数据处理后的数据进行计算tf和idf值,然后得到每位操作人员点击每个菜单一一对应的tf-idf值。
[0025]
优选的,所述步骤c具体方法如下:
[0026]
a、计算tf-idf数值步骤输出的每一个tf值可以看作多维空间内的一个点,则某位操作人员点击每个菜单的频率就可以看成一个多维空间向量;
[0027]
b、通过使用欧几里得点积公式求出这两个向量间的余弦值,通过这个余弦值的大小分析出操作人员在推理数据中的操作是否存在异常,两个向量夹角越大则余弦值越小,说明操作人员在推理数据中的操作数据与训练数据中的操作数据的相似度越低,则可能存在操作异常问题。
[0028]
优选的,具体算法如下:
[0029][0030]
其中,ai,bi分别代表向量a、b的各分量。
[0031]
优选的,所述步骤d具体方法如下:在进行到计算余弦值步骤时只能发现哪位操作人员的操作行为存在异常,如果需要分析该操作人员做了什么操作使其判定为操作行为异常则需要回到原始数据中查询,提出计算每位操作人员点击每个菜单的tf-idf值的偏离度,训练阶段计算出操作人员点击a菜单的tf-idf值为tn(a),推理阶段计算出操作人员点击a菜单的tf-idf值为in(a),则操作人员点击a菜单的偏离度为δ(a):
[0032][0033]
根据数据及场景实际情况设定告警规则,有两种方法:将偏离度由大到小排序,选取top值,值排前n位的则在后续告警步骤判定该偏离度对应的操作人员存在点击该菜单异常的行为;设置阈值,超出该阈值则在后续告警步骤判定该偏离度对应的操作人员存在点击该菜单异常的行为。
[0034]
优选的,所述步骤e具体方法如下:根据数据及场景实际情况设定阈值及告警规则,在此场景设定当cosθ《0.5时则判定该操作人员的行为存在异常;选取δ(a)的值最大的三个,其对应的菜单为异常菜单,该操作人员点击该菜单的行为存在异常;当δ(a)的值>50%时则判定该操作人员点击该菜单的行为存在异常,当符合告警规则时,系统通过向相关负责人发送邮件等方式推送告警以及时处理安全事件。
[0035]
优选的,一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
[0036]
优选的,一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述任一所述方法。
[0037]
与现有技术相比,本发明的有益效果是:本发明解决了黑客获取操作人员账号权限并进行恶意操作后,网络安全产品无法告警的问题。本发明可以有效分析操作人员某个时间段的行为与其他时间段的相似程度,在相似度较低时可以快速准确的发现;解决了tf-idf算法对分析结果解释性差的问题,通过偏离度的计算,可以准确判断出哪个行为异常导致了偏离度过大。
附图说明
[0038]
图1为本发明工作原理框图;
[0039]
图2为本发明流程图。
具体实施方式
[0040]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
请参阅图1-2,本发明提供一种技术方案:一种检测播出控制系统操作人员行为异常的方法,包括检测系统,所述检测系统包括数据处理模块1、tf-idf数值计算模块2、数值比对模块3和告警模块4,其中,所述数据处理模块1对原始数据进行数据清洗、数据格式化、特征处理;所述tf-idf数值计算模块2计算菜单对应的tf-idf数值;所述数值比对模块3计算余弦值及偏离度;所述告警模块4用于向用户反馈操作行为异常;在训练阶段,所述的数据处理模块与tf-idf数值计算模块连接;tf-idf数值计算模块与推理阶段的数值比对模块连接。在推理阶段,所述的数据处理模块与tf-idf数值计算模块连接;所述的tf-idf数值计算模块与数值比对模块连接;数值比对模块与告警模块连接。
[0042]
本发明的检测方法包括以下步骤:
[0043]
a、数据处理;包括对原始业务数据进行数据清洗、数据格式化、特征处理操作,本步骤的输出将作为下一步骤计算tf-idf数值的依据;
[0044]
b、计算tf-idf数值;主要负责计算出菜单一一对应的tf-idf值,在利用tf-idf算法计算出的结果中,每位操作人员点击每个菜单都有一个相对应的tf-idf值,本步骤的输出将作为后续计算余弦值步骤、计算偏离度步骤的依据;
[0045]
c、计算余弦值;本步骤以训练阶段计算出的tf-idf值和推理阶段计算出的tf-idf值为依据,利用余弦相似度算法计算出两个向量的余弦值,根据训练阶段的数据结果设定阈值,此阈值以及本步骤的输出将作为后续推出告警步骤的依据,能够找出哪位操作人员的操作行为存在异常;
[0046]
d、计算偏离度;本步骤同样以训练阶段计算出的tf-idf值和推理阶段计算出的tf-idf值为依据,计算出与训练阶段得到的tf-idf值和与之对应的推理阶段得到的tf-idf值一一对应的偏离度;
[0047]
e、推出告警;根据训练阶段的数据结果设定告警规则,此规则以及本步骤的输出将作为后续推出告警阶段的依据,能够判定哪位操作人员做了什么操作存在异常,增强结果的可解释性,并且减少了查询原始数据从而确认该员工做了什么操作被判定为异常的时间。
[0048]
本发明中,所述步骤a具体步骤如下:
[0049]
a、首先设置操作人员id和菜单id,原始数据中的操作人员列均为操作人员账号名称、菜单均为菜单名称,为方便在此场景中应用更多方法,在这里设置一个大字典,操作人员id与操作人员账号名称一一对应、菜单id与菜单名称一一对应;
[0050]
b、然后选择子集,选择需要进行分析的数据集中的数据列,在这里选择操作人员
id、操作时间、菜单id三列;
[0051]
c、接着对操作时间及日期数据进行一致化处理,指定日期和时间的显示方式;
[0052]
d、最后量化菜单及时间,将菜单及时间数值化,以适应后续算法的使用。
[0053]
本发明中,所述步骤b具体方法如下:计算每位操作人员点击每个菜单的tf值,即在操作数据中每位操作人员点击每个菜单的频率,计算操作人员1点击每点击a菜单的频率:
[0054][0055]
计算每个菜单的idf值,由“文档”数目除以包含该菜单的“文档”数目,再将得到的商取对数,把每个操作人员一天的操作数据当作一篇文档,例如计算a菜单的idf值,训练数据为100名操作人员在10天内的操作数据,则分子就是100*10,
[0056][0057]
在计算tf-idf值步骤采用tf-idf算法对经过数据处理后的数据进行计算tf和idf值,然后得到每位操作人员点击每个菜单一一对应的tf-idf值。
[0058]
本发明中,所述步骤c具体方法如下:
[0059]
a、计算tf-idf数值步骤输出的每一个tf值可以看作多维空间内的一个点,则某位操作人员点击每个菜单的频率就可以看成一个多维空间向量;例如一共有60个菜单,操作人员1在经过训练阶段可以得到一个60维空间向量,经过推理阶段得到另一个60维空间向量;
[0060]
b、通过使用欧几里得点积公式求出这两个向量间的余弦值,通过这个余弦值的大小分析出操作人员在推理数据中的操作是否存在异常,两个向量夹角越大则余弦值越小,说明操作人员在推理数据中的操作数据与训练数据中的操作数据的相似度越低,则可能存在操作异常问题。
[0061]
具体算法如下:
[0062][0063]
其中,ai,bi分别代表向量a、b的各分量。
[0064]
本发明中,所述步骤d具体方法如下:在进行到计算余弦值步骤时只能发现哪位操作人员的操作行为存在异常,如果需要分析该操作人员做了什么操作使其判定为操作行为异常则需要回到原始数据中查询,提出计算每位操作人员点击每个菜单的tf-idf值的偏离度,训练阶段计算出操作人员点击a菜单的tf-idf值为tn(a),推理阶段计算出操作人员点击a菜单的tf-idf值为in(a),则操作人员点击a菜单的偏离度为δ(a):
[0065][0066]
根据数据及场景实际情况设定告警规则,有两种方法:将偏离度由大到小排序,选取top值,值排前n位的则在后续告警步骤判定该偏离度对应的操作人员存在点击该菜单异常的行为;设置阈值,超出该阈值则在后续告警步骤判定该偏离度对应的操作人员存在点击该菜单异常的行为。
[0067]
本发明中,所述步骤e具体方法如下:根据数据及场景实际情况设定阈值及告警规则,在此场景设定当cosθ《0.5时则判定该操作人员的行为存在异常;选取δ(a)的值最大的三个,其对应的菜单为异常菜单,该操作人员点击该菜单的行为存在异常;当δ(a)的值>50%时则判定该操作人员点击该菜单的行为存在异常,当符合告警规则时,系统通过向相关负责人发送邮件等方式推送告警以及时处理安全事件。
[0068]
另外,本发明还公开了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法的步骤。
[0069]
此外,本发明还公开了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述任一所述方法。
[0070]
综上所述,本发明解决了黑客获取操作人员账号权限并进行恶意操作后,网络安全产品无法告警的问题。本发明可以有效分析操作人员某个时间段的行为与其他时间段的相似程度,在相似度较低时可以快速准确的发现;解决了tf-idf算法对分析结果解释性差的问题,通过偏离度的计算,可以准确判断出哪个行为异常导致了偏离度过大。
[0071]
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0072]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献