钓鱼邮件检测方法、装置、电子设备及存储介质与流程

2022-12-13 21:51:23 来源：中国专利 TAG：

1.本发明涉及网络安全技术领域，尤其涉及一种钓鱼邮件检测方法、装置、电子设备及存储介质。

背景技术：

2.电子邮件是人们日常工作交流的重要工具。钓鱼邮件主要是攻击者通过发送伪装的正常邮件，诱导收件人访问恶意链接或者打开恶意附件，从而达到控制收件人主机或者盗取收件人隐私数据的目的。对于攻击者而言，通过钓鱼邮件突破安全防护的边界是常用攻击手段之一。鉴于此，企业为了降低企业安全风险，需要从海量邮件中及时检测出钓鱼邮件。
3.现有技术中，一种方式是通过使用关键词匹配的方式对邮件信息进行匹配，将匹配到关键词的邮件判定为钓鱼邮件，但是这种方式仅能检测出邮件信息中包含了关键词库中关键词的邮件，而且容易产生误报。另一种方式是使用邮件沙箱对包含附件的邮件进行附件执行，然后对附件执行的行为进行分析与监测，根据分析和监测的结果判定其是否为钓鱼邮件，进而发现含恶意代码的附件，但是攻击者如果对附件进行加密压缩就可以绕过邮件沙箱的检测，导致检测可靠性差。

技术实现要素：

4.针对现有技术中的问题，本发明实施例提供一种钓鱼邮件检测方法、装置、电子设备及存储介质。
5.具体地，本发明实施例提供了以下技术方案：
6.第一方面，本发明实施例提供了一种钓鱼邮件检测方法，方法包括：
7.获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
8.基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征；
9.将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
10.进一步地，所述邮件特征包括以下至少一项：
11.用于区分邮件是否为伪装内部邮件的特征，包括以下至少一项：邮件是否包含附件、邮件附件类型对应异常等级、邮件附件名称是否包含中文、邮件附件名称与内网邮件附件名相似度、邮件主题与内网邮件主题相似度、发件人邮箱域名与内网邮箱域名相似度、发件人邮箱名称与内网邮箱域名相似度、发件人昵称与内网邮箱昵称相似度及发件人昵称与企业内部组织相似度；
12.用于区分邮件中收发人关系是否为正常收发人关系的特征，包括以下至少一项：
外网邮箱历史发送邮件数量、邮件收件人数量、邮件收件人对应部门数量、收件人所属部门历史收到此发件人邮件数量、收件人历史收到此发件人邮件数量及收件人历史收到发件人是外部邮箱的数量。
13.进一步地，所述基于所述企业内部信息以及所述邮件网关日志，确定所述待检测邮件的邮件特征，包括以下至少一项：
14.在所述邮件网关日志中所述待检测邮件对应的附件字段的值为非空的情况下，确定所述待检测邮件包含附件；在所述待检测邮件对应的附件字段的值为空的情况下，确定所述待检测邮件未包含附件；
15.基于所述待检测邮件的邮件附件的文件后缀，以及预置的文件后缀与异常等级的对应关系，确定所述待检测邮件的邮件附件类型对应的异常等级；
16.在所述待检测邮件的邮件附件名称与预置的正则表达式匹配的情况下，确定所述邮件附件名称包含中文；所述正则表达式用于匹配邮件附件名称是否包含中文字符；在所述邮件附件名称与预置的正则表达式不匹配的情况下，确定所述邮件附件名称不包含中文；
17.从所述历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件名称；对各所述历史邮件的邮件附件名称进行分词得到词组集合；计算各所述词组集合中每个词语的词频，得到词频集合；对所述待检测邮件的邮件附件名称进行分词得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件附件名称与内网邮件附件名相似度；
18.从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的邮件主题；对各所述历史邮件的邮件主题进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的邮件主题进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件主题与内网邮件主题相似度；
19.从所述待检测邮件的发件人邮箱中提取发件人邮箱域名；确定所述发件人邮箱域名与内网邮箱域名相似度；
20.从所述待检测邮件的发件人邮箱中提取发件人邮箱名称；确定所述发件人邮箱名称与内网邮箱域名相似度；
21.从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的发件人昵称；对各所述历史邮件的发件人昵称进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述发件人昵称与内网邮箱昵称相似度；
22.基于企业内部组织信息集合对各内部组织进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组
中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述发件人昵称与企业内部组织相似度；
23.从所述历史日志中提取发件人邮箱不是企业内部邮箱的历史邮件数量，得到所述外网邮箱历史发送邮件数量；
24.基于所述待检测邮件的收件人邮箱的个数，确定所述邮件收件人数量；
25.从所述待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；对所述收件人邮箱对应部门进行去重统计，得到所述邮件收件人对应部门数量；
26.从所述待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；从所述历史日志中统计所述收件人邮箱对应部门在目标历史时间内，收到的来自所述待检测邮件的发件人邮箱的邮件数量；
27.从所述历史日志中统计所述待检测邮件的收件人邮箱收到的来自所述待检测邮件的发件人邮箱的邮件数量；
28.从所述历史日志中统计所述待检测邮件的收件人邮箱收到的发件人邮箱为外部邮箱的邮件数量。
29.进一步地，所述基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征，包括：
30.在所述待检测邮件的邮件属性信息中包括发件人邮箱名称的情况下，基于所述待检测邮件的发件人邮箱名称确定所述待检测邮件的邮箱域名信息；
31.在所述企业内部信息包括企业内部邮箱域名集合，且所述待检测邮件的邮箱域名信息与所述企业内部邮箱域名集合不匹配的情况下，基于所述企业内部信息、所述邮件网关日志以及所述待检测邮件的邮件属性信息，确定所述待检测邮件的邮件特征。
32.进一步地，在所述获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志之前，所述方法还包括：
33.获取已标记的历史邮件以及所述企业内部信息；
34.基于所述已标记的历史邮件以及所述企业内部信息，确定所述已标记的历史邮件对应的邮件特征；
35.基于所述已标记的历史邮件对应的邮件特征，以及所述已标记的历史邮件的标记值，进行二分类模型训练，得到所述钓鱼邮件检测模型；
36.其中，所述已标记的历史邮件的标记值用于表示所述已标记的历史邮件是否为钓鱼邮件。
37.进一步地，所述企业内部信息包括以下至少一项：
38.企业内部组织信息集合；
39.企业员工与部门映射信息集合；
40.企业内部邮箱集合；
41.企业内部邮箱域名集合。
42.进一步地，所述邮件网关日志中包括n个邮件的邮件属性信息，所述邮件属性信息包括以下至少一项：
43.发件人昵称；
44.发件人邮箱；
45.收件人邮箱；
46.邮件主题；
47.邮件附件名称；
48.邮件附件类型。
49.第二方面，本发明实施例还提供了一种钓鱼邮件检测装置，包括：
50.获取模块，用于获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
51.确定模块，用于基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征；
52.检测模块，用于将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
53.第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述钓鱼邮件检测方法。
54.第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述钓鱼邮件检测方法。
55.第五方面，本发明实施例还提供了一种计算机程序产品，其上存储有可执行指令，该指令被处理器执行时使处理器实现第一方面所述钓鱼邮件检测方法。
56.本发明实施例提供的钓鱼邮件检测方法、装置、电子设备及存储介质，通过基于企业内部信息以及邮件网关日志，确定待检测邮件的邮件特征，使用预先训练得到的钓鱼邮件检测模型进行钓鱼邮件实时检测，判断待检测邮件是否为钓鱼邮件，由于钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值进行二分类模型训练得到，这就使得本方法具有更强的泛化能力，可以适用于不同的钓鱼邮件变体，能够降低漏报和误报概率，提高钓鱼邮件检测的可靠性。
附图说明
57.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
58.图1是本发明实施例提供的钓鱼邮件检测方法的流程示意图之一；
59.图2是本发明实施例提供的钓鱼邮件检测模型的训练方法示意图；
60.图3是本发明实施例提供的钓鱼邮件检测方法的流程示意图之二；
61.图4是本发明实施例提供的钓鱼邮件检测系统的结构示意图；
62.图5为本发明实施例提供的钓鱼邮件检测装置的结构示意图；
63.图6为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
64.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
65.图1是本发明实施例提供的钓鱼邮件检测方法的流程示意图之一，如图1所示，该钓鱼邮件检测方法包括以下步骤：
66.步骤101、获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志。
67.需要说明的是，本发明实施例提供的钓鱼邮件检测方法，可适用于钓鱼邮件实时检测的场景中。该方法的执行主体可以为钓鱼邮件检测装置，例如电子设备、或者该钓鱼邮件检测装置中的用于执行钓鱼邮件检测方法的控制模块。其中，电子设备可以包括手机、平板电脑或台式计算机等。
68.现有技术中，攻击者为了提高诱导收件人访问恶意链接或者打开恶意附件的成功率，往往会基于已收集的攻击对象的基础信息，从发件人昵称、发件人邮箱、邮件主题、邮件内容、邮件附件名称等信息去伪装钓鱼邮件。
69.本发明实施例通过预先训练得到钓鱼邮件检测模型进行钓鱼邮件实时检测。钓鱼邮件检测模型是基于已标记的历史邮件以及企业内部信息训练得到的，属于机器学习模型。钓鱼邮件检测模型用于对待检测邮件的邮件类型进行评估。
70.可选地，本发明实施例中提及的企业内部信息可以包括以下至少一项：企业内部组织信息集合；企业员工与部门映射信息集合；企业内部邮箱集合；企业内部邮箱域名集合。
71.可选地，邮件网关日志可以包括邮件网关的目标日志和历史日志；所述目标日志中包括n个邮件的邮件属性信息，所述n个邮件包括待检测邮件，n为正整数。邮件网关的目标日志例如为邮件网关实时生成的日志。邮件网关的历史日志例如为邮件网关在目标历史时间内的日志；实际中，根据设定的目标历史时间范围条件从数据库中提取历史日志，例如若指定目标历史时间为从当前日期往前的6个月内，则从数据库中提取近6个月内的邮件日志，作为历史日志。可以理解的是，目标日志所包括的n个邮件中的任意一个邮件都可以作为待检测邮件。使用本发明实施例提供的钓鱼邮件检测方法，可以对目标日志中所包括的n个邮件中的每一个邮件都分别进行钓鱼邮件检测，分别判断各个邮件是否为钓鱼邮件。
72.可选地，本发明实施例中提及的邮件属性信息可以包括以下至少一项：发件人昵称；发件人邮箱；收件人邮箱；邮件主题；邮件附件名称；邮件附件类型。
73.步骤102、基于所述企业内部信息以及邮件网关日志，确定待检测邮件的邮件特征。
74.其中，所述邮件特征用于区分邮件是否为伪装内部邮件，和/或区分邮件中收发人关系是否为正常收发人关系。
75.可选地，邮件特征用于所述钓鱼邮件检测模型对所述待检测邮件的邮件类型进行
评估。邮件特征可以包括以下至少一项：1)用于区分邮件是否为伪装内部邮件的特征；2)用于区分邮件中收发人关系是否为正常收发人关系的特征。表1示出了本发明实施例中提及的邮件特征的具体内容。
76.其中，用于区分邮件是否为伪装内部邮件的特征，包括以下至少一项：邮件是否包含附件、邮件附件类型对应异常等级、邮件附件名称是否包含中文、邮件附件名称与内网邮件附件名相似度、邮件主题与内网邮件主题相似度、发件人邮箱域名与内网邮箱域名相似度、发件人邮箱名称与内网邮箱域名相似度、发件人昵称与内网邮箱昵称相似度及发件人昵称与企业内部组织相似度；
77.用于区分邮件中收发人关系是否为正常收发人关系的特征，包括以下至少一项：外网邮箱历史发送邮件数量、邮件收件人数量、邮件收件人对应部门数量、收件人所属部门历史收到此发件人邮件数量、收件人历史收到此发件人邮件数量及收件人历史收到发件人是外部邮箱的数量。
78.表1
[0079][0080]
步骤103、将待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
[0081]
需要说明的是，本发明实施例中提及的邮件属性信息中并未包括邮件内容，即在对待检测邮件进行邮件特征提取时，并未使用邮件内容，这就可以有效地保证待检测邮件的隐私性，并且基于待检测邮件的发件人昵称、发件人邮箱、收件人邮箱、邮件主题、邮件附件名称、邮件附件类型和企业内部信息，提取到能够区分邮件是否为伪装内部邮件、和/或
区分邮件中收发人关系是否为正常收发人关系的邮件特征，进而基于预先训练得到的钓鱼邮件检测模型，判断待检测邮件的邮件类型。
[0082]
本发明实施例提供的钓鱼邮件检测方法，通过基于企业内部信息以及邮件网关日志，确定待检测邮件的邮件特征，使用预先训练得到的钓鱼邮件检测模型进行钓鱼邮件实时检测，判断待检测邮件是否为钓鱼邮件，由于钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值进行二分类模型训练得到，这就使得本方法具有更强的泛化能力，可以适用于不同的钓鱼邮件变体，能够降低漏报和误报概率，提高钓鱼邮件检测的可靠性。
[0083]
可选地，针对不同的邮件特征，采用适用于该邮件特征的确定方法。具体地，基于企业内部信息以及邮件网关日志，确定待检测邮件的邮件特征的具体方法可以包括以下至少一种方式：
[0084]
方式1、邮件特征包括邮件是否包含附件：
[0085]
在目标日志中待检测邮件对应的附件字段的值为非空的情况下，确定待检测邮件包含附件；在待检测邮件对应的附件字段的值为空的情况下，确定待检测邮件未包含附件。
[0086]
方式2、邮件特征包括邮件附件类型对应异常等级：
[0087]
基于待检测邮件的邮件附件的文件后缀，以及预置的文件后缀与异常等级的对应关系，确定所述待检测邮件的邮件附件类型对应的异常等级。
[0088]
实际中，当待检测邮件包含邮件附件时，提取邮件附件的文件后缀。例如，当邮件附件字段值为“产品使用手册.zip”时，提取的后缀值为“zip”,然后从预置的文件后缀与异常等级的对应关系中匹配得到邮件附件类型对应异常等级。文件后缀与异常等级的对应关系可以参见表2所示的异常等级表。异常等级表可以是安全分析人员提供的文件后缀的类型与异常等级的映射表。待检测邮件的异常等级越高，表示待检测邮件为钓鱼邮件概率增大。
[0089]
表2
[0090][0091][0092]
方式3、邮件特征包括邮件附件名称是否包含中文：
[0093]
在待检测邮件的邮件附件名称与预置的正则表达式匹配的情况下，确定所述邮件附件名称包含中文；所述正则表达式用于匹配邮件附件名称是否包含中文字符；在所述邮件附件名称与预置的正则表达式不匹配的情况下，确定所述邮件附件名称不包含中文。
[0094]
例如，当待检测邮件存在邮件附件时,使用正则表达式匹配邮件附件名称是否包含中文字符，若邮件附件名称中包含中文字符，则匹配结果为是；若邮件附件名称中不包含中文字符，则匹配结果为否。
[0095]
方式4、邮件特征包括邮件附件名称与内网邮件附件名相似度，确定待检测邮件的邮件特征的实现过程包括步骤4_1至步骤4_6，其中：
[0096]
步骤4_1、从历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件名称；
[0097]
其中，历史日志例如为邮件网关在目标历史时间内的日志；指定的目标历史时间范围是根据专家分析人员确定的，例如历史6个月内的。实际中，根据设定的目标历史时间范围条件从数据库中提取历史日志，例如若指定目标历史时间为从当前日期往前的6个月内，则从数据库中提取近6个月内的邮件日志，作为历史日志。从历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件名称，并且历史邮件包括邮箱附件。
[0098]
步骤4_2、对各所述历史邮件的邮件附件名称进行分词得到词组集合；
[0099]
使用分词算法对邮件附件名称进行分词处理。例如邮件附件名称为“员工福利调整说明”，则根据分词算法得到的词组集合为：“员工、福利、调整、说明”。
[0100]
步骤4_3、计算各所述词组集合中每个词语的词频，得到词频集合；
[0101]
词频集合的计算使用计数的方式统计附件名称中词语出现的次数，例如指定时间内有三封邮件含附件名称，其名称分别为“员工福利调整说明、员工信息、放假说明”，进行分词后得到三个词组集合为：“员工、福利、调整、说明”、“员工、信息”及“放假、说明”，则词语“员工”的词频为2，词语“说明”的词频为2，词语“福利”的词频为1，词语“调整”的词频为1，词语“放假”的词频为1。邮件附件名称的词频集合如表3。
[0102]
表3
[0103]
词语词频员工2说明2福利1调整1放假1
[0104]
步骤4_4、对所述待检测邮件的邮件附件名称进行分词得到文本词组；
[0105]
例如一封待检测邮件含邮件附件，且邮件附件名称为“放假调整说明.pdf”则文本分词对象即为“放假调整说明”，分词后得到的词组为“放假、调整、说明”。
[0106]
步骤4_5、使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；
[0107]
对于词组“放假、调整、说明”，从表3中的邮件附件名称的词频集合匹配到的数值结果为“1、1、2”。如果文本词组中的词语在词频集合中不存在则对应的词频为0。
[0108]
步骤4_6、计算文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到邮件附件名称与内网邮件附件名相似度。
[0109]
对文本词组中各个词语的词频求和，将所得到的总和除以文本词组中词语个数，得到平均值；对平均值进行归一化处理，得到邮件附件名称与内网邮件附件名相似度。
[0110]
其中，平均值进行归一化处理后，所得到的数值小于或等于1，从而采用处理后的数值来表征相似度，相似度的数值越高表明邮件附件名称与内网邮件附件名的相似程度越高。
[0111]
需要说明的是，本专利申请任一实施例中所涉及归一化处理的内容，都可以参照上述解释，为避免重复，后续不再一一赘述。
[0112]
方式5、邮件特征包括邮件主题与内网邮件主题相似度：
[0113]
从历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的邮件主题；对各所述历史邮件的邮件主题进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的邮件主题进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件主题与内网邮件主题相似度。
[0114]
方式6、邮件特征包括发件人邮箱域名与内网邮箱域名相似度：
[0115]
从待检测邮件的发件人邮箱中提取发件人邮箱域名；确定所述发件人邮箱域名与内网邮箱域名相似度。例如，采用python的算法库确定所述发件人邮箱域名与内网邮箱域名相似度。
[0116]
例如，内网邮箱域名为“mail.com”；发件人邮箱为zhangsan@mail1.com，则提取的发件人邮箱域名为“mail1.com”。
[0117]
方式7、邮件特征包括发件人邮箱名称与内网邮箱域名相似度：
[0118]
从待检测邮件的发件人邮箱中提取发件人邮箱名称；确定所述发件人邮箱名称与内网邮箱域名相似度。
[0119]
例如，内网邮箱域名为“mail.com”；发件人邮箱为mail@qq.com，则提取的发件人邮箱名称为“mail”。
[0120]
方式8、邮件特征包括发件人昵称与内网邮箱昵称相似度：
[0121]
从历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的发件人昵称；对各所述历史邮件的发件人昵称进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述发件人昵称与内网邮箱昵称相似度。
[0122]
方式9、邮件特征包括发件人昵称与企业内部组织相似度：
[0123]
基于企业内部组织信息集合对各内部组织进行分词，得到词组集合；计算各词组集合中每个词组中词语的词频，得到词频集合；对待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到发件人昵称与企业内部组织相似度。
[0124]
方式10、邮件特征包括外网邮箱历史发送邮件数量：
[0125]
从历史日志中提取发件人邮箱不是企业内部邮箱的历史邮件数量，得到所述外网邮箱历史发送邮件数量。
[0126]
例如，对于不属于企业内部邮箱集合中的发件人邮箱即判定为外部邮箱，根据给定时间范围内(比如近6个月内)的邮件网关历史日志，按照邮箱名称统计外网邮箱历史发送邮件数量。
[0127]
方式11、邮件特征包括邮件收件人数量：
[0128]
基于待检测邮件的收件人邮箱的个数，确定所述邮件收件人数量。
[0129]
实际中，一封待检测邮件在发送时可以选择一个或者多个收件人，待检测邮件的收件人邮箱的个数，可作为邮件收件人数量。
[0130]
方式12、邮件特征包括邮件收件人对应部门数量：
[0131]
从待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；对所述收件人邮箱对应部门进行去重统计，得到邮件收件人对应部门数量。
[0132]
方式13、邮件特征包括收件人所属部门历史收到此发件人邮件数量：
[0133]
从待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；从所述历史日志中统计所述收件人邮箱对应部门在目标历史时间内，收到的来自所述待检测邮件的发件人邮箱的邮件数量。
[0134]
方式14、邮件特征包括收件人历史收到此发件人邮件数量：
[0135]
从历史日志中统计所述待检测邮件的收件人邮箱收到的来自所述待检测邮件的发件人邮箱的邮件数量。
[0136]
方式15、邮件特征包括收件人历史收到发件人是外部邮箱的数量：
[0137]
从历史日志中统计所述待检测邮件的收件人邮箱收到的发件人邮箱为外部邮箱的邮件数量。
[0138]
可选地，基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征的实现方式可以包括：
[0139]
步骤1、在待检测邮件的邮件属性信息中包括发件人邮箱名称的情况下，基于待检测邮件的发件人邮箱名称确定所述待检测邮件的邮箱域名信息；
[0140]
步骤2、在企业内部信息包括企业内部邮箱域名集合，且所述待检测邮件的邮箱域名信息与所述企业内部邮箱域名集合不匹配的情况下，基于企业内部信息、邮件网关日志以及所述待检测邮件的邮件属性信息，确定所述待检测邮件的邮件特征。
[0141]
可选地，本发明实施例提供钓鱼邮件检测模型的训练方法。模型离线训练的周期是由根据用户指定的时间间隔进行执行的，例如用户设定了模型训练时间为每周的周一凌晨进行训练，则模型离线训练服务就会在指定时间进行离线训练。图2是本发明实施例提供的钓鱼邮件检测模型的训练方法示意图，如图2所示，该钓鱼邮件检测方法包括以下步骤：
[0142]
步骤201、获取模型训练依赖；
[0143]
模型训练依赖数据包括：已标记的历史邮件以及所述企业内部信息。
[0144]
1)已标记的邮件日志信息。其中，邮件日志信息使用到字段为发件人昵称、发件人邮箱名称、收件人、邮件主题、邮件附件名称、邮件附件类型。
[0145]
2)企业内部信息包括：企业内部组织信息集合、企业员工与部门映射信息集合、企业内部邮箱集合、企业内部邮箱域名集合。
[0146]
当模型离线训练服务启动时，服务会根据给定的时间范围条件从数据库中提取已标记的历史邮件信息和企业内部信息。例如指定时间范围为历史6个月内，则数据提取时就会提取近6个月内的邮件日志信息。
[0147]
步骤202、基于所述已标记的历史邮件以及所述企业内部信息，确定所述已标记的历史邮件对应的邮件特征；
[0148]
可选地，基于所述已标记的历史邮件以及所述企业内部信息，确定所述已标记的历史邮件对应的邮件特征的具体方法可以包括以下至少一种方式：
[0149]
方式a、邮件特征包括邮件是否包含附件：
[0150]
在已标记的历史邮件对应的附件字段的值为非空的情况下，确定待检测邮件包含附件；在待检测邮件对应的附件字段的值为空的情况下，确定待检测邮件未包含附件。
[0151]
方式b、邮件特征包括邮件附件类型对应异常等级：
[0152]
基于已标记的历史邮件的邮件附件的文件后缀，以及预置的文件后缀与异常等级的对应关系，确定已标记的历史邮件的邮件附件类型对应的异常等级。
[0153]
方式c、邮件特征包括邮件附件名称是否包含中文：
[0154]
在已标记的历史邮件的邮件附件名称与预置的正则表达式匹配的情况下，确定所述邮件附件名称包含中文；在所述邮件附件名称与预置的正则表达式不匹配的情况下，确定所述邮件附件名称不包含中文。
[0155]
例如，当已标记的历史邮件存在邮件附件时,使用正则表达式匹配邮件附件名称是否包含中文字符，若邮件附件名称中包含中文字符，则匹配结果为是；若邮件附件名称中不包含中文字符，则匹配结果为否。
[0156]
方式d、邮件特征包括邮件附件名称与内网邮件附件名相似度，确定已标记的历史邮件的邮件特征的实现过程包括：从历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件名称；对各所述历史邮件的邮件附件名称进行分词得到词组集合；计算各所述词组集合中每个词语的词频，得到词频集合；对所述已标记的历史邮件的邮件附件名称进行分词得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到邮件附件名称与内网邮件附件名相似度。
[0157]
方式e、邮件特征包括邮件主题与内网邮件主题相似度：
[0158]
从历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的邮件主题；对各所述历史邮件的邮件主题进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述已标记的历史邮件的邮件主题进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件主题与内网邮件主题相似度。
[0159]
方式f、邮件特征包括发件人邮箱域名与内网邮箱域名相似度：
[0160]
从已标记的历史邮件的发件人邮箱中提取发件人邮箱域名；确定所述发件人邮箱域名与内网邮箱域名相似度。
[0161]
例如，发件人邮箱为zhangsan@mail1.com，则提取的发件人邮箱域名为“mail1.com”；假设内网邮箱域名为“mail.com”。
[0162]
方式g、邮件特征包括发件人邮箱名称与内网邮箱域名相似度：
[0163]
从已标记的历史邮件的发件人邮箱中提取发件人邮箱名称；确定所述发件人邮箱名称与内网邮箱域名相似度。
[0164]
例如，发件人邮箱为mail@qq.com，则提取的发件人邮箱名称为“mail”；假设内网邮箱域名为“mail.com”。
[0165]
方式h、邮件特征包括发件人昵称与内网邮箱昵称相似度：
[0166]
从历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的发件人昵称；对各所述历史邮件的发件人昵称进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述已标记的历史邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述发件人昵称与内网邮箱昵称相似度。
[0167]
方式i、邮件特征包括发件人昵称与企业内部组织相似度：
[0168]
基于企业内部组织信息集合对各内部组织进行分词，得到词组集合；计算各词组集合中每个词组中词语的词频，得到词频集合；对已标记的历史邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到发件人昵称与企业内部组织相似度。
[0169]
方式j、邮件特征包括外网邮箱历史发送邮件数量：
[0170]
从历史日志中提取发件人邮箱不是企业内部邮箱的历史邮件数量，得到所述外网邮箱历史发送邮件数量。
[0171]
例如，对于不属于企业内部邮箱集合中的发件人邮箱即判定为外部邮箱，根据给定时间范围内(比如近6个月内)的邮件网关历史日志，按照邮箱名称统计外网邮箱历史发送邮件数量。
[0172]
方式k、邮件特征包括邮件收件人数量：
[0173]
基于已标记的历史邮件的收件人邮箱的个数，确定所述邮件收件人数量。
[0174]
实际中，一封已标记的历史邮件在发送时可以选择一个或者多个收件人，已标记的历史邮件的收件人邮箱的个数，可作为邮件收件人数量。
[0175]
方式l、邮件特征包括邮件收件人对应部门数量：
[0176]
从已标记的历史邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；对所述收件人邮箱对应部门进行去重统计，得到邮件收件人对应部门数量。
[0177]
方式m、邮件特征包括收件人所属部门历史收到此发件人邮件数量：
[0178]
从已标记的历史邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；从所述历史日志中统计所述收件人邮箱对应部门在目标历史时间内，收到的来自所述已标记的历史邮件的发件人邮箱的邮件数量。
[0179]
方式n、邮件特征包括收件人历史收到此发件人邮件数量：
[0180]
从历史日志中统计所述已标记的历史邮件的收件人邮箱收到的来自所述已标记的历史邮件的发件人邮箱的邮件数量。
[0181]
方式p、邮件特征包括收件人历史收到发件人是外部邮箱的数量：
[0182]
从历史日志中统计已标记的历史邮件的收件人邮箱收到的发件人邮箱为外部邮
箱的邮件数量。
[0183]
步骤203、基于所述已标记的历史邮件对应的邮件特征，以及所述已标记的历史邮件的标记值，进行二分类模型训练，得到所述钓鱼邮件检测模型；其中，所述已标记的历史邮件的标记值用于表示所述已标记的历史邮件是否为钓鱼邮件。
[0184]
模型训练时可以使用表1所示的邮件特征中的至少一项，以及已标记的历史邮件的标记值，通过极端梯度提升(extreme gradient boosting，xgboost)算法进行二分类模型训练。当模型离线训练服务完成训练后，将训练好的钓鱼邮件检测模型文件和模型依赖文件发送到模型实时检测服务中，用于邮件网关日志的实时检测。
[0185]
图3是本发明实施例提供的钓鱼邮件检测方法的流程示意图之二，如图3所示，该钓鱼邮件检测方法包括以下步骤：
[0186]
步骤301、加载预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息以及邮件网关的历史日志；
[0187]
钓鱼邮件检测模型的检测服务启动时会先将钓鱼邮件检测模型文件和模型检测过程中依赖的数据，例如企业内部信息，加载到内存中。
[0188]
步骤302、实时获取邮件网关的目标日志；目标日志中包括n个邮件的邮件属性信息，n个邮件包括待检测邮件；
[0189]
模型实时检测服务启动完成后，实时获取邮件网关的目标日志进行钓鱼邮件检测。
[0190]
步骤303、判断待检测邮件的邮箱域名信息与企业内部邮箱域名集合是否匹配：在待检测邮件的邮箱域名信息与企业内部邮箱域名集合不匹配的情况下，转到步骤304；在待检测邮件的邮箱域名信息与企业内部邮箱域名集合匹配的情况下，退出钓鱼邮件检测流程；
[0191]
实际中，接收到邮件网关的目标日志信息后，在待检测邮件的邮件属性信息中包括发件人邮箱名称的情况下，基于待检测邮件的发件人邮箱名称确定待检测邮件的邮箱域名信息；将待检测邮件的邮箱域名信息与企业内部邮箱域名集合进行比较，判断待检测邮件是否为内部邮件，如果判定待检测邮件为内部邮件，则直接退出钓鱼邮件检测流程，如果判定待检测邮件不是内部邮件，则转到步骤304，进一步判断待检测邮件是否为钓鱼邮件。
[0192]
步骤304、邮件判定为外部邮件后，基于企业内部信息、历史日志以及所述待检测邮件的邮件属性信息，确定所述待检测邮件的邮件特征。
[0193]
例如，根据加载的企业内部信息和待检测邮件中的发件人昵称、发件人邮箱名称、邮件主题、收件人邮箱名称、邮件附件信息，计算待检测邮件的邮件特征。
[0194]
步骤305、将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件。如果通过钓鱼邮件检测模型判定待检测邮件为钓鱼邮件，则转到步骤306；如果通过钓鱼邮件检测模型判定待检测邮件为正常邮件，则退出钓鱼邮件检测流程。
[0195]
步骤306、生成相应的钓鱼邮件告警事件，并下发到告警模块。
[0196]
本发明实施例提供的钓鱼邮件检测方法，通过使用邮件信息中敏感程度较低的属性信息提取的能够有效区分邮件是否为伪装内部邮件的各类特征；使用邮件信息中敏感程度较低的收发人信息与历史邮件收发行为提取的能区分邮件是否为非正常收发关系的各
类特征；特征分析时只使用了邮件信息中敏感程度较低的属性，有效的保证了邮件的隐私性；由于基于钓鱼邮件检测模型的钓鱼邮件检测方法具有更强的泛化能力，可以适用于不同的钓鱼邮件变体，能够解决邮件沙箱对加密压缩附件检测不全的问题，及解决关键词匹配覆盖不全面的问题，降低漏报和误报概率，提高钓鱼邮件检测的可靠性。
[0197]
图4是本发明实施例提供的钓鱼邮件检测系统的结构示意图，如图4所示，该钓鱼邮件检测系统包括：邮件网关日志模块401、模型离线训练服务模块402、模型实时检测服务模块403及钓鱼邮件告警服务模块404，其中：
[0198]
邮件网关日志模块401，邮件网关日志是整个系统分析和检测的数据源，每条邮件日志都包含了发件人昵称、发件人邮箱名、邮件主题、收件人邮箱名、邮件内容、附件信息等。
[0199]
模型离线训练服务模块402，基于已标记的历史邮件日志信息和企业内部信息结合机器学习算法训练用于钓鱼邮件检测的模型。
[0200]
模型实时检测服务模块403，基于离线训练的钓鱼邮件检测模型对邮件网关日志进行实时的异常检测，并将判定为钓鱼邮件的邮件日志生成相应的告警事件下发到钓鱼邮件告警服务模块404
[0201]
钓鱼邮件告警服务模块404，接收模型实时检测服务模块403下发的告警事件进行相应的告警通知。
[0202]
本发明实施例基于邮件企业邮件网关邮件日志信息和邮箱间的收发行为数据进行机器学习模型训练，并通过训练好的模型进行钓鱼邮件实时检测。
[0203]
下面对本发明提供的钓鱼邮件检测装置进行描述，下文描述的钓鱼邮件检测装置与上文描述的钓鱼邮件检测方法可相互对应参照。
[0204]
图5为本发明实施例提供的钓鱼邮件检测装置的结构示意图，如图5所示，该钓鱼邮件检测装置500包括：获取模块501、第一确定模块502和检测模块503；其中，
[0205]
获取模块501，用于获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
[0206]
第一确定模块502，用于基于所述企业内部信息以及所述邮件网关日志，确定所述待检测邮件的邮件特征；
[0207]
检测模块503，用于将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
[0208]
本发明实施例提供的钓鱼邮件检测装置，通过基于企业内部信息以及邮件网关日志，确定待检测邮件的邮件特征，使用预先训练得到的钓鱼邮件检测模型进行钓鱼邮件实时检测，判断待检测邮件是否为钓鱼邮件，由于钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值进行二分类模型训练得到，这就使得本方法具有更强的泛化能力，可以适用于不同的钓鱼邮件变体，能够降低漏报和误报概率，提高钓鱼邮件检测的可靠性。
[0209]
可选地，所述邮件特征包括以下至少一项：
[0210]
用于区分邮件是否为伪装内部邮件的特征，包括以下至少一项：邮件是否包含附
件、邮件附件类型对应异常等级、邮件附件名称是否包含中文、邮件附件名称与内网邮件附件名相似度、邮件主题与内网邮件主题相似度、发件人邮箱域名与内网邮箱域名相似度、发件人邮箱名称与内网邮箱域名相似度、发件人昵称与内网邮箱昵称相似度及发件人昵称与企业内部组织相似度；
[0211]
用于区分邮件中收发人关系是否为正常收发人关系的特征，包括以下至少一项：外网邮箱历史发送邮件数量、邮件收件人数量、邮件收件人对应部门数量、收件人所属部门历史收到此发件人邮件数量、收件人历史收到此发件人邮件数量及收件人历史收到发件人是外部邮箱的数量。
[0212]
可选地，第一确定模块502，具体用于以下至少一项：
[0213]
在所述邮件网关日志中所述待检测邮件对应的附件字段的值为非空的情况下，确定所述待检测邮件包含附件；在所述待检测邮件对应的附件字段的值为空的情况下，确定所述待检测邮件未包含附件；
[0214]
基于所述待检测邮件的邮件附件的文件后缀，以及预置的文件后缀与异常等级的对应关系，确定所述待检测邮件的邮件附件类型对应的异常等级；
[0215]
在所述待检测邮件的邮件附件名称与预置的正则表达式匹配的情况下，确定所述邮件附件名称包含中文；所述正则表达式用于匹配邮件附件名称是否包含中文字符；在所述邮件附件名称与预置的正则表达式不匹配的情况下，确定所述邮件附件名称不包含中文；
[0216]
从所述历史日志中提取发件人邮箱为企业内部邮箱的至少一个历史邮件的邮件附件名称；对各所述历史邮件的邮件附件名称进行分词得到词组集合；计算各所述词组集合中每个词语的词频，得到词频集合；对所述待检测邮件的邮件附件名称进行分词得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件附件名称与内网邮件附件名相似度；
[0217]
从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的邮件主题；对各所述历史邮件的邮件主题进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的邮件主题进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述邮件主题与内网邮件主题相似度；
[0218]
从所述待检测邮件的发件人邮箱中提取发件人邮箱域名；确定所述发件人邮箱域名与内网邮箱域名相似度；
[0219]
从所述待检测邮件的发件人邮箱中提取发件人邮箱名称；确定所述发件人邮箱名称与内网邮箱域名相似度；
[0220]
从所述历史日志中提取发件人邮箱为企业内部邮箱的历史邮件的发件人昵称；对各所述历史邮件的发件人昵称进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述
发件人昵称与内网邮箱昵称相似度；
[0221]
基于企业内部组织信息集合对各内部组织进行分词，得到词组集合；计算各所述词组集合中每个词组中词语的词频，得到词频集合；对所述待检测邮件的发件人昵称进行分词，得到文本词组；使用所述文本词组与所述词频集合进行词频匹配，得到所述文本词组中各个词语的词频；计算所述文本词组中各个词语的词频的平均值；对所述平均值进行归一化处理，得到所述发件人昵称与企业内部组织相似度；
[0222]
从所述历史日志中提取发件人邮箱不是企业内部邮箱的历史邮件数量，得到所述外网邮箱历史发送邮件数量；
[0223]
基于所述待检测邮件的收件人邮箱的个数，确定所述邮件收件人数量；
[0224]
从所述待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；对所述收件人邮箱对应部门进行去重统计，得到所述邮件收件人对应部门数量；
[0225]
从所述待检测邮件的收件人邮箱中提取收件人邮箱名称，基于所述收件人邮箱名称以及企业员工与部门映射信息集合，确定所述收件人邮箱对应部门；从所述历史日志中统计所述收件人邮箱对应部门在目标历史时间内，收到的来自所述待检测邮件的发件人邮箱的邮件数量；
[0226]
从所述历史日志中统计所述待检测邮件的收件人邮箱收到的来自所述待检测邮件的发件人邮箱的邮件数量；
[0227]
从所述历史日志中统计所述待检测邮件的收件人邮箱收到的发件人邮箱为外部邮箱的邮件数量。
[0228]
可选地，第一确定模块502，具体用于：
[0229]
在所述待检测邮件的邮件属性信息中包括发件人邮箱名称的情况下，基于所述待检测邮件的发件人邮箱名称确定所述待检测邮件的邮箱域名信息；
[0230]
在所述企业内部信息中包括企业内部邮箱域名集合，且所述待检测邮件的邮箱域名信息与所述企业内部邮箱域名集合不匹配的情况下，基于所述企业内部信息、所述邮件网关日志以及所述待检测邮件的邮件属性信息，确定所述待检测邮件的邮件特征。
[0231]
可选地，所述装置还包括：
[0232]
获取模块，用于获取已标记的历史邮件以及所述企业内部信息；
[0233]
第二确定模块，用于基于所述已标记的历史邮件以及所述企业内部信息，确定所述已标记的历史邮件对应的邮件特征；
[0234]
训练模块，用于基于所述已标记的历史邮件对应的邮件特征，以及所述已标记的历史邮件的标记值，进行二分类模型训练，得到所述钓鱼邮件检测模型；
[0235]
其中，所述已标记的历史邮件的标记值用于表示所述已标记的历史邮件是否为钓鱼邮件。
[0236]
可选地，所述企业内部信息包括以下至少一项：
[0237]
企业内部组织信息集合；
[0238]
企业员工与部门映射信息集合；
[0239]
企业内部邮箱集合；
[0240]
企业内部邮箱域名集合。
[0241]
可选地，所述邮件网关日志中包括n个邮件的邮件属性信息，所述邮件属性信息包括以下至少一项：
[0242]
发件人昵称；
[0243]
发件人邮箱；
[0244]
收件人邮箱；
[0245]
邮件主题；
[0246]
邮件附件名称；
[0247]
邮件附件类型。
[0248]
图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communications interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行如下方法：
[0249]
获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
[0250]
基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征；
[0251]
将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
[0252]
此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0253]
另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如下方法：
[0254]
获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
[0255]
基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征；
[0256]
将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
[0257]
又一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，实现如下方法：
[0258]
获取预先训练得到的钓鱼邮件检测模型、与企业邮箱业务相关的企业内部信息、以及邮件网关日志；
[0259]
基于所述企业内部信息以及所述邮件网关日志，确定待检测邮件的邮件特征；
[0260]
将所述待检测邮件的邮件特征输入至所述钓鱼邮件检测模型，得到所述钓鱼邮件检测模型输出的所述待检测邮件的邮件类型；所述邮件类型包括钓鱼邮件和非钓鱼邮件；所述钓鱼邮件检测模型为基于已标记的历史邮件对应的邮件特征以及所述已标记的历史邮件的标记值，进行二分类模型训练得到。
[0261]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0262]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0263]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种CSI上报方法及装置、终端设备、网络设备与流程

钓鱼邮件检测方法、装置、电子设备及存储介质与流程

相关文献

最热文献