邮件分类方法、装置及电子设备与流程

2022-07-13 22:51:19 来源：中国专利 TAG：

1.本技术涉及风险识别领域，尤其涉及一种邮件分类方法、装置及电子设备。

背景技术：

2.钓鱼邮件通常是包含引诱用户回复个人私密信息(如身份证号，银行卡密码)的邮件，或者，包括存在泄露个人私密信息的网址链接的邮件。如此，为了避免用户在钓鱼邮件回复个人私密信息，或者点击钓鱼邮件中的网址链接。在接收到邮件时，需要对邮件的内容进行分析，以便对接收到的邮件进行分类。如此，当邮件被分类为钓鱼邮件时，可以对钓鱼邮件进行标记以提示用户。
3.目前，对接收到的邮件进行分类的速度慢，效率低。

技术实现要素：

4.本技术提供一种邮件分类、装置及电子设备，用以解决对接收到的邮件进行分类的速度慢、效率低的问题。
5.第一方面，本技术提供了一种邮件分类方法，应用于服务器。本技术提供的方法包括：
6.获取待识别的邮件中包含的网址；
7.基于预训练的机器学习模型对网址进行分词处理，得到网址中的各个第一字符，其中，机器学习模型是将多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集输入到待训练网络中训练得到的，其中，第一标识用于指示存在风险，第二标识用于指示不存在风险；
8.基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组；
9.基于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数；
10.基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组；
11.基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组；
12.基于机器学习模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。
13.本技术提供的邮件分类方法，可以基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组；基于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数；基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组，由于是并行地对n个第二数组进行归一化处理，效率高。进而，基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组。这样一来，可以基于机器学习
模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。如此，得到分类结果的效率也高。
14.第二方面，本技术提供了一种邮件分类装置，应用于服务器。本技术提供的装置包括：
15.信息获取单元，用于获取待识别的邮件中包含的网址；
16.分词处理单元，用于基于预训练的机器学习模型对网址进行分词处理，得到网址中的各个第一字符，其中，机器学习模型是将多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集输入到待训练网络中训练得到的，其中，第一标识用于指示存在风险，第二标识用于指示不存在风险；
17.数据转换单元，用于基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组；
18.数据分组单元，用于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数；
19.归一化单元，用于基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组；
20.数据合成单元，用于基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组；
21.数据分类单元，用于基于机器学习模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。
22.第三方面，本技术还提供了一种电子设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时，使得电子设备执行如本技术第一方面提供的方法。
23.第四方面，本技术还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，使得计算机执行如本技术第一方面提供的方法。
24.第五方面，本技术还提供了一种计算机程序产品，包括计算机程序，当计算机程序被运行时，使得计算机如本技术第一方面提供的方法。
25.此外，本技术第二方面、第三方面、第四方面、第五方面提供的方案的技术效果可以参考第一方面提供的邮件分类方法的技术效果，此处不再赘述。
附图说明
26.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
27.图1为本技术实施例提供的邮件分类方法的流程图；
28.图2为本技术实施例提供的服务器与终端设备的交互示意图；
29.图3为本技术实施例提供的机器学习模型的架构示意图；
30.图4为图1中的s104的具体流程图；
31.图5本技术实施例提供的邮件分类装置的功能模块结构示意图；
32.图6为图5中的数据管理模块的子单元的结构示意图；
33.图7为图5中的邮件识别模块的子单元的结构示意图；
34.图8为本技术实施例提供的一种电子设备的电路连接框图。
35.通过上述附图，已示出本技术明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围，而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
36.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
37.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本技术的实施例进行描述。
38.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
39.应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
40.请参阅图1，本技术实施例提供了一种邮件分类方法，应用于服务器100。如图2所示，服务器100与终端设备200通信连接。其中，终端设备200可以是电脑。如图1所示，本技术提供的方法包括：
41.s101：服务器100将多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集输入到待训练网络中训练，得到机器学习模型。
42.其中，多个标记有第一标识的网址可以是预存储的第一样本集和第二样本集中的邮件的内容。第一标识用于指示存在风险，第二标识用于指示不存在风险。
43.需要说明的是，第一样本集可以称为公开数据集，第一样本集中的邮件是从phishtank网站、millersmiles网站和malwarepatrol网站上获取的。phishtank网站、millersmiles网站和malwarepatrol网站包括存在欺诈、个人隐私泄露的网址的邮件。第二样本集可以称为私有数据集，包括企业历史上已确认的钓鱼邮件，或者用户新添加的钓鱼邮件。
44.其中，训练样本集中的邮件可以一部分作为训练样本，另一部分作为验证样本。服务器可以将多个训练样本输入到待训练网络中进行训练，得到机器学习模型。进而，将多个验证样本输入到机器学习模型中，输出分类结果。当分类结果的正确率低于预设比例时，继续训练机器学习模型，直到分类结果的正确率达到预设比例(如95％)。
45.在一些实施例方式中，上述的待训练网络可以是transformer网络。
46.s102：服务器100获取待识别的邮件中包含的网址。
47.示例性地，服务器100在接收到邮件后，从邮件中提取网址。网址可以被称为统一资源定位符url(uniform resource locator，url)。例如，网址可以为“https://www.elgoog.com/”，当然地，也可以是其他的网址，在此不做限定。
48.s103：服务器100基于预训练的机器学习模型对网址进行分词处理，得到网址中的各个第一字符。
49.可以理解地，机器学习模型是将多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集输入到待训练网络中训练得到的，其中，第一标识用于指示存在风险，第二标识用于指示不存在风险。
50.例如，当网址为“https://www.elgoog.com/”时，对网址“https://www.elgoog.com/”进行分词处理得到的各个第一字符为“h”、“t”、“t”、“p”、“s”、“:”、“/”、“/”、“w”、“w”“w”“.”、“e”、“l”、“g”、“o”、“o”、“g”、“.”、“c”、“o”、“m”以及“/”。
51.需要说明的是，如图3所示，机器学习模型包括预处理层，机器学习模型的预处理层可以执行s103。
52.s104：服务器100基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组。其中，第一数组中的各个元素为整型常量。
53.示例性地，如图4所示，s104可以包括：
54.s401：服务器100基于机器学习模型确定网址的长度。
55.例如，当网址为“https://www.elgoog.com/”时，服务器100确定网址的长度为23。
56.s402：服务器100根据网址的长度，对网址进行处理以使网址的长度等于预设长度。
57.例如，当网址为“https://www.elgoog.com/”，预设的长度为512时，可以对“https://www.elgoog.com/”的末尾补零，得到“https://www.elgoog.com/000...000”。其中，https://www.elgoog.com/000...000”的长度为512。
58.在另一些实施例中，当预设的长度为512时，确定网址的长度大于512时，可以截去网址末尾的第一字符，使得网址的长度等于512。
59.需要说明的是，机器学习模型的预处理层还可以执行s104。
60.s403：服务器100逐个判断处理后的网址的第一字符是否在预设词表中，如果是，则执行s404,如果否，则执行s405。
61.其中，预设的词表中包括部分第一字符与整型常量的映射关系。当网址中的第一字符在预设词表中时，则可以从预设词表中查找到与第一字符对应的整型常量，反之，则不能查找到与第一字符对应的整型常量。
62.s404：服务器100将第一字符转换为第一字符在预设词表中对应的整型常量。
63.例如，服务器100可以将第一字符“h”转换为整型常量“15”；再例如，服务器100可以将第一字符“t”转换为整型常量“2”。示例性地，当处理后的“https://www.elgoog.com/000...000”中所有第一字符被转换完毕后，处理后的网址“https://www.elgoog.com/000...000”被转换为[15；2；2；13；9；31；4；4；33；33；33；18；3；17；26；5；5；26；18；12；5；16；4；0；0；0；...；0；0；0]。其中，[15；2；2；13；9；31；4；4；33；33；33；18；3；17；26；5；5；26；18；12；5；16；4；0；0；0；...；0；0；0]可以称为第一数组。
[0064]
s405：服务器100将第一字符转换为目标字符。
[0065]
例如，当第一字符不在预设词表中时，服务器100将第一字符转换为目标字符“《oom》”。
[0066]
可以理解地，第一字符转换为第一字符在预设词表中对应的整型常量，以方便机器学习模型处理。
[0067]
需要说明的是，仍如图3所示，机器学习模型还包括输入层，输入层用于接收来自预处理层的第一数组。
[0068]
s105：服务器100基于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数。
[0069]
示例性，当n＝4时，可以将长度为512的第一数组[15；2；2；13；9；31；4；4；33；33；33；18；3；17；26；5；5；26；18；12；5；16；4；0；0；0；...；0；0；0]平均分配为第二数组a[15；2；2；13；9；31；4；4；33；33；33；18；3；17；26；5；5；26；18；12；5；16；4；0；0；0；...；0；0；0]；第二数组b[0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；...；0；0；0]；第二数组c[0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；...；0；0；0]；第二数组d[0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；0；...；0；0；0]。服务器100记录的4个第二数组之间的位置顺序,依次为第二数组a、第二数据b、第二数组c以及第二数组d。
[0070]
当然地，n还可以等于2、3、5等整数，在此不作限定。
[0071]
需要说明的是，仍如图3所示，机器学习模型还包括分组层和定位层，分组层用于对第一数组进行分组得到n个第二数组。定位层用于记录n个第二数组之间的位置顺序。
[0072]
s106：基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组。
[0073]
例如，当n＝4时，由于是并行地对4个第二数组进行归一化处理，效率高。
[0074]
需要说明的是，仍如图3所示，机器学习模型还包括多头注意层，多头注意层用于执行s106。多头注意层可以包括n个注意头(图3中为4个注意头)，每个注意头用于对一个第二数组进行归一化处理。即n个多头注意层并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组。
[0075]
需要说明的是，每个注意头的模型维度d
model
、键维度dk以及值维度dv之间满足关系：dk＝dv＝d
model
/4＝128。
[0076]
s107：基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组。
[0077]
需要说明的是，仍如图3所示，机器学习模型还包括数据合并层，数据合并层用于执行107。
[0078]
s108：基于机器学习模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。
[0079]
其中，分类结果用于指示邮件为钓鱼邮件，或者不是钓鱼邮件。例如，分类结果可以是二进制数“0”，用于指示邮件为钓鱼邮件；分类结果还可以是二进制数“1”，用于指示邮件为不是钓鱼邮件。再例如，分类结果可以是英文单词“false”，用于指示邮件为钓鱼邮件；分类结果还可以是英文单词“true”，用于指示邮件为不是钓鱼邮件。
[0080]
需要说明的是，仍如图3所示，机器学习模型还包括前向反馈网络层，前向反馈网
络层用于对归一化后的第一数组进行分类，然后利用softmax函数输出携带网址的邮件的分类结果。示例性地，前向反馈网络层的大小可以为128。
[0081]
综上所述，本技术实施例提供的邮件分类方法，可以基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组；基于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数；基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组，由于是并行地对n个第二数组进行归一化处理，效率高。进而，基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组。这样一来，可以基于机器学习模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。如此，得到分类结果的效率也高。
[0082]
另外，在上述的s108之后，本技术实施例提供的方法还可以包括：
[0083]
s109：在分类结果指示邮件是钓鱼邮件时，服务器100发送提示信息到终端设备200显示，提示信息用于指示邮件是钓鱼邮件。
[0084]
例如，当终端设备200显示邮箱应用的首页时，邮件应用的首页的邮件目录中的接收到的邮件的一侧可以显示提示信息。其中，提示信息可以是但不限于“该邮件可能是钓鱼邮件”的文字信息。
[0085]
s110：服务器100响应于来自终端设备200的用户对携带网址的邮件标记第一标识或第二标识。
[0086]
用户可以在终端设备200浏览邮件的内容，当用户发现邮件中携带风险内容时，可以对邮件标记第一标识；当用户发现邮件中未携带风险内容时，可以对邮件标记第二标识。
[0087]
s111：服务器100将标记有第一标识或第二标识的邮件，添加到训练样本集中。
[0088]
例如，服务器100可以将标记有第一标识或第二标识的邮件，添加到上述的私有数据集中。如此，训练样本集中可以被不断的更新，使得后面再依据更新后的训练样本集得到的机器学习模型的可靠性更高。
[0089]
另外，服务器100还可以根据输出携带网址的邮件的分类结果、携带网址的邮件被用户标记的第一标识或第二标识，确定分类结果是否正确。
[0090]
例如，当分类结果用于指示邮件存在风险，而携带网址的邮件被用户标记的第二标识(用于指示邮件不存在风险)，则服务器100确定分类结果错误。再例如，当分类结果用于指示邮件存在风险，而携带网址的邮件被用户标记的第一标识(用于指示邮件存在风险)，则服务器100确定分类结果正确。服务器100还可以统计机器学习模型的分类正确的比例、分类错误的比例以及召回率。将分类正确的比例、分类错误的比例以及召回率发送到终端设备200显示。这样一来，机器学习模型的维护人员，可以正确的比例、分类错误的比例对机器学习模型进行调整。
[0091]
本技术实施例还提供了一种邮件分类装置500，应用于服务器100，需要说明的是，本实施例所提供的邮件分类装置500，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。如图5所示，本技术提供的装置包括数据管理模块502、模型管理模块、以及邮件识别模块503。其中，
[0092]
数据管理模块502，用于存储多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集，将训练样本集输入到待训练网络中训练，得到机器学习模型。
[0093]
如图6所示，具体地，数据管理模块502可以包括公开数据集单元601、私有数据集单元602，以及数据更新单元603。
[0094]
其中，公开数据集单元601，用于存储第一样本集，私有数据集单元602用于存储第二样本集。数据更新单元603，用于在分类结果指示邮件是钓鱼邮件时，发送提示信息到终端设备200显示，其中，提示信息用于指示邮件是钓鱼邮件；响应于来自终端设备200的用户对携带网址的邮件标记第一标识或第二标识；将标记有第一标识或第二标识邮件，添加到训练样本集中。
[0095]
模型管理模块，用于配置和更新机器学习模型。
[0096]
示例性地，模型管理模块具体用于根据输出携带网址的邮件的分类结果、携带网址的邮件被用户标记的第一标识或第二标识，确定分类结果是否正确；统计机器学习模型的分类正确的比例、分类错误的比例以及召回率；将分类正确的比例、分类错误的比例以及召回率发送到终端设备200显示。
[0097]
邮件识别模块503，用于对获取到的邮件进行分类。
[0098]
具体地，如图7所示，邮件识别模块503包括：信息获取单元701、分词处理单元702、数据转换单元703、数据分组单元704、归一化单元705、数据合成单元706以及数据分类单元707。其中，
[0099]
信息获取单元701，用于获取待识别的邮件中包含的网址。
[0100]
分词处理单元702，用于基于预训练的机器学习模型对网址进行分词处理，得到网址中的各个第一字符，其中，机器学习模型是将多个标记有第一标识的网址和多个携带第二标识的网址构成的训练样本集输入到待训练网络中训练得到的，其中，第一标识用于指示存在风险，第二标识用于指示不存在风险。
[0101]
数据转换单元703，用于基于机器学习模型对网址中的各个第一字符进行转换，得到第一数组，其中，第一数组中的各个元素为整型常量。
[0102]
具体地，数据转换单元703，具体用于基于机器学习模型确定网址的长度。根据网址的长度，对网址进行处理以使网址的长度等于预设长度。当处理后的网址的第一字符在预设词表中时，将第一字符转换为第一字符在预设词表中对应的整型常量。当处理后的网址的第一字符不在预设词表中时，将第一字符转换为目标字符。
[0103]
数据分组单元704，用于机器学习模型对第一数组进行分组得到n个第二数组，并记录n个第二数组之间的位置顺序，其中，n为大于或等于2的整数。
[0104]
归一化单元705，用于基于机器学习模型并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组。
[0105]
具体地，归一化单元705，具体用于n个多头注意层并行地对n个第二数组进行归一化处理，得到归一化后的n个第二数组，其中，任一多头注意层对一个第二数组进行归一化处理。
[0106]
数据合成单元706，用于基于机器学习模型根据记录的n个第二数组之间的位置顺序，将归一化后的n个第二数组合成为归一化后的第一数组。
[0107]
数据分类单元707，用于基于机器学习模型对归一化后的第一数组进行分类，输出携带网址的邮件的分类结果。
[0108]
图8是根据一示例性实施例示出的一种电子设备的框图，该电子设备为服务器
800。服务器800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，输入/输出(i/o)接口812，以及通信组件816。
[0109]
处理组件802通常控制服务器800的整体操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。
[0110]
存储器804被配置为存储各种类型的数据以支持在服务器800的操作。这些数据的示例包括用于在服务器800上操作的任何应用程序或方法的指令，训练样本集等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0111]
电源组件806为服务器800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为服务器800生成、管理和分配电力相关联的组件。
[0112]
i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。
[0113]
通信组件816被配置为便于服务器800和其他设备之间有线或无线方式的通信。
[0114]
在示例性实施例中，服务器800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0115]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由服务器800的处理器820执行以完成上述方法。例如，非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。该非临时性计算机可读存储介质，当该存储介质中的指令由终端设备的处理器执行时，使得电子设备能够执行图1所示的邮件分类方法。
[0116]
本技术实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时如图1所示的邮件分类方法。
[0117]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求书指出。
[0118]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于序列重构的残差堆叠卷积网络的航空发动机退化趋势预测方法

邮件分类方法、装置及电子设备与流程

相关文献

最热文献