基于迁移学习识别流量意图的方法、装置、终端及介质与流程

2022-04-09 10:26:12 来源：中国专利 TAG：

1.本说明书涉及流量识别技术领域，尤其涉及基于迁移学习识别流量意图的方法、装置、终端和介质。

背景技术：

2.在用户通过浏览器访问一个网站的过程中可以采集到大量的流量，除了一条由真正的人工访问url(uniform resource locator，统一资源定位符)产生的流量外，由于页面重定向、广告加载、css文件加载等原因，机器自动触发访问大量url的流量。如何从访问流量中识别哪些链接是由用户的访问触发的？哪些是由机器自动触发的？识别出用户真实意图，有助于在后续进行行为分析、攻击事件回溯等。
3.目前常通过url的尾缀来识别访问意图，效果难以令人满意。

技术实现要素：

4.为准确地识别访问流量的意图，本说明书提供了如下的基于迁移学习识别流量意图的方法、装置、终端及介质。
5.根据本说明书实施例的第一方面，提供一种基于迁移学习识别流量意图的方法，所述方法包括：
6.获取流量样本数据，所述流量样本数据包括多个流量和每个所述流量对应的标签，所述标签用于指示所述流量的意图，所述流量的意图指所述流量是用户访问真实触发的流量还是机器触发的流量；
7.基于所述流量样本数据中的所述多个流量从至少一个文本预测模型中选择用于预测流量的所述意图的初始预测模型；
8.基于所述流量样本数据训练所述初始预测模型，得到意图预测模型；
9.基于所述意图预测模型识别采集到的流量的所述意图。
10.可选地，所述流量为基于http协议的访问流量，所述流量包括统一资源定位符(url)信息、所述url的长度信息、参考(referer)信息、处理的内容类型(accept)信息。
11.可选地，所述文本预测模型包括语言学习子模型，其中，基于所述流量样本数据中的所述多个流量选择用于预测流量的所述意图的初始预测模型，包括：
12.基于所述多个流量训练每个所述文本预测模型的语言学习子模型；
13.基于所述多个流量与训练后的语言学习子模型的匹配性，从所述至少一个文本预测模型中选择一者，并将该文本预测模型中的语言学习子模型替换为对应的训练后的语言学习子模型，以得到所述初始预测模型。
14.可选地，在基于所述多个流量训练每个所述文本预测模型的语言学习子模型前，所述方法还包括：
15.针对每个所述语言学习子模型，对所述多个流量中的每一者进行分词，并根据该语言学习子模型的分词映射规则将得到的每个分词映射为对应的编号，以将所述多个流量
转换为该语言学习子模型的训练数据。
16.可选地，基于所述多个流量训练每个所述文本预测模型的语言学习子模型，包括：
17.所述语言学习子模型具有多层结构，基于所述多个流量调整所述语言学习子模型靠近输出的一层或多层的参数。
18.可选地，每个所述文本预测模型还包括分类器子模型，所述分类器子模型在运行中调用所述语言学习子模型；
19.其中，基于所述流量样本数据训练所述初始预测模型，得到意图预测模型，包括：
20.基于所述多个流量和每个所述流量对应的标签，训练所述分类器子模型；
21.用达到预设目标的训练后的分类器子模型替换所述初始预测模型中的分类器子模型，得到所述意图预测模型。
22.可选地，在基于所述流量样本数据训练所述初始预测模型前，所述方法还包括：
23.选取每个流量的预设长度的数据和该流量对应的标签作为所述初始预测模型的训练数据。
24.可选地，基于所述多个流量和每个所述流量对应的标签训练所述分类器子模型包括：
25.将所述流量样本数据分为训练集和验证集，所述训练集和所述验证集均包括多个流量和每个流量对应的标签；
26.将所述训练集输入所述分类器子模型，训练所述分类器子模型；
27.基于所述验证集验证训练后的分类器子模型是否达到预设目标；
28.所述分类器子模型具有多层结构，如果训练后的分类器子模型未达到所述预设目标，则调整训练后的分类器子模型靠近输出的一层或多层的参数。
29.可选地，所述方法还包括：
30.在训练后的分类器子模型达到所述预设目标后，输出采用达到所述预设目标的分类器子模型预测所述验证集中的流量的所述意图的准确率。
31.根据本说明书实施例的第二方面，提供了一种基于迁移学习识别流量意图的装置，所述装置包括：
32.流量样本获取单元，用于获取流量样本数据，所述流量样本数据包括多个流量和每个所述流量对应的标签，所述标签用于指示所述流量的意图，所述流量的意图指所述流量是用户访问真实触发的流量还是机器触发的流量；
33.模型选取单元，用于基于所述流量样本数据中的所述多个流量从至少一个文本预测模型中选择用于预测流量的所述意图的初始预测模型；
34.模型训练单元，用于基于所述流量样本数据训练所述初始预测模型，得到意图预测模型；
35.意图识别单元，用于基于所述意图预测模型识别采集到的流量的所述意图。
36.根据本说明书实施例的第三方面，提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述基于迁移学习识别流量意图的方法所执行的操作。
37.根据本说明书实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行上述基于迁移学习识别流量意图的方法所执行的
操作。
38.本说明书的实施例提供的技术方案可以包括以下有益效果：
39.本说明书实施例中，获取具有不同意图的流量样本数据，流量样本数据包括多个流量和对应的表示意图的标签；并基于这些流量选择合适的的初始预测模型；然后采用所述流量样本数据对初始预测模型进行训练，得到意图预测模型，并基于意图预测模型识别采集到的流量的意图，相比于现有技术，显著提高了流量意图识别的准确率。
40.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。
附图说明
41.通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：
42.图1是本说明书根据一实施例示出的一种基于迁移学习识别流量意图的方法的流程图。
43.图2是本说明书根据一示例性实施例示出的一种生成意图预测模型的方法的流程示意图。
44.图3是本说明书根据一示例性实施例示出的识别流量意图的示意图。
45.图4是本说明书根据一实施例示出的一种基于迁移学习识别流量意图的装置的结构框图。
46.图5是本说明书根据一示例性实施例示出的一种终端的结构示意图。
47.在附图中，相同或对应的标号表示相同或对应的部分。
具体实施方式
48.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
49.在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
50.迁移学习(transfer learning)是机器学习中的术语,是指一种学习对另一种学习的影响，或习得的经验对完成其他活动的影响。
51.图1是本说明书根据一实施例示出的一种基于迁移学习识别流量意图的方法的流程图。如图1所示，所述方法包括下列步骤102～步骤108。
52.在步骤102，获取流量样本数据，所述流量样本数据包括多个流量和每个所述流量对应的标签，所述标签用于指示所述流量的意图，所述流量的意图表示所述流量是用户访问真实触发的流量还是机器触发的流量。
53.在一种可能的实施方式中，所述流量为基于http协议的流量，所述流量包括统一资源定位符(url)信息、参考(referer)信息、内容长度(content-length)信息、接收的消息类型(accept)信息等。
54.referer是http请求头(header)的一部分，当浏览器或模拟浏览器行为向web服务器发送请求的时候，header中包括referer。发明人对不同访问行为进行深入研究后发现，机器触发的流量的url和referer之间往往比较相似，甚至主域名可以为同一个，而用户访问触发的url多存在referer为空的状态，url和referer之间相似度较低。
55.发明人还发现用户访问触发的url长度一般不会很长，而机器访问触发的url的长度变化范围很大，很可能出现很长的url。
56.请求header(请求头)中的accept信息用于告知服务器客户端可以处理的内容类型。发明人对不同访问行为进行深入研究后发现，用户访问触发的url的accept信息基本都为text/html等有限种类，机器访问触发的accept所指示的类型更为丰富。
57.因此，本实施方式中，在流量中包括上述信息，便于提高后续训练模型的有效性，大大提升最终预测流量意图的准确性。
58.流量中还可包括catch-control(缓存控制)信息、content-length(内容长度)信息、content-type(内容类型)、cookie信息等，这些信息对决策也是有价值的。
59.步骤104，基于所述流量样本数据中的所述多个流量从至少一个文本预测模型中选择用于预测流量的所述意图的初始预测模型。
60.在一种可能的实施方式中，所述文本预测模型包括语言学习子模型，步骤104可包括：
61.基于所述多个流量训练每个所述文本预测模型的语言学习子模型；
62.基于所述多个流量与训练后的语言学习子模型的匹配性，从所述至少一个文本预测模型中选择一者，并将该文本预测模型中的语言学习子模型替换为对应的训练后的语言学习子模型，以得到所述初始预测模型。
63.本实施方式中，通过流量样本数据中的多个流量与现有文本预测模型中的语言学习子模型的匹配性，来选择要迁移学习的文本预测模型，能进一步提高后续意图识别的准确性。因为流量主要为英文形式的自然语言，所以elmo、gpt、bert等文本预测模型都是很好的选择，本技术对此不做限定。
64.在一个示例中，在基于所述多个流量训练每个所述文本预测模型的语言学习子模型前，所述方法还包括：
65.针对每个所述语言学习子模型，对所述多个流量中的每一者进行分词，并根据该语言学习子模型的分词映射规则将每个分词映射为对应的编号，以将所述多个流量转换为该语言学习子模型的训练数据。
66.在一个示例中，基于所述多个流量训练每个所述文本预测模型的语言学习子模型，包括：
67.所述语言学习子模型具有多层结构，基于所述多个流量调整所述语言学习子模型靠近输出的一层或多层的参数。
68.根据本示例，既保证靠近输入层的原始语言学习子模型结构不被破坏，并且可减少训练花费的时间，又尽量使语言学习子模型尽可能向流量数据拟合，使其更适合于对流
量进行分析和预测。
69.可根据语言学习子模型的特点来衡量流量样本数据中多个流量与训练后的语言学习子模型的匹配性。例如，语言学习子模型可根据训练数据中第一指定字段组来预测第二指定字段组，则可将语言学习子模型根据流量中的第一指定字段组预测其第二指定字段组的预测准确率，用来衡量流量与语言学习子模型的匹配性。
70.可将匹配性最高的语言学习子模型对应的文本预测模型作为上述初始预测模型，其中，可将原始的文本预测模型中的语言学习子模型替换为上文中经过训练的语言学习子模型。
71.步骤106，基于所述流量样本数据训练所述初始预测模型，得到意图预测模型。
72.在一个示例中，每个所述文本预测模型还包括分类器子模型，所述分类器子模型在运行中调用所述语言学习子模型。可基于所述多个流量和每个所述流量对应的标签，训练所述分类器子模型，以及用达到预设目标的训练后的分类器子模型替换所述初始预测模型中的分类器子模型，得到所述意图预测模型。
73.在一个示例中，在基于所述流量样本数据训练所述初始预测模型前，所述方法还包括：
74.选取每个流量的预设长度的数据和该流量对应的标签作为所述初始预测模型的训练数据。
75.此处的流量，可以是经上文中分词和映射后得到的符合文本预测模型训练数据格式的流量。特别地，发明人发现，由于流量中可能包含网页的html信息，导致部分流量长度过长，但这些很长的内容往往对识别流量意图贡献不大。因此，本示例中，通过选取流量中预设长度的内容，可以避免作为分类器模型训练数据的流量过长。例如，可以设置选取流量的最大长度为64字节，并确保对于识别流量意图有较重要意义的信息出现在流量的前部。如果某流量超出64字节，则舍弃尾部超出的部分；如果某流量不足64字节，则可使用字符填充至64字节，如常用填充字符“pad”。
76.在一个示例中，基于所述多个流量和每个所述流量对应的标签训练所述分类器子模型包括：
77.将所述流量样本数据分为训练集和验证集，所述训练集和所述验证集均包括多个流量和每个流量对应的标签；
78.将所述训练集输入所述分类器子模型，训练所述分类器子模型；
79.基于所述验证集验证训练后的分类器子模型是否达到预设目标；
80.如果训练后的分类器子模型未达到所述预设目标，则调整训练后的分类器子模型靠近输出的一层或多层的参数。
81.可通过上述方法对分类器子模型进行多次调整，直至达到所述预设目标。根据本示例的调整方式，既保证靠近输入层的原始分类器子模型结构不被破坏，并且可减少训练花费的时间，又可显著提高将训练后的分类器子模型用于流量意图识别时的准确度。
82.上文中的训练、调整等都可以使用深度学习框架实现
83.在一个示例中，所述方法还包括：
84.在训练后的分类器子模型达到所述预设目标后，输出采用达到所述预设目标的分类器子模型预测所述验证集中的流量的所述意图的准确率。采用分类器子模型预测验证集
中的流量的意图的准确率，可作为上文中判断对应分类器子模型是否达到预设目标的条件，例如，某次训练后的分离器子模型预测验证集中流量的意图的准确率低于预设目标值，则可认为该分离器子模型还没有达到预设目标；某次训练后的分离器子模型预测验证集中流量的意图的准确率高于上述预设目标值，则可认为该分离器子模型达到了预设目标。
85.该准确率可反应迁移学习得到的意图预测模型的质量，是衡量意图识别模型是否可靠的一个重要参考标准。
86.步骤108，基于所述意图识别模型识别采集到的流量的所述意图。
87.与前述方法的实施例相对应，本说明书还提供了装置及其所应用的终端的实施例。
88.图2是本说明书根据一示例性实施例示出的一种生成意图预测模型的方法的流程示意图。
89.参见图2，首先构建流量样本数据202，其中包括多个流量和每个流量对应的标签。本示例中获取基于http协议的访问流量，每个流量包括url信息、url自身的长度信息、referer信息、accept信息等。标签指示该流量是用户访问真实触发的流量，还是机器触发的流量。
90.选择至少一个现有的文本预测模型204，elmo、gpt、bert等都是可以考虑的选择。
91.将流量样本数据202中每个流量转换为对应文本预测模型要求的格式，标签可以用0、1的二分类来指示不同意图。将转换后的多个流量作为文本预测模型204中的语言学习子模型的训练数据，根据流量与训练后的语言学习子模型的匹配性，从上述至少一个文本预测模型中选出一个作为要迁移学习的原始模型，并将该原始模型中的语言学习子模型替换为训练后的语言学习子模型，则可得到初始预测模型206。
92.对每个格式转换后的流量，选取其前64字节，和对应的标签一起，作为初始预测模型206中的分类器子模型的训练数据。这些训练数据可被分为两部分，一部分作为训练集，一部分作为验证集。可基于训练集中的多个流量及其标签训练分类器子模型，并基于验证集中的多个流量及其标签验证当前训练后的分类器子模型是否达到预设目标。如果没达到，则解冻当前训练后的分类器子模型靠近输出的一层或多层的参数，对其进行调整，并继续训练调整后的分类器子模型，直至得到的训练后的分类器子模型达到预设目标。可以将基于验证集得到的分类器子模型的意图识别准确率是否达到预设目标值，作为衡量训练后的分类器子模型是否达到预设目标的标准。
93.用达到预设目标的训练后的分类器子模型代替初始预测模型206中的分类器子模型，得到意图预测模型208。同时，还可输出基于验证集得到的当前分类器子模型的预测准确率。
94.图3是本说明书根据一示例性实施例示出的识别流量意图的示意图。在302，得到流量日志。在304，筛选出流量日志中基于http协议的流量。在306，调用根据本技术得到的意图预测模型对基于http协议的流量进行意图识别。在308，得到用户访问真实触发的流量。
95.图4是本说明书根据一实施例示出的一种基于迁移学习识别流量意图的装置的结构框图。如图所示，该装置包括流量样本获取单元402、模型选取单元404、模型训练单元406、意图识别单元408。
96.流量样本获取单元402用于获取流量样本数据，所述流量样本数据包括多个流量和每个所述流量对应的标签，所述标签用于指示所述流量的意图，所述流量的意图表示所述流量是用户访问真实触发的流量还是机器触发的流量。
97.模型选取单元404用于基于所述流量样本数据中的所述多个流量从至少一个文本预测模型中选择用于预测流量的所述意图的初始预测模型；
98.模型训练单元406用于基于所述流量样本数据训练所述初始预测模型，得到意图预测模型；
99.意图识别单元408用于基于所述意图预测模型识别采集到的流量的所述意图。
100.本实施例的其他方面、细节和优势等请参见上文。
101.本技术还提供了一种终端，参见图5，图5是本说明书根据一示例性实施例示出的一种终端的结构示意图。如图5所示，终端包括处理器710、存储器720和网络接口730，存储器720用于存储可在处理器710上运行的计算机指令，处理器710用于在执行所述计算机指令时实现本技术任一实施例所提供的行驶路径确定方法，网络接口730用于实现输入输出功能。在更多可能的实现方式中，终端还可以包括其他硬件，本技术对此不做限定。
102.本技术还提供了一种计算机可读存储介质，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述计算机可读存储介质可以是：ram(radom access memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现本技术任一实施例所提供的行驶路径确定方法。
103.本技术还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现本技术任一实施例所提供的行驶路径确定方法。
104.本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、装置、终端、计算机可读存储介质或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
105.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于终端所对应的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
106.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
107.本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬
件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
108.本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如fpga(现场可编程门阵列)或asic(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。
109.适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏操纵台、全球定位系统(gps)接收机、或例如通用串行总线(usb)闪存驱动器的便携式存储设备，仅举几例。
110.适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如eprom、eeprom和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及cd rom和dvd-rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
111.虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。
112.类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。
113.由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实
现中，多任务和并行处理可能是有利的。
114.本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。也即是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。
115.以上所述仅为本说明书的可选实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：利用海底地形剖面对视像数据定位校正方法及系统与流程

基于迁移学习识别流量意图的方法、装置、终端及介质与流程

相关文献

最热文献