一种用户行为模式的识别方法和装置与流程

2022-07-06 06:59:17 来源：中国专利 TAG：

1.本说明书一个或多个实施例涉及数据挖掘和机器学习领域，尤其涉及一种用户行为模式的识别方法和装置。

背景技术：

2.在很多行业中存在着风险控制的问题，例如电子支付和交易平台中，运营人员经常需要根据用户的行为链路，分析其中是否存在非法运作特别是非法交易的风险。传统的，运营人员需要通过人工分析大量的非法运作事件，才能从中总结出一定的非法运作规律，尤其是非法运作中存在的用户行为模式，其风险判断效率非常低。
3.因此，为了提升运营人员的风险判断效率，需要一种新的用户行为模式的识别方法。

技术实现要素：

4.本说明书中的实施例旨在提供一种新的用户行为模式的识别方法和装置，通过该方法可以根据大量用户行为构成的行为序列，准确的自动获取用户行为的模式。从而，可以一方面大大减少用户行为模式识别中人工分析的工作量，另一方面提高获取的用户行为模式的准确度，解决现有技术中的不足。
5.根据第一方面，提供了一种用户行为模式的识别方法，包括：
6.获取有标签的n个用户行为序列，每个用户行为序列包括依次的多个操作行为；
7.根据所述n个用户行为序列，构建行为转移关系图；所述行为转移关系图包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系；
8.确定各转移关系相对于所述标签的信息价值；
9.根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，所述q值表示多步累积信息价值；
10.根据所述q值和所述转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，其中，所述优化路径用于确定用户的行为模式。
11.在一种可能的实施方式中，所述方法还包括：
12.根据所述优化路径对应的行为子序列，对所述n个用户行为序列中包含所述行为子序列的用户行为序列进行裁剪，获得优化序列，所述优化序列用于确定用户的行为模式。
13.在一种可能的实施方式中，所述方法还包括：
14.基于所述优化序列，进行序列聚类运算，获取若干序列类簇；根据所述若干序列类簇，确定对应的若干用户行为模式。
15.在一种可能的实施方式中，确定各转移关系相对于所述标签的信息价值，包括：
16.根据所述转移关系图中各有向边对应的转移关系，在所述n个用户行为序列中的存在状态，确定各转移关系对应的关系向量；
17.根据所述关系向量，确定各转移关系相对于所述标签的信息价值iv。
18.在一种可能的实施方式中，根据所述转移关系图中各有向边对应的转移关系，在所述n个用户行为序列中的存在状态，确定各转移关系对应的关系向量，包括：
19.对于任一转移关系，根据该转移关系在每个用户行为序列中是否存在，确定该转移关系与该用户行为序列对应的存在状态值；
20.结合该转移关系与各个用户行为序列对应的存在状态值，确定该转移关系对应的关系向量。
21.在一种可能的实施方式中，所述标签为正样本标签或负样本标签；
22.根据所述关系向量，确定各转移关系相对于所述标签的信息价值iv，包括：
23.对于任一转移关系，根据存在状态值，划分该转移关系对应的所述关系向量，获得若干状态分箱子向量；
24.对于每个状态分箱子向量，根据其中各个分量对应的用户行为序列的标签，确定该状态分箱子向量对应的子信息价值；
25.根据各状态分箱子向量对应的子信息价值，确定该转移关系的所述信息价值。
26.在一种可能的实施方式中，所述正样本标签对应于已知的针对目标业务有风险的行为序列，所述负样本标签对应于所述有风险的行为序列之外的用户行为序列。
27.在一种可能的实施方式中，所述各操作行为包括第一操作行为和第二操作行为，根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，包括：
28.获取第一操作行为后采取第二操作行为所对应的转移关系的第一信息价值，以及在所述第二操作行为后采取若干下一步操作行为对应的若干q值中的最大值，基于所述第一信息价值和所述最大值的加权值之和，更新第一操作行为后采取第二操作行为的q值。
29.在一种可能的实施方式中，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，包括：
30.在所述转移关系图中，从任意节点出发沿所述有向边进行若干次节点转移，直到到达节点对应的操作行为属于所述最终操作行为，其中每次节点转移包括从当前节点转移到q值最大的后续操作行为对应的下一节点。
31.根据第二方面，提供一种用户行为模式的识别装置，包括：
32.用户行为序列获取单元，配置为，获取有标签的n个用户行为序列，每个用户行为序列包括依次的多个操作行为；
33.行为转移关系图获取单元，配置为，根据所述n个用户行为序列，构建行为转移关系图；所述行为转移关系图包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系；
34.信息价值确定单元，配置为，确定各转移关系相对于所述标签的信息价值；
35.q值确定单元，配置为，根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，所述q值表示多步累积信息价值；
36.优化路径确定单元，配置为，根据所述q值和所述转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，其中，所述优化路径用于确定用户的行为模式。
37.在一种可能的实施方式中，所述装置还包括：
38.优化序列获取单元，配置为，根据所述优化路径对应的行为子序列，对所述n个用户行为序列中包含所述行为子序列的用户行为序列进行裁剪，获得优化序列，所述优化序列用于确定用户的行为模式。
39.在一种可能的实施方式中，所述装置还包括：
40.用户行为模式确定单元，配置为，基于所述优化序列，进行序列聚类运算，获取若干序列类簇；根据所述若干序列类簇，确定对应的若干用户行为模式。
41.在一种可能的实施方式中，信息价值确定单元，进一步配置为：
42.根据所述转移关系图中各有向边对应的转移关系，在所述n个用户行为序列中的存在状态，确定各转移关系对应的关系向量；
43.根据所述关系向量，确定各转移关系相对于所述标签的信息价值iv。
44.在一种可能的实施方式中，信息价值确定单元，进一步配置为：
45.对于任一转移关系，根据该转移关系在每个用户行为序列中是否存在，确定该转移关系与该用户行为序列对应的存在状态值；
46.结合该转移关系与各个用户行为序列对应的存在状态值，确定该转移关系对应的关系向量。
47.在一种可能的实施方式中，所述标签为正样本标签或负样本标签；
48.信息价值确定单元，进一步配置为：
49.对于任一转移关系，根据存在状态值，划分该转移关系对应的所述关系向量，获得若干状态分箱子向量；
50.对于每个状态分箱子向量，根据其中各个分量对应的用户行为序列的标签，确定该状态分箱子向量对应的子信息价值；
51.根据各状态分箱子向量对应的子信息价值，确定该转移关系的所述信息价值。
52.在一种可能的实施方式中，所述正样本标签对应于已知的针对目标业务有风险的序列，所述负样本标签对应于所述有风险的行为序列之外的用户行为序列。
53.在一种可能的实施方式中，所述各操作行为包括第一操作行为和第二操作行为，q值确定单元，进一步配置为，
54.获取第一操作行为后采取第二操作行为所对应的转移关系的第一信息价值，以及在所述第二操作行为后采取若干下一步操作行为对应的若干q值中的最大值，基于所述第一信息价值和所述最大值的加权值之和，更新第一操作行为后采取第二操作行为的q值。
55.在一种可能的实施方式中，优化路径确定单元，进一步配置为：
56.在所述转移关系图中，从任意节点出发沿所述有向边进行若干次节点转移，直到到达节点对应的操作行为属于所述最终操作行为，其中每次节点转移包括从当前节点转移到q值最大的后续操作行为对应的下一节点。
57.根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。
58.根据第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。
59.利用以上各个方面中的方法、装置、计算设备、存储介质中的一个或多个，可以准
确的自动获取用户行为的模式，从而减少用户行为模式识别中人工分析的工作量，并提高获取的用户行为模式的准确度。
附图说明
60.为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
61.图1示出根据本说明书实施例的一种用户行为模式的识别方法的原理示意图；
62.图2示出根据本说明书实施例的一种用户行为模式的识别方法的流程图；
63.图3示出根据本说明书实施例的一种用户动作序列列表的示意图；
64.图4示出根据本说明书实施例的一种动作关系图的示意图；
65.图5示出根据本说明书实施例的一种r值表的示意图；
66.图6示出根据本说明书实施例的一种q值表的示意图；
67.图7示出根据本说明书实施例的一种用户行为模式的识别装置的结构图。
具体实施方式
68.下面将结合附图，对本发明书提供的方案进行描述。
69.如前所述，很多行业中需要进行运营风险控制。例如在电子支付和交易平台中，风险运营人员经常需要分析一些风险案件的非法操作链路，并从中分析一些常见的非法运作模式。通常，一个用户在客户端应用内的行为链路可能非常复杂，例如可以包括注册、登录、点击、访问、提交请求、购买等各种复杂的行为。
70.但是，对于一个特定场景的非法运作来说，用户的行为链路可能是非常相似的，比如在盗用账户的场景中，典型的非法运作动作序列例如常常包括改密、换绑、核身、支付等行为；在欺诈场景中，典型的被欺诈者动作序列例如常常包括打开相册扫码、添加好友、转账等行为；在信用套现的场景中，典型的套现手法例如常常包括查看信用分、打开离线支付开关、支付、收款等行为。传统的人工运营方法经常需要人工分析很多非法运作事件，才能从中总结出非法运作中特定的用户行为规律、或者发现非法运作中的用户行为模式。但是，这样的方法需要大量的运营人员并消耗大量的人工工作量，且运营效率非常低。
71.另一种方案，是对用户动作序列进行序列编码，然后例如通过回归模型或分类模型，获取风险识别的评分或分类。这种方法根据全量的动作序列进行分类，序列中可能参杂大量与风险识别无关或相关性很小的用户操作，也会带来识别结果不够精确，以及识别结果可解释性差的问题。
72.为了提升风险运营人员的运营效率，减少运营人员的工作量，以及提高用户行为模式的识别的准确性，本说明书实施例提供了一种用户行为模式的识别方法。图1示出根据本说明书实施例的一种用户行为模式的识别方法的原理示意图。如图1所示，首先，获取若干的用户行为序列，其中，可以包括由已知的、不同类型的非法运作场景下的，有序的多个用户操作构成的用户行为序列，例如，可以是从已知的盗用账户、欺诈、信用套现等场景下的用户行为序列。还可以包括，上述已知的非法运作场景的用户行为序列之外的用户行为序列。
73.在获取用户行为序列之后，可以根据各个用户行为序列，构建行为转移关系图。其构建方式是，根据各行为序列中任意的用户操作，确定行为转移关系图中的节点，根据不同的各行为序列中任意的两个连续的用户操作之间具有的连续关系(或称转移关系)，确定节点之间的有向边。并且，确定这些转移关系各自的信息价值。
74.在得到行为转移关系图和上述的信息价值之后，可以基于转移关系图和上述的信息价值进行q-iearning学习，其中，将两个连续的用户操作中的前一个操作对应于常规q-learning学习中的状态(state)，将其后一个操作对应于常规q-learning学习中的状态(state)下采取的动作(action)，以上述的信息价值作为两个连续的用户操作(对应的转移关系)的奖励或回报(reward)。然后，基于上述连续动作之间的奖励和转移关系图，确定各转移关系对应的q值。
75.在得到各转移关系对应的q值之后，就可以根据各q值和转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，此后，根据获取的优化路径，确定用户的行为模式。在一个实施例中，例如可以根据优化路径对用户行为序列进行裁剪，然后利用优化裁剪后的行为序列进行聚类，获取行为序列类簇，并根据行为序列类簇，确定用户行为模式。
76.该方法具有如下优点：一方面，该方法可以广泛应用在需要分析用户行为序列的场景，可以帮助风险运营人员快速分析、发现各种用户行为模式，相对于通过人工分析获取用户行为模式，通过该方法可以根据用户行为数据，自动获取其行为模式，大大减少了用户行为模式识别中人工分析的工作量，提高了分析效率。第二方面，根据该方法获取的优化路径，具有更好的与特定风险行为的相关性，因此根据所述优化路径，可以更好确定实施特定风险行为的用户行为模式。
77.下面进一步阐述该方法的详细过程。图2示出根据本说明书实施例的一种用户行为模式的识别方法的流程图。如图2所述，该方法至少包括如下步骤：
78.步骤21，获取有标签的n个用户行为序列，每个用户行为序列包括依次的多个操作行为；
79.步骤22，根据所述n个用户行为序列，构建行为转移关系图；所述行为转移关系图包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系；
80.步骤23，确定各转移关系相对于所述标签的信息价值。
81.步骤24，根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，所述q值表示多步累积信息价值；
82.步骤25，根据所述q值和所述转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，其中，所述优化路径用于确定用户的行为模式。
83.首先，在步骤21，获取有标签的n个用户行为序列，每个用户行为序列包括依次的多个操作行为。
84.该步骤中，所述用户行为序列中可以包括依次的多个用户操作。在不同的实施例中，所述多个用户操作例如可以是针对的不同的具体应用、业务、用户终端、操作界面的用户操作行为。在不同的实施例中，也可以采用不同的提取或截获用户操作的具体方式。本说明书关注的是得到用户行为序列之后的处理过程，而对于其中的用户操作针对何种施加对
象，或提取用户操作的具体方式并不关注，对此也不做限制。
85.根据一种实施方式，所述用户操作可以是针对目标业务的用户操作。因此，在一个实施例中，可以获取多个用户行为序列，其中，每个用户行为序列包括针对目标业务的、依次的多个用户业务行为。在一个实施例中，所述n个用户动作序列可以构成用户动作序列列表，图3示出根据本说明书实施例的一种用户动作序列列表的示意图，其中，用户行为序列的标签表明该用户序列是否是已知的具有特定性质的行为序列。在一个具体的实施例中，该标签可以表明对应序列是否为针对前述目标业务而言风险已知的行为序列，例如已知存在盗用账户、欺诈、信用套现等风险的行为序列。例如，在一个例子中，若标签为1，表示该行为序列是已知的针对目标业务具有风险的行为序列，若其标签为0表示该行为序列是已知的有风险行为序列之外的行为序列。在不同的具体例子中，已知的具有风险的行为序列可以通过不同的具体方式确定，例如根据用户举报或根据其他识别模型识别，本说明书对此不做限制。在不同的实施例中，正、负样本标签可以对应于是否具有不同的特定性质。
86.在获取多个用户行为序列之后，在步骤22，根据所述n个用户行为序列，构建行为转移关系图；所述行为转移关系图包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系。
87.该步骤中，根据步骤21获取的用户行为序列，构建行为转移关系图。序列关系图可以为有向图，其中包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系。例如，图3所示中的act_3和act_i，act_1和act_n均构成转移关系。图4示出根据本说明书实施例的一种行为转移关系图的示意图。如图4所示，其中的各个节点均对应于不同的操作行为，例如，节点1对应于用户操作act_1，节点2对应于用户操作act_2，类似的，其余节点也具有各自对应的用户操作行为。节点之间的有向边，表示连续两个操作行为之间的转移关系。例如，图4中节点1和节点2之间存在有向边，表示构建该动作关系图所依据的多个用户行为序列(例如图3所示的用户序列列表)中，有一个或多个用户行为序列中存在连续的两个操作动作act_1和act_2，或者说，存在act_1到act_2的转移。又例如，节点2和节点i之间存在有向边，表示上述的多个用户行为序列中，有一个或多个中，存在连续的两个操作动作act_2和act_i，或者说，存在act_2到act_i的转移。类似的，其余的有向边其各自对应的一个用户操作动作到另一个用户操作动作的转移。在一个实施例中，一种操作动作转移，例如act_2到act_i的转移，可以在同一个用户行为序列或者多个用户行为序列出现多次，而其在动作转移关系图可以仅对应于一条有向边。例如，在一个例子中，用户行为序列s1为“beabcabe”，其中各个字符“a”、“b”、“c”、“e
”…
表示不同的用户操作，用户行为序列s2为“xabch”。则根据两者构成的动作转移关系图中，动作“a”对应的节点到动作“b”对应的节点只有一条有向边。
88.并且，在步骤33，确定各转移关系相对于所述标签的信息价值。
89.信息价值(information vaiue，iv)，通常用来衡量特征的预测能力。在本说明书实施例的场景下，转移关系的信息价值则可以反映，该转移关系对应的连续两个动作对于所属行为序列的标签值，或者说是否具有特定性质(例如是否为风险序列)所起的作用大小。例如，某些高频出现的连续动作对于所属行为序列性质的判断几乎没有贡献，则其信息价值较小；有些连续动作的出现对于所属行为序列性质的判断起着决定性作用，则其信息价值较大。该步骤中获取信息价值iv值，主要用于在后续步骤中作为q-learning强化学习
中各转移关系对应的回报reward值，以确定出q值，从而获取到达最终节点的优选路径。
90.由于各转移关系是在用户行为序列中存在的行为转移关系，所以，可以根据用户行为序列及其标签，确定各转移关系对应的特征向量，然后根据该特征向量确定对应的信息价值。因此，在一个实施例中，可以根据所述转移关系图中各有向边对应的转移关系在所述n个用户行为序列中的存在状态，确定各转移关系对应的关系向量(即转移关系对应的特征向量)；根据所述关系向量，确定各转移关系相对于所述标签的信息价值iv。在一个具体的实施例中，对于任一转移关系，可以根据该转移关系在每个用户行为序列中是否存在，确定该转移关系与该用户行为序列对应的存在状态值；结合该转移关系与各个用户行为序列对应的存在状态值，确定该转移关系对应的关系向量。然后，可以根据各用户行为序列的标签和该关系向量，确定该转移关系的信息价值。在一个具体的实施例中，用户行为序列的标签可以为正样本标签或负样本标签；对于任一转移关系，可以根据存在状态值，划分该转移关系对应的所述关系向量，获得若干状态分箱子向量；对于每个状态分箱子向量，根据其中各个分量对应的用户行为序列的标签，确定该状态分箱子向量对应的子信息价值；根据各状态分箱子向量对应的子信息价值，确定该转移关系的所述信息价值。
91.在一个具体的实施例中，例如对于所有的1000条序列s1～s1000，act_1到act_2的转移关系，仅在其中的100序列中，例如在s1～s100(这里用连续的序列s1～s100仅为方便描述，实际可以是不连续的)中存在。因此，该转移关系在各序列中的存在状态值可以包括0和1，分别对应于存在和不存在。进而，可以根据存在状态值，将所述关系向量划分为2个状态分箱子向量，即s1～s100对应的第一状态分箱子向量和s101～s1000对应的第二状态分箱子向量。然后，可以根据分箱子向量中，各个分量对应的序列的标签，确定该子向量对应的子信息价值(例如，可以根据s1～s100中各个序列的标签，对应第一状态分箱子向量对应的子信息价值)。再结合各子向量对应的子信息价值，确定该转移关系对应的信息价值。在一个具体的例子中，子信息价值的确定可以表示为：
[0092][0093][0094]
其中，ivi为状态分箱子向量对应的子信息价值，i为状态分箱子向量的序号，i为状态分箱子向量的序号，，badi为状态分箱子向量对应的用户行为序列中所有响应序列(例如标签为1的序列)的数量，bad
t
为所有用户行为序列中所有响应序列的数量，goodi为分箱子向量对应的用户行为序列中所有非响应序列(例如标签为0的序列)的数量，good
t
为所有用户行为序列中所有非响应序列的数量，iv为转移关系的信息价值。
[0095]
在一个例子中，正样本标签可以对应于已知危险行为序列，所述负样本标签可以对应于已知危险行为序列之外的用户行为序列。
[0096]
在一个实施例中，确定后的各转移关系的信息价值可以构成转移关系奖励表(r值表)。图5示出根据本说明书实施例的一种r值表的示意图，其中，从动作act_1到动作act_2的转移关系对应的奖励r_12，即该转移关系对应的信息价值；从动作act_1到动作act_n的转移关系对应的奖励r_1n，即该转移关系对应的信息价值，类似的，其他动作之间的转移关
系也以其对应的信息价值作为该转移关系的奖励。所有转移关系对应的奖励可以构成转移关系奖励表。在一个具体的实施例中，各转移关系对于其本身不存在转移关系，或不构成有意义的转移关系，例如，act_1到act_1不构成转移关系，因此在转移关系奖励表中可以以特定的预设奖励值，表示无意义的转移关系的奖励值。在一个例子中，所述预设奖励值例如为-1。
[0097]
获取的转移关系奖励表，主要用于后续步骤中基于q-iearning机器学习，根据所述转移关系奖励表确定各操作行为后采取其它操作行为的q值，详细过程参见对于后续步骤的描述。
[0098]
在获取上述信息价值之后，在步骤24，根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，所述q值表示多步累积信息价值。
[0099]
该步骤中，本质上基于q-learning方法，根据步骤23获取的转移关系的信息价值(作为该转移关系的奖励)和所述转移关系图，确定在各操作行为后采取其它操作行为的q值。常规的，q-learning是一种强化学习方法，其本质上包括状态(state)、动作(action)、奖赏(reward)这三个要素，q-learning的目的是学习特定state下、特定action的价值(可以是基于多步积累估算的价值)，即q值。具体的，可以建立一个q表，其中，例如以各状态为行、各动作为列。然后，通过从状态空间(由所有的不同状态构成)中包括的起始状态，到达状态空间中包括的目标状态的探索，更新q表。具体的，在上述探索中每次进行状态之间转换时，根据为该转换而执行的动作带来的奖励(或称回报)，更新该转换的起始状态-该动作在q表对应的q值。
[0100]
该步骤中的q-learning学习与现有的常规q-iearning学习不同的地方在于，常规的q-iearning中，通常学习的是，在不同的状态(state)下，采取的不同动作(acti on)的q值。而本说明书实施例中，通过q-learning学习的是，两个连续动作的q值，即在前置动作下，采取的后一种动作的q值。也就是说，其状态空间本质上由操作动作构成，其动作空间也由操作动作构成。
[0101]
具体的，在学习过程中，两个连续动作的q值可以根据两个连续动作对应的转移关系的信息价值来确定(本质就是作为该动作转移的奖赏)。因此，在一个实施例中，可以首先对q表进行初始化。然后，在转移关系图中进行随机游走，来更新q表。在随机游走过程中，对于任意有向边连接的第一操作行为和第二操作行为，可以获取第一操作行为后采取第二操作行为所对应的转移关系的第一信息价值，并获取在第二操作行为后采取若干下一步操作行为对应的若干q值中的最大值，根据上述第一信息价值和最大值的加权值之和，更新第一操作行为后采取第二操作行为的q值。在一个具体的实施例中，第一操作行为后采取第二操作行为(或者说其对应的转移关系)的q值，可以表示为：
[0102]
q(action，action
next
)
[0103]
＝r(action，action
next
) gamma*max[q(action
next
，allactions)]
[0104]
其中，action为转移关系中动作转移前的操作行为，即前述的第一操作行为，action
next
为转移关系中动作转移后的操作行为，即前述的第二操作行为，q(action，action
next
)为转移关系对应的q值，r(action，action
next
)为转移关系对应的奖励，gamma为学习系数(作为加权求和的权重系数)，表示第二操作行为action
next
与其后所有可行操作动作构成的所有转移关系对应的q值中，最大的q值。
[0105]
在一个实施例中，确定后的各转移关系的q值可以构成q值表。图6示出根据本说明书实施例的一种q值表的示意图，如图6所示，其中，从动作act_1到动作act_2的转移关系对应的q值为q_12；从动作act_1到动作act_n的转移关系对应的q值为q_1n，类似的，其他动作之间的转移关系也具有其对应的q值。所有转移关系的q值可以构成q值表。
[0106]
此后，在步骤25，根据所述q值和所述转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，其中，所述优化路径用于确定用户的行为模式。
[0107]
可以理解，根据上述的q值表和所述转移关系图，可以方便获取从任一起始动作到任一最终动作的所述优化路径。例如，对于从任一起始动作到任一最终动作的转移过程中的每一次动作转移，选择可选的动作转移中对应q值最大的动作转移，直至到该最终动作，结合上述每一次动作转移得到优化路径。因此，在一个实施例中，可以在所述转移关系图中，从任意节点出发沿所述有向边进行若干次节点转移，直到到达节点对应的操作行为属于所述最终操作行为，其中每次节点转移包括从当前节点转移到q值最大的后续操作行为对应的下一节点。这一部分与常规的q-learning方案类似，本说明书不再赘述。
[0108]
所述优化路径本质可以对应于，所述用户行为序列中与例如特定风险行为关联性更强的子序列。因此，根据一种实施方式，还可以根据所述优化路径对应的行为子序列，对所述n个用户行为序列中包含所述行为子序列的用户行为序列进行裁剪，获得优化序列，所述优化序列用于确定用户的行为模式。例如，原有的各用户行为序列中包括用户行为序列s3，具体为“acbadfbadfdand”，其中各字符表示不同的操作动作。获取的优化路径包括y1，y2，分别为“dan”、“bad”。则可以根据y1，y2，对s3进行裁剪，例如，保留其中的优化路径部分，去掉其余部分，裁剪后的序列为“badbaddan”。可以理解，裁剪后的用户行为序列与例如特定风险行为的关联性也更强，因此，根据其可以更精确地判断，实施特定风险行为的用户行为模式。在不同的实施例中，可以根据裁剪后的用户行为序列，采用不同的具体方式进行用户行为模式确定，本说明书对此不做限定。在一个实施例中，例如可以基于所述优化序列，进行序列聚类运算，获取若干序列类簇；根据所述若干序列类簇，确定对应的若干用户行为模式。在不同的具体实施例中，可以采用不同的具体聚类算法，获取聚类结果(类簇)。若干节点的节点类簇本质上可以对应于若干用户行为序列组成的集合。因此，在一个实施例中，在获取若干用户行为序列集合之后，可以根据所述若干用户行为序列集合，确定对应的若干用户行为模式。
[0109]
根据又一方面的实施例，还提供一种用户行为模式的识别装置。图7示出根据本说明书实施例的一种用户行为模式的识别装置的结构图，如图7所示，该装置700包括：
[0110]
用户行为序列获取单元71，配置为，获取有标签的n个用户行为序列，每个用户行为序列包括依次的多个操作行为；
[0111]
行为转移关系图获取单元72，配置为，根据所述n个用户行为序列，构建行为转移关系图；所述行为转移关系图包括节点以及节点之间的有向边，所述节点对应于所述操作行为，所述有向边对应于所述n个用户行为序列中连续两个操作行为之间的转移关系；
[0112]
信息价值确定单元73，配置为，确定各转移关系相对于所述标签的信息价值；
[0113]
q值确定单元74，配置为，根据所述信息价值和所述转移关系图，确定在各操作行为后采取其它操作行为的q值，所述q值表示多步累积信息价值；
[0114]
优化路径确定单元75，配置为，根据所述q值和所述转移关系图，确定从各个操作行为出发，到达各用户行为序列的最终操作行为的优化路径，其中，所述优化路径用于确定用户的行为模式。
[0115]
在一个实施例中，所述装置还可以包括：
[0116]
优化序列获取单元，配置为，根据所述优化路径对应的行为子序列，对所述n个用户行为序列中包含所述行为子序列的用户行为序列进行裁剪，获得优化序列，所述优化序列用于确定用户的行为模式。
[0117]
在一个实施例中，所述装置还可以包括：
[0118]
用户行为模式确定单元，配置为，基于所述优化序列，进行序列聚类运算，获取若干序列类簇；根据所述若干序列类簇，确定对应的若干用户行为模式。
[0119]
在一个实施例中，信息价值确定单元，可以进一步配置为：
[0120]
根据所述转移关系图中各有向边对应的转移关系，在所述n个用户行为序列中的存在状态，确定各转移关系对应的关系向量；
[0121]
根据所述关系向量，确定各转移关系相对于所述标签的信息价值iv。
[0122]
在一个实施例中，信息价值确定单元，可以进一步配置为：
[0123]
对于任一转移关系，根据该转移关系在每个用户行为序列中是否存在，确定该转移关系与该用户行为序列对应的存在状态值；
[0124]
结合该转移关系与各个用户行为序列对应的存在状态值，确定该转移关系对应的关系向量。
[0125]
在一个实施例中，所述标签可以为正样本标签或负样本标签；
[0126]
信息价值确定单元，可以进一步配置为：
[0127]
对于任一转移关系，根据存在状态值，划分该转移关系对应的所述关系向量，获得若干状态分箱子向量；
[0128]
对于每个状态分箱子向量，根据其中各个分量对应的用户行为序列的标签，确定该状态分箱子向量对应的子信息价值；
[0129]
根据各状态分箱子向量对应的子信息价值，确定该转移关系的所述信息价值。
[0130]
在一个实施例中，所述正样本标签对应于已知的针对目标业务有风险的序列，所述负样本标签对应于所述有风险的行为序列之外的用户行为序列。
[0131]
在一个实施例中，所述各操作行为可以包括第一操作行为和第二操作行为，q值确定单元，可以进一步配置为，
[0132]
获取第一操作行为后采取第二操作行为所对应的转移关系的第一信息价值，以及在所述第二操作行为后采取若干下一步操作行为对应的若干q值中的最大值，基于所述第一信息价值和所述最大值的加权值之和，更新第一操作行为后采取第二操作行为的q值。
[0133]
在一个实施例中，优化路径确定单元，可以进一步配置为：
[0134]
在所述转移关系图中，从任意节点出发沿所述有向边进行若干次节点转移，直到到达节点对应的操作行为属于所述最终操作行为，其中每次节点转移包括从当前节点转移到q值最大的后续操作行为对应的下一节点。
[0135]
本说明书又一方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项方法。
[0136]
本说明书再一方面提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述任一项方法。
[0137]
需要理解，本文中的“第一”，“第二”等描述，仅仅为了描述的简单而对相似概念进行区分，并不具有其他限定作用。
[0138]
本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0139]
以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于发车排班的资源调度方法、装置、设备和介质与流程

一种用户行为模式的识别方法和装置与流程

相关文献

最热文献