展示账号特征信息的方法、装置、可读介质及电子设备与流程

2023-01-15 12:27:10 来源：中国专利 TAG：

1.本公开涉及计算机技术领域，具体地，涉及一种展示账号特征信息的方法、装置、可读介质及电子设备。

背景技术：

2.随着互联网的不断发展和金融体系的不断完善，账号风险评估机制已经在金融风控行业中得到广泛应用。通过账号风险评估，可以对所收集的账号相关信息的风险评估，从而在风险识别环节提供帮助，有利于更好的了解风险以及对风险做出防范措施。例如，在金融风控行业中，通过账号风险评估，可以在用户借贷的事前评估用户逾期风险、事后评估用户催收概率，从而对高风险的用户进行不同的策略管控，因此，账号风险评估是金融风控算法的核心环节。
3.但是，在相关技术中，采用机器学习的方法进行账号风险评估，完全是黑盒处理，导致评估结果可解释性不足，用户无法知道具体的异常原因。

技术实现要素：

4.提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。
5.根据本公开实施例的第一方面，提供一种展示账号特征信息的方法，所述方法包括：
6.确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；
7.通过目标模型获取每个待定特征信息为异常特征的异常概率；
8.针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；
9.展示每个所述特征维度对应的所述目标特征信息。
10.根据本公开实施例的第二方面，提供一种展示账号特征信息的装置，所述装置包括：
11.第一确定模块，用于确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；
12.获取模块，用于通过目标模型获取每个待定特征信息为异常特征的异常概率；
13.第二确定模块，用于针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；
14.展示模块，用于展示每个所述特征维度对应的所述目标特征信息。
15.根据本公开实施例的第三方面，提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理装置执行时实现本公开第一方面所述方法的步骤。
16.根据本公开实施例的第四方面，提供一种电子设备，包括：
17.存储装置，其上存储有计算机程序；
18.处理装置，用于执行所述存储装置中的所述计算机程序，以实现本公开第一方面所述方法的步骤。
19.采用上述技术方案，确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；通过目标模型获取每个待定特征信息为异常特征的异常概率；针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；展示每个所述特征维度对应的所述目标特征信息。这样，基于多个特征维度确定并展示目标特征信息，可以全面衡量目标帐号在各个维度的风险，增强了模型输出的可解释性，方便用户(例如风控人员)清晰地了解目标账号在各个特征维度的异常风险。
20.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
21.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。在附图中：
22.图1是根据一示例性实施例示出的一种展示账号特征信息的方法的流程图。
23.图2是根据一示例性实施例示出的一种用于展示目标特征信息的雷达图的示意图。
24.图3是根据一示例性实施例示出的一种预先生成第一特征维度对应关系的方法的流程图。
25.图4是根据一示例性实施例示出的一种图表信息的示意图。
26.图5是根据一示例性实施例示出的一种展示账号特征信息的装置的框图。
27.图6是根据一示例性实施例示出的另一种展示账号特征信息的装置的框图。
28.图7是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
29.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
30.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
31.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
32.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
33.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。在本公开的描述中，除非另有说明，“多个”是指两个或多于两个，其它量词与之类似；“至少一项(个)”、“一项(个)或多项(个)”或其类似表达，是指的这些项(个)中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，至少一项(个)a，可以表示任意数目个a；再例如，a，b和c中的一项(个)或多项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个；“和/或”是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况，其中a，b可以是单数或者复数。
34.在本公开实施例中尽管在附图中以特定的顺序描述操作或步骤，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作或步骤，或是要求执行全部所示的操作或步骤以得到期望的结果。在本公开的实施例中，可以串行执行这些操作或步骤；也可以并行执行这些操作或步骤；也可以执行这些操作或步骤中的一部分。
35.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
36.可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
37.例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
38.作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
39.可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。
40.同时，可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
41.下面结合具体实施例对本公开进行说明。
42.图1是根据一示例性实施例示出的一种展示账号特征信息的方法的流程图。该方法可以应用于电子设备，该电子设备可以包括终端设备，例如智能手机、智能可穿戴设备、智能音箱、智能平板、pda(personal digital assistant，个人数字助理)、cpe(customer premise equipment，客户终端设备)、个人计算机、车载终端等；该电子设备也可以包括服务器，例如本地服务器或云服务器。如图1所示，该方法可以包括：
43.s101、确定目标账号对应的多个特征维度，以及每个特征维度对应的待定特征信
息。
44.其中，该特征维度可以是预先设定的任意维度。
45.在一些实施例中，该特征维度包括以下维度中的一项或多项：
46.身份维度：可以用于表征衡量目标帐号是否是用户本人操作的特征，例如是否常用地点等。
47.内容维度：可以用于表征目标帐号在内容层面(例如投稿、点赞等)的统计特征。
48.行为维度：可以用于表征目标帐号在客户端的行为(例如登录、点赞等)的统计特征。
49.环境维度：可以用于表征目标帐号使用的设备、ip地址、mac地址的风险特征。
50.关联维度：可以用于表征目标帐号通过介质关联的用户规模(团伙程度)和封禁数、处罚数等相关联的风险特征。
51.历史维度：可以用于表征目标帐号的历史处罚信息。
52.需要说明的是，上述六大维度为举例说明，本公开实施例中的特征维度并不仅仅局限在上述六大维度，也可以包括其他维度。
53.s102、通过目标模型获取每个待定特征信息为异常特征的异常概率。
54.其中，该异常概率可以是目标模型判定该待定特征信息为异常特征的概率，该概率可以为0至1之间的任意数值，可以以百分比或千分比表示，例如，可以是0％至100％之间的任意数值。需要说明的是，该异常概率也可以称为风险概率。
55.在一些实施例中，该目标模型可以为评分卡模型。示例地，为了兼具模型的可解释性和泛化性，该评分卡模型可以包括带l2正则项的逻辑回归模型来拟合得到目标账号的每个待定特征信息为异常特征的异常概率。
56.在一些实施例中，该目标模型可以包括逻辑回归模型。示例地，该s102步骤可以包括以下子步骤：
57.首先，对输入的待定特征信息进行卡方分箱处理，得到待定特征信息的每个分箱对应的第一证据权重woe(weight of evidence)。
58.其次，将待定特征信息和第一woe输入逻辑回归模型，得到待定特征信息的每个分箱对应的逻辑回归系数。
59.最后，根据第一woe和逻辑回归系数计算得到待定特征信息对应的异常概率。
60.其中，woe可以表征自变量每个分箱下异常账号(也可以称为风险账号)对正常帐号占比和总体中异常帐号对正常帐号占比之间的差异。在本实施例中，将卡方分箱后的每个分箱对应的第一woe作为逻辑回归模型的输入，可以取得以下效果：
61.1)可以增强模型的泛化性，避免模型过拟合，根据每个分箱的好坏比以及整体的好坏比差异程度来给相应的箱编码，将本来很多的取值，变成了几个数值来替代，一定程度上增加泛化能力。
62.2)可以增强模型的鲁棒性，使得样本特征更加平滑，去掉了极端值对模型训练的影响，加快了模型的收敛速度。
63.3)对于离散变量可以减少离散变量的类别数，对相似的类别进行合并；而对于连续变量，可以将非线性特征转化为线性特征。
64.进一步地，上述逻辑回归模型可以是包含l2正则项的逻辑回归模型，该逻辑回归
模型可以将逻辑回归系数的估计值压缩到一个合理的范围内，避免出现模型不收敛的情况。示例地，通过训练得到的逻辑回归模型，可以对目标账号的待定特征信息进行风险预测，得到一个介于0至1之间的异常概率(也可以称为风险概率)，若该异常概率的值越接近1，则待定特征信息为异常特征的异常概率越大，表明目标账号的风险程度越高；若该异常概率的值越接近0，则待定特征信息为异常特征的异常概率越小，表明帐号的风险程度越低。
65.需要说明的是，关于上述卡方分箱处理和逻辑回归模型的具体处理方式，可以参考相关技术中的实现方式，本公开对此不作限定。
66.在一些实施例中，上述异常概率可以通过以下公式(1)计算得到：
[0067][0068]
其中，g表示该待定特征信息的异常概率，xi表征该待定特征信息的第i个分箱的第一woe值，βi表征该待定特征信息的第i个分箱的，n为表征待定特征信息的分箱总数，exp表征以自然常数e为底的指数函数。
[0069]
通过上述公式可以得到：异常概率与第一woe和逻辑回归系数的乘积成正比，因此，第一woe和逻辑回归系数的乘积越大，则该待定特征信息为异常特征的概率就越大，这样，第一woe和逻辑回归系数的乘积可以代表了该待定特征信息的分箱的分箱异常概率(也可以称为风险程度)。
[0070]
s103、针对每个特征维度，根据异常概率从特征维度对应的待定特征信息中确定目标特征信息。
[0071]
其中，该目标特征信息可以用于表征每个特征维度对应的待定特征信息中异常概率最大的一个或多个特征。
[0072]
在一些实施例中，针对每个特征维度，可以将异常概率大于第一预设概率阈值的待定特征信息作为目标特征信息。该第一预设概率阈值可以是预先设定的阈值，例如，异常概率的取值范围为0至1的情况下，该第一预设概率阈值可以是0.5或0.8。
[0073]
在另一些实施例中，可以将异常概率最大的前n个待定特征信息作为目标特征信息，其中，n可以为预先设定的任意正整数，例如n可以为3或5。
[0074]
在另外一些实施例中，可以在异常概率大于第二预设概率阈值的待定特征信息，选择异常概率最大的前m个待定特征信息作为目标特征信息，其中,m可以为预先设定的任意正整数，例如m可以为3或5。m和n可以相同，也可以不同；该第二预设概率阈值与第一预设概率预设可以相同，也可以不同。
[0075]
s104、展示每个特征维度对应的目标特征信息。
[0076]
在本步骤中，展示该目标特征信息的方式可以有多种。
[0077]
例如，可以在根据目标特征信息确定目标账号为异常账号的情况下，展示每个特征维度对应的目标特征信息。
[0078]
再例如，可以不考虑目标账号是否为异常账号，均展示每个特征维度对应的目标特征信息。
[0079]
在一些实施例中，可以通过语音、视频、文字、表格、图形(例如柱状图、雷达图)等形式中一种或多种，展示每个特征维度对应的上述目标特征信息。
[0080]
采用上述方法，确定目标账号对应的多个特征维度，以及每个特征维度对应的待定特征信息；通过目标模型获取每个待定特征信息为异常特征的异常概率；针对每个特征维度，根据异常概率从特征维度对应的待定特征信息中确定目标特征信息；展示每个特征维度对应的目标特征信息。这样，基于多个特征维度确定并展示目标特征信息，可以全面衡量目标帐号在各个维度的风险，增强了模型输出的可解释性，方便用户(例如风控人员)清晰地了解目标账号在各个特征维度的异常风险。
[0081]
在本公开的一些实施例中，上述s104步骤展示目标特征信息的方式可以包括以下子步骤：
[0082]
首先，根据目标特征信息确定目标账号是否为异常账号。
[0083]
然后，在目标账号为异常账号的情况下，展示每个特征维度对应的目标特征信息。
[0084]
在一些实现方式中，可以根据目标特征信息确定每个特征维度对应的风险系数，并根据该风险系数确定目标账号是否为异常账号。
[0085]
例如，可以计算得到目标账号的多个特征维度的风险系数的平均值，在该平均值大于或等于第一预设风险阈值的情况下，确定该目标账号为异常账号。
[0086]
再例如，可以获取目标账号的多个特征维度的风险系数的最大值，在最大值大于或等于第二预设风险阈值的情况下，确定该目标账号为异常账号。
[0087]
这样，可以仅针对异常账号展示每个特征维度对应的目标特征信息，方便用户查看。
[0088]
在本公开的一些实施例中，可以以雷达图的形式展示每个特征维度对应的目标特征信息。图2是根据一示例性实施例示出的一种用于展示目标特征信息的雷达图的示意图。如图2所示该雷达图可以用于展示目标账号的风险总览，该风险总览中可以包括多个特征维度，以及每个特征维度对应的目标特征信息。示例地，风险总览可以以雷达图的形式展示以下六大维度的风险系数(该风险系数可以是0至9之间的任意数值)，该六大维度可以包括身份维度(也可以称为身份风险)、内容维度(也可以称为内容风险)、行为维度(也可以称为行为风险)、环境维度(也可以称为环境风险)、关联维度(也可以称为关联风险)和历史维度(也可以称为历史风险)。风险解析部分可以进行综合判断该账号的风险情况，并给出每个特征维度的风险情况。
[0089]
在本公开的一些实施例中，上述s101步骤中的特征维度可以为预先设置的特征维度，确定每个特征维度对应的待定特征信息的方式可以包括：
[0090]
首先，获取目标账号对应的多个第一特征信息。
[0091]
示例地，该第一特征信息可以是针对该目标账户的提取的初始特征信息。例如，通过相关技术中的行为分析和特征提取方法，对目标账号的行为等特征进行分析，提取得到该目标账户的多个初始特征信息作为该第一特征信息。
[0092]
其次，根据第一特征维度对应关系，从多个第一特征信息中确定每个特征维度对应的待定特征信息。
[0093]
其中，该待定特征信息可以是第一特征信息的子集，也可以包括第一特征信息之前的其他特征信息，本公开对此不作限定。该第一特征维度对应关系可以包括预先生成的特征维度与待定特征信息的对应关系。
[0094]
图3是根据一示例性实施例示出的一种预先生成第一特征维度对应关系的方法的
流程图。如图3所示，该第一特征维度对应关系为通过以下方式预先生成的：
[0095]
s301、获取样本账号对应的多个第二特征信息。
[0096]
其中，多个第二特征信息分别对应不同的特征维度。
[0097]
在一些实施例中，该第二特征信息可以是针对该样本账户的提取的初始特征信息。例如，通过行为分析和特征提取方法，对样本账号的行为等特征进行分析，提取得到样本账户的多个初始特征信息作为该第二特征信息。
[0098]
在一些实施例中，该样本账号可以为多个。为了对目标模型进行训练和应用，可以获取大量的样本帐号，并提取样本账号对应的多个第二特征信息，可以将提取得到的这些第二特征信息按照特征维度进行分类，例如，可以分为身份维度、内容维度、行为维度、环境维度、关联维度和历史维度等六个维度。
[0099]
s302、针对每个特征维度，获取该特征维度对应的每个第二特征信息的特征指标；根据该特征指标，从第二特征信息中确定第三特征信息；根据该第三特征信息确定该特征维度对应的待定特征信息。
[0100]
在一些实施例中，该特征指标可以包括区分度，该区分度可以用于表征第二特征信息对样本账号中的异常账号和正常账号的区分程度；这样，可以将区分度大于或等于预设区分度阈值的第二特征信息作为第三特征信息。
[0101]
其中，该区分度又可以称为iv(information value，信息价值或信息量)。
[0102]
该iv值可以根据第二woe获取，示例地，可以对第二特征信息(包括离散变量和连续变量)进行卡方分箱处理，得到每个分箱对应的第二woe。对第二woe进行加权求和，可以得到该iv值。
[0103]
示例地，每个分箱的第二woe值可以通过以下公式(2)计算得到：
[0104][0105]
其中，woei表示第i个分箱的第二woe值，bi表示第i个分箱中的坏样本数目，b
t
表示所有坏样本的总数目，gi表示第i个分箱中的好样本数目，g
t
表示所有好样本的总数目。需要说明的是，上述坏样本可以是多个样本账号中标记为异常账号的样本，上述好样本可以是多个样本账号中标记为正常账号(非异常账号)的样本。
[0106]
上述iv值可以通过以下公式(3)计算得到：
[0107][0108]
其中，iv表示第二特征信息的iv值，bi表示第二特征信息的第i个分箱中的坏样本数目，b
t
表示第二特征信息的所有坏样本的总数目，gi表示第i个分箱中的好样本数目，g
t
表示所有好样本的总数目。
[0109]
需要说明的是，woe可以表征自变量每个分箱下异常账号(也可以称为风险账号)对正常帐号占比和总体中异常帐号对正常帐号占比之间的差异。iv则可以衡量一个变量的区分能力，也就是第二特征信息对样本账号中的异常账号和正常账号的区分程度。在一些实现方式中，可以筛选iv值大于或等于预设iv阈值的第二特征信息作为第三特征信息，该预设iv阈值可以是预先设定的任意数值，例如0.02。
[0110]
在另一些实施例中，该特征指标可以包括相关度，该相关度可以用于表征第二特
征信息与其他特征信息的相关性。这样，可以根据该相关度对第二特征信息进行排序；将排序后除了相关度最高的前预设数量个第二特征信息外的其他第二特征信息作为第三特征信息。
[0111]
其中，该预设数量可以还是预先设置的任意数值，例如3、10或20。
[0112]
该相关度可以包括方差膨胀因子vif(variance inflation factor)和/或相关系数。其中，方差膨胀因子可以用于衡量多元线性回归模型多重共线性严重程度的一种度量。它表示回归系数估计量的方差与假设自变量间不线性相关时方差相比的比值。示例地，该方差膨胀因子可以通过以下公式(4)计算得到：
[0113][0114]
其中，vif表示第i个第二特征信息对应的方差膨胀因子，表示第i个第二特征信息对应的回归系数估计量，该回归系数估计量是用于表征模型拟合程度的指标。
[0115]
相关系数可以是另外一种简便剔除模型共线性的方法，它根据特征之间的相关程度，舍弃掉相关性高的特征。示例地，该相关系数可以通过以下公式(5)计算得到：
[0116][0117]
其中，x和y分别为两个不同的第二特征信息，ρ
xy
表示x和y之间的相关系数，var(x)表示x的方差，var(y)表示y的方差，cov(x,y)表示x和y的协方差。
[0118]
在另外一些实施例中，该特征指标可以包括区分度和相关度，示例地，该区分度可以包括iv值，该相关度可以包括vif和相关系数，这样，可以通过以下方式确定第三特征信息：
[0119]
首先，将区分度大于或等于预设区分度阈值的第二特征信息作为第四特征信息。
[0120]
其次，计算得到每个第四特征信息的相关度，并根据相关度确定第五特征信息。
[0121]
示例地，可以根据该相关度对第四特征信息进行排序；将排序后除了相关度最高的前预设数量个第四特征信息外的其他第四特征信息作为第五特征信息。
[0122]
最后，将第五特征信息作为第三特征信息。
[0123]
这样，可以根据特征指标进行特征筛选，从第二特征信息中确定筛选后的第三特征信息减少干扰特征，既可以降低模型训练和应用的复杂度，也能够提高模型输出结果的准确性。
[0124]
在本公开的一些实施例中，除了根据上述特征指标进行特征筛选外，在获取第三特征信息后，还可以结合人工经验对第三特征信息进一步进行筛选，示例地：
[0125]
首先，根据样本账号对第三特征信息的卡方分箱处理，确定第三特征信息对应的多个目标分箱。
[0126]
其次，获取每个目标分箱的样本账号的样本数目比例和坏样本比例。
[0127]
再次，通过预设图表格式，向用户展示图表信息。
[0128]
其中，该图表信息可以包括每个目标分箱的样本数目比例和坏样本比例。
[0129]
最后，将该用户基于图表信息从第三特征信息中筛选的特征信息，作为待定特征信息。
[0130]
这样，可以通过特征指标和人工经验相结合，筛选得到更为准确的待定特征信息，进一步提高模型训练和应用的效率。
[0131]
需要说明的是，用户可以根据图表信息，根据人工经验将部分特征信息删除，保留选中的特征信息。
[0132]
图4是根据一示例性实施例示出的一种图表信息的示意图。如图4所示，该图表信息为某个特定第三特征信息的图表信息，该图表信息中可以包括该特定第三特征信息的每个目标分箱的样本数目比例和坏样本比例。图中的曲线可以表征每个目标分箱的坏样本比例，图中的柱状图可以表征每个目标分箱的样本数目比例。例如，图中包括目标分箱00(-inf至3)、目标分箱01(3至4)、目标分箱02(4至6)、目标分箱03(6至11)和目标分箱04(11至inf)，其中目标分箱00至04分别对应的坏样本比例为0.02、0.04、0.09、0.42和0.94，目标分箱00至04分别对应的样本数目比例为0.48、0.16、0.15、0.08和0.13。从图4可以看出，该坏样本比例的曲线是一条单调性的曲线，说明该特定第三特征信息与风险程度为线性相关的，是符合人工经验的特征信息，是可以保留的第三特征信息。反之，若坏样本比例的曲线不成单调性的，则可以删除该特定第三特征信息。
[0133]
进一步地，如图4所示，该图表信息中还可以包括该第三特征信息的特征指标(例如iv值等)，以便辅助用户根据该特征指标和上述坏样本比例曲线，对第三特征信息进行筛选。
[0134]
在本公开的一些实施例中，还可以在模型训练过程中对上述第三特征信息进行进一步筛选，得到待定特征信息。示例地：可以基于预设模型，根据第三特征信息对样本账号进行分类，获取第三特征信息对应的赤池信息量准则aic(akaike information criterion)指标；根据该aic指标，从第三特征信息中获取待定特征信息。
[0135]
在一些实现方式中，上述预设模型可以包括带l2正则项的逻辑回归模型，在模型训练过程中，通过该逻辑回归模型可以来拟合得到样本账号中的异常帐号的分布，得到aic指标，并根据该aic指标来进行逐步回归，选择最佳的特征组合进入最终的模型，从而从第三特征信息中确定待定特征信息。
[0136]
在另一些实现方式中，上述预设模型也可以包括集成学习模型或深度模型，在训练阶段通过集成学习或者深度模型来提升模型的泛化性，然后再使用逻辑回归模型进行风险特征的输出。
[0137]
这样，在模型训练阶段，可以对特征信息进一步筛选，得到最终模型使用的待定特征信息，进一步提高模型应用的效率和准确性。
[0138]
图5是根据一示例性实施例示出的一种展示账号特征信息的装置500的框图，如图5所示，该装置500可以包括：
[0139]
第一确定模块501，用于确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；
[0140]
获取模块502，用于通过目标模型获取每个待定特征信息为异常特征的异常概率；
[0141]
第二确定模块503，用于针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；
[0142]
展示模块504，用于展示每个所述特征维度对应的所述目标特征信息。
[0143]
根据本公开的一个或多个实施例，所述目标模型包括逻辑回归模型；所述获取模
块502，用于对输入的所述待定特征信息进行卡方分箱处理，得到所述待定特征信息的每个分箱对应的第一证据权重woe；将所述待定特征信息和所述第一woe输入所述逻辑回归模型，得到所述待定特征信息的每个分箱对应的逻辑回归系数；根据所述第一woe和所述逻辑回归系数计算得到所述待定特征信息对应的异常概率。
[0144]
根据本公开的一个或多个实施例，所述第一确定模块501，用于获取所述目标账号对应的多个第一特征信息；根据第一特征维度对应关系，从多个所述第一特征信息中确定每个所述特征维度对应的待定特征信息；所述第一特征维度对应关系包括所述特征维度与所述待定特征信息的对应关系。
[0145]
图6是根据一示例性实施例示出的另一种展示账号特征信息的装置500的框图，如图6所示，该装置500还可以包括：
[0146]
生成模块601，用于获取样本账号对应的多个第二特征信息；其中，所述多个第二特征信息分别对应不同的特征维度；针对每个所述特征维度，获取所述特征维度对应的每个所述第二特征信息的特征指标；根据所述特征指标，从所述第二特征信息中确定第三特征信息；根据所述第三特征信息确定所述特征维度对应的待定特征信息。
[0147]
根据本公开的一个或多个实施例，所述特征指标包括区分度，所述区分度用于表征所述第二特征信息对所述样本账号中的异常账号和正常账号的区分程度；所述生成模块601，用于将所述区分度大于或等于预设区分度阈值的所述第二特征信息作为第三特征信息。
[0148]
根据本公开的一个或多个实施例，所述特征指标包括相关度，所述相关度用于表征所述第二特征信息与其他特征信息的相关性；所述生成模块601，用于根据所述相关度对所述第二特征信息进行排序；将排序后除了相关度最高的前预设数量个第二特征信息外的其他第二特征信息作为所述第三特征信息。
[0149]
根据本公开的一个或多个实施例，所述生成模块601，用于根据所述样本账号对所述第三特征信息的卡方分箱处理，确定所述第三特征信息对应的多个目标分箱；获取每个所述目标分箱的所述样本账号的样本数目比例和坏样本比例；通过预设图表格式，向用户展示图表信息；其中，所述图表信息包括每个所述目标分箱的所述样本数目比例和所述坏样本比例；将所述用户基于所述图表信息从所述第三特征信息中筛选的特征信息，作为所述待定特征信息。
[0150]
根据本公开的一个或多个实施例，所述生成模块601，用于基于预设模型，根据所述第三特征信息对样本账号进行分类，获取所述第三特征信息对应的赤池信息量准则aic指标；根据所述aic指标，从所述第三特征信息中获取所述待定特征信息。
[0151]
根据本公开的一个或多个实施例，所述展示模块504，用于根据所述目标特征信息确定所述目标账号是否为异常账号；在所述目标账号为异常账号的情况下，展示每个所述特征维度对应的所述目标特征信息。
[0152]
根据本公开的一个或多个实施例，所述展示模块504，用于根据所述目标特征信息确定每个特征维度对应的风险系数；根据所述风险系数确定所述目标账号是否为异常账号。
[0153]
根据本公开的一个或多个实施例，所述特征维度包括身份维度、内容维度、行为维度、环境维度、关联维度和历史维度中的一项或多项。
[0154]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0155]
下面参考图7，其示出了适于用来实现本公开实施例的电子设备2000(例如终端设备或服务器)的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。本公开实施例中的服务器可以包括但不限于诸如本地服务器、云服务器、单个服务器、分布式服务器等。图7示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0156]
如图7所示，电子设备2000可以包括处理装置(例如中央处理器、图形处理器等)2001，其可以根据存储在只读存储器(rom)2002中的程序或者从存储装置2008加载到随机访问存储器(ram)2003中的程序而执行各种适当的动作和处理。在ram2003中，还存储有电子设备2000操作所需的各种程序和数据。处理装置2001、rom2002以及ram2003通过总线2004彼此相连。输入/输出(i/o)接口2005也连接至总线2004。
[0157]
通常，以下装置可以连接至输入/输出接口2005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置2006；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置2007；包括例如磁带、硬盘等的存储装置2008；以及通信装置2009。通信装置2009可以允许电子设备2000与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备2000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0158]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置2009从网络上被下载和安装，或者从存储装置2008被安装，或者从rom2002被安装。在该计算机程序被处理装置2001执行时，执行本公开实施例的方法中限定的上述功能。
[0159]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可
以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0160]
在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
[0161]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0162]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；通过目标模型获取每个待定特征信息为异常特征的异常概率；针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；展示每个所述特征维度对应的所述目标特征信息。
[0163]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言——诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0164]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0165]
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，第一确定模块还可以被描述为“确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息的模块”。
[0166]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0167]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0168]
根据本公开的一个或多个实施例，提供了一种展示账号特征信息的方法，所述方法包括：
[0169]
确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；
[0170]
通过目标模型获取每个待定特征信息为异常特征的异常概率；
[0171]
针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；
[0172]
展示每个所述特征维度对应的所述目标特征信息。
[0173]
根据本公开的一个或多个实施例，所述目标模型包括逻辑回归模型；所述通过目标模型获取每个待定特征信息为异常特征的异常概率包括：
[0174]
对输入的所述待定特征信息进行卡方分箱处理，得到所述待定特征信息的每个分箱对应的第一证据权重woe；
[0175]
将所述待定特征信息和所述第一woe输入所述逻辑回归模型，得到所述待定特征信息的每个分箱对应的逻辑回归系数；
[0176]
根据所述第一woe和所述逻辑回归系数计算得到所述待定特征信息对应的异常概率。
[0177]
根据本公开的一个或多个实施例，确定每个所述特征维度对应的待定特征信息包括：
[0178]
获取所述目标账号对应的多个第一特征信息；
[0179]
根据第一特征维度对应关系，从多个所述第一特征信息中确定每个所述特征维度对应的待定特征信息；所述第一特征维度对应关系包括所述特征维度与所述待定特征信息的对应关系。
[0180]
根据本公开的一个或多个实施例，所述第一特征维度对应关系为通过以下方式预先生成的：
[0181]
获取样本账号对应的多个第二特征信息；其中，所述多个第二特征信息分别对应不同的特征维度；
[0182]
针对每个所述特征维度，获取所述特征维度对应的每个所述第二特征信息的特征指标；根据所述特征指标，从所述第二特征信息中确定第三特征信息；根据所述第三特征信息确定所述特征维度对应的待定特征信息。
[0183]
根据本公开的一个或多个实施例，所述特征指标包括区分度，所述区分度用于表征所述第二特征信息对所述样本账号中的异常账号和正常账号的区分程度；所述根据所述
特征指标，从所述第二特征信息中确定第三特征信息包括：
[0184]
将所述区分度大于或等于预设区分度阈值的所述第二特征信息作为第三特征信息。
[0185]
根据本公开的一个或多个实施例，所述特征指标包括相关度，所述相关度用于表征所述第二特征信息与其他特征信息的相关性；所述根据所述特征指标，从所述第二特征信息中确定第三特征信息包括：
[0186]
根据所述相关度对所述第二特征信息进行排序；
[0187]
将排序后除了相关度最高的前预设数量个第二特征信息外的其他第二特征信息作为所述第三特征信息。
[0188]
根据本公开的一个或多个实施例，所述根据所述第三特征信息确定所述特征维度对应的待定特征信息包括：
[0189]
根据所述样本账号对所述第三特征信息的卡方分箱处理，确定所述第三特征信息对应的多个目标分箱；
[0190]
获取每个所述目标分箱的所述样本账号的样本数目比例和坏样本比例；
[0191]
通过预设图表格式，向用户展示图表信息；其中，所述图表信息包括每个所述目标分箱的所述样本数目比例和所述坏样本比例；
[0192]
将所述用户基于所述图表信息从所述第三特征信息中筛选的特征信息，作为所述待定特征信息。
[0193]
根据本公开的一个或多个实施例，所述根据所述第三特征信息确定所述特征维度对应的待定特征信息包括：
[0194]
基于预设模型，根据所述第三特征信息对样本账号进行分类，获取所述第三特征信息对应的赤池信息量准则aic指标；
[0195]
根据所述aic指标，从所述第三特征信息中获取所述待定特征信息。
[0196]
根据本公开的一个或多个实施例，所述展示每个所述特征维度对应的所述目标特征信息包括：
[0197]
根据所述目标特征信息确定所述目标账号是否为异常账号；
[0198]
在所述目标账号为异常账号的情况下，展示每个所述特征维度对应的所述目标特征信息。
[0199]
根据本公开的一个或多个实施例，所述根据所述目标特征信息确定所述目标账号是否为异常账号包括：
[0200]
根据所述目标特征信息确定每个特征维度对应的风险系数；
[0201]
根据所述风险系数确定所述目标账号是否为异常账号。
[0202]
根据本公开的一个或多个实施例，所述特征维度包括身份维度、内容维度、行为维度、环境维度、关联维度和历史维度中的一项或多项。
[0203]
根据本公开的一个或多个实施例，提供了一种展示账号特征信息的装置，所述装置包括：
[0204]
第一确定模块，用于确定目标账号对应的多个特征维度，以及每个所述特征维度对应的待定特征信息；
[0205]
获取模块，用于通过目标模型获取每个待定特征信息为异常特征的异常概率；
[0206]
第二确定模块，用于针对每个所述特征维度，根据所述异常概率从所述特征维度对应的待定特征信息中确定目标特征信息；
[0207]
展示模块，用于展示每个所述特征维度对应的所述目标特征信息。
[0208]
根据本公开的一个或多个实施例，所述目标模型包括逻辑回归模型；所述获取模块，用于对输入的所述待定特征信息进行卡方分箱处理，得到所述待定特征信息的每个分箱对应的第一证据权重woe；将所述待定特征信息和所述第一woe输入所述逻辑回归模型，得到所述待定特征信息的每个分箱对应的逻辑回归系数；根据所述第一woe和所述逻辑回归系数计算得到所述待定特征信息对应的异常概率。
[0209]
根据本公开的一个或多个实施例，所述第一确定模块，用于获取所述目标账号对应的多个第一特征信息；根据第一特征维度对应关系，从多个所述第一特征信息中确定每个所述特征维度对应的待定特征信息；所述第一特征维度对应关系包括所述特征维度与所述待定特征信息的对应关系。
[0210]
根据本公开的一个或多个实施例，所述装置还包括：
[0211]
生成模块，用于获取样本账号对应的多个第二特征信息；其中，所述多个第二特征信息分别对应不同的特征维度；针对每个所述特征维度，获取所述特征维度对应的每个所述第二特征信息的特征指标；根据所述特征指标，从所述第二特征信息中确定第三特征信息；根据所述第三特征信息确定所述特征维度对应的待定特征信息。
[0212]
根据本公开的一个或多个实施例，所述特征指标包括区分度，所述区分度用于表征所述第二特征信息对所述样本账号中的异常账号和正常账号的区分程度；所述生成模块，用于将所述区分度大于或等于预设区分度阈值的所述第二特征信息作为第三特征信息。
[0213]
根据本公开的一个或多个实施例，所述特征指标包括相关度，所述相关度用于表征所述第二特征信息与其他特征信息的相关性；所述生成模块，用于根据所述相关度对所述第二特征信息进行排序；将排序后除了相关度最高的前预设数量个第二特征信息外的其他第二特征信息作为所述第三特征信息。
[0214]
根据本公开的一个或多个实施例，所述生成模块，用于根据所述样本账号对所述第三特征信息的卡方分箱处理，确定所述第三特征信息对应的多个目标分箱；获取每个所述目标分箱的所述样本账号的样本数目比例和坏样本比例；通过预设图表格式，向用户展示图表信息；其中，所述图表信息包括每个所述目标分箱的所述样本数目比例和所述坏样本比例；将所述用户基于所述图表信息从所述第三特征信息中筛选的特征信息，作为所述待定特征信息。
[0215]
根据本公开的一个或多个实施例，所述生成模块，用于基于预设模型，根据所述第三特征信息对样本账号进行分类，获取所述第三特征信息对应的赤池信息量准则aic指标；根据所述aic指标，从所述第三特征信息中获取所述待定特征信息。
[0216]
根据本公开的一个或多个实施例，所述展示模块，用于根据所述目标特征信息确定所述目标账号是否为异常账号；在所述目标账号为异常账号的情况下，展示每个所述特征维度对应的所述目标特征信息。
[0217]
根据本公开的一个或多个实施例，所述展示模块，用于根据所述目标特征信息确定每个特征维度对应的风险系数；根据所述风险系数确定所述目标账号是否为异常账号。
[0218]
根据本公开的一个或多个实施例，所述特征维度包括身份维度、内容维度、行为维度、环境维度、关联维度和历史维度中的一项或多项。
[0219]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0220]
此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0221]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：图特征提取器训练方法、诗词生成方法、设备和存储介质与流程

展示账号特征信息的方法、装置、可读介质及电子设备与流程

相关文献

最热文献