一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于数据特征的相似对象定位方法、装置、设备及介质与流程

2022-06-01 13:14:35 来源:中国专利 TAG:


1.本公开涉及数据处理技术领域,具体而言,涉及一种基于数据特征的相似对象定位方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.在金融机构履行反洗钱监督管理职责进行洗钱风险分析时,通常首先分析客户人群的特征,然后根据提取的特征开发筛选模型或者规则,再利用建立的筛选模型或者设定的筛选规则进行风险人群筛选,查找风险人群的效率较低。
3.如上所述,如何提高基于数据特征确定风险人群的效率成为亟待解决的问题。
4.在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

5.本公开的目的在于提供一种基于数据特征的相似对象定位方法、装置、设备及可读存储介质,至少一定程度上提高基于数据特征确定与种子对象具有相似性的目标全量对象的效率。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.本公开实施例提供一种基于数据特征的相似对象定位方法,包括:获取种子集合的各特征对应的第一统计量;获取对照集合的各特征对应的第二统计量;根据各特征对应的第一统计量和第二统计量,获得所述种子集合和所述对照集合对应各特征的差异程度;基于所述差异程度从各特征中确定目标特征;获取全量集合中的各个全量对象的所述目标特征对应的目标特征值;根据所述种子集合的所述目标特征对应的第一统计量和所述各个全量对象的所述目标特征对应的目标特征值,从所述各个全量对象中确定目标全量对象,所述目标全量对象与所述种子集合中的种子对象在所述目标特征上具有相似性。
8.本公开实施例提供一种基于数据特征的相似对象定位装置,包括:种子特征统计模块,用于获取种子集合的各特征对应的第一统计量;对照特征统计模块,用于获取对照集合的各特征对应的第二统计量;特征差异获得模块,用于根据各特征对应的第一统计量和第二统计量,获得所述种子集合和所述对照集合对应各特征的差异程度;目标特征确定模块,用于基于所述差异程度从各特征中确定目标特征;全量特征获取模块,用于获取全量集合中的各个全量对象的所述目标特征对应的目标特征值;相似对象确定模块,用于根据所述种子集合的所述目标特征对应的第一统计量和所述各个全量对象的所述目标特征对应的目标特征值,从所述各个全量对象中确定目标全量对象,所述目标全量对象与所述种子集合中的种子对象在所述目标特征上具有相似性。
9.根据本公开的一实施例,所述相似对象确定模块还用于:根据所述种子集合的所述目标特征对应的第一统计量、所述各个全量对象的所述目标特征对应的目标特征值和所
述全量集合的所述目标特征对应的第三统计量,从所述各个全量对象中确定所述目标全量对象。
10.根据本公开的一实施例,所述种子集合的所述目标特征对应的第一统计量包括所述种子集合的所述目标特征对应的目标特征值的均值,所述全量集合的所述目标特征对应的第三统计量包括所述全量集合的所述目标特征对应的目标特征值的标准差;其中,所述相似对象确定模块包括:第一特征均值差值获得模块,用于获得各个全量对象的各个目标特征对应的目标特征值与所述种子集合的各个目标特征对应的目标特征值的均值之间的差值;第一特征比值获得模块,用于获得各个目标特征对应的差值与所述全量集合的所述目标特征对应的目标特征值的标准差的比值;相似程度确定模块,用于根据各个目标特征对应的比值,确定各个全量对象与所述种子集合在所述目标特征上的相似程度;相似对象选取模块,用于根据各个全量对象与所述种子集合在所述目标特征上的相似程度从各个全量对象中选取所述目标全量对象。
11.根据本公开的一实施例,所述相似程度确定模块包括:特征权重获取模块,用于获取各个目标特征对应的权重参数;相似度指标计算模块,用于根据各个全量对象的各个目标特征对应的比值及其权重参数进行加权求和,获得各个全量对象的相似度指标;其中,各个全量对象的相似度指标越小,对应的相似程度越大。
12.根据本公开的一实施例,所述种子集合的各特征对应的第一统计量包括所述种子集合的各特征对应的特征值的均值和所述种子集合的各特征对应的特征值的标准差,所述对照集合的各特征对应的第一统计量包括所述对照集合的各特征对应的特征值的均值和所述对照集合的各特征对应的特征值的标准差;其中,所述特征差异获得模块包括:第二特征均值差值获得模块,用于获得所述对照集合的各特征对应的特征值的均值与所述种子集合的各特征对应的特征值的均值之间的差值;特征标准差求和模块,用于获得所述对照集合的各特征对应的特征值的标准差与所述种子集合的各特征对应的特征值的标准差的和;第二特征比值获得模块,用于获得各特征对应的均值差值与各特征对应的标准差的和之间的比值;差异程度确定模块,用于根据各特征的比值,确定所述种子集合和所述对照集合对应各特征的差异程度。
13.根据本公开的一实施例,所述目标特征确定模块包括:特征排序模块,用于按照差异程度从大到小的顺序将各特征进行排序,获得特征列表;目标特征选择模块,用于响应目标特征选择指令,从所述特征列表中确定所述目标特征。
14.根据本公开的一实施例,所述目标特征选择模块包括:特征选择指令响应模块,用于响应所述目标特征选择指令,获得所述目标特征选择指令对应的特征;特征阈值获取模块,用于获取所述目标特征选择指令对应的特征的预设阈值;目标特征筛选模块,用于根据所述目标特征选择指令对应的特征对应的特征值与所述预设阈值的大小关系获得所述目标特征。
15.根据本公开的一实施例,所述种子集合中包括第一数量的所述种子对象,所述全量集合中包括第二数量的所述全量对象,所述第二数量大于所述第一数量;所述装置还包括:全量特征统计模块,用于获取所述全量集合的各特征对应的第三统计量;全量差异获得模块,用于根据各特征对应的第一统计量和第三统计量,获得所述种子集合和所述全量集合对应各特征的差异程度;差异度阈值获取模块,用于获取各特征的差异度阈值;对照集合
获得模块,用于在所述种子集合和所述全量集合对应各特征的差异程度至少部分大于对应的差异度阈值时,获得所述对照集合为所述全量集合。
16.根据本公开的一实施例,所述对照集合获得模块,还用于在所述种子集合和所述全量集合对应各特征的差异程度分别小于对应的差异度阈值时,响应对照对象选择指令,从所述全量集合中确定所述对照集合。
17.本公开实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。
18.本公开实施例提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。
19.本公开实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
20.本公开的实施例提供的基于数据特征的相似对象定位方法,通过根据种子集合的各特征对应的第一统计量和对照集合的各特征对应的第二统计量,获得种子集合和对照集合对应各特征的差异程度,然后基于差异程度从各特征中确定目标特征,减少了种子集合与各个全量对象比对的特征数量;再根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定与种子集合中的种子对象在目标特征上具有相似性的目标全量对象,可在目标特征上根据统计量判断全量对象与种子集合的相似性,从而实现了提高基于数据特征确定与种子对象具有相似性的目标全量对象的效率和准确性。
21.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
22.通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。
23.图1示出本公开实施例中一种系统结构的示意图。
24.图2示出本公开实施例中一种基于数据特征的相似对象定位方法的流程图。
25.图3是根据一示例性实施例示出的一种对照集合获得方法的流程图。
26.图4是根据一示例性实施例示出的一种对象选择交互界面示意图。
27.图5示出了图2中所示的步骤s206在一实施例中的处理过程示意图。
28.图6示出了图2中所示的步骤s208在一实施例中的处理过程示意图。
29.图7是根据一示例性实施例示出的一种目标特征选择交互界面示意图。
30.图8示出了图6中所示的步骤s2084在一实施例中的处理过程示意图。
31.图9示出了图2中所示的步骤s212在一实施例中的处理过程示意图。
32.图10是根据一示例性实施例示出的一种目标对象选择交互界面示意图。
33.图11示出了图9中所示的步骤s2126在一实施例中的处理过程示意图。
34.图12是根据一示例性实施例示出的一种相似人群筛选流程示意图。
35.图13示出本公开实施例中一种基于数据特征的相似对象定位装置的框图。
36.图14示出本公开实施例中另一种基于数据特征的相似对象定位装置的框图。
37.图15示出本公开实施例中一种电子设备的结构示意图。
具体实施方式
38.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
39.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
40.此外,在本公开的描述中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
41.下面对本公开涉及到的缩略语或自定义的名词进行解释。
42.反洗钱:指金融机构通过流程、规则等方式控制系统内的洗钱风险。
43.审理:在洗钱风险防控中,经过规则稽核的可疑客户需要进行人工的调查确认是够真实可疑,后续再进行上报或者不上报处理。
44.稽核:指通过模型或者规则,对可疑的洗钱客户进行初步圈定。
45.特征:某一个主体的某一方面属性,例如“身高”、“年龄”、“近7天交易金额”等,当客户的某些特征或特征组合跟正常人有区别时,这些特征可称之为可疑特征。
46.特征配置:指通过页面交互的方式,个性化配置洗钱风险相关的可疑特征,以便应用在风险防控规则中,对符合可疑特征的人群进行稽核。
47.相似人群:指在特征上有一定相似性的人群,例如同在一个区域、年龄相近、交易金额相近等等。
48.如上所述,在相关技术中进行洗钱风险分析时,常常需要业务人员分析案例后提取客户人群特征,然后通过数据分析人员开发代码实现特征数据分析,验证特征的差异性,需要业务人员与数据分析人员合作提取敏感特征并筛选对应符合特征的人群。整个查找风险特征人群的流程涉及多人岗位,分析一次人群特征、查找相似人群所需的时间在一周甚至半个月以上,耗时较长且效率较低。因此,本公开提供了一种基于数据特征的相似对象定位方法,通过根据种子集合的各特征对应的第一统计量和对照集合的各特征对应的第二统计量,获得种子集合和对照集合对应各特征的差异程度,然后基于差异程度从各特征中确定目标特征,再根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对
应的目标特征值,从各个全量对象中确定与种子集合中的种子对象在目标特征上具有相似性的目标全量对象,目标全量对象,从而可实现提高基于数据特征确定目标对象的效率。
49.图1示出了可以应用本公开的基于数据特征的相似对象定位方法、装置的示例性系统架构10。
50.如图1所示,系统架构10可以包括终端设备102、网络104、服务器106和数据库108。终端设备102可以是具有显示屏并且支持输入、输出的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、可穿戴设备、虚拟现实设备、智能音箱、智能手表、智能家居等等。终端设备102与服务器106可以通过有线或无线通信方式进行直接或间接地连接,本公开在此不做限制。
51.网络104用以在终端设备102和服务器106之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
52.服务器106可以是独立的服务器,也可以是多个服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。数据库108可以为置于服务器上的大型数据库软件,也可以为安装在计算机上的小型数据库软件,用于存储数据。
53.用户可以使用终端设备102通过网络104与服务器106和数据库108交互,以接收或发送数据等。例如用户可使用终端设备102通过网络104接收服务器106发送的人群特征根据差异程度进行排序的列表。又例如用户可使用终端设备102通过网络104从数据库108中获取全量人群列表,然后通过终端设备102上的交互软件将选定的对照人群通过网络104发送至服务器106。
54.在服务器106也可通过网络104从数据库108接收数据或向数据库108发送数据等。例如服务器106可为后台处理服务器,用于通过网络104从数据库108获取全量人群的各特征的特征值数据。又例如服务器106可用于通过网络104从终端设备102获取用户选定的目标特征,并从数据库108获取种子人群及对照人群的目标特征的特征值数据。
55.应该理解,图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和数据库。
56.图2是根据一示例性实施例示出的一种基于数据特征的相似对象定位方法的流程图。如图2所示的方法例如可以应用于上述系统的服务器,也可以应用于上述系统的终端设备。
57.参考图2,本公开实施例提供的方法20可以包括以下步骤。
58.在步骤s202中,获取种子集合的各特征对应的第一统计量。
59.本公开实施例中,种子集合可为已确定的具有特定共性特征的对象的集合,如反洗钱分析中风险人群的集合等等。种子集合中的种子对象的一些业务相关的属性可作为特征,例如对于最近20天交易金额、商品数量等有具体数值的属性,可将其属性数值作为对应的特征值;对于性别、所在区域等没有具体数值的属性,可按类别对其进行赋值作为对应的特征值,例如性别为“女”的性别特征的特征值为1,性别为“男”的性别特征的特征值为2等等。特征的第一统计量是指对于每一类特征,将集合中的所有对象的特征值进行统计,得到的反映集合在该类特征上的集中趋势的指标。第一统计量可为特征值的均值,如算术平均数、加权平均数等等,也可以为特征值的方差、标准差等。
60.在步骤s204中,获取对照集合的各特征对应的第二统计量。
61.本公开实施例中,对照集合可为不确定具有特定共性特征的对象的集合,例如普通人群集合。对照集合中的对照对象的特征与种子对象的特征一一对应。对特征和统计量的说明可参照步骤s202,此处不再赘述。
62.在一些实施例中,例如,在对比种子集合(如黑名单人群)与全量集合的普通人群的特征差异不明显时,可选择和白名单人群作为对照集合,针对性的对比两个输入人群的主要差异特征。具体实施方式可参照图3。
63.在步骤s206中,根据各特征对应的第一统计量和第二统计量,获得种子集合和对照集合对应各特征的差异程度。
64.本公开实施例中,获得了分别反映种子集合和对照集合的各特征的集中趋势的第一统计量和第二统计量之后,可将第一统计量和第二统计量进行比较,以获得两个集合的各特征的差异程度。
65.在一些实施例中,例如,第一统计量和第二统计量可分别为种子集合和对照集合的各特征的均值,分别将各特征的两均值做差,根据差值的大小确定差异程度,差值越大表示差异程度越大。
66.在另一些实施例中,例如,第一统计量和第二统计量可分别包括种子集合和对照集合的各特征的均值和标准差,根据均值和标准差计算各特征的差异程度。具体计算方法可参照图5。
67.在步骤s208中,基于差异程度从各特征中确定目标特征。
68.本公开实施例中,种子集合为具有特定共性特征的对象的集合,待确定的目标特征即为分析得到的种子集合的共性特征,其与无共性特征的对象的集合的区别可在这些共性特征上体现出来差异。例如,在反洗钱分析中,“最近30天交易金额”这个特征可能是风险人群与普通人群差异最大的特征,该特征可确定为目标特征。
69.在一些实施例中,例如,可将各特征按照差异程度从大到小进行排序,自动选择排在前位的若干数量的特征作为目标特征。
70.在另一些实施例中,例如,也可将各特征按照差异程度从大到小进行排序后,通过交互界面展示给用户。用户可以是业务人员,业务人员可根据显示的种子集合跟对照集合(普通人群)在每个特征上的差异程度,以及自己对业务经验的理解,选择合适的目标特征,例如从系统推荐的列表中挑选可疑的特征。具体实施方式可参照图6至图8。
71.在步骤s210中,获取全量集合中的各个全量对象的目标特征对应的目标特征值。
72.本公开实施例中,对于确定的目标特征,获得待进行筛选的全量集合中的各对象的特征值,以待与种子集合的该特征的特征值进行比较判断相似性。
73.在步骤s212中,根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定目标全量对象,目标全量对象与种子集合中的种子对象在目标特征上具有相似性。
74.本公开实施例中,由于目标特征为先前步骤中筛选出的种子集合与对照集合差异较大的特征,因此确定的目标全量对象在该特征上与对照集合也具有相似的差异。
75.在一些实施例中,例如,根据种子集合的目标特征对应的第一统计量、各个全量对象的目标特征对应的目标特征值和全量集合的目标特征对应的第三统计量,从各个全量对象中确定目标全量对象。具体实施方式可参照图3。
76.在另一些实施例中,例如,种子集合的目标特征对应的第一统计量可为种子集合的目标特征的均值,将各个全量对象的目标特征对应的目标特征值分别与种子集合对应的均值进行比较,例如可进行做差比较,差值小于一预定阈值时可认为该全量对象与种子集合在该特征上相似,将该全量对象确定为目标全量对象。
77.本公开的实施例提供的基于数据特征的相似对象定位方法,通过根据种子集合的各特征对应的第一统计量和对照集合的各特征对应的第二统计量,获得种子集合和对照集合对应各特征的差异程度,然后基于差异程度从各特征中确定目标特征,减少了种子集合与各个全量对象比对的特征数量;再根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定与种子集合中的种子对象在目标特征上具有相似性的目标全量对象,可在目标特征上根据统计量判断全量对象与种子集合的相似性,从而实现了提高基于数据特征确定与种子对象具有相似性的目标全量对象的效率和准确性。
78.图3是根据一示例性实施例示出的一种对照集合获得方法的流程图。如图3所示的方法例如可以应用于上述系统的服务器,也可以应用于上述系统的终端设备。图3所示的方法可在步骤s204之前,用于确定对照集合中的对照对象。
79.参考图3,本公开实施例提供的方法30可以包括以下步骤。
80.在步骤s302中,获取全量集合的各特征对应的第三统计量。
81.本公开实施例中,全量集合中的对象可为所有类型的对象,例如可包括风险人群(黑名单人群)、白名单人群、待筛选的未知人群等等。全量集合中的对象的特征与种子对象的特征一一对应。对特征和统计量的说明可参照步骤s202,此处不再赘述。
82.在步骤s304中,根据各特征对应的第一统计量和第三统计量,获得种子集合和全量集合对应各特征的差异程度。
83.本公开实施例中,差异程度的具体计算方式可参照步骤s206,此处不再赘述。
84.在步骤s306中,获取各特征的差异度阈值。
85.本公开实施例中,可为种子集合和全量集合各特征的差异度设置阈值,可整体设置一个阈值,也可各特征分别、分批设置阈值,用以衡量种子集合和全量集合在特征上的差异是否明显。
86.在步骤s308中,在种子集合和全量集合对应各特征的差异程度至少部分大于对应的差异度阈值时,获得对照集合为全量集合。
87.本公开实施例中,种子集合和全量集合对应各特征的差异程度至少部分大于对应的差异度阈值,表明特征上的差异足够明显至区分出较为异常的特征,以获得目标特征。
88.在步骤s310中,在种子集合和全量集合对应各特征的差异程度分别小于对应的差异度阈值时,响应对照对象选择指令,从全量集合中确定对照集合。
89.本公开实施例中,当种子集合和全量集合对应各特征的差异程度均小于对应的差异度阈值时,可认为种子集合中的黑名单人群与全量集合中的普通人群特征差异不明显,可以从全量集合中选择白名单人群作为对照人群。
90.在一些实施例中,例如,选择白名单人群时除了在既定的全量集合中的普通人群中进行,也可以手动输入白名单人群。图4是根据一示例性实施例示出的一种对象选择交互界面示意图。如图4所示,图4右侧上方为可点击的按钮,下方为输入框或展示的对象列表。
由于对比的人群的对象数量可能较多,可点击“上传人群文件”按钮,以文件格式输入对照人群或种子人群(对比人群);也可在下方输入框中输入对象的标识(identity,id);或根据下方的对象列表,选择作为对照对象或种子对象的标识。在获取输入比对人群,根据比对人群的用户id,从数据库中获得这些id对应的各特征的特征值,然后计算这些用户的各特征的均值、标准差等统计量。
91.根据本公开实施例提供的方法,通过比较与种子集合的特征的差异程度,对与种子集合进行对比的对照集合进行筛选,从而可提高确定的目标特征的准确度。
92.图5示出了图2中所示的步骤s206在一实施例中的处理过程示意图。在一实施例中,种子集合的各特征对应的第一统计量包括种子集合的各特征对应的特征值的均值和种子集合的各特征对应的特征值的标准差,对照集合的各特征对应的第一统计量包括对照集合的各特征对应的特征值的均值和对照集合的各特征对应的特征值的标准差。如图5所示,本公开实施例中,上述步骤s206可以进一步包括以下步骤。
93.步骤s2062,获得对照集合的各特征对应的特征值的均值与种子集合的各特征对应的特征值的均值之间的差值。
94.步骤s2064,获得对照集合的各特征对应的特征值的标准差与种子集合的各特征对应的特征值的标准差的和。
95.步骤s2066,获得各特征对应的均值差值与各特征对应的标准差的和之间的比值。
96.步骤s2068,根据各特征的比值,确定种子集合和对照集合对应各特征的差异程度。
97.本公开实施例中,将各特征的比值表示为差异度y,则差异度y的计算公式如下:
98.差异度y=|均值
对照-均值
种子
|/(标准差
对照
标准差
种子
)
ꢀꢀꢀ
(1)
99.从式(1)可以看出,两个样本之间的均值相差越大、标准差越小,则计算结果的差异度y就越大。差异度y越大,差异程度就越大。
100.根据本公开实施例提供的方法,通过计算种子集合与对照集合均值的差值与标准差的和的比值获得各特征的差异程度,从而可准确地从各特征中确定种子集合的特性特征。
101.图6示出了图2中所示的步骤s208在一实施例中的处理过程示意图。如图6所示,本公开实施例中,上述步骤s208可以进一步包括以下步骤。
102.步骤s2082,按照差异程度从大到小的顺序将各特征进行排序,获得特征列表。
103.本公开实施例中,可根据输入的种子集合中的人群,计算分析其每个特征跟普通人群的特征差异后,按差异度大小排序后将特征列表展示给用户进行选择。图7是根据一示例性实施例示出的一种目标特征选择交互界面示意图。如图7所示,交互界面展示的列表中多个特征按照特征差异度从大到小进行排序,列表中同时也可以展示各特征下对照人群(普通人群)和种子人群(比对人群)的主要指标,如均值、标准差等。
104.步骤s2084,响应目标特征选择指令,从特征列表中确定目标特征。如图7所示,交互界面展示的列表中的每个特征对应设置了选择选项,用户可勾选对应的方框表示进行选择,选中所有目标特征后可点击右下角“筛选人群”按钮,系统可获得用户选择的目标特征。
105.根据本公开实施例提供的方法,通过在自动计算种子人群与普通人群的特征差异后根据差异程度进行特征推荐,然后根据人工选择的结果优化目标特征以筛选全量人群中
的风险人群,在做到高效的同时,融入了人工的经验因素,增强对不同业务的适应性,提高了筛选与种子人群具有相似特征的人群的准确度。
106.图8示出了图6中所示的步骤s2084在一实施例中的处理过程示意图。如图8所示,本公开实施例中,上述步骤s2084可以进一步包括以下步骤。
107.步骤s20842,响应目标特征选择指令,获得目标特征选择指令对应的特征。
108.步骤s20844,获取目标特征选择指令对应的特征的预设阈值。
109.步骤s20846,根据目标特征选择指令对应的特征对应的特征值与预设阈值的大小关系获得目标特征。
110.本公开实施例中,在人工选择特征后,还可对特征做一些额外人工限制。在一些实施例中,例如,可限制种子人群在该特征上符合预设阈值,比如对于图7中“近期交易金额”的特征,该特征的特征差异度最大,排在列表的首位,用户在选择该特征作为目标特征的同时,也可为其设定100万的阈值(图7中未示出)。为其设置了该阈值后,当种子集合的该特征的均值大于100万才会被推送显示为目标特征。
111.在另一些实施例中,例如,为目标特征设置的阈值也可用于针对该特征的目标对象(风险人群)的筛选,例如对于图7中“近期交易金额”的特征,为其设定100万的阈值后,后续步骤计算全量集合中各个对象的近期交易金额值与种子集合的相似程度并排序后,可对照设定的阈值,当获取其近期交易金额值要大于100万才会被推送到前台,显示为目标风险对象。
112.根据本公开实施例提供的方法,通过在自动计算种子人群与普通人群的特征差异后根据差异程度进行特征推荐,然后根据设定的特征阈值优化风险人群筛选方案,提高了筛选与种子人群具有相似特征的人群的效率与准确度。
113.图9示出了图2中所示的步骤s212在一实施例中的处理过程示意图。在一实施例中,种子集合的目标特征对应的第一统计量包括种子集合的目标特征对应的目标特征值的均值,全量集合的目标特征对应的第三统计量包括全量集合的目标特征对应的目标特征值的标准差。如图9所示,本公开实施例中,上述步骤s212可以进一步包括以下步骤。
114.步骤s2122,获得各个全量对象的各个目标特征对应的目标特征值与种子集合的各个目标特征对应的目标特征值的均值之间的差值。
115.步骤s2124,获得各个目标特征对应的差值与全量集合的目标特征对应的目标特征值的标准差的比值。
116.步骤s2126,根据各个目标特征对应的比值,确定各个全量对象与种子集合在目标特征上的相似程度。
117.在一些实施例中,例如,目标特征包括k个,对于一个全量对象n,与种子集合在k个目标特征上的相似度指标sn可由下式计算:
118.sn=∑k(|特征值nj-全量集合特征j的均值|/全量集合特征j标准差)(2)式中,0《j≤k,j为正整数。式(2)表示,对于每个全量对象n,将所有选中的k个目标特征的特征均值分别与该对象的对应特征值的差,除以对应特征在全量集合中的标准差,累加起来得到相似度指标sn。相似度指标sn越大,则该全量对象在选定的特征内与种子群体差异越大,即相似度程度越小。
119.步骤s2128,根据各个全量对象与种子集合在目标特征上的相似程度从各个全量
对象中选取目标全量对象。
120.本公开实施例中,可选取相似度指标最小的前预定数量个账户作为目标全量对象,展示到前台供用户查看分析,以进一步进行相似人群筛选。图10是根据一示例性实施例示出的一种目标对象选择交互界面示意图。如图10所示,按照相似度指标排序的账户列表中,除了展示相似度这个核心指标外,还可以展示该目标账户的其它指标信息,比如账户名、注册时间、交易金额等基本属性或风险数据。业务人员根据系统推荐的相似人群列表,人工可以逐个查询和分析每个账户的风险,也可通过导出、调用等方式在其它系统上分析。
121.根据本公开实施例提供的方法,通过将待筛选的全量对象的目标特征的特征值与种子集合该特征的均值做差后与种子集合该特征的标准差左比,计算各全量对象在目标特征上与种子集合的相似程度以进行筛选目标对象,提高了筛选与种子人群具有相似特征的人群的准确度。
122.图11示出了图9中所示的步骤s2126在一实施例中的处理过程示意图。如图11所示,本公开实施例中,上述步骤s2126可以进一步包括以下步骤。
123.步骤s21262,获取各个目标特征对应的权重参数。
124.步骤s21264,根据各个全量对象的各个目标特征对应的比值及其权重参数进行加权求和,获得各个全量对象的相似度指标;其中,各个全量对象的相似度指标越小,对应的相似程度越大。
125.本公开实施例中,可在确定目标特征时,人工设定选中特征在相似算法中的权重。例如,业务人员对近期交易金额这个特征比较重视,可在根据差异度确定目标特征时增加该特征的权重,则在计算相似度指标时,增加该特征在相似性上的权重。
126.根据本公开实施例提供的方法,通过计算全量对象在目标特征上与种子集合的相似程时考虑目标特征的权重,以进行相似度计算,提高了筛选与种子人群具有相似特征的人群的准确度。
127.图12是根据一示例性实施例示出的一种相似人群筛选流程示意图。如图12所示系统首先获取全量人群用户的特征值数据(122),比如获取系统涵盖的银行体系内所有用户的年龄、性别、交易金额、商品数等特征的数据。相似人群筛选流程可包括以下步骤。
128.步骤s1202,系统前台获取输入的种子人群用户。
129.步骤s1204,根据种子人群用户的id获得这些id对应的各特征的特征值,计算种子用户的均值和标准差。
130.步骤s1206,基于全量人群用户的特征值,计算全量人群用户(普通用户)的各特征均值和标准差。
131.步骤s1208,利用种子人群和全量人群的特征均值和标准差,计算种子人群在所有特征上的差异度。
132.步骤s1210,按差异度值排序后在前台展示,人工选择确认差异度大的特征,获得差异特征集(124)。
133.步骤s1212,根据人工选择的特征,以及种子人群的均值、全量人群的方差或标准差等,从全量人群中筛选最符合这些特征的用户,即与种子人群在这些特征上与全量人群的差异的较小的用户。
134.步骤s1212,选取差异最小的前预定数量用户,展示到前台供工作人员查看分析,
用于排查风险。
135.根据本公开提供的方法,基于数据的自动清洗比对,业务人员可以自行快速完成人群特征分析、相似人群筛选,大幅提高了相似风险人群的排查效率,分析筛查操作一般若干个小时内就能完成。
136.图13是根据一示例性实施例示出的一种基于数据特征的相似对象定位装置的框图。如图13所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
137.参考图13,本公开实施例提供的装置130可以包括种子特征统计模块1302、对照特征统计模块1304、特征差异获得模块1306、目标特征确定模块1308、全量特征获取模块1310和相似对象确定模块1312。
138.种子特征统计模块1302可用于获取种子集合的各特征对应的第一统计量。
139.对照特征统计模块1304可用于获取对照集合的各特征对应的第二统计量。
140.特征差异获得模块1306可用于根据各特征对应的第一统计量和第二统计量,获得种子集合和对照集合对应各特征的差异程度。
141.目标特征确定模块1308可用于基于差异程度从各特征中确定目标特征。
142.全量特征获取模块1310可用于获取全量集合中的各个全量对象的目标特征对应的目标特征值。
143.相似对象确定模块1312可用于根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定目标全量对象,目标全量对象与种子集合中的种子对象在目标特征上具有相似性。
144.图14是根据一示例性实施例示出的一种基于数据特征的相似对象定位装置的框图。如图14所示的装置例如可以应用于上述系统的服务器端,也可以应用于上述系统的终端设备。
145.参考图14,本公开实施例提供的装置140可以包括种子特征统计模块1402、全量特征统计模块14032、全量差异获得模块14034、差异度阈值获取模块14036、对照集合获得模块14038、对照特征统计模块1404、特征差异获得模块1406、目标特征确定模块1408、全量特征获取模块1410和相似对象确定模块1412,其中,特征差异获得模块1406可以包括第二特征均值差值获得模块14062、特征标准差求和模块14064、第二特征比值获得模块14066和差异程度确定模块14068,目标特征确定模块1408可以包括特征排序模块14082和目标特征选择模块14084,目标特征选择模块14084可以包括特征阈值获取模块140844和目标特征筛选模块140846,相似对象确定模块1412可以包括第一特征均值差值获得模块14122、第一特征比值获得模块14124、相似程度确定模块14126和相似对象选取模块14128,相似程度确定模块14126可以包括特征权重获取模块141262和相似度指标计算模块141264。
146.种子特征统计模块1402可用于获取种子集合的各特征对应的第一统计量。种子集合的各特征对应的第一统计量包括种子集合的各特征对应的特征值的均值和种子集合的各特征对应的特征值的标准差。种子集合中包括第一数量的种子对象。
147.全量特征统计模块14032可用于获取全量集合的各特征对应的第三统计量。
148.全量差异获得模块14034可用于根据各特征对应的第一统计量和第三统计量,获得种子集合和全量集合对应各特征的差异程度。
149.差异度阈值获取模块14036可用于获取各特征的差异度阈值。
150.对照集合获得模块14038可用于在种子集合和全量集合对应各特征的差异程度至少部分大于对应的差异度阈值时,获得对照集合为全量集合。
151.对照集合获得模块14038还可用于在种子集合和全量集合对应各特征的差异程度分别小于对应的差异度阈值时,响应对照对象选择指令,从全量集合中确定对照集合。
152.对照特征统计模块1404可用于获取对照集合的各特征对应的第二统计量。对照集合的各特征对应的第一统计量包括对照集合的各特征对应的特征值的均值和对照集合的各特征对应的特征值的标准差。
153.特征差异获得模块1406可用于根据各特征对应的第一统计量和第二统计量,获得种子集合和对照集合对应各特征的差异程度。
154.第二特征均值差值获得模块14062可用于获得对照集合的各特征对应的特征值的均值与种子集合的各特征对应的特征值的均值之间的差值。
155.特征标准差求和模块14064可用于获得对照集合的各特征对应的特征值的标准差与种子集合的各特征对应的特征值的标准差的和。
156.第二特征比值获得模块14066可用于获得各特征对应的均值差值与各特征对应的标准差的和之间的比值。
157.差异程度确定模块14068可用于根据各特征的比值,确定种子集合和对照集合对应各特征的差异程度。
158.目标特征确定模块1408可用于基于差异程度从各特征中确定目标特征。
159.特征排序模块14082可用于按照差异程度从大到小的顺序将各特征进行排序,获得特征列表。
160.目标特征选择模块14084可用于响应目标特征选择指令,从特征列表中确定目标特征。
161.特征选择指令响应模块140842可用于响应目标特征选择指令,获得目标特征选择指令对应的特征。
162.特征阈值获取模块140844可用于获取目标特征选择指令对应的特征的预设阈值。
163.目标特征筛选模块140846可用于根据目标特征选择指令对应的特征对应的特征值与预设阈值的大小关系获得目标特征。
164.全量特征获取模块1410可用于获取全量集合中的各个全量对象的目标特征对应的目标特征值。
165.相似对象确定模块1412可用于根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定目标全量对象,目标全量对象与种子集合中的种子对象在目标特征上具有相似性。全量集合中包括第二数量的全量对象,第二数量大于第一数量。
166.相似对象确定模块1412还可用于根据种子集合的目标特征对应的第一统计量、各个全量对象的目标特征对应的目标特征值和全量集合的目标特征对应的第三统计量,从各个全量对象中确定目标全量对象。种子集合的目标特征对应的第一统计量包括种子集合的目标特征对应的目标特征值的均值,全量集合的目标特征对应的第三统计量包括全量集合的目标特征对应的目标特征值的标准差。
167.第一特征均值差值获得模块14122可用于获得各个全量对象的各个目标特征对应的目标特征值与种子集合的各个目标特征对应的目标特征值的均值之间的差值。
168.第一特征比值获得模块14124可用于获得各个目标特征对应的差值与全量集合的目标特征对应的目标特征值的标准差的比值。
169.相似程度确定模块14126可用于根据各个目标特征对应的比值,确定各个全量对象与种子集合在目标特征上的相似程度。
170.特征权重获取模块141262可用于获取各个目标特征对应的权重参数。
171.相似度指标计算模块141264可用于根据各个全量对象的各个目标特征对应的比值及其权重参数进行加权求和,获得各个全量对象的相似度指标;其中,各个全量对象的相似度指标越小,对应的相似程度越大。
172.相似对象选取模块14128可用于根据各个全量对象与种子集合在目标特征上的相似程度从各个全量对象中选取目标全量对象。
173.本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容,此处不再赘述。
174.图15示出本公开实施例中一种电子设备的结构示意图。需要说明的是,图15示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。
175.如图15所示,设备1500包括中央处理单元(cpu)1501,其可以根据存储在只读存储器(rom)1502中的程序或者从存储部分1508加载到随机访问存储器(ram)1503中的程序而执行各种适当的动作和处理。在ram 1503中,还存储有设备1500操作所需的各种程序和数据。cpu1501、rom 1502以及ram 1503通过总线1504彼此相连。输入/输出(i/o)接口1505也连接至总线1504。
176.以下部件连接至i/o接口1505:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至i/o接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
177.特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被中央处理单元(cpu)1501执行时,执行本公开的系统中限定的上述功能。
178.需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、
或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
179.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
180.描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括种子特征统计模块、特征差异获得模块、目标特征确定模块、全量特征获取模块和相似对象确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如种子特征统计模块还可以被描述为“获取种子集合的各特征对应的第一统计量的模块”。
181.根据本公开的一个方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取种子集合的各特征对应的第一统计量;获取对照集合的各特征对应的第二统计量;根据各特征对应的第一统计量和第二统计量,获得种子集合和对照集合对应各特征的差异程度;基于差异程度从各特征中确定目标特征;获取全量集合中的各个全量对象的目标特征对应的目标特征值;根据种子集合的目标特征对应的第一统计量和各个全量对象的目标特征对应的目标特征值,从各个全量对象中确定目标全量对象,目标全量对象与种子集合中的种子对象在目标特征上具有相似性。
182.根据本公开的一个方面,本公开还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
183.以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献