一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户社群检测方法、装置、计算机设备及存储介质与流程

2022-02-25 23:58:24 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种用户社群检测方法、装置、计算机设备及存储介质。


背景技术:

2.随着计算机技术的发展,越来越多的生产、生活活动通过互联网进行开展,参与生产、生活活动的用户对象可以构成图网络。图网络包括节点和连接边,其中,图网络中的部分节点可能存在较强的关联关系,可以组成社群。
3.在对图网络进行数据挖掘时,常常需要检测图网络中的用户社群。现在已经出现一些社群发现算法,infomap算法又叫社区发现算法,是当前应用较多的一种算法。infomap算法会对图网络中点和边进行计算,从而挖掘出图网络中的用户社群,但是现有的infomap算法会忽视点和边的重要程度,导致用户社群检测的准确性较低。


技术实现要素:

4.本技术实施例的目的在于提出一种用户社群检测方法、装置、计算机设备及存储介质,以解决用户社群检测准确度较低的问题。
5.为了解决上述技术问题,本技术实施例提供一种用户社群检测方法,采用了如下所述的技术方案:
6.获取用户活动信息;
7.确定所述用户活动信息中的节点数据和连接边数据;
8.根据所述节点数据和所述连接边数据构建第一图网络;
9.通过预设的排名算法确定所述第一图网络中各节点的节点权重,以根据所述节点权重更新所述第一图网络,得到第二图网络;
10.基于所述第二图网络中各节点的节点权重,确定所述第二图网络中各连接边的边权重,以根据所述边权重对所述第二图网络进行更新得到第三图网络;
11.通过社群发现算法对所述第三图网络进行计算,得到用户社群检测结果。
12.为了解决上述技术问题,本技术实施例还提供一种用户社群检测装置,采用了如下所述的技术方案:
13.信息获取模块,用于获取用户活动信息;
14.数据确定模块,用于确定所述用户活动信息中的节点数据和连接边数据;
15.网络构建模块,用于根据所述节点数据和所述连接边数据构建第一图网络;
16.第一更新模块,用于通过预设的排名算法确定所述第一图网络中各节点的节点权重,以根据所述节点权重更新所述第一图网络,得到第二图网络;
17.第二更新模块,用于基于所述第二图网络中各节点的节点权重,确定所述第二图网络中各连接边的边权重,以根据所述边权重对所述第二图网络进行更新得到第三图网络;
18.网络计算模块,用于通过社群发现算法对所述第三图网络进行计算,得到用户社群检测结果。
19.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
20.获取用户活动信息;
21.确定所述用户活动信息中的节点数据和连接边数据;
22.根据所述节点数据和所述连接边数据构建第一图网络;
23.通过预设的排名算法确定所述第一图网络中各节点的节点权重,以根据所述节点权重更新所述第一图网络,得到第二图网络;
24.基于所述第二图网络中各节点的节点权重,确定所述第二图网络中各连接边的边权重,以根据所述边权重对所述第二图网络进行更新得到第三图网络;
25.通过社群发现算法对所述第三图网络进行计算,得到用户社群检测结果。
26.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
27.获取用户活动信息;
28.确定所述用户活动信息中的节点数据和连接边数据;
29.根据所述节点数据和所述连接边数据构建第一图网络;
30.通过预设的排名算法确定所述第一图网络中各节点的节点权重,以根据所述节点权重更新所述第一图网络,得到第二图网络;
31.基于所述第二图网络中各节点的节点权重,确定所述第二图网络中各连接边的边权重,以根据所述边权重对所述第二图网络进行更新得到第三图网络;
32.通过社群发现算法对所述第三图网络进行计算,得到用户社群检测结果。
33.与现有技术相比,本技术实施例主要有以下有益效果:获取到用户活动信息后,提取节点数据和连接边数据并构建第一图网络,通过预设的排名算法给第一图网络中的各节点添加节点权重,得到第二图网络;然后基于第二图网络中各节点的节点权重,确定各连接边的边权重,从而得到带有边权重的第三图网络;边权重代表了连接边的重要性,丰富了社群发现算法的输入信息,从而提高了通过社群发现算法计算得到的用户社群检测结果的准确性。
附图说明
34.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本技术可以应用于其中的示例性系统架构图;
36.图2是根据本技术的用户社群检测方法的一个实施例的流程图;
37.图3是根据本技术的用户社群检测装置的一个实施例的结构示意图;
38.图4是根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
39.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
40.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
41.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
42.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
43.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
44.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
45.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
46.需要说明的是,本技术实施例所提供的用户社群检测方法一般由服务器执行,相应地,用户社群检测装置一般设置于服务器中。
47.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
48.继续参考图2,示出了根据本技术的用户社群检测方法的一个实施例的流程图。所述的用户社群检测方法,包括以下步骤:
49.步骤s201,获取用户活动信息。
50.在本实施例中,用户社群检测方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
51.具体地,首先获取用户活动信息。用户活动信息可以是记录用户活动的信息,除了包括单一用户的基本信息以及活动操作信息,还可以包括不同用户之间的互动信息。用户
活动信息可以从数据库中获取。
52.需要强调的是,为进一步保证上述用户活动信息的私密和安全性,上述用户活动信息还可以存储于一区块链的节点中。
53.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
54.步骤s202,确定用户活动信息中的节点数据和连接边数据。
55.具体地,本技术需要搭建图网络,根据对图网络的计算,实现用户社群检测。图网络中包括节点和连接边,连接边用于连接节点。节点对应的描述信息为节点数据,连接边对应的描述信息为连接边数据。节点数据和连接边数据可以从用户活动信息中提取得到。
56.步骤s203,根据节点数据和连接边数据构建第一图网络。
57.具体地,首先建立的图网络为第一图网络。依据节点数据构建节点,依据连接边数据构建节点之间的连接边,从而得到第一图网络,第一图网络为有向图。
58.在一个实施例中,第一图网络的构建过程如下:
59.(1)使用python的pandas.read_csv模块导入节点数据和连接边数据;
60.(2)使用python的networkx初始化有向单边图g;networkx是python的一个包,用于构建和操作复杂的图结构,提供分析图的算法。
61.(3)使用networkx的add_nodes_from为有向单边图g构建节点,使用networkx的add_edges_from为有向单边图g构建连接边,从而得到第一图网络。
62.步骤s204,通过预设的排名算法确定第一图网络中各节点的节点权重,以根据节点权重更新第一图网络,得到第二图网络。
63.具体地,第一图网络中的节点不具有节点权重,连接边不具有边权重。现有的社区发现算法会直接对第一图网络进行计算,忽略节点和连接边的重要程度,准确性较低。
64.本技术中,使用预设的排名算法计算第一图网络中各节点的节点权重,将计算出的节点权重添加给各节点,从而实现对第一图网络的更新,得到第二图网络。
65.使用预设的排名算法时,需要初始化各节点的节点权重,然后通过预设的排名算法对各节点初始化的节点权重进行更新。在初始化时,各节点的节点权重可以相同,也可以不同。
66.步骤s205,基于第二图网络中各节点的节点权重,确定第二图网络中各连接边的边权重,以根据边权重对第二图网络进行更新得到第三图网络。
67.具体地,第二图网络中的连接边不具有边权重,需要给第二图网络中的连接边添加边权重。在图网络中,节点权重越高,节点越重要,与节点相关联的连接边也越重要。因此,可以根据第二图网络中各节点的节点权重,给各连接边添加边权重,将节点的重要性转移到和节点相关联的连接边上,从而更新第二图网络得到第三图网络。
68.在一个实施例中,可以将节点的节点权重添加给指向该节点的连接边,得到连接边的边权重。
69.步骤s206,通过社群发现算法对第三图网络进行计算,得到用户社群检测结果。
70.具体地,第三图网络中的连接边具有边权重,可以针对第三图网络运行社群发现算法,连接边的边权重作为第三图网络的输入信息。社群发现算法可以检测出第三图网络中的用户社群,在每个用户社群内部,节点之间的联系较为紧密。检测到的用户社群将作为用户社群检测结果。
71.进一步的,上述步骤s206可以包括:通过社群发现算法对带有边权重的第三图网络进行计算,得到第三图网络中的用户社群,社群发现算法为infomap算法;将得到的用户社群确定为用户社群检测结果。
72.具体地,在使用社群发现算法对第三图网络进行计算时,可以将连接边的边权重加入计算,节点的节点权重可以不予以考虑。使用的社群发现算法可以是infomap算法。infomap算法是从信息论的角度出发,计算图网络中随机游走的路径,任意一条路径所需的最小平均比特越小,社群划分得就越好。infomap算法的迭代过程为:

初始化,将每个节点视为独立的社群;

随机遍历每个节点,将每个节点划分到平均比特值下降最大的相邻类;

重复

(每次随机的顺序不同),直到整个图的平均比特值不变。本技术中,infomap算法运行时,是否从一个节点跳至另一个节点,会受到两个节点之间连接边的边权重影响。连接边的边权重越大,通过该连接边跳转至另一个节点的概率也就越大。
73.infomap算法从第三图网络中划分出至少一个用户社群,检测出的用户社群将作为用户社群检测结果。
74.本实施例中,社群发现算法为infomap算法,infomap算法将连接边的边权重作为输入信息,可以更准确地进行社群划分,提高了生成的用户社群检测结果的准确性。
75.本实施例中,获取到用户活动信息后,提取节点数据和连接边数据并构建第一图网络,通过预设的排名算法给第一图网络中的各节点添加节点权重,得到第二图网络;然后基于第二图网络中各节点的节点权重,确定各连接边的边权重,从而得到带有边权重的第三图网络;边权重代表了连接边的重要性,丰富了社群发现算法的输入信息,从而提高了通过社群发现算法计算得到的用户社群检测结果的准确性。
76.进一步的,上述步骤s202可以包括:识别用户活动信息中的实体数据以及关系数据;获取用户社群检测的场景标识;根据场景标识对实体数据和关系数据进行筛选;将筛选后得到的实体数据确定为节点数据,并将筛选后得到的关系数据确定为连接边数据。
77.其中,实体数据可以是实体的描述数据,关系数据可以是描述实体关系的数据。例如,在用户活动信息中,用户账号可以是一个实体,该用户账号绑定了一个手机号码,则该手机号码可以是一个实体数据;两个用户账号之间可以存在邀请关系,这种邀请关系可以作为关系数据。场景标识可以是应用场景的标识,用户社群检测可以具有多种应用场景,例如,针对检测到的用户社群进行欺诈团伙识别或者产品推荐,可以通过场景标识区分不同的应用场景。
78.具体地,可以通过自然语言处理等技术识别用户活动信息中的实体数据以及关系数据。还可以再获取用户社群检测的场景标识,场景标识代表应用场景,在不同的应用场景中,所需要的实体数据以及关系数据可能不同;并且在不同的应用场景中,同样的实体数据和关系数据,在计算时所占的权重也可能不同。因此,可以根据场景标识对识别到的实体数据和关系数据进行筛选,留下与场景标识所对应的应用场景中所需的实体数据和关系数据,并将筛选后得到的实体数据确定为节点数据,将筛选后得到的关系数据确定为连接边
数据。
79.举例说明,在一个针对拉新活动中,可能存在一些恶意批量注册从而获取利益的团伙,需要进行欺诈团伙检测。在该应用场景下,筛选出6类实体数据作为节点数据:前30天参与活动的新老客户手机号码;手机号码注册时间(精确到天);前30天手机号码使用的设备号;前30天手机号码绑定的车牌号;前30天手机号码绑定的车架号;前30天手机号使用的ip地址(internetprotocol address,互联网协议地址)。筛选出以下关系数据作为连接边数据:邀请人手机号码与被邀请人手机号码的邀请关系;手机号码与注册时间的关联关系;手机号码与设备号的关联关系;手机号码与车牌号的关联关系;手机号码与车架号的关联关系;手机号码与ip地址的关联关系。
80.本实施例中,识别用户活动信息中的实体数据以及关系数据后,根据场景标识对实体数据和关系数据进行筛选,从而得到所需的节点数据和连接边数据,完成了用户社群检测的数据准备。
81.进一步的,上述步骤s204可以包括:获取用户社群检测的场景标识以及第一图网络中各节点的节点类型;根据场景标识和节点类型,给各节点添加第一节点权重;通过预设的排名算法对带有第一节点权重的第一图网络进行计算,以更新各节点的第一节点权重得到第二节点权重,并生成第二图网络。
82.具体地,本技术通过预设的排名算法计算第一图网络中各节点的节点权重,节点权重是节点重要性的体现。使用排名算法时,需要先初始化第一图网络,得到各节点的第一节点权重。第一图网络可以具有多种节点类型的节点,在不同的应用场景中,各类型节点的重要性存在差异。
83.因此在初始化各节点的第一节点权重时,可以获取用户社群检测的场景标识以及节点类型,根据场景标识和节点类型,初始化各节点的第一节点权重,而不是采用均分权重的方式。在一个实施例中,可以获取权重设置表,在权重设置表中查询场景标识和节点类型得到权重数值,然后赋值给对应节点。在一个实施例中,各节点的权重值相加和为1。
84.本技术使用的排名算法可以是pagerank算法,pagerank又称网页排名、网页级别、google左侧排名或佩奇排名,是一种由根据网页之间相互的超链接计算的技术。pagerank算法可以通过随机游走方法计算网络中节点(例如网页)的影响力。通过pagerank算法对第一图网络中的各节点进行计算,以更新各节点的第一节点权重得到第二节点权重。pagerank算法的结果是一个键值对(key-value)形式的字典,其中,key为节点名称,value为节点的pagerank值,也就是节点的权重。例如,pagerank算法的结果为{

134*****’:0.032,

196.1.1.*’:0.000212,
……
}。
85.pagerank算法的结果输出是每个节点的重要性,用来给后续算法使用到的节点和连接边赋予权重。
86.承接前述例子,依据各类节点的重要程度,初始化时第一节点权重的比例设置为:手机号码:设备号:ip地址:车牌号:车架号:注册时间=3:2:2:1:1:1,其和为1。
87.然后构建pagerank参数,在python中,nstart用于自定义各节点的pagerank初始值,nstart定义为字典形式(key:value),即init_nstart={手机号节点:3,设备号节点:2,ip节点:2,车牌号节点:1,车架号节点:1,注册时间节点:1}。
88.接着使用python networkx库中的pagerank算法(networkx.pagerank算法),即
networkx.pagerank(g,alpha=0.85,personalization=none,max_iter=100,tol=1e-06,nstart=init_nstart,weight=’weight’,dangling=none),运行完成后即可得到各节点的第二节点权重。
89.在得到各节点的第二节点权重后,便实现了第一图网络的更新,得到第二图网络。
90.本实施例中,根据场景标识给不同类型的节点对应添加第一节点权重,在初始化时便体现出各节点重要性的差异,保证了通过排名算法计算出的第二节点权重的准确性。
91.进一步的,在本技术的另一个实施例中,上述步骤s204可以包括:获取与用户活动信息相对应的预存活动信息,预存活动信息带有用户标签;根据第一图网络确定预存活动信息中的节点数据;通过随机森林计算带有用户标签的节点数据的特征贡献度;根据特征贡献度,确定第一图网络中各节点的第一节点权重;通过预设的排名算法对带有第一节点权重的第一图网络进行计算,以更新各节点的第一节点权重得到第二节点权重,并生成第二图网络。
92.具体地,在本技术的另一个实施例中,还可以通过随机森林确定各节点的第一节点权重。首先需要获取预存活动信息,预存活动信息与用户活动信息是相同类型的信息,但是预存活动信息带有用户标签。根据第一图网络从预存活动信息中筛选出节点数据,第一图网络中包含哪些类型的节点数据,便保留预存活动信息中哪些类型的节点数据。
93.从预存活动信息中提出的节点数据指向一个用户,该用户具有用户标签,此时,可以将各类型的节点数据作为用户特征,根据用户标签生成随机森林,并计算各类用户特征(节点数据)的特征贡献度。计算出的特征贡献度可以作为第一图网络中对应节点的第一节点权重。
94.然后通过预设的排名算法对带有第一节点权重的第一图网络进行计算,以更新各节点的第一节点权重得到第二节点权重,并基于得到的第二节点权重得到第二图网络。
95.承接本技术前述的例子,应用场景为欺诈团伙检测,则预存活动信息的用户标签用于标记用户是否为欺诈用户;用户与手机号绑定,因此也可以将手机号是否存在于黑名单作为标签。将六类节点数据作为特征数据,通过随机森林计算各类节点的特征贡献度,得到第一图网络中各类节点的第一节点权重。
96.本实施例中,可以获取与用户活动信息类型相同、且带有标签的预存活动信息,根据第一图网络在预存活动信息中确定节点数据,并通过随机森林计算出带有标签的节点数据的特征贡献度,从而得到各类节点第一节点权重,丰富了第一节点权重的确定方式。
97.进一步的,上述步骤s205可以包括:根据第二图网络中的各连接边,将第二图网络中的各节点划分为第一节点集合和第二节点集合,其中,第一节点集合中的节点通过连接边指向第二节点集合中的节点;对于第二节点集合中的每个节点,将节点的节点权重赋值给指向节点的连接边,得到连接边的边权重;根据边权重对第二图网络进行更新,得到第三图网络。
98.具体地,第二图网络中的连接边具有方向性,一个节点通过连接边连接至另一个节点。根据各连接边的方向性,将第二图网络中的各节点划分为第一节点集合list1和第二节点集合list2,第一节点集合中的节点node1可以通过有向的连接边连接至第二节点集合中的节点node2。
99.对于第二节点集合中的节点node2,节点node2具有排名算法计算出的第二节点权
重,将节点node2的第二节点权重赋值给指向节点node2的连接边,该连接边获得边权重。第二图网络中的各连接边得到边权重,生成第三图网络,第三图网络为加权有向图。
100.在一个实施例中,各连接边的边权重构成边权重列表weights。使用igraph生成加权有向图(即第三图网络),g2=igraph.graph.tuplelist(list(node1,node2),directed=true);然后应用infomap算法进行社群检测,得到第三图网络中的用户社群result=g2.community_infomap(edge_weights=weights)。
101.本实施例中,将节点的权重赋值给指向节点的连接边,使得连接边得到边权重,边权重会被社群发现算法加入计算,从而保证了用户社群检测的准确性。
102.进一步的,上述步骤s206之后,还可以包括:根据预设的欺诈识别算法对用户社群检测结果中的各用户社群进行计算,得到欺诈用户识别结果;将欺诈用户识别结果发送至预设账号所登陆的终端以进行展示。
103.具体地,得到的用户社群检测结果中包含了检测到的用户社群。可以针对用户社群进行后续的处理,例如,针对用户社群进行产品推荐,或者,对用户社群进行欺诈检测。
104.可以通过预设的欺诈识别算法对用户社群进行计算,得到欺诈识别结果。欺诈识别算法可以根据设定的规则进行计算,先对用户社群中的各类节点进行计算,根据计算结果对用户社群进行初步判定;当初步判定用户社群为候选欺诈团伙时,再对用户社群中的用户进行检测,得到欺诈用户识别结果。
105.承接本提案前述的例子,先对各用户社群中的各类节点进行计算,筛选出手机号码个数大于n(n为预设阈值,例如n=4)的用户社群,并对用户社群中的手机号码进行计算,分别确定共用同一个设备号、同一个ip地址、同一个车牌号、同一个车架号、在同一天注册的手机号码占比。
106.若某个手机号码数大于n的用户社群中,共用同一个设备的手机号码数量占本用户社群所包含手机号码总数的比例超过70%,或共用同一个车牌号的手机号码数量占比超过70%,或共用同一个车架号的手机号码数量占比超过70%,或共用同一个ip地址的手机号码数量占比超过70%、同一天注册的手机号码数量占比超过70%(注意,此处衡量占比时所用的阈值70%为举例,可以是其他数值,且共用同一个设备号、同一个ip、同一个车牌号、同一个车架号、在同一天注册的占比阈值可以各不相同),那么,判定该用户社群为候选欺诈团伙,输出该用户社群中的手机号,同时,共用同一个设备号、同一个ip地址、同一个车牌号、同一个车架号、在同一天注册的占比,也将被输出。
107.对候选欺诈团伙进行进一步的检测时,可以结合存量的黑白名单(白名单中为真实用户,黑名单中为虚假的欺诈用户),检测候选欺诈团伙中的黑白用户。如果候选欺诈团伙中有用户存在于白名单,对候选欺诈团伙中的用户进行检测(例如,对用户进行滑块验证),如果用户通过检测,则将该用户添加到白名单中,如果用户未通过检测,则将该用户添加到黑名单中。如果候选欺诈团伙中没有用户存在于白名单,则将候选欺诈团伙中的全部用户都加入黑名单中。新加入黑名单的用户将被确定为欺诈用户。
108.欺诈识别算法也可以是其他基于人工智能技术实现的算法。
109.欺诈识别算法运行完毕后得到欺诈用户识别结果,欺诈用户识别结果可以显示哪些用户是欺诈用户,哪些用户不是欺诈用户。欺诈用户识别结果将被发送至预设账号所登录的终端,以便在终端进行展示,并对欺诈用户进行进一步的监测与管控。
110.本实施例中,通过欺诈识别算法对用户社群检测结果中的用户社群进行欺诈识别,由于用户社群检测结果更加准确,使得得到的欺诈用户识别结果更加准确。
111.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
112.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
113.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
114.应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
115.进一步参考图3,作为对上述图2所示方法的实现,本技术提供了一种用户社群检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
116.如图3所示,本实施例所述的用户社群检测装置300包括:信息获取模块301、数据确定模块302、网络构建模块303、第一更新模块304、第二更新模块305以及网络计算模块306,其中:
117.信息获取模块301,用于获取用户活动信息。
118.数据确定模块302,用于确定用户活动信息中的节点数据和连接边数据。
119.网络构建模块303,用于根据节点数据和连接边数据构建第一图网络。
120.第一更新模块304,用于通过预设的排名算法确定第一图网络中各节点的节点权重,以根据节点权重更新第一图网络,得到第二图网络。
121.第二更新模块305,用于基于第二图网络中各节点的节点权重,确定第二图网络中各连接边的边权重,以根据边权重对第二图网络进行更新得到第三图网络。
122.网络计算模块306,用于通过社群发现算法对第三图网络进行计算,得到用户社群检测结果。
123.本实施例中,获取到用户活动信息后,提取节点数据和连接边数据并构建第一图网络,通过预设的排名算法给第一图网络中的各节点添加节点权重,得到第二图网络;然后基于第二图网络中各节点的节点权重,确定各连接边的边权重,从而得到带有边权重的第
三图网络;边权重代表了连接边的重要性,丰富了社群发现算法的输入信息,从而提高了通过社群发现算法计算得到的用户社群检测结果的准确性。
124.在本实施例的一些可选的实现方式中,数据确定模块302可以包括:数据识别子模块、标识获取子模块、数据筛选子模块以及数据确定子模块,其中:
125.数据识别子模块,用于识别用户活动信息中的实体数据以及关系数据。
126.标识获取子模块,用于获取用户社群检测的场景标识。
127.数据筛选子模块,用于根据场景标识对实体数据和关系数据进行筛选。
128.数据确定子模块,用于将筛选后得到的实体数据确定为节点数据,并将筛选后得到的关系数据确定为连接边数据。
129.本实施例中,识别用户活动信息中的实体数据以及关系数据后,根据场景标识对实体数据和关系数据进行筛选,从而得到所需的节点数据和连接边数据,完成了用户社群检测的数据准备。
130.在本实施例的一些可选的实现方式中,第一更新模块304可以包括:获取子模块、权重添加子模块以及第一更新子模块,其中:
131.获取子模块,用于获取用户社群检测的场景标识以及第一图网络中各节点的节点类型。
132.权重添加子模块,用于根据场景标识和节点类型,给各节点添加第一节点权重。
133.第一更新子模块,用于通过预设的排名算法对带有第一节点权重的第一图网络进行计算,以更新各节点的第一节点权重得到第二节点权重,并生成第二图网络。
134.本实施例中,根据场景标识给不同类型的节点对应添加第一节点权重,在初始化时便体现出各节点重要性的差异,保证了通过排名算法计算出的第二节点权重的准确性。
135.在本实施例的另一些可选的实现方式中,第一更新模块304可以包括:信息获取子模块、数据确定子模块、贡献度计算子模块、权重确定子模块以及权重更新子模块,其中:
136.信息获取子模块,用于获取与用户活动信息相对应的预存活动信息,预存活动信息带有用户标签。
137.数据确定子模块,用于根据第一图网络确定预存活动信息中的节点数据。
138.贡献度计算子模块,用于通过随机森林计算带有用户标签的节点数据的特征贡献度。
139.权重确定子模块,用于根据特征贡献度,确定第一图网络中各节点的第一节点权重。
140.权重更新子模块,用于通过预设的排名算法对带有第一节点权重的第一图网络进行计算,以更新各节点的第一节点权重得到第二节点权重,并生成第二图网络。
141.本实施例中,可以获取与用户活动信息类型相同、且带有标签的预存活动信息,根据第一图网络在预存活动信息中确定节点数据,并通过随机森林计算出带有标签的节点数据的特征贡献度,从而得到各类节点第一节点权重,丰富了第一节点权重的确定方式。
142.在本实施例的一些可选的实现方式中,第二更新模块305可以包括:节点划分子模块、赋值子模块以及第二更新子模块,其中:
143.节点划分子模块,用于根据第二图网络中的各连接边,将第二图网络中的各节点划分为第一节点集合和第二节点集合,其中,第一节点集合中的节点通过连接边指向第二
节点集合中的节点。
144.赋值子模块,用于对于第二节点集合中的每个节点,将节点的节点权重赋值给指向节点的连接边,得到连接边的边权重。
145.第二更新子模块,用于根据边权重对第二图网络进行更新,得到第三图网络。
146.本实施例中,将节点的权重赋值给指向节点的连接边,使得连接边得到边权重,边权重会被社群发现算法加入计算,从而保证了用户社群检测的准确性。
147.在本实施例的一些可选的实现方式中,网络计算模块306可以包括:网络计算子模块以及社群确定子模块,其中:
148.网络计算子模块,用于通过社群发现算法对带有边权重的第三图网络进行计算,得到第三图网络中的用户社群,社群发现算法为infomap算法。
149.社群确定子模块,用于将得到的用户社群确定为用户社群检测结果。
150.本实施例中,社群发现算法为infomap算法,infomap算法将连接边的边权重作为输入信息,可以更准确地进行社群划分,提高了生成的用户社群检测结果的准确性。
151.在本实施例的一些可选的实现方式中,用户社群检测装置300还可以包括:欺诈计算模块以及结果发送模块,其中:
152.欺诈计算模块,用于根据预设的欺诈识别算法对用户社群检测结果中的各用户社群进行计算,得到欺诈用户识别结果。
153.结果发送模块,用于将欺诈用户识别结果发送至预设账号所登陆的终端以进行展示。
154.本实施例中,通过欺诈识别算法对用户社群检测结果中的用户社群进行欺诈识别,由于用户社群检测结果更加准确,使得得到的欺诈用户识别结果更加准确。
155.为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
156.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
157.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
158.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,
智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如用户社群检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
159.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述用户社群检测方法的计算机可读指令。
160.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
161.本实施例中提供的计算机设备可以执行上述用户社群检测方法。此处用户社群检测方法可以是上述各个实施例的用户社群检测方法。
162.本实施例中,获取到用户活动信息后,提取节点数据和连接边数据并构建第一图网络,通过预设的排名算法给第一图网络中的各节点添加节点权重,得到第二图网络;然后基于第二图网络中各节点的节点权重,确定各连接边的边权重,从而得到带有边权重的第三图网络;边权重代表了连接边的重要性,丰富了社群发现算法的输入信息,从而提高了通过社群发现算法计算得到的用户社群检测结果的准确性。
163.本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的用户社群检测方法的步骤。
164.本实施例中,获取到用户活动信息后,提取节点数据和连接边数据并构建第一图网络,通过预设的排名算法给第一图网络中的各节点添加节点权重,得到第二图网络;然后基于第二图网络中各节点的节点权重,确定各连接边的边权重,从而得到带有边权重的第三图网络;边权重代表了连接边的重要性,丰富了社群发现算法的输入信息,从而提高了通过社群发现算法计算得到的用户社群检测结果的准确性。
165.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
166.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献