一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于大数据的用户标签设置方法、装置及电子设备与流程

2022-07-31 04:36:03 来源:中国专利 TAG:


1.本公开涉及大数据领域,尤其涉及一种基于大数据的用户标签设置方法、装置及电子设备。


背景技术:

2.随着互联网的不断发展,在线生活方式逐渐渗透到大众生活的方方面面,大众开始在网络上进行言论发表、在线购物、浏览器访问等行为。这些网络行为属于用户的特征资源,在很大程度上折射出了用户的兴趣偏好。用户的兴趣处于一个动态变化的过程中,用户的年龄、婚姻状况、所处环境等客观条件以及用户受教育程度、自身性格、个人喜好等主观条件都会对用户兴趣产生影响,这就使得用户在网络上所产生的属于个体表征的信息资源不仅数量庞大而且具有一定的时效性。
3.但随着用户和标签的量越来越大,计算量越来越大,造成需要的算力也越来越大。


技术实现要素:

4.有鉴于此,本公开实施例提供了一种基于大数据的用户标签设置方法、装置及电子设备,至少部分的解决现有技术中存在的计算量大的问题。
5.第一方面,本公开实施例提供了一种基于大数据的用户标签设置方法,包括:
6.基于获取的用户行为数据将用户分为多个社区,从而得到用户社区,根据用户的行为数据将具有相同或相似行为的用户划分到一起,用户社区基于用户对已标注资源的兴趣情况建立,已标注资源的兴趣情况通过计算用户标签的频次来确定,即用户相同标签标注资源的频次越高,用户属于同一用户社区的概率越高;
7.提取用户社区的相同特征,基于所述相同特征得到特征向量;
8.基于特征向量获取相应的标签信息;
9.基于所述标签信息和用户社区对用户设置标签。
10.可选的,所述基于获取的用户行为数据将用户分为多个社区,从而得到用户社区,包括:
11.基于用户行为数据得到邻居关系、朋友关系、偏好关系和成员关系;
12.基于邻居关系、朋友关系、偏好关系和成员关系对用户进行社区划分;
13.所述偏好关系为计算不同用户使用相同标签标注资源的频次判断,
14.所述用户使用相同标签标注资源的频次越高,表明用户对该标签的偏好越高;
15.在所述偏好关系判断中获取用户偏好稳定性,所述获取用户偏好稳定性包括计算用户运用标签的频次占设定时间上用户使用的所有标签频次的比重,所述比重越大说明用户偏好稳定性越好。
16.可选的,所述提取用户社区的相同特征,包括:
17.基于用户历史特征库与用户社区的特征进行对比,根据比对结果对用户社区特征进行提取;
18.对比提取结果,得到相同特征;
19.如在用户历史特征库中没有查找到相应的用户社区特征,则对该用户社区特征进行归集,并将归集结果添加到用户历史特征库。
20.可选的,基于用户历史特征库与用户社区的特征进行对比,根据比对结果对用户社区特征进行提取,包括:
21.将用户社区的特征与用户特征库内的特征的关联强度进行逐一对比;
22.关联强度基于关联强度模型得到,关联强度模型为:
[0023][0024]
其中,f为强度,a和b均为权重值,x为用户社区特征,ki为用户特征库内的特征,q(x,ki)为用户社区特征与用户特征库内的特征正关联系数,h(x,ki)为用户社区特征与用户特征库内的特征负关联系数,j为常数。
[0025]
可选的,所述权重值a基于得到。
[0026]
可选的,所述权重值b基于得到。
[0027]
第二方面,本公开实施例还提供了一种基于大数据的用户标签设置装置,包括:社区模块,用于基于获取的用户行为数据将用户分为多个社区,从而得到用户社区;
[0028]
向量模块,用于提取用户社区的相同特征,基于所述相同特征得到特征向量;
[0029]
标签模块,用于基于特征向量获取相应的标签信息;
[0030]
标签设置模块,用于基于所述标签信息和用户社区对用户设置标签。
[0031]
可选的,所述社区模块,还用于基于用户行为数据得到邻居关系、朋友关系、偏好关系和成员关系;
[0032]
基于邻居关系、朋友关系、偏好关系和成员关系对用户进行社区划分。
[0033]
第三方面,本公开实施例还提供了一种电子设备,该电子设备包括:
[0034]
至少一个处理器;以及,
[0035]
与所述至少一个处理器通信连接的存储器;其中,
[0036]
所述存储器存储有能被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面任一所述的基于大数据的用户标签设置方法。
[0037]
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行第一方面任一所述的基于大数据的用户标签设置方法。
[0038]
本公开实施例提供的基于大数据的用户标签设置方法、装置、电子设备及计算机
可读存储介质,其中该基于大数据的用户标签设置方法:通过将用户划分为多个社区,并对用户社区进行相同特征提取,对相应的社区设置标签,因对用户社区进行整体计算,避免了对每个用户进行计算,达到降低计算量的目的。
[0039]
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
[0040]
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0041]
图1为本公开实施例提供的一种基于大数据的用户标签设置方法的流程图;
[0042]
图2为本公开实施例提供的一种基于大数据的用户标签设置装置的原理框图;
[0043]
图3为本公开实施例提供的一种电子设备的原理框图。
具体实施方式
[0044]
下面结合附图对本公开实施例进行详细描述。
[0045]
应当明确,以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0046]
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
[0047]
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
[0048]
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
[0049]
为了便于理解,如图1所示,本实施例公开了一种基于大数据的用户标签设置方法,包括:
[0050]
步骤s101:基于获取的用户行为数据将用户分为多个社区,从而得到用户社区,根据用户的行为数据将具有相同或相似行为的用户划分到一起,用户社区基于用户对已标注资源的兴趣情况建立,已标注资源的兴趣情况通过计算用户标签的频次来确定,即用户相同标签标注资源的频次越高,用户属于同一用户社区的概率越高;
[0051]
即根据用户的行为数据将具有相同或相似行为的用户划分到一起,如根据年龄将50到55岁的老年人划分为一个社区,或者将喜欢自驾游的40岁左右的人划分为一个社区等。
[0052]
如用户在查看微信公众号文章时,可以对收藏的文章添加相应的标签,服务器通过收集的用户标签进行归一化,如做菜、菜谱等标签可以归一化到餐饮的统一标签下,通过对用户使用标签的频次统计用户的偏好,如用户每天对公众号添加标签10次,其中餐饮的标签使用了8次,则用户使用用户标签的频次为0.8,如另一个用户每天添加标签5次,4次使用餐饮的标签,则用户使用用户标签的频次也为0.8。那么这两个用户属于同一用户社区概率为100%。
[0053]
步骤s102:提取用户社区的相同特征,基于所述相同特征得到特征向量;
[0054]
即提取相同的特征可以根据历史用户行为数据得到,如历史用户行为数据中年龄50到55岁的老年人社区中,喜欢跳舞的老人,跳舞即为相同的特征,在喜欢自驾游的40岁左右的人中,相同品牌和型号的车型为相同特征,如房车。
[0055]
特征向量的计算可以根据历史用户行为数据从历史数据中确定训练数据集,历史用户行为数据包括用户点击过的历史数据。根据训练数据集,利用向量预测模型得到历史媒体数据的特征向量,由于类型标识可以体现历史数据的内容特点,故统计训练数据集中包括的类型标识,根据类型标识所对应的历史数据的特征向量确定类型标识的特征向量,类型标识的特征向量可以体现出历史数据的内容特点。若获取到未计算得到特征向量的目标数据,目标数据与具有相同类型标识的历史数据类似,则根据目标数据所具有的类型标识的特征向量可以计算得到目标数据的特征向量。
[0056]
步骤s103:基于特征向量获取相应的标签信息;
[0057]
即将提取的参数与特征库内的参数进行比对,根据比对结果得到相应的标签信息,如对比结果为自驾房车,则标记为自驾房车。
[0058]
基于聚类分析建立用户兴趣模型。并将特征向量输入到用户兴趣模型中,即可以计算得到相应的标签信息。建立用户兴趣模型中首先获取目标用户的候选标签集,在此基础上,应用朴素贝叶斯法,结合标签资源矩阵和用户标签矩阵,计算出用户对特定标签的喜好程度。在综合各个标签的影响后,最终得出对用户标签的推荐度。使用内容过滤分析,首先计算特征向量与标签的紧密度再将用户的特征向量的紧密度加总后,得到用户特征向量与标签的紧密度。然后计算各个标签之间的相关性并将相关标签进行聚类,加总后得到用户与已聚类标签的紧密度。同时根据各个己聚类标签计算得出要标记的标签信息,结合先前的紧密度得到标签信息推荐顺序。
[0059]
步骤s104:基于所述标签信息和用户社区对用户设置标签。
[0060]
基于自驾房车和40岁左右的用户社区,将自驾游的40岁用户社区中自驾房车的用户都标记为同一个标签。
[0061]
可选的,所述基于获取的用户行为数据将用户分为多个社区,从而得到用户社区,
包括:
[0062]
基于用户行为数据得到邻居关系、朋友关系、偏好关系和成员关系;
[0063]
基于邻居关系、朋友关系、偏好关系和成员关系对用户进行社区划分;
[0064]
所述偏好关系为计算不同用户使用相同标签标注资源的频次判断,
[0065]
所述用户使用相同标签标注资源的频次越高,表明用户对该标签的偏好越高;
[0066]
在所述偏好关系判断中获取用户偏好稳定性,所述获取用户偏好稳定性包括计算用户运用标签的频次占设定时间上用户使用的所有标签频次的比重,所述比重越大说明用户偏好稳定性越好。设定时间通常为一天。
[0067]
用户偏好稳定性体现了在时间的影响下用户偏好的动态变化。本实施例利用用户的每个偏好都具有遗忘衰减与记忆强化的过程,并以此来表征时间要素与标签权重的作用关系,进一步得出稳定性。
[0068]
可选的,所述提取用户社区的相同特征,包括:
[0069]
基于用户历史特征库与用户社区的特征进行对比,根据比对结果对用户社区特征进行提取;
[0070]
对比提取结果,得到相同特征;
[0071]
如在用户历史特征库中没有查找到相应的用户社区特征,则对该用户社区特征进行归集,并将归集结果添加到用户历史特征库。
[0072]
可选的,基于用户历史特征库与用户社区的特征进行对比,根据比对结果对用户社区特征进行提取,包括:
[0073]
将用户社区的特征与用户特征库内的特征的关联强度进行逐一对比;
[0074]
关联强度基于关联强度模型得到,关联强度模型为:
[0075][0076]
其中,f为强度,a和b均为权重值,x为用户社区特征,ki为用户特征库内的特征,q(x,ki)为用户社区特征与用户特征库内的特征正关联系数,h(x,ki)为用户社区特征与用户特征库内的特征负关联系数,j为常数。正关联系数和负关联系数是根据用户特征关联计算的,如用户社区为房车爱好者,则在计算用户特征库时,房车的用户与用户社区特征为正关联其系数为正,非房车用户,如越野车的用户与社区特征为负关联其系数为负。用户特征可以根据用户的行为进行鉴定,如用户在日常搜索中,经常搜索房车信息,则认定为房车用户,经常搜索越野车,则为越野车用户。还可以根据其购买的车辆保险对用户进行区分等。
[0077]
可选的,所述权重值a基于得到。
[0078]
可选的,所述权重值b基于得到。即如计算得的的数值
为a1,得到的数据相为b1,a=a1/(a1 b1),b=b1/(a1 b1)。
[0079]
如图2所示,一种基于大数据的用户标签设置装置,包括:社区模块,用于基于获取的用户行为数据将用户分为多个社区,从而得到用户社区;
[0080]
向量模块,用于提取用户社区的相同特征,基于所述相同特征得到特征向量;
[0081]
标签模块,用于基于特征向量获取相应的标签信息;
[0082]
标签设置模块,用于基于所述标签信息和用户社区对用户设置标签。
[0083]
可选的,所述社区模块,还用于基于用户行为数据得到邻居关系、朋友关系、偏好关系和成员关系;
[0084]
基于邻居关系、朋友关系、偏好关系和成员关系对用户进行社区划分。
[0085]
图3是图示根据本公开的实施例的电子设备的硬件框图。如图3所示,根据本公开实施例的电子设备包括存储器和处理器。
[0086]
该存储器用于存储非暂时性计算机可读指令。具体地,存储器可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。
[0087]
该处理器可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制电子设备中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器用于运行该存储器中存储的该计算机可读指令,使得该电子设备执行前述的本公开各实施例的基于大数据的用户标签设置全部或部分步骤。
[0088]
本领域技术人员应能理解,为了解决如何获得良好用户体验效果的技术问题,本实施例中也可以包括诸如通信总线、接口等公知的结构,这些公知的结构也应包含在本公开的保护范围之内。
[0089]
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0090]
根据本公开实施例的计算机可读存储介质,其上存储有非暂时性计算机可读指令。当该非暂时性计算机可读指令由处理器运行时,执行前述的本公开各实施例的基于大数据的用户标签设置方法全部或部分步骤。
[0091]
上述计算机可读存储介质包括但不限于:光存储介质(例如:cd-rom和dvd)、磁光存储介质(例如:mo)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置rom的媒体(例如:rom盒)。
[0092]
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0093]
终端设备可以以各种形式来实施,本公开中的终端设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字tv、台式计算机等等的固定终端设备。
[0094]
作为等同替换的实施方式,该终端还可以包括其他组件。终端可以包括电源单元、
无线通信单元、a/v(音频/视频)输入单元、用户输入单元、感测单元、接口单元、控制器、输出单元和存储单元等等。出了具有各种组件的终端,但是应理解的是,并不要求实施所有示出的组件,也可以替代地实施更多或更少的组件。
[0095]
其中,无线通信单元允许终端与无线通信系统或网络之间的无线电通信。a/v输入单元用于接收音频或视频信号。用户输入单元可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元检测终端的当前状态、终端的位置、用户对于终端的触摸输入的有无、终端的取向、终端的加速或减速移动和方向等等,并且生成用于控制终端的操作的命令或信号。接口单元用作至少一个外部装置与终端连接可以通过的接口。输出单元被构造为以视觉、音频和/或触觉方式提供输出信号。存储单元可以存储由控制器执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据。存储单元可以包括至少一种类型的存储介质。而且,终端可以与通过网络连接执行存储单元的存储功能的网络存储装置协作。控制器通常控制终端设备的总体操作。另外,控制器可以包括用于再现或回放多媒体数据的多媒体模块。控制器可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元在控制器的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
[0096]
本公开提出的基于大数据的用户标签设置方法各种实施方式可以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本公开提出的基于大数据的用户标签设置方法各种实施方式可以通过使用特定用途集成电路(asic)、数字信号处理器(dsp)、数字信号处理装置(dspd)、可编程逻辑装置(pld)、现场可编程门阵列(fpga)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本公开提出的基于大数据的用户标签设置方法各种实施方式可以在控制器中实施。对于软件实施,本公开提出的基于大数据的用户标签设置方法各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储单元中并且由控制器执行。
[0097]
有关本实施例的详细说明可以参考前述各实施例中的相应说明,在此不再赘述。
[0098]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0099]
在本公开中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0100]
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的
列举,以便例如“a、b或c的至少一个”的列举意味着a或b或c,或ab或ac或bc,或abc(即a和b和c)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
[0101]
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0102]
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
[0103]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0104]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献