一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于用户画像的信息推送方法、系统、设备及存储介质与流程

2022-09-15 06:36:13 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种基于用户画像的信息推送方法、系统、设备及存储介质。


背景技术:

2.随着互联网的发展,信息时代的服务越来越趋向于职能化、个性化,旨在向用户提供更全面、更完善、更人性化的信息服务,提高用户体验,因此如何提供更智能化、更个性化的服务将是众多信息技术产品所面临的竞争和挑战。
3.虽然当前大多数应用都可以实现简单的用户画像,根据用户的目标、行为和观点的差异,区分为不同的类型,然后每种类型中抽取出典型特征,赋予名字、照片、一些人口统计学要素、场景等描述,形成了一个人物的用户画像,用户画像即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息全貌,可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件。
4.不同的行业企业对用户画像的具体需求是不同的,比如电商平台需要根据用户喜好去推荐商品,电子书阅读平台需要根据读者喜好去推荐书籍,如果针对每种不同行业企业都要建立一套用户画像,针对不同行业企业都要进行元数据采集、过滤、筛选、建模以及推荐等过程,这将会导致工作量巨大,并且有些过程是重复的,耗时耗力,且成本较高,因此,对于所有不同行业企业,亟需一种能适用多种企业多种行业的信息推送方法。


技术实现要素:

5.本发明提供一种基于用户画像的信息推送方法、系统、设备及存储介质,其主要目的在于提供一种适用于多种行业企业的基于用户画像的信息推送方法,有效降低信息推送的工作量和成本。
6.第一方面,本发明实施例提供一种基于用户画像的信息推送方法,包括:
7.获取用户历史采样时刻的预设参数信息,所述预设参数信息包括各维度对所述用户进行描述的信息;
8.根据目标信息对应的特定应用场景,对所述预设参数信息进行筛选,并对筛选后的预设参数信息进行分类,获取用户的用户画像,所述用户画像包括属性标签、场景标签和特长标签,其中,所述属性标签包括所述用户的静态属性信息,所述场景标签包括所述特定应用场景下所述用户的动态行为信息,所述特长标签包括所述用户的偏好信息;
9.根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像;
10.根据所述目标信息对应的信息画像和更新后的用户画像,通过目标推荐算法,判断是否向所述用户推荐所述目标信息,所述目标推荐算法与所述特定应用场景相对应。
11.优选地,所述预设参数信息包括静态信息数据和动态信息数据,所述根据目标信
息对应的特定应用场景,对所述预设参数信息进行筛选,包括:
12.根据所述目标信息所属应用领域,从预设映射库中进行查找,获取所述特定应用场景和所述特定应用场景对应的关键词;
13.根据所述关键词,对所述静态信息数据和所述动态信息数据进行筛选,获取筛选后的静态信息数据和筛选后的动态信息数据。
14.优选地,所述并对筛选后的预设参数信息进行分类,获取用户的用户画像,包括:
15.根据预设维度类型,对筛选后的静态信息数据进行维度划分,并判断隶属于同一维度类型的预设属性参数是否一致,若一致,则进行聚类得到所述属性标签和所述特长标签;
16.提取筛选后的动态信息数据中用户行为数据,并对所述行为数据进行分析,统计所述用户的预设行为参数,并根据所述预设行为参数对用户进行分类,获取所述场景标签;
17.根据所述属性标签、所述特长标签和所述所述场景标签,获取所述用户画像。
18.优选地,所述根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像,包括:
19.提取所述部分实时参数信息中的预设行为参数,利用所述预设行为参数对所述动态行为信息进行更新;
20.对所述预设行为参数进行分析,根据所述预设行为参数所包含的行为参数值对所述属性标签、所述场景标签、所述特长标签的权重进行调整,获取更新后的用户画像。
21.优选地,所述获取用户历史采样时刻的预设参数信息,通过如下方式获得:
22.获取用户触发的应用或网站,根据所述应用或网站获取元数据来源系统;
23.通过爬虫技术采集所述源系统中的数据,并将所述数据输出至数据库;
24.通过etl将所述数据库中的数据迁移到数据仓库中;
25.根据所述历史采样时刻,从所述数据仓库中提取出与所述用户对应的预设参数信息。
26.优选地,所述通过etl将所述数据库中的数据迁移到数据仓库中,包括:
27.通过数据导入工具将各种数据库导入hive数据仓库,并通过hql语句实现数据清洗。
28.优选地,所述并通过hql语句实现数据清洗,包括:
29.对于格式不规范的数据,通过hqsl语句进行修正;
30.对于数值缺失的数据,通过编写特定的语句从抽取的数据中过滤这些数据,并对这些数据进行补齐后写入所述数据仓库;
31.通过正态分布检测或基于模型检测方式检测出异常,并在数据仓库中进行修正再抽取。
32.第二方面,本发明实施例提供一种基于用户画像的信息推荐系统,包括:
33.获取模块,用于获取用户历史采样时刻的预设参数信息,所述预设参数信息包括各维度对所述用户进行描述的信息;
34.画像模块,用于根据目标信息对应的特定应用场景,对所述预设参数信息进行筛选,并对筛选后的预设参数信息进行分类,获取用户的用户画像,所述用户画像包括属性标签、场景标签和特长标签,其中,所述属性标签包括所述用户的静态属性信息,所述场景标
签包括所述特定应用场景下所述用户的动态行为信息,所述特长标签包括所述用户的偏好信息;
35.更新模块,用于根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像;
36.推荐模块,用于根据所述目标信息对应的信息画像和更新后的用户画像,通过目标推荐算法,判断是否向所述用户推荐所述目标信息,所述目标推荐算法与所述特定应用场景相对应。
37.第三方面,本发明实施例提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于用户画像的信息推送方法的步骤。
38.第四方面,本发明实施例提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于用户画像的信息推送方法的步骤。
39.本发明提出的一种基于用户画像的信息推送方法、系统、设备及存储介质,首先获取用户历史采样时刻的预设参数信息,初始采集的预设参数信息包括用户各个维度的信息,而需要进行推荐的目标信息是针对特定应用场景的,因此只需要从预设参数信息中筛选出与该特定应用场景相关的参数即可,从而根据筛选出的预设参数信息生成用户画像,由于用户画像是和特定应用场景绑定的,因此可以根据不同行业企业对应的特定应用场景,动态调整筛选出的预设参数信息,从而使得用户画像与不同行业企业是相适应的;由于用户画像中所包含用户的动态行为信息是实时的,通过当前采样时刻采集的部分实时参数对动态行为信息进行更新,使得该用户画像更加准确,从而提高了目标信息推荐的准确度;利用更新后的用户画像和目标信息,结合目标推荐算法,来判断是否要向该用户推荐该目标信息。本发明实施例中不同行业企业能共用一套信息推送方法,降低了不同行业企业进行信息推荐时的工作量和开发成本。
附图说明
40.图1为本发明实施例提供的一种基于用户画像的信息推送方法的应用场景示意图;
41.图2为本发明实施例提供的一种基于用户画像的信息推送方法的流程图;
42.图3为本发明实施例提供的一种基于用户画像的信息推送系统的结构示意图;
43.图4为本发明实施例中提供的一种计算机设备的结构示意图。
44.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
45.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
46.图1为本发明实施例提供的一种基于用户画像的信息推送方法的应用场景示意图,如图1所示,用户在客户端中输入历史采样时刻的预设参数信息,或者,从其它系统中将历史采样时刻的预设参数信息导入到客户端中,客户端接收到历史采样时刻的预设参数信息后,将该历史采样时刻的预设参数信息发送给服务端,服务端接收到该基于预设参数信
息后,执行该一种基于用户画像的信息推送方法,如果判断出需要向用户推荐该目标信息,则将目标信息推送给用户,否则,不向用户推荐该目标信息。
47.需要说明的是,服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。客户端可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。客户端和服务端可以通过蓝牙、usb(universal serial bus,通用串行总线)或者其他通讯连接方式进行连接,本发明实施例在此不做限制。
48.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,简称ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
49.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
50.本发明实施例提供的一种基于用户画像的信息推送方法,可以应用于电商购物平台中的物品推荐,可以应用于高校图书管理系统中的图书推荐,还可以应用于新闻阅读系统中的新闻推荐,具体可以根据实际情况进行确定,本发明实施例在此不再赘述。
51.图2为本发明实施例提供的一种基于用户画像的信息推送方法的流程图,如图2所示,该方法包括:
52.s210,获取用户历史采样时刻的预设参数信息,所述预设参数信息包括各维度对所述用户进行描述的信息;
53.本发明实施例针对不同行业企业的不同用户画像需求,比如针对电子书阅读系统,不同身份类型的读者由于学历差距、认知能力有所差异,他们感兴趣的书籍是有差异性的,经过大数据统计分析,本科生一般倾向于与课程相关的参考工具书,研究生倾向于与研究课题相关的学术型书籍,教师倾向于与有关学科前沿相关的书籍,因此,一般需要统计用户的如下信息:姓名、性别、年龄、专业、学院、历史阅读书籍、周均阅读量、月均阅读量、活跃度等信息,也就是从用户的基础身份信息、专业信息、个人兴趣爱好以及阅读量这些方面对用户进行描述,这些信息即为用户历史采样时刻的预设参数信息,本发明实施例中针对电子书阅读系统从用户的基础身份信息、专业信息、个人兴趣爱好以及实际阅读信息四个维度对用户进行描述;又比如,针对电商购物系统,不同年龄段、不同性别、不同地区、是否有折扣、是否是用户经常浏览的商品、用户是否曾经购买这样的商品等等,这些信息都会影响到用户的购物商品,针对男性用户,常见比较关注和感兴趣的商品就是健身器材类等、运行类等、户外运动类商品等,而对于女性用户,常见比较关注和感兴趣的商品就是服饰类、护肤品类和彩妆类等,因此在推荐商品时不同性别的用户推荐的商品可能大相径庭;不同年龄段感兴趣的商品也不一样,年轻人和老年人感兴趣的商品可能不同,但是没有性别不同对推荐商品产生的区别大;不同地区是否有折扣是否是用户经常浏览的商品这些对推荐商品也有影响,比如不同地区饮食习惯不同,四川重庆喜辣,广东喜清淡,各个地区的饮食习惯不同地方特产也不同,因此推荐食品时更加倾向于将四川特产推荐给四川用户,将广东特产推荐给广东用户,另外,一个商品通常折扣越大,用户感兴趣的程度也会越高,用户经
常浏览的商品买的可能性也会高一点,对于曾经买过的商品,再买的可能性也会高点,因此,由于年龄段、性别、地区、折扣、用户经常浏览的商品、用户曾经购买这样的商品这些信息都会影响到用户是否购买该商品,本发明实施例中从年龄段、性别、地区、折扣、用户经常浏览的商品、用户曾经购买这样的商品这些维度采集历史采样时刻的预设参数信息。由上可知,电商购物平台和电子书阅读平台是两种不同的平台,对于电商购物平台,需要向用户推荐商品,从年龄段、性别、地区、折扣、用户经常浏览的商品、用户曾经购买这样的商品等维度来构建预设参数信息,从而便于后续生成用户画像;而对于电子书阅读平台,需要想用户推荐好书,从用户的基础身份信息、专业信息、个人兴趣爱好以及实际阅读信息四个维度来构建预设参数信息,从而便于后续生成用户画像,以上为本发明实施例中对于不同应用领域预设参数信息的表示含义,具体预设参数信息可以根据实际情况进行相应调整,本发明实施例在此不再赘述。
54.另外,历史采样时刻可以是过去一段时间预设个历史时刻采样点,具体可以根据实际情况进行确定,本发明实施例在此不做具体限定。并且,获取用户历史采样时刻的预设参数信息具体可以是从其它系统中导出来,举例地,对于电子书阅读平台,通过爬虫技术从电子书阅读平台对应得后台中将相关信息提取出来,存储到相应数据库中,当需要获取用户历史采样时刻的预设参数信息时,根据数据库中数据对应的时间点,提取出对应的预设参数信息即可;还可以是直接从记载的历史采样时刻的预设参数信息文件中直接导入过来,历史采样时刻的预设参数信息可以是预先记录在文件中的。预设参数信息的具体获取方法可以根据实际情况进行确定,本发明实施例在此不再赘述。
55.本发明实施例为了提取用户画像,先提取历史采样时刻各个维度对用户进行描述的预设参数信息,将这些信息作为初始数据,方便后续用户画像的刻画。
56.s220,根据目标信息对应的特定应用场景,对所述预设参数信息进行筛选,并对筛选后的预设参数信息进行分类,获取用户的用户画像,所述用户画像包括属性标签、场景标签和特长标签,其中,所述属性标签包括所述用户的静态属性信息,所述场景标签包括所述特定应用场景下所述用户的动态行为信息,所述特长标签包括所述用户的偏好信息;
57.根据目标信息对应的特定应用场景,从预设参数信息中进行筛选,并对筛选后的预设参数信息进行分类,得到用户画像。本发明实施例中,目标信息根据应用领域的不同,所包含的具体信息也不同,对于电商购物平台,目标信息包括商品名称、商品类别、商品价格、商品款式、商品物流公司等,对于电子书阅读平台,目标信息包括书籍名称、数据类别、书籍作者和豆瓣评分等等,具体可以根据实际情况进行确定,本发明实施例在此不再赘述。本发明实施例中目标信息对应的特定应用场景,该特定应用场景表示该目标信息的所属领域,比如特定应用场景可以是电商购物,也可以是电子书推荐,由于预设参数信息是从各方面对用户进行描述,而对于特定应用场景,只需要提取用户与该特定应用场景相关的信息,而删除掉其它信息,还可以删除掉对用户画像影响不大的信息,具体可以根据实际应用场景进行确定,本发明实施例在此不再赘述。比如对于电子书阅读平台,预设参数信息包括姓名、性别、年龄、专业、学院、历史阅读书籍、周均阅读量、月均阅读量、活跃度,该目标信息对应的特定应用场景为书籍阅读,影响到用户阅读书籍的关键因素是专业、年龄和历史阅读数据这些参数,可以将其它参数删除,得到筛选后的预设参数信息。
58.本发明实施例中根据目标信息对应的特定应用场景对预设参数信息进行筛选,选
取出用户画像有关的重要信息和关键信息,既减轻了该信息推送方法的计算量,又保证了用户画像的准确性。同时,根据特定应用场景选取合适的预设参数信息,不同行业企业的目标信息,其对应的特定应用场景是不同的,从而不同的特定应用场景筛选出来预设参数信息不同,而后续需要根据筛选出来的预设参数信息进行用户画像,从而实现了根据不同行业企业动态调整用户画像,使得该信息推送方法能适用于不同行业企业。
59.对于筛选后的预设参数信息,对预设参数信息进行分类,将预设参数信息分为属性标签、场景标签和特长标签三类,并且属性标签、场景标签和特长标签三种构成用户画像,本发明实施例中以电子书阅读平台为例进行说明,属性标签表示对实体基本属性进行刻画的参数,比如性别、年龄和专业等,场景标签是指特定场景下维度和度量的组合形成的参数,比如用户月均读取电子书、用户下载电子书的频次,特长标签是指用户对不同类别实体的偏好程度和感兴趣程度描述参数。属性标签、场景标签和特长标签具体所包含的参数可以根据实际情况进行确定,本发明实施例在此不做具体限定。
60.本发明实施例将特定应用场景对应的预设参数信息分类成属性标签、场景标签和特长标签三类,既全面概括了用户信息,能准确刻画出用户画像,又不会导致太大的计算量。
61.s230,根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像;
62.然后采集用户当前采样时刻的部分实时参数信息,该部分实时参数信息是实时动态参数,具体部分实时参数信息所包含的内容可以根据实际情况进行确定,比如电商购物系统,部分实时参数信息包括当前采样时刻用户的搜索信息、放入购物车的商品信息和收藏商品信息等,用户当前搜索的商品、放入购物车的商品信息和收藏商品信息很大程度上就是该用户现在想要的,但是历史采样时刻的预设参数信息是没有把这些信息包含在里面的,因此需要根据当前采样时刻的部分实时参数信息,来对用户画像中的动态行为信息进行更新,动态行为信息由于具有实时性,因此需要利用当前采样时刻的部分实时参数信息对动态行为信息进行更新,得到更新后的用户画像,使得该动态行为信息更加准确。
63.本发明实施例中通过当前采样时刻的部分实时参数信息,对用户画像中的动态行为信息进行更新,使得用户画像能够实时更新,进一步保证了用户画像的准确度。
64.s240,根据所述目标信息对应的信息画像和更新后的用户画像,通过目标推荐算法,判断是否向所述用户推荐所述目标信息,所述目标推荐算法与所述特定应用场景相对应。
65.然后利用目标信息对应的信息画像和更新后的用户画像,通过目标推荐算法,判断是否需要向用户推荐该目标信息。此处,目标信息对应的信息画像包括不同维度的信息标签,可以包括属性标签和类别标签,比如电子书阅读系统,目标信息为电子书信息,目标信息对应的信息画像包括电子书id、电子书名称、isbn号、作者、所属类别和豆瓣评分等,其中电子书id、电子书名称、作者都属于该电子书信息的属性标签,所属类别和豆瓣评分属于该电子书信息的类别标签,属性标签和类别标签所包含的具体信息可以根据实际情况进行确定,本发明实施例在此不再赘述。另外,目标推荐算法与特定应用场景是相对应的,常见的目标推荐算法有协同过滤算法、基于内容的推荐算法和基于神经网络的推荐算法,其中,协同过滤算法又分为基于用户区分的系统过滤算法和基于内容区分的协同过滤算法,协同
过滤算法原理是推荐与用户有相似兴趣的邻居用户喜欢的其它物品或推荐与用户喜欢物品具有相似性的其它物品,协同过滤算法能够向用户推荐丰富的长尾物品,激发用户潜在的兴趣,同时,容易面临数据稀疏的问题,当电子书阅读系统中收纳的电子书较少时,用户想阅读的书可能没有被收纳,此外,用户不太热衷于对电子书的评分和评论,造成评分数据也比较稀少;对于基于内容的推荐算法,其原理是构造物品特征,推荐与用户喜欢的物品特征相似的其它物品,物品特征的表现方式可以是结构化的属性或非结构化的标签、关键词,基于内容的推荐算法更适用于非结构化的新闻、文献等文本资源推荐,通过中文分词、tf/idf算法、lda模型等自然语言处理技术挖掘读者的兴趣关键词及权重,构造用户兴趣空间向量模型。本发明实施例中,预先存储不同领域对应的推荐算法,然后根据特定应用场景,从中找到相应的目标推荐算法,然后将目标信息对应的信息画像和更新后的用户画像输入到该目标推荐算法中,判断出是否要向用户推荐该目标信息;基于神经网络的推荐算法,利用人工智能技术,先对神经网络模型进行训练,然后利用训练后的神经网络模型进行信息推荐。本发明实施例根据不同特定应用场景,选取不同或相同的目标推荐算法,根据每种目标推荐算法的优缺点,选取合适的目标推荐算法,做到因时制宜因地制宜,最大限度提高了该推荐方法的准确度,且使得本方法能适应多种行业企业。
66.本发明提出的一种基于用户画像的信息推送方法,首先获取用户历史采样时刻的预设参数信息,初始采集的预设参数信息包括用户各个维度的信息,而需要进行推荐的目标信息是针对特定应用场景的,因此只需要从预设参数信息中筛选出与该特定应用场景相关的参数即可,从而根据筛选出的预设参数信息生成用户画像,由于用户画像是和特定应用场景绑定的,因此可以根据不同行业企业对应的特定应用场景,动态调整筛选出的预设参数信息,从而使得用户画像与不同行业企业是相适应的;由于用户画像中所包含用户的动态行为信息是实时的,通过当前采样时刻采集的部分实时参数对动态行为信息进行更新,使得该用户画像更加准确,从而提高了目标信息推荐的准确度;利用更新后的用户画像和目标信息,结合目标推荐算法,来判断是否要向该用户推荐该目标信息。本发明实施例中不同行业企业能共用一套信息推送方法,降低了不同行业企业进行信息推荐时的工作量和开发成本。
67.在上述实施例的基础上,优选地,所述预设参数信息包括静态信息数据和动态信息数据,所述根据目标信息对应的特定应用场景,对所述预设参数信息进行筛选,包括:
68.根据所述目标信息所属应用领域,从预设映射库中进行查找,获取所述特定应用场景和所述特定应用场景对应的关键词;
69.根据所述关键词,对所述静态信息数据和所述动态信息数据进行筛选,获取筛选后的静态信息数据和筛选后的动态信息数据。
70.具体地,根据目标信息所属的应用领域,如果目标信息是商品推荐,那么该目标信息所属的应用领域就是电商领域,如果目标信息是图书推荐,那么该目标信息所属的应用领域就是书籍领域,如果目标信息是新闻推荐,那么该目标信息所属地应用领域就是新闻领域,具体根据实际情况进行确定。然后根据所属应用领域,从预设映射库中进行查找,预设映射库中预先存放应用领域和对应的关键词,从预设映射库中找到与特定应用场景相对应的关键词,这些关键词为本发明实施例比较关注的预设参数,用来对特定应用场景下用户画像的描述。提取出关键词后,根据关键词对静态信息数据和动态信息数据中所包含的
内容进行筛选,滤除静态信息数据和动态信息数据中并不关注或并不感兴趣的部分,保留关键部分信息,以此降低整个方法的计算量,并通过保留的关键部分来确保用户画像的准确程度。
71.还需要说明的是,预设参数信息是由静态信息数据和动态信息数据两部分组成的,静态信息数据描述的用户一些固有属性信息,这些信息一般不会轻易改变,比如姓名、性别、户籍等,而动态信息数据一般是实时的,很容易发生改变,比如热搜词条、用户浏览轨迹、用户搜索关键词等等。
72.在上述实施例的基础上,优选地,所述并对筛选后的预设参数信息进行分类,获取用户的用户画像,包括:
73.根据预设维度类型,对筛选后的静态信息数据进行维度划分,并判断隶属于同一维度类型的预设属性参数是否一致,若一致,则进行聚类得到所述属性标签和所述特长标签;
74.提取筛选后的动态信息数据中用户行为数据,并对所述行为数据进行分析,统计所述用户的预设行为参数,并根据所述预设行为参数对用户进行分类,获取所述场景标签;
75.根据所述属性标签、所述特长标签和所述所述场景标签,获取所述用户画像。
76.根据预设维度类型,对筛选后的静态信息数据进行维度划分,得到维度类型,本发明实施例中维度类型有属性维度和特长维度,每个信息数据都携带有一个维度类型标签,可以提取一个用户的静态信息数据中各自信息数据对应的维度类型标签,根据该维度类型标签进行维度识别,识别出该信息数据的维度类型。根据对静态信息数据进行维度识别的结果对筛选后的预设参数进行分类,将所有筛选后的按照静态信息数据中各信息数据的维度类型对静态信息数据进行分类,并从中选取隶属于同一维度类型且信息数据的数据值相同的预设参数进行聚类,得到属性维度和特长维度。提取动态信息数据中各用户对应的行为数据,其中,行为数据包括的具体内容可以根据具体实际场景进行确定,本发明实施例中行为数据包括各用户经常浏览的网页信息数据和常用应用软件信息数据,根据该行为数据对各用户产品和内容的访问情况进行分析,并采用预设的聚类算法根据行为数据对各用户进行聚类分析,得到场景标签。最后根据属性标签、特长标签和场景标签得到用户画像,根据具体应用场景不同,属性标签、特长标签和场景标签在用户画像中所占的有所权重不同,具体权重的取值可以根据实际应用领域进行确定,可以是预先确定的固定比值,也可以是通过某种计算公式计算出的权重值,具体可以根据实际情况进行确定。
77.在上述实施例的基础上,优选地,所述根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像,包括:
78.提取所述部分实时参数信息中的预设行为参数,利用所述预设行为参数对所述动态行为信息进行更新;
79.对所述预设行为参数进行分析,根据所述预设行为参数所包含的行为参数值对所述属性标签、所述场景标签、所述特长标签的权重进行调整,获取更新后的用户画像。
80.具体地,提取部分实时参数信息中的预设行为参数,该预设行为参数为动态行为信息中包含的参数,由于提取的部分实时参数信息不一定全部都是本方案所需要的,因此需要从中去提取出预设行为参数,然后利用预设行为参数对动态行为信息进行更新。然后根据所提取的预设行为参数,确定该预设行为参数对场景标签的重要程度,比如用户搜索
商品关键词并将某个商品添加到购物车,则该用户很有可能在找与加入购物车商品同类商品,进行比较后选择买其中性价比高的一款,这是就可以加中场景标签在用户画像中的权重,降低属性标签和特长标签在用户画像中的权重,得到更改后的用户画像。
81.本发明实施例中根据实时采集的预设行为参数的重要程度,来调整属性标签、场景标签和特长标签在用户画像中所占的权重比值,使得更新后的用户画像更加准确。
82.在上述实施例的基础上,优选地,所述获取用户历史采样时刻的预设参数信息,通过如下方式获得:
83.获取用户触发的应用或网站,根据所述应用或网站获取元数据来源系统;
84.通过爬虫技术采集所述源系统中的数据,并将所述数据输出至数据库;
85.通过etl将所述数据库中的数据迁移到数据仓库中;
86.根据所述历史采样时刻,从所述数据仓库中提取出与所述用户对应的预设参数信息。
87.具体地,本发明实施例中的初始数据来源于相应的应用软件或者网站后台,通过爬虫技术从源系统中获取相应初始数据,并将这些初始数据输出到数据库中,本发明实施例中,以图书管理系统、电子书平台和豆瓣读书评分数据三个作为初始数据的来源,其中豆瓣评分是通过爬虫技术采集并输出到sql server数据库,通过etl(extract-transform-load,抽取转换装载)实现初始数据源到目标数据仓库的迁移,并在迁移过程中完成必要的数据清洗工作。具体做法是:通过sqoop数据导入/导出工具将各种数据库数据导入到hive数据仓库,在通过hql语句实现数据清洗,hql全称hibernate query language,是一种面向对象的查询语言。
88.在上述实施例的基础上,优选地,所述并通过hql语句实现数据清洗,包括:
89.对于格式不规范的数据,通过hqsl语句进行修正;
90.对于数值缺失的数据,通过编写特定的语句从抽取的数据中过滤这些数据,并对这些数据进行补齐后写入所述数据仓库;
91.通过正态分布检测或基于模型检测方式检测出异常,并在数据仓库中进行修正再抽取。
92.数据清洗从以下几个方面着手,对于格式不规范数据,如单词存在空格、数值数据中有字母或者输出全角数字字符、日期格式不正确,可以通过hsql语句进行修正,hsql语句是hql查询语言中的一种语句;对于缺失值填充,如用户性别、专业、学院等信息缺失等,通过编写特定的语句从抽取的数据中过滤这些数据,然后人工不全再写入数据库;对于噪声数据,噪声数据是指源业务系统没有严格的数据校验造成的数据录入错误,比如日期越界、年龄巨高等,这些噪声数据可以通过正态分布检测、基于模型检测方式检测出异常,并在数据源中进行修正再抽取。
93.本发明实施例中通过对源系统中导出的数据进行清洗,是的清洗后的数据更加符合要求,同时也减少了系统发生错误的概率。
94.本发明实施例提出的一种基于用户画像的信息推送方法,为了提取用户画像,先提取历史采样时刻各个维度对用户进行描述的预设参数信息,将这些信息作为初始数据,方便后续用户画像的刻画;根据目标信息对应的特定应用场景对预设参数信息进行筛选,选取出用户画像有关的重要信息和关键信息,既减轻了该信息推送方法的计算量,又保证
了用户画像的准确性。同时,根据特定应用场景选取合适的预设参数信息,不同行业企业的目标信息,其对应的特定应用场景是不同的,从而不同的特定应用场景筛选出来预设参数信息不同,而后续需要根据筛选出来的预设参数信息进行用户画像,从而实现了根据不同行业企业动态调整用户画像,使得该信息推送方法能适用于不同行业企业;将特定应用场景对应的预设参数信息分类成属性标签、场景标签和特长标签三类,既全面概括了用户信息,能准确刻画出用户画像,又不会导致太大的计算量;通过当前采样时刻的部分实时参数信息,对用户画像中的动态行为信息进行更新,使得用户画像能够实时更新,进一步保证了用户画像的准确度;并且不同行业企业能共用一套信息推送方法,降低了不同行业企业的工作量和开发成本。
95.图3为本发明实施例提供的一种基于用户画像的信息推送系统的结构示意图,如图3所示,该系统包括获取模块310、画像模块320、更新模块330和推荐模块340,其中:
96.获取模块310用于获取用户历史采样时刻的预设参数信息,所述预设参数信息包括各维度对所述用户进行描述的信息;
97.画像模块320用于根据目标信息对应的特定应用场景,对所述预设参数信息进行筛选,并对筛选后的预设参数信息进行分类,获取用户的用户画像,所述用户画像包括属性标签、场景标签和特长标签,其中,所述属性标签包括所述用户的静态属性信息,所述场景标签包括所述特定应用场景下所述用户的动态行为信息,所述特长标签包括所述用户的偏好信息;
98.更新模块330用于根据所述用户当前采样时刻的部分实时参数信息,对所述动态行为信息进行更新,获取更新后的用户画像;
99.推荐模块340用于根据所述目标信息对应的信息画像和更新后的用户画像,通过目标推荐算法,判断是否向所述用户推荐所述目标信息,所述目标推荐算法与所述特定应用场景相对应。
100.本实施例为与上述方法实施例相对应的系统实施例,详情请参考上述方法实施例,本系统实施例在此不再赘述。
101.在上述实施例的基础上,优选地,所述画像模块包括查找单元和筛选单元,其中:
102.所述查找单元用于根据所述目标信息所属应用领域,从预设映射库中进行查找,获取所述特定应用场景和所述特定应用场景对应的关键词;
103.所述筛选单元用于根据所述关键词,对所述静态信息数据和所述动态信息数据进行筛选,获取筛选后的静态信息数据和筛选后的动态信息数据。
104.在上述实施例的基础上,优选地,所述画像模块还包括静态单元、动态单元和画像单元,其中:
105.所述静态单元用于根据预设维度类型,对筛选后的静态信息数据进行维度划分,并判断隶属于同一维度类型的预设属性参数是否一致,若一致,则进行聚类得到所述属性标签和所述特长标签;
106.所述动态单元用于提取筛选后的动态信息数据中用户行为数据,并对所述行为数据进行分析,统计所述用户的预设行为参数,并根据所述预设行为参数对用户进行分类,获取所述场景标签;
107.所述画像单元用于根据所述属性标签、所述特长标签和所述所述场景标签,获取
所述用户画像。
108.在上述实施例的基础上,优选地,所述更新模块包括提取单元和分析单元,其中:
109.所述提取单元用于提取所述部分实时参数信息中的预设行为参数,利用所述预设行为参数对所述动态行为信息进行更新;
110.所述分析单元用于对所述预设行为参数进行分析,根据所述预设行为参数所包含的行为参数值对所述属性标签、所述场景标签、所述特长标签的权重进行调整,获取更新后的用户画像。
111.在上述实施例的基础上,优选地,所述获取模块包括触发单元、爬虫单元、迁移单元和采样单元,其中:
112.所述触发单元用于获取用户触发的应用或网站,根据所述应用或网站获取元数据来源系统;
113.所述爬虫单元用于通过爬虫技术采集所述源系统中的数据,并将所述数据输出至数据库;
114.所述迁移单元用于通过etl将所述数据库中的数据迁移到数据仓库中;
115.所述采样单元用于根据所述历史采样时刻,从所述数据仓库中提取出与所述用户对应的预设参数信息。
116.在上述实施例的基础上,优选地,所述迁移单元包括清洗单元,其中:
117.所述清洗单元用于通过sqoop数据导入/导出工具将各种数据库导入hive数据仓库,并通过hql语句实现数据清洗。
118.在上述实施例的基础上,优选地,所述清洗单元包括格式修正单元、异常过滤单元和抽取单元,其中:
119.所述格式修正单元用于对于格式不规范的数据,通过hqsl语句进行修正;
120.所述异常过滤单元用于对于数值缺失的数据,通过编写特定的语句从抽取的数据中过滤这些数据,并对这些数据进行补齐后写入所述数据仓库;
121.所述抽取单元用于通过正态分布检测或基于模型检测方式检测出异常,并在数据仓库中进行修正再抽取。
122.上述基于用户画像的信息推送系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
123.图4为本发明实施例中提供的一种计算机设备的结构示意图,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括计算机存储介质、内存储器。该计算机存储介质存储有操作系统、计算机程序和数据库。该内存储器为计算机存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储执行基于用户画像的信息推送方法过程中生成或获取的数据,如预设参数信息、属性标签、场景标签和特长标签。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于用户画像的信息推送方法。
124.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中的基于用户画像的信息推送方法的步骤。或者,处理器执行计算机程序时实现基于用户画像的信息推送系统这一实施例中的各模块/单元的功能。
125.在一实施例中,提供一计算机存储介质,该计算机存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中基于用户画像的信息推送方法的步骤。或者,该计算机程序被处理器执行时实现上述基于用户画像的信息推送系统这一实施例中的各模块/单元的功能。
126.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
127.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
128.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献