一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于时段标签用户兴趣模型挖掘的方法、装置、存储介质及电子设备与流程

2021-11-05 19:13:00 来源:中国专利 TAG:


1.本发明是涉及iptv用户兴趣模型的挖掘方法,特别是涉及一种基于时段 标签用户兴趣模型挖掘的方法、装置、存储介质及电子设备。


背景技术:

2.网络协议电视(internet protocol television,iptv)是随着互联网发展出现的 一种崭新技术。但iptv网络视频服务中的影片资源迅速增长,用户往往难以 在海量的影片资源中快速找到符合兴趣的影片。个性化推荐技术是解决以上 问题的有效方法,而建立用户兴趣模型是实现个性化推荐的基础。一个iptv 用户通常为一个家庭,所以iptv具有分时复用的特性。大多数家庭都有相对 稳定的生活习惯,我们针对收视行为比较有规律的用户建立兴趣模型,对于没 有收视规律或者收视规律不明显的用户,我们会为其推荐热播视频。例如,工 作日期间,父亲在上午上班前看早间新闻,母亲在白天看电视剧,孩子在傍晚 放学后看动画片。父亲下班之后,回到家看新闻。非工作日期间,父亲在上午 看体育类节目,所有家庭成员在中午观看综艺类节目。下午全家出游,没有收 视行为。晚上所有家庭成员一起看电影类节目。
3.家庭的每个成员都有一个习惯性的观看行为,形成这个家庭的收视习惯, 家庭的收视习惯很大程度上受工作日和非工作日周期的影响。对于用户兴趣 模型的表示已有很多研究,目前用户兴趣模型表示主要分为基于关键词的模 型,它对用户的兴趣爱好进行归纳总结,直接使用一些精炼的词语来表达用户 的兴趣爱好;基于向量空间模型,它是对基于关键词的用户兴趣模型的改进, 在其基础上增加了用户对关键词的兴趣程度,并表示成向量形式;基于项目的 用户兴趣模型,主要用于web网站上用户兴趣建模的过程中,它利用用户在 网络访问过程中一些特殊行为或动作的实施对象来形容用户兴趣;基于评分 矩阵的用户兴趣模型,通过建立用户和项目的二维评分矩阵来描述用户和项 目之间的关系;基于神经网络的用户兴趣模型,采用神经网络算法通过对样本 数据的学习和训练来生成用户兴趣模型;以及基于本体论的用户兴趣模型,将 用户的兴趣偏好抽象为领域本体,使用该领域的相关知识表示用户兴趣。
4.然而大多数用户兴趣模型只考虑了用户的收视内容,忽略了时间与家庭 人员组成因素,没有充分考虑到用户的收视习惯特点。
5.基于此,本发明提供的基于时段标签用户兴趣模型挖掘的方法,通过本发 明在原有基于用户标签的兴趣模型上面加入时段因子,提出基于时段标签的 用户兴趣模型;用标签表示用户兴趣,同时考虑收视时间特点,挖掘用户在不 同时段的兴趣,并用k

means和关联规则算法建立该模型,从家庭收视习惯 的角度个性化兴趣模型,提高了模型的准确性。
6.公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解, 而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员 所公知的现有技术。


技术实现要素:

7.鉴于以上问题,有必要提供一种基于时段标签用户兴趣模型挖掘的方法、 装置、存储介质及电子设备,以便实现用标签表示用户兴趣,同时考虑收视时 间特点,挖掘用户在不同时段的兴趣,并用k

means和关联规则算法建立该 模型,从家庭收视习惯的角度个性化兴趣模型,提高了模型的准确性。
8.为解决上述技术问题,本发明采用如下的技术方案:
9.第一方面,本技术实施例提供一种基于时段标签用户兴趣模型挖掘的方 法,包括以下步骤:
10.数据预处理,数据预处理分为两部分,一是判断用户有效性,即判断是否 需要对该用户建立兴趣模型;本发明通过统计用户一个月的收视时长来进行 数据量的过滤;二是将用户收视行为数据中收看时长占节目总时长百分比较 小的数据记录过滤掉;考虑到用户的收视比在一定程度上体现了用户对视频 的兴趣度,所以要把收视比较小的数据过滤掉,从而提高数据质量;数据过滤 条件如下公式(1)所示,只提取用户收看百分比超过10%的行为数据来分析用 户兴趣。
[0011][0012]
基于k

means聚类的用户行为模式识别,将周一到周日所包含的日期分 别考虑;首先,利用统计方法分别计算用户在各个日期下不用时间段的平均收 视时长,建立收视矩阵;然后,利用k

means算法将日期聚类,识别工作日与 非工作日;最后,分别提取工作日与非工作日下的活跃时段;详细过程描述如 下:
[0013]
建立收视矩阵,首先,按小时将一天划分为24个时段,利用公式(2)计算 一个月内星期相同的日期中,同一时段内的收视行为总时长,公式(3)为周一 到周日中某天的收视矩阵;
[0014][0015]
dp
d
={vt
0,d


,vt
23,d
}
ꢀꢀꢀ
(3)
[0016]
其中,t为时段t∈{0,1,2,l,23};d表示周一到周日的某一天, d∈{mon,tue,wed,thu,fri,sat,sun};w为一个月中日期d出现的次数;
[0017]
然后,计算每周的同一日期d下,各个时段的平均收视行为时长
[0018][0019]
dp
d
={vt
0,d


,vt
23,d
}
ꢀꢀꢀ
(5)
[0020]
其中,t为时段t∈{0,1,2,l,23};d表示周一到周日的某一天, d∈{mon,tue,wed,thu,fri,sat,sun};w为一个月中日期d出现的次数。
[0021]
然后,计算每周的同一日期d下,各个时段的平均收视行为时长
[0022][0023]
其中,为用户在日期d的时段t下的平均收视时长,为平均收视 时长的矩阵
表示;
[0024]
最后,将进行标准化处理,设定阈值time,若该时段的平均收视行为 时长则将该时段对应的位置设定为1,否则置为0。
[0025]
识别工作日与非工作日,k

means算法接受输入量k,然后将n个数据对 象划分为k个聚类,以便使所获得的聚类满足同一聚类中的对象相似度较高, 而不同聚类中的对象相似度较小;
[0026]
由于家庭的生活习惯主要受工作日和非工作日影响,所以将一周中的七 天聚为两类;step1得到的收视矩阵由七个24维的行向量组成,每个行向量 代表家庭一天的收视情况;利用k

means算法将获得的七个行向量聚为两个 簇,每个簇中都是收视行为在时间上较为相似的日期向量,表示簇的全集。
[0027]
提取活跃时段,识别用户的工作日与非工作日之后,分别提取两个簇的活 跃时段;对于簇x(1≤x≤2),使用以下表1获得簇的活跃时段集合actt(x);
[0028]
表1提取活跃时段的算法描述
[0029][0030]
t为以小时为单位的时间段,t_sum为属于同一个簇的日期中,用户在时 段t的收视行为总时长,acthour为活跃时段。提取活跃时段的阈值th=0.4。
[0031]
基于关联规则的用户兴趣标签挖掘,基于时段

标签的用户兴趣模型描述 的是用户在观看时间和观看内容上的收视习惯,收视内容用标签表示;在提取 簇的活跃时段后,针对每个时段挖掘用户的兴趣标签;
[0032]
本发明采用改进的apriori算法挖掘时段和标签之间的关联关系;apriori 是一种经典的挖掘单维布尔型关联规则频繁项集的算法;目前很多对apriori 的改进只是基于单维规则的改进;而本文中要处理的数据包含了时段和标签 两个维度,需要进行多维关联
规则的挖掘;多维关联规则需要考虑多个属性之 间的关系;本文采用文献中提到的改进的多维关联规则挖掘有“二次剪枝”的 apriori算法来挖掘时间和标签的之间的规则。挖掘过程如表2所示;
[0033]
首先,扫描用户的历史收视记录,计算活跃时段与对应标签组合的支持度, 筛选出满足支持度阈值的时段

标签频繁项目集;计算频繁项集的过程分为连 接和剪枝;根据维间关联规则特点可知,同一维中的项不能同时出现在一个项 集中;基于二次剪枝的apriori算法在剪枝过程中进行二次剪枝,删除包含同 维中的项的项集;
[0034]
然后,计算时段与标签组合的置信度,筛选出满足置信度阈值的时段

标 签集合。用视频的类型标签表示用户兴趣;
[0035]
最后,获取活跃时段与兴趣标签的关联关系,完成基于时段

标签的用户 兴趣模型的挖掘。视频类型标签目前设为14个,分别是新闻、电影、电视剧、 娱乐、综艺、音乐、少儿、体育、生活、法治、财经、科教、戏曲相声和纪录 片。
[0036]
表2关联规则apriori挖掘频繁项集算法描述
[0037]
[0038]
[0039][0040]
实验分析,为了验证本文提出方法的有效性,用1000个iptv家庭用户 在2015年12月01日到12月31日一个月的历史收视数据进行实验;以编号 为02200004195的用户为例,首先,对实验过程及中间结果进行说明;然后, 对这1000个用户的兴趣模型准确率进行验证;最后,与基于标签的用户兴趣 模型做对比,验证本文所提方法的有效性;
[0041]
用户历史数据说明,从用户收视历史记录的内容来看,具体字段说明如表 3所示;其中,用户编号user_id为用户的唯一标识;视频类别item_type为视 频的分类,例如电影、电视剧、综艺等;视频时长为该视频的总时长,行为时 长behave_len为用户收看该视频的时长;
[0042]
表3用户历史收视数据字段说明
[0043]
[0044][0045]
实验过程及结果:
[0046]
数据预处理,判断用户有效性,并将观看百分比小于10%的数据记录清 洗掉;
[0047]
建立用户收视矩阵,每行为24维,表示用户一天24小时的收视情况; 实验设置阈值25%,即用户在同一日期的同一时段内平均收视时长百分比大 于等于25%时,时段用“1”表示,否则用“0”表示。
[0048]
用k

means算法将矢量化的用户收视数据聚类;因为家庭用户的收视习 惯主要受工作日和非工作日的影响,所以设置k值为2,将七个收视向量聚为 两类;
[0049]
实验结果表明,用户在工作日的收视时间较短,每天大概1~2个小时,并 且在下午18点以后才有收视行为,而在非工作日的收视时间明显增多,多集 中在上午8点到下午18点之间。说明该家庭周六日经常在家。
[0050]
分别提取工作日和非工作日集合中的活跃时段;设置表1中的阈值为40%, 即用户一周中,在某时段的收视行为时长占比应大于等于40%;针对用户 02200004195,活跃时段的结果如表4所示。
[0051]
表4用户02200004195的活跃时段
[0052][0053]
在上一步的基础上,根据表2用关联规则算法挖掘活跃时段对应的兴趣 标签,完成用户兴趣模型的建立,结果如表5所示。
[0054]
表5用户02200004195的兴趣模型
[0055]
[0056][0057]
由表5可知,该家庭用户在周一到周五的收视行为较少,多集中在 18:00~19:00。而在周六和周日的收视行为明显增加,多集中在上午和下午。并 且,该家庭的收视内容基本稳定,经常收看新闻、生活、综艺、体育、财经和 科教类视频。有些时段的兴趣标签显示为“无”,说明该家庭用户在这些时段 经常有收视行为,但是观看的视频内容不稳定。
[0058]
有效性验证,下面通过计算根据用户兴趣模型推荐节目的准确率来说明 模型的准确率和有效性。准确率计算公式如下:
[0059][0060]
其中,n
r
表示推荐给用户的节目类型个数;n
u
表示推荐列表中用户u观看 的节目类型个数。
[0061]
利用基于时段

标签的用户兴趣模型和基于标签的用户兴趣模型分别作推 荐的准确率统计结果,利用基于时段

标签的用户兴趣模型作推荐的准确率范 围主要集中在30%~70%之间,而利用基于标签的用户兴趣模型作推荐的准确 率主要集中在10%以内;对实验结果进一步分析可知,利用基于时段

标签的 用户兴趣模型作推荐的平均准确率为54.87%,准确率在50%以上的用户量占 总体的58.6%。利用基于标签的用户兴趣模型作推荐的平均准确率为18.14%, 比基于时段

标签的用户兴趣模型平均准确率低36.73%;准确率在50%以上的 用户量占总体的14.7%,远小于基于时段

标签的用户兴趣模型准确率达到50% 以上的用户量比例;实验验证了基于时段

标签的用户兴趣模型的有效性。
[0062]
根据本发明的另一方面,提供了一种基于时段标签用户兴趣模型挖掘的 装置,所述装置包括:
[0063]
数据预处理模块,数据预处理分为两部分,一是判断用户有效性,即判断 是否需要对该用户建立兴趣模型;本发明通过统计用户一个月的收视时长来 进行数据量的过滤;二是将用户收视行为数据中收看时长占节目总时长百分 比较小的数据记录过滤掉;考虑到用户的收视比在一定程度上体现了用户对 视频的兴趣度,所以要把收视比较小的数据过滤掉,从而提高数据质量;数据 过滤条件如下公式(1)所示,只提取用户收看百分比超过
10%的行为数据来分 析用户兴趣;
[0064][0065]
基于k

means聚类的用户行为模式识别模块,将周一到周日所包含的日 期分别考虑;首先,利用统计方法分别计算用户在各个日期下不用时间段的平 均收视时长,建立收视矩阵;然后,利用k

means算法将日期聚类,识别工作 日与非工作日;最后,分别提取工作日与非工作日下的活跃时段;
[0066]
基于关联规则的用户兴趣标签挖掘模块,基于时段

标签的用户兴趣模型 描述的是用户在观看时间和观看内容上的收视习惯,收视内容用标签表示;在 提取簇的活跃时段后,针对每个时段挖掘用户的兴趣标签。
[0067]
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、 通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的 通信;
[0068]
存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于 时段标签用户兴趣模型挖掘方法对应的操作。
[0069]
根据本发明的再一方面,提供了一种计算机存储介质,存储介质中存储有 至少一可执行指令,可执行指令使处理器执行如上述基于时段标签用户兴趣 模型挖掘方法对应的操作。
[0070]
本发明的有益效果在于:
[0071]
本发明提供的基于时段标签用户兴趣模型挖掘的方法,通过本发明在原 有基于用户标签的兴趣模型上面加入时段因子,提出基于时段标签的用户兴 趣模型;
[0072]
提出时段

标签的用户兴趣模型,区分工作日和非工作日来挖掘用户兴趣, 从两个时段表征用户兴趣,更准确详细;
[0073]
提出用k

means聚类的方法来识别用户的行为模式,通过聚类算法挖掘 到用户兴趣点;
[0074]
提出用关联规则(具体为apriori算法)来挖掘活跃时段用户的收视内容, 进而挖掘不同时段用户的兴趣。
[0075]
上述对本发明的说明仅是本发明技术方案的概述,为了能够更清楚说明 本发明的技术手段,达到可依照说明书的内容予以实施程度,并且为了让本发 明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实 施方式。
附图说明
[0076]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图仅用于 示出优选实施方式的目的,而并不认为是对本发明的限制。
[0077]
图1示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的方法的流程示意图;
[0078]
图2示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的方法的装置结构图;
[0079]
图3示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的方法的电子设备的结构示意图。
具体实施方式
[0080]
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示 了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地 理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0081]
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、
ꢀ“
长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、
ꢀ“
右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、
ꢀ“
逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是 为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须 具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0082]
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括
”ꢀ
或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部 分,而并未排除其它元件或其它组成部分。
[0083]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗 示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、
ꢀ“
第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的 描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0084]
图1示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的方法的流程示意图,参见图1所示,该方法包括:
[0085]
步骤s1,数据预处理,数据预处理分为两部分,一是判断用户有效性, 即判断是否需要对该用户建立兴趣模型;本发明通过统计用户一个月的收视 时长来进行数据量的过滤;二是将用户收视行为数据中收看时长占节目总时 长百分比较小的数据记录过滤掉;考虑到用户的收视比在一定程度上体现了 用户对视频的兴趣度,所以要把收视比较小的数据过滤掉,从而提高数据质量; 数据过滤条件如下公式(1)所示,只提取用户收看百分比超过10%的行为数据 来分析用户兴趣。
[0086][0087]
步骤s2,基于k

means聚类的用户行为模式识别,将周一到周日所包含 的日期分别考虑;首先,利用统计方法分别计算用户在各个日期下不用时间段 的平均收视时长,建立收视矩阵;然后,利用k

means算法将日期聚类,识别 工作日与非工作日;最后,分别提取工作日与非工作日下的活跃时段;详细过 程描述如下:
[0088]
建立收视矩阵,首先,按小时将一天划分为24个时段,利用公式(2)计算 一个月内星期相同的日期中,同一时段内的收视行为总时长,公式(3)为周一 到周日中某天的收视
矩阵;
[0089][0090]
dp
d
={vt
0,d


,vt
23,d
}
ꢀꢀꢀ
(3)
[0091]
其中,t为时段t∈{0,1,2,l,23};d表示周一到周日的某一天, d∈{mon,tue,wed,thu,fri,sat,sun};w为一个月中日期d出现的次数;
[0092]
然后,计算每周的同一日期d下,各个时段的平均收视行为时长vt
t,d

[0093][0094]
dp
d
={vt
0,d


,vt
23,d
}
ꢀꢀꢀ
(5)
[0095]
其中,t为时段t∈{0,1,2,l,23};d表示周一到周日的某一天, d∈{mon,tue,wed,thu,fri,sat,sun};w为一个月中日期d出现的次数。
[0096]
然后,计算每周的同一日期d下,各个时段的平均收视行为时长
[0097][0098]
其中,为用户在日期d的时段t下的平均收视时长,为平均收视 时长的矩阵表示;
[0099]
最后,将进行标准化处理,设定阈值time,若该时段的平均收视行为 时长则将该时段对应的位置设定为1,否则置为0。
[0100]
识别工作日与非工作日,k

means算法接受输入量k,然后将n个数据对 象划分为k个聚类,以便使所获得的聚类满足同一聚类中的对象相似度较高, 而不同聚类中的对象相似度较小;
[0101]
由于家庭的生活习惯主要受工作日和非工作日影响,所以将一周中的七 天聚为两类;step1得到的收视矩阵由七个24维的行向量组成,每个行向量 代表家庭一天的收视情况;利用k

means算法将获得的七个行向量聚为两个 簇,每个簇中都是收视行为在时间上较为相似的日期向量,表示簇的全集。
[0102]
提取活跃时段,识别用户的工作日与非工作日之后,分别提取两个簇的活 跃时段;对于簇x(1≤x≤2),使用以下表1获得簇的活跃时段集合actt(x);
[0103]
表1提取活跃时段的算法描述
[0104][0105]
t为以小时为单位的时间段,t_sum为属于同一个簇的日期中,用户在时 段t的收视行为总时长,acthour为活跃时段。提取活跃时段的阈值th=0.4。
[0106]
步骤s3,基于关联规则的用户兴趣标签挖掘,基于时段

标签的用户兴趣 模型描述的是用户在观看时间和观看内容上的收视习惯,收视内容用标签表 示;在提取簇的活跃时段后,针对每个时段挖掘用户的兴趣标签;
[0107]
本发明采用改进的apriori算法挖掘时段和标签之间的关联关系;apriori 是一种经典的挖掘单维布尔型关联规则频繁项集的算法;目前很多对apriori 的改进只是基于单维规则的改进;而本文中要处理的数据包含了时段和标签 两个维度,需要进行多维关联规则的挖掘;多维关联规则需要考虑多个属性之 间的关系;本文采用文献中提到的改进的多维关联规则挖掘有“二次剪枝”的 apriori算法来挖掘时间和标签的之间的规则。挖掘过程如表2所示;
[0108]
首先,扫描用户的历史收视记录,计算活跃时段与对应标签组合的支持度, 筛选出满足支持度阈值的时段

标签频繁项目集;计算频繁项集的过程分为连 接和剪枝;根据维间关联规则特点可知,同一维中的项不能同时出现在一个项 集中;基于二次剪枝的apriori算法在剪枝过程中进行二次剪枝,删除包含同 维中的项的项集;
[0109]
然后,计算时段与标签组合的置信度,筛选出满足置信度阈值的时段

标 签集合。用视频的类型标签表示用户兴趣;
[0110]
最后,获取活跃时段与兴趣标签的关联关系,完成基于时段

标签的用户 兴趣模型的挖掘。视频类型标签目前设为14个,分别是新闻、电影、电视剧、 娱乐、综艺、音乐、少儿、体育、生活、法治、财经、科教、戏曲相声和纪录 片。
[0111]
表2关联规则apriori挖掘频繁项集算法描述
[0112]
[0113]
[0114][0115]
实验分析,为了验证本文提出方法的有效性,用1000个iptv家庭用户 在2015年12月01日到12月31日一个月的历史收视数据进行实验;以编号 为02200004195的用户为例,首先,对实验过程及中间结果进行说明;然后, 对这1000个用户的兴趣模型准确率进行验证;最后,与基于标签的用户兴趣 模型做对比,验证本文所提方法的有效性;
[0116]
用户历史数据说明,从用户收视历史记录的内容来看,具体字段说明如表 3所示;其中,用户编号user_id为用户的唯一标识;视频类别item_type为视 频的分类,例如电影、电视剧、综艺等;视频时长为该视频的总时长,行为时 长behave_len为用户收看该视频的时长;
[0117]
表3用户历史收视数据字段说明
[0118]
[0119][0120]
实验过程及结果:
[0121]
数据预处理,判断用户有效性,并将观看百分比小于10%的数据记录清 洗掉;
[0122]
建立用户收视矩阵,每行为24维,表示用户一天24小时的收视情况; 实验设置阈值25%,即用户在同一日期的同一时段内平均收视时长百分比大 于等于25%时,时段用“1”表示,否则用“0”表示。
[0123]
用k

means算法将矢量化的用户收视数据聚类;因为家庭用户的收视习 惯主要受工作日和非工作日的影响,所以设置k值为2,将七个收视向量聚为 两类;
[0124]
实验结果表明,用户在工作日的收视时间较短,每天大概1~2个小时,并 且在下午18点以后才有收视行为,而在非工作日的收视时间明显增多,多集 中在上午8点到下午18点之间。说明该家庭周六日经常在家。
[0125]
分别提取工作日和非工作日集合中的活跃时段;设置表1中的阈值为40%, 即用户一周中,在某时段的收视行为时长占比应大于等于40%;针对用户 02200004195,活跃时段的结果如表4所示。
[0126]
表4用户02200004195的活跃时段
[0127][0128][0129]
在上一步的基础上,根据表2用关联规则算法挖掘活跃时段对应的兴趣 标签,完成用户兴趣模型的建立,结果如表5所示。
[0130]
表5用户02200004195的兴趣模型
[0131]
[0132][0133]
由表5可知,该家庭用户在周一到周五的收视行为较少,多集中在 18:00~19:00。而在周六和周日的收视行为明显增加,多集中在上午和下午。并 且,该家庭的收视内容基本稳定,经常收看新闻、生活、综艺、体育、财经和 科教类视频。有些时段的兴趣标签显示为“无”,说明该家庭用户在这些时段 经常有收视行为,但是观看的视频内容不稳定。
[0134]
有效性验证,下面通过计算根据用户兴趣模型推荐节目的准确率来说明 模型的准确率和有效性。准确率计算公式如下:
[0135][0136]
其中,n
r
表示推荐给用户的节目类型个数;n
u
表示推荐列表中用户u观看 的节目类型个数。
[0137]
利用基于时段

标签的用户兴趣模型和基于标签的用户兴趣模型分别作推 荐的准确率统计结果,利用基于时段

标签的用户兴趣模型作推荐的准确率范 围主要集中在30%~70%之间,而利用基于标签的用户兴趣模型作推荐的准确 率主要集中在10%以内;对实验结果进一步分析可知,利用基于时段

标签的 用户兴趣模型作推荐的平均准确率为54.87%,准确率在50%以上的用户量占 总体的58.6%。利用基于标签的用户兴趣模型作推荐的平均准确率为18.14%, 比基于时段

标签的用户兴趣模型平均准确率低36.73%;准确率在50%以上的 用户量占总体的14.7%,远小于基于时段

标签的用户兴趣模型准确率达到50% 以上的用户量比例;实验验证了基于时段

标签的用户兴趣模型的有效性。
[0138]
图2示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的装置20的结构示意图,包括:
[0139]
201数据预处理模块,数据预处理分为两部分,一是判断用户有效性,即 判断是否需要对该用户建立兴趣模型;本发明通过统计用户一个月的收视时 长来进行数据量的过滤;二是将用户收视行为数据中收看时长占节目总时长 百分比较小的数据记录过滤掉;考虑到用户的收视比在一定程度上体现了用 户对视频的兴趣度,所以要把收视比较小的数据过滤掉,从而提高数据质量; 数据过滤条件如下公式(1)所示,只提取用户收看百分比超过10%的行为数据 来分析用户兴趣;
[0140][0141]
202基于k

means聚类的用户行为模式识别模块,将周一到周日所包含 的日期分别考虑;首先,利用统计方法分别计算用户在各个日期下不用时间段 的平均收视时长,建立收视矩阵;然后,利用k

means算法将日期聚类,识别 工作日与非工作日;最后,分别提取工作日与非工作日下的活跃时段;
[0142]
203基于关联规则的用户兴趣标签挖掘模块,基于时段

标签的用户兴趣 模型描述的是用户在观看时间和观看内容上的收视习惯,收视内容用标签表 示;在提取簇的活跃时段后,针对每个时段挖掘用户的兴趣标签。
[0143]
图3示出了本发明实施例所提供的一种基于时段标签用户兴趣模型挖掘 的方法的电子设备的结构示意图。所述电子设备1100可以是具备计算能力的 主机服务器、个人计算机pc、或者可携带的便携式计算机或终端等。本发明 具体实施例并不对电子设备的具体实现做限定。
[0144]
该电子设备1100包括至少一个处理器(processor)1110、通信接口 (communications interface)1120、存储器(memory array)1130和总线1140。其 中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互 间的通信。
[0145]
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共 享存储等。
[0146]
处理器1110用于执行程序。处理器1110可能是一个中央处理器cpu, 或者是专用集成电路asic(application specific integrated circuit),或者是 被配置成实施本发明实施例的一个或多个集成电路。
[0147]
存储器1130用于可执行的指令。存储器1130可能包含高速ram存储 器,也可能还包括非易失性存储器(non

volatile memory),例如至少一个磁盘存 储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所 述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110 执行,以使处理器1110能够执行上述任意方法实施例中的需求的匹配方法。
[0148]
本发明实施例还提供了一种存储介质,所述存储介质存储有计算机可执 行指令,其包含用于执行上述需求的匹配方法的程序,该计算机可执行指令可 执行上述任意方法实施例中的方法。
[0149]
其中,所述存储介质可以是计算机能够存取的任何可用介质或数据存储 设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光 学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、 eprom、eeprom、非易失性存储器(nand flash)、
固态硬盘(ssd))等。
[0150]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于 此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应 所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献