一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

IPTV家庭用户年龄及性别分布预测系统和方法与流程

2022-08-17 00:35:16 来源:中国专利 TAG:

iptv家庭用户年龄及性别分布预测系统和方法
技术领域
1.本发明涉及网络信息大数据领域,尤其涉及基于iptv直播数据的家庭用户年龄及性别分布预测系统和方法。


背景技术:

2.如今,交互式网络电视iptv已走进寻常人家。随着iptv节目越来越多,用户面临海量电视节目的选择。如何更好地向用户推荐符合其需求的电视节目从而改善用户体验显得越来越重要。
3.然而由于当前一个iptv用户一般对应于一个家庭,较个人用户而言,家庭用户构成较为复杂。一个家庭用户中不同个体的观影需求不同,那么为了给家庭用户的每个个体提供更好的电视服务体验,就需要对家庭用户进行家庭成员的结构分析,预测年龄及性别分布。
4.现有技术中在对电视用户的家庭成员进行分析时,采用的方案主要是通过获取用户的注册信息以及对用户进行问卷调查的方式来确定用户的属性例如性别、年龄等、观影偏好等信息,以此完成家庭用户成员的结构分析。
5.但是,由于注册信息中有很多用户属性例如年龄、性别等信息并不是必须填写的,这样容易造成注册信息的不完全,从而无法有效的依据注册信息来对家庭成员进行分析。
6.而对于通过问卷调查的方式来对电视用户的家庭成员进行分析的方案来说,由于用户对问卷调查普遍填写不积极,内容真实性不可靠,也会造成家庭成员分析的不准确。
7.因此,亟须解决现有iptv用户家庭成员的分析方案中普遍存在的对家庭成员的信息分析准确性低的问题。


技术实现要素:

8.提供本发明内容以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征;也不旨在用于确定或限制所要求保护的主题的范围。
9.本发明提供了一种基于iptv直播数据的家庭用户年龄及性别分布预测系统和方法,基于用户观看直播的行为,通过计算观影程度,根据男、女观看直播概率相同这一假设,采用高斯混合模型计算得出家庭用户的性别分布和年龄分布,构建iptv家庭用户画像。相比现有技术更加准确,符合家庭用户特征。还可以为后续增值业务找到潜在客户。
10.本发明的一种iptv家庭用户年龄及性别分布预测系统,包括:
11.话单数据处理模块,用于将探针采集到的原始用户播放行为数据(原始话单)进行清洗、转换、拆分、合并,并映射而形成用户行为数据结构;
12.节目单数据处理模块,用于将节目名称以及频道名称标准化,并将节目单数据与用户行为数据结构进行匹配,得到用户收视记录;
13.媒资数据处理模块,用于收集全网影片信息,包括片名、主演、类别、年份、评分、简
介、已有观影记录信息样本,以形成媒资标签,其中观影记录信息样本包括男女观影比率以及各年龄段观影比率;以及
14.用户年龄及性别分布预测模块,用于通过公式“观影程度=观影时长/影片时长”计算用户的观影程度,并采用高斯混合模型gmm与最大期望em算法对用户的性别特征向量和年龄段特征向量进行聚类分析以及求解,从而基于用户收视记录和媒资标签用户贴上性别-年龄段标签。
15.根据本发明的一种iptv家庭用户年龄及性别分布预测方法,包括以下步骤:
16.采集用户播放行为数据;
17.对所采集的用户播放行为数据进行处理,包括清洗、转换、拆分、合并,生成用户行为数据结构;
18.对节目单的数据进行处理,将节目名称和频道名称进行标准化;
19.将标准化后的得到的节目单数据与所生成的用户行为数据结构进行匹配,得到用户收视记录数据;
20.基于用户的收视记录计算用户的观影程度,其中观影程度=观影时长/影片时长;
21.收集全网影片信息以及样本信息形成媒资标签;以及
22.采用高斯混合模型gmm与最大期望em算法对用户的性别特征向量和年龄段特征向量进行聚类分析以及求解,为用户贴上性别-年龄段标签。
23.通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。应该理解,前面的概括说明和下面的详细描述只是说明性的,不会对所要求保护的各方面形成限制。
附图说明
24.以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。
25.图1是根据本发明的一种基于iptv直播数据的家庭用户年龄及性别分布预测系统的示意框图;
26.图2为性别指数神经网络结构示意图;
27.图3为各年龄段指数神经网络结构示意图;
28.图4示出了根据本发明的一种基于iptv直播数据的家庭用户年龄及性别分布预测方法的流程图。
29.附图中的流程图和框图显示了根据本技术的实施例的系统、方法可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
具体实施方式
30.以下将通过参考附图中示出的具体实施例来对本发明进行更具体描述。通过阅读下文具体实施方式的详细描述,本发明的各种优点和益处对于本领域普通技术人员将变得清楚明了。然而应当理解,可以以各种形式实现本发明而不应被这里阐述的各实施方式所限制。提供以下实施方式是为了能够更透彻地理解本发明。除非另有说明,本技术使用的技
术术语或者科学术语应当为本技术所属领域技术人员所理解的通常意义。
31.图1示出了根据本发明的一种基于iptv直播数据的家庭用户年龄及性别分布预测系统100,该系统包括话单数据处理模块110、节目单数据处理模块120、媒资数据处理模块130、以及用户年龄及性别分布预测模块140,以下逐模块进行详述:
32.■
话单数据处理模块110,用于将探针采集到的用户播放行为数据进行清洗、转换、拆分、合并等。清洗包括去除异常值、重复值和无用数据等,转换、拆分、合并包括原始数据的格式标准化。比如对用户id为空、频道名为空、非直播数据(url not like'http%'and url not like'rtsp%')等进行校验,基于用户维度将原始话单拆分合并映射成系统内部用户行为数据结构。
33.例如,有2千万行108列的原始话单数据,经过清洗、转换和合并,形成了如下表1表达用户1的行为的如下数据结构。
34.表1:
35.用户id采样时间频道id频道名称用户1202103141524311cctv1用户1202103141529421cctv1用户1202103141535241cctv1用户1202103141540441cctv1用户1202103141545531cctv1
36.此处,例如20210314152431是指2021年03月14日15点24分31秒。
37.■
节目单数据处理模块120,用于对节目单进行处理,将节目名称以及频道名称标准化,然后将节目单数据与从iptv用户话单数据得到的用户行为数据结构进行匹配,得到用户的收视记录。
38.节目单数据主要包括:频道名称、时间、节目名称。例如,如下表2左四列的节目单标准化为右列。
39.表2:
[0040][0041]
将该节目单数据与话单数据处理模块得到的iptv用户的行为数据结构进行匹配,得到的结论是表1那个用户的收视记录是观看了的新闻直播间。
[0042]

媒资数据处理模块130,通过在全网收集的影片信息加工处理而成媒资库中的媒资标签,部分媒资标签是将收集到的已有观影记录信息作为样本补全得到的。
[0043]
这里的全网包括例如豆瓣、爱奇异等各大视频网站,影片信息包括但不限于片名、主演、类别、年份、评分、简介,收集的已有观影记录信息样本包括但不限于男女观影比率,各年龄段观影比率,如1-17岁、18-24岁、25-30岁、31-35岁、36-40岁、40岁以上的观影比率。
[0044]

用户年龄及性别分布预测模块140,通过对用户收视记录进行统计分析,利用用户在一段时间内的观影列表、每部影片的观影程度、每部影片性别-年龄段指数(术语“性别-年龄段指数”在此是指某部影片男女观影比率,各年龄段观影比率),采用高斯混合模型为用户贴上性别-年龄段标签。
[0045]
这里引入观影程度这概念来衡量用户对于影片的喜好程度。通过对用户的收视记录进行统计分析,得到用户一段时间内所观看的影片名称以及观看每部影片的时长,观影程度用下式进行计算:
[0046]
观影程度=观影时长/影片时长
[0047]
也就是用户看了总时长的多少比例,从而衡量用户对于影片的喜好程度。
[0048]
根据一般的直觉,假设整体用户的性别指数为高斯分布(正态分布)。采用高斯混合模型(gmm)与最大期望(em)算法对观影用户的性别特征向量进行聚类分析以及求解。如图2性别指数神经网络结构和图3年龄段指数神经网络结构所示。计算得到每一个用户属于某一类别的概率。以下通过表3例示每一个用户属于男或女的概率。
[0049]
表3:
[0050]
影片名称观影程度性别指向性别指数性别特征向量流浪地球1男男:0.6882女:0.31181四月一日灵异事件簿0.85女男:0.2388女:0.7612-0.85终结者:黑暗命运0.92男男:0.8479女:0.15120.92向往的生活0.84女男:0.4579女:0.5421-0.84奔跑吧兄弟0.75女男:0.4595女:0.5405-0.75少年歌行0.78男男:0.7327女:0.26730.78阿甘正传1男男:0.6329女:0.36711
[0051]
最后一列的性别特征向量(gender_feature)通过下式计算:
[0052]
性别特征向量=观影程度
×
性别指向数值
[0053]
其中性别指向数值设为:男=1,女=-1
[0054]
类似的,也可以计算年龄段特征向量。
[0055]
年龄段特征向量=观察程度
×
年龄段指向数值
[0056]
有别于性别指向数值只有1和-1两个数值,年龄段指向数值为例如6个,以分别对应于例如1-17岁、18-24岁、25-30岁、31-35岁、36-40岁、40岁以上6个年龄段。当然,这6个年龄段的分发不是绝对的,可以构想其它任何年龄段的划分方式及其对应的年龄段指向数值设置。
[0057]
图4示出了根据本发明的一种基于iptv直播数据的家庭用户年龄及性别分布预测方法的流程图。该方法包括以下步骤:
[0058]
s10:采集用户播放行为数据;
[0059]
s20:对所采集的用户播放行为数据进行处理,生成用户行为数据结构。处理包括
清洗、转换、拆分、合并等操作,比如清洗掉用户id为空、频道名为空的数据,对非直播数据等进行校验等;
[0060]
s30:对节目单的数据进行处理,将节目名称和频道名称等进行标准化;
[0061]
s40:将s30中标准化后的得到的节目单数据与s20中生成的用户行为数据结构进行匹配,得到用户收视记录;
[0062]
s50:基于用户的收视记录计算用户的观影程度:观影程度=观影时长/影片时长;
[0063]
s60:收集全网影片信息以及样本信息形成媒资标签,影片信息包括但不限于片名、主演、类别、年份、评分、简介,观影记录样本信息包括但不限于男女观影比率,各年龄段观影比率;
[0064]
s70:利用用户在一段时间内的观影程度,结合性别-年龄段指数采用高斯混合模型为用户贴上性别-年龄段标签。
[0065]
本发明的方法和系统将互联网媒资信息和用户观看iptv直播的行为数据以及节目单数据相融合,可以获得准确率更高的用户的年龄及性别分布预测。
[0066]
本发明通过计算观影程度,避免了因为用户误点、试看等观看时间较短等行为造成的误差,更加合理的反映了用户观影的兴趣偏好。
[0067]
本发明通过采用高斯混合模型,能更好的预测用户的年龄及性别分布。
[0068]
以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围,其均应涵盖在本技术的权利要求和说明书的范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献