一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于媒介贡献度的新闻热点预测方法与流程

2021-10-24 08:26:00 来源:中国专利 TAG:热点 基数 媒介 算法 信息传播

技术特征:
1.一种基于媒介贡献度的新闻热点预测方法,其特征在于:包括以下步骤:步骤一:利用新闻热点标签的生成方法及系统提取新闻数据集中的新闻簇;步骤二:利用智能信息处理技术来采集出这些热点舆情事件的相关数据;步骤三:利用贡献值计算的模型对不同领域热点事件中,不同平台、不同类型账号、不同时期的贡献度进行计算;步骤四:得到分平台、分信源、分时期的热点事件媒介贡献度指数。2.如权利要求1所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述步骤一包括:第一提取单元,用于提取新闻数据集中的新闻簇,一个所述新闻簇包括至少两个所述新闻记录;确定单元,用于确定提取出的多个所述新闻簇中的热点新闻簇;第二提取单元,用于提取所述热点新闻簇中各新闻记录的关键字;第一生成单元,用于生成由一个新闻记录的至少两个所述关键字组合的组合词,一个新闻记录对应一个或多个所述组合词;第二生成单元,用于根据所述组合词的热度值生成新闻热点标签。3.如权利要求2所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述第一提取单元包括:第一计算模块,用于计算所述新闻数据集中两个新闻记录之间的相似度;判断模块,用于判断所述相似度是否大于第一预设阈值;以及第一确定模块,用于所述相似度大于所述第一预设阈值时,确定所述两个新闻记录属于同一新闻簇。4.如权利要求3所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述第一计算模块包括:特征化子模块,用于将所述两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;计算子模块,用于采用以下任意一个公式计算所述相似度:sim(x,y)=(x*y)/(||x|1*1|γ||),或者;其中,sim(x,y)为所述相似度,x为所述第一向量,y为所述第二向量,x=(x1,x2,x3,

,x
n
),y=(y1,y2,y3,

,y
n
),||x||和||y||分别为x和y的欧几里得范数,所述第一向量对应的新闻记录为第一新闻记录,所述特征化子模块采用以下步骤得到所述第一向量:对所述第一新闻记录的标题和正文进行分词,得到由多个词元组成的第一词元集;根据词元在所述第一新闻记录中出现的次数计算所述第一词元集中词元对应的特征值;删除所述第一词元集中特征值小于第二预设阈值的词元;以及生成所述第一向量:x=(<w1,c1>,<w2,c2>,<w3,c3>,
···
,<w
n
,c
n
>),其中,w1,w2,w3,
···
,w
n
为所述述第一词元集中词元,c1,c2,c3,
···
,c
n
分另l
j
为词元对应的特征值,n为所述第一词元集中词元的个数,所述特征化子模块采用以下公式计算所述第一词元
集中词元对应的特征值:c
i
=a
l
a2*t a3*p a4*k其中,c
i
为所述第一词元集中第i个词元对应的特征值,a
l
为所述第i个词元在所述第一新闻记录中出现的次数,a2为所述第i个词元在所述第一新闻记录的标题中出现的次数,a3为所述第i个词元在所述第一新闻记录的段首或段尾中出现的次数,a4为所述第i个词元在所述第一新闻记录的关键句中出现的次数,t、p、k均为无量纲参数。5.如权利要求1所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述步骤三贡献值计算的模型分为两层,一层是账号分类层,其根据账号属性进行分类,在根据数据测算不同权重占比,另一层是平台分类层,其根据发文平台属性进行分类,在根据数据测算不同权重占比。6.如权利要求3所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述步骤四中分时期的热点事件分为早期参与和新生事件,所述早期参与进行加权,所述新生事件根据早期参与信源的贡献度数值,建立数据集训练回归模型,最后利用机器学习算法研判其是否可成为热点事件。7.如权利要求6所述的一种基于媒介贡献度的新闻热点预测方法,其特征在于:所述机器学习算法采用梯度下降算法:其中是参数的梯度,目标函数j(θ)关于参数的梯度将是目标函数θ上升最快的方向,η为所述第一词元集中词元的个数。

技术总结
本发明公开了一种基于媒介贡献度的新闻热点预测方法,包括:步骤一:利用新闻热点标签的生成方法及系统提取新闻数据集中的新闻簇;步骤二:利用智能信息处理技术来采集出这些热点舆情事件的相关数据;步骤三:利用贡献值计算的模型对不同领域热点事件中。本发明克服了现有人工方法效率低下,准确度严重依赖知识经验的弊端,通过大数据及语义分析技术,使用计算机算法实现,大大提升速度、效率及其适用场景,通过大数据技术,采集和分析海量数据,极大扩大了分析的样本数据及案例,充分利用历史积累的大量案例,对于用户内容倾向和舆论热点传播的各方面特征进行挖掘,模型更为科学合理,分析结果不断得到改善,并达到一定准确度。并达到一定准确度。并达到一定准确度。


技术研发人员:向安玲
受保护的技术使用者:北京清博智能科技有限公司
技术研发日:2021.07.26
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜