一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

社交网络信息转发次数预测方法、装置及存储介质

2022-12-09 23:59:04 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其是一种社交网络信息转发次数预测方法、计算机装置及存储介质。


背景技术:

2.随着社交网络的应用普及,单向弱关注类社交网络以其及时性强、信息资源丰富、用户面广、传播广泛迅速等传播特点,逐渐改变人们日常的生活方式,为人们获取信息提供了极大的方便。目前,政府部门积极开通官方微博,收集群众意见与建议,开展网络问卷调查;大量企业建设了官方微博和社交网络应用等平台营销产品,反馈用户意见。日常生活中的八卦新闻传播、社会工作中的舆论监督等等都依赖对社交网络的舆论演进和信息传播的研究。
3.根据研究,约60%的用户每天要访问社交网络,其中38%每天访问多次,20%每天至少访问一次。在单向弱关注类社交网络中,如微博和微信朋友圈,约8%的用户每天都会更新状态或签名,而接近50%的用户没有这一行为;只有1.5%的用户平均至少每周发表一次日志或日记。大量的用户在社交网络上的行为是点赞、评论及转发。由此可见,信息分享和转发是社交网络中重要的信息增量传递方式;个体对信息内容的阅读和理解,是引发群体传播的中继。研究发现,大量引发群体传播的信息内容中,均包含有个体对该信息内容的支持或否定等情绪性的导向。因此,预测社交网络发布的信息的转发次数,对信息的传播以及社交网络的运营等方面具有重要意义。
4.目前,对社交网络信息转发次数的预测技术,主要是获取同一发布者之前发布的信息的历史转发次数,通过统计获得历史转发次数的变化趋势,从而获得对新发布的信息转发次数的预测结果。目前的技术单纯研究历史转发次数的变化规律,忽略了被发布的信息本身的内容影响,因此预测结果与实际转发次数存在较大的偏差。
5.术语解释:
6.hownet:hownet是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库,是这一知识系统向中文研究延伸的具体体现。已公布的hownet中文信息结构库包含268种信息结构模式,附带着一万多实例,总字数六万余。中文信息结构库将是中文信息处理的重要的甚至是不可或缺的资源之一,被称为袖珍型经典语料库,因为它的素材来源于实际语料,而另一方面又是经过人工精心筛选整理的,它覆盖面宽但又能避免统计价值不高的重复数据。数据文件(hownet.txt)由223,767个以中英文词和词组所代表的概念构成,hownet为每个概念标注了基于义原的定义以及词性、情感倾向、例句等信息。hownet认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”(sememe),顾名思义就是原子语义,即最基本的、不宜再分割的最小语义单位。在不断标注的过程中,hownet逐渐构建出了一套精细的义原体系(约2000个义原)。hownet基于该义原体系累计标注了数十万词汇/词义的语义信息。


技术实现要素:

7.针对目前的社交网络信息转发次数预测技术预测结果偏差较大的技术问题,本发明的目的在于提供一种社交网络信息转发次数预测方法、计算机装置及存储介质。
8.一方面,本发明实施例包括一种社交网络信息转发次数预测方法,包括:
9.获取通过社交网络传播的发布信息;
10.使用语义网络,从所述发布信息提取得到情绪词汇;
11.确定所述发布信息的情绪词汇数量和转发数量;
12.使用朴素贝叶斯分类器,根据所述情绪词汇数量和所述转发数量对所述发布信息进行分类;
13.根据分类结果,确定所述发布信息的转发次数预测范围。
14.进一步地,所述获取通过社交网络传播的发布信息,包括:
15.获取目标用户通过社交网络传播的第一信息和第二信息;所述第一信息的传播时间和所述第二信息的传播时间之间的时间差小于时间差阈值;
16.以所述第一信息和所述第二信息作为所述发布信息。
17.进一步地,所述使用语义网络,从所述发布信息提取得到情绪词汇,包括:
18.运用所述语义网络构建所述第一信息和所述第二信息的知识表示;
19.通过所述语义网络中的语义联系,表示所述第一信息和所述第二信息的抽象对象关系;
20.构造结论求解网络;所述结论求解网络中的第一变量表示所述第一信息和所述第二信息中,作者的行为目的;所述结论求解网络中的第二变量表示所述第一信息和所述第二信息中,作者流露的情绪结论或者情绪倾向程度;
21.根据所述第一变量,从所述语义网络抽取得到所述发布信息对应的目的结论;
22.根据所述第二变量,从所述语义网络抽取得到所述情绪词汇和疑似情绪词语。
23.进一步地,所述使用语义网络,从所述发布信息提取得到情绪词汇,还包括:
24.确定所述情绪词汇与所述疑似情绪词语表达的情绪结论相似的可信度;
25.当所述可信度大于可信度阈值,将所述疑似情绪词语确定为与所述情绪词汇属于同一类词汇。
26.进一步地,所述确定所述情绪词汇与所述疑似情绪词语表达的情绪结论相似的可信度,包括:
27.设源节点社交网络的初始可信度为所有社交网络可信度的平均值t,根据cf模型,设e为社交信息的证据;
28.设qf(e)是社交网络自然语言理解过程的证据e的可信度因子,-1≤qf(e)≤1;qf(e)的数值来源为:证据的可信度是发布信息的源节点给出的,如果对该社交网络的所有对象观察s都为真,则qf(e)=1,反之0<qf(e)<1;相反,如果所有的观察s都肯定为假,则qf(e)=-1,反之-1<qf(e)<0;如果观察s无法确定真假,则qf(e)=0;
29.如果当前推理的证据是上次推理的结论,当前推理的证据的可信度由上次的证据通过不确定性传递算法计算得到;
30.设e为结论的条件,h为信息总结的结论;h结论可以设定为:所述第一信息词语表达的情绪结论等同所述第二信息词语表达的情绪结论,或者与词语表达的情绪结论相似度
大于相似度阈值;e则为证明所述第一信息词语与所述第二信息词语的情绪结论相似的证据,可以设e为词语相似度、义项相似度和义原距离;
31.设qf(h,e)为规则的可信度因子,当证据e为真,结论h为真的可信程度;
32.设mb(h,e)是由证据e得到结论h的信任增加测度,0≤mb≤1;md(h,e)是由证据e得到结论h的不信任增加测度,0≤md≤1;其中,当p(h)为结论a与b表达相同的情绪结论,当结论为真时,p(h|e)=1,mb=01,md=0,cf=1;当结论为假时,p(h|e)=1,mb=0,md=1,qf=-1;qf(h,e)=mb(h,e)-md(h,e),qf(h,e)的计算公式为
[0033][0034]
由领域专家或专家系统直接获得词语的相似性值,作为证据可信度qf(e)的值;
[0035]
通过本体知识库设置一个条件模板,用所述条件模板来规范词语情绪目的比较的过程;所述模板内容包括:
[0036]
{1、计算词语相似度
[0037]
2、计算义项相似度
[0038]
3、计算义原相似度}
[0039]
设证据e由组合证据e1、e2和e3构成,e=e1∧e2∧e3;以qf(e1)表示词语相似度,以qf(e2)表示义项相似度,以qf(e3)表示义原相似度;
[0040]
通过以下公式计算证据e的综合可信度因子qf(e):
[0041]
qf(e)=qf(e1∧e2∨e3)
[0042]
=min(qf(e1),max(qf(e2),qf(e3)))
[0043]
通过以下公式计算结论h的综合可信度因子qf(h):
[0044]
qf(h)=qf(h,e)
×
qf(e)。
[0045]
进一步地,所述使用朴素贝叶斯分类器,根据所述情绪词汇数量和所述转发数量对所述发布信息进行分类,包括:
[0046]
构造朴素贝叶斯分类器f;
[0047]
将所述发布信息作为待分类项i={x1,x2,x3,......,xm};其中,x表示i的特征属性,m表示所述情绪词汇数量;
[0048]
设定类别集合c={y1,y2,y3,......,yn};其中,y表示c中的类别,n表示所述转发数量;
[0049]
使用所述朴素贝叶斯分类器f,计算p(y1|i),p(y2|i),......p(yn|i);其中,如果p(yk|i)=max{p(y1|i),p(y2|i),......p(yn|i)},则i∈yk;
[0050]
获取p(y1|i),p(y2|i),......p(yn|i)中的最大值对应的类别y,确定为所述发布信息对应的分类结果。
[0051]
进一步地,所述社交网络信息转发次数预测方法还包括:
[0052]
获取训练样本集;
[0053]
对所述训练样本集计算p(x1|yn),p(x2|yn),......p(xm|yn);
[0054]
使用所述朴素贝叶斯分类器f,计算每个类别条件下所述训练样本集的特征属性
的划分频率,从而训练所述朴素贝叶斯分类器f。
[0055]
进一步地,所述社交网络信息转发次数预测方法还包括:
[0056]
对训练后的所述朴素贝叶斯分类器f进行鉴别和质量评估。
[0057]
另一方面,本发明实施例还包括一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行实施例中的社交网络信息转发次数预测方法。
[0058]
另一方面,本发明实施例还包括一种存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行实施例中的社交网络信息转发次数预测方法。
[0059]
本发明的有益效果是:实施例中的社交网络信息转发次数预测方法,通过使用语义网络从社交网络的发布信息提取得到情绪词汇,使用朴素贝叶斯分类器根据发布信息中的情绪词汇数量和转发数量对发布信息进行分类,最后根据分类结果确定发布信息的转发次数预测范围,能够通过情绪词汇确定发布信息的作者的情绪,根据作者的情绪与发布信息转发量之间的客观相关关系,能够获得偏差较小的预测结果。
附图说明
[0060]
图1为实施例中的社交网络信息转发次数预测方法的各步骤示意图;
[0061]
图2为实施例中第一信息的语义网络表示图;
[0062]
图3为实施例中第二信息的语义网络表示图;
[0063]
图4为实施例中朴素贝叶斯分类器对个体转发数量预测的正确率示意图;
[0064]
图5为实施例中朴素贝叶斯分类器对群体转发数量预测的正确率示意图;
[0065]
图6为实施例中朴素贝叶斯分类器对不同类用户的分类正确率示意图;
[0066]
图7为实施例中的社交网络信息转发次数预测方法的流程图。
具体实施方式
[0067]
本实施例中,以使用率较高的微博作为社交网络的代表,对社交网络信息转发次数预测方法中的各步骤进行说明。
[0068]
客观世界里的事物之间有着错综复杂的联系,这些联系会反映在用户发送的微博或信息中。语义网络开始时是人类研究联想记忆时提出的一种心理学模型,是一个由节点和弧组成的有向图,节点表示社交信息中对象,这些对象可以是概念、事物、人物、状态、性质、数量等;弧表示对象之间的联系;语义联系由弧上的标注表现,被广泛应用于人工智能的知识表示。使用语义网络描述社交对象之间互动和交流的内容,可以有效地抽取出信息的主题或对象的观点。
[0069]
研究发现,当传播源节点的微博内容中,可以抽取出明确的情绪性观点,不管是肯定还是否定,支持还是反对,容易造成大范围的信息传播。主要原因在于影响力大的源节点,拥有传播的基本要素,就是巨大的粉丝数量。带有明确直接目的和情绪结论的微博内容,容易影响传播个体的情绪,从而导致一种目的和情绪的传递,这种传递直接构成了信息的转发。
[0070]
例如,从微博中选择1000个影响力大的用户,每个用户各抽取10条转发数量高的
微博统计情绪结论与转发数量的关系。从结果可以看出情绪结论数量与信息转发的数量关联紧密。对于转发数量较低的微博,情绪结论的数量无明显的传播促进作用,但随着情绪结论数量的增加,当微博包含3~5个情绪结论时,转发数量可达到10000条以上。
[0071]
情绪性语言理解,也称为情感分析。按照不同的研究粒度,情感倾向分析的研究可以分成词语情感倾向性分析、句子情感倾向性分析、篇章情感倾向性分析、海量信息的整体倾向性预测四个层次。由于微博的内容限制为140个字,篇幅较短,因此本发明以微博内容的词语情感倾向性分析为主要的研究对象。
[0072]
微博的情感分析研究,可以被认为是解决一个基本的情感分析问题,包括如下四个方面的工作:1.获取微博内容;2.发现和辨别文本中的情绪程度词语,对其进行相应的预处理,预处理的方式有停用词、词缀修剪、n元词、词性标注、必要的简化替换(如把“陈老师”替换成“教师”,或把“笔记本电脑”替换成“设备”等);3.特征抽取,选择各种代表情感程度的特征词汇,如“so much”、“相当”、“很”等,特征词可以根据已有的情感词典自动抽取,但是当面对特定产品或特定话题的时候,可能产生难以自动确定的疑似情感词汇,需要人工构造情感词表或实施自动化推理进行判断;4.结果分类,一般都是采用基于机器学习的标准分类器,最常用的是支持向量机(support vector machine,svm)和朴素贝叶斯方法(nb)。
[0073]
目前国内外词汇倾向性研究方法主要分为两类:统计方法和语义方法。统计方法主要是基于机器学习,通常是首先把已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感倾向性进行判断,利用文档集中词汇间的共性关系来计算词汇的倾向性。语义方法主要是基于一个现存的本体知识库,如英文的wordnet和中文的hownet。在中文方面,目前存在着基于hownet的两种词汇语义倾向计算方法,即基于语义相似度的方法和基于语义相关场的方法,利用词语间的相似度来计算词的褒贬程度。
[0074]
在微博内容中,用于反映内心情绪的语言文字大部分是副词、代词、形容词和一些句子等。形容词表示某一事物的特征或程度,副词表示某一动作的特征或程度。根据华学文
[97]
对网络文本情感性词汇的研究,微博中出现频率高的情绪性语言文字主要由以下副词和代词组成:
[0075]
1、副词,以体现“情感语气”、“评判语气”为主,分为三类:
[0076]
(1)语气副词:似乎、好像;难道、到底、岂、倒是;根本、实在、简直、千万、万万;未免、莫非、不妨、无非;难怪、原来、果然、怪不得;不得不、只好、只得;老是、总是;竟然、居然、偏偏;宁愿、宁可、非得;反正、反而;幸好、幸亏、好在;
[0077]
(2)否定副词:白白、也不;
[0078]
(3)程度副词:非常、十分、真、很、常、太、有点、相当、稍微/稍、过于、极其、极为、几乎;
[0079]
2、代词:1、怎么;2、这么;3、那么。
[0080]
这些情绪性文字和词语如果出现微博文本内容中,可以明确反映作者的情绪程度和倾向性,即微博的情绪结论。如果该作者具备较高的个体影响力和粉丝数量,就可能会形成因粉丝认同或反对而引发的信息传播过程。
[0081]
在现实世界,人类的的行为和对信息的掌握都不是绝对完善和精确的,而在社交网络中,表达人们行为和思维的主要是文字,也是一种不确定性的证据,容易造成歧义。尽
管可以总结微博中出现频率高的53个情绪副词和代词,但仍有许多不在这个范围内词语,也被用于在微博中表达相似的情感,这些词语同样是造成信息传播的重要因素。因此在抽取用户目的和情绪的过程中,除了对自然语言的理解,还要考虑文字表达的不确定性,尽量准确地还原出用户的真实意图。可信度方法是指对某一事物为真的相信程度,用cf模型表示。在社交网络中,传播节点如果相信影响力大的源节点发表的信息,则会引发信息的传播。因此,可信度是用于表示信息内容的自然语言理解是否可以抽象出源节点的目的和情绪结论。
[0082]
贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(bayes,nb)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。根据以上对微博情绪性语言的分析,获得情绪性语言是促进微博传播重要因素,可以把信息的转发数量预测看作一个分类问题。但是,分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造完全正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其空间分类,分类器的质量与分类空间的合理性、分类器构造的方法、待分类数据的特性以及训练样本数量等诸多因素有关。
[0083]
基于上述原理,本实施例中提出一种社交网络信息转发次数预测方法,参照图1,其包括以下步骤:
[0084]
s1.获取通过社交网络传播的发布信息;
[0085]
s2.使用语义网络,从发布信息提取得到情绪词汇;
[0086]
s3.确定发布信息的情绪词汇数量和转发数量;
[0087]
s4.使用朴素贝叶斯分类器,根据情绪词汇数量和转发数量对发布信息进行分类;
[0088]
s5.根据分类结果,确定发布信息的转发次数预测范围。
[0089]
本实施例中,在执行步骤s1,也就是获取通过社交网络传播的发布信息这一步骤时,具体可以执行以下步骤:
[0090]
s101.获取目标用户通过社交网络传播的第一信息和第二信息;第一信息的传播时间和第二信息的传播时间之间的时间差小于时间差阈值;
[0091]
s102.以第一信息和第二信息作为发布信息。
[0092]
执行步骤s101时,获取微博内容:可以选择同一个认证用户的2条微博信息,其中一条微博信息作为第一信息a,另一条微博信息作为第二信息b,第一信息a的传播时间和第二信息b的传播时间之间的时间差小于时间差阈值(具体地,时间差阈值可以设置为1天、1星期等数值),因此两条微博信息的传播时间接近。本实施例中,第一信息a的有关信息如表1所示,第二信息b的有关信息如表2所示。
[0093]
表1
[0094][0095]
表2
[0096][0097]
步骤s102中,以第一信息a和第二信息b组成步骤s1中的发布信息。因此,本实施例中,“发布信息”和“第一信息a和第二信息b”可以具有相同的含义。
[0098]
本实施例中,在执行步骤s2,也就是使用语义网络,从发布信息提取得到情绪词汇这一步骤时,具体可以执行以下步骤:
[0099]
s201.运用语义网络构建第一信息和第二信息的知识表示;
[0100]
s202.通过语义网络中的语义联系,表示第一信息和第二信息的抽象对象关系;
[0101]
s203.构造结论求解网络;结论求解网络中的第一变量表示第一信息和第二信息中,作者的行为目的;结论求解网络中的第二变量表示第一信息和第二信息中,作者流露的情绪结论或者情绪倾向程度;
[0102]
s204.根据第一变量,从语义网络抽取得到发布信息对应的目的结论;
[0103]
s205.根据第二变量,从语义网络抽取得到情绪词汇和疑似情绪词语。
[0104]
步骤s201中,运用语义网络构建第一信息a和第二信息b的知识表示。步骤s202中,使用语义网络中常用的一些语义联系作为抽象对象关系的方法:is用来表示对象的属性,如图2所示,用于表示某亚医院的属性情况;用composed-of联系表示对之间的构成关系,用于表示某亚医院的构成情况;if....then则表示过程性的知识,表示节点之间的假设关系。表1对应的第一信息a的语义网络表示如图2所示,表2对应的第二信息b的语义网络表示如
图3所示。
[0105]
步骤s203中,根据要求解的问题构造出一个结论求解网络,第一变量x是从对象和关系中抽取出的一种目的结论,表达作者的行为目的。而第二变量变量y则反映了作者在微博内容中流露的情绪结论,表达作者的情绪倾向或程度,如图2和3所示。
[0106]
步骤s204中,从语义网络中抽取目的结论x,样本a目的结论:“请大家以后千万别去这样的医院了”,样本b目的结论“大学应有的特质能发展起来”和“大学应有的特质不能发展起来”。
[0107]
步骤s205中,从语义网络中抽取的确定有效情绪结论y,样本a的情绪词汇为:“千万”,“常”,“极”,“几乎”,“很”;样本b的情绪词汇为:“很”。
[0108]
本实施例中,执行步骤s205时,可以从微博内容中直接抽取出情绪副词,例如“怎么”,但也可能抽取出疑似情绪词语,即疑似的情绪代词,例如:“如何”。因此,执行步骤s2,也就是使用语义网络,从发布信息提取得到情绪词汇这一步骤时,在执行步骤s201-s205的基础上,还可以执行以下步骤:
[0109]
s206.确定情绪词汇与疑似情绪词语表达的情绪结论相似的可信度;
[0110]
s207.当可信度大于可信度阈值,将疑似情绪词语确定为与情绪词汇属于同一类词汇。
[0111]
通过执行步骤s206-s207,应用可信度的不确定性推理“如何”与“怎么”的情绪结论相似度。
[0112]
本实施例中,在执行步骤s206,也就是确定情绪词汇与疑似情绪词语表达的情绪结论相似的可信度这一步骤时,具体可以执行以下步骤:
[0113]
step1:设源节点微博的初始可信度为所有微博可信度的平均值t,根据cf模型,设e为社交信息的证据。
[0114]
step2:设qf(e)是微博自然语言理解过程的证据e的可信度因子,-1≤qf(e)≤1。其数值的来源为:证据的可信度是发布信息的源节点给出的,如果对该微博的所有对象观察s都为真,则qf(e)=1,但一般情况下0<qf(e)<1,即传播节点会相信该信息某种程度上为真;相反,如果所有的观察s都肯定为假,则qf(e)=-1,同理一般情况下-1<qf(e)<0,即传播节点会相信该信息某种程度上为真。如果观察s无法确定真假,则qf(e)=0。
[0115]
step3:如果当前推理的证据是上次推理的结论,其可信度由上次的证据通过不确定性传递算法计算得到。证据也可以是多种证据的组合表示,其组合的关系可以是合取或析取。if then是语义网络中用于表示“如果....则”的语义联系,也是产生式规则的表示方法。
[0116]
step4:设e为结论的条件,h为信息总结的结论。h结论可以设定为:a词语表达的情绪结论等同b词语表达的情绪结论,或者与词语表达的情绪结论极为相似。而e则为证明a词与b词的情绪结论相似的证据,可以设为词语相似度、义项相似度和义原距离。
[0117]
step5:则qf(h,e)为该规则的可信度因子,当证据e为真,结论h为真的可信程度。因此,e越支持结论h为真,则qf(h,e)的值越大。
[0118]
step6:设mb(h,e)是由证据e得到结论h的信任增加测度,0≤mb≤1;md(h,e)是由证据e得到结论h的不信任增加测度,0≤md≤1。其中,当p(h)为结论a与b表达相同的情绪结论,当结论为真,p(h|e)=1,mb=01,md=0,cf=1;当结论为假时,p(h|e)=1,mb=0,md=
1,qf=-1,理论上qf(h,e)=mb(h,e)-md(h,e),则qf(h,e)的计算公式可化为如下式3.1:
[0119][0120]
step7:要计算qf(h,e),需要计算p(h|e)和p(h),一般结论和证据都不能保证百分之百确定,因此要计算结论的可信度需要先计算证据的可信度,但是这些概率值在本文中难以单独进行计算,计算可信度可以看作是计算词语相似性值的过程。因此可由领域专家或专家系统直接获得词语的相似性值作为证据可信度qf(e)的值。
[0121]
step8:通过本体知识库设置一个条件模板,用该模板来规范词语情绪目的比较的过程。模板内容如下所示:
[0122]
{1、计算词语相似度
[0123]
2、计算义项相似度
[0124]
3、计算义原相似度}
[0125]
设由于该证据由3个组合证据构成,3个组合证据需同时成立,既可以判断“怎样”和“如何”表示相同的情绪结论,则e=e1∧e2∧e3。3项证据和qf(e)值如下所示:
[0126]
1、“怎样”和“如何”的词语相似度qf(e1)=1.000000:
[0127]
2、“怎样”和“如何”的义项相似度qf(e2)=0.444444:
[0128]
3、把“怎样”和“如何”的义原设置为“程度”和“状态”,义原相似度qf(e3)=0.074074:
[0129]
step9:设推理规则如下:
[0130]
if证据1and证据2or证据3then“怎样”与“如何”的情绪目的相同。
[0131]
由于证据来源于hownet知识库,因此qf(h,e)的证据为真,则qf(h,e)=1。
[0132]
证据e的综合可信度因子及计算如下式3.2:
[0133]
qf(e)=qf(e1∧e2∨e3)
ꢀꢀꢀ
(3.2)
[0134]
=min(qf(e1),max(qf(e2),qf(e3)))
[0135]
=min(1,max(0.444444,0.074074))
[0136]
=0.444444
[0137]
结论h的综合可信度因子及计算如下式3.3:
[0138]
qf(h)=qf(h,e)
×
qf(e)
ꢀꢀꢀ
(3.3)
[0139]
=1
×
0.444444
[0140]
=0.444444
[0141]
因此“怎样”和“如何”两个词语表达的情绪结论相似的可信度为0.444444。
[0142]
步骤s207中,可以设定一个可信度阈值(例如具体值为0.4),将可信度与可信度阈值进行对比,如果可信度大于可信度阈值,那么认为疑似情绪词语与情绪词汇表达的情绪结论足够相似,可以将疑似情绪词语确定为与情绪词汇属于同一类词汇,也就是可以将疑似情绪词语与情绪词汇混同使用。
[0143]
本实施例中,在执行步骤s4,也就是使用朴素贝叶斯分类器,根据情绪词汇数量和转发数量对发布信息进行分类这一步骤时,具体可以执行以下步骤:
[0144]
s401.构造朴素贝叶斯分类器f;
[0145]
s402.将发布信息作为待分类项i={x1,x2,x3,......,xm};其中,x表示i的特征属性,m表示情绪词汇数量;
[0146]
s403.设定类别集合c={y1,y2,y3,......,yn};其中,y表示c中的类别,n表示转发数量;
[0147]
s404.使用朴素贝叶斯分类器f,计算p(y1|i),p(y2|i),......p(yn|i);其中,如果p(yk|i)=max{p(y1|i),p(y2|i),......p(yn|i)},则i∈yk;
[0148]
s405.获取p(y1|i),p(y2|i),......p(yn|i)中的最大值对应的类别y,确定为发布信息对应的分类结果。
[0149]
步骤s401-s405的原理在于:根据贝叶斯定理,设事件a为微博内容出现情绪性词语数量m,事件b为微博转发数量达到n,因此p(b|a)表示当微博内容出现情绪性词语数量达到m时,微博转发数量达到n的概率如下式3.4所示:
[0150][0151]
如果存在以下集合:c={y1,y2,y3,......,yn}和i={x1,x2,x3,......,xm},确定映射规则y=f(x),使得任意xi∈i有且仅有一个yi∈c使得yi=f(xi)成立。设c为类别集合,其中每一个元素是一个类别,而i为项集合,其中每一个元素是一个待分类项,f叫做分类器。分类算法的任务就是构造分类器f。用分类器来识别每条微博的情绪性结论,从而预测并判断该微博的传播空间情况。根据朴素贝叶斯分类算法的原理,对于给出的每条微博作为待分类项x,求解在此项出现的条件下各个类别出现的概率,哪个类别的概率大,就可以认为此待分类项属于该类别。
[0152]
设i={x1,x2,x3,......,xm}为一个待分类项,x为i的1个特征属性,即每条微博中出现了m个情绪性副词和代词的事件,其中0《z《50。设类别集合c={y1,y2,y3,......,yn},设传播空间类别0《n《10,即每条微博获得转发数量达到n的事件。则需要计算p(y1|i),p(y2|i),......p(yn|i),如果p(yk|i)=max{p(y1|i),p(y2|i),......p(yn|i)},则i∈yk。
[0153]
本实施例中,在执行步骤s1-s5使用朴素贝叶斯分类器f之前,可以执行对朴素贝叶斯分类器f进行训练的步骤。对朴素贝叶斯分类器f进行训练的步骤包括:
[0154]
t1.获取训练样本集;
[0155]
t2.对训练样本集计算p(x1|yn),p(x2|yn),......p(xm|yn);
[0156]
t3.使用朴素贝叶斯分类器f,计算每个类别条件下训练样本集的特征属性的划分频率,从而训练朴素贝叶斯分类器f。
[0157]
步骤t1中,首先要找到一个已知分类的待分类项集合,也就是训练样本集。从微博中选择1000个用户转发率最高的100条微博作为训练样本数据。例如选取认证用户id“大自然保护协会—马某”作为分类器训练和鉴别对象之一,如表3所示。根据对样本的转发数量的统计,设n=5,则传播空间集合c={y1,y2,y3,......,yn}表示转发数量为yn的微博样本集,其中5种传播空间范围分别设定为:1000《=y1《5000,5000《=y2《10000,10000《=y3《20000,20000《=y4《40000,40000《=y5。对样本统计后,p(y1)=0.22,p(y2)=0.28,p(y3)=0.26,p(y4)=0.18,p(y5)=0.02。
[0158]
步骤t2中,根据统计,一般情况下微博内容的140个字中,作者输入的情绪性词语
数量理论上不超过10个。计算p(x1|y1),p(x2|y1),......p(xm|y1),p(xm|y1)是当微博转发数量1000《=y1《5000时,微博内容中出现10个不同的情绪性词语的概率。同理,分别通过训练样本集计算p(x1|yn),p(x2|yn),......p(xm|yn),即当微博转发数量不同时,微博中分别出现1~10个不同的情绪性词语的概率。设属性特征值为x1:{微博中出现语气副词“千万”},x2:{微博中出现程度副词“很”},x3:{微博中出现语气副词“反正”},x4:{微博中出现代词“怎么”}......
[0159]
表3
[0160][0161]
步骤t3中,使用朴素贝叶斯分类器f,计算每个类别条件下训练样本集的特征属性的划分频率,从而训练朴素贝叶斯分类器f。在计算每个类别条件下训练样本集的特征属性的划分频率时,由于特征属性值x是离散数据,因此对每个类别条件下训练样本集的特征属性的划分可以具有以下形式:
[0162]
p(x1|y1)=p{微博中出现语气副词“千万”|1000《=微博的转发数量y1《5000}=0.15
[0163]
p(x2|y1)=p{微博中出现程度副词“很”|1000《=微博的转发数量y1《5000}=0.45
[0164]
p(x3|y1)=p{微博中出现语气副词“反正”|1000《=微博的转发数量y1《5000}=0.05
[0165]
p(x4|y1)=p{微博中出现代词“怎么”|1000《=微博的转发数量y1《5000}=0.08
[0166]
......
[0167]
p(x1|y2)=p{微博中出现语气副词“千万”|5000《=微博的转发数量y2《10000}=0.05
[0168]
p(x2|y2)=p{微博中出现程度副词“很”|5000《=微博的转发数量y2《10000}=0.51
[0169]
p(x3|y2)=p{微博中出现语气副词“反正”|5000《=微博的转发数量y2《10000}=0.28
[0170]
p(x4|y2)=p{微博中出现代词“怎么”|5000《=微博的转发数量y2《10000}=0.11
[0171]
......
[0172]
p(x1|y3)=p{微博中出现语气副词“千万”|10000《=微博的转发数量y3《20000}=0.03
[0173]
p(x2|y3)=p{微博中出现程度副词“很”|10000《=微博的转发数量y3《20000}=0.29
[0174]
p(x3|y3)=p{微博中出现语气副词“反正”|10000《=微博的转发数量y3《20000}=0.13
[0175]
p(x4|y3)=p{微博中出现代词“怎么”|10000《=微博的转发数量y3《20000}=0.22
[0176]
......
[0177]
p(x1|y4)=p{微博中出现语气副词“千万”|20000《=微博的转发数量y4《40000}=0.12
[0178]
p(x2|y4)=p{微博中出现程度副词“很”|20000《=微博的转发数量y4《40000}=0.67
[0179]
p(x3|y4)=p{微博中出现语气副词“反正”|20000《=微博的转发数量y4《40000}=0.41
[0180]
p(x4|y4)=p{微博中出现代词“怎么”|20000《=微博的转发数量y4《40000}=0.35
[0181]
......
[0182]
p(x1|y5)=p{微博中出现语气副词“千万”|40000《=微博的转发数量y5}=0.66
[0183]
p(x2|y5)=p{微博中出现程度副词“很”|40000《=微博的转发数量y5}=0.72
[0184]
p(x3|y5)=p{微博中出现语气副词“反正”|40000《=微博的转发数量y5}=0.34
[0185]
p(x4|y5)=p{微博中出现代词“怎么”|40000《=微博的转发数量y5}=0.32
[0186]
......
[0187]
本实施例中,在执行步骤t1-t3的基础上,还可以执行以下步骤:
[0188]
t4.对训练后的朴素贝叶斯分类器f进行鉴别和质量评估。
[0189]
在执行步骤t4对朴素贝叶斯分类器f进行鉴别时,首先,选择一个样本用户的非训练样本微博作为分类器的鉴别对象,非训练样本微博的相关信息如表4所示:
[0190]
表4
[0191][0192]
在执行步骤t4对朴素贝叶斯分类器f进行鉴别时,根据属性特征值,分类器鉴别5类不同的微博转发数量的概率如下所示:
[0193]
p(y1)p(x|y1)=p(y1)*p(x3|y1)*p(x4|y1)=0.22*0.05*0.08=0.00088
[0194]
p(y2)p(x|y2)=p(y2)*p(x3|y2)*p(x4|y2)=0.28*0.28*0.11=0.008624
[0195]
p(y3)p(x|y3)=p(y3)*p(x3|y3)*p(x4|y3)=0.26*0.13*0.22=0.007436
[0196]
p(y4)p(x|y4)=p(y4)*p(x3|y4)*p(x4|y4)=0.18*0.41*0.35=0.02583
[0197]
p(y5)p(x|y5)=p(y5)*p(x3|y5)*p(x4|y5)=0.02*0.34*0.32=0.002176
[0198]
在执行步骤t4对朴素贝叶斯分类器f进行鉴别时,从计算结果显示,p(y4)p(x|y4)=0.02583概率最大,分类器认为该鉴别样本应属于微博的转发数量大于等于20000条,小于40000条的分类。如表5-4所示,鉴别样本的微博转发数量为29860条,与分类器的分类结果符合。
[0199]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,要评价分类器的质量,首先要定义分类器的正确率。正确率指分类器正确分类的项目占所有被分类项目的比率。
[0200]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,通常使用回归测试来评估分类器的正确率,方法是用构造完成的分类器对训练数据进行分类测试,然后根据结果给出正确率评估。
[0201]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,如果直接使用训练数据作为检测数据,可能因过分拟合而导致结果过于乐观,因此将训练数据一分为二,一部分构造分类器,另一部分检测分类器的准确率。
[0202]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,拟使用该1000个用户的另外99条微博用于检测分类器的正确率,测试样本如表3-5所示:
[0203]
表5
[0204][0205]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,由于分类器只对转发数量进行统计分类,并不计算实际的数量,因此在对比测试时把预测的转发数量用该类别的最小值在图中标注。
[0206]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,测试结果如图4所示,该样本的10条微博中,分类器的预测结果集中在1000《=y1《5000,5000《=y2《10000和10000《=y3《20000三个分类中,其中1000《=y1《5000的分类正确率最高,达到100%,而5000《=y2《10000的分类正确率为75%;10000《=y3《20000的正确率为66%。
[0207]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,结果显示,分类器在个体的微博转发数量分类上具有较好的质量,但当微博的实际转发数量达到10000条以上时,分类器的正确率下降。样本中没有转发数量20000条以上的微博,因此分类器的正确性还需进一步测试验证。
[0208]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,当测试数量达到10000条微博,即1000个用户各抽取10条微博,分类器的正确率曲线出现递减的特征,其正确率随转发数量的上升呈递减趋势。当转发数量在4000条时,分类器的正确率最高,约达85%。当转发数量达到10000条后,正确率快速下滑,如图5所示。这与分类器设定的转发数量分类和情绪词汇统计数量有关。转发数量分类的设定是以倍数数量为单位的,因此分类数量越大,其数量范围越大,与实际的转发数量,造成准确率下降。
[0209]
在执行步骤t4对朴素贝叶斯分类器f进行质量评估时,测试用户按类型可以分成:1.演员明星;2.企业家;3.结构传媒;4.微博达人四种类型。分类器对这四类用户的5种转发数量的分类结果如图6所示,结果显示:当微博转发数量为1000《=y1《5000和5000《=y2《10000时,分类器对四类用户的正确率最高,可达85%,这与上图的群体转发正确率测试结果一致。四类用户的最高与最低正确率的差距很大,其中演员明星用户的差距可达64%,这与该类用户的微博主题和内容的变化有关。通常这类用户的微博主题和内容比较丰富,图片多文字少,无规律,大部分微博的情绪词汇的数量较少,因此误差较大。相反,企业家用户的微博主题和内容倾向性较强,一般为叙述性内容,文字多,图片少,目的和情绪结论明确,因此最高和最低正确率的差距只有约20%,其他用户的差距约为30%。
[0210]
根据图4、图5和图6所示的朴素贝叶斯分类器测试效果,可以确定,本实施例中应用朴素贝叶斯分类器的预测方法具有以下特点:
[0211]
1、特定转发数量的个体和群体转发预测获得高准确率:个体转发预测方面,分类器的效果显示微博转发数量10000条以下的预测结果已经达到较高的准确率;群体转发预测方面,当转发数量分类的范围小于等于5000条时,分类结果准确率较高。
[0212]
2、针对四类用户转发预测获得高正确率:当微博转发数量为1000《=y1《5000和5000《=y2《10000时,分类器对演员明星,企业家,结构传媒和.微博达人四类用户的正确率最高,可达85%。
[0213]
3、验证了情绪结论对转发数量的推动作用:对比同一个用户的两条微博内容,如图2和3所示,样本a可抽取的情绪词汇数量是5,例如:“千万”,这类带有强烈情感语气的词语真实地表达了作者内心的否定倾向,获点赞数量为2698,获转发数量为8730,获评论数量为3472;样本b可抽取的有效情绪词汇数量为1,例如:“很”,情绪结论数量少,获点赞数量为985,获转发数量为1208,获评论数量为404。结果证明,两个样本的信息转发数量存在巨大差距,可从内容抽取出有效的情绪结论数量越高,粉丝互动的频率越高,造成信息转发的数量也越大。
[0214]
综上所述,本实施例中的社交网络信息转发次数预测方法的流程如图7所示。本实施例中的社交网络信息转发次数预测方法的原理和效果在于:
[0215]
1、基于信息文本情绪分析,构建一种预测微博转发数量的社交网络信息转发分类器。首先应用语义网络,对微博内容进行知识表示和自然语言理解,总结出微博中出现频率高的情绪结论副词和代词。从微博样本中抽取出可确定的情绪结论词汇,对于疑似的情绪结论词汇,采用不确定性推理判断该词为情绪词汇的可信度。通过hownet知识库获取词语、义项和义原的相似性作为推理证据的可信度,从而计算出疑似词汇是否为情绪结论的可信度。通过定义微博的转发数量范围,应用朴素贝叶斯方法构建转发分类器,对分类器的鉴别正确性进行样本训练;
[0216]
2、基于可信度计算的情绪不确定性推理方法:并非所有的情绪结论都可以直接匹配总结的情绪词汇,内容中存在的疑似情绪结论需要进行不确定性推理,推理的结论是微博的词汇与情绪词汇的语义是否相同或相似。根据可信度计算cf模型,提出一种基于本体知识库的词语、义项和义原相似性计算模板,通过模板计算出推理证据的可信度,然后计算结论的可信度并证明结论为真,提升了情绪结论不确定性推理的正确率;
[0217]
3、基于朴素贝叶斯的信息转发分类算法:获得直接和推理的情绪词汇后,应用朴素贝叶斯分类方法对微博内容进行转发数量分类预测,预测选取了常见的情绪词汇,计算分类范围的概率,概率最大分类的即为微博的转发数量范围。回归测试和数据分析证明了分类器的质量评价达到预期目标;
[0218]
4、通过不确定性推理方法,分析疑似的情绪词汇,计算词汇语义相似性的可信度,应用朴素贝叶斯方法进行基于转发数量的分类预测。
[0219]
可以通过编写执行本实施例中的社交网络信息转发次数预测方法的计算机程序,将该计算机程序写入至计算机装置或者存储介质中,当计算机程序被读取出来运行时,执行本实施例中的社交网络信息转发次数预测方法,从而实现与实施例中的社交网络信息转发次数预测方法相同的技术效果。
[0220]
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本
公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。此外,除非另有定义,本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
[0221]
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本公开范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例,并且除非另外要求,否则不会对本发明的范围施加限制。
[0222]
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
[0223]
此外,可按任何合适的顺序来执行本实施例描述的过程的操作,除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
[0224]
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
[0225]
计算机程序能够应用于输入数据以执行本实施例所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
[0226]
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,凡在本发明的精神和原则之内,所做的任何修改、
等同替换、改进等,均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献