一种基于多信息源情境下的读者情绪分类方法与流程

2022-06-15 21:10:19 来源：中国专利 TAG：

1.本发明设计文本挖掘领域，尤其涉及一种基于多信息源情境下的读者情绪分类方法。

背景技术：

2.随近些年来随着web2.0的兴起，用户成为互联网信息的重要撰写者和提供者，网络中也因此产生了大量的包含用户情绪的文本内容。如何利用互联网上的这类信息，对用户情绪进行分类和挖掘，成为文本挖掘领域的一个热点问题。
3.目前，对多信息源情境下用户情绪分类方法是欠缺的，已往的大多数工作只利用单一信息源对读者情绪进行分类，属于单视角学习。
4.在对现有技术的研究和实践中，本发明的发明人发现，现有的用户情绪分类方法，主要面临以下问题：
5.1)网络数据存在严重缺失，难以获取完整的数据，从而影响情绪分类的有效性；
6.2)数据的多元化，同时各信息源数据的特征分布不一，无法直接融合；
7.3)现实生活中，读者情绪标签并不是单一的，各种复杂情绪往往混杂在一起。

技术实现要素：

8.本发明所要解决的技术问题在于，提供一种基于多信息源情境下的读者情绪分类方法，通过融合多视角多标签分类的隐语义模型，能够对用户情绪进行分类和挖掘，为企业、政府等机构通过预测人们的行为从而制定相关决策提供更有效的参考。
9.为解决上述问题，本发明的一个实施例提供一种基于多信息源情境下的读者情绪分类方法，包括：
10.对具有多个信息源的读者情绪数据特点进行分析，给出数据的预处理过程；
11.对读者情绪标签进行了统计分析，分析标签之间的分布情况；
12.将不同视角下的文本特征映射到低维语义空间，建立特征与标签的映射函数。
13.进一步地，所述把读者情绪分析看作是一个多标签问题，其数据特点包括文本特征维度高，数据处理相对复杂；多标签之间相互关联，标签间存在包含性、互斥性等，以及多标签数据存在正负样本不平衡性，使得对传统分类器依赖性较大；而且存在多视角的信息融合问题。
14.进一步地，所述给出数据的预处理过程，具体的，首先通过正则化匹配，获取所需的新闻正文、新闻评论和用户投票数据。其次，对所获取的新闻和对应的评论、投票信息进行统计，过滤错误数据、重复数据。接着，对上述步骤中保留的文本进行分词，再去停用词。最后，采用卡方特征选择法对特征进行筛选。
15.其中，分词指按照一定的规则将句子切分成独立的词，过滤掉的停用词是在文本中出现频率很高，但又在文本中没有具体的含义的词；χ2评定的是征项和标签之间的相关
性，具体的，
16.其中，n表示在训练语料中该特征项出现的次数，a表示为类且包括的文档频次，b代表不归于类且包含的文档频次，c指的是类但不存在的文档频次，d指的是不归类于同时不存在的文本数目。
17.进一步，所述对读者情绪标签进行了统计分析，具体包括：
18.采集每篇新闻数据包括标题、新闻内容、新闻的评论、以及投票票数。从同一个新闻的用户评论中挖掘、理解用户的情绪，从而对新闻自身的文本信息进行补充，结合投票比例对新闻读者情绪分类。设计一种算法，选用了投票数大于15的数据进行分析，根据每篇新闻读者的投票数据给出标签类别。具体包括：
19.输入未标注的新闻文本集合d，|d|＝n，读者情绪投票信息v，t＝φ；
20.对每一个新闻文本di，对新闻di的情绪投票数据vi归一化处理；
21.对于每类情绪的得票
[0022][0023][0024]
将(di，li)添加到集合t中，返回标注集合；
[0025]
输出标注的训练数据集t；
[0026]
其中，定义l＝{y1，y2，...ym}是包含有m个情绪标签的集合，score＝{s1，s2，...sm}为情绪标签集合l中每种情绪标签对应的得票比分，满足θ为预定义的阈值，用于判断某标签是否包含在样本所属的标签集中的公式。
[0027]
进一步，所述统计分析了各个情绪标签的分布，在单个标签情况下，正负样本数据的分布存在不平衡现象。通过对投票比例进行试验，来设置阈值，当标签投票比例超过阈值，则认为该文档属于这个标签，并标记为1，否则标记为-1；
[0028]
通过两两标签之间的共现频率，表明了标签之间存在相关性，表明了不同的读者其立场和观点也是不一致的。
[0029]
本发明的另一个实施例还提供一种基于多视角的多标签分类模型，包括：
[0030]
改进了lsi模型，结合标签信息将不同视角的特征投影在低维隐语义子空间；
[0031]
通过最小化重构误差对模型进行求解；
[0032]
通过训练得到多标签分类器，有机融合了不同视角的特征和标签。
[0033]
提出了一种将标签表示为标签矩阵，保留标签的原始结构，结合多信息源的特征矩阵与模型一起训练的方法，充分利用了标签之间的相关性。
[0034]
进一步，所述的改进了lsi模型，结合标签信息将不同视角的特征投影在低维隐语义子空间，具体包括：
[0035]
将两个视角特征x1，x2分别映射在不同隐语义空间，并且将标签y与x1，x2的隐语义投影在同一个空间，进而建立多个视角语义与输出标签的相关性。最后通过最小化它们的
重构误差求解，模型的公式为：
[0036][0037][0038]
其中，是视角一的特征x1在隐语义空间ω1的基，是视角二的特征x2在隐语义空间ω2上的基，参数a，b分别为x1到v1、x2到v2的线性权重，c，d为标签y投影到v1，v2空间的线性权重，参数a1，a2是平衡标签预测误差和特征重构误差之间的参数。
[0039]
进一步，所述通过最小化重构误差对模型进行求解，具体包括：
[0040]
假定在最优解下，最优化目标函数公式等价于如下形式：
[0041][0042]
等价于：
[0043][0044][0045]
通过对o1，o2特征向量的求解可以得到公式中的参数值，即转化为求解方程中的前k1，k2个最大的特征值对应的特征向量问题。等价于：
[0046][0047][0048]
对于给定一篇新的文档没有标签信息，如何做情绪预测，因此模型的预测不能依赖标签信息。假设之间为线性映射，加上线性约束：v1＝x1w1，v2＝x2w2，得到其中i＝1，2，...k1，j＝1，2，...k2。将线性约束条件v1＝x1w1，v2＝x2w2代入公式中，将对v1，v2的优化转换成对特征向量w1，w2的优化问题：
[0049][0050][0051]
为了增加模型的稳健性，添加正则项同时把公式中的最大化问题转换成把最小化即得到以下模
型：
[0052][0053][0054]
其中，是正则项，γ1，γ2为调节参数；
[0055]
假设w1，w2为式(4.6)的特征向量，w1，w2则必须为的线性加和：
[0056]
采用拉格朗日乘子法，求的偏导，并令其等于0，计算特征向量和特征值，取最小k1，k2个特征值对应的特征向量即为模型的最优解，x和w的映射函数如下：
[0057][0058]
令将求前k1，k2个最小特征值的问题转换成求最大特征值的问题：
[0059][0060][0061]
标签的最优解为y＝v1c v2d，因此采用y＝v1c v2d值作为标签的预测结果，当
[0062]
y中对应值大于0则认为有该标签，否则认为没有该标签。
[0063]
进一步，所述通过训练得到多标签分类器，有机融合了不同视角的特征和标签，具体包括：
[0064]
对于给定的具有多视角特征的n篇文档集d＝{d1，d2，...dn}，其相应的情绪标签集为其中y
ij
＝1表示第i篇文档有第个j标签，y
ij
＝-1则表示第i篇文档没有第j个标签。给定特征矩阵x1，x2其中为视角一的特征，为视角二的特征。
[0065]
实施本发明的实施例能够有效地对用户情绪进行分类和挖掘，为企业、政府等机构通过预测人们的行为从而制定相关决策提供了更有效的参考。
附图说明
[0066]
图1是本发明的一个实施例提供的一种基于多信息源情境下的读者情绪数据特性分析方法的流程示意图；
[0067]
图2是本发明的一个实施例提供的一种基于多信息源情境下的读者情绪分类方法的流程示意图；
[0068]
图3是本发明的一个实施例提供的一种基于多信息源情境下的读者情绪分类方法的文本预处理流程示意图；
[0069]
图4是本发明的一个实施例提供的一种基于多信息源情境下的读者情绪分类方法的标签预处理流程示意图。
具体实施方式
[0070]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0071]
需要说明的是，文中出现的步骤编号仅是为了方便说明，不作为步骤的执行先后顺序限定。
[0072]
请参阅图1-3。本发明的一个实施例提供了一种基于多信息源情境下的读者情绪数据特性分析方法，包括：
[0073]
s1、对具有多个信息源的读者情绪数据特点进行分析，给出数据的预处理过程。
[0074]
其中，把读者情绪分析看作是一个多标签问题，其数据特点包括文本特征维度高，数据处理相对复杂；多标签之间相互关联，标签间存在包含性、互斥性等，以及多标签数据存在正负样本不平衡性，使得对传统分类器依赖性较大；而且存在多视角的信息融合问题。数据预处理需要，首先通过正则化匹配，获取所需的新闻正文、新闻评论和用户投票数据。其次，对所获取的新闻和对应的评论、投票信息进行统计，过滤错误数据、重复数据。接着，对上述步骤中保留的文本进行分词，再去停用词。最后，采用卡方特征选择法对特征进行筛选。
[0075]
s2、对读者情绪标签进行了统计分析，分析标签之间的分布情况。
[0076]
在具体的实施例当中，采集每篇新闻数据包括标题、新闻内容、新闻的评论、以及投票票数。从同一个新闻的用户评论中挖掘、理解用户的情绪，从而对新闻自身的文本信息进行补充，结合投票比例对新闻读者情绪分类。设计一种算法，选用了投票数大于15的数据进行分析，根据每篇新闻读者的投票数据给出标签类别。具体包括：
[0077]
输入未标注的新闻文本集合d，|d|＝n，读者情绪投票信息v，t＝φ；
[0078]
对每一个新闻文本di，对新闻di的情绪投票数据vi归一化处理；
[0079]
对于每类情绪的得票
[0080][0081]
[0082]
将(di，li)添加到集合t中，返回标注集合；
[0083]
输出标注的训练数据集t；
[0084]
其中，定义l＝{y1，y2，...ym}是包含有m个情绪标签的集合，score＝{s1，s2，...sm}为情绪标签集合l中每种情绪标签对应的得票比分，满足θ为预定义的阈值，用于判断某标签是否包含在样本所属的标签集中的公式。此外，统计分析了各个情绪标签的分布，在单个标签情况下，正负样本数据的分布存在不平衡现象。通过对投票比例进行试验，来设置阈值，当标签投票比例超过阈值，则认为该文档属于这个标签，并标记为1，否则标记为-1；
[0085]
通过两两标签之间的共现频率，表明了标签之间存在相关性，表明了不同的读者其立场和观点也是不一致的。本实施例通过限制动作的范围保证了安全性，同时还能够大幅度提高强化学习在训练中的收敛速度，替换原有的高斯策略。能够适用于自然策略梯度与非自然策略梯度类强化学习算法，且无论是对于简单的还是复杂的连续控制任务都能够有良好的性能表现，能够尝试去用于现实广泛的连续控制任务。
[0086]
本实施例主要基于网络中积累了大量饱含用户情绪的文本信息，运用多信息源情境下的读者情绪数据特性分析方法，有效地挖掘和利用这些文本中的信息为社会创造价值，有效地预测人们的行为，为企业、政府等机构做一些相关决策提供了更有效的数据参考。
[0087]
请参阅图2。本发明的另一个实施例还提供一种基于多视角的多标签分类模型，包括：
[0088]
s3、改进了lsi模型，结合标签信息将不同视角的特征投影在低维隐语义子空间。
[0089]
将两个视角特征x1，x2分别映射在不同隐语义空间，并且将标签y与x1，x2的隐语义投影在同一个空间，进而建立多个视角语义与输出标签的相关性。最后通过最小化它们的重构误差求解，模型的公式为：
[0090][0091][0092]
其中，是视角一的特征x1在隐语义空间ω1的基，是视角二的特征x2在隐语义空间ω2上的基，参数a，b分别为x1到v1、x2到v2的线性权重，c，d为标签y投影到v1，v2空间的线性权重，参数a1，a2是平衡标签预测误差和特征重构误差之间的参数。
[0093]
s4、通过最小化重构误差对模型进行求解。
[0094]
其中，假定在最优解下，最优化目标函数公式等价于如下形式：
[0095][0096]
等价于：
[0097][0098][0099]
通过对o1，o2特征向量的求解可以得到公式中的参数值，即转化为求解方程中的前k1，k2个最大的特征值对应的特征向量问题。等价于：
[0100][0101][0102]
对于给定一篇新的文档没有标签信息，如何做情绪预测，因此模型的预测不能依赖标签信息。假设之间为线性映射，加上线性约束：v1＝x1w1，v2＝x2w2，得到其中i＝1，2，...k1，j＝1，2，...k2。将线性约束条件v1＝x1w1，v2＝x2w2代入公式中，将对v1，v2的优化转换成对特征向量w1，w2的优化问题：
[0103][0104][0105]
为了增加模型的稳健性，添加正则项同时把公式中的最大化问题转换成把最小化即得到以下模型：
[0106][0107][0108]
其中，是正则项，γ1，γ2为调节参数；
[0109]
假设w1，w2为式(4.6)的特征向量，w1，w2则必须为的线性加和：
[0110]
采用拉格朗日乘子法，求的偏导，并令其等于0，计算特征向量和特征值，
取最小k1，k2个特征值对应的特征向量即为模型的最优解，x和w的映射函数如下：
[0111][0112]
令将求前k1，k2个最小特征值的问题转换成求最大特征值的问题：
[0113][0114][0115]
标签的最优解为y＝v1c v2d，因此采用y＝v1c v2d值作为标签的预测结果，当y中对应值大于0则认为有该标签，否则认为没有该标签。
[0116]
s5、通过训练得到多标签分类器，有机融合了不同视角的特征和标签。
[0117]
其中，对于给定的具有多视角特征的n篇文档集d＝{d1，d2，...dn}，其相应的情绪标签集为其中y
ij
＝1表示第i篇文档有第个j标签，y
ij
＝-1则表示第i篇文档没有第j个标签。给定特征矩阵x1，x2其中为视角一的特征，为视角二的特征。
[0118]
本实施例主要基于网络中积累了大量饱含用户情绪的文本信息，构建多视角多标签分类模型，有效地挖掘和利用这些文本中的信息为社会创造价值，有效地预测人们的行为，为企业、政府等机构做一些相关决策提供了更有效的数据参考。
[0119]
以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和变形，这些改进和变形也视为本发明的保护范围。
[0120]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于选择性集成学习的电力数据文本分类算法

一种基于多信息源情境下的读者情绪分类方法与流程

相关文献

最热文献