一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于判别方差准则的影评情感分析预处理方法及系统

2022-06-11 23:54:17 来源:中国专利 TAG:


1.本发明涉及文本挖掘技术领域,尤其是指一种基于判别方差准则的影评情感分析预处理方法及系统。


背景技术:

2.影评情感分析作为文本分类的一种应用,旨在自动识别在影评(一段文本)中表达的情绪是正面的还是负面的。目前,基于机器学习的方法已被广泛用于影评情感分析,其中每个影评都可以转化为具有高维度的向量。然而,过高的维度会影响影评情感分析的正确性。因此,需要利用特征选择方法对影评向量进行降维处理。其中,方差评分(variance score,vs)作为一种简单高效的无监督特征选择方法,在文本挖掘领域得到了广泛的应用。vs通过计算每个特征项的方差来衡量其重要程度。最近,wang等人提出了基于方差和经济学理论的边际效用评分(marginal utility score,mus),该评分可以选择含有丰富语义信息的特征项。但是该方法没有考虑监督信息(样本的标签),然而影评情感分析的任务大多是基于有标签数据样本的。因此,在针对影评情感分析的特征选择中,把监督信息和方差的概念有效地结合起来是值得研究的问题。


技术实现要素:

3.为此,本发明所要解决的技术问题在于克服现有技术存在的问题,提出一种基于判别方差准则的影评情感分析预处理方法及系统,其判别方差准则有效地结合了方差和监督信息,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
4.为解决上述技术问题,本发明提供一种基于判别方差准则的影评情感分析预处理方法,其特征在于,包括以下步骤:
5.对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
6.基于所述影评语料库得到影评频次矩阵和词频矩阵;
7.基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
8.将所述特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
9.在本发明的一个实施例中,基于影评频次矩阵计算判别方差准则的方法包括:
10.所述判别方差准则的计算公式如下:
[0011][0012]
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度。
[0013]
在本发明的一个实施例中,所述总体散度和类散度的定义如下:
[0014][0015][0016]
其中,是第j个特征项的特征均值,是第j个特征项在第i条影评中的影评频次,dk是属于类别ck的影评集合,是第j个特征项在类别ck中的特征均值。
[0017]
在本发明的一个实施例中,所述分析模型的训练方法包括:
[0018]
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
[0019]
基于所述训练数据集得到影评频次矩阵和词频矩阵;
[0020]
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0021]
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
[0022]
此外,本发明还提供一种基于判别方差准则的影评情感分析预处理系统,包括:
[0023]
影评预处理模块,所述影评预处理模块用于对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
[0024]
影评表示模块,所述影评表示模块用于基于所述影评语料库得到影评频次矩阵和词频矩阵;
[0025]
特征项排序模块,所述特征项排序模块用于基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0026]
影评情感分析模块,所述影评情感分析模块用于将所述特征项重要程度序列输入至分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
[0027]
在本发明的一个实施例中,所述特征项排序模块包括:
[0028]
判别方差准则计算子模块,所述判别方差准则计算子模块用于根据如下的计算公式计算判别方差准则:
[0029][0030][0031][0032]
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总
体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度,是第j个特征项的特征均值,是第j个特征项在第i条影评中的影评频次,dk是属于类别ck的影评集合,是第j个特征项在类别ck中的特征均值。
[0033]
在本发明的一个实施例中,所述影评情感分析模块包括模型训练学习子模块,所述模型训练学习子模块用于实现如下步骤:
[0034]
获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
[0035]
基于所述训练数据集得到影评频次矩阵和词频矩阵;
[0036]
基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0037]
将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
[0038]
在本发明的一个实施例中,所述影评情感分析模块包括:
[0039]
影评情感测试子模块,所述影评情感测试子模块用于利用训练学习好的分析模型进行影评情感测试。
[0040]
并且,本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述方法的步骤。
[0041]
还有,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
[0042]
本发明的上述技术方案相比现有技术具有以下优点:
[0043]
本发明判别方差准则有效地结合了方差和监督信息,即判别方差准则采用了特征项的两种方差形式,一种是特征项的总体散度,另一种是把类别信息引入方差中提出了类散度,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
附图说明
[0044]
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
[0045]
图1是本发明基于判别方差准则的影评情感分析预处理方法的流程示意图。
[0046]
图2是本发明基于判别方差准则的影评情感分析预处理系统的结构示意图。
[0047]
其中,附图标记说明如下:10、影评预处理模块;11、影评表示模块;12、特征项排序模块;13、影评情感分析模块。
具体实施方式
[0048]
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0049]
请参阅图1所示,本发明实施例提供一种基于判别方差准则的影评情感分析预处理方法,其特征在于,包括以下步骤:
[0050]
s110:对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
[0051]
s120:基于所述影评语料库得到影评频次矩阵和词频矩阵;
[0052]
s130:基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0053]
s140:将所述特征项重要程度序列输入至训练好的分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
[0054]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式s100,对获取的原始影评数据进行分词、清洗和标准化的预处理包括以下内容:1)影评分词:基于不同语种,结合不同分词算法进行文本分词;2)影评清洗:结合文本语料库的领域和任务,去除可能干扰情感分析的字符、数字和文本:并且,利用标准停用词表,去除文本中的停用词;3)影评标准化:词干提取只适用于部分语种文本,最常见的是porters算法,对英语很有效。
[0055]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式s200,本发明结合文本的向量空间表示,选择词t作为影评的特征项。输入影评语料库d={(xi,yi)|xi∈rm,yi∈c,i=1,

,n},其中c={c1,c2}是类别集合,c1代表正类,c2代表负类。该影评语料库包含n条影评和m个特征项。x={x1,x2,....,xn}和t={t1,t2,...,tm}是分别是语料库d的影评和特征项集合。从影评语料库中统计出影评频次矩阵和词频矩阵其中是第j个特征项在第i条影评中的影评频次,若特征项出现在该影评中则为1,否则为0;是第j个特征项在第i条影评中出现的次数。特征项权重采用tf-idf计算方式,得到影评文本的权重表示矩阵其中nj是第j个特征项在影评语料库中出现过的影评数量。
[0056]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式s300,基于影评频次矩阵计算判别方差准则的方法包括第j个特征项的判别方差准则的计算公式如下:
[0057]
所述判别方差准则的计算公式如下:
[0058][0059]
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度。关于所述总体散度和类散度的定义如下:
[0060]
[0061][0062]
其中,是第j个特征项的特征均值,是第j个特征项在第i条影评中的影评频次,dk是属于类别ck的影评集合,是第j个特征项在类别ck中的特征均值。
[0063]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,对于实施方式s400,影评情感分析过程主要由两个阶段构成,分别为训练学习阶段和情感分析阶段,其中训练学习阶段的主要任务是根据训练集影评构建一个情感分析模型,情感分析阶段是利用训练学习阶段构建好的分析模型对测试集影评进行情感分析。训练集影评经过影评预处理、影评表示以及特征项选择后被用于训练分类器模型,最后使用测试集影评对模型的情感分析性能进行评估。
[0064]
具体地,所述分析模型的训练学习方法包括:
[0065]
s210:获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;
[0066]
s220:基于所述训练数据集得到影评频次矩阵和词频矩阵;
[0067]
s230:基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0068]
s240:将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
[0069]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理方法中,本发明判别方差准则有效地结合了方差和监督信息,即判别方差准则采用了特征项的两种方差形式,一种是特征项的总体散度,另一种是把类别信息引入方差中提出了类散度,利用判别方差准则对影评文本进行预处理,使得具有较高总体散度和较低类散度的特征项更具有判别性,从而提高影评情感分析的性能。
[0070]
为了验证本发明的性能,采用十折交叉验证的方式,将影评数据集随机划分为十份,每次实验选择其中一份作为测试集,其余九份作为训练集进行特征项排序。选择特征项数量为[10,20,100,200,500,1000,1500],利用线性支持向量机、逻辑回归以及多项式分布朴素贝叶斯三种分类器在选择不同数量特征项时对测试集进行分类,对最终结果取十次实验的均值。影评特征选择的对比方法包括方差评分(vs)和边际效用评分(mus)。采用正确率(accuracy)和f1值(f1-score)两个指标衡量影评情感分析的效果,结果如表1和表2所示。在三个分类器上,可以看出本发明相较于其他方法,能够选择出更具有判别性的特征词,提高了影评情感分析的性能。
[0071]
表1影评特征选择的正确率结果对比
[0072][0073]
表2影评特征选择的f1值结果对比
[0074][0075]
下面对本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统进行介绍,下文描述的一种基于判别方差准则的影评情感分析预处理系统与上文描述的一种基于判别方差准则的影评情感分析预处理方法可相互对应参照。
[0076]
请参阅图2所示,本发明实施例公开了一种基于判别方差准则的影评情感分析预处理系统,包括:
[0077]
影评预处理模块10,所述影评预处理模块10用于对获取的原始影评数据进行分词、清洗和标准化的预处理,并整理得到影评语料库,其中所述影评语料库包括影评和特征项;
[0078]
影评表示模块11,所述影评表示模块11用于基于所述影评语料库得到影评频次矩阵和词频矩阵;
[0079]
特征项排序模块12,所述特征项排序模块12用于基于影评频次矩阵计算判别方差
准则,利用所述判别方差准则计算所述影评语料库中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;
[0080]
影评情感分析模块13,所述影评情感分析模块13用于将所述特征项重要程度序列输入至分析模型中,输出影评情感分析结果,并对所述影评情感分析结果进行评估。
[0081]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,本发明主要由影评预处理模块10、影评表示模块11、特征项排序模块12以及影评情感分析模块13组成。在影评预处理模块10中,需要对获得的原始影评数据进行分词、清洗和标准化来提取主要文本信息;在影评表示模块11中,结合词袋模型和文本的向量空间模型,利用tf-idf特征项加权方案对文本数据进行表示;在特征项排序模块12中,通过dvc算法对特征项进行重要程度排序;在影评情感分析模块13中,利用经过特征选择后的训练集影评训练分析模型,最后使用测试集影评对情感分析模型进行性能评估。
[0082]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述特征项排序模块12包括:
[0083]
判别方差准则计算子模块,所述判别方差准则计算子模块用于根据如下的计算公式计算判别方差准则:
[0084][0085][0086][0087]
其中,p(ck)是类别ck的先验概率,var(tj)是特征项tj在所有类别上的方差,即总体散度,var(tj,ck)是特征项tj针对类别ck的类方差,即类散度,是第j个特征项的特征均值,是第j个特征项在第i条影评中的影评频次,dk是属于类别ck的影评集合,是第j个特征项在类别ck中的特征均值。
[0088]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述影评情感分析模块13包括模型训练学习子模块,所述模型训练学习子模块用于实现如下步骤:获取原始影评数据,基于所述原始影评数据整理得到训练数据集,对所述训练数据集中的影评数据进行分词、清洗和标准化的预处理,其中所述训练数据集包括影评和特征项;基于所述训练数据集得到影评频次矩阵和词频矩阵;基于影评频次矩阵计算判别方差准则,利用所述判别方差准则计算所述训练数据集中每个特征项的判别相关性得分,按照得分降序排列得到特征项重要程度序列;将所述特征项重要程度序列输入至分类模型中进行训练学习,得到分析模型。
[0089]
在本发明实施例公开的一种基于判别方差准则的影评情感分析预处理系统中,所述影评情感分析模块包括影评情感测试子模块,所述影评情感测试子模块用于利用训练学习好的分析模型进行影评情感测试。
[0090]
本实施例的基于判别方差准则的影评情感分析预处理系统用于实现前述的基于判别方差准则的影评情感分析预处理方法,因此该系统的具体实施方式可见前文中的基于判别方差准则的影评情感分析预处理方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
[0091]
另外,由于本实施例的基于判别方差准则的影评情感分析预处理系统用于实现前述的基于判别方差准则的影评情感分析预处理方法,因此其作用与上述方法的作用相对应,这里不再赘述。
[0092]
相应于上面的方法实施例,本发明实施例还提供了一种计算机设备,包括:
[0093]
存储器,其用于存储计算机程序;
[0094]
处理器,其用于执行计算机程序时实现上述基于判别方差准则的影评情感分析预处理方法的步骤。
[0095]
在本发明实施例中,处理器可以为中央处理器(central processing unit,cpu)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。
[0096]
处理器可以调用存储器中存储的程序,具体的,处理器可以执行基于判别方差准则的影评情感分析预处理方法的实施例中的操作。
[0097]
存储器中用于存放一个或者一个以上程序,程序可以包括程序代码,程序代码包括计算机操作指令。
[0098]
此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
[0099]
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述基于判别方差准则的影评情感分析预处理方法的步骤。
[0100]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0101]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0102]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0103]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0104]
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献