一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于深度学习的课程评论文本情感分析方法及系统

2022-06-01 00:21:20 来源:中国专利 TAG:


1.本公开属于教育数据挖掘与以及自然语言处理技术领域,尤其涉及一种基于深度学习的课程评论文本情感分析方法及系统。


背景技术:

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
3.自然语言处理是计算机科学领域的一个重要方向,它被称为“人工智能皇冠上的明珠”。自然语言处理是一门融合了语言学、计算机科学、数学于一体的学科,它的研究涉及到自然语言(人们日常使用语言)。自然语言处理主要应用于舆情监测、自动摘要、文本分类、机器翻译、语音识别、问题回答、文本分类等方面。
4.随着深度学习的不断发展,自然语言处理这个领域也得到了更广泛的关注,其中的一个分支情感分析是教育智能时代用于挖掘学习情感以及探寻学习规律的一种重要方法。
5.情感分析(sentiment analysis,sa)是从文本中提取用户观点并将其分析为不同情感(如积极、消极、享受、无聊等),以确定用户对某一特定主题或实体的态度。在学习过程中,情感与认知相互影响且紧密关联。
6.发明人发现,目前在线课程情感分析方法主要有基于情感词典、基于传统机器学习和基于深度学习三类方法。基于情感词典是指根据已构建的情感词典,对待分析文本进行文本处理抽取情感词,计算该文本的情感倾向。但是基于情感词典的方法在不同领域存在明显的局限性,其手动维护需要极高的成本。基于机器学习是指选取情感词作为特征词,将文本矩阵化,利用logistic regression,朴素贝叶斯(naive bayes),支持向量机(svm)等方法进行分类。最终分类效果取决于训练文本的选择以及正确的情感标注,但是基于传统机器学习的方法对特征工程依赖较大,特征工程的构建需要消耗大量的人力资源,不适用现如今海量在线课程评论数据的情感分析任务。基于深度学习的情感分析方法对文本进行预处理后分为训练集和测试集,使用cnn或者rnn等方法后通过softmax层进行情感极性的分类,但是现有的深度学习模型方法具有使用参数多、运算复杂以及效率较低的问题。


技术实现要素:

7.本公开为了解决上述问题,提供一种基于深度学习的课程评论文本情感分析方法及系统,所述方案采用情感词典与xlnet预训练模型的融合方法,使用情感词典有效增强评论中的情感特征,提高了情感分析的准确性及分析效率。。
8.根据本公开实施例的第一个方面,提供了一种基于深度学习的课程评论文本情感分析方法,包括:
9.获取待分析的课程评论文本;
10.将所述课程评论文本输入预先训练的课程评论文本情感分析模型中,获得课程评
论文本情感分析结果;
11.其中,所述课程评论文本情感分析模型包括输入层、嵌入层、bi gru层、attention层以及激活层,所述嵌入层采用xlnet模型以及预先构建的课程评论情感词典将输入的文本状态表示为加权词向量矩阵,所述xlnet模型以排列组合的形式对输入的文本进行重构,通过将部分课程评论文本上下文信息中的部分下文内容引入到上文中,实现双向预测的功能。
12.进一步的,所述课程评论文本情感分析模型的训练,具体为:
13.构建训练数据集,基于所述训练集对所述课程评论文本情感分析模型进行训练,获得训练好的模型。
14.进一步的,所述嵌入层将输入的文本状态表示为加权词向量矩阵,具体为:利用xlnet模型中的全排列模型和双流子注意力模型,使用情绪权重对单词向量进行加权,输出加权词向量矩阵。
15.进一步的,所述加权词向量矩阵中采用的情绪权重,其获取方式具体为:
16.对于待分析的课程评论文本进行分词及相应预处理,获得预处理后的文本;
17.基于互信息度与左右熵结合的方式,计算预处理后的文本中的词汇与预先构建的课程评论情感词典中词汇的关联度;
18.基于获取的关联度,选择关联度从大到小排序靠前的预设数量的词语,并基于所述课程评论情感词典中的情绪强度分类,确定预处理文本中的词汇所对应的情绪权重。
19.进一步的,对于获得的预设数量的词语,分别存储到所述课程评论情感词典的对应类别中,实现词典的扩充。
20.进一步的,所述课程评论情感词典,其初始状态包括预先进行情绪强度划分的本体词汇库,所述本体词汇库中分类存储有若干情感词语。
21.进一步的,所述bi gru层用于接收所述加权词向量矩阵,并从中提取其上下文特征。
22.根据本公开实施例的第二个方面,提供了一种基于深度学习的课程评论文本情感分析系统,包括:
23.数据获取单元,其用于获取待分析的课程评论文本;
24.情感分析单元,其用于将所述课程评论文本输入预先训练的课程评论文本情感分析模型中,获得课程评论文本情感分析结果;
25.其中,所述课程评论文本情感分析模型包括输入层、嵌入层、bi gru层、attention层以及激活层,所述嵌入层采用xlnet模型以及预先构建的课程评论情感词典将输入的文本状态表示为加权词向量矩阵,所述xlnet模型以排列组合的形式对输入的文本进行重构,通过将部分课程评论文本上下文信息中的部分下文内容引入到上文中,实现双向预测的功能。
26.根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上所述的一种基于深度学习的课程评论文本情感分析方法。
27.根据本发明实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上所述的一种
基于深度学习的课程评论文本情感分析方法。
28.与现有技术相比,本公开的有益效果是:
29.(1)本公开所述方案提供了一种基于深度学习的课程评论文本情感分析方法及系统,所述方案采用情感词典与xlnet预训练模型的融合方法,使用情感词典有效增强评论中的情感特征,提高了情感分析的准确性及分析效率。
30.(2)所述方案通过将xlnet模型与bigru模型相结合既避免了ae语言模型中mask方法带来的弊端又在一定程度上可以降低爆炸梯度。
31.本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
32.构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
33.图1为本公开实施例一中所述的基于深度学习的课程评论文本情感分析方法所采用的网络模型结构示意图;
34.图2为本公开实施例一中所述的课程评论情感词典构建流程图;
35.图3为本公开实施例一中所述的bigru模型结构示意图;
36.图4为本公开实施例一中所述的attention层结构示意图。
具体实施方式
37.下面结合附图与实施例对本公开做进一步说明。
38.应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
39.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
40.在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
41.实施例一:
42.本实施例的目的是提供一种基于深度学习的课程评论文本情感分析方法。
43.一种基于深度学习的课程评论文本情感分析方法,包括:
44.获取待分析的课程评论文本;
45.将所述课程评论文本输入预先训练的课程评论文本情感分析模型中,获得课程评论文本情感分析结果;
46.其中,所述课程评论文本情感分析模型包括输入层、嵌入层、bi gru层、attention层以及激活层,所述嵌入层采用xlnet模型以及预先构建的课程评论情感词典将输入的文本状态表示为加权词向量矩阵,所述xlnet模型以排列组合的形式对输入的文本进行重构,通过将部分课程评论文本上下文信息中的部分下文内容引入到上文中,实现双向预测的功
能。
47.进一步的,所述课程评论文本情感分析模型的训练,具体为:
48.构建训练数据集,本实验使用的数据集是使用网络爬虫技术从mooc平台获取的课程评论数据。原始数据中的评论分为五个级别,一到五颗星,我们将五个级别分为两类,1-2颗星定义为负面评论,3-5颗星定义为正面评论。,我们通过星级手动筛选这些产品评论,以确保正面数据集中的所有评论都是正面评论,负面数据集中的所有评论都是负面评论。我们将人工处理后的数据集作为训练集。该训练集包括100000条评论,其中50000条是正面评论,50000条是负面评论,如表1所示提供了具体示例。
49.表1评论的正级样例和样例
[0050][0051]
基于所述训练集对所述课程评论文本情感分析模型进行训练,获得训练好的模型。
[0052]
进一步的,所述嵌入层将输入的文本状态表示为加权词向量矩阵,具体为:利用xlnet模型中的全排列模型和双流子注意力模型,使用情绪权重对单词向量进行加权,输出加权词向量矩阵。
[0053]
进一步的,所述加权词向量矩阵中采用的情绪权重,其获取方式具体为:
[0054]
对于待分析的课程评论文本进行分词及相应预处理,获得预处理后的文本;
[0055]
基于互信息度与左右熵结合的方式,计算预处理后的文本中的词汇与预先构建的课程评论情感词典中词汇的关联度;
[0056]
基于获取的关联度,选择关联度从大到小排序靠前的预设数量的词语,并基于所述课程评论情感词典中的情绪强度分类,确定预处理文本中的词汇所对应的情绪权重。
[0057]
进一步的,对于获得的预设数量的词语,分别存储到所述课程评论情感词典的对应类别中,实现词典的扩充。
[0058]
进一步的,所述课程评论情感词典,其初始状态包括预先进行情绪强度划分的本体词汇库,所述本体词汇库中分类存储有若干情感词语。
[0059]
进一步的,所述bigru层用于接收所述加权词向量矩阵,并从中方面提取其上下文特征。
[0060]
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
[0061]
目前的一些在线课程学习平台一般都会提供课程评论功能,学习者在学习了该课程之后可以对该课程进行文字评论,而这些评论正是给其他学习者提供决策帮助的依据。以网易云课堂为例,学习在该平台上学习了一门课程之后可以对其进行评论,其他的未学习者可以查看这些评论,主观地根据评论信息来决定自己是否选择该门课程进行学习。本公开所述方案的目的就在于对这些评论信息进行加工处理,帮助学生对课程的选择与否作出决策;平台在获得课程评论文本的情感倾向性分析后,可以对课程进行适当的调整以提高课程的质量,同时提升了平台的核心竞争力。
[0062]
基于现有方法存在的问题,本公开提供了一种基于深度学习的课程评论文本情感分析方法,所述方法基于本公开提供的xlnet-bigru网络模型,如图1所示,该网络模型分别由输入层、嵌入层(xlnet)、bigru层、attention层和激活层五个部分组成。
[0063]
该模型基本构思如下:
[0064]
对于输入的待分析的课程评论文本,首先,使用情感词典融合xlnet预训练模型动态编码在线课程评论方面和上下文的汉字,然后使用bigru模型自动抽取在线课程评论中方面及上下文的语义特征,通过attention层中的注意力机制交互学习评论文本中方面和上下文的重要汉字,并生成最终表示,采用激活层对在线课程评论中方面对应的情感极性进行分类。其中,所述方面是指每个观点都有一个目标实体,可以是被评价的实体本身,也可以是实体的一部分、一个模块或相关实体。
[0065]
本公开所述方案的课程评论情感词典的构建步骤,如图2所示,首先使用爬虫获取视频平台评论文本,使用jieba(jieba为一种常用的分词工具)进行分词处理,获得预处理文本,然后将人工提取的学生使用流行语与特殊表情符号进行分词处理后加入预处理文本,最后利用互信息度计算与左右熵来发现所需要的有关词汇。具体方法我们可以添加情感种子词(即本体词汇库中的词汇),来计算分好词的语料中各个词语与情感种子词的互信息度与左右熵,再将互信息度与左右熵结合起来,利用点间互信息从词典中筛选出备选的新词,再通过左右熵从备选新词中筛选出最终输出的新词。选择出与情感词关联度最高的topn个词语,将其添加到对应的情感词典;以大连理工大学语料库(dutir本体词汇库)为本体库,该语料库中根据情绪强度分为五类,分别为1、3、5、7、9,以情绪强度作为情绪权重。
[0066]
进一步的,所述嵌入层的主要功能是将文本状态表示为加权词向量矩阵,嵌入层使用的是xlnet模型,xlnet模型的核心思想是以排列组合的形式重构输入文本,把一部分下文的内容放到上文中,充分利用上下文信息实现双向预测的功能。xlnet模型利用了全排列模型和双流自注意力模型,使用情绪权重对单词向量进行加权,使用加权词向量矩阵作为嵌入层的输出,所述加权词向量矩阵具体表示如下:
[0067]v′i=vi*senti(wi)
[0068]
其中,v
′i为加权后的单词向量,vi为单词向量,wi为情感权重。
[0069]
进一步的,所述bi gru层的主要功能是自动抽取在线课程评论中方面提取输入矩阵的上下文特征。通过使用bi gru模型更加充分地学习上下文之间的关系,进行语义编码,对词向量的依赖性小,复杂度低,响应时间快。gru模型是递归神经网络模型的一种变体,通常用于处理序列信息。它可以结合前一时刻的历史信息来影响当前输出,并提取序列数据中的上下文特征。在文本数据中,前一个单词和后一个单词都会影响当前单词,因此,我们使用bi gru模型来提取输入文本的上下文特征。如图3所示,图中为t时刻bi gru的输出结果,和分别为t时刻gru的正向输出和反向输出。由t时刻的输人x
t
和t-1时刻的正向输出计算得到,由t时刻的输入x
t
和t-1时刻的反向输出方计算得到,h
t
由和计算得到。
[0070]
进一步的,attention层每个词对整个句子的情感极性有不同的影响。有些词对整个句子的情绪有决定性的影响,而另一些词则不影响句子情绪。因此,我们使用注意机制为
句子中不同的两个单词赋予不同的权重;所述attention层会将上一层位置权重模块的输出进行加权处理,计算公式如下:
[0071][0072]
其中,q、k、v分别是查询向量、键向量和值向量,dk是q、k、v的维度,t是转置。
[0073]
进一步的,softmax层该层的主要功能是对输入特征矩阵进行分类,输出层将上一部分循环注意力模块得到的最终结果en经过一个softmax层的处理,得到最终情感极性的判定。
[0074]
实施例二:
[0075]
本实施例的目的是提供一种基于深度学习的课程评论文本情感分析系统。
[0076]
一种基于深度学习的课程评论文本情感分析系统,包括:
[0077]
数据获取单元,其用于获取待分析的课程评论文本;
[0078]
情感分析单元,其用于将所述课程评论文本输入预先训练的课程评论文本情感分析模型中,获得课程评论文本情感分析结果;
[0079]
其中,所述课程评论文本情感分析模型包括输入层、嵌入层、bi gru层、attention层以及激活层,所述嵌入层采用xlnet模型以及预先构建的课程评论情感词典将输入的文本状态表示为加权词向量矩阵,所述xlnet模型以排列组合的形式对输入的文本进行重构,通过将部分课程评论文本上下文信息中的部分下文内容引入到上文中,实现双向预测的功能。
[0080]
在更多实施例中,还提供:
[0081]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
[0082]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0083]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0084]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
[0085]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0086]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是
软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0087]
上述实施例提供的一种基于深度学习的课程评论文本情感分析方法及系统可以实现,具有广阔的应用前景。
[0088]
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献