一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于用户知识的个性化隐式情感分析方法与系统与流程

2022-04-06 21:16:54 来源:中国专利 TAG:


1.本发明涉及计算机文本数据挖掘与隐式情感分析技术领域,特别涉及一种基于用户知识的个性化隐式情感分析方法和系统。


背景技术:

2.文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析技术已不仅仅局限于单一领域的研究,其与社会学、传播学、语言学、管理学的结合越来越紧密。例如,在社会媒体计算领域,中文本情感分析可以实时观察大规模人群对某个事件的情感倾向和情感演变,为相关研究课题提供实证基础,发挥更重要的量化分析作用。在政府决策方面,情感分析技术可作为政府了解社情民意的重要手段,极大提升了覆盖面、真实性和时效性。为改进政府工作方式,及早预防或平息公众不满情绪等提供有力的决策依据。在商业活动方面,文本情感分析技术一方面可使消费者更便捷地了解他人对商家以及商品的态度,使其获得更加丰富和客观的信息。另一方面,商家可以更深入的了解广大消费者对其产品或服务的反馈意见,进而改进产品,提高服务质量。
3.由于语言的多样性和复杂性,依照研究对象文本是否显式地含有情感词汇可将情感分析技术划分为显式和隐式两部分。显式情感文本因其含有明确的情感词提供情感倾向信息较为简单,已有大量的相关研究成果。而对于在主观性文本中占比达三分之一的隐式情感,对其进行准确地分析目前仍属于情感分析领域的核心难题之一,面临以下挑战:(1)隐式情感表达缺乏明确的情感词,语言表达含蓄隐晦,且一般通过事实陈述或比较、隐喻、反讽等修辞进行表达,因此使得现有方法对其语义理解较为困难。例如,“我家走到地铁口需要5分钟左右”,该句通过陈述事实表达了说话人居住条件的便利,但需要对句子进行深层次的语义分析才能准确理解。(2)隐式情感往往与情感持有者的个人主观认知具有密切关系,不同的情感持有者因其自身认知或背景的差异,会对同样的表达产生不同的情感倾向,因而对模型的个性化分析提出了更高的要求。例如,“太行山南麓属于晋豫共有,但山西游客一般也会选择去河南部分游玩”,该句的情感通常与说话人的身份相关,当说话人分别为山西、河南或其他籍贯的游客时,其表达的情感倾向可能存在差异。
4.针对上述中的相关技术,本发明提供一种基于用户知识的个性化隐式情感分析方法与系统,针对文本中的隐式情感进行深入的研究,探索外部知识尤其是用户知识对隐式情感表达的影响,将极大提升模型对文本隐式情感进行个性化分析的能力和效果。


技术实现要素:

5.本发明提供一种基于用户知识的个性化隐式情感分析方法与系统,实现对隐式情感的个性化建模分析,以及提高对隐式情感句的情感倾向判别任务上的精确率,以解决上述背景技术中提出的问题。
6.本发明提供一种基于用户知识的个性化隐式情感分析方法与系统,采用如下的技术方案:包括以下步骤:
7.s1:使用开放领域文本及交互数据,构建用户外部信息和用户内部信息库;
8.其中,所述的用户外部信息包括用户的社会化关注关系,通过矩阵a进行表示;所述的用户内部信息库包括用户id、用户发布内容集合c以及用户基本信息集合i;待分析隐式情感句标记为s;
9.s2:将用户基本信息集合i输入bert预训练模型获取其向量表示,将向量拼接获取用户基本信息i的特征表示ei;
10.s3:使用开放情感常识知识库,利用句子-词汇的匹配关系构建知识图谱g;
11.s4:根据基于知识嵌入的多极性注意力模型结合步骤s3中所述的知识图谱g,获取步骤s1中所述的用户发布内容集合c的特征表示为ec,以及待分析隐式情感句子序列特征表示为hs;
12.s5:根据ud-gcn模型,以步骤s1中获取的矩阵a为输入获取用户社会化关系特征表示为eu;
13.s6:根据堆栈注意力模型,将步骤s2、s4、s5中获取的用户基本信息集合i的特征ei、用户发布内容集合c的特征ec、用户社会化关系特征eu与隐式情感句子序列特征hs进行融合学习,获取用户知识嵌入的隐式情感句子语义表示h;
14.s7:根据正交注意力机制模型,对步骤s6中获取的用户知识嵌入的隐式情感句子语义表示h进行优化训练,通过全连接层预测该句子的隐式情感标签
15.可选的,步骤s1中构建的用户社会化关注关系矩阵n为输入数据集包含的用户个数,a
ij
∈{0,1,2,3}表示用户i与用户j之间的社会化关注关系,包括i关注j、j关注i、ij互相关注以及无关系四种类型,用户的基本信息集合i包括用户性别、地域以及个人签名信息。
16.可选的,步骤s3中所述开放情感常识知识库的知识以三元组形式呈现,形式为t=《h,r,t》,其中,h为头实体,r为实体间的关系,t为尾实体。开放情感词典库记为d,需要进行知识匹配的句子记为s,步骤s3中所述句子-词汇匹配关系定义包括如下四种:
17.(1)情感常识三元组筛选:主要用于获取带情感信息的三元组,使用三元组与情感词匹配,确保三元组中的h或t包含情感词,即h∈d或t∈d,且h和t不会同时包含词典d中的词;
18.(2)文本相关三元组筛选:主要用于获取与文本相关的三元组,使用隐式情感数据与筛选后的数据匹配,仅当三元组中的h或t存在于句子s中时,即h∈s或t∈s,且h和t不会同时存在于s中,保留此三元组;
19.(3)关系类型筛选:主要用于获取合适关系类型的三元组,通过人工对一定关系下的三元组的合理性进行判别,即判别h、t和r之间是否出现逻辑问题,选取前十种匹配得到的最多三元组的关系类型,作为要引入的三元组;
20.(4)语义相关三元组筛选:主要用于获取与隐式情感句语义相关的三元组,把三元组转化为一个句子表达以计算其与句子的语义相似度,使用bert模型学习自然语言形式的三元组表达和隐式情感句的表示,并进行余弦相似度计算,对筛选出的三元组计算余弦值并降序排列,选取相似度值前七的三元组引入文本中。
21.所述余弦相似度计算公式为:
[0022][0023]
其中,e1和e2表示三元组转化的句子与隐式情感句子分别输入bert模型学习得到的向量。
[0024]
可选的,所述步骤s4具体步骤为:
[0025]
s4.1:对于用户ui发布内容集合c中的句子,将其合并成一个长文本si;
[0026]
s4.2:根据步骤s3中获取的知识图谱g,合并获取si的知识图谱gi,使用transe模型学习获取图谱gi中的各知识实体h/t及关系r的特征表示向量eh/e
t
、er,使其满足关系:e
h-e
t
≈er;
[0027]
s4.3:通过图注意力层对图谱gi进行编码,将gi中各知识三元组的实体向量表示拼接,并分别动态计算它们的权重,
[0028][0029][0030]
β
ik
=(wrr
ik
)σ(whh
ik
w
t
t
ik
)
[0031]
其中,gi为长文本si的知识图谱的向量表示,假设图谱gi共包括l条知识三元组,分别表示图谱gi中的第k组知识三元组g
ik
=《h,r,t》的向量表示,表示向量拼接操作,α
ik
是三元组g
ik
的归一化权重,exp(x)=e
x
为以自然常数e为底的指数函数,β
ik
为三元组g
ik
的权重得分,wh,w
t
和分别是h
ik
,t
ik
和r
ik
的参数矩阵,σ(
·
)是非线性激活函数tanh(x),
t
表示向量转置。
[0032]
将词xi的表示wi与知识图谱的表示gi拼接将e
t
作为bilstm的输入单元,进行序列建模学习;
[0033][0034][0035][0036][0037][0038]ht
=o
t

tanh(c
t
)
[0039]
其中,wi,wf和wo分别为输入门i
t
、遗忘门f
t
、输出门ο
t
中激活层的参数矩阵;表示临时信息的向量表示,c
t
是控制内部信息传递的变量;h
t
、h
t-1
分别为t时刻与t-1时刻隐层的输出,bf,bi,bo和bc为偏置向量;σ(
·
)是非线性激活函数sigmoid(x),tanh()为双曲正切函数,表示向量拼接操作,

表示向量点积操作;
[0040]
s4.4:在隐式情感分析中,使用多极性注意模型来捕捉不同极性下注意力权重的差异特征,引入注意力查询向量集合q={q
pos
,q
neg
,q
neu
},q
pos
,q
neg
,q
neu
分别对应褒义、贬义
和中性的查询向量,q来自步骤s3中词典d中某一情感极性下的情感词向量的平均,vq是句子在褒义、贬义或者中性情感极性q下的表示;
[0041][0042][0043][0044]
其中,是在情感极性q下由隐层表示hi计算出的词i的归一化权重,n为句子中词的个数,是hi在情感极性q下的注意力得分,exp(x)=e
x
为以自然常数e为底的指数函数,wq为参数矩阵,q来自情感词典中某一情感极性下的情感词向量的平均,
[0045][0046]
其中,n为情感词个数,是情感极性为q的情感词的表示,
[0047]
s4.5:将三种极性下的用户发布内容表示和进行拼接,得到内容集合c的新表示为
[0048]
s4.6:同理使用步骤s4.1-s4.5获取隐式情感句子序列特征表示为hs。
[0049]
可选的,步骤s5中所述用户社会化关系特征表示为eu的获取公式为:
[0050][0051]
其中,nu是用户的个数,是除自身外的用户表示向量,是对应元素乘,k为迭代轮次,v
t
是用户间的关注类型,根据关注关系的不同分别设置用户关注关系图中边的权重为四个参数向量v1、v2、v3和v4,分别对应用户间的关注、被关注,互相关注以及无关注四种关系状态。
[0052]
可选的,所述步骤s6具体步骤为:
[0053]
s6.1:分别获取用户基本信息集合i的特征ei、用户发布内容集合c的特征ec、用户社会化关系特征eu与隐式情感句子序列特征hs的融合表示ci、cc和cu,融合表示获取公式为:
[0054]
[ci,cc,cu]=stacked-attention([ei,ec,eu],hs,hs)
[0055]
其中,hs为隐式情感句子序列特征,stacked-attention()为堆栈注意力模型函数,
[0056]
s6.2:利用门控机制得到权重向量zi、zc和zu用于度量用户基本信息集合i的特征ei、用户发布内容集合c的特征ec、用户社会化关系特征eu对输出结果的贡献,其公式为:
[0057]
zi=σ(w
ici
w
smhs
bi)
[0058]
zc=σ(wccc w
cmhs
bc)
[0059]zu
=σ(w
ucu
w
umhs
bu)
[0060]
其中,ci、cc和cu为s6.1获得的三种融合表示,hs为隐式情感句子序列特征,wi,w
sm
,wc,w
cm
,wu,w
um
分别为各权重向量zi、zc和zu计算过程中的权重矩阵,bi,bc,bu分别为偏置向
量,σ(
·
)是非线性激活函数sigmoid(x);
[0061]
s6.3:将门控权重与用户知识、文本信息加权综合得到最终的用户个性化知识嵌入的隐式情感句表示向量h,其公式为:
[0062]
h=zi⊙ci
zc⊙cc
zu⊙cu

[0063]
其中,ci、cc、cu以及zi、zc、zu分别为s6.1和s6.2获得的三种融合表示和各自的权重,

表示向量点积操作;
[0064]
可选的,所述s7训练阶段采用交叉熵损失函数计算预测隐式情感标签和真实标签y之间的损失并进行优化,在模型优化过程中,引入正交注意机制模型来保持注意力之间的差异,具体为:
[0065]
l=γl
classification
(1-γ)l
orthogonality
[0066][0067][0068]
其中,l为总体损失函数,l
classification
、l
orthogonality
分别为分类损失函数和正交损失函数,x为目标句,y为句子的真实标签,为模型预测的隐式情感句标签,d为训练语料库。qi,qj∈q为步骤s4中特定情感极性的查询向量,参数γ用于调整两部分损失间的权重。
[0069]
一种基于用户知识的个性化隐式情感分析系统,包括:
[0070]
数据预处理模块,所述数据预处理模块用于从原始数据中提取处理需要的基本输入数据,筛选出文本中的待分析隐式情感句,并对所有句子进行分词,以及使用开放领域文本数据,预先训练所有词的词向量表示;
[0071]
知识库预处理模块,所述知识库预处理模块用于对开放情感常识知识库进行筛选与过滤,并对所述情感常识三元组中的实体和关系根据transe模型学习其向量表示;
[0072]
用户基本信息特征提取模块,所述用户基本信息特征提取模块用于根据bert预训练模型提取用户基本信息表示,拼接得到用户基本信息特征表示ei;
[0073]
用户发布内容特征提取模块,所述用户发布内容特征提取模块用于通过建立基于知识嵌入的多极性注意力模型对用户发布内容进行建模学习,在此过程中通过知识库预处理模块将情感常识知识信息融入用户发布内容的特征表示中,获取用户发布内容特征表示ec以及待分析隐式情感句子序列特征hs;
[0074]
用户社会化关系特征提取模块,所述用户社会化关系特征提取模块用于根据用户的社会化关注关系矩阵a,根据所提出的ud-gcn模型学习得到用户社会化关系特征表示eu;
[0075]
用户知识融合模块,所述用户知识融合模块用于通过建立的堆栈注意力模型,获取具有用户个性化知识嵌入的隐式情感特征句子语义表示h,并将获取的特征表示经过全连接层进行分类,通过正交注意力机制模型对输入数据进行优化训练,并输出预测的隐式情感句标签
[0076]
根据本发明实施例提出的基于用户知识的个性化隐式情感分析系统,可通过融合用户基本信息特征表示ei、用户发布内容特征表示ec、用户社会化关系特征表示eu以及隐式情感句本身序列特征表示hs得到具有用户个性化知识嵌入的隐式情感句特征表示,其提出
的方法在隐式情感句分析任务上最高取得了80.5%分类marco-f1值,并且提出的方法在用户个性化建模方面均有良好的可解释性。
[0077]
综上所述,本发明包括以下至少一种有益效果:
[0078]
(1)多种用户信息的嵌入表示可以使得模型具有针对不同用户个性化、差异化分析的能力,可以有效解决隐式情感分析中的用户主观依赖性问题;
[0079]
(2)在用户发布内容特征和隐式情感句序列特征提取阶段,通过引入开放情感常识知识库,使得模型具备了对隐式情感句字面意义以外的语义进行建模表示的能力,实现对隐式情感句的深层语义理解;
[0080]
(3)通过融合用户个性化信息,可以通过结合用户的建模特征对隐式情感的分析预测结果进行分析,使得本发明的方法具有更强的可解释性。
附图说明
[0081]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0082]
图1是本发明实施例基于用户知识的个性化隐式情感分析方法流程图;
[0083]
图2是本发明实施例基于用户知识的个性化隐式情感分析方法中用户发布内容情感常识知识扩展示意图;
[0084]
图3是本发明在隐式情感识别任务上与经典算法结果对比图;
[0085]
图4是根据本发明实施例的基于用户知识的个性化隐式情感分析系统结构图;
[0086]
图5是本发明实施例基于用户知识的个性化隐式情感分析方法中用户发布内容特征提取模块结构图;
[0087]
图6是本发明实施例基于用户知识的个性化隐式情感分析方法中的用户知识融合模块框架图。
具体实施方式
[0088]
以下结合附图1-6对本发明作进一步详细说明。
[0089]
参照图1,本发明公开一种基于用户知识的个性化隐式情感分析方法,包括以下步骤:
[0090]
s1:使用开放领域文本及交互数据,构建用户外部信息和用户内部信息库;
[0091]
其中,所述的用户外部信息包括用户的社会化关注关系,通过矩阵a进行表示;所述的用户内部信息库包括用户id、用户发布内容集合c以及用户基本信息集合i;待分析隐式情感句标记为s;
[0092]
以如下数据(为微博一个用户真实发布数据)为例:
[0093]
用户id:xxxxxxxx(已做脱敏处理)
[0094]
用户性别:女
[0095]
用户地域:山西
[0096]
个人签名:旅游爱好者。
[0097]
发布内容示例:
[0098]
表1用户发布内容示例
[0099][0100]
其中,带有*标记的为待识别的隐式情感句子。
[0101]
关注关系矩阵a形如:
[0102][0103]aij
∈{0,1,2,3}表示用户ui与用户uj之间的社会化关注关系,0-3分别对应ui关注uj、uj关注ui、uiuj互相关注以及无关系四种类型。用户发布内容集合c形式化表示为:c={“1”:“刀削面,平遥牛肉,炒灌肠。一时半会回不去太原,吃个家乡菜还是可以的。被一圈食物围着的感觉真幸福。”,“2”:“太行山南麓属于晋豫共有,但山西游客一般也会选择去河南部分游玩。要加油呀!”,“3”:“明天早上起来我要直奔柳巷喝头脑!”}
[0104]
用户基本信息集合i形式化表示为:i=[“女”,“山西”,“旅游爱好者”]
[0105]
s2:根据bert预训练模型获取步骤s1中获取的用户基本信息集合i=[“女”,“山西”,“旅游爱好者”]中各元素的特征表示,将各元素输入bert预训练模型即可获得其特征表示向量e(女)、e(山西)、e(旅游爱好者)。各元素的特征表示向量维度设为64维,将其拼接起来获取用户基本信息集合i的特征表示起来获取用户基本信息集合i的特征表示起来获取用户基本信息集合i的特征表示表示向量拼接操作,
[0106]
s3:使用开放情感常识知识库,利用句子-词汇的匹配关系构建知识图谱g。所述开放情感常识知识库的知识以三元组形式呈现,如图2所示,包含大约700万条知识三元组,记
为kb,形为t=《h,r,t》,其中,h为头实体,r为实体间的关系,t为尾实体,例如《太原,atlocation,山西》,表示一条知识“太原”位于(atlocation)“山西”。开放情感词典库记为d,需要进行知识匹配的句子记为s,以s2中表2里的句子2-1“太行山南麓属于晋豫共有,但山西游客一般也会选择去河南部分游玩。”为例,所述句子-词汇匹配关系定义为如下四种:
[0107]
(1)情感常识三元组筛选。该操作主要用于获取带情感信息的三元组。将句子2-1分词后,对其中的每一个词语wi与kb中的所有三元组进行匹配,若满足:

wi=h,且t属于情感词典d中的词汇t∈d,且

wi=t,且h属于情感词典d中的词汇h∈d,且则筛选出该三元组。例如,wi=太行山,可匹配出情感常识三元组《太行山,hasproperty,雄伟》、《太行山,hasproperty,壮观》,hasproperty为关系类型,详见表2。
[0108]
(2)文本相关三元组筛选。该操作主要用于获取与文本相关的三元组。与s31类似,对句子2-1中的每一个词语wi与kb中的所有三元组进行匹配,仅当三元组中的h或t存在于句子s中时匹配该三元组。例如wi=太行山,可匹配出《太行山,isa,山川》、《太行山,atlocation,山西》、《太行山,atlocation,河南》、《太行山,relatedto,吕梁山》等。
[0109]
(3)关系类型筛选。该操作主要用于获取合适关系类型的三元组。通过人工对某些关系下的三元组的合理性进行判别,即判别h、t和r之间是否出现逻辑问题。从开放情感常识知识库中删除了关系为“relatedto”、“hascontext”、“isa”和“mannerof”等包含质量不高的三元组的关系类型。本发明选取前十种匹配得到的最多三元组的关系类型,作为要引入的三元组,这些关系类型既是对隐式情感句重要的关系类型,又包含了通用常识知识库中的大多数三元组。例如,根据前述s31-s32匹配出的知识三元组,丢弃《太行山,isa,山川》、《太行山,relatedto,吕梁山》两条三元组。
[0110]
(4)语义相关三元组筛选。该操作主要用于获取与隐式情感句语义相关的三元组。本发明将三元组筛选视为一个事实补全任务,把三元组转化为一个句子表达以计算其与句子的语义相似度。例如,三元组《太行山,hasproperty,壮观》可转化为一个句子“太行山具有壮观的特点”。将该转化生成的句子与句子2-1分别输入bert模型学习得到其向量表示e1和e2,利用余弦距离计算二者的相似度公式为:
[0111][0112]
对每个句子中所有筛选出的三元组计算余弦值并降序排列,取相似度值前七的三元组构建知识图谱g。
[0113]
经过以上四种匹配筛选,本发明从开放情感常识知识库中自动获取的知识三元组涉及的关系类型、描述说明及示例如下表2所示。
[0114]
表2适用于隐式情感分析的知识类型及其说明示例
[0115]
[0116][0117]
[0118]
s4,根据基于知识嵌入的多极性注意力模型结合步骤s3中的知识图谱g,获取步骤s1中用户发布内容集合c的特征表示ec;
[0119]
s4.1:对于用户ui发布内容集合c中的句子,将其合并成一个长文本si,即si=“刀削面,平遥牛肉,炒灌肠。一时半会回不去太原,吃个家乡菜还是可以的。被一圈食物围着的感觉真幸福。太行山南麓属于晋豫共有,但山西游客一般也会选择去河南部分游玩。要加油呀!明天早上起来我要直奔柳巷喝头脑!”[0120]
s4.2:根据步骤s3中每个句子(1-1—3-1)获取的知识图谱g,进合并获取si的知识图谱gi,使用transe模型学习获取图谱gi中的各知识实体h/t及关系r的特征表示向量eh/e
t
、er,使其尽可能满足关系:e
h-e
t
≈er,例如:e
太行山-e
雄伟
≈e
hasproperty

[0121]
s4.3:通过图注意力层对图谱gi进行编码,将gi中各知识三元组的实体向量表示拼接,并分别动态计算它们的权重。假设图谱gi共包括l条知识三元组,第k条三元组g
ik
=《太行山,hasproperty,雄伟》,权重计算公式为:
[0122][0123][0124]
其中,wh,w
t
和是参数矩阵。α
ik
是三元组g
ik
与图谱gi中所有的三元组的权重得分β进行归一化后的权重,exp()为自然常数e为底的指数函数。
[0125][0126]
将句子中每个单词x
t
的表示w
t
与知识子图表示gi拼接例如针对s41中获取的长文本si,将其中的每个词汇的表示与gi拼接,如x
t
=“南麓”,进行序列建模学习。将e
t
作为bilstm的输入单元。
[0127][0128][0129][0130][0131][0132]ht
=o
t

tanh(c
t
)
[0133]
其中,wi,wf和wo分别为输入门i
t
、遗忘门f
t
、输出门ο
t
中激活层的参数矩阵;表示临时信息的向量表示,c
t
是控制内部信息传递的变量;bf,bi,bo和bc为偏置;σ(
·
)是非线性激活函数sigmoid(x),tanh()为双曲正切函数,表示向量拼接操作,

表示点积操作。h
t
为第t个词汇经过bilstm层的输出表示。
[0134]
s4.4:在隐式情感分析中,使用多极性注意机制来捕捉不同极性下注意力权重的差异特征。引入注意力查询向量集合q={q
pos
,q
neg
,q
neu
},q
pos
,q
neg
,q
neu
分别对应褒义、贬义和中性的查询向量。q来自s3中情感词典d中某一情感极性下的情感词向量的平均。vq是句
子在某一情感极性q下的表示。例如,在褒义的情感极性查询向量q
pos
下:
[0135][0136][0137][0138]
其中,为参数矩阵,是hi的注意力得分,αi是由hi计算出的词的归一化权重,n为句子中单词的个数。同理,在贬义和中性情感极性下,可获得句子的不同表示
[0139]
s4.5:将三种极性下带权的用户发布内容表示和进行拼接,得到内容集合c的新表示为
[0140]
s4.6:在本例中,句子2-1为待分析隐式情感句,同样使用步骤s41-s45获取隐式情感句子2-1本身序列信息特征表示hs。
[0141]
s5:根据ud-gcn模型,以步骤s1中获取的矩阵a为输入获取用户社会化关系特征表示eu;
[0142][0143]
例如,根据矩阵a,每个用户随机初始化表示为一个64维向量eu,第k轮迭代过程中用户的表示由其他所有用户的表示共同确定,公式为:
[0144][0145]
其中,nu是用户的个数,是除自身外的用户表示向量,是对应元素乘,k为迭代轮次,v
t
是用户间的关注类型,根据关注关系的不同分别设置用户关注关系图中边的权重为四个参数向量v1、v2、v3和v4,分别对应用户间的关注、被关注,互相关注以及无关注四种关系状态。例如,假设有8位用户,其中u1与u2、u3互关,u1关注u4,u1被u5、u6关注,u1与u7、u8无关,则第k轮迭代中,u1的用户表示为:
[0146][0147]
s6,根据堆栈注意力模型,将步骤s2、s4、s5中获取的用户基本信息特征ei、用户内容特征ec、用户社会化关系特征eu与隐式情感句本身序列特征hs进行融合学习,获取用户知识嵌入的隐式情感句子语义表示h。
[0148]
s6.1:分别获取用户基本信息集合i的特征ei、用户发布内容集合c的特征ec、用户社会化关系特征eu与隐式情感句子序列特征hs的融合表示ci、cc和cu,融合表示获取公式为:
[0149]
[ci,cc,cu]=stacked-attention([ei,ec,eu],hs,hs)
[0150]
其中,hs为隐式情感句子序列特征,stacked-attention()为堆栈注意力模型函数,
[0151]
s6.2:利用门控机制得到权重向量zi、zc和zu用于度量用户基本信息集合i的特征ei、用户发布内容集合c的特征ec、用户社会化关系特征eu对输出结果的贡献,其公式为:
[0152]
zi=σ(w
ici
w
smhs
bi)
[0153]
zc=σ(wccc w
cmhs
bc)
[0154]zu
=σ(w
ucu
w
umhs
bu)
[0155]
s6.3:将门控权重与用户知识、文本信息加权综合得到最终的用户个性化知识嵌入的隐式情感句表示向量h,其公式为:
[0156]
h=zi⊙ci
zc⊙cc
zu⊙cu

[0157]
s7:根据正交注意力机制模型,对步骤s6中获取的用户知识嵌入的隐式情感句子语义表示h进行优化训练,通过全连接层预测该句子的隐式情感标签
[0158][0159]
其中,w
out
和b
out
分别为权重矩阵和偏置,采用softmax函数进行归一化。训练阶段采用交叉熵损失函数计算预测和真实标签y之间的损失并进行优化,训练过程中,模型会依据h的表示给出其类别标签,若模型给出的标签与真实标签一致,则系统判定正确,没有损失,损失函数返回值为0,否则视为错误,损失函数返回值较大。在模型优化过程中,引入了正交注意机制来保持注意力之间的差异。
[0160]
l=γl
classification
(1-γ)l
orthogonality
[0161][0162][0163]
其中,l为总体损失函数,l
classification
、l
orthogonality
分别为分类损失函数和正交损失函数,x为目标句,y为句子的真实标签,d为训练语料库。qi,qj∈q为步骤s4中特定情感极性的查询向量,参数γ用于调整两部分损失间的权重。
[0164]
可以理解的是,模型根据所有数据上损失函数返回值的大小自动调整模型参数和数据表示,进行下一轮迭代,使得次轮迭代损失值减小,重复模型迭代优化过程,直到损失值趋于稳定或达到最大迭代次数。
[0165]
其中,优化过程中,数据集按照9:1的比例随机划分为训练集和测试集。
[0166]
需要说明的是,在模型学习过程中的一些参数设定和细节。
[0167]
(1)模型输入的数据切片(mini-batch)大小为100,最大迭代次数为300次。
[0168]
(2)所有模型使用l2正则化,全连接层节点随机丢弃率(drop-out)设定为50%,优化过程使用梯度下降算法进行优化。
[0169]
(3)用户基本信息特征ei、用户内容特征ec、用户社会化关系特征eu与隐式情感句
本身序列特征hs的表示向量维度设置为64。
[0170]
(4)参数γ值设定为0.5。
[0171]
图3为本发明在个性化隐式情感分析任务上的效果。实验数据来源为微博。实验结果显示,对于个性化隐式情感分析任务,本发明的识别效果普遍高于对比基线方法。结果表明:a)在隐式情感句的表示中,用户信息是一个非常重要的特征;b)用户社会化关系信息可以为隐式情感识别的个性化建模提供帮助;c)用户的内容信息对于准确分析用户画像具有重要的意义。
[0172]
由此,该方法能够有效识别不含有显式情感词但表达了主观情感倾向的事实型隐式情感句并进行情感倾向性分类,具备了对隐式情感句字面意义以外的语义进行深层语义理解的能力,同时对于不同用户相似的隐式情感表达具有个性化分析的能力。本发明的创新点在于面向隐式情感分析,提出了一套用户知识嵌入的个性化的识别和分析方法。该方法有针对性地构造了用户基本信息特征、用户内容特征、用户社会化关系特征三种特征,以实现对不同用户的隐式情感进行个性化表示建模和深度语义理解。通过在微博数据集上的实验表明,本发明在隐式情感分析任务上取得80.5%的识别marco-f1值。相比较其他对比模型,提出的方法有良好的提升效果和可解释性。
[0173]
图4是根据本发明实施例提出的基于用户知识的个性化隐式情感分析系统,如图4所示,包括:数据预处理模块1,数据预处理模块用于从原始数据中提取处理需要的基本输入数据,筛选出文本中的待分析隐式情感句,并对所有句子进行分词,以及使用开放领域文本数据,预先训练所有词的词向量表示;知识库筛选处理模块2,所述知识库预处理模块用于对开放情感常识知识库进行筛选与过滤,并对所述情感常识三元组中的实体和关系根据transe模型学习其向量表示;用户基本信息特征提取模块3,所述用户基本信息特征提取模块用于根据bert预训练模型提取用户基本信息表示,拼接得到用户基本信息特征表示ei;用户发布内容特征提取模块4,如图5所示,所述用户发布内容特征提取模块用于通过建立基于知识嵌入的多极性注意力模型对用户的发布内容进行建模学习,在此过程中通过知识库预处理模块将情感常识知识信息融入发布内容的特征表示中,获取用户发布内容特征表示ec以及待分析隐式情感句子序列特征hs;用户社会化关系特征提取模块5,所述用户社会化关系特征提取模块用于根据用户的社会化关注关系矩阵a,根据所提出的ud-gcn模型学习得到用户社会化关系特征表示eu;用户知识融合模块6,如图6所示,所述融合模块用于通过建立的堆栈注意力网络,获取具有用户个性化知识嵌入的隐式情感特征表示h,并将获取的特征表示经过全连接层进行分类,输出模型对输入数据的预测标签并进行优化。
[0174]
综上,根据本发明实施例提出的基于用户知识的个性化隐式情感分析系统,可通过融合融合用户基本信息特征、用户内容特征、用户社会化关系特征以及隐式情感句自身的序列特征得到用户知识嵌入的隐式情感句的特征表示,其提出的方法在隐式情感分析任务上最高取得了80.5%识别marco-f1值,并且提出的方法在对隐式情感的个性化建模、深层语义理解以及预测结果的可解释性方面具有良好的效果。
[0175]
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献