一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于情感语义对抗的跨语言情感分类方法与流程

2022-02-20 04:38:49 来源:中国专利 TAG:


1.本发明涉及情感语义对抗的跨语言情感分类方法,属于自然语言处理技术领域。


背景技术:

2.随着互联网的迅猛发展,人们对一些国际事件的关注度也日益增加,经常在微博推特等社交媒体平台上对涉案事件发表观点。由于越南语属于小语种,缺乏大规模标记数据,汉越两种语言存在语义鸿沟,人工标注费时费力。
3.要完成越南语的情感倾向性分析,首先要解决汉语和越南语不在同一语义空间的问题。zhou等解决跨语言情感分析的方式是通过机器翻译将源语言翻译为目标语言。跨语言表示学习是指不同语言的词向量表示可以共享一个向量空间,不同语言中情感语义相近的词在该空间中的距离相近。mikolov等提出将双语单词进行对齐,并训练得到了源语言词向量空间到目标语言词向量空间的线性映射。faruqui等提出将源语言和目标语言的词嵌入映射到同一个向量空间。sarath等提出通过自编码器对源语言进行编码,同时源语言和目标语言进行解码来得到双语的词向量。meng等利用平行语料库提升词典覆盖率,采用最大似然值对词语进行标注,进而提升情感分类的准确率。粟雨晴通过构建双语词典,进行微博多情感分析。但这两种方法需要构建多语言平行语料库,分类准确率依赖于预料的质量和规模大小。wang等利用因子图模型的属性函数从每个帖子中学习单语和双语信息,利用因子函数来探索不同情绪之间的关系,并采用置信传播算法来学习和预测模型。虽然社交媒体上的跨语言情感分析已经得到了广泛的关注并取得了一系列进步,但仍有很大的挑战有待进一步研究解决。其中,如何能将情感语义信息利用起来帮助提高低资源语言的情感分类准确性是关键问题。


技术实现要素:

4.本发明提供了基于情感语义对抗的跨语言情感分类方法,以用于对低资源语言进行情感分析,解决了双语情感语义对齐,所提出发明方法可以有效提升越南语情感倾向性分析的准确率。
5.本发明的技术方案是:基于情感语义对抗的跨语言情感分类方法,所述方法的具体步骤如下:
6.step1、通过爬虫技术爬取2020年美国疫情期间相关汉语和越南语的微博及推特评论,通过人工对数据集进行标注得到汉语疫情评论数据集以及没有标注的越南语疫情评论数据集。
7.step2、将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐;最后将句子与情感词最显著的表征进行拼接,得到情感倾向性分析结果。
8.作为本发明的优选方案,所述步骤step1的具体步骤为:
9.step1.1、采用基于scrapy框架的爬虫从新浪微博和推特上爬取与美国疫情相关微博正文及评论;
10.step1.2、对微博及推特正文及评论进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除微博中相同的用户评论信息;
11.step1.3、采用人工标注,获得疫情微博推特数据集:以一条微博评论为单位进行标注工作,将微博评论句中带有正向积极的情感,标注为1,带有程度副词修饰的加强正向积极情感的评论,标注为2,带有消极负向的情感,标注为-1,带有程度副词修饰的加强消极负向情感的评论,标注为-2,保持中立无情感倾向性的评论,标注为0;
12.作为本发明的优选方案,所述步骤step2中:
13.step2.1、句子中情感词的获取是跨语言情感分类任务的第一步。利用匹配算法对语料句子中的每个词和情感词典中的词进行匹配。将句子中的情感词拼接在句子后面;
14.x={xi,i=1,2,3...,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
15.x

={(xi,li),i=1,2,3...,n;li∈rn×
|s|
}
ꢀꢀꢀꢀꢀꢀꢀ
(2)
16.y={yj,j=1,2,3...,m}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
17.y

={(yj,zj),j=1,2,3...,m;zj∈rn×
|f|
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
18.其中,x表示源语言句子,y表示目标语言句子,x

表示源语言句子与句子中情感词相拼接,xi表示源语言句子中的第i个词,li表示拼接在第i个句子后的情感词的集合,n表示词嵌入维度,|s|表示拼接的情感词的长度,y

表示表示目标语言句子与句子中情感词相拼接,yj表示目标语言句子中第j个词,zj表示第j个目标语言句子后拼接的情感词集合,|f|表示拼接的情感词的长度。
19.step2.2、给定一个源语言句子输入x

={(xi,li),j=1,2,3...,n},目标语言输入y

={(yj,zj),j=1,2,3...,m}。本发明方法利用双语词嵌入将每个的每个单词表示成n维词向量,如公式(5)-(6)所示;
20.e
x

=em b(xi,li)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
21.ey′
=em b(yj,zj)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
22.其中,e
x

∈rn×
|q|
和ey′
∈rn×
|d|
分别表示嵌入函数,它能将每一个输入序列中的每个词转化为对应的n维词向量;|q|和|d|表示源语言和目标语言输入模型的句子的长度。采用的word embedding设为50维,即n=50。图中,虚线表示不带标签的语料,实线表示带标签的语言。
23.step2.3、将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征,然后,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐。包括共享特征提取器模块(g)和语言鉴别器(d)两个模块。
24.嵌入层的输出送给用于特征抽取的卷积层。本发明方法在对句子进行特征提取的同时,也对句子中的情感词进行了特征提取。每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息。窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,i表示第i个特征值,x
i:i k-1
表示输入评论句中第i个词到i k-1个词的卷积。操作过程可以用式(7)表示为:
25.ci=f1(w
·
x
i:i k-1
b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
26.其中,滤波器的权重矩阵定义为w∈rk×d,b为偏置项,f1为激活函数。
27.抽取出来的特征c可以用式(8)表示为:
28.c=[c1,c2,...,c
n-k 1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0029]
其中,c∈r
n-k 1

[0030]
同理,情感词抽取出的特征d可以用式(9)表示为:
[0031]
d=[d1,d2,...,dm]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0032]
step2.4、考虑源语言(s)和目标语言(t)的联合隐藏特征的分布;
[0033][0034][0035]
为了学习语言不变特征,本发明方法提出的sadan模型训练f使这两个分布尽可能接近,以获得更好的跨语言概括。本发明方法根据villani提出的kantorovich rubenstein对偶性原理最小化了和之间的wasserstein距离w。操作过程可以用式(12)表示为
[0036][0037]
其中上确界(最大值)取所有1-lipschitz函数g的集合。为了(近似地)计算本发明方法使用语言鉴别器q作为(12)式中的函数g,目标是寻求(12)中的上确界。q试图为源语言实例输出较高的分数,为目标语言输出较低的分数。更正式地说,jq是(12)式中和之间的wasserstein距离的近似值。
[0038]
为了使q成为lipschitz函数(直到一个常数),q的参数总是被限制在一个固定的范内。设q用θq参数化,那么目标jq变成式(13):
[0039][0040]
step2.5、再进行最大池化处理;最大值池化操作的实际作用就是,将某个滤波器提取到的最显著的特征进行保留。最大池化层可以减少训练模型的参数规模,还可以过滤掉一些不必要的噪声。通过多个不同大小的滤波器生成的特征值进行组合获得分类特征v。
[0041]
经过全连接层的操作可以将特征进一步量化,从而抽取到更深层的语义特征v

,量化的过程用式(14)表示为:
[0042]v′
=w

·
v b
ꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0043]
其中,w

为全连接层训练的权重矩阵,b为偏置项。v

经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数可以决策出最大概率的类别,用式(15)表示为:
[0044]
p=soft max(v

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0045]
其中,soft max为分类器。p表示句子最终情感特征所属的概率,可以判别出句子的情感类别。
[0046]
本发明的有益效果是:
[0047]
(1)实现了双语情感语义对齐,所提出方法可以有效提升越南语情感倾向性分析的准确率;
[0048]
(2)本发明方法在差异性不同的语言对上都具有明显的优势。
附图说明
[0049]
图1本发明中识别模型的具体结构示意图。
具体实施方式
[0050]
实施例1:如图1所示,基于情感语义对抗的跨语言情感分类方法,所述方法的具体步骤如下:
[0051]
step1.1、采用基于scrapy框架的爬虫从新浪微博和推特上爬取与美国疫情相关微博正文及评论;
[0052]
step1.2、对微博及推特正文及评论进行过滤筛选,过滤筛选的方式如下所示:(1)、去除文本内容中的多余符号、超链接和特殊字符;(2)、去除微博中相同的用户评论信息;
[0053]
step1.3、采用人工标注,获得疫情微博推特数据集:以一条微博评论为单位进行标注工作,将以一条微博评论为单位进行标注工作,将微博评论句中带有正向积极的情感,标注为1,带有程度副词修饰的加强正向积极情感的评论,标注为2,带有消极负向的情感,标注为-1,带有程度副词修饰的加强消极负向情感的评论,标注为-2,保持中立无情感倾向性的评论,标注为0,实验语料规模如表1所示。
[0054]
表1实验数据统计信息
[0055][0056]
step2.1、step2.1、句子中情感词的获取是跨语言情感分类任务的第一步。利用匹配算法对语料句子中的每个词和情感词典中的词进行匹配。将句子中的情感词拼接在句子后面;
[0057]
x={xi,i=1,2,3...,n}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0058]
x

={(xi,li),i=1,2,3...,n;li∈rn×
|s|
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0059]
y={yj,j=1,2,3...,m}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0060]y′
={(yj,zj),j=1,2,3...,m;zj∈rn×
|f|
}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0061]
其中,x表示源语言句子,y表示目标语言句子,x

表示源语言句子与句子中情感词相拼接,xi表示源语言句子中的第i个词,li表示拼接在第i个句子后的情感词的集合,n表示词嵌入维度,|s|表示拼接的情感词的长度,y

表示表示目标语言句子与句子中情感词相拼接,yj表示目标语言句子中第j个词,zj表示第j个目标语言句子后拼接的情感词集合,|f|表示拼接的情感词的长度。
[0062]
step2.2、给定一个源语言句子输入x

={(xi,li),j=1,2,3...,n},目标语言输入y′
={(yj,zj),j=1,2,3...,m}。本发明方法利用双语词嵌入将每个的每个单词表示成n维词向量,如公式(5)-(6)所示;
[0063]ex

=em b(xi,li)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0064]ey

=em b(yj,zj)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0065]
其中,e
x

∈rn×
|q|
和ey′
∈rn×
|d|
分别表示嵌入函数,它能将每一个输入序列中的每个词转化为对应的n维词向量;|q|和|d|表示源语言和目标语言输入模型的句子的长度。采用的word embedding设为50维,即n=50。图中,虚线表示不带标签的语料,实线表示带标签的语言。
[0066]
step2.3、将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征,然后,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐。包括共享特征提取器模块(g)和语言鉴别器(d)两个模块。
[0067]
嵌入层的输出送给用于特征抽取的卷积层。本发明方法在对句子进行特征提取的同时,也对句子中的情感词进行了特征提取。每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息。窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,i表示第i个特征值,x
i:i k-1
表示输入评论句中第i个词到i k-1个词的卷积。操作过程可以用式(7)表示为:
[0068]ci
=f1(w
·
x
i:i k-1
b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0069]
其中,滤波器的权重矩阵定义为w∈rk×d,b为偏置项,f1为激活函数。
[0070]
抽取出来的特征c可以用式(8)表示为:
[0071]
c=[c1,c2,...,c
n-k 1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0072]
其中,c∈r
n-k 1

[0073]
同理,情感词抽取出的特征d可以用式(9)表示为:
[0074]
d=[d1,d2,...,dm]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0075]
step2.4、考虑源语言(s)和目标语言(t)的联合隐藏特征的分布;
[0076][0077][0078]
为了学习语言不变特征,本发明方法提出的sadan模型训练f使这两个分布尽可能接近,以获得更好的跨语言概括。本发明方法根据villani提出的kantorovich rubenstein对偶性原理最小化了和之间的wasserstein距离w。操作过程可以用式(12)表示为
[0079][0080]
其中上确界(最大值)取所有1-lipschitz函数g的集合。为了(近似地)计算本发明方法使用语言鉴别器q作为(12)式中的函数g,目标是寻求(12)中的上确界。q试图为源语言实例输出较高的分数,为目标语言输出较低的分数。更正式地说,jq是(12)式中和之间的wasserstein距离的近似值。
[0081]
为了使q成为lipschitz函数(直到一个常数),q的参数总是被限制在一个固定的
范内。设q用θq参数化,那么目标jq变成式(13):
[0082][0083]
step2.5、最大值池化操作的实际作用就是,将某个滤波器提取到的最显著的特征进行保留。最大池化层可以减少训练模型的参数规模,还可以过滤掉一些不必要的噪声。通过多个不同大小的滤波器生成的特征值进行组合获得分类特征v。
[0084]
经过全连接层的操作可以将特征进一步量化,从而抽取到更深层的语义特征v

,量化的过程用式(14)表示为:
[0085]v′
=w

·
v b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0086]
其中,w

为全连接层训练的权重矩阵,b为偏置项。v

经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数可以决策出最大概率的类别,用式(15)表示为:
[0087]
p=soft max(v

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0088]
其中,soft max为分类器。p表示句子最终情感特征所属的概率,可以判别出句子的情感类别。
[0089]
为了说明本发明的效果,实验设置了2组对比实验。第一组实验验证基于情感语义对抗对跨语言性能的提升,另一组实验验证模型的泛化性。
[0090]
(1)融入情感语义对抗信息的动态记忆机制有效性验证
[0091]
越南语数据集上证明模型的有效性。首先,将句子以及句子中情感词拼接,用卷积神经网络对拼接后的句子分别进行联合表征,分别获得单语语义空间下的情感语义表征;其次,通过对抗网络,在双语情感语义空间将带标签数据与无标记数据的情感语义表征进行对齐;最后将句子与情感词最显著的表征进行拼接,得到情感倾向性分析结果。实验参数设置如表2所示。
[0092]
表2为参数设置
[0093][0094]
表3汉越数据集实验结果
[0095]
[0096][0097]
(2)模型泛化性验证
[0098]
第二部分验证模型的泛化性,实验结果如表4所示。
[0099]
表4 yelp数据集和中文酒店数据集模型准确率对比
[0100][0101]
分析表4可知,(1)第一种变化使用标准的监督学习算法,此外,本发明方法还评估了sadan的一个非对抗变量,即第2行dan部分,它是情感分类的现代神经模型之一。从表4中可以看出,与sadan相比,仅基于源语言的基线模型表现不佳。这表明bwe本身不足以转移知识。
[0102]
(2)msda的表现并不具有竞争力.推测这是因为包括msda在内的许多领域适应模型都是为使用词袋特征而设计的,这不适合本发明的任务,因为这两种语言的词汇完全不同。表明即使是强域自适应算法也不能在clsc任务中使用现成的bwe。
[0103]
(3)如表4所示,sadan模型在两种语言上都显著优于机器翻译基线,这表明本发明的对抗模型可以在没有任何目标语言注释数据的情况下成功地进行跨语言情感分类。
[0104]
(4)与cld-based cltc方法的比较,本发明方法得出结论sadan的有效性,cld-based cltc方法使用对抗式训练在单一语言中进行领域适应,而本发明方法直接使用对抗式训练进行跨语言概括比较,得出结论sadan的有效性。
[0105]
(5)adan模型仅仅得到语义对齐,而本发明方法模型得到双语情感语义对齐,证明sadan的有效性。
[0106]
由此可见,本发明的分类方法相对其他基线模型具有更高的精确率。
[0107]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献