一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法

2022-05-06 06:45:47 来源：中国专利 TAG：

技术特征：
1.一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：包括以下步骤：步骤1：采集并预处理semeval 2014的公开数据集laptop reviews和restaurent reviews，并对预处理后的数据按预设比例划分为训练集和测试集；步骤2：对训练样本进行筛选，得到样本特征向量；步骤3：利用对抗训练对输入的样本特征向量制造一个扰动，与最初的样本特征向量一起参加模型的训练，得到模型的输入层；步骤4：结合卷积神经网络和长短时记忆网络，连接模型的输入层，得到模型的cnn-bilstm层；步骤5：计算cnn-bilstm层输出的每个词与目标词的距离，作为情感强度的权重值，得到模型的位置加权记忆层；步骤6：对位置加权记忆层的输出结果应用多重注意力机制，并将结果用gru网络进行非线性的结合，得到模型的循环多注意层；步骤7：利用softmax函数对循环多注意层的输出结果进行分类，得到方面级情感分析模型；步骤8：将测试集输入方面级情感分析模型中，得到情感分析结果。2.根据权利要求1所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤2具体为：对每个数据集中的训练样本进行筛选，只保留具有积极、消极和中性情感标签的数据，剩余的舍弃。3.根据权利要求2所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤3具体为：步骤3.1：使用fgm方法进行对抗训练，表示为一个最小最大化公式为：其中，x是输入的训练样本，y是训练样本的标签，θ是模型参数构成的集合，d为样本训练集，δ是对抗扰动，l为神经网络的损失函数；每一个文本中包含的t个词表示为：{w
(t)
|t＝1,...,t}词向量矩阵表示为：v∈r
(k 1)
×
d
其中，k为词汇表中词汇的数量，d表示词向量的维度；步骤3.2：将离散的向量输入转为连续的向量输入，通过下式表示：步骤3.2：将离散的向量输入转为连续的向量输入，通过下式表示：
扰动后的词向量嵌入层用正则化嵌入v
k
`来表示第i个单词的嵌入v
k
，f
j
表示第j个词汇的词频；步骤3.3：将v
k
`嵌入到扰动后的词向量嵌入层，词嵌入中添加扰动r
adv
，通过下式表示：，通过下式表示：其中，x为模型输入，为短文本分类器参数。4.根据权利要求3所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤4具体为：步骤4.1：将输入层的输出作为cnn层的输入，词向量矩阵通过下式表示：v∈r
(k 1)
×
d
其中，k为词汇表中的词汇的数量，d表示词向量的维度；步骤4.2：进行卷积操作，利用设置好的滤波器实现特征提取：s
i
＝f(ω
×
x
i:i g-1
b)其中，ω为卷积核，g为卷积核的尺寸，x
i:i g-1
表示从第i到第i g-1个词构成的句子向量矩阵，b是偏置向量；步骤4.3：经过卷积层，得到特征矩阵：s＝[s1,s2,...s
n-g 1
]步骤4.4：经过池化层，进行下采样操作，利用最大池化技术maxpooling，求得局部最优解：m＝max{s1,s2,...,s
n-g 1
}步骤4.5：通过全连接层将m
i
向量连接成向量q作为bilstm的输入：q＝{m1,m2,...,m
n
}步骤4.6：遗忘门f
t
、记忆门i
t
、输出门o
t
均由上一个时刻的隐藏状态h
t-1
和当前时刻的输入x
t
计算得到，具体表示过程：f
t
＝logistic(w
f
x
t
u
f
h
t-1
b
f
)i
t
＝logistic(w
i
x
t
u
i
h
t-1
b
i
))o
t
＝logistic(w
o
x
t
u
o
h
t-1
b
o
)h
t
＝o
t
*tanh(c
t
)其中，w
f
、u
f
、w
i
、u
i
、w
c
、uc、w
o
、u
o
是权重矩阵；b
f
、b
i
、b
c
、b
o
是偏移量；tanh和logistic为激活函数，为临时记忆状态，c
t
为当前记忆状态，h
t
为当前隐藏状态；设在t时刻正向lstm输出的隐藏状态为反向lstm输出的隐藏状态为将bilstm输出的隐藏状态h表示为：
产生的向量矩阵为h
t*
：h
t*
＝{h
1*
,h
2*
,...,h
t*
,...,h
t*
}其中。5.根据权利要求4所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤5为计算句子中第m个词的权重值具体为：其中，m
max
为输入句子的最大长度，句子中每个词语与目标词的相对偏移量为：得到最终的位置加权记忆值为：h
t
＝{h1,h2,...,h
t
,...h
t
}h
t
＝(α
t
·
h
t*
,β
t
)。6.根据权利要求5所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤6具体为：步骤6.1：计算每一个输入的向量矩阵的注意力值，[,β
τ
]代表attention层输出的最后结果与评论目标实体有关：g
t
＝w
t
(m
t
,e
t-1
[,β
τ
] b
t
)，步骤6.2：将每一个输入的向量矩阵的注意力值标准化：步骤6.3：在t时间，将上一时刻attention的结果x
t
和当前时刻的输入e
t-1
作为gru层的输入：步骤6.4，gru层为：z
t
＝σ(w
t
·
x
t
u
z
·
e
t-1
)，r
t
＝σ(w
r
·
x
t
u
r
·
e
t-1
)，)，其中，h为gru隐藏层大小，l为lstm层数。7.根据权利要求6所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤所述步骤7中通过softmax函数分类，使用的loss函数为：
其中，n为情感分析的类别集；d为训练样本的数据集；y为一个one-hot向量；f(x；θ)为模型的预测出来的情感分布，λ为正二化项的权重。8.根据权利要求6所述的一种基于对抗训练和多注意力的cnn-bilstm方面情感分析方法，其特征是：所述步骤8为利用所述基于对抗训练和多注意力的cnn-bilstm方面情感分析模型进行验证，评估所述模型的性能。

技术总结
本发明是一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法。本发明涉及自然语言处理技术领域，本发明采集并预处理SemEval 2014的公开数据集，并对预处理后的数据按预设比例划分为训练集和测试集；对训练样本进行筛选，得到样本特征向量；利用对抗训练对输入的样本特征向量制造一个扰动，与最初的样本特征向量一起参加模型的训练，得到模型的输入层；结合卷积神经网络和长短时记忆网络，连接模型的输入层，得到模型的CNN-BiLSTM层；利用Softmax函数对循环多注意层的输出结果进行分类，得到方面级情感分析模型；将测试集输入方面级情感分析模型中，得到情感分析结果。得到情感分析结果。得到情感分析结果。

技术研发人员：陈海龙王青马玉群郑鑫
受保护的技术使用者：哈尔滨理工大学
技术研发日：2021.12.16
技术公布日：2022/5/5

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法

相关文献

最热文献