一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于BERT对抗训练的比较句情感分析方法及系统

2022-08-17 03:41:01 来源:中国专利 TAG:

一种基于bert对抗训练的比较句情感分析方法及系统
技术领域
1.本发明属于比较句识别技术领域,涉及一种基于bert对抗训练的比较句 情感分析方法及系统。


背景技术:

2.近年来,随着互联网迅速发展以及社会化媒体的日益普及,网购用户数目 逐年递增,越来越多的用户愿意在网站上对商品进行评论。这些评论承载用户 对产品的使用感受以及建议,蕴含着大量有价值的信息。不仅可以为其他消费 者提供参考,也可以为商家提供改进建议。但是由于网络信息过载等问题,用 户无法没有时间充分阅读浏览全部的评论,而且还有可能会被大量的信息干扰 信息所影响,无法在短时间内对商品的质量或者购买倾向做出正确有效的决策。 特别是在用户评论中存在着一些比较或者对比的评论,这种比较句通常表达多 个实体之间关于某种属性特征的优先偏好排序的情况,这些比较评论不仅可以 帮助消费者快速做出有效的判断,还可以帮助商家更直观的发现其与竞争对手 间的差距并做出相应的改进。因此,近年来如何对用户评论中的比较句进行情 感分析,判断出评论者更倾向于哪一个比较实体已成为电商界和学术界中需要 迫切解决的关键性问题之一。
3.现有的比较句识别方法首先从句子中提取比较句的句法结构特征,然后使 用机器学习方法对提取到的特征进行有监督学习。而比较句情感分析则是在比 较句识别的基础上,进一步使用标签序列标注(lsr)、语义角色标注、crf等 方法判别比较句中对实体的情感倾向与优先排序。由于比较句中的情感分析任 务需要判断出评论者在两个比较实体对象之间更倾向于哪一个对象,其中存在 着明显的逻辑关系。而传统的研究方法大多没有充分利用评论文本内在深层语 义以及上下文依赖关系,无法有效地学习到其中的逻辑信息。此外,由于比较 句研究的公开数据集十分有限,从现有的情感分析数据集中,存在的比较句样 本数量较少,只占数据集总体的13%左右。并且在这些比较句类别中,“better
”ꢀ
类别占70%左右(“better”即评论者更倾向于第一个比较实体)。而大量的 非比较句对于模型的学习来说会带来大量的干扰信息;同时,由于比较句中的
ꢀ“
worse”类别数据样本较少,对于该类情感的识别也成为了一大难点,而经 典的比较句情感分析研究方法并没有注意到数据集中比较句样本数量较小的问 题。


技术实现要素:

4.本发明的目的在于解决现有技术中的问题,提供一种基于bert对抗训练 的比较句情感分析方法及系统。本发明主要的任务是通过将预训练语言模型 bert与对抗训练过程相结合,从而创新地获取评论文本中更加丰富的语义特 征信息,并降低数据集中大量的非比较句所带来的噪声影响,提升对于比较句 情感分析的性能。
5.为达到上述目的,本发明采用以下技术方案予以实现:
6.一种基于bert对抗训练的比较句情感分析方法,包括以下步骤:
7.使用预训练语言模型bert对输入的评论文本与评论中的两个比较对象进 行编码;
8.对编码后的评论文本进行对抗训练,得到文本语义信息、上下文依赖关系 以及逻辑关系;
9.依据文本语义信息、上下文依赖关系以及逻辑关系,利用softmax函数获 得最终比较句情感概率分布,并计算损失。
10.上述方法进一步的改进在于:
11.所述使用预训练语言模型bert对输入的评论文本与评论中的两个比较对 象进行编码,包括:
12.采用预训练语言模型bert对输入的评论文本s进行batch数据的编码,将 要输入的评论文本s与评论中的两个比较对象表示为“[cls]评论文本[sep]比较 对象1,比较对象2[sep]”的格式;其中,用户的评论文本 s={w1,w2,w3,...,w
n-1
,wn},评论中的比较对象{c=c_obj1,c_obj2},wn是评 论中的单词;使用预训练语言模型bert的最后一层输出作为输入的评论文本 的隐藏层向量hi,h表示代表编码后隐藏层的维度,n表示输入的 评论文本的序列长度。
[0013]
所述对评论文本进行编码是采用预训练语言模型bert的双句输入模式进 行编码的。
[0014]
所述对编码后的评论文本进行对抗训练,包括:
[0015]
每完成一对batch数据的编码,产生一个随机数τ,若随机数τ<0.5开始对 抗训练,所述随机数τ如下:
[0016]
τ=random()
ꢀꢀꢀ
(1)
[0017]
以迭代的方式根据梯度生成对抗干扰,当开始第一轮迭代时,则在预训练 语言模型bert的原始输入词嵌入的word_embedding的参数权重w
word
的基础 上添加根据梯度得到的对抗扰动r
at
,得到当前迭代轮次添加干扰后的参数权重 tk:
[0018]
tk=w
word
r
at
ꢀꢀꢀ
(2)
[0019][0020]
其中,k为当前迭代轮次;θ为参数;g为梯度,||g||为梯度的范数,使对 抗扰动r
at
的方向与梯度g一致;
[0021]
通过阈值ε控制添加干扰后的文本语义与原文本语义的差异性d,若差异 性d的范数大于阈值ε,则使用截断器chopper对差值进行截断:
[0022][0023]
d=t-w
word
ꢀꢀꢀ
(5)
[0024]
其中,g表示最终通过截断器后所确定的当前轮次的对抗干扰;
[0025]
当前迭代轮次的word_embedding的参数权重ok为:
[0026]
ok=w
word
g
ꢀꢀꢀ
(6)
[0027]
在后续的迭代轮次中,在计算当前迭代轮次中的添加干扰后的参数权重tk时,在
上一轮迭代中得到的word_embedding的参数权重o
k-1
的基础上添加对 抗扰动r
at

[0028]
tk=o
k-1
r
at
ꢀꢀꢀ
(7)
[0029]
迭代完成后在预训练语言模型bert中使用新生成的添加扰动后的 word_embedding权重参数ok对输入的评论文本进行编码,得到对抗样本,执行 对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系。
[0030]
所述利用softmax获得最终比较句情感概率分布,并计算损失,包括:
[0031]
将预训练语言模型bert的最后一层输出作为单词隐藏层hi,并使用 softmax函数进行预测:
[0032]
y=softmax(w
p
·hi
b
p
)
ꢀꢀꢀ
(8)
[0033]
其中,y表示真实标签,w
p
和b
p
表示全连接层的权重矩阵和偏置;
[0034]
通过类别权重参数α与简单/困难样本调节因子(1-p
t
)解决样本不均衡问 题:
[0035]
fl(p
t
)=-α(1-p
t
)log(p
t
)
ꢀꢀꢀ
(9)
[0036]
其中,fl()表示损失函数,-log(p
t
)为初始交叉熵损失函数,α为类别间 的权重参数,(1-p
t
)为简单/困难样本调节因子。
[0037]
一种基于bert对抗训练的比较句情感分析系统,包括:
[0038]
语义信息模块,用于使用预训练语言模型bert对输入的评论文本与评论 中的两个比较对象进行编码;
[0039]
对抗训练模块,用于对编码后的评论文本进行对抗训练,得到文本语义信 息、上下文依赖关系以及逻辑关系;
[0040]
分类预测模块,用于依据文本语义信息、上下文依赖关系以及逻辑关系, 利用softmax函数获得最终比较句情感概率分布,并计算损失。
[0041]
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述 处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方 法的步骤。。
[0042]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序, 所述计算机程序被处理器执行时实现如上述方法的步骤。
[0043]
与现有技术相比,本发明具有以下有益效果:
[0044]
本发明通过引入预训练语言模型bert对输入的评论文本进行编码,有效 地识别比较句文本中的深层语义以及逻辑关系;通过引入对抗训练过程,可以 降低数据集中大量的非比较句带来的干扰,并且可以识别出比较句中数据样本 较小的“worse”类别的文本,从而有效地预测出评论中的情感倾向。
[0045]
本发明使用预训练语言模型bert对输入的评论文本进行编码,有效的学 习评论文本的深层语义信息、上下文依赖关系,从而学习到比较句评论文本的 内在逻辑关系。为了使模型更好的理解比较句评论中的比较关系,使用预训练 语言模型bert的双句输入模式对输入的比较句评论文本以及评论中的两个比 较实体进行编码,通过预训练语言模型bert内部的注意力机制学习他们之间 的依赖关系。本发明在真实数据集上进行的广泛实验,证实了与最先进的模型 相比本发明具有更加良好的性能。
[0046]
本发明引入对抗训练,同时训练对抗样本与原始样本,降低数据集中大量 的非比较句对模型分类器的干扰影响。对某些比较关系较弱的句子来说,分类 器十分容易将此类句子预测为无明显比较关系的句子,也就是“none”类别, 通过该模块增加模型对于此类评
论文本的理解与识别。并且在计算损失时,使 用focal-loss损失函数,通过引入α类别权重参数与(1-p
t
)简单/困难样本调节因 子进一步降低数据中大量非比较句带来的干扰问题。
附图说明
[0047]
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使 用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例, 因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创 造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0048]
图1为本发明方法的流程图。
[0049]
图2为本发明系统的架构图。
具体实施方式
[0050]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附 图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0051]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要 求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的 实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0052]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某 一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解 释。
[0053]
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、
ꢀ“
内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发 明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描 述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位 构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等 仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0054]
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾 斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一 定要完全水平,而是可以稍微倾斜。
[0055]
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定, 若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定 连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连 接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的 连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本 发明中的具体含义。
[0056]
下面结合附图对本发明做进一步详细描述:
[0057]
参见图1,本发明实施例公开了一种基于bert对抗训练的比较句情感分 析方法,包括以下步骤:
[0058]
s1,使用预训练语言模型bert对输入的评论文本与评论中的两个比较对 象进行编码;
[0059]
采用预训练语言模型bert的双句输入模式对输入的评论文本s进行batch 数据的编码,将要输入的评论文本s与评论中的两个比较对象表示为“[cls]评论 文本[sep]比较对象1,比较对象2[sep]”的格式;其中,用户的评论文本 s={w1,w2,w3,...,w
n-1
,wn},评论中的比较对象{c=c_obj1,c_obj2},wn是评 论中的单词;使用预训练语言模型bert的最后一层输出作为输入的评论文本 的隐藏层向量hi,h表示代表编码后隐藏层的维度,n表示输入的 评论文本的序列长度。
[0060]
s2,对编码后的评论文本进行对抗训练,得到文本语义信息、上下文依赖 关系以及逻辑关系;所述对抗训练具体如下:
[0061]
每完成一对batch数据的编码,产生一个随机数τ,若随机数τ<0.5开始对 抗训练,所述随机数τ如下:
[0062]
τ=random()
ꢀꢀꢀ
(1)
[0063]
以迭代的方式根据梯度生成对抗干扰,当开始第一轮迭代时,则在预训练 语言模型bert的原始输入词嵌入的word_embedding的参数权重w
word
的基础 上添加根据梯度得到的对抗扰动r
at
,得到当前迭代轮次添加干扰后的参数权重 tk:
[0064]
tk=w
word
r
at
ꢀꢀꢀ
(2)
[0065][0066]
其中,k为当前迭代轮次;θ为参数;g为梯度,||g||为梯度的范数,使对 抗扰动r
at
的方向与梯度g一致;
[0067]
通过阈值ε控制添加干扰后的文本语义与原文本语义的差异性d,若差异 性d的范数大于阈值ε,则使用截断器chopper对差值进行截断:
[0068][0069]
d=t-w
word
ꢀꢀꢀ
(5)
[0070]
其中,g表示最终通过截断器后所确定的当前轮次的对抗干扰;
[0071]
当前迭代轮次的word_embedding的参数权重ok为:
[0072]
ok=w
word
g
ꢀꢀꢀ
(6)
[0073]
在后续的迭代轮次中,在计算当前迭代轮次中的添加干扰后的参数权重tk时,在上一轮迭代中得到的word_embedding的参数权重o
k-1
的基础上添加对 抗扰动r
at

[0074]
tk=o
k-1
r
at
ꢀꢀꢀ
(7)
[0075]
迭代完成后在预训练语言模型bert中使用新生成的添加扰动后的 word_embedding权重参数ok对输入的评论文本进行编码,得到对抗样本,执行 对抗训练,得到文本语义信息、上下文依赖关系以及逻辑关系。
[0076]
s3,依据文本语义信息、上下文依赖关系以及逻辑关系,利用softmax函 数获得最终比较句情感概率分布,并计算损失。具体方法如下:
[0077]
将预训练语言模型bert的最后一层输出作为单词隐藏层hi,并使用softmax函数
进行预测:
[0078]
y=softmax(w
p
·hi
b
p
)
ꢀꢀꢀ
(8)
[0079]
其中,y表示真实标签,w
p
和b
p
表示全连接层的权重矩阵和偏置;
[0080]
通过类别权重参数α与简单/困难样本调节因子(1-p
t
)解决样本不均衡问 题:
[0081]
fl(p
t
)=-α(1-p
t
)log(p
t
)
ꢀꢀꢀ
(9)
[0082]
其中,fl()表示损失函数,-log(p
t
)为初始交叉熵损失函数,α为类别间 (0-1二分类)的权重参数,(1-p
t
)为简单/困难样本调节因子。
[0083]
如图2所示,本发明实施例公开了一种基于bert对抗训练的比较句情感 分析系统,包括:
[0084]
语义信息模块,用于使用预训练语言模型bert对输入的评论文本与评论 中的两个比较对象进行编码;为了学习文本深层语义特征与上下文依赖关系, 使模型更好的理解文本内存在的逻辑关系,使用预训练语言模型bert对输入 的评论文本进行编码。另外为了使模型更好的理解句子中的比较关系,采用预 训练语言模型bert的双句模式,将输入的评论文本与评论中的两个比较对象 表示为“[cls]评论文本[sep]比较对象1,比较对象2[sep]”的格式输入到预训 练语言模型bert中进行编码。
[0085]
对抗训练模块,用于对编码后的评论文本进行对抗训练,得到文本语义信 息、上下文依赖关系以及逻辑关系;为了降低因数据集中存在的非比较句的数 据样本较大,且比较句数据样本较小对模型造成的干扰,预训练语言模型bert 每完成一个batch数据的编码都会生成一个随机数,若随机数满足预设条件, 则会执行对抗训练模块中的对抗训练过程。在对抗训练模块中,根据梯度以迭 代的方式生成对抗干扰,将得到的对抗干扰与上一步迭代得到的权重参数相加, 其中,值得注意的是若是第一次迭代,则在预训练语言模型bert的原始输入 词嵌入的word_embedding的参数权重的基础上添加对抗扰动;迭代完成后使预 训练语言模型bert通过新的word_embedding权重参数对输入的评论文本进行 编码,至此则完成一次对抗训练的过程。
[0086]
分类预测模块,将经过上面过程学习到的文本语义信息、上下文依赖关系 以及逻辑关系,利用softmax函数获得最终比较句情感概率分布,并使用 focal-loss计算损失。
[0087]
本发明的原理:
[0088]
针对目前比较句的情感分析算法中存在的缺陷,本发明利用预训练语言模 型bert学习到文本中丰富的语义信息,并通过对抗训练来增加模型的稳健性, 从而提出了一种基于bert对抗训练的比较句情感分析方法。其中,该方法主 要包含了三个模块,分别为语义信息模块、对抗训练模块和分类预测模块。在 语义模块中,预训练语言模型bert采用双句模式对输入的评论文本及比较对 象进行编码,从评论文本中学习到更加丰富的深层语义与上下文依赖关系,从 而更好的理解文本中存在的逻辑关系。对抗训练模块在原始样本训练的基础上 增加了对抗样本的训练,降低了数据集中存在大量的非比较句带来的噪声以及 小样本条件下的比较句分析所面对的挑战;分类预测模块通过对输入的评论文 本进行分类预测,判断评论者在评论中针对两个比较对象所表达的情感倾向, 并使用focal-loss计算损失。
[0089]
本发明基于预训练语言模型bert对抗训练的比较句情感分析方法,包括 以下步骤:
[0090]
步骤0:考虑用户的评论文本s={w1,w2,w3,...,w
n-1
,wn}与评论中比较对 象{c=c_obj1,c_obj2},其中wn是评论中的单词。
[0091]
步骤1:采用预训练语言模型bert对输入的评论文本进行编码,此处采 用的是预训练语言模型bert的双句输入模式。将要输入的评论文本与评论中 的两个比较对象表示为“[cls]评论文本[sep]比较对象1,比较对象2[sep]”的 格式。使用预训练语言模型bert的最后一层输出作为输入的评论文本的隐藏 层向量表示h代表着编码后隐藏层的维度,n代表输入的评论文本 的序列长度。
[0092]
步骤2:为了降低因比较句数据样本数量较小而非比较句数据样本数量较 大对模型造成的干扰,引入对抗训练模块,同时训练对抗样本与原始样本,增 加模型的稳健性。首先语义信息模块每完成对一轮batch数据的编码,都会产 生一个0-1之间的随机数τ,若随机数τ<0.5则开始对抗训练。
[0093]
τ=random()
ꢀꢀꢀ
(1)
[0094]
步骤3:以迭代的方式根据梯度生成对抗干扰,生成对抗干扰的过程中每 次只走一小步,每次迭代都会将扰动限定在规定范围内,迭代次数为η。当开 始第一轮迭代时,则在预训练语言模型bert的原始输入词嵌入的 word_embedding的参数权重w
word
的基础上添加根据梯度得到的对抗扰动r
at
, 得到当前迭代轮次添加干扰后的参数权重tk:
[0095]
tk=w
word
r
at
ꢀꢀꢀ
(2)
[0096][0097]
其中k表示当前迭代轮次,此时为第一轮迭代,则k=1;θ表示参数;g为 梯度,||g||为梯度的范数,保证对抗扰动r
at
的方向与梯度一致。
[0098]
步骤4:为了保证加了干扰后的文本语义与原文本语义的一致性,设置阈 值ε控制两者之间的差异性d。如果两者之间的差异性d的范数大于阈值ε,则 认为添加干扰后得对抗样本与原始数据样本在语义上不再保持一致,这种情况 下会使用截断器(chopper)对差值进行截断。
[0099][0100]
d=t-w
word
ꢀꢀꢀ
(5)
[0101]
步骤5:最终当前迭代轮次的word_embedding的参数权重ok为:
[0102]
ok=w
word
g
ꢀꢀꢀ
(6)
[0103]
步骤6:在后续的迭代轮次中,在计算当前迭代轮次中的添加干扰后的参 数权重tk时,在上一轮迭代中得到的word_embedding的参数权重o
k-1
的基础上 添加对抗扰动r
at

[0104]
tk=o
k-1
r
at
ꢀꢀꢀ
(7)
[0105]
步骤7:重复上述步骤4、步骤5,得到当前迭代轮次的word_embedding 的参数权重ok。
[0106]
步骤8:迭代完成后在预训练语言模型bert中使用新生成的添加扰动后 的word_embedding权重参数ok对输入的评论文本进行编码,从而得到对抗样 本,执行对抗训练。
[0107]
步骤9:将预训练语言模型bert的最后一层输出作为单词隐藏层表示hi, 并使用
softmax函数预测比较句情感的概率分布情况:
[0108]
y=softmax(w
p
·hi
b
p
)
ꢀꢀꢀ
(8)
[0109]
其中,w
p
和b
p
是全连接层的权重矩阵和偏置。
[0110]
步骤10:为了进一步降低因比较句数据样本数量较小而非比较句数据样本 数量较大对模型造成的干扰问题,本发明的损失函数使用focal-loss损失函数。 由于数据集中存在大量的非比较句,导致负样本数量太大,占总的损失的大部 分,而且多是容易分类的,因此该情况下使得模型的优化方向并不是所希望的 那样。并且由于比较句数据样本较小,造成大量损失小的简单样本相加,会淹 没该类数据量较小的样本。focal-loss损失函数在标准的交叉熵损失函数的基 础上进行改进,通过引入α类别权重参数与(1-p
t
)简单/困难样本调节因子解决 样本不均衡问题。
[0111]
fl(p
t
)=-α(1-p
t
)log(p
t
)
ꢀꢀꢀ
(9)
[0112]
如图1所示,本发明基于预训练语言模型bert对抗训练的比较句情感分 析系统,包括:
[0113]
实施例
[0114]
本发明方法适用于通过在线评论了解相关事物并做出自己争取决策的应用 环境,例如在线购物等,对于用户来说能够根据比较句的情感分析结果更直观 快速的了解相关事物,在短时间内做出正确的决策。对于商家来说可以更直观 的看到用户对于产品做出的反馈,发现与其他竞争商家之间存在的不足,进行 更加精准地做出相应改进,并提高相关应用的性能以及用户体验。
[0115]
将本发明与基线模型进行了全面的比较。
[0116]
bow xgboost:bow使用词袋模型表示文本的浅层语义特征,并将其输 入到以决策树为学习者的梯度增强的xgboost中进行情感倾向预测。
[0117]
infersent xgboost:infersent模型对句子对进行操作,两个句子共用一个 encoder,分别得到各自的文本向量表达。然后用向量拼接、相乘、相减,为后 面的全连接层提取向量间的交互信息,获得句子表示。并将其输入到xgboost 预测结果。
[0118]
elmo logreg:elmo利用它的pretrained bilm来生成词嵌入表示,使用 逻辑回归做为分类器。
[0119]
lstm:使用lstm对输入文本进行编码并预测情感倾向。
[0120]
表1为本发明在compsent-19数据集下的实验性能。通过实验结果可以看 出,在数据集compsent-19下,本发明提出的bat模型相较于其他基线模型在 性能上有大幅度的提升。与之前效果最好的模型相比,本发明在better的f1 值提高了7.7%,worse的f1值提过了26.4%,none的f1值提高了1.5%, 平均f1值提高了11.9%。由bow词袋模型到infersent再到elmo模型,对句 子编码时可以学习到的特征信息逐渐丰富,micro-f1值逐渐增高。值得注意的 是,本发明相较于其他模型来说,在“worse”类别上的提升是最显著的,这 可以说明本文模型在语义信息模块中可以更好的学习到输入文本的深层语义信 息与上下文依赖关系,从而更好的学习输入文本中所蕴含的逻辑关系。并且通 过对抗训练模块在一定程度上可以降低数据集中比较句数据样本较小而非比较 句数据样本较大所引入的噪声。
[0121]
表1本发明在compsent-19数据集下的实验性能
[0122][0123][0124]
由于本发明中包含多个模块,为了证明各个模块对于最终结果影响的重要 性,进行了消融实验,结果如表2所示。
[0125]
表2本发明的不同模块在compsent-19数据集下的分离性能对比
[0126][0127]
only-bert focalloss仅使用bert embeddings作为序列的词嵌入表示,并 通过softmax进行预测,损失函数为focal-loss。
[0128]
glove transformer focal-loss采用glove作为词嵌入,transformer为分类 器,focalloss为损失函数。
[0129]
bert adversarial-training focal-loss使用bert的embeddings作为序列的 词嵌入表示,通过softmax进行预测,在此基础增加对抗训练,使用focal-loss 作为损失函数。
[0130]
bert adversarial-training celoss使用bert embeddings作为序列的词嵌 入表示,通过softmax进行预测,在此基础增加对抗训练,使用交叉熵作为损 失函数。
[0131]
根据表2的消融实验结果可以发现:
[0132]
语义信息模块的有效性:与glove transformer focal-loss相比, only-bert focalloss提高了性能,在数据集上准确率、召回率、f1值分别提高 了0.7%、1.2%、1.3%,这表明在该任务中使用bert可以获取更加丰富的句法 语义特征以及上下文之间的依赖关系,可以更好地学习输入文本所蕴含的逻辑 信息。。
[0133]
对抗训练模块的有效性:与only-bert focal-loss相比, bert adversarial-training focalloss在数据集上准确率、召回率、f1分别提高 了1.6%、1.4%、1.5%。这表明在该任务中同时训练对抗样本与原始样本可以帮 助模型更好的学习,降低大量的非比较句造成的干扰。
[0134]
focalloss的有效性:与bert adversarial-training celoss相比, bert
adversarial-training focal-loss性能得到了提高,在数据集上准确率、召 回率、f1分别提高了0.8%、0.4%、0.8%,这表明在该任务中使用focal-loss 可以进一步降低数据集中大量的非比较句造成的影响。
[0135]
由此可见本发明中的每一个模块对最终的实验性能表现都具有十分重要的 贡献。其中对抗训练模块对模型效果的提升贡献是最大的,尤其是模型对于
ꢀ“
worse”类别文本的识别。增加了对抗训练模块后,“worse”类别的f1 值提升了4.5%,这也从侧面印证了该模型可以大幅度降低大量的非比较句以及 比较句中“better”类别较多对模型所带来的干扰噪声。
[0136]
本发明一实施例提供一种终端设备。该实施例的终端设备包括:处理器、 存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述 处理器执行所述计算机程序时实现上述各个方法实施例中的步骤,例如图1所 示的步骤s1。或者,所述处理器执行所述计算机程序时实现上述各装置实施例 中各模块功能,例如对抗训练模块。
[0137]
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模 块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
[0138]
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计 算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
[0139]
所述处理器可以是中央处理单元(central processing unit,cpu),还可以是 其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电 路(application specific integrated circuit,asic)、现成可编程门阵列 (field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者 晶体管逻辑器件、分立硬件组件等。
[0140]
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或 执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的 数据,实现所述终端设备的各种功能。
[0141]
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独 立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样 的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机 程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储 介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。 其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代 码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质 可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、 移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、 随机存取存储器(ram,random access memory)、电载波信号、电信信号以 及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据 司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区, 根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0142]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的 技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内, 所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献