一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于类型感知的汉越跨语言事件检测方法与流程

2022-02-20 00:29:40 来源:中国专利 TAG:


1.本发明涉及基于类型感知的汉越跨语言事件检测方法,属于自然语言处理技术领域。


背景技术:

2.事件检测是nlp的重要主题之一,目标是在纯文本中识别特定类型的事件类型。汉越跨语言事件检测就是在汉语和越南语上实现双语事件检测。
3.汉越两国事件关联性越来越强,这些事件主要体现为汉越跨语言文本,而有效进行汉越双语事件检测,对把握相关事件发展趋势,为政府及企业进行事件监测及决策提供重要的依据和支撑国家国际交流与合作有非常重要的作用。目前在汉越事件方面的跨语言研究工作还很有限,尤其涉及到跨语言语义表征问题。汉语语料丰富而越南语作为小语种语料稀缺、数据标注困难,而汉越同属孤立语系,既存在相似之处又存在明显的差异性,给汉越事件检测带来了挑战。
4.跨语言事件检测方法目前还没有系统的分类,针对跨语言问题的解决大致有以下三类:一是基于多语言方的法,二是基于跨语言词向量映射的方法,三是跨语言任务中还有使用翻译和对抗的方法。
5.上述都方法依赖大量人工标注训练数据和平行语料,对于越南语来说,只有少量汉-越平行语料,越南语的有标注数据稀缺,且人工标注代价昂贵。用于事件检测的许多最先进的模型严重依赖于监督学习方法的大量标注训练数据,并没有足够的越南语言数据作为统计学习模型的训练支撑,使得汉越跨语言模型性能表现不佳。且越南语事件触发词的标注和识别存在歧义,使得越南语事件检测局限于多音节词歧义。


技术实现要素:

6.本发明提供了基于类型感知的汉越跨语言事件检测方法,缓解越南语数据稀疏和标注困难,以及传统方法中单语歧义性和触发词局限性等问题。
7.本发明的技术方案是:首先利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。
8.作为本发明的优选方案,所述方法的具体步骤如下:
9.step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
10.step2、以bi-lstm编码后,使用基于事件类型的注意力机制对bi-lstm输出的隐藏状态向量序列重新提取特征,获得新的句子表示。网络在特征提取阶段就编码了事件类型等信息,使得注意力机制将更多的权重分配给与本事件类型相关的词上;
11.step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
12.作为本发明的进一步方案,所述步骤step1的具体步骤为:
13.step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以json格式储存到数据库中;
14.step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原的数据处理,使用stanfordnlp标记出词位置、词性和命名实体信息;
15.step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
16.作为本发明的进一步方案,所述步骤step1.3中:
17.输入汉越文本被建模为单词序列x=w1....wn,其中每个wi由其词嵌入vi表示。由于汉越各自训练出的单语词嵌入向量矩阵c和v分布不同,需要找到最佳映射矩阵wc、wv,使cwc、vwv在同一语义空间下。使用无监督的方法,结合自学习算法来逐渐优化映射矩阵w,将w约束为正交矩阵即
18.ww
t
=w
t
w=i
19.使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
20.作为本发明的进一步方案,所述步骤step2的具体步骤:
21.step2.1、根据当前词嵌入向量vi,前一个正序隐藏层状态和逆序隐藏层状态得到前正序隐藏层状态和逆序隐藏层状态:
[0022][0023][0024]
step2.2、注意力机制基于目标事件类型计算句子的向量表示,所以模型是“事件类型感知”的。根据输入的事件类型t查表得到随机初始化的三个事件类型嵌入:正序逆序导注意力机制关注事件类型信息(事件相关词的局部语义信息),tg拟合句子的全局语义信息。事件检测的准确性同时依赖事件相关词的局部语义和句子全局语义信息,句子总的表示由局部和全局信息加权得到;
[0025]
step2.3、给定句子隐藏状态向量输出的第k个隐藏状态第k个词嵌入向量的注意力分数由以下方程计算(逆序计算同理):
[0026]
[0027][0028]
通过句子计算本身的注意力分数并由注意力分数基于事件类型相关信息重新表示句子,突显事件特征。
[0029]
作为本发明的进一步方案,所述步骤step2.3的具体步骤为:
[0030]
step2.3.1、在本发明的模型中,目标事件类型的触发词预计获得比其他词更高的注意力权重。句子的表示s
att
由以下公式计算:
[0031][0032]
其中是句子正序和逆序计算出的注意力向量序列,正序逆序的隐藏状态;
[0033]
step2.3.2、利用bi-lstm的最后输出和整合了句子的全局信息,两个拼接得到hn,通过目标事件类型t查表得到全局tg,s
global
期望捕获整个句子语义:
[0034][0035]
step2.3.3、通过调整局部信息和全局信息的加权比,模型能够更好的分类句子所属的事件类型。μ∈[0,1]是s
att
和s
gobal
之间权衡的超参数,而输出定义为s
att
和s
global
的加权和:
[0036]
μ
·satt
(1-μ)
·sglobal
[0037]
作为本发明的进一步方案,所述步骤step3的具体步骤为:
[0038]
step3.1、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料:其中,涉及到的模型由三部分构成:基于事件类型感知并融入词位置、词性和命名实体等信息的汉越特征提取器f旨在学习有助于预测事件分类器p的特征,并抑制语言鉴别器q、汉越特征提取器f、基于标准多层前馈网络的事件检测器p和语言鉴别器q;
[0039]
step3.2、语言鉴别器q为汉语句子表示输出更高的分数,为越南语输出更低的分数,因此q是对抗性的。同时事件检测器p对汉语句子表示进行事件类型分类。而训练有素的q无法分辨出f提取特征的语种,这个特征可以看作是两种语言共有的,即语言无关的且与事件类型有关的。在f和q之间有一个梯度反转层,使得f的参数在q和p中都参与梯度更新,但是一个最小化分类误差(事件检测器),另一个是最大化分类误差(语言鉴别器);
[0040]
通过这种方式训练大量有标签的汉语语料和无标签的越南语料,利用丰富的汉语语言信息提高越南语事件检测的准确性,缓解越南语数据稀疏的问题,并通过基于事件类型感知的特征提取网络,模糊处理事件触发词,缓解传统方法中单语歧义性和触发词局限性等问题,得到汉越跨语言事件检测模型。
[0041]
作为本发明的进一步方案,所述步骤step3.1包括:
[0042]
step3.1.1、根据汉越特征提取器f提取的隐藏特征f(x),培训目标p末尾使用softmax层分类事件类型,q是一个二进制分类器,末尾有一个sigmoid层为语言打分,范围始终在[0,1],表示输入文本x为汉语或越南语,训练过后,打分应趋向于0.5。考虑汉语和越南语的联合隐藏特征f的分布
[0043]
[0044][0045]
step3.1.2、模型在训练时,未标记的汉语(蓝线)和越南语(黄线)数据通过语言鉴别器,而有标签的汉语文本通过事件检测器。然后用越南语文本验证特征提取器和事件鉴别器。通过这种方式,训练大量有标签的汉语和无标签的越南语。j
p
和jq是培训目标p和q。f、p的参数一起更新。-jq和jq的意思是期望最大化语言鉴别器q的分类损失。
[0046]
作为本发明的进一步方案,所述步骤step3.2包括:
[0047]
step3.2.1、为了学习语言不变的特征,对抗训练将使这两个分布尽可能接近以获得更好的跨语言泛化。根据kantorovich rubinstein对偶性最小化和之间的wasserstein距离w,该距离有连续性,训练时提供更好的梯度:
[0048][0049]
step3.2.2、公式中对于所有的x和y,函数g应当满足利普希茨(lipschitz)连续条件。为了近似地计算使用语言判别器q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让q参数化为θq,然后q的目标jq变为:
[0050][0051]
step3.2.3、公式中对于所有的x和y,函数g应当满足利普希茨(lipschitz)连续条件。为了近似地计算使用语言判别器q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让q参数化为θq,然后q的目标jq变为:
[0052][0053]
step3.2.4、事件检测器p由θ
p
参数化,使用二分类交叉熵损失,表示为其中和y分别是预测的标签分布和真标签,l
p
是p预测正确标签的对数似然函数。我们给事件检测器增加了一个有偏的损失。给定所有的训练样本数量为m,x,y,θ是模型的参数,δ是l2 normalization权重。1 y(i)·
β是偏置对于负样本为1,对于正样本为1 β,β大于0,我们为q寻求以下损失函数的最小值:
[0054][0055]
最后,由θf参数化的联合特征提取器f最小化事件检测器损失j
p
和语言鉴别器损失jq:
[0056][0057]
step4、选取五个基线系统设置对比实验,对比基线系统与基于类型感知的汉越跨语言事件检测方法在汉语-越南语跨语言事件检测任务上的准确率p、召回率r和f1值。
[0058]
step4.1、实验共有七个模型系统,分别是基于类型感知的汉越跨语言事件检测模型ours和未扩展融合位置、词性和命名实体信息的模型ours

,对比将事件类型感知的联合特征提取网络替换为平均网络、多层注意力机制的bi-lstm-att、多个level提取词语和语句特征的cnn、双向rnn、融合不同层次的关键模式信息和全局结构信息的cnn-lstm-att模型;
[0059]
step4.2、实验配置为window10,实验所需环境为python3.7、pytorch0.4.0。本发明汉语和越南语都采用glove词向量来初始化新闻文本,词向量维度l为100,窗口大小为5,并剔除词频小于5的词。为了缓解过拟合现象,将0.2的dropout应用于事件检测器的全连接层。lr1=lr2=0.0005。采用自适应矩估计adam(adaptivemoment estimation)训练模型进行优化,它是一个基于随机梯度的优化器,具有自适应估计。q参数的剪辑范围为[-0.01,0.01],平衡p和q对f影响地协调训练超参数λ为0.01,k为25。δ取0.0001,β为0.9,μ为0.35。所有参数经模型验证为最优。
[0060]
本发明的有益效果是:
[0061]
1.提出一种汉越语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,利用丰富的汉语语言信息,缓解了越南语数据稀疏和标注困难的问题。
[0062]
2.提出基于事件类型的注意力机制凸显事件相关词的语义贡献,融合词位置、词性、命名实体信息,探索在没有清晰定义触发词的情况下检测事件。模糊触发词的形态和语义,缓解了传统方法中单语歧义性和触发词局限性等问题。
附图说明
[0063]
图1为本发明中的总的流程图;
[0064]
图2为本发明中的简略流程图;
[0065]
图3为本发明中的基于事件类型感知的特征提取网络示意图;
[0066]
图4为本发明中的基于类型感知的汉越跨语言事件检测方法流程图;
[0067]
图5为本发明实验数据集。
具体实施方式
[0068]
实施例1:如图1-图4所示,基于类型感知的汉越跨语言事件检测方法,所述方法的具体步骤如下:
[0069]
step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
[0070]
step2、以bi-lstm编码后,使用基于事件类型的注意力机制对bi-lstm输出的隐藏状态向量序列重新提取特征,获得新的句子表示。网络在特征提取阶段就编码了事件类型等信息,使得注意力机制将更多的权重分配给与本事件类型相关的词上;
[0071]
step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
[0072]
作为本发明的进一步方案,所述步骤step1的具体步骤为:
[0073]
step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以ison格式储存到数据库中;
[0074]
step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原
的数据处理,使用stanfordnlp标记出词位置、词性和命名实体信息;
[0075]
step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
[0076]
作为本发明的进一步方案,所述步骤step1.3中:
[0077]
输入汉越文本被建模为单词序列x=w1....wn,其中每个wi由其词嵌入vi表示。由于汉越各自训练出的单语词嵌入向量矩阵c和v分布不同,需要找到最佳映射矩阵wc、wv,使cwc、vwv在同一语义空间下。使用无监督的方法,结合自学习算法来逐渐优化映射矩阵w,将w约束为正交矩阵即
[0078]
ww
t
=w
t
w=i
[0079]
使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
[0080]
作为本发明的进一步方案,所述步骤step2的具体步骤:
[0081]
step2.1、根据当前词嵌入向量vi,前一个正序隐藏层状态和逆序隐藏层状态得到前正序隐藏层状态和逆序隐藏层状态:
[0082][0083][0084]
step2.2、注意力机制基于目标事件类型计算句子的向量表示,所以模型是“事件类型感知”的。根据输入的事件类型t查表得到随机初始化的三个事件类型嵌入:正序逆序导注意力机制关注事件类型信息(事件相关词的局部语义信息),tg拟合句子的全局语义信息。事件检测的准确性同时依赖事件相关词的局部语义和句子全局语义信息,句子总的表示由局部和全局信息加权得到;
[0085]
step2.3、给定句子隐藏状态向量输出的第k个隐藏状态第k个词嵌入向量的注意力分数由以下方程计算(逆序计算同理):
[0086][0087][0088]
我们通句子计算本身的注意力分数并由注意力分数基于事件类型相关信息重新表示句子,突显事件特征。
[0089]
作为本发明的进一步方案,所述步骤step2.3的具体步骤为:
[0090]
step2.3.1、在本发明的模型中,目标事件类型的触发词预计获得比其他词更高的注意力权重。句子的表示s
att
由以下公式计算:
[0091][0092]
其中是句子正序和逆序计算出的注意力向量序列,正序逆序的隐藏状态;
[0093]
step2.3.2、利用bi-lstm的最后输出和整合了句子的全局信息,两个拼接得
到hn,通过目标事件类型t查表得到全局tg,s
global
期望捕获整个句子语义:
[0094][0095]
step2.3.3、通过调整局部信息和全局信息的加权比,模型能够更好的分类句子所属的事件类型。μ∈[0,1]是s
att
和s
global
之间权衡的超参数,而输出定义为s
att
和s
global
的加权和:
[0096]
μ
·satt
(1-μ)
·sglobal
[0097]
作为本发明的进一步方案,所述步骤step3的具体步骤为:
[0098]
step3.1、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料:其中,涉及到的模型由三部分构成:基于事件类型感知并融入词位置、词性和命名实体等信息的汉越特征提取器f旨在学习有助于预测事件分类器p的特征,并抑制语言鉴别器q、汉越特征提取器f、基于标准多层前馈网络的事件检测器p和语言鉴别器q;
[0099]
step3.2、语言鉴别器q为汉语句子表示输出更高的分数,为越南语输出更低的分数,因此q是对抗性的。同时事件检测器p对汉语句子表示进行事件类型分类。而训练有素的q无法分辨出f提取特征的语种,这个特征可以看作是两种语言共有的,即语言无关的且与事件类型有关的。在f和q之间有一个梯度反转层,使得f的参数在q和p中都参与梯度更新,但是一个最小化分类误差(事件检测器),另一个是最大化分类误差(语言鉴别器);
[0100]
通过这种方式训练大量有标签的汉语语料和无标签的越南语料,利用丰富的汉语语言信息提高越南语事件检测的准确性,缓解越南语数据稀疏的问题,并通过基于事件类型感知的特征提取网络,模糊处理事件触发词,缓解传统方法中单语歧义性和触发词局限性等问题,得到汉越跨语言事件检测模型。
[0101]
作为本发明的进一步方案,所述步骤step3.1包括:
[0102]
step3.1.1、根据汉越特征提取器f提取的隐藏特征f(x),培训目标p末尾使用softmax层分类事件类型,q是一个二进制分类器,末尾有一个sigmoid层为语言打分,范围始终在[0,1],表示输入文本x为汉语或越南语,训练过后,打分应趋向于0.5。考虑汉语和越南语的联合隐藏特征f的分布
[0103][0104][0105]
step3.1.2、模型在训练时,未标记的汉语(蓝线)和越南语(黄线)数据通过语言鉴别器,而有标签的汉语文本通过事件检测器。然后用越南语文本验证特征提取器和事件鉴别器。通过这种方式,训练大量有标签的汉语和无标签的越南语。j
p
和jq是培训目标p和q。f、p的参数一起更新。-jq和jq的意思是期望最大化语言鉴别器q的分类损失。
[0106]
作为本发明的进一步方案,所述步骤step3.2包括:
[0107]
step3.2.1、为了学习语言不变的特征,对抗训练将使这两个分布尽可能接近以获得更好的跨语言泛化。根据kantorovich rubinstein对偶性最小化和之间的wasserstein距离w,该距离有连续性,训练时提供更好的梯度:
[0108][0109]
step3.2.2、公式中对于所有的x和y,函数g应当满足利普希茨(lipschitz)连续条
件。为了近似地计算使用语言判别器q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让q参数化为θq,然后q的目标jq变为:
[0110][0111]
step3.2.3、公式中对于所有的x和y,函数g应当满足利普希茨(lipschitz)连续条件。为了近似地计算使用语言判别器q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让q参数化为θq,然后q的目标jq变为:
[0112][0113]
step3.2.4、事件检测器p由θ
p
参数化,使用二分类交叉熵损失,表示为其中和y分别是预测的标签分布和真标签,l
p
是p预测正确标签的对数似然函数。我们给事件检测器增加了一个有偏的损失。给定所有的训练样本数量为m,x,y,θ是模型的参数,δ是l2 normalization权重。1 y(i)·
β是偏置对于负样本为1,对于正样本为1 β,β大于0,我们为q寻求以下损失函数的最小值:
[0114][0115]
最后,由θf参数化的联合特征提取器f最小化事件检测器损失j
p
和语言鉴别器损失jq:
[0116][0117]
step4、选取五个基线系统设置对比实验,对比基线系统与基于类型感知的汉越跨语言事件检测方法在汉语-越南语跨语言事件检测任务上的准确率p、召回率r和f1值。
[0118]
step4.1、实验共有七个模型系统,分别是基于类型感知的汉越跨语言事件检测模型ours和未扩展融合位置、词性和命名实体信息的模型ours

,对比将事件类型感知的联合特征提取网络替换为平均网络、多层注意力机制的bi-lstm-att、多个level提取词语和语句特征的cnn、双向rnn、融合不同层次的关键模式信息和全局结构信息的cnn-lstm-att模型;
[0119]
step4.2、实验配置为window10,实验所需环境为python3.7、pytorch0.4.0。本发明汉语和越南语都采用glove词向量来初始化新闻文本,词向量维度l为100,窗口大小为5,并剔除词频小于5的词。为了缓解过拟合现象,将0.2的dropout应用于事件检测器的全连接层。lr1=lr2=0.0005。采用自适应矩估计adam(adaptivemoment estimation)训练模型进行优化,它是一个基于随机梯度的优化器,具有自适应估计。q参数的剪辑范围为[-0.01,0.01],平衡p和q对f影响地协调训练超参数λ为0.01,k为25。δ取0.0001,β为0.9,μ为0.35。所有参数经模型验证为最优。
[0120]
此优选方案设计是为了利用丰富的汉语语言信息,模糊触发词的形态和语义,缓解越南语数据稀疏、标注困难和传统方法中单语歧义性和触发词局限性等问题。
[0121]
本发明在低资源场景下进行汉语-越南语跨语言事件检测实验。实验训练语料规模为:汉语数据21万条,其中20万条为训练集,1万条为测试集。越南语数据143061条为训练集,8236条为测试集。具体的实验数据集如图5所示。在训练之前对实验数据进行了过滤乱
码与分词处理,其中汉语分词采用结巴分词,越南语分词采用underthesea-vietnamese nlp工具。
[0122]
为了评估基于类型感知的汉越跨语言事件检测方法的有效性我们设置了五组对比实验。表1中给出的是基线系统与基于类型感知的汉越跨语言事件检测模型的事件检测准确率p、召回率r和f1值对比结果。
[0123]
表1不同模型的事件检测对比结果
[0124][0125][0126]
由表1可知,平均网络就是对输入文本的向量序列各取平均,这是最基本的特征提取方式,同时由于这种方法不区分各词向量之间的重要程度,事件检测的效果最差准确率只有32.27%。rnn取得除平均网络外最低的准确率和f1,而cnn能捕捉局部相关的关键信息,同时不存在rnn的梯度消失和梯度爆炸问题,相比于rnn取得了6.23%的提升。bi-lstm-att解决了rnn存在的问题,使用了注意力机制为不同的信息分配不同权重,较cnn获得了1.59%的提升。cnn-lstm-att由于同时具有循环神经网络可以提取文本的全局结构信息,卷积神经网络局部特征提取和注意力机制的优点,准确率达到了47.66%。
[0127]
本发明的模型准确率相较于cnn-lstm-att和bi-lstm-att也得到了2.07%和4.5%的提升。分析原因,虽然cnn-lstm-att和bi-lstm-att都使用了注意力机制,但都是无外部信息的自注意力,简而言之就是注意力机制没有结合本任务的事件相关信息,输入文本的词向量之间的权重分配依据就是文本本身。而本发明利用基于事件类型信息的注意力机制指导句子中得词获得占比权重,利用了本次任务即事件检测的重要外部信息,可以更好的结合任务特性学习句子向量特征。模型在扩展词位置、词性和命名实体信息后,准确率达到了51.98%,表明模型不仅可以获取句子内部特定方面和词语之间的依赖关系,也可以捕获更多有利于检测事件的相关的特征信息。
[0128]
为进一步验证模型跨语言的有效性,验证模型通过训练大量有标签汉语提高无标签越南语事件检测的准确率,去掉语言鉴别器q的实验即不再进行汉越语言的对抗训练,并添加汉语验证集,从第5轮到第30轮的迭代次数中对比汉语事件检测和越南语事件检测准确度提升情况。由表3可知,在没有语言对抗的模型中,应为本身训练集中就存在事件类型标注,汉语事件检测的准确率随着多轮迭代训练得到大幅提升,而越南语没有相关标注,事件检测准确率提升几乎没有。而在语言对抗的模型中,通过汉越语言的对抗训练,越南语准确率得到明显提升,在第30轮的训练中较无语言鉴别器的情况提升0.319,证明语言鉴别器的对抗训练的确将汉语中语言无关但事件类型歧视性信息的语义信息融入了越南语中。
[0129]
表2语言对抗对越南语事件检测准确率的影响
[0130][0131]
实验结果表明,该方法能够提升低资源场景下汉越跨语言事件检测性能,模型较最好的基线系统有明显的提升,准确率达到了51.98%。在下一步的工作中会对事件类型等的语言无关的语义信息融入特征提取阶问题进行更深入的研究。
[0132]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献