一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于词集合特征加权的跨境民族文化实体识别方法及装置与流程

2022-02-20 13:14:11 来源:中国专利 TAG:


1.本发明涉及基于词集合特征加权的跨境民族文化实体识别方法及装置,属于自然语言处理技术领域。


背景技术:

2.信息抽取包括实体识别、关系抽取和事件抽取,实体识别是信息抽取中的基础任务,实体识别需要确定实体边界并将其分类为预定义的实体类型,通过挖掘跨境民族文化实体,将有助于扩充领域知识图谱和为信息检索做支撑。利用实体识别技术从互联网中自动标注与跨境民族文化相关的实体,减少研究人员人工提取和处理信息的时间。将词汇特征融入到实体识别模型来解决跨境民族文化中存在实体边界模糊的问题。将词集合特征融入到实体识别模型中可以取得较好的效果,缓解了领域词语边界模糊问题以及增强了文本语义信息的表示。跨境民族文化实体通常是由描述民族文化特征的领域词汇组合构成,在跨境民族文化数据中存在大量的领域词,例如“桑勘比迈”是“泼水节”的别名,它们都属于节日类型的实体,融入词集合信息的实体识别方法可以得到较好的效果。


技术实现要素:

3.本发明提供了基于词集合特征加权的跨境民族文化实体识别方法及装置,以提高对跨境民族文化实体边界模糊的实体识别和增强融入词集合信息的跨境民族文化文本表示。
4.本发明的技术方案是:第一方面,基于词集合特征加权的跨境民族文化实体识别方法,所述基于词集合特征加权的跨境民族文化实体识别的具体步骤如下:
5.step1、跨境民族文化实体数据标注和数据预处理:对输入的跨境民族文化句子进行字符过滤,将句子切分为字符并进行字符向量表征;
6.由于缺少跨境民族文化领域上的实体数据集,本发明结合跨境民族文化数据中存在大量领域实体特点定义了六类实体类型,包括饮食、节日、习俗等,通过人工方式标注了15717条带有实体标签的跨境民族文化数据集,该数据集为实体识别模型训练起到了很好的支撑作用。
7.step2、融入词集合特征信息的跨境民族文化文本特征表示:通过跨境民族文化领域词典匹配获取词集合,提出词集合特征加权方法和位置信息编码用于获取词集合信息,并融入到字符向量表征中;
8.跨境民族文化实体通常是由描述民族文化特征的领域词汇组合构成,例如饮食文化中的“勐永土锅”,由于词集合中包含词边界和词语义信息,因此本发明制定相应的规则与跨境民族文化领域词典匹配获取四种词集合,提出词集合特征加权方法和位置信息编码用于获取词集合信息,增强了跨境民族文化特征语义信息。
9.step3、基于词集合特征加权的跨境民族文化实体识别模型训练;利用双向门控循环单元的思想提取跨境民族句子上下文的特征,采用最优实体标签概率计算进行基于词集
合特征加权的实体识别模型训练;
10.为了使模型获取跨境民族文化文本上下文语义信息,例如句子“傣族香茅草烤鱼是特色食品”中“烤鱼”的向量表征需要与上下文“香茅草”进行关联,针对组合特征词语依赖的问题,提出利用双向门控循环单元的思想融入到本发明中提取跨境民族句子上下文的特征,采用最优实体标签概率计算进行基于词集合特征加权的实体识别模型训练。
11.step4、跨境民族文化实体识别:通过使用训练好的跨境民族文化实体识别模型,对输入的文本进行数据预处理后进行跨境民族文化实体识别。
12.作为本发明的优选方案,所述step1的具体步骤为:
13.step1.1、通过跨境民族文化网站获取跨境民族文化数据,数据进行去重、过滤特殊字符等预处理,每个跨境民族文化句子都标注了对应的实体标签,例如句子“傣族有许多独具特色的糯米制品:如香竹饭、毫糯索、毫崩、千层年糕等。”,通过人工标注该句的实体为“香竹饭-饮食文化、毫糯索-饮食文化、毫崩-饮食文化、千层年糕-饮食文化”。利用该方式人工标注了15717条带有实体标签的跨境民族文化句子,这些领域实体类型包括了位置、节日、饮食、习俗、文艺以及建筑,这些实体类型分析如表1所示:
14.表1跨境民族文化实体类型分析
[0015][0016][0017]
将跨境民族文化句子切分字符实体标签有很多中规范,例如“bio”、“bmeso”等标签,因为跨境民族文化领域中的实体大部分都是组合特征构成,通过字符分割将跨境民族文化句子与标签进行分离,利用“bmeso”标注方法给每个字符打上标签,其中b代表实体开始位置、m代表实体内部位置、e代表实体结束位置、s代表单个实体、o代表非实体。例如,句子“赕佛是傣族的习俗”分离后对应的标签为“b-xs e-xs o o o o o o”,b-xs代表实体类型为习俗的开始标签,e-xs代表实体类型为习俗的结束标签,o代表非实体标签。定义的跨境民族文化实体标签格式如表2所示:
[0018]
表2跨境民族文化实体标注格式
[0019]
实体名实体类型实体标签瑞丽位置b-wz/e-wz泼水节节日文化b-jr/m-jr/e-jr橄榄生饮食文化b-ys/m-ys/e-ys赕佛习俗文化b-xs/e-xs
摆手舞文艺文化b-wy/m-wy/e-wy土掌房建筑文化b-jz/m-jz/e-jz
[0020]
step1.2、对跨境民族文化数据进行去重、过滤特殊字符等处理构建了跨境民族文化领域词典以便后续获取词集合信息,通过构建跨境民族文化领域词典增强句子语义信息,结合领域词语通过网络上获取的跨境民族文化数据训练并构建了领域词典,领域词典中包含了跨境民族文化中的节日、建筑、习俗、饮食、位置以及文艺相关的词,例如,“诺拉舞(文艺)、北河县(位置)、阿南达宫(建筑)、咖喱蟹芒果香饭(饮食)、浴佛仪式(习俗)、解夏节(节日)”等跨境民族文化词语。
[0021]
step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行特殊处理,然后输入到transformer encoder层,可以得到输入文本的每个字符的向量表示。例如文本“傣族孔雀舞”经过三个embedding的元素按位相加后表示为e={c
[cls]
,c

,c

,c

,c

,c

,c
[sep]
},其中c
[cls]
和c
[sep]
为文本的特殊标记向量。经过一系列的归一化和线性处理可以得到transformer encoder最终的输出。跨境民族文化句子被视为字符序列s={c1,c2,

,cn}∈vc,其中vc是字符级的词汇表,ci表示在长度为n的句子s中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
[0022]
q=ci×
wq,k=ci×
wk,v=ci×
wv,
[0023][0024]gi
=attention(q,k,v).
[0025]
其中,其中,wq,wk,wv表示权重参数,dk为输入特征向量的维度,softmax为归一化操作。经过一系列的归一化和线性处理可以得到transformer encoder最终的输出,通过不断对文本中的每个字符进行以上过程实现了跨境民族文化文本中字符向量的动态生成。
[0026]
作为本发明的优选方案,所述step2的具体步骤为:
[0027]
step2.1、跨境民族文化领域词集合匹配方法:词集合是通过跨境民族文化字符从词典中获得所有可能匹配的词语并根据字符位置组成了四种词集合。领域词典中包含了词边界信息和跨境民族文化文本语义信息通过字符匹配可以保留匹配词中的边界信息和语义信息。将字符ci与领域词典匹配得到不同词,根据该字符在所匹配词中不同位置分为四种词集合类型:字符位于词的头部(b)、字符位于词的内部(m)、字符位于词的尾部(e)和单个字符(s)四个标签标记。例如饮食文化中的实体“香酥牛肉干巴”,字符“牛”通过下面公式匹配到的词集合为b={牛肉,牛肉干,牛肉干巴},m={香酥牛肉干巴,香酥牛肉},e={香酥牛},s={牛}。例如饮食文化中的实体“菠萝紫米饭”,字符“米”通过下面公式匹配到的词集合为b={米饭},m={菠萝紫米饭,紫米饭},e={紫米},s={米}。
[0028]
跨境民族文化句子s={c1,c2,

,cn}∈vc中的字符ci所匹配词的四种位置类型词集匹配方式:
[0029]
[0030]
其中,vw表示预先构建好的领域词典,w表示在领域词典中存在的词语,i表示字符的位置,j,k表示字符两边的位置,n表示句子中的字符数量。
[0031]
step2.2、获取词集合向量:通过对数据集中每个词的词频进行了统计,因为词频可以代表词的重要程度,使用加权方法对四种类型的词向量赋予相应的词频。将跨境民族文化文本中字符所匹配词的词频融入到词向量中,对每种类型中的词向量进行拼接得到每种类型的词集向量表示:
[0032][0033][0034]
其中,z(wi)为词wi在数据集中统计的词频,e(wi)为词wi对应的维度为dw=50的词向量表示。l表示{b,m,e,s}四种类型中的一种类型,vi(l)为词集向量,维度为1
×dw

[0035]
step2.3、词集合特征加权获取词集向量之间的重要程度:词集向量vi(l)={vi(b),vi(m),vi(e),vi(s)}是通过每种类型里的词向量拼接得到的,仅仅是计算了每种类型中不同权重的词向量。为了充分考虑四种类型词集向量之间的重要程度,利用词集合特征加权方法获取词集合向量之间的重要程度,使得重要的词集合向量能够获取更多权重。将step2.2得到的词集向量vi(l)={vi(b),vi(m),vi(e),vi(s)}通过神经网络训练得到权重矩阵wv,然后通过softmax函数输出最终的权重向量:
[0036]vi
=wv[vi(b);vi(m);vi(e);vi(s)] bv[0037]
αi=softmax(vi)
[0038]
其中,wv维度为1
×dw
的训练参数,dw=50,bv维度为1
×
4的偏移量,softmax函数为归一化操作。最后得到一个维度为1
×
4且取值范围为(0,1)的权重向量αi。
[0039]
step2.4、位置编码增强位置信息:跨境民族文化文本中的字符位置包含了词边界信息,根据字符的位置所匹配到的词也有所不同,因此在词集向量中添加了位置编码,根据字符的位置对四种类型词集向量进行区分,采用向量对四种类型位置进行向量化表示,融入位置编码后的词集向量表示如下:
[0040]
vi(b)=pi(b)w
l
vi(b)
[0041]
vi(m)=pi(m)w
l
vi(m)
[0042]
vi(e)=pi(e)w
l
vi(e)
[0043]
vi(s)=pi(s)w
l
vi(s)
[0044]
其中,pi(b)=[1,0,0,0],pi(m)=[0,1,0,0],pi(e)=[0,0,1,0],pi(s)=[0,0,0,1],w
l
是一个4
×dw
的训练参数,dw=50。
[0045]
step2.5、在字符向量表示中融入词集信息:为了保留尽可能多的领域词典信息,将每个字符向量与该字符所对应的四种类型词集向量组合成一个特征向量,共同构成这个字符的最终表示:
[0046]ei
(b,m,e,s)=[α
i1
vi(b);α
i2
vi(m);α
i3
vi(e);α
i4
vi(s)],
[0047]
xi=[gi;ei(b,m,e,s)].
[0048]
其中,[α
i1

i2

i3

i4
]=αi为权重向量,ei(b,m,w,s)表示四种类型拼接的特征向量,xi表示融入词集合信息的特征向量,gi为step1.3中的字符向量。
[0049]
作为本发明的优选方案,所述step3的具体步骤为:
[0050]
step3.1、针对跨境民族文化文本中组合特征词语依赖的问题,将step2.5中融入词集合信息的特征向量xi分别输入到双向门控循环单元(gru)中的重置门与更新门中,重置门控制信息丢失,决定了先前的信息内容有多少需要被遗忘,有多少信息内容会被保留与当前时间步的输入结合。当r接近0时,会忽略掉先前的隐藏状态,仅用当前输入进行复位。更新门决定传递多少信息量到下一次的状态,这使得模型可以从先前的状态复制所有的信息以降低梯度消失的风险。重置门与更新门的信息表示如下
[0051]ri
=σ(wr·
[xi,h
i-1
])
[0052]
ui=σ(wu·
[xi,h
i-1
])
[0053]
其中,σ是sigmoid激活函数,xi为融入词信息的表征向量,h
i-1
为上一个时刻的隐藏状态,ri是重置门,ui是更新门,wr,wu为训练参数。
[0054]
新的隐藏状态hi是由上一次的隐藏状态h
i-1
和当前的输入xi通过计算得到。
[0055][0056][0057]
其中,是训练参数,tanh(
·
)为激活函数。基于双向gru编码层得到的特征向量hi获得了跨境民族文化文本中上下文信息之间的长期依赖关系。
[0058]
step3.2、考虑跨境民族文化实体标签之间的依赖关系,避免在跨境民族文化实体识别中存在的错误情况,例如“泼水节”的实体标签为“b-jr m-jr e-jr”,在训练过程中“b-jr”后面出现了实体标签“m-ys”以饮食为内部标签的不合理情况,对特征向量进行最优标签概率计算,通过跨境民族文化实体识别模型预测实体标签。
[0059]
pi=w
phi
b
p
,
[0060][0061]
其中w
p
,b
p
是计算得分矩阵p的参数,t是一个转移矩阵,hi为step3.1输出向量。
[0062]
利用自注意力机制对提取相邻特征向量的重要程度,增强有用的特征并减小用处不大的特征。将双向gru编码后的特征向量hi利用自注意力机制计算特征向量相应的权值。
[0063]
q=hi×
wq,k=hi×
wk,v=hi×
wv,
[0064][0065]
headi=attention(q,k,v).
[0066]
其中,wq,wk,wv表示权重参数,dk为输入特征向量的维度,softmax为归一化操作。
[0067]
通过自注意力机制反映特征向量之间的关联性及其重要程度,完成跨境民族文化实体识别由于特征向量对实体识别具有不同的影响,根据影响力的大小给予所有特征向量相应的权值,然后得到最终的输出向量headi。自注意力机制能够进一步提升特征向量各成分间重要性的区分度,从而有助于跨境民族文化实体的识别。
[0068]
第二方面,本发明实施例还提供了基于词集合特征加权的跨境民族文化实体识别
装置,该装置包括用于执行上述第一方面的方法的模块。
[0069]
本发明的有益效果是:
[0070]
1、本发明将词集合信息融入到实体识别模型当中,通过字符匹配领域词典得到的词集合包含了实体边界信息,利用词集合实现对跨境民族文化文本语义信息增强,使模型能够在跨境民族文化实体识别上达到更好的效果。
[0071]
2、本发明基于词集合特征加权获取词集向量之间的重要程度,利用位置编码增强字符所匹配词集合位置信息,使词集和向量的特征更加丰富。将词集合特征融入字符表示中,缓解了基于字符表征的实体识别面临实体边界模糊的问题导致实体识别错误。
附图说明
[0072]
图1为本发明中基于词集合特征加权的词集合信息图;
[0073]
图2为本发明中词频统计示例图;
[0074]
图3为本发明中基于词集合特征加权的跨境民族文化实体识别框架图;
[0075]
图4为本发明的整体流程图。
具体实施方式
[0076]
实施例1:如图1-图4所示,第一方面,基于词集合特征加权的跨境民族文化实体识别方法,所述基于词集合特征加权的跨境民族文化实体识别方法的具体步骤如下:
[0077]
step1、跨境民族文化实体数据标注和数据预处理:对输入的跨境民族文化句子进行字符过滤,将句子切分为字符并进行字符向量表征;
[0078]
由于缺少跨境民族文化领域上的实体数据集,本发明结合跨境民族文化数据中存在大量领域实体特点定义了六类实体类型,包括饮食、节日、习俗等,通过人工方式标注了15717条带有实体标签的跨境民族文化数据集,该数据集为实体识别模型训练起到了很好的支撑作用。
[0079]
step2、融入词集合特征信息的跨境民族文化文本特征表示:通过跨境民族文化领域词典匹配获取词集合,提出词集合特征加权方法和位置信息编码用于获取词集合信息,并融入到字符向量表征中;
[0080]
跨境民族文化实体通常是由描述民族文化特征的领域词汇组合构成,例如饮食文化中的“勐永土锅”,由于词集合中包含词边界和词语义信息,因此本发明制定相应的规则与跨境民族文化领域词典匹配获取四种词集合,提出词集合特征加权方法和位置信息编码用于获取词集合信息,增强了跨境民族文化特征语义信息。
[0081]
step3、基于词集合特征加权的跨境民族文化实体识别模型训练;利用双向门控循环单元的思想提取跨境民族句子上下文的特征,采用最优实体标签概率计算进行基于词集合特征加权的实体识别模型训练;
[0082]
为了使模型获取跨境民族文化文本上下文语义信息,例如句子“傣族香茅草烤鱼是特色食品”中“烤鱼”的向量表征需要与上下文“香茅草”进行关联,针对组合特征词语依赖的问题,提出利用双向门控循环单元的思想融入到本发明中提取跨境民族句子上下文的特征,采用最优实体标签概率计算进行基于词集合特征加权的实体识别模型训练。
[0083]
step4、跨境民族文化实体识别:通过使用训练好的跨境民族文化实体识别模型,
对输入的文本进行数据预处理后进行跨境民族文化实体识别。
[0084]
作为本发明的优选方案,所述step1的具体步骤为:
[0085]
step1.1、通过跨境民族文化网站上获取相关的跨境民族文化数据,人工标注了15717条带有实体标签的跨境民族文化句子,其中实体类型定义为6种类型:位置、节日文化、饮食文化、习俗文化、文艺文化以及建筑文化;将跨境民族文化句子中的字符与对应的标签进行切分,使得每个字符对应一个标签,对应的实体标签格式如表3所示:
[0086]
表3跨境民族文化实体标注格式
[0087]
实体名实体类型实体标签瑞丽位置b-wz/e-wz泼水节节日文化b-jr/m-jr/e-jr橄榄生饮食文化b-ys/m-ys/e-ys赕佛习俗文化b-xs/e-xs摆手舞文艺文化b-wy/m-wy/e-wy土掌房建筑文化b-jz/m-jz/e-jz
[0088]
step1.2、通过构建跨境民族文化领域词典增强句子语义信息,结合领域词语通过网络上获取的跨境民族文化数据训练并构建了领域词典,领域词典中包含了跨境民族文化中的节日、建筑、习俗、饮食、位置以及文艺相关的词,例如,“诺拉舞(文艺)、北河县(位置)、阿南达宫(建筑)、咖喱蟹芒果香饭(饮食)、浴佛仪式(习俗)、解夏节(节日)”等跨境民族文化词语。
[0089]
step1.3、采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行特殊处理,然后输入到transformer encoder层,可以得到输入文本的每个字符的向量表示。例如文本“傣族孔雀舞”经过三个embedding的元素按位相加后表示为e={c
[cls]
,c

,c

,c

,c

,c

,c
[sep]
},其中c
[cls]
和c
[sep]
为文本的特殊标记向量。经过一系列的归一化和线性处理可以得到transformer encoder最终的输出。跨境民族文化句子被视为字符序列s={c1,c2,

,cn}∈vc,其中vc是字符级的词汇表,ci表示在长度为n的句子s中第i个字符,预训练语言模型的思想对跨境民族文化实体每个字符ci进行字向量表示:
[0090]
q=ci×
wq,k=ci×
wk,v=ci×
wv,
[0091][0092]gi
=attention(q,k,v).
[0093]
其中,其中,wq,wk,wv表示权重参数,dk为输入特征向量的维度,softmax为归一化操作。经过一系列的归一化和线性处理可以得到transformer encoder最终的输出,通过不断对文本中的每个字符进行以上过程实现了跨境民族文化文本中字符向量的动态生成。
[0094]
作为本发明的优选方案,所述step2的具体步骤为:
[0095]
step2.1、跨境民族文化领域词集合匹配:词集合是通过跨境民族文化字符从词典中获得所有可能匹配的词语并根据字符位置组成了四种词集合。领域词典中包含了词边界信息和跨境民族文化文本语义信息通过字符匹配可以保留匹配词中的边界信息和语义信息。将字符ci与领域词典匹配得到不同词,根据该字符在所匹配词中不同位置分为四种词
集合类型:字符位于词的头部(b)、字符位于词的内部(m)、字符位于词的尾部(e)和单个字符(s)四个标签标记。
[0096]
跨境民族文化句子s={c1,c2,

,cn}∈vc中的字符ci所匹配词的四种位置类型词集匹配方式:
[0097][0098]
其中vw表示预先构建好的领域词典,w表示在领域词典中存在的词语,i表示字符的位置,j,k表示字符两边的位置,n表示句子中的字符数量。
[0099]
step2.2、获取词集合向量:如图2所示,通过对匹配词的词频进行统计,将匹配词的词频融入到词向量中因为词频可以代表词的重要程度,使用加权方法对四种类型的词向量赋予相应的词频。将跨境民族文化文本中字符所匹配词的词频融入到词向量中,对每种类型中的词向量进行拼接得到每种类型的词集向量表示:
[0100][0101][0102]
其中,z(wi)为词wi在数据集中统计的词频,e(wi)为词wi对应的维度为dw=50的词向量表示。l表示{b,m,e,s}四种类型中的一种类型,vi(l)为词集向量,维度为1
×dw

[0103]
step2.3、词集合特征加权获取词集向量之间的重要程度:词集向量vi(l)是通过每种类型里的词向量拼接得到的,仅仅是计算了每种类型中不同权重的词向量。为了充分考虑四种类型词集向量之间的重要程度,利用词集合特征加权方法获取词集合向量之间的重要程度,通过神经网络训练得到权重矩阵wv,然后通过softmax函数输出最终的权重向量:
[0104]vi
=wv[vi(b);vi(m);vi(e);vi(s)] bv[0105]
αi=softmax(vi)
[0106]
其中,wv维度为1
×dw
的训练参数,dw=50,bv维度为1
×
4的偏移量,softmax函数为归一化操作。最后得到一个维度为1
×
4且取值范围为(0,1)的权重向量αi。
[0107]
step2.4、位置编码增强位置信息:跨境民族文化文本中的字符位置包含了词边界信息,根据字符的位置所匹配到的词也有所不同,因此在词集向量中添加了位置编码,根据字符的位置对四种类型词集向量进行区分,采用向量对四种类型位置进行向量化表示,融入位置编码后的词集向量表示如下:
[0108]
vi(b)=pi(b)w
l
vi(b)
[0109]
vi(m)=pi(m)w
l
vi(m)
[0110]
vi(e)=pi(e)w
l
vi(e)
[0111]
vi(s)=pi(s)w
l
vi(s)
[0112]
其中,pi(b)=[1,0,0,0],pi(m)=[0,1,0,0],pi(e)=[0,0,1,0],pi(s)=[0,0,0,
1],w
l
是一个4
×dw
的训练参数,dw=50。
[0113]
step2.5、在字符向量表示中融入词集信息:为了保留尽可能多的领域词典信息,将每个字符向量与该字符所对应的四种类型词集向量组合成一个特征向量,共同构成这个字符的最终表示:
[0114]ei
(b,m,e,s)=[α
i1
vi(b);α
i2
vi(m);α
i3
vi(e);α
i4
vi(s)],
[0115]
xi=[gi;ei(b,m,e,s)].
[0116]
其中,[α
i1

i2

i3

i4
]=αi为权重向量,ei(b,m,w,s)表示四种类型拼接的特征向量,xi表示融入词集合信息的特征向量,gi为字符向量。
[0117]
作为本发明的优选方案,所述step3的具体步骤为:
[0118]
step3.1、利用双向gru对跨境民族文化融入词集信息的向量表示进行特征提取,将融入词集合信息的特征向量xi分别输入到双向gru中的重置门与更新门中,重置门控制信息丢失,决定了先前的信息内容有多少需要被遗忘,有多少信息内容会被保留与当前时间步的输入结合。当r接近0时,会忽略掉先前的隐藏状态,仅用当前输入进行复位。更新门决定传递多少信息量到下一次的状态,这使得模型可以从先前的状态复制所有的信息以降低梯度消失的风险。重置门与更新门的信息表示如下
[0119]ri
=σ(wr·
[xi,h
i-1
])
[0120]
ui=σ(wu·
[xi,h
i-1
])
[0121]
其中,σ是sigmoid激活函数,xi为融入词信息的表征向量,h
i-1
为上一个时刻的隐藏状态,ri是重置门,ui是更新门,wr,wu为训练参数。
[0122]
在双向gru中,新的隐藏状态hi是由上一次的隐藏状态h
i-1
和当前的输入xi通过计算得到。
[0123][0124][0125]
其中,是训练参数,tanh(
·
)为激活函数。基于双向gru编码层得到的特征向量hi获得了跨境民族文化文本中上下文信息之间的长期依赖关系。
[0126]
step3.2、利用自注意力机制对提取相邻特征向量的重要程度,增强有用的特征并减小用处不大的特征。将双向gru编码后的特征向量hi利用自注意力机制计算特征向量权重:
[0127]
q=hi×
wq,k=hi×
wk,v=hi×
wv,
[0128][0129]
headi=attention(q,k,v).
[0130]
其中,wq,wk,wv表示权重参数,dk=50为输入特征向量的维度,softmax为归一化操作。
[0131]
作为本发明的优选方案,所述step4的具体步骤为:
[0132]
step4.1、通过全局优化的思想,通过考虑标签之间的依赖关系获取一个全局最优标签序列,防止一些错误情况出现,例如出现标签“节日”后面接入了“饮食”等不合理情况。
[0133]
通过跨境民族文化文本中的字符s={c1,c2,

,cn}∈vc对应预测标签序列y={y1,
y2,

,yn}的概率计算:
[0134]
pi=w
p
headi b
p
,
[0135][0136]
其中w
p
,b
p
是计算得分矩阵p的参数,t是一个转移矩阵,headi为step3.2的输出向量,标签预测最终的解码阶段采用维特比算法预测全局最优标签序列。
[0137]
为了说明本发明的效果,本发明进行了如下对比实验,所采用的实验数据均是民族文化人工标注数据集。
[0138]
采用的评价指标是通过精确率(precision)、召回率(recall)和f1值来对模型进行评估。精确率、召回率和f1值的计算方法如下所示。
[0139][0140][0141][0142]
为了验证本发明提出的基于词集合特征加权的跨境民族文化实体识别模型的效果,设计以下对比试验进行分析。与bi-lstm、lattice-lstm、lr-cnn、flat和softlexicon(lstm)实体识别方法进行了对比,具体实验结果如表4所示。
[0143]
表4不同方法对比实验
[0144]
方法名称p(%)r(%)f1(%)bi-lstm crf83.5991.5287.38lattice-lstm89.0892.5290.76lr-cnn92.8190.1591.46flat92.7695.0593.89softlexicon(lstm)90.6893.3992.01本发明方法95.5694.0194.72
[0145]
实验表明,bi-lstm crf模型相比,利用词集合信息增强文本上下文语义信息,与lattice-lstm、lr-cnn、flat、softlexicon(lstm)模型相比,本发明方法融入了跨境民族文化领域词典,并且采用位置编码增强了词集合位置信息,使得通过字符匹配到的词集合更加完整。
[0146]
表5是采用词集合特征加权的跨境民族文化实体识别方法来进行模型训练与分别融合位置编码、词集合特征加权和位置编码对实验结果的影响进行效果对比。
[0147]
表5词集合特征加权和位置编码对模型的影响
[0148] p(%)r(%)f1(%)融入位置编码94.7293.2593.98
基于词集合特征加权94.1592.3993.26融入位置编码 词集合特征加权95.5694.0194.72
[0149]
实验结果表明融合不同的编码信息对实验结果是会产生影响的,当模型中只融入位置编码相比融入位置编码和词集合特征加权到模型中的f1值降低了1.46%,验证了通过词集合特征加权有助于区分四种词集向量之间的重要程度,当模型中只融入词集合特征加权相比融入位置编码和词集合特征加权到模型中的f1值降低了0.74%,说明位置编码可以增强词集合位置信息。当同时添加位置编码和词集合特征加权能更充分地获取词集合信息,进而提升了跨境民族文化实体识别的精度。
[0150]
下面为本发明系统实施例,本发明实施例还提供了基于词集合特征加权的跨境民族文化实体识别装置,该装置包括用于执行上述第一方面的方法的集成模块。具体可以包括:
[0151]
跨境民族文化数据预处理模块:用于跨境民族文化实体数据标注和数据预处理:对输入的跨境民族文化句子进行字符过滤,将句子切分为字符并进行字符向量表征;
[0152]
融入词集合特征信息的跨境民族文化文本特征表示模块:用于通过跨境民族文化领域词典匹配获取词集合,提出词集合特征加权方法和位置信息编码用于获取词集合信息,并融入到字符向量表征中;
[0153]
基于词集合特征加权的跨境民族文化实体识别模型训练模块;用于利用双向门控循环单元的思想提取跨境民族句子上下文的特征,采用最优实体标签概率计算进行基于词集合特征加权的实体识别模型训练;
[0154]
跨境民族文化实体识别模块:用于通过使用训练好的跨境民族文化实体识别模型,对输入的文本进行数据预处理后进行跨境民族文化实体识别。
[0155]
在一种可行的实施方式中,所述跨境民族文化实体识别模块还用于:将已训练的模型部署到本地服务器端通过sanic技术将模型转换为应用接口,实现通过网页端直接调用模型,将预测的实体输出到前端界面显示。
[0156]
在一种可行的实施方式中,所述跨境民族文化数据预处理模块,还用于:
[0157]
通过跨境民族文化网站获取跨境民族文化数据,数据进行去重、过滤特殊字符预处理,然后人工标注了15717条带有实体标签的跨境民族文化句子,这些领域实体包括了位置、节日、饮食、习俗、文艺以及建筑;
[0158]
对跨境民族文化数据进行去重、过滤特殊字符后处理构建了跨境民族文化领域词典以便后续获取词集合信息,结合领域词语通过网络上获取的跨境民族文化数据训练得到词向量并构建了领域词典,领域词典中包含了跨境民族文化中的节日、建筑、习俗、饮食、位置以及文艺相关的词;
[0159]
采用预训练语言模型对跨境民族文化文本进行字符向量表征,将字符进行处理,然后输入到transformer encoder层,得到输入文本的每个字符的向量表示;经过一系列的归一化和线性处理得到transformer encoder最终的输出,实现了跨境民族文化文本中字符向量的动态生成。
[0160]
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献