一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于孪生交互和微调表示的中文语义匹配方法与流程

2022-11-16 09:01:17 来源:中国专利 TAG:


1.本发明涉及计算机应用领域,具体涉及一种基于孪生交互和微调表示的中文语义匹配方法。


背景技术:

2.中文语义匹配就是针对两个不同的句子,判断它们之间的语义匹配度。中文语义匹配任务的核心在于挖掘文本的深度语义信息,探究不同文本之间的语义关系。文本语义匹配的技术可应用于智能问答、机器翻译以及内容检索等领域,目前所公开的文本语义匹配技术还存在匹配准确率需要进一步提高的问题。


技术实现要素:

3.本发明针对目前中文语义匹配技术存在的问题,提供了一种基于roberta-wwe-ext的孪生交互以及微调表示的中文语义匹配方法,以提升中文语义匹配任务的准确率。
4.本发明所提供的方法,首先以roberta-wwm-ext预训练模型完成文本的向量初始化,针对初始特征向量构造内嵌了软对齐注意力机制(sa-attention)和bilstm训练层的孪生结构,用以增强句对之间的语义交互性。其次将两个待匹配文本连接起来接入roberta-wwm-ext预训练模型进行向量化,将连接的向量化结果输入lstm-bilstm网络层做增强训练,用以强化句子内部的上下语义关系。然后搭建可微调roberta-wwm-ext初始向量的训练模型,用以产生经过标签监督微调的文本向量,从而进一步增强向量对文本间语义关系的表示力度,最终达到提升中文语义匹配准确率的目的。
5.本发明所提供的方法,主要包括以下内容步骤:
6.(1)将两个待匹配的中文文本s1、s2接入roberta-wwm-ext预训练模型,完成文本s1、s2的向量初始化,提取roberta-wwm-ext预训练模型的pooler_out层,公式描述为s1vec=[robertawe([s1])]
pooler_out
、s2vec=[robertawe([s2])]
pooler_out
,其中s1vec、s2vec分别为文本s1、s2的初步特征向量表示。
[0007]
(2)将向量s1vec、s2vec交叉输入内嵌了软对齐注意力机制(sa-attention)、bilstm训练层的孪生结构。在软对齐注意力机制处理过程中,首先计算s1vec、s2vec的注意力打分函数,然后利用softmax函数计算最终的注意力分布函数p,再分别与向量s1vec、s2vec求积计算得出相应的加权分布和为了保证原始数据的完整性,避免向量的信息丢失,向量的信息丢失,向量与原始向量s1vec、s2vec相加,最终向量表示为avec1、avec2。为进一步增强向量各自内部信息的交互性,进一步提升特征向量对文本语义的表征能力,将输出向量avec1、avec2分别接入bilstm网络层,最终经过融合产生文本s1、s2在两个孪生子通道所分别对应的特征向量表示siavec1、siavec2,针对向量siavec1、siavec2进行对应项相减、相乘,并将结果连接,公式描述为siavec=[|siavec1-siavec2|,siavec1

siavec2],siavec即为文本s1、s2经过孪生结构产生的交互向量。
[0008]
(3)将文本s1、s2连接为单句文本,公式为sen=[[cls]s1[sep]s2[sep]],[cls]为
文本的开头标识,[sep]为两文本的间隔标识,sen即为两文本连接的单句型文本。将sen输入到roberta-we模型,提取模型的pooler_out输出层向量pvec作为sen的向量表示。将向量pvec接入lstm层,得到向量lvec,为避免丢失原始的文本信息,首先将向量lvec与原始向量pvec连接,然后将此连接向量接入bilstm层,最终得到文本s1、s2经过lstm-bilstm结构产生的特征向量lbvec。
[0009]
(4)在roberta-wwm-ext预训练模型的基础上添加线性转换层和softmax激活层,搭建一个可微调文本s1、s2的初始向量的表示参数的句对预分类模型。首先提取roberta-wwm-ext的pooler_out输出层向量pvec,然后将pvec接入一个线性转换层,公式为lwvec=pvec
·wt
bias,其中w为向量pvec进行线性转换的权重矩阵,bias为函数的偏置,lwvec为pvec经过线性转换后的向量表示。然后将向量lwvec经过softmax激活层,公式为其中p
lwvec
为最终的文本对匹配结果。将数据集接入搭建完成的句对预分类结构,训练产生句对预分类模型ptm,提取logits输出层作为文本对的微调型的特征向量,公式为lgvec=[ptm([sen])]
logits
。lgvec即为文本s1、s2的微调表示型特征向量。
[0010]
(5)在前面的步骤中,文本s1、s2经过孪生结构、lstm-bilstm网络层以及微调结构,分别产生了相应的向量表示siavec、lbvec和lgvec。首先将向量siavec、lbvec连接,参与mlp的layer1、layer2前两个全连接层的训练,公式为r
l2
即为两个全连接层的输出向量。然后再将向量lgvec与r
l2
连接,接入mlp的layer3全连接层产生向量r
l3
,针对向量r
l3
使用激活函数sigmoid,公式为r即为中文文本s1、s2的语以匹配结果。
附图说明
[0011]
图1为本发明涉及到的算法结构图。
具体实施方式
[0012]
下面对本发明作进一步的详细描述,用于充分理解本发明的技术方案。
[0013]
(1)本发明中的模型整体结构:
[0014]
本发明中的模型整体结构如图1所示,整体划分为三个网络通道和一个mlp网络结构。nc1通道中,将两个文本独立接入roberta-we模型,得到文本的初始向量,随后搭建一个内嵌sa-attention_bilstm的孪生交互结构,将两个初始向量交叉接入两个孪生子通道,融合产生孪生交互型的特征向量siavec。nc2通道中,将两个文本句连接为单句模式,输入roberta-we模型,以pooler_out层的输出作为文本对的初始向量,经过lstm-bilstm网络训练层,产生句对的第二种特征向量lbvec。nc3通道中,搭建基于roberta-we微调的句对分类模型,针对数据集训练产生句对分类的预训练模型ptm,提取ptm的logits层作为微调表示型的向量lgvec。在mlp结构层,将向量siavec和lbvec连接输入mlp的前两个全连接层,将输
出与向量lgvec连接起来输入mlp最后一层,以sigmoid作为激活函数,产生句子对最终的匹配结果。
[0015]
(2)文本的roberta-wwe-ext初始向量化:
[0016]
roberta模型使用动态遮蔽的方法,并停用了bert模型中的nsp任务,同时使用full-sentences,roberta-wwm-ext(roberta-we)模型是将全词遮罩技术应用到roberta模型上,针对中文做了增量训练。在本发明中,以roberta-we作为初步提取中文文本特征的基线模型,将文本输入roberta-we中文预处理模型当中,提取roberta-we模型的pooler_out层作为句子对的初始向量表示。将两个文本s1、s2各自独立的输入roberta-we模型,然后分别提取模型的pooler_out输出层向量s1vec、s2vec,公式描述如(1)(2)所示。
[0017]
s1vec=[robertawe([s1])]
pooler_out (1);
[0018]
s2vec=[robertawe([s2])]
pooler_out (2);
[0019]
(3)孪生交互网络结构:
[0020]
孪生结构中的每个孪生通道都内嵌了软对齐注意力机制(sa-attention)和bilstm两个向量处理模块,如图1中的nc1网络通道。在nc1通道中,两个句子的特征向量分别输入两个孪生子通道中,两个孪生通道共享权重,以增强两个句子之间的语义交互性。同时句子的特征向量经过每一层网络结构处理之后,都与处理之前的向量连接,以保留文本的原始语义特征,避免信息的丢失。最终将两个子通道计算的向量融合产生最终的句对的向量表示,网络处理过程如图所示。
[0021]
将向量s1vec、s2vec交叉输入孪生交互结构,首先经过sa-attention处理,向量s1vec、s2vec的注意力打分函数如公式3所示,然后利用softmax函数计算注意力分布,如公式如下所示。
[0022]
score(s1vec,s2vec)=s1vec
t
·
s2vec
ꢀꢀ
(3);
[0023][0024]
将注意力分布函数p分别与向量s1vec、s2vec求积计算得出相应的加权分布,如公式(5)(6)所示。原始向量s1vec、s2vec经过软对齐注意力机制计算后,产生了新的向量表示ec经过软对齐注意力机制计算后,产生了新的向量表示
[0025][0026][0027]
为了保证原始数据的完整性,避免向量的信息丢失,向量为了保证原始数据的完整性,避免向量的信息丢失,向量与原始向量s1vec、s2vec相加,得出最终向量表示avec1、avec2,公式如(7)(8)所示。avec1、avec2即包含了sa-attention的处理信息,又包含了向量的原始信息。
[0028][0029][0030]
将输出向量avec1、avec2分别接入bilstm网络层,增强向量avec1、avec2各自内部信息的交互性,进一步提升avec1、avec2对文本语义的表征能力,公式如(9)(10)所示。
[0031]
bvec1=bilstm(concat[avec1,s1evc])
ꢀꢀ
(9);
[0032]
bvec2=bilstm(concat[avec2,s2evc])
ꢀꢀ
(10);
[0033]
公式(9)中concat[avec1,s1evc]表示将向量avec1与向量svec1连接,以避免原始向量的信息丢失,bvec1即为bilstm模型产生的向量,公式(10)同理。
[0034]
为充分保留每个处理过程的语义信息,将每个阶段产生的向量一起同初始向量连接,作为文本的最终特征向量,如公式11和12所示。siavec1、siavec2分别表示了文本s1、s2经过孪生交互结构的处理所产生的最终向量表示。
[0035]
siavec1=concat[s1vec,avec1,bvec1]
ꢀꢀ
(11);
[0036]
siavec2=concat[s2vec,avec2,bvec2]
ꢀꢀ
(12);
[0037]
针对向量siavec1、siavec2进行对应项相减、相乘,并将结果连接产生句对最终的向量表示siavec,如公式(13)所示。
[0038]
siavec=[|siavec1-siavec2|,siavec1

siavec2]
ꢀꢀꢀꢀ
(13);
[0039]
孪生交互结构所产生的向量siavec,既保留了文本原始的语义信息,又增强了两个文本之间语义交互性。
[0040]
(4)lstm-bilstm网络结构:
[0041]
网络结构如图1中的nc2网络通道。该通道将文本对s1、s2连接成一句文本,如公式(14)所示。
[0042]
sen=[[cls]s1[sep]s2[sep]]
ꢀꢀꢀꢀ
(14);
[0043]
将sen输入roberta-we模型,提取模型的pooler_out输出层向量pvec作为sen的向量表示,如公式(15)所示。
[0044]
pvec=[robertawe([sen])]
pooler_out
ꢀꢀꢀꢀ
(15);
[0045]
首先将向量pvec接入lstm层,得到向量lvec,如公式(16)所示。
[0046]
lvec=lstm([pvec])
ꢀꢀꢀꢀ
(16);
[0047]
为避免丢失原始的文本信息,首先将向量lvec与原始向量pvec连接,然后将连接向量接入bilstm层,如公式(17)所示,lbvec即为nc2网络通道最终的输出向量。
[0048]
lbvec=bilstm(concat[lvec,pvec])
ꢀꢀ
(17);
[0049]
向量lbvec的是在roberta-we所提取的句对向量的基础上,进一步提升了单文本内部以及两文本之间的语义交互性,丰富了向量中所蕴含的句对的表征信息。
[0050]
(5)基于roberta-wwm-ext微调的文本特征表示结构:
[0051]
结构如图1中的nc3网络通道,基于roberta-we微调的句对向量表示模型在roberta-we的基础上添加线性转换层和softmax激活层,同时具有向量参数的微调机制。
[0052]
提取roberta-we的pooler_out输出层向量pvec,然后将pvec经过句对分类模型的线性转换层,转换公式如(18)所示。
[0053]
lwvec=pvec
·wt
bias
ꢀꢀꢀꢀ
(18);
[0054]
在公式(18)中,w为向量pvec进行线性转换的权重矩阵,bias为函数的偏置,lwvec为pvec经过线性转换后的向量表示。向量lwvec经过softmax激活层,得出最终的文本对匹配结果p
lwvec
,如公式(19)所示。
[0055]
[0056]
针对数据进行有监督的训练,产生句对分类预训练模型ptm,提取logits输出层作为文本对的微调型的特征向量,如公式20所示。
[0057]
lgvec=[ptm([sen])]
logits
ꢀꢀ
(20);
[0058]
基于roberta-we微调的句对分类模型的文本特征表示向量lgvec,特征在于其向量内部信息直接包含了文本对之间的语义匹配关系,对后续的文本对匹配度的判断起着关键的作用。
[0059]
(6)mlp结构:
[0060]
经过前面章节的分析,向量lgvec包含了句对的语义匹配信息,因此向量lgvec在mlp层的前两层全连接层不参与训练,以避免匹配信息的丢失。在向量siavec、lbvec经过两层训练之后,再让向量lgvec参与后续的训练,如图1中的mlp结构。
[0061]
首先将向量siavec、lbvec连接,参与mlp前两个全连接层的训练,公式描述如(21)所示,r
l2
为两个全连接层的输出。
[0062][0063]
然后再将向量lgvec与r
l2
连接,参与mlp第3层全连接层产生向量r
l3
,向量r
l3
经过激活函数sigmoid,得出最终的匹配结果r,含义如公式(22)所示。
[0064][0065]
其中r=0表示文本s1、s2的语义不匹配,s=1则表示文本s1、s2之间的语义匹配。
[0066]
本发明的技术特点和效果:发明中设计了内嵌了软对齐注意力机制和bilstm的孪生交互结构,增强了两文本之间的语义交互;搭建了一个lstm-bilstm网络层,增强了向量对文本上下文语义信息的表达;构造了基于roberta-wwm-ext微调的文本特征表示结构,所提取向量融合了句对之间语义匹配信息,提升向量对文本间语义关系的表示力度;针对三种向量表示设计了特定的mlp网络结构,最终达到了提升中文语义匹配准确率的目的。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献