一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

命名实体识别方法和装置与流程

2021-10-23 00:44:00 来源:中国专利 TAG:实体 识别 方案 分词 命名


1.本公开涉及命名实体识别方案,特别涉及对产品标题的分词设置类别标签的实体识别方案


背景技术:

2.在例如电子商务领域中,卖家会对其销售的商品设置诸如产品标题(title)之类的宣传语句。产品标题是卖方对在售产品的简要说明,例如
“……
柔性硅胶壳
……”
,其中包含了与其商品相关的很多信息,例如“柔性”表示其样式/属性,“硅胶”表示其材料,“壳”则表示其是什么产品。可以通过命名实体识别(ner,named entity recognition)系统来从产品标题中提取信息,从而为该商品设置相应的类别标签。
3.ner系统的目标是识别输入文本中标记(token)的跨度(span),并将它们分类为预定义的类别。输入文本可以是句子。预定义的类别典型地有“人名”、“地名”、“机构名”等。对于电子商务等特定领域,输入文本可以是产品标题,预定义的类别可以是“产品名称”、“品牌”、“消费群”等。这取决于目标命名实体类型的设计。
4.目前,使用手动注释的数据来对ner系统中的ner模型进行训练。
5.例如,给定取自产品标题的文本段
“……
柔性硅胶壳
……”
,其注释版本将是
“……
[柔性]_样式[硅胶]_材料[壳]_产品
……”
。在本例中,将标记“硅胶”标注(打标签)为“材料”,而标记“壳”标注为“产品”。
[0006]
如上例所示的标记级别的ner注释需要大量的人力。
[0007]
因此,在例如针对产品标题的类别标签识别的缺乏人工注释语言资源或语料库的语言的低资源语言ner中,仍然需要一种方便有效的ner模型训练方法,从而实现更好的ner效果。


技术实现要素:

[0008]
本公开要解决的一个技术问题是提供一种针对低资源语言方便有效地训练ner模型的ner方案。
[0009]
根据本公开的第一个方面,提供了一种命名实体识别方法,包括:以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练,识别模型具有命名实体识别任务和句子分类任务共用的共享层和分别用于命名实体识别任务和句子分类任务的任务特定层;以及将文本输入到经过训练的识别模型,得到相应的命名实体识别结果。
[0010]
可选地,对识别模型进行训练的步骤包括:使用具有句子分类标签的训练样本对句子分类模型进行预训练,以得到经过预训练的共享层参数,句子分类模型包括共享层和用于句子分类任务的任务特定层;以及使用具有命名实体识别标签和句子分类标签的训练样本对识别模型进行训练。
[0011]
可选地,为了训练句子分类模型,使下述多分类交叉熵损失函数l
c
最小化:
[0012][0013]
其中,i表示句子索引,n是训练样本的数量,k是目标分类的数量,s
k
是应用softmax函数后的第k个目标分类的标准化预测分值,而t是独热编码的真标签,为了训练命名实体识别模型,使正确标签序列相对于训练集的负对数似然函数l
ner
最小化:
[0014][0015]
其中,y表示标签序列,p(y
(i)
|h'
(i)
)是基于对应于第i个句子的最终隐藏表示h'
(i)
得到的标签序列y的概率,命名实体识别模型包括共享层和用于命名实体识别任务的任务特定层,结合l
c
和l
ner
,得到联合损失函数l
joint

[0016][0017]
其中,λ是平衡参数,在对识别模型进行训练的过程中,使联合损失函数最小化。
[0018]
可选地,共享层包括下述至少一项:词嵌入层、投影层、bilstm层、注意力层,输出最终隐藏表示;并且/或者用于命名实体识别任务的任务特定层包括条件随机场层,条件随机场层基于最终隐藏表示得到命名实体识别结果;并且/或者用于句子分类任务的任务特定层包括池化层和线性层,池化层对最终隐藏表示进行池化处理以得到线性层的输入,线性层输出句子分类结果。
[0019]
可选地,词嵌入层是经过预训练的词嵌入层;并且/或者词嵌入层的输入是对训练样本或文本进行分词处理后得到的分词序列;并且/或者词嵌入层将所输入的分词序列中的分词分别表示为对应的词嵌入向量;并且/或者投影层对词嵌入向量进行投影,得到bilstm层的对应于分词的输入向量;并且/或者bilstm层输出对应于分词的隐藏表示;并且/或者注意力层对隐藏表示施加注意力机制,得到对应于分词的最终隐藏表示;并且/或者池化层对最终隐藏表示进行最大池化,以创建固定尺寸全局向量,作为线性层的输入;并且/或者线性层基于池化层输出的固定尺寸全局向量,获得每个分类的预测分值。
[0020]
可选地,注意力层通过下述公式得到最终隐藏表示:
[0021]
h

=concat(head1,...,head
n
)w
o
h,
[0022]
head
j
=attention(q
j
,k
j
,v
j
),
[0023][0024]
其中,h是隐藏表示,h

是最终隐藏表示,n是自注意力机制中头的个数,j是对应头的序号,1≤j≤n,w
o
是权重矩阵,concat()是连接函数,attention()是注意力函数。
[0025]
可选地,通过下述公式计算注意力函数:
[0026]
[0027][0028]
其中,w是权重向量,d
h
是隐藏表示的维度。
[0029]
可选地,将文本输入到经过训练的识别模型的步骤包括:对文本进行分词处理,得到分词序列;将分词序列输入共享层中的词嵌入层。
[0030]
可选地,该方法应用于电子商务场景;并且/或者文本是产品标题;并且/或者命名实体识别结果是产品标题中各分词对应的类别。
[0031]
根据本公开的第二个方面,提供了一种命名实体识别方法,包括:提供命名实体识别模型,命名实体识别模型是通过以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对命名实体识别模型和句子分类模型进行训练而得到的,其中命名实体识别模型和句子分类模型具有共用的共享层和各自的任务特定层;以及将文本输入到命名实体识别模型,得到相应的命名实体识别结果。
[0032]
根据本公开的第三个方面,提供了一种对产品标题的分词设置类别标签的方法,包括:提供类别识别模型,类别识别模型是通过以类别识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对类别识别模型和句子分类模型进行训练而得到的,其中类别识别模型和句子分类模型具有共用的共享层和各自的任务特定层;对产品标题进行分词处理,得到分词序列;以及将分词序列输入到类别识别模型,得到分词序列中各分词对应的类别标签。
[0033]
可选地,类别标签是预定类别标签集合中的类别标签。
[0034]
根据本公开的第四个方面,提供了一种对命名实体识别模型进行训练的方法,包括:获取具有句子分类标签的句子,作为第一训练样本;获取具有命名实体识别标签和句子分类标签的句子,作为第二训练样本;以及使用第一训练样本和第二训练样本,以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练,其中,识别模型具有命名实体识别任务和句子分类任务共用的共享层和分别用于命名实体识别任务和句子分类任务的任务特定层。
[0035]
可选地,对识别模型进行训练的步骤包括:使用第一训练样本对句子分类模型进行预训练,以得到经过预训练的共享层参数,句子分类模型包括共享层和用于句子分类任务的任务特定层;以及使用第二训练样本对识别模型进行训练。
[0036]
可选地,为了训练句子分类模型,使下述多分类交叉熵损失函数l
c
最小化:
[0037][0038]
其中,i表示句子索引,n是训练样本的数量,k是目标分类的数量,s
k
是应用softmax函数后的第k个目标分类的标准化预测分值,而t是独热编码的真标签,为了训练ner模型,使正确标签序列相对于训练集的负对数似然函数l
ner
最小化:
[0039][0040]
其中,y表示标签序列,p(y
(i)
|h'
(i)
)是基于对应于第i个句子的最终隐藏表示h'
(i)
得到的标签序列y的概率,命名实体识别模型包括共享层和用于命名实体识别任务的任务特定层,结合l
c
和l
ner
,得到联合损失函数l
joint

[0041][0042]
其中,λ是平衡参数,在对命名实体识别模型和句子分类模型进行训练的过程中,使联合损失函数最小化。
[0043]
根据本公开的第五个方面,提供了一种命名实体识别装置,包括:模型训练装置,用于以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练,识别模型具有命名实体识别任务和句子分类任务共用的共享层和分别用于命名实体识别任务和句子分类任务的任务特定层;以及识别装置,用于将文本输入到经过训练的命名实体识别模型,得到相应的命名实体识别结果。
[0044]
可选地,模型训练装置包括:第一训练装置,使用具有句子分类标签的训练样本对句子分类模型进行预训练,以得到经过预训练的共享层参数,句子分类模型包括共享层和用于句子分类任务的任务特定层;以及第二训练装置,使用具有命名实体识别标签和句子分类标签的训练样本对识别模型进行训练。
[0045]
根据本公开的第六个方面,提供了一种命名实体识别装置,包括:准备装置,用于提供命名实体识别模型,命名实体识别模型是通过以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对命名实体识别模型和句子分类模型进行训练而得到的,其中命名实体识别模型和句子分类模型具有共用的共享层和各自的任务特定层;以及识别装置,用于将文本输入到命名实体识别模型,得到相应的命名实体识别结果。
[0046]
根据本公开的第七个方面,提供了一种对产品标题的分词设置类别标签的装置,包括:准备装置,用于提供类别识别模型,类别识别模型是通过以类别识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对类别识别模型和句子分类模型进行训练而得到的,其中类别识别模型和句子分类模型具有共用的共享层和各自的任务特定层;分词装置,用于对产品标题进行分词处理,得到分词序列;以及识别装置,用于将分词序列输入到命名实体识别模型,得到分词序列中各分词对应的类别标签。
[0047]
根据本公开的第八个方面,提供了一种对命名实体识别模型进行训练的装置,包括:第一获取装置,用于获取具有句子分类标签的句子,作为第一训练样本;第二获取装置,用于获取具有命名实体识别标签和句子分类标签的句子,作为第二训练样本;以及模型训练装置,用于使用第一训练样本和第二训练样本,以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练,其中,识别模型具有命名实体识别任务和句子分类任务共用的共享层和分别用于命名实体识别任务和句子分类任务的任务特定层。
[0048]
根据本公开的第九个方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行如上述第一至第四方面所述的方法。
[0049]
根据本公开的第十个方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行如上述第一至第四方面所述的方法。
[0050]
由此,能够针对低资源语言ner方便有效进行模型训练,从而实现更好的ner效果。
附图说明
[0051]
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
[0052]
图1是根据本公开的识别模型的系统架构示意图。
[0053]
图2是根据本公开的模型训练方法的示意性流程图。
[0054]
图3是可用于实施根据本公开的模型训练方法的ner模型训练装置的示意性框图。
[0055]
图4是训练步骤的详细过程的示意性流程图。
[0056]
图5是图3中的训练装置的示意性框图。
[0057]
图6是根据本公开的命名实体识别方法的示意性流程图。
[0058]
图7是可用于实施根据本公开的命名实体识别方法的ner装置的示意性框图。
[0059]
图8是根据本公开一个实施例的命名实体识别方法的示意性流程图。
[0060]
图9是可用于实施根据本公开一个实施例的命名实体识别方法的ner装置的示意性框图。
[0061]
图10是根据本公开可用于对产品标题的分词设置类别标签的方法的示意性流程图。
[0062]
图11是可用于实施根据本公开的类别标签设置方法的装置的示意性框图。
[0063]
图12示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。
具体实施方式
[0064]
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0065]
本公开的发明人注意到,虽然标记级别的标签注释成本很高,但是句子级别的标签通常更容易获得。例如,在电子商务领域中,上述示例中的产品标题属于由卖家指定的“电子设备”类别。我们可以使用产品类别作为噪音句子级别的标签,并执行标准文本分类。
[0066]
这样,可以考虑从句子级别的分类标签中传递有用的信息,来改进标记级别的ner。
[0067]
发明人提出,可以采用多任务学习的思想来实现对ner模型的训练。
[0068]
多任务学习是通过在相关任务之间共享表示或层,使模型能够更好地泛化目标任务的技术。
[0069]
这样,可以以ner任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对ner模型和句子分类模型进行联合训练。
[0070]
【识别模型】
[0071]
下面,参考图1描述本公开的识别模型的系统架构。
[0072]
图1示意性地示出了根据本公开的识别模型的系统架构。
[0073]
如图1所示,本公开的识别模型可以视为ner模型和句子分类模型的结合。
[0074]
如图1所示本公开的识别模型可以包括两个主要组成部分:共享层(sharedlayer)和任务特定层(task-specific layer)。
[0075]
ner模型和句子分类模型共用共享层。同时,ner模型和句子分类模型分别具有各自的任务特定层。
[0076]
换言之,ner任务和句子分类任务共用共享层,各自的任务特定层分别用于ner任务和句子分类任务。
[0077]
共享层例如可以包括词嵌入层、投影层、双向长短期记忆(bilstm)层和注意力层,并输出最终隐藏表示h'。
[0078]
用于ner任务的任务特定层可以包括条件随机场层(crf),条件随机场层基于最终隐藏表示得到ner结果。
[0079]
用于句子分类任务的任务特定层可以包括池化层和线性层。池化层对最终隐藏表示进行池化处理以得到线性层的输入,线性层输出句子分类结果。
[0080]
下面,详细描述本公开的识别模型中的共享层。
[0081]
词嵌入(word embedding)层将所输入的分词序列中的分词分别表示为对应的词嵌入向量,其输入是对训练样本或识别对象文本(即“句子”)进行分词处理后得到的分词序列。这里,以分词序列中的各分词作为标记(token)。
[0082]
设w1,w2,w3,
……
,w
t
为输入标记/分词序列,其中t是句子长度,或者说,t是句子中所包含的标记/分词数量。图1中t=5。
[0083]
词嵌入层可以使用预先训练的词嵌入向量e
t
来表示每个w
t
,1≤t≤t。
[0084]
词嵌入层可以是经过预训练的词嵌入层。例如,可以使用公开可得的fasttext预训练的词嵌入层。
[0085]
可以不对e
t
进行微调,而使用投影层将其投影到新空间x
t

[0086]
投影层(projectionlayer)对词嵌入向量e
t
进行投影,得到bilstm层的对应于各分词的输入向量x=[x1,x2,x3,
……
,x
t
]。
[0087]
将x=[x1,x2,x3,
……
,x
t
]馈送到bilstm(双向长短期记忆)网络,得到对应于分词的隐藏表示h=[h1,h2,h3,
……
,h
t
]。
[0088][0089]
d
h
是隐藏表示h
t
的维度。
[0090]
注意力(attention)层对h施加注意力机制,以帮助识别模型聚焦于特定标记。这个过程可以通过下述公式得到对应于分词的最终隐藏表示h


[0091]
h

=concat(head1,...,head
n
)w
o
h,
[0092]
head
j
=attention(q
j
,k
j
,v
j
),
[0093][0094]
其中,h是隐藏表示,h

是最终隐藏表示,h

=[h1′
,h2′
,h3′

……
,h
t

]。n是自注意力机制中头(head)的个数,j是对应头的序号,1≤j≤n,力机制中头(head)的个数,j是对应头的序号,1≤j≤n,w
o
是可训练的权重矩阵,concat()是连接函数,attention()是注意力函数。
[0095]
这里,可以使用自注意力机制。自注意机制是一种允许模型对输入句子的不同标记进行注意力分配(即分配更多权重)的技术。
[0096]
可以通过下述公式计算注意力函数:
[0097][0098][0099]
其中,w是可训练的权重向量,d
h
是隐藏表示的维度。
[0100]
q、k、v即为上述q
j
、k
j
、v
j
整合得到的矩阵。t表示矩阵转置。
[0101]
softmax函数可以看做是sigmoid函数的一般化,可以进行多分类。数组z中第i个元素的softmax函数的函数表达式可以表示为:
[0102][0103]
softplus函数的数学表达式可以表示为:
[0104]
softplus(x)=log(1 e
x
)
[0105]
由于softplus函数产生的输出值的范围为(0,∞),所以δ的第t个元素的范围为
[0106]
本公开的识别模型使用通过学习得到的比例因子δ。这样,识别模型能够动态调节比例因子δ而不会增加大量计算成本。
[0107]
如上所述,本公开的识别模型可以包含多头自注意力机制的新变形,其使用通过学习得到的比例因子δ,使得模型能够控制对句子中多个标记的注意力分布。通过学习得到的比例因子可以使用线性变换简单地计算得到,不会增加大量计算成本。
[0108]
下面描述任务特定层。
[0109]
用于ner任务的任务特定层可以包括条件随机场层(crf)。条件随机场层基于最终隐藏表示h

得到标签序列y的概率,y1、y3、y3、
……
、y
t
,从而得到命名实体识别的结果。
[0110]
例如,“b-product”、“e-product”表示“产品”(例如可以分别表示“产品”标签的开始和结束);“s-material”表示“材料”;“s-pattern”表示“样式”:“o”表示无标签。
[0111]
用于句子分类任务的任务特定层可以包括池化(pooling)层和线性(linear)层。
[0112]
池化层对最终隐藏表示h

进行最大池化,以创建固定尺寸全局向量,作为线性层的输入。这使得模型能够捕获隐藏层状态中编码的最有用的局部特征。
[0113]
池化层将该固定尺寸全局向量馈送给线性层。线性层s基于此向量获得每个分类的未标准化的预测分值,从而输出句子分类结果。例如,“electronics”表示分类“电子设备”。
[0114]
【模型训练】
[0115]
如上文所述,本公开以ner任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练。
[0116]
识别模型可以是视为ner模型和句子分类模型的结合,具有ner任务和句子分类任务共用的共享层和分别用于ner任务和句子分类任务的任务特定层。
encoded true label)。
[0137]
对于ner,将h'馈送到crf层,得到标签序列y的概率p。
[0138]
为了训练ner模型,使正确标签序列相对于训练集的负对数似然函数最小化:
[0139][0140]
其中,y表示标签序列,p(y
(i)
|h'
(i)
)是基于对应于第i个句子的最终隐藏表示h'
(i)
得到的标签序列y的概率。
[0141]
结合和得到联合损失函数
[0142][0143]
其中,λ是平衡参数。在一个实施例中,可以简单地将λ设置为1。
[0144]
这里,可以用作正则化项(正则化(regularization)是一种处理模型训练中出现的过拟合的技术),其有助于减小ner任务中的过拟合。
[0145]
在对ner模型和句子分类模型进行训练的过程中,使联合损失函数最小化。
[0146]
如上所述,本公开不但如图1所示联合训练句子分类模型和ner模型,而且还使用大量仅具有句子标签的训练样本来对句子分类模型进行预训练。经过预训练的隐藏表示将帮助识别模型在ner任务中更好地泛化。
[0147]
由此,对结合ner模型和句子分类模型得到的识别模型实现了方便有效的训练。
[0148]
下面描述根据本公开的命名实体识别方案。
[0149]
【命名实体识别】
[0150]
图6是根据本公开的命名实体识别方法的示意性流程图。
[0151]
图7是可用于实施根据本公开的命名实体识别方法的ner装置700的示意性框图。
[0152]
如图6所示,在步骤s610,例如通过模型训练装置300,以ner任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练。
[0153]
如上文所述,识别模型具有ner任务和句子分类任务共用的共享层和分别用于ner任务和句子分类任务的任务特定层。
[0154]
这里的模型训练装置300可以是图3所示的模型训练装置300,相应地,步骤s610的训练步骤可以参照图2和图4描述的步骤执行。
[0155]
然后,在步骤s620,例如通过识别装置400,可以将作为文本输入到经过训练的识别模型,得到相应的ner结果。
[0156]
这里,可以对文本进行分词处理,得到分词序列。然后,将分词序列输入共享层中的词嵌入层。
[0157]
本公开的ner方案例如可以应用于电子商务场景。以卖家为商品设置的产品标题作为输入文本(也即句子)。通过命名实体识别ner,得到产品标题中各标记/分词对应的类别标签。
[0158]
由此,可以对各商品生成相关信息清单。
[0159]
例如,产品标题中存在文本段
“……
柔性硅胶壳
……”
,可以得到下述信息清单:
[0160]
样式:柔性;
[0161]
材料:硅胶;
[0162]
产品:壳。
[0163]
另外,作为ner方案,在模型训练结束后,辅助任务即句子分类任务可以不再执行。这样,可以仅保留识别模型中用于ner任务的部分,即ner模型。
[0164]
图8是根据本公开一个实施例的命名实体识别方法的示意性流程图。
[0165]
图9是可用于实施根据本公开一个实施例的命名实体识别方法的ner装置900的示意性框图。
[0166]
如图8所示,在步骤s810,例如通过准备装置910,提供ner模型。这里的ner模型是如上文所述,通过以ner任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对ner模型和句子分类模型进行训练而得到的。其中ner模型和句子分类模型具有共用的共享层和各自的任务特定层。
[0167]
这样,可以得到经过训练的,结合ner模型和句子分类模型的识别模型。在之后的ner识别过程中,可以仅使用ner模型。
[0168]
于是,在步骤s820,例如通过识别装置400,可以将文本输入到ner模型,得到相应的ner结果。
[0169]
如上文所述,本公开的ner方案可以用于对产品标题的分词设置类表标签。
[0170]
图10是根据本公开可用于对产品标题的分词设置类别标签的方法的示意性流程图。
[0171]
图11是可用于实施根据本公开的类别标签设置方法的类别标签设置装置1100的示意性框图。
[0172]
如图10所示,在步骤s1010,例如通过准备装置1110,提供类别识别模型。
[0173]
类别识别模型可以是一种ner模型,以产品标题作为输入文本或训练数据,也即句子。ner模型对产品标题中的标记/分词(例如“硅胶”)设置类别标签(例如“材料”)。
[0174]
如上文所述,可以通过以类别识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对类别识别模型和句子分类模型进行训练而得到的。
[0175]
同样地,类别识别模型和句子分类模型具有共用的共享层和各自的任务特定层。
[0176]
在步骤s1020,例如通过分词装置1120,对产品标题进行分词处理,得到分词序列。
[0177]
例如,可以将产品标题的文本段
“……
柔性硅胶壳
……”
划分为分词“柔性”、“硅胶”、“壳”。
[0178]
然后在步骤s1030,例如通过识别装置1130,将分词序列,例如“柔性,硅胶,壳”,输入到类别识别模型,得到分词序列中各分词对应的类别标签。
[0179]
例如,“柔性”对应的类别标签为“样式”,“硅胶”对应的类别标签为“材料”,而“壳”对应的类别标签为“产品”。
[0180]
由此,可以对各商品生成相关信息清单。
[0181]
例如,产品标题中存在文本段
“……
柔性硅胶壳
……”
,可以得到下述信息清单:
[0182]
样式:柔性;
[0183]
材料:硅胶;
[0184]
产品:壳。
[0185]
这里,类别标签可以是预定类别标签集合中的类别标签。例如,可以计算获得每个标记/分词对应于预定标签集合中各个标签的概率,从而确定各个标记/分词对应于哪个类别标签。
[0186]
至此,以详细描述了根据本公开的识别模型的系统架构、训练方案和相应的识别方案。
[0187]
由此,可以方便快捷地生成信息分类清单。
[0188]
如上所述,本公开不依赖于人工生成的特征来产生输出。
[0189]
另外,本公开采用多任务学习(mtl)来充分利用辅助任务(句子分类)的训练信号。
[0190]
而且,本公开支持可以应用于ner的多类分类。
[0191]
另外,在多头自注意力机制中,本公开使用了通过学习得到的比例因子。
[0192]
本公开的系统包括用于低资源ner的新型神经网络架构及其训练算法。特别地,该神经网络架构及其训练算法基于(1)多任务学习和(2)预训练两方面的结合。
[0193]
根据第一个方面,该神经网络架构具有共享层和任务特定层。在两个任务(ner和句子分类)之间共享这些层有助于神经网络更好地泛化,并防止低资源ner任务出现过拟合。
[0194]
根据第二个方面,训练算法使用从辅助句子分类任务得到的预训练模型参数来初始化共享的词投影层和bilstm层等共享层。与使用随机初始化的方案相比,使用预训练的模型参数为训练过程提供了更好的起点。
[0195]
训练算法还可以通过优化联合损失函数来微调模型参数。
[0196]
图12示出了根据本发明一实施例可用于实现上述方法的计算设备的结构示意图。
[0197]
参见图12,计算设备1200包括存储器1210和处理器1220。
[0198]
处理器1220可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器1220可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(gpu)、数字信号处理器(dsp)等等。在一些实施例中,处理器1220可以使用定制的电路实现,例如特定用途集成电路(asic,application specific integrated circuit)或者现场可编程逻辑门阵列(fpga,field programmable gate arrays)。
[0199]
存储器1210可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器1220或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1210可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1210可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算
机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0200]
存储器1210上存储有可执行代码,当可执行代码被处理器1220处理时,可以使处理器1220执行上文述及的识别、设置和训练方法。
[0201]
上文中已经参考附图详细描述了根据本发明的识别、设置和训练。
[0202]
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
[0203]
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
[0204]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
[0205]
附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0206]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜