基于词汇增强的信息解析方法、装置及电子设备与流程

2022-07-02 09:21:39 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种基于词汇增强的信息解析方法、装置及电子设备。

背景技术：

2.在文本处理中，一个通用的需求是将一段文本中有价值的信息提取出来，比如在订购酒店的需求，需要将非结构的文本信息中的地点，时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求，从非结构化的文本信息中提取有价值的信息。
3.在文本处理中，一个通用的需求是将一段文本中有价值的信息提取出来，比如在订购酒店的需求，需要将非结构的文本信息中的地点，时间等关键信息抽取出来。在金融债券领域中也同样存在这种需求，从非结构化的文本信息中提取有价值的信息。
4.现有的预训练模型在构造中文语言模型上，嵌入层采用的是字符级别的输入，缺点是忽视了文本中丰富的词汇的信息，对文本信息尤其是边界信息的提取效果提升有限。
5.针对中文的优化模型，比如lattice-lstm，无法与预训练模型结合起来，同时，训练阶段也不能实现并行化，这就导致预训练模型丰富的语义表征被浪费而且训练效率低。
6.因此，现有技术还有待于改进和发展。

技术实现要素：

7.鉴于上述现有技术的不足，本发明提供了一种基于词汇增强的信息解析方法、装置及电子设备，旨在解决现有技术中的信息解析方法中的中文优化模型无法与预训练模型结合起来，训练阶段也不能实现并行化，这就导致预训练模型丰富的语义表征被浪费，模型训练效率低的问题。
8.本发明的技术方案如下：
9.本发明第一实施例提供了一种基于词汇增强的信息解析方法，方法包括：
10.获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；
11.构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；
12.将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。
13.进一步地，所述获取待解析的债券信息，根据债券信息构造输入序列，包括：
14.获取待解析的债券信息，将债券信息处理为单个的字符；
15.根据单个的字符构造输入序列。
16.进一步地，所述根据单个的字符构造输入序列，包括：
17.获取待解析的债券信息中的中文句子；
18.根据预设的词典对中文句子进行匹配，获取中文句子中的词汇；
19.获取每个字符与包含所述字符的词汇组成词汇对，生成输入序列。
20.进一步地，所述构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征，包括：
21.构建基于bert模型的预训练模型；
22.通过bert模型对输入序列进行处理，生成输入序列对应的语义表征。
23.进一步地，所述通过bert模型对输入序列进行处理，生成输入序列对应的语义表征，包括：
24.通过bert模型对输入序列中的词汇向量进行非线性变换，生成非线性变换后的词汇向量，所述变换后的词汇向量与字符向量的维度对齐；
25.计算字符向量与词汇向量的相关性，根据相关性计算所有词汇向量的权重，根据权重计算目标词汇向量；
26.将目标词汇向量融合到字符向量中，生成输入序列的语义表征。
27.进一步地，所述计算字符向量与词汇向量的相关性，根据相关性计算所有词汇向量的权重，根据权重计算目标词汇向量，包括：
28.根据双线性注意力层计算字符向量与词汇向量的相关性；
29.根据相关性计算所有词汇向量的权重；
30.根据权重计算目标词汇向量。
31.进一步地，所述将目标词汇向量融合到字符向量中，生成输入序列的语义表征，包括：
32.将目标词汇向量与字符向量进行相加，生成融合表征，所述融合表征为输入序列的语义表征。
33.本发明的另一实施例提供了一种基于词汇增强的信息解析装置，装置包括：
34.序列构建模块，用于获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；
35.输入序列处理，用于构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；
36.目标向量输出模块，用于将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。
37.本发明的另一实施例提供了一种电子设备，所述电子设备包括至少一个处理器；以及，
38.与所述至少一个处理器通信连接的存储器；其中，
39.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于词汇增强的信息解析方法。
40.本发明的另一实施例还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于词汇增强的信息解析方法。
41.有益效果：本发明实施例充分利用了文本中的词汇信息，从而能使该装置更好的识别出实体边界，提升了金融债券二级成交业务中交易要素提取的准确率。
附图说明
42.下面将结合附图及实施例对本发明作进一步说明，附图中：
43.图1为本发明一种基于词汇增强的信息解析方法较佳实施例的流程图；
44.图2为本发明一种基于词汇增强的信息解析方法较佳实施例的网络结构示意图；
45.图3为本发明一种基于词汇增强的信息解析方法较佳实施例的字符与词汇对的示意图；
46.图4为本发明一种基于词汇增强的信息解析方法较佳实施例的具体应用实施例的流程示意图；
47.图5为本发明一种基于词汇增强的信息解析方法较佳实施例的具体应用实施例的增加了词汇适配器装置的网络示意图；
48.图6为本发明一种基于词汇增强的信息解析装置的较佳实施例的功能模块示意图；
49.图7为本发明一种电子设备的较佳实施例的硬件结构示意图。
具体实施方式
50.为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
51.以下结合附图对本发明实施例进行介绍。
52.针对上述问题，本发明实施例提供了一种基于词汇增强的信息解析方法，请参阅图1，图1为本发明一种基于词汇增强的信息解析方法较佳实施例的流程图。如图1所示，其包括：
53.步骤s100、获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；
54.步骤s200、构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；
55.步骤s300、将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。
56.具体实施时，本发明实施例中的用于对债券信息进行解析，主要任务是命名实体识别。命名实体识别从模型来说是一个编码器-解码器模型，具体来说就是编码器学习语义的表征，解码器学习实体抽取等下游任务。本发明实施例在基础的端到端深度学习框架上，通过构造模型输入和词汇适配器，来与原有的基于字符的文本表征对齐，从而使得词汇信息可以融合到编码器中，引导神经网络学习更深层次的词汇关系。
57.如图2所示，本发明的命名实体识别模型的网络结构示意图，图2中input embedder:输入嵌入层；multi-head attention:多头注意力；add&ln:残差连接与层归一化；feed forward:前向反馈神经网络；lexicon adapter:词汇适配器装置。ci:第i个输入字符；ei:第i个字符向量；模型第l层的第i个输出。
58.构造字符与单词对的输入序列；构造预训练模型，对字符与词汇序列中的词向量进行非线性变换；通过双线性注意力层对变换后的字符与词汇数量的相关性，获取所有单词的权重和，生成词汇信息；将词汇信息融合到字符向量中，获取输入层的语义表征；根据
词汇向量与字符向量相加得到融合表征；将融合表征通过丢弃层和层归一化层后，生成目标向量，完成债券信息的解析。
59.在一个实施例中，获取待解析的债券信息，根据债券信息构造输入序列，包括：
60.获取待解析的债券信息，将债券信息处理为单个的字符；
61.根据单个的字符构造输入序列。
62.具体实施时，因为分词的难以迁移到transformer结构的预训练模型上且具有不确定性，传统针对中文的预训练模型都是基于字符级别的输入。本发明提出了构造“字符-单词”对的输入序列，可以将与字符相关的词汇融合到模型的输入层，从而使得模型能够学习到词汇种蕴含的语义。
63.在一个实施例中，根据单个的字符构造输入序列，包括：
64.获取待解析的债券信息中的中文句子；
65.根据预设的词典对中文句子进行匹配，获取中文句子中的词汇；
66.获取每个字符与包含所述字符的词汇组成词汇对，生成输入序列。
67.具体实施时，对于给定的中文句子sc＝{c1，c2，...，c3}，利用词典d自动匹配出句子中包含的潜在词汇。然后，在匹配到的这些词汇中，每个字符和包含该字符的词汇组成词汇对，表示为s
cw
＝{c1，ws1)，(c2，ws2)，...，(cn，wsn)}，其中ci表示句子中第i个字符，wsi表示包含ci的词汇集合。如图3所示，为字符和词汇对示意图。
68.在一个实施例中，构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征，包括：
69.构建基于bert模型的预训练模型；
70.通过bert模型对输入序列进行处理，生成输入序列对应的语义表征。
71.具体实施时，本发明实施例构建基于bert模型的预训练模型，基于bert模型进行预训练，生成输入序列对应的语义表征。bert模型主要利用了transformer的encoder结构，采用的是最原始的transformer，总的来说bert具有以下的特点：
72.结构：采用了transformer的encoder结构，但是模型结构比transformer要深。transformer encoder包含6个encoder block，bert-base模型包含12个encoder block，bert-large包含24个encoder block。训练：训练主要分为两个阶段：预训练阶段和fine-tuning阶段。预训练阶段与word2vec，elmo等类似，是在大型数据集上根据一些预训练任务训练得到。fine-tuning阶段是后续用于一些下游任务的时候进行微调，例如文本分类，词性标注，问答系统等，bert无需调整结构就可以在不同的任务上进行微调。
73.在一个实施例中，通过bert模型对输入序列进行处理，生成输入序列对应的语义表征，包括：
74.通过bert模型对输入序列中的词汇向量进行非线性变换，生成非线性变换后的词汇向量，所述变换后的词汇向量与字符向量的维度对齐；
75.计算字符向量与词汇向量的相关性，根据相关性计算所有词汇向量的权重，根据权重计算目标词汇向量；
76.将目标词汇向量融合到字符向量中，生成输入序列的语义表征。
77.在一个实施例中，计算字符向量与词汇向量的相关性，根据相关性计算所有词汇向量的权重，根据权重计算目标词汇向量，包括：
78.根据双线性注意力层计算字符向量与词汇向量的相关性；
79.根据相关性计算所有词汇向量的权重；
80.根据权重计算目标词汇向量。
81.在一个实施例中，目标词汇向量融合到字符向量中，生成输入序列的语义表征，包括：
82.将目标词汇向量与字符向量进行相加，生成融合表征，所述融合表征为输入序列的语义表征。
83.具体实施时，将词汇信息融入字符信息有两大难点，而现有技术都没有有效的解决方案：词向量与字符向量维度的对齐从而构造模型的输入层；让模型能够学习到上下文语义相关的词汇，即将注意力集中在语义相关的词汇。
84.为了能将改造后的输入，即“字符-词汇”对序列融入到诸如bert的预训练模型中，本发明在输入层构造了词汇适配器装置从而解决以上不足。
85.如图4所示，对“字符-词汇”对序列中的词向量进行非线性变换以便和字符向量进行维度对齐；将“字符-词汇”对序列的第i个位置的输入定义为：其中：
86.字符向量，即bert中某一层transformer的输出。
87.字符所对应的词汇词向量的集合。
88.字符所对应的第j个词汇的表征。ew是预训练好的词向量表，w
ij
是wsi词汇集合所对应的第j个词汇。
89.然后，通过如下非线性变化来实现词汇词向量和字符向量的维度对齐：
[0090][0091]
其中w1是dc×dw
的矩阵，w2是dc×
dc的矩阵，b1和b2为bias(偏差)。dc,dw分别代表bert的隐层向量维度和词向量的维度。
[0092]
为了将词典匹配出来的最相关的词汇赋予更大权重值，采用了如下双线性注意力层：
[0093]
利用得到的词向量构造第i个字符所对应的词汇词向量构造第i个字符所对应的词汇词向量vi是m
×
dc的矩阵，m为每个字符所匹配到的词汇数量。然后计算字符和词汇的相关性ai：
[0094][0095]wattn
是双线性注意力层的权重矩阵，接下来计算所有单词的权重和：
[0096][0097]
输出层的目的是将得到的词汇信息融合到字符向量中，获得输入层的语义表征。首先，将词汇向量与字符向量相加得到融合表征
[0098][0099]
然后，将得到的融合表征分别通过dropout层(丢弃层)与layernorm层(层归一
化层)进一步提升鲁棒性。
[0100]
传统的基于bert的预训练模型缺乏将词汇信息融入到各层transformer模块之间的装置，各层transformer模块的数据输入均是字符向量。
[0101]
本发明实施例的预训练模型如图5所示，通过将词汇适配器装置应用到bert预训练模型中，从而结合bert强大的语义表征能力和词汇中所蕴含的上下文语义信息。得到的词汇适配器融入到bert模型中的任意transformer层之间。
[0102]
本发明实施例采用的是bert预训练模型得到文本编码，在一些其他的实施例中，可根据业务需要采用其他基于transformer的预训练模型。
[0103]
在一些其他的实施例中，词汇适配器装置可以扩展到融入到所有transformer层之间。
[0104]
在一些其他实施例中，可根据业务不同选择不同的词向量从而获得更准确的语义表征。
[0105]
本发明实施例词汇适配器中利用非线性变化和双向线性注意力机制融合词汇信息和字符信息的方法；将词汇适配器融合到bert任意一层transformer；充分利用了文本中的词汇信息，从而能使该装置更好的识别出实体边界；在金融债券二级成交业务中交易要素提取的准确率提升了2％-4％。
[0106]
需要说明的是，上述各步骤之间并不必然存在一定的先后顺序，本领域普通技术人员，根据本发明实施例的描述可以理解，不同实施例中，上述各步骤可以有不同的执行顺序，亦即，可以并行执行，亦可以交换执行等等。
[0107]
本发明另一实施例提供一种基于词汇增强的信息解析装置，如图6所示，装置1包括：
[0108]
序列构建模块11，用于获取待解析的债券信息，根据债券信息构造输入序列，所述输入序列包括债券信息中的字符向量和字符对应的词汇向量；
[0109]
输入序列处理12，用于构建预训练模型，通过预训练模型对输入序列进行处理，生成输入序列的语义表征；
[0110]
目标向量输出模块13，用于将语义表征通过丢弃层和归一化层后，输出目标向量，所述目标向量为解析后的结构化的债券信息。
[0111]
具体实施方式见方法实施例，此处不再赘述。
[0112]
本发明另一实施例提供一种电子设备，如图7所示，电子设备10包括：
[0113]
一个或多个处理器110以及存储器120，图7中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图7中以通过总线连接为例。
[0114]
处理器110用于完成电子设备10的各种控件逻辑，其可以为通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、单片机、arm(acorn risc machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件控件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp核、或任何其它这种配置。
[0115]
存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于词汇增强的信息解析
方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行设备10的各种功能应用以及数据处理，即实现上述方法实施例中的基于词汇增强的信息解析方法。
[0116]
存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作装置、至少一个功能所需要的应用程序；存储数据区可存储根据设备10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0117]
一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于词汇增强的信息解析方法，例如，执行以上描述的图1中的方法步骤s100至步骤s300。
[0118]
本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描述的图1中的方法步骤s100至步骤s300。
[0119]
作为示例，非易失性存储介质能够包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明并非限制，ram可以以诸如同步ram(sram)、动态ram、(dram)、同步dram(sdram)、双数据速率sdram(ddr sdram)、增强型sdram(esdram)、synchlink dram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器控件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
[0120]
本发明的另一种实施例提供了一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被处理器执行时，使处理器执行上述方法实施例的基于词汇增强的信息解析方法。例如，执行以上描述的图1中的方法步骤s100至步骤s300。
[0121]
以上所描述的实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0122]
通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存在于计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)执行各个实施例或者实施例的某些部分的方法。
[0123]
除了其他之外，诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解，否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此，这样的条件语言一般地
还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
[0124]
已经在本文中在本说明书和附图中描述的内容包括能够提供基于词汇增强的信息解析方法及装置的示例。当然，不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合，但是可以认识到，所公开的特征的许多另外的组合和置换是可能的。因此，显而易见的是，在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外，或在替代方案中，本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是，本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语，但是它们在通用和描述性意义上被使用并且不用于限制的目的。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：将多任务参数相关操作的执行卸载到网络装置的制作方法

基于词汇增强的信息解析方法、装置及电子设备与流程

相关文献

最热文献