基于融合预训练的文本抽取方法、系统及介质与流程

2022-04-27 11:53:44 来源：中国专利 TAG：

1.本发明涉及计算机技术领域，尤其涉及基于融合预训练的文本抽取方法、系统及介质。

背景技术：

2.文本信息抽取在深度学习领域是一个比较成熟的算法技术，也成功在各种业务场景应用落地。但是在金融领域，特别是现券领域，现有的文本抽取方法还存在一定的边界问题，如“1y 000001 3.0975 4000 5.29 0a基金to b基金”，对于数字文本“3.0975”的抽取会出现只抽取到“3.09”的情况，或者对于数字文本“4000”的抽取出现只抽取到“400”的情况，使得文本抽取的准确率还不够高。
3.因此，现有技术还有待于改进和发展。

技术实现要素：

4.鉴于上述现有技术的不足，本发明的目的在于提供基于融合预训练的文本抽取方法、系统及介质，旨在提高文本抽取的准确率。
5.本发明的技术方案如下：
6.一种基于融合预训练的文本抽取方法，包括：
7.获取待抽取文本；
8.通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量；
9.选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量；
10.对所述语义特征向量进行特征选择并融合得到有效词语特征向量；
11.对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。
12.在一个实施例中，所述通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量之前，所述方法还包括：
13.对所述预训练模型进行对抗训练。
14.在一个实施例中，所述对所述预训练模型进行对抗训练，包括：
15.构造对抗样本，并将所述对抗样本加入到所述预训练模型的输入嵌入层中进行扰动；
16.根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数，直到更新次数达到预设次数则对抗训练结束。
17.在一个实施例中，所述构造对抗样本，具体包括：
18.根据以下公式进行计算得到对抗样本，
19.[0020][0021]
其中，g
adv
表示对抗训练时预训练模型的梯度，x表示输入信息，y表示标签信息，δ
t-1
表示t-1时刻的扰动大小，f
θ
表示预训练模型的输出结果，l表示损失函数，表示对损失函数中的扰动求梯度，α表示学习率，‖ ‖f是frobenius范数，g
t
表示t时刻预训练模型的梯度，∏为累乘符号。
[0022]
在一个实施例中，所述根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数，直到更新次数达到预设次数则对抗训练结束，具体包括：
[0023]
在根据所述对抗样本对所述预训练模型进行扰动后，根据公式累加参数θ的梯度，其中，k表示进行求梯度上升的次数，e表示数学期望，g
t-1
为t-1时刻预训练模型的梯度，表示对损失函数中的参数求梯度；
[0024]
根据累加后的梯度对所述预训练模型进行参数更新，直到更新次数达到预设次数时则对抗训练结束。
[0025]
在一个实施例中，所述选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量，包括：
[0026]
选取所述预训练模型中若干个预设位置的编码层作为目标编码层；
[0027]
将所述目标编码层的输出结果分别输入至一一对应连接的文本分类模型中进行邻近文本的语义提取，所述文本分类模型的数量与目标编码层相同，且各个文本分类模型的内核大小不相同；
[0028]
对每个文本分类模型的提取结果进行融合拼接，得到所述语义特征向量。
[0029]
在一个实施例中，所述对所述语义特征向量进行特征选择并融合得到有效词语特征向量，具体包括：
[0030]
通过全连接层对所述语义特征向量进行特征选择并融合得到有效词语特征向量，其中所述全连接层的输入为f
input
、输出为f
output
，
[0031]finput
＝concat(e1,e2,ei…
,en)，
[0032]foutput
＝softmax(f
input
)＝softmax(concat(e1,e2,ei…
,en))，其中，ei为第i个目标编码层的输出结果，n为目标编码层的数量。
[0033]
在一个实施例中，所述文本分类模型的内核大小为3-7。
[0034]
一种基于融合预训练的文本抽取系统，所述系统包括至少一个处理器；以及，
[0035]
与所述至少一个处理器通信连接的存储器；其中，
[0036]
所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于融合预训练的文本抽取方法。
[0037]
一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于融合预训练的文本抽取方法。
[0038]
有益效果：本发明公开了基于融合预训练的文本抽取方法、系统及介质，相比于现有技术，本发明实施例通过基于预训练模型框架进行编码得到字符向量，并且融合字符向量中的至少部分进行邻近文本的语义提取以学习文本语义信息，增强语义的学习能力，使得最终得到的词语分割结果能有效避免边界模糊的问题，提高文本提取的准确性。
附图说明
[0039]
下面将结合附图及实施例对本发明作进一步说明，附图中：
[0040]
图1为本发明实施例提供的基于融合预训练的文本抽取方法的一个流程图；
[0041]
图2为本发明实施例提供的基于融合预训练的文本抽取方法的一个模型框架示意图；
[0042]
图3为本发明实施例提供的基于融合预训练的文本抽取装置的功能模块示意图；
[0043]
图4为本发明实施例提供的基于融合预训练的文本抽取系统的硬件结构示意图。
具体实施方式
[0044]
为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。以下结合附图对本发明实施例进行介绍。
[0045]
请参阅图1，图1为本发明提供的基于融合预训练的文本抽取方法一个实施例的流程图。本实施例提供的基于融合预训练的文本抽取方法适用于对交易过程中的交易对手进行自动识别的情况。如图1所示，该方法具体包括如下步骤：
[0046]
s100、获取待抽取文本。
[0047]
本实施例中，待抽取文本可以是现券交易过程中的交易对话文本信息，例如不同交易机构之间发送的订单信息、咨询信息等等，通过获取交易对话中的文本信息作为待抽取文本来进行自动的文本抽取处理，金融信息识别处理的效率，当然，在其他实施例中，待抽取文本不仅限于现券交易中的文本信息，也可以是其他交易中的文本信息，或者对交易语音信息进行识别转换得到的文本信息等等，本实施例对此不作限定。
[0048]
s200、通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量。
[0049]
预训练模型是通过大规模的语料信息进行训练的，通过下游任务进行训练微调就可以在下游任务中达到不错的效果，因此本实施例中通过预训练模型对待抽取文本进行预训练编码，进而得到相应的字符向量，具体来说，本实施例优选采用bert预训练模型进行字符编码，bert是一个预训练的语言表征模型，其强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的mlm(masked language model，掩蔽语言模型)，以生成深度的双向语言表征，即对于输入文本按一定的概率随机屏蔽掉文本内一些词汇，然后让bert模型去预测这些被屏蔽的词汇从而进行预训练，获得每个字符的向量编码，当然在其它实施例中还可采用例如albert或roberta等预训练模型进行预训练编码，本实施例对此不作限定。
[0050]
在一个实施例中，步骤s200之前，方法还包括：
[0051]
对所述预训练模型进行对抗训练。
[0052]
本实施例中，在对待抽取文本进行字符编码前，先将预训练模型结合对抗训练学
习方法来尽可能提高模型的鲁棒性和准确性，具体可选择例如freelb、fgm、pgd等对抗训练算法，本实施例对此不作限定。
[0053]
在一个实施例中，对所述预训练模型进行对抗训练，包括：
[0054]
构造对抗样本，并将所述对抗样本加入到所述预训练模型的输入嵌入层中进行扰动；
[0055]
根据所述对抗样本对所述预训练模型进行对抗训练以更新模型参数，直到更新次数达到预设次数则对抗训练结束。
[0056]
本实施例中，对抗训练是增强模型鲁棒性的重要方式，在对抗训练的过程中，通过构造对抗样本，并将对抗样本加入到预训练模型的输入embedding层即输入嵌入层中进行扰动，预训练模型的输入样本会被混合一些微小的扰动，通过这些具有扰动的对抗样本攻击模型，使得模型能够识别出这些对抗样本的真实标签，即在训练时根据所述对抗样本对所述预训练模型进行对抗训练，使得模型适应这种改变以更新模型参数，直到对抗训练结束，从而提高模型在遇到对抗样本时的鲁棒性，同时一定程度上也能提高模型的表现和泛化能力。
[0057]
具体实施时，采用freelb对抗训练，先通过如下公式计算扰动，以对预训练模型的权重进行攻击：
[0058][0059][0060]
其中，g
adv
表示对抗训练时预训练模型的梯度，x表示输入信息，y表示标签信息，δ
t-1
表示t-1时刻的扰动大小，f
θ
表示预训练模型的输出结果，l表示损失函数，表示对损失函数中的扰动求梯度，α表示学习率，‖ ‖f是frobenius范数，g
t
表示t时刻预训练模型的梯度，∏为累乘符号。
[0061]
在根据所述对抗样本对所述预训练模型进行扰动后，则根据公式累加参数θ的梯度，其中，k表示进行求梯度上升的次数，e表示数学期望，g
t-1
为t-1时刻预训练模型的梯度，表示对损失函数中的参数求梯度。
[0062]
得到累加的梯度后则对预训练模型进行参数更新，当更新次数达到预设次数时，对抗训练结束，通过对抗训练这一引入噪声的训练方式来对模型参数进行正则化，从而提高模型鲁棒性和泛化能力。
[0063]
s300、选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量。
[0064]
本实施例中，在编码得到相应的字符向量后，由于bert系列的预训练模型构建embedding的时候是采用单字的模式，该模式在中文的语境中会导致词汇语义信息的缺失，
也会导致文本抽取的边界问题，出现如数字文本“3.0975”只抽取到“3.09”的情况，为避免这种边界问题，本实施例则选取预训练模型的编码结果中的至少部分来对邻近文本进行语义提取，即学习邻近的字符之间的语义关系来更好地捕捉局部相关性，进而避免单个字符造成的边界问题，提高文本抽取的准确性。
[0065]
在一个实施例中，步骤s300包括：
[0066]
选取所述预训练模型中若干个预设位置的编码层作为目标编码层；
[0067]
将所述目标编码层的输出结果分别输入至一一对应连接的文本分类模型中进行邻近文本的语义提取，所述文本分类模型的数量与目标编码层相同，且各个文本分类模型的内核大小不相同；
[0068]
对每个文本分类模型的提取结果进行融合拼接，得到所述语义特征向量。
[0069]
本实施例中，预训练模型通常包含多个编码层，即包含多个transformers的hidden层结构，由于预训练模型的编码层层数越高，输出的隐向量得到的数据特征就越细致，因此现有的bert等预训练模型中只会输出最后一层(最高一层)的编码结果，而本实施例中，为了学习到短距离语义特征，则选取其中若干个预设位置的编码层作为目标编码层，具体可选取所有编码层中位于最后的25％-50％的编码层，例如当预训练模型中编码层即transformers层的数量为12层时，则选取最后的3到6层(即从最后一层往下数3到6层)，当为18层时，则选取最后的5到9层。
[0070]
在选取的各个目标编码层的后面均连接一个文本分类模型，本实施例中采用基于卷积神经网络的文本分类模型textcnn，例如采用12个transformers层时，选取最后6层transformers层作为目标编码层，在这6层transformers层后均连接一个textcnn模块来对邻近文本进行语义提取，并且，为了更好地捕捉局部相关性，本实施例中各个textcnn的kernel(内核)大小不相同，内核阿晓优选设置为3-7。由于textcnn模块可以学习该字与其距离为kernel大小的字之间的语义关系，kernel大小的设定，相当于设定了textcnn模型的学习范围，它在学习字与字之间的关系时距离大小不能超过kernel的大小，因此本实施例中通过设定不同大小的kernel来使得模型可以通过多个角度来学习文本语义信息，增加模型的泛化能力和语义理解能力且提高了边界识别能力，本实施例通过textcnn可以很好地解决bert细粒度为字，无法去理解整个词语的语义的问题。
[0071]
并且在通过textcnn对邻近文本进行语义提取后则采用向量融合的方式对每个textcnn输出的提取结果进行融合拼接，得到语义特征向量，通过融合拼接将n个hidden_size维的向量转化成1个hidden_size维的特征向量，n为目标编码层的数量，采用融合的方式可以使得模型保留不同的textcnn通过不同角度学习到语义信息，进一步增强模型学习语义的能力。
[0072]
s400、对所述语义特征向量进行特征选择并融合得到有效词语特征向量。
[0073]
本实施例中，在对部分编码层融合文本分类模型实现短距离语义提取后，融合拼接得到的语义特征向量将结果一个全连接层进行特征选择，选择并融合得到有效词语特征向量。
[0074]
在一个实施例中，步骤s400包括：
[0075]
通过全连接层对所述语义特征向量进行特征选择并融合得到有效词语特征向量，其中所述全连接层的输入为f
input
、输出为f
output
，
[0076]finput
＝concat(e1,e2,ei…
,en)，
[0077]foutput
＝softmax(f
input
)＝softmax(concat(e1,e2,ei…
,en))，其中，ei为第i个目标编码层的输出结果，n为目标编码层的数量。
[0078]
本实施例中，通过全连接层对目标编程层融合文本分类模型的输出结果concat(e1,e2,ei…
,en)进行特征选择，具体通过softmax函数进行分类，选择得到其中最有效的词语特征。
[0079]
s500、对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。
[0080]
本实施例中，基于全连接层的输出，对下游的任务进行分流解码，使得在实现实体识别的同时也能高效进行文本抽取，得到词语分割结果和实体识别结果，具体地，将所述有效词语特征向量分别输入至已完成训练的实体识别任务层和词语分割任务层，其中，针对实体识别任务，将全连接层的输出通过lstm(long short-term memory,长短期记忆)网络结构再次进行长距离语义特征的提取，将其输出作为实体识别任务中解码层的输入，该解码层则采用crf(conditional random fields，条件随机场)进行实体标签预测，最终输出相应的实体标注；针对词语分割任务，将全连接层的输出通过crf解码器进行解码，输出所述有效词语特征向量中的字符标记以得到词语分割结果，所述字符标记包括实体开始标记、实体剩余标记以及非实体标记，例如文本“a债b机构出给c机构”，最终分割得到的结果为“bi0biibibii”，其中“b”为实体开始标记，“i”为实体剩余标记，即实体中除起始位置以外的其它位置，“o”非实体标记，此处为空格的解析结果。通过b、i、o的形式可以很好的分割一个句子中的词语，让模型很好地学习到如何切割一个句子，实现准确的文本分割抽取。
[0081]
为更好地理解本发明提供的基于融合预训练的文本抽取方法的实施过程，以下结合图2中的具体模型结构，对本发明提供的基于融合预训练的文本抽取过程进行介绍：
[0082]
如图2所示，获取待抽取文本“a债b机
…
构”，首先通过bert预训练模型对输入文本进行字符向量化，获得固定维度的字符或词向量，并且在预训练模型的输入embedding层会加入freelb对抗训练对输入embedding进行扰动以增加模型的鲁棒性，bert预训练模型则采用12个transformers的hidden层结构，为了学习到短距离语义特征，通过语义特征选择模块选择最后6层transformers层融合textcnn模块对邻近文本进行语义提取，即在最后6层transformers层后连接一个不同大小kernerl的textcnn来提取句子中的关键信息，使得模型可以通过多个角度来学习文本语义信息，提高模型的泛化性以及边界识别能力，之后采用向量融合模块对每个textcnn输出进行融合，将6个hidden_size维的向量转化成1个hidden_size维的特征向量；通过语义特征选择模块后，拼接得到的向量会经过一个全连接层(fully connected layer)进行特征选择，选择并融合最有效的词语特征；之后则基于全连接层的输出进行分流解码，词语分割任务中将全连接层的输出通过crf解码器进行解码标注，得到b、i、o形式的字符标注结果以对句子进行准确的词语分割，“a债b机
…
构”的标注结果为“b、i、b、i、o”；实体识别任务中将全连接层的输出依次通过lstm和crf进行解码获得实体标注结果，例如“a债b机
…
构”的标注结果为“b-bn、i-bn、b-org、i-org o”，一个字对应一个标记,bn和org分别是不同的实体标注，bn代表的是债券的实体，org代表的是机构的实体，从而在实现实体识别抽取的同时，也实现了精准的词语分割，提高抽取的准确性。
[0083]
本发明另一实施例提供一种基于融合预训练的文本抽取装置，如图3所示，装置包
括：
[0084]
获取模块11，获取待抽取文本；
[0085]
预训练模块12，通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量；
[0086]
语义提取模块13，选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量；
[0087]
融合模块14，对所述语义特征向量进行特征选择并融合得到有效词语特征向量；
[0088]
分割识别模块15，对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。
[0089]
获取模块11、预训练模块12、语义提取模块13、融合模块14和分割识别模块15依次连接，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述基于融合预训练的文本抽取的执行过程，各模块的具体实施方式请参考上述对应的方法实施例，此处不再赘述。
[0090]
本发明另一实施例提供一种基于融合预训练的文本抽取系统，如图4所示，系统10包括：
[0091]
一个或多个处理器110以及存储器120，图4中以一个处理器110为例进行介绍，处理器110和存储器120可以通过总线或者其他方式连接，图4中以通过总线连接为例。
[0092]
处理器110用于完成系统10的各种控制逻辑，其可以为通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、单片机、arm(acorn risc machine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有，处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合，例如，dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp和/或任何其它这种配置。
[0093]
存储器120作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的基于融合预训练的文本抽取方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元，从而执行系统10的各种功能应用以及数据处理，即实现上述方法实施例中的基于融合预训练的文本抽取方法。
[0094]
存储器120可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据系统10使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器120可选包括相对于处理器110远程设置的存储器，这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0095]
一个或者多个单元存储在存储器120中，当被一个或者多个处理器110执行时，执行上述任意方法实施例中的基于融合预训练的文本抽取方法，例如，执行以上描述的图1中的方法步骤s100至步骤s500。
[0096]
本发明实施例提供了一种非易失性计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如，执行以上描
述的图1中的方法步骤s100至步骤s500。
[0097]
作为示例，非易失性存储介质能够包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明而非限制，ram可以以诸如同步ram(sram)、动态ram、(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强型sdram(esdram)、synchlink dram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
[0098]
综上，本发明公开的基于融合预训练的文本抽取方法、系统及介质中，方法通过获取待抽取文本；通过预训练模型对所述待抽取文本进行预训练编码，得到相应的字符向量；选取所述字符向量中的至少部分对邻近文本进行语义提取，并拼接得到语义特征向量；对所述语义特征向量进行特征选择并融合得到有效词语特征向量；对所述有效词语特征向量进行分流解码，分别得到词语分割结果和实体识别结果。通过基于预训练模型框架进行编码得到字符向量，并且融合字符向量中的至少部分进行邻近文本的语义提取以学习文本语义信息，增强语义的学习能力，使得最终得到的词语分割结果能有效避免边界模糊的问题，提高文本提取的准确性。
[0099]
当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的计算机程序可存储于一非易失性计算机可读取的存储介质中，该计算机程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、软盘、闪存、光存储器等。
[0100]
应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于神经网络的图像分类系统的制作方法

基于融合预训练的文本抽取方法、系统及介质与流程

相关文献

最热文献