信息提取方法、装置及电子设备与流程

2022-11-16 14:06:30 来源：中国专利 TAG：

1.本技术涉及人工智能技术领域，更具体地，涉及一种信息提取方法、装置及电子设备。

背景技术：

2.信息提取是人工智能技术中的一个重要环节，例如任务型机器人系统需要提取槽值，自动比价系统需要提取商品价格，证件识别系统需要提取姓名、身份证、落款日期等信息。
3.目前，在多个语种的信息提取场景中，为每个语言都单独使用一个模型。但是，采用现有的信息提取方法，训练成本较高，资源比较浪费。

技术实现要素：

4.有鉴于此，本技术实施例提出了一种信息提取方法、装置及电子设备。
5.第一方面，本技术实施例提供了一种信息提取方法，所述方法包括：对待提取信息进行分词操作，得到多个分词，所述待提取信息属于多个目标语种中的至少一种；通过信息提取模型中的特征提取器对所述多个分词进行特征提取，得到所述多个分词各自对应的特征信息；通过目标片段提取器对所述多个分词各自对应的特征信息进行处理，得到所述多个分词分别对应的类别标识，所述信息提取模型包括所述多个目标语种分别对应的片段提取器，所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器，所述类别标识用于表征对应的分词为终止分词或起始分词；根据所述多个分词分别对应的类别标识，得到对应所述待提取信息的信息提取结果。
6.第二方面，本技术实施例提供了一种信息提取装置，所述装置包括：分词模块，用于对待提取信息进行分词操作，得到多个分词，所述待提取信息属于多个目标语种中的至少一种；特征信息获得模块，用于通过信息提取模型中的特征提取器对所述多个分词进行特征提取，得到所述多个分词各自对应的特征信息；标识获得模块，用于通过目标片段提取器对所述多个分词各自对应的特征信息进行处理，得到所述多个分词分别对应的类别标识，所述信息提取模型包括所述多个目标语种分别对应的片段提取器，所述目标片段提取器为所述信息提取模型中与所述待提取信息所属的目标语种对应的片段提取器，所述类别标识用于表征对应的分词为终止分词或起始分词；结果获得模块，用于根据所述多个分词分别对应的类别标识，得到对应所述待提取信息的信息提取结果。
7.可选地，所述待提取信息的多个分词按照所述待提取信息的语序排列；所述结果获得模块，还用于在所述待提取信息中确定类别标识为起始分词的第一分词；在所述待提取信息中确定类别标识为终止分词且排列在所述第一分词之后的分词，作为第二分词；若所述待提取信息中存在排列在所述第一分词和所述第二分词之间的中间分词，根据所述第一分词、所述第二分词以及所述中间分词，得到对应所述待提取信息的信息提取结果；若所述待提取信息中不存在排列在所述第一分词和所述第二分词之间的中间分词，根据所述第
一分词以及所述第二分词，得到对应所述待提取信息的信息提取结果。
8.可选地，装置还包括模型训练模块，用于获取所述多个目标语种分别对应的样本信息，每个所述目标语种对应至少一个样本信息；对每个所述样本信息进行分词操作，得到对应每个所述样本信息的多个样本分词；通过初始模型中的特征提取器对每个所述样本信息的多个样本分词进行特征提取，得到每个所述样本信息的多个样本分词各自对应的特征信息；通过所述初始模型中与每个所述目标语种对应的片段提取器，对每个所述目标语种下的每个所述样本信息的多个特征信息进行识别，得到每个所述样本信息的多个样本分词分别对应的类别标识；根据每个所述样本信息的多个样本分词各自对应的类别标识，得到每个所述样本信息的样本提取结果；根据每个所述样本信息的样本提取结果对所述初始模型进行训练，得到所述信息提取模型。
9.可选地，模型训练模块，还用于通过所述初始模型中的向量编码器对每个所述样本信息的多个样本分词进行向量编码，得到每个所述样本信息的多个样本分词各自对应的编码结果；通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理，得到每个所述样本信息的多个编码结果各自对应的第一处理结果；通过所述特征提取器中的全连接前馈网络对每个所述样本信息对应的多个第一处理结果进行处理，得到每个所述样本信息的多个第一处理结果各自对应的特征信息。
10.可选地，模型训练模块，还用于通过所述特征提取器中的多头自注意力机制网络对每个所述样本信息对应的多个编码结果进行处理，得到每个所述样本信息的多个编码结果各自对应的第二处理结果；对每个所述样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理，得到每个所述样本信息的多个编码结果各自对应的第一处理结果。
11.可选地，每个所述目标语种对应的片段提取器均包括用于预测起始分词的第一分类器以及用于预测终止分词的第二分类器；模型训练模块，还用于通过所述初始模型中与每个所述目标语种对应的片段提取器中的第一分类器，对每个所述目标语种下的每个所述样本信息的多个特征信息进行处理，得到每个所述样本信息的多个样本分词分别对应的起始类别标识，所述样本分词的起始类别标识表征样本分词是否为起始分词；通过所述初始模型中与每个所述目标语种对应的片段提取器中的第二分类器，对每个所述目标语种下的每个所述样本信息的多个特征信息进行处理，得到每个所述样本信息的多个样本分词分别对应的终止类别标识，所述样本分词的终止类别标识表征样本分词是否为终止分词；将每个所述样本信息的多个样本分词分别对应的起始类别标识以及终止类别标识，作为每个所述样本信息的多个样本分词分别对应的类别标识。
12.可选地，每个所述样本信息的多个样本分词按照每个所述样本信息的语序排列；模型训练模块，还用于针对每个所述样本信息，确定类别标识为起始分词的第一样本分词；从每个所述样本信息对应的多个样本分词中筛选分词类别为终止分词且排列在所述第一样本分词之后的样本分词，作为每个所述样本信息的第二分词；若每个所述样本信息对应的多个样本分词中存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据所述样本信息对应的第一样本分词、第二样本分词以及中间样本分词，得到每个所述样本信息的样本提取结果；若每个所述样本信息对应的多个样本分词中不存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据所述样本信息对应的第一样本分词以及第二样本分词，得到每个所述样本信息的样本提取结果。
13.可选地，模型训练模块，还用于根据每个所述目标语种下的每个所述样本信息的样本提取结果，对所述初始模型中与每个所述目标语种对应的片段提取器进行训练，得到信息提取模型。
14.第三方面，本技术实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
15.第四方面，本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码被处理器运行时执行上述的方法。
16.第五方面，本技术实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述的方法。
17.本技术实施例提供的一种信息取方法、装置、电子设备及存储介质，通过对待提取信息进行分词操作，得到多个分词，并通过信息提取模型中待提取信息所属目标语种对应的片段提取器输出所述多个分词分别对应的类别标识，然后根据多个分词分别对应的类别标识获得信息提取结果，通过一个信息提取模型即可对多个目标语言进行信息提取，训练成本低，可以节省资源，且不同的目标语种各自对应有片段提取器，使得各个目标语种各自对应的类别标识的准确率较高，从而使得根据多个分词分别对应的类别标识，得到对应待提取信息的信息提取结果的准确率较高。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1是根据本技术实施例示出的应用场景的示意图；
20.图2示出了本技术实施例中信息提取模型的一种训练过程的流程图；
21.图3示出了本技术实施例中初始模型的结构示意图；
22.图4示出了本技术实施例中特征提取器的结构示意图；
23.图5示出了申请实施例中初始模型的训练过程示意图；
24.图6示出了本技术一个实施例提供的一种信息提取方法的流程图；
25.图7示出了本技术一个实施例提出的一种信息提取装置的框图；
26.图8示出了用于执行根据本技术实施例的信息提取方法的电子设备的结构框图。
具体实施方式
27.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。根据本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针
对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
29.除非另有定义，本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的，不是旨在限制本技术。
30.人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
31.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
32.图1示出了本技术一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端110以及服务器120。其中，终端110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。
33.终端110是用于获取待提取信息以及样本信息的终端，该终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等，本技术实施例对此不作限定。
34.服务器120是用于对信息进行提取和训练信息提取模型的设备，其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
35.在一种可能的实施方式中，当需要进行信息提取时，终端110获取待提取信息，将待提取信息发送至服务器120，服务器120对待提取信息进行提取，得到信息提取结果，服务器120将信息提取结果返回给终端110，由终端110展示信息提取结果。
36.在又一种可能的实施方式中，当需要训练信息提取模型时，终端110获取样本信息，将样本信息发送至服务器120，服务器120根据样本信息对初始模型进行训练，得到信息提取模型，由服务器120存储训练好的信息提取模型。
37.需要说明的是，上述实施例中，以信息提取模型由服务器120训练得到，且信息提取过程由服务器120执行为例进行说明，在其他可能的实施方式中，上述信息提取模型可以由终端110训练得到，且信息提取模型可以部署在终端110侧，由终端110在本地对待提取信息进行提取，本实施例对此不作限定。且为了方便表述，下述各个实施例中，以信息提取方法由电子设备执行为例进行说明。
38.请参阅图2，图2示出了本技术实施例中信息提取模型的一种训练过程的流程图，方法可以用于电子设备(例如图1中的服务器120或终端110)，方法包括：
39.s110、获取多个目标语种分别对应的样本信息，每个目标语种对应至少一个样本
信息。
40.在本实施例中，训练样本包括用于训练信息提取模型的样本信息以及样本信息对应的预设提取结果。一条样本信息可以是指一个query，一个query可以是用户和商家聊天时输入的一条原始文本，例如，一个单句为一条样本信息。样本信息的预设提取结果可以是指信息提取人员对样本信息进行信息提取后，获得的准确的提取结果。例如样本信息为“小明是个天才”，需要在样本信息中提取名字信息，则对应的预设提取结果可以是指信息提取人员提取到的字符“小明”。
41.样本信息包括多个目标语种分别对应的样本信息，目标语种可以是任意一个语种，例如汉语、英语或俄语等。每个目标语种下的样本信息可以包括至少一条样本信息。样本信息可以是包括较多的字符的长句，样本信息也可以是包括较少的字符的短句。
42.每个目标语种下的样本信息以及样本信息对应的预设提取结果作为一个批次的训练样本，每个批次的训练样本又可以划分为多个小批次样本，当一个目标语种对应的多个小批次样本均完成训练时，得到该目标语种对应的信息提取模型，遍历全部目标语种的训练样本，得到最终的信息提取模型。
43.信息提取是指从给定文本中自动提取出一些信息，比如在给定为本中提取地址、姓名、手机号、订单号、物流号、邮编等信息。用户可以基于需求设定不同的提取目标，提取目标可以是指信息提取模型针对的信息类别，例如提取目标可以为上述地址、姓名、手机号、订单号、物流号、邮编等等。每个提取目标对应一个信息提取模型，每个提取目标对应的信息提取模型根据多个目标语种下的样本信息以及样本信息对应的预设提取结果训练获得。
44.例如，当信息提取模型用于提取人名时，获取多个目标语种对应的样本信息以及样本信息对应的预设提取结果(每个样本信息的预设提取结果包括每个样本信息中的人名)，通过获取的样本信息以及样本信息对应的人名对初始模型进行训练，当训练完成时，获得用于提取多个目标语种的人名的信息提取模型。
45.如图3所示，在实施例中，用于获得信息提取模型的初始模型可以包括分词器、向量编码器、特征提取器以及片段提取器，分词器用于对样本信息进行分词，向量编码器用于对样本信息的样本分词进行编码，得到样本分词对应的编码结果，特征提取器用于对各个样本分词的编码结果进行特征提取，得到特征信息，片段提取器用于对各个样本分词的特征信息进行识别，得到各个样本分词的类别标识。下文对初始模型的各个部分以及训练过程会详细描述，此处不在赘述。
46.s120、对每个样本信息进行分词操作，得到对应每个样本信息的多个样本分词。
47.对每个样本信息，均进行分词操作，得到每个样本信息的多个样本分词，一个样本分词作为一个token，token是指在自然语言处理任务中，将原始文本分割成各个词或字词。
48.例如，样本信息为“小李喜欢跑步”，对该样本信息进行分词操作，得到多个样本分词可以是“小李”、“喜欢”和“跑步”。
49.可以通过初始模型的分词器(tokenizer)对每个样本信息进行分词操作，得到多个样本分词，不同的目标语种的分词器可以不同，不同的分词器的分词策略可能不同。例如，汉语的分词器的分词策略可以是每个词组或字作为一个分词，英语的分词器可以是一个单词作为一个分词。
50.例如，可以将multilingual(多种语言)版本的bert(bidirectional encoder representation from transformers，预训练的语言表征模型)模型作为多个目标语种公用的分词器，multilingual版本的bert所涉及到的语言包括多个目标语种。其中，bert模型是一个google开源的nlp(natural language processing，自然语言处理)模型，在nlp领域被广泛使用。
51.s130、通过初始模型中的特征提取器对每个样本信息的多个样本分词进行特征提取，得到每个样本信息的多个样本分词各自对应的特征信息。
52.可以通过初始模型中的特征提取器对每个样本信息的多个样本分词进行特征提取，得到每个样本分词的特征信息。
53.在一些实施方式中，还可以是通过向量编码器对个样本信息的多个样本分词进行编码，得到编码结果，再通过特征提取器对编码结果进行特征提取，得到各个样本分词的特征信息。
54.向量编码器和特征提取器可以是通过训练样本对神经网络进行训练获得的，不同目标语种的向量编码器和特征提取器也可以是通用，不同目标语种的向量编码器和特征提取器也可以是不通用的。
55.可选地，s130可以包括：通过初始模型中的向量编码器对每个样本信息的多个样本分词进行向量编码，得到每个样本信息的多个样本分词各自对应的编码结果；通过特征提取器中的多头自注意力机制网络对每个样本信息对应的多个编码结果进行处理，得到每个样本信息的多个编码结果各自对应的第一处理结果；通过特征提取器中的全连接前馈网络对每个样本信息对应的多个第一处理结果进行处理，得到每个样本信息的多个第一处理结果各自对应的特征信息。
56.在本实施例中，向量编码器输出的编码结果可以是向量的形式，例如编码结果包括分词向量(样本分词本身对应的向量表示)、样本信息向量(样本分词所属的样本信息本身的向量表示)以及位置向量(样本分词在样本信息中的位置信息的向量表示)。
57.初始模型的特征提取器可以包括至少一个网络层(一个网络层可以是指一个layer)，每个网络层包括依次连接的一个多头自注意力机制网络和一个全连接前馈网络。
58.当初始模型的特征提取器包括一个网络层时，按照上述过程进行特征信息的获取。如图4所示，当初始模型的特征提取器包括多个网络层时，将样本分词对应的编码结果输入第一个网络层(网络层1)，然后第一个网络层的输出作为下一个网络层的输入，最后一个网络层(网络层n)的输出作为样本分词的特征信息。
59.可选地，通过特征提取器中的多头自注意力机制网络对每个样本信息对应的多个编码结果进行处理，得到每个样本信息的多个编码结果各自对应的第一处理结果，包括：通过特征提取器中的多头自注意力机制网络对每个样本信息对应的多个编码结果进行处理，得到每个样本信息的多个编码结果各自对应的第二处理结果；对每个样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理，得到每个样本信息的多个编码结果各自对应的第一处理结果。
60.同理，通过特征提取器中的全连接前馈网络对每个样本信息对应的多个第一处理结果进行处理，得到每个样本信息的多个第一处理结果各自对应的特征信息，包括：通过特征提取器中的全连接前馈网络对每个样本信息对应的多个第一处理结果进行处理，得到每
个样本信息的多个第一处理结果各自对应的第三处理结果；对每个样本信息对应的多个第三处理结果进行残差连接处理以及归一化处理，得到每个样本信息的多个编码结果各自对应的特征信息。
61.当初始模型的特征提取器包括一个网络层时，按照上述过程得到特征信息以及第一处理结果。当初始模型的特征提取器包括多个网络层时，每个网络层的多头自注意力机制网络得到输出之后，并对输出进行残差连接处理以及归一化处理，然后将处理后的输出输入该网络层的全连接前馈网络，再对该网络层的全连接前馈网络输出的结果进行残差连接处理以及归一化处理，并将处理后的结果作为该网络层的输出。
62.在本技术中，对每个全连接前馈网络和每个多头自注意力机制网络的输出进行残差连接处理以及归一化处理，降低了模型训练过程中梯度消失或梯度爆炸问题的发生可能性，同时使得网络层的输出更加的稳定，提高了模型训练效果。
63.s140、通过初始模型中与每个目标语种对应的片段提取器，对每个目标语种下的每个样本信息的多个特征信息进行识别，得到每个样本信息的多个样本分词分别对应的类别标识。
64.初始模型包括多个目标语种各自对应的片段提取器，每个片段提取器用于对该片段提取器所对应的目标语种下的样本分词进行识别，得到类别标识。例如，英语对应一个片段提取器，该片段提取器用于对英语的样本分词进行识别，得到类别标识。
65.类别标识可以是包括起始类别标识和终止类别标识，起始类别标识表征样本分词是否为起始分词，终止类别标识表征样本分词是否为终止分词，起始分词是样本指分词为样本信息的起始词(第一个词)，终止分词是指样本分词为样本信息的终止词(最后一个词)。例如，“ming like football”的起始分词是“ming”，终止分词是“football”。
66.通过片段提取器对样本分词进行分析，得到样本分词的起始类别标识和终止类别标识，将起始类别标识和终止类别标识进行合并，得到该样本分词的类别标识。例如，一个样本分词的类别标识可以为“是起始词且不是终止词”、“是起始词且是终止词”、“不是起始词且不是终止词”以及“不是起始词且是终止词”四种情况中的任意一种。
67.在一些实施方式中，当一个样本分词不为起始分词时，对应的起始类别标识可以为空，当一个样本分词不为终止分词时，对应的终止类别标识可以为空。例如，一个样本分词的类别标识可以为“是起始词”、“是起始词且是终止词”、“是终止词”以及类别标识为空四种情况中的一种。
68.可选的，每个目标语种对应的片段提取器均包括用于预测起始分词的第一分类器以及用于预测终止分词的第二分类器；s140可以包括：通过初始模型中与每个目标语种对应的片段提取器中的第一分类器，对每个目标语种下的每个样本信息的多个特征信息进行处理，得到每个样本信息的多个样本分词分别对应的起始类别标识，样本分词的起始类别标识表征样本分词是否为起始分词；通过初始模型中与每个目标语种对应的片段提取器中的第二分类器，对每个目标语种下的每个样本信息的多个特征信息进行处理，得到每个样本信息的多个样本分词分别对应的终止类别标识，样本分词的终止类别标识表征样本分词是否为终止分词；将每个样本信息的多个样本分词分别对应的起始类别标识以及终止类别标识，作为每个样本信息的多个样本分词分别对应的类别标识。
69.对于每个样本信息的样本分词，通过该样本分词所属目标语种所对应的第一分类
器确定该样本分词的起始类别标识，通过第二分类器确定该样本分词的终止类别标识，将起始类别标识和终止类别标识合并，并将合并后的结果作为该样本分词的类别标识。
70.s150、根据每个样本信息的多个样本分词各自对应的类别标识，得到每个样本信息的样本提取结果。
71.对于每个样本信息，得到该样本信息的多个样本分词各自的类别标识，然后通过每个样本分词的类别标识，得到每个样本信息的样本提取结果。
72.例如，在每个样本信息的多个样本分词按照每个样本信息的语序排列时，针对每个样本信息，确定类别标识为起始分词的第一样本分词；从每个样本信息对应的多个样本分词中筛选分词类别为终止分词且排列在第一样本分词之后的样本分词，作为每个样本信息的第二分词；若每个样本信息对应的多个样本分词中存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据样本信息对应的第一样本分词、第二样本分词以及中间样本分词，得到每个样本信息的样本提取结果；若每个样本信息对应的多个样本分词中不存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据样本信息对应的第一样本分词以及第二样本分词，得到每个样本信息的样本提取结果。
73.每个样本信息具有各自的语序，每个样本信息的多个样本分词按照语序排列的，例如，样本信息为“张三是律师”，对应的样本分词为“张三”、“是”以及“律师”，三个样本分词的排列顺序为张三
→
是
→
律师。
74.每个样本信息中，确定出类别标识为起始分词的分词作为第一样本分词，确定出类别标识为终止分词的分词作为第三样本分词，第三样本分词中排在第一样本分词之前的样本分词去掉，得到第二样本分词。
75.若第一样本分词与第二样本分词之间还具有中间样本分词，则将第一样本分词、中间样本分词以及第二样本分词按照语序合并，得到提取结果。若第一样本分词与第二样本分词之间不具有中间样本分词，则将第一样本分词以及第二样本分词按照语序合并，得到提取结果。
76.例如，样本信息为“小刚明天想去图书馆学习英语四级单词”，对应的样本分词为“小刚”、“明天”、“想去”、“图书馆”、“学习”、“英语四级”以及“单词”，其中，类别标识为终止分词的包括“图书馆”、“英语四级”以及“单词”，类别标识为起始分词的包括“小刚”以及“图书馆”，此时得到的提取结果包括“小刚明天想去图书馆”、“小刚明天想去图书馆学习英语四级”、“小刚明天想去图书馆学习英语四级单词”、“图书馆学习英语四级”、“图书馆学习英语四级单词”以及“图书馆”。
77.s160、根据每个样本信息的样本提取结果对初始模型进行训练，得到信息提取模型。
78.得到每个样本信息的样本提取结果之后，根据每个样本信息的样本提取结果和每个样本信息的预设提取结果，确定出损失值，根据每个样本信息的损失值对初始模型进行训练，直到全部样本信息均完成训练，得到信息提取模型。
79.可选地，s160可以包括：根据每个目标语种下的每个样本信息的样本提取结果，对初始模型中与每个目标语种对应的片段提取器进行训练，得到信息提取模型。
80.针对每个目标语种下的每个样本信息，根据样本信息的样本提取结果和预设提取结果，确定样本信息的损失值，通过样本信息的损失值，对该目标语种所对应的片段提取器
(包括第一分类器和第二分类器)进行训练，直到该目标语种下的样本信息均完成训练，得到该目标语种对应的训练后的片段提取器，遍历全部目标语种的样本信息，得到最终的信息提取模型。
81.例如，目标语种包括英文、汉语以及俄语，根据英文样本信息的样本提取结果以及预设提取结果，得到英文样本信息的损失值，根据英文样本信息的损失值对英文对应的片段提取器进行训练，得到训练后的片段提取器，该片段提取器对英文样本具有较高的识别能力；根据汉语样本信息的样本提取结果以及预设提取结果，得到汉语样本信息的损失值，根据汉语样本信息的损失值对汉语对应的片段提取器进行训练，得到训练后的片段提取器，该片段提取器对汉语样本具有较高的识别能力；根据俄语样本信息的样本提取结果以及预设提取结果，得到俄语样本信息的损失值，根据俄语样本信息的损失值对俄语对应的片段提取器进行训练，得到训练后的片段提取器，该片段提取器对俄语样本具有较高的识别能力。
82.在一些实施方式中，初始模型的分词器、向量编码器以及特征提取器可以是通用网络层结构(即shared layers)可以被多种任务(多个目标语种的信息提取场景)复用共享，在训练过程中，其中的参数可以不做调整，而各个目标语种对应的片段提取器为专用网络层结构(specific layers)，仅针对一种目标语种的信息提取场景，片段提取器中的参数通过对应的损失值进行调整。
83.在另一些实施方式中，初始模型的分词器、向量编码器以及特征提取器可以是专用的网络层结构，在训练过程中，分词器、向量编码器以及特征提取器中的参数也需要调整。
84.在本实施例中，针对多种目标语种的信息提取模型属于多任务学习领域，多任务学习是指在网络底层使用shared layers共享网络结构和参数(例如共享初始模型的分词器、向量编码器以及特征提取器)，在网络上层使用specific layers适配不同任务(例如不同目标语种的片段提取器)，以使得一个模型适用于多种任务。
85.如图5所示的训练过程，其中，初始模型对应的多种目标语种包括三个。对每个目标语种每个样本信息进行分词操作，得到m个样本分词，通过向量编码器对每个样本分词进行编码，得到编码结果，并通过特征提取器对编码结果进行处理，得到m个样本分词分别对应的特征信息。
86.将每个样本信息的各个样本分词的特征信息输入样本信息所属语种所对应的片段提取器，得到各个样本分词的类别属性，根据各个分词的类别属性，得到每条样本信息的样本提取结果：片段提取器1对应第一个目标语种下的样本提取结果1，片段提取器2对应第二个目标语种下的样本提取结果2，片段提取器3对应第三个目标语种下的样本提取结果3。
87.根据各个片段提取器对应的样本提取结果，得到对应的损失值，通过损失值训练各自的片段提取器，以得到信息提取模型。
88.在本实施例中，初始模型包括各个不同目标语种分别对应的片段提取器，训练获得的信息提取模型可以准确的输出不同目标语种下的信息中各个分词的类别属性，使得信息提取模型的提取效果较好，进而使得获得的信息提取结果准确率较高。多个片段提取器分别对应各自的目标语种，可以使得不同语种的信息提取效果均较高，且不同目标语种之间的信息提取互不影响。
89.同时，多个目标语种公用一个信息提取模型，节约了模型训练成本和模型部署成本。
90.参照图6，图6示出了本技术一个实施例提供的一种信息提取方法的流程图，方法可以用于电子设备(例如图1中的服务器120或终端110)，方法包括：
91.s210、对待提取信息进行分词操作，得到多个分词，待提取信息属于多个目标语种中的至少一种。
92.待提取信息可以是多个目标语种中的任意一种，例如，目标语种包括汉语、韩语、英语、法语和俄语，待提取信息可以是其中的汉语。待提取信息可以是一条信息，待提取信息也可以是多条信息，一条待提取信息可以是指一个query。当待提取信息包括多条信息时，可以对每条待提取信息执行本技术信息提取方法的步骤，得到每条待提取信息对应的提取结果。
93.可以是通过信息提取模型中的分词器对待提取信息进行分词操作，得到多个分词。信息提取模型是根据初始模型训练获得的，由于初始模型包括分词器、向量编码器、特征提取器以及片段提取器，所以，信息提取模型也包括分词器、向量编码器、特征提取器以及片段提取器。
94.s220、通过信息提取模型中的特征提取器对多个分词进行特征提取，得到多个分词各自对应的特征信息。
95.s230、通过目标片段提取器对多个分词各自对应的特征信息进行处理，得到多个分词分别对应的类别标识，信息提取模型包括多个目标语种分别对应的片段提取器，目标片段提取器为信息提取模型中与待提取信息所属的目标语种对应的片段提取器，类别标识用于表征对应的分词为终止分词或起始分词。
96.得到待提取信息对应的多个分词之后，可以是将每个分词输入信息提取模型的向量编码器，得到向量编码器输出的各个分词的编码结果，再将编码结果输入信息提取模型的特征提取器，得到特征提取器输出的特征信息，作为目标特征信息，然后将各个分词的目标特征信息输入待提取信息所属于的目标语种对应的片段提取器，得到该片段提取器输出的各个分词的类别属性。
97.在一些实施方式中，特征提取器的可以包括多个网络层，各个网络层依次连接，每个网络层可以包括依次连接的一个多头自注意力机制网络和一个全连接前馈网络。通过每个网络层的多头自注意力机制网络和全连接前馈网络对每个网络层的输入进行处理，每个网络层的输入为上一个网络层的输出，将最后一个网络层的输出作为目标特征信息。各个网络层的对各个分词对应的编码结果的处理过程参照上文描述，此处不在赘述。
98.在另一些实施方式中，每个目标语种的片段提取器包括用于预测起始分词的第一分类器以及用于预测终止分词的第二分类器，通过第一分类器确定每个分词的起始类别标识，通过第二分类器确定每个分词的终止类别标识，将分词的起始类别标识与终止类别标识合并，作为分词的类别标识。
99.s240、根据多个分词分别对应的类别标识，得到对应待提取信息的信息提取结果。
100.在待提取信息的多个分词按照待提取信息的语序排列时，在待提取信息中确定类别标识为起始分词的第一分词；在待提取信息中确定类别标识为终止分词且排列在第一分词之后的分词，作为第二分词；若待提取信息中存在排列在第一分词和第二分词之间的中
间分词，根据第一分词、第二分词以及中间分词，得到对应待提取信息的信息提取结果；若待提取信息中不存在排列在第一分词和第二分词之间的中间分词，根据第一分词以及第二分词，得到对应待提取信息的信息提取结果。
101.待提取信息具有语序，待提取信息的多个分词按照语序排列的，例如，待提取信息为“李四是学生”，对应的分词为“李四”、“是”以及“学生”，三个分词的排列顺序为李四
→
是
→
学生。
102.在待提取信息的多个分词中确定出类别标识为起始分词的分词作为第一分词，确定出类别标识为终止分词的分词作为第三分词，第三分词中排在第一分词之前的分词去掉，得到第二分词。
103.若第一分词与第二分词之间还具有中间分词，则将第一分词、中间分词以及第二分词按照语序合并，得到提取结果。若第一分词与第二分词之间不具有中间分词，则将第一分词以及第二分词按照语序合并，得到提取结果。
104.例如，待提取信息为“小刚明天想去超市选购白菜种子”，对应的样本分词为“小刚”、“明天”、“想去”、“超市”、“选购”、“白菜”以及“种子”，其中，类别标识为终止分词的包括“超市”、“白菜”以及“种子”，类别标识为起始分词的包括“小刚”以及“超市”，此时得到的提取结果包括“小刚明天想去超市”、“小刚明天想去超市选购白菜”、“小刚明天想去超市选购白菜种子”、“超市选购白菜”、“超市选购白菜种子”以及“超市”。
105.在本实施例中，通过对待提取信息进行分词操作，得到多个分词，并通过信息提取模型中待提取信息所属目标语种对应的片段提取器输出多个分词分别对应的类别标识，然后根据多个分词分别对应的类别标识获得信息提取结果，通过一个信息提取模型即可对多个目标语言进行信息提取，训练成本低，可以节省资源，且不同的目标语种各自对应有片段提取器，使得各个目标语种各自对应的类别标识的准确率较高，从而使得根据多个分词分别对应的类别标识，得到对应待提取信息的信息提取结果的准确率较高。
106.请参阅图7，图7示出了本技术一个实施例提出的一种信息提取装置的框图，装置700包括：
107.分词模块，710用于对待提取信息进行分词操作，得到多个分词，待提取信息属于多个目标语种中的至少一种；
108.特征信息获得模块720，用于通过信息提取模型中的特征提取器对多个分词进行特征提取，得到多个分词各自对应的特征信息；
109.标识获得模块730，用于通过目标片段提取器对多个分词各自对应的特征信息进行处理，得到多个分词分别对应的类别标识，信息提取模型包括多个目标语种分别对应的片段提取器，目标片段提取器为信息提取模型中与待提取信息所属的目标语种对应的片段提取器，类别标识用于表征对应的分词为终止分词或起始分词；
110.结果获得模块740，用于根据多个分词分别对应的类别标识，得到对应待提取信息的信息提取结果。
111.可选地，待提取信息的多个分词按照待提取信息的语序排列；结果获得模块730，还用于在待提取信息中确定类别标识为起始分词的第一分词；在待提取信息中确定类别标识为终止分词且排列在第一分词之后的分词，作为第二分词；若待提取信息中存在排列在第一分词和第二分词之间的中间分词，根据第一分词、第二分词以及中间分词，得到对应待
提取信息的信息提取结果；若待提取信息中不存在排列在第一分词和第二分词之间的中间分词，根据第一分词以及第二分词，得到对应待提取信息的信息提取结果。
112.可选地，装置还包括模型训练模块，用于获取多个目标语种分别对应的样本信息，每个目标语种对应至少一个样本信息；对每个样本信息进行分词操作，得到对应每个样本信息的多个样本分词；通过初始模型中的特征提取器对每个样本信息的多个样本分词进行特征提取，得到每个样本信息的多个样本分词各自对应的特征信息；通过初始模型中与每个目标语种对应的片段提取器，对每个目标语种下的每个样本信息的多个特征信息进行识别，得到每个样本信息的多个样本分词分别对应的类别标识；根据每个样本信息的多个样本分词各自对应的类别标识，得到每个样本信息的样本提取结果；根据每个样本信息的样本提取结果对初始模型进行训练，得到信息提取模型。
113.可选地，模型训练模块，还用于通过初始模型中的向量编码器对每个样本信息的多个样本分词进行向量编码，得到每个样本信息的多个样本分词各自对应的编码结果；通过特征提取器中的多头自注意力机制网络对每个样本信息对应的多个编码结果进行处理，得到每个样本信息的多个编码结果各自对应的第一处理结果；通过特征提取器中的全连接前馈网络对每个样本信息对应的多个第一处理结果进行处理，得到每个样本信息的多个第一处理结果各自对应的特征信息。
114.可选地，模型训练模块，还用于通过特征提取器中的多头自注意力机制网络对每个样本信息对应的多个编码结果进行处理，得到每个样本信息的多个编码结果各自对应的第二处理结果；对每个样本信息对应的多个第二处理结果进行残差连接处理以及归一化处理，得到每个样本信息的多个编码结果各自对应的第一处理结果。
115.可选地，每个目标语种对应的片段提取器均包括用于预测起始分词的第一分类器以及用于预测终止分词的第二分类器；模型训练模块，还用于通过初始模型中与每个目标语种对应的片段提取器中的第一分类器，对每个目标语种下的每个样本信息的多个特征信息进行处理，得到每个样本信息的多个样本分词分别对应的起始类别标识，样本分词的起始类别标识表征样本分词是否为起始分词；通过初始模型中与每个目标语种对应的片段提取器中的第二分类器，对每个目标语种下的每个样本信息的多个特征信息进行处理，得到每个样本信息的多个样本分词分别对应的终止类别标识，样本分词的终止类别标识表征样本分词是否为终止分词；将每个样本信息的多个样本分词分别对应的起始类别标识以及终止类别标识，作为每个样本信息的多个样本分词分别对应的类别标识。
116.可选地，每个样本信息的多个样本分词按照每个样本信息的语序排列；模型训练模块，还用于针对每个样本信息，确定类别标识为起始分词的第一样本分词；从每个样本信息对应的多个样本分词中筛选分词类别为终止分词且排列在第一样本分词之后的样本分词，作为每个样本信息的第二分词；若每个样本信息对应的多个样本分词中存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据样本信息对应的第一样本分词、第二样本分词以及中间样本分词，得到每个样本信息的样本提取结果；若每个样本信息对应的多个样本分词中不存在排列在第一样本分词以及第二样本分词之间的中间样本分词，根据样本信息对应的第一样本分词以及第二样本分词，得到每个样本信息的样本提取结果。
117.可选地，模型训练模块，还用于根据每个目标语种下的每个样本信息的样本提取
结果，对初始模型中与每个目标语种对应的片段提取器进行训练，得到信息提取模型。
118.需要说明的是，本技术中的装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。
119.图8示出了用于执行根据本技术实施例的信息提取方法的电子设备的结构框图。该电子设备可以是图8中的服务器等，需要说明的是，图8示出的电子设备的计算机系统1200仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。
120.如图8所示，计算机系统1200包括中央处理单元(central processing unit，cpu)1201，其可以根据存储在只读存储器(read-only memory，rom)1202中的程序或者从存储部分1208加载到随机访问存储器(random access memory，ram)1203中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在ram 1203中，还存储有系统操作所需的各种程序和数据。cpu1201、rom1202以及ram 1203通过总线1204彼此相连。输入/输出(input/output，i/o)接口1205也连接至总线1204。
121.以下部件连接至i/o接口1205：包括键盘、鼠标等的输入部分1206；包括诸如阴极射线管(cathode ray tube，crt)、液晶显示器(liquid crystal display，lcd)等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如lan(local area network，局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
122.特别地，根据本技术的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(cpu)1201执行时，执行本技术的系统中限定的各种功能。
123.需要说明的是，本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory，eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory，cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程
序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。
124.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
125.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。
126.作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。
127.根据本技术实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一实施例中的方法。
128.应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本技术的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
129.通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本技术实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
130.本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
131.最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管
参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于多源数据的草地生态系统功能评价方法、评价装置及可读存储介质

信息提取方法、装置及电子设备与流程

相关文献

最热文献