一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

事件抽取、及其模型的训练方法,及其装置、设备和介质与流程

2022-04-13 18:01:36 来源:中国专利 TAG:


1.本技术涉及自然语言处理技术领域,特别是涉及一种事件抽取、及其模型的训练方法,及其装置、设备和介质。


背景技术:

2.近年来,随着工控技术和计算机网络通信技术的发展,诸如rs422、rs485等工业总线标准应运而生,朝着支持多个分节点、高通信速率、远距离传输、高接收灵敏度以及较低成本方向不断发展演进。
3.随着互联网时代发展,无数信息爆炸式涌现,人工处理大量文本十分复杂并且耗时。信息抽取任务,主要是从大量文本中自动抽取用户想要的特定信息,能够从非结构化的文本中抽取结构化的信息,以将海量内容自动分类。信息抽取任务中包括事件抽取,例如在新闻领域,由于每天都有无数新的新闻以及事件产生,通过对新闻进行事件抽取,我们可以获得一件新闻中发生的主要事件是什么,但是人工处理大量文本十分复杂并且耗时。
4.即便出现了利用模型对文本进行事件抽取,由于模型的训练中训练样本噪声非常大,所以需要采用对比学习、对抗学习、强化学习来进行训练样本的降噪,导致对模型进行复杂训练,模型很难收敛,训练成本较高。有鉴于此,如何节省模型的训练成本成为亟待解决的问题。


技术实现要素:

5.本技术主要解决的技术问题是提供一种事件抽取、及其模型的训练方法,及其装置、设备和介质,能够节省事件抽取模型的训练成本。
6.为了解决上述技术问题,本技术第一方面提供了一种事件抽取模型的训练方法,包括:利用第一样本集中的目标样本文本对所述事件抽取模型进行第一训练,其中,所述事件抽取模型用于预测文本的事件分类;获取所述第一样本集中各所述目标样本文本对所述事件抽取模型的决策影响;基于所述决策影响从所述第一样本集中筛选出至少一个目标样本文本,以得到第二样本集;利用所述第二样本集中的目标样本文本对所述事件抽取模型进行第二训练。
7.为了解决上述技术问题,本技术第二方面提供了一种事件抽取方法,包括:利用上述第一方面所述的事件抽取模型的训练方法,训练得到事件抽取模型;获取待抽取文本;利用所述事件抽取模型对所述待抽取文本进行事件抽取,得到所述待抽取文本的事件分类。
8.为了解决上述技术问题,本技术第三方面提供了一种事件抽取模型的训练装置,包括:第一训练模块、获取模块、筛选模块和第二训练模块,第一训练模块,用于利用第一样本集中的目标样本文本对所述事件抽取模型进行第一训练,其中,所述事件抽取模型用于预测文本的事件分类;获取模块,用于获取所述第一样本集中各所述目标样本文本对所述事件抽取模型的决策影响;筛选模块,用于基于所述决策影响从所述第一样本集中筛选出至少一个目标样本文本,以得到第二样本集;第二训练模块,用于利用所述第二样本集中的
目标样本文本对所述事件抽取模型进行第二训练。
9.为了解决上述技术问题,本技术第四方面提供了一种事件抽取装置,包括训练模块、文件获取模块和分类模块,训练模块,用于利用上述第一方面所述的事件抽取模型的训练方法,训练得到事件抽取模型;文件获取模块,用于获取待抽取文本;分类模块,用于利用所述事件抽取模型对所述待抽取文本进行事件抽取,得到所述待抽取文本的事件分类。
10.为了解决上述技术问题,本技术第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现上述第一方面所述的事件抽取模型的训练方法,或实现上述第二方面所述的事件抽取方法。
11.为了解决上述技术问题,本技术第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面所述的事件抽取模型的训练方法,或实现上述第二方面所述的事件抽取方法。
12.上述方案,利用第一样本集中的目标样本文本对用于预测文本的事件分类的所述事件抽取模型进行第一训练后,获取所述第一样本集中各所述目标样本文本对所述事件抽取模型的决策影响,从而基于所述决策影响从所述第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,则可以利用所述第二样本集中的目标样本文本对所述事件抽取模型进行第二训练,相较于人工降噪或者采用对比学习、对抗学习、强化学习来进行样本的降噪,本方案直接通过基于目标样本文本对事件抽取模型的决策影响,对目标文本样本进行降噪,能够节省事件抽取模型的训练成本。
附图说明
13.图1是本技术事件抽取模型的训练方法一实施例的流程示意图;
14.图2是本技术事件抽取模型的训练方法另一实施例的流程示意图;
15.图3是本技术事件抽取模型的训练方法另一实施例步骤s29的流程示意图;
16.图4是本技术事件抽取方法一实施例的流程示意图;
17.图5是本技术事件抽取模型的训练装置一实施例的框架示意图;
18.图6是本技术事件抽取装置一实施例的框架示意图;
19.图7是本技术电子设备一实施例的框架示意图;
20.图8是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图,对本技术实施例的方案进行详细说明。
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
23.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
24.请参阅图1,图1是本技术事件抽取模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
25.步骤s11:利用第一样本集中的目标样本文本对事件抽取模型进行第一训练。
26.事件抽取模型用于预测文本的事件分类。在利用各种样本文本对事件抽取模型进行训练时,可以获取目标样本文本的句子表示,获取句子表示中各单词的分类概率分布,然后基于各单词的分类概率分布得到各单词的事件分类,最后即可利用各单词的事件分类得到目标样本文本的预测事件分类,从而得到目标样本文本的事件预测信息。事件预测信息可以包括分类概率分布、预测事件分类等。分类概率分布,是事件抽取模型进行事件分类之前对文本的处理结果,用于表征每个单词属于各个预设分类的概率大小的矩阵表示,例如,一个文本的分类概率分布为文本的单词数量乘以预设分类数量的二维矩阵,多个文本的分类概率分布为文本数量、文本的单词数量以及预设分类数量相乘后的三维矩阵,其中,预设分类均可自定义设置,文本可以是后文的原始样本文本、扩充样本文本、目标样本文本、测试样本文本、验证样本文本、待抽取文本等。另外,事件抽取模型可以使用cnn(convolution neural network,卷积神经网络)、rnn(recurrent neural network,循环神经网络)、bert(bidirectional encoder representation from transformers,双向转换的编码器)等深度学习模型来训练模型的类别分类器。在一实际场景中,事件抽取模型可以为模型结构简单的bert模型加全连接层,将第一样本集中的每个目标样本文本输入事件抽取模型,获得目标样本文本的句子表示,采用序列标注方法,对句子中的每一个单词做多分类,然后通过一个全连接层,获得相应的分类概率分布,取分类概率分布的最大值作为每个单词对应的分类即可。
27.第一样本集包括若干个目标样本文本,该目标样本文本可以是新闻等各种应用场景下的文本,在此不做具体限定。目标样本文本的获取方式可以是利用数据增强方式对原始样本集中原始样本文本进行数据扩充得到的若干扩充样本文本,也可以是原始样本集中的至少部分原始样本文本。例如一公开实施例中,在利用第一样本集中的目标样本文本对事件抽取模型进行第一训练之前,可以利用数据增强方式对原始样本集中的原始样本文本进行数据扩充,得到若干扩充样本文本;将原始样本集中的至少部分原始样本文本和若干扩充样本文本均作为目标样本文本,以组成第一样本集,因此,通过数据增强方法,可以达到自动化的构建训练数据、自动化扩充样本集的目的。
28.数据增强方法可以是基于文本,直接进行扩充样本文本的生成,也可以基于表示,对前述生成的扩充样本文本进行降噪。上述数据增强方式可以包括词典替换、基于词向量替换、基于tf-idf替换、随机插入单词、随机交换、随机删除、预训练模型生成方式中的一种或者组合,或者也可以是其他数据增强方式。原始样本文本包括文本内容及其对应的标签,为了保持标签的一致性,在利用数据增强方法对原始样本集中原始样本文本进行数据扩充时,尽量保持标签不变或对标签进行同义词替换,避免标签偏移。数据增强方式包括词典替换时,从原始样本文本中选择待替换单词,将待替换单词替换为词库中与待替换单词具有相同语义的同义词,其中,词库包括但不限于wordnet、framenet等词库。数据增强方式包括基于词向量替换时,从原始样本文本中随机选择单词进行替换,例如,基于预先训练好的词向量,如word2vec,glove等,用向量空间中距离较近的词替换原始样本文本中选择的单词。数据增强方式包括基于tf-idf(term frequency

inverse document frequency,词频-逆文本频率指数)替换时,利用tf-idf方法历遍原始样本文本的单词,将tf-idf分数低的单词进行替换为预设单词,由于tf-idf分数低表示在原始样本文本中该单词出现的次数少、提
供的信息也较少,因此,将tf-idf分数低的单词替换后,依然能够保证原始样本文本的标签一致性。数据增强方式包括随机插入单词时,从原始样本文本中随机选择一个不是停止词的单词,获取单词的同义词,并将同义词插入到原始样本文本的随机位置,另外,为了保证标签的一致性,随机位置可以为标签位置以外的位置。数据增强方式包括随机交换时,将原始样本文本中若干个单词的位置进行随机替换,另外,为了保证标签一致性,若干个单词不包括标签文本。数据增强方式包括随机删除时,删除原始样本文本中的若干个单词,另外,为了保证标签一致性,若干个单词不包括标签文本。预训练模型生成方式是对文本中的部分单词进行遮挡,并利用预训练模型生成新的单词并替换遮挡的单词,例如,为了保证标签一致性,对标签进行遮挡时,同时在遮挡位两边加入标签标识符,限制遮挡的标签内容的文本生成,防止与原始样本文本语义偏离。在一实际场景中,原始样本文本为:10月27日0时至24时,a地新增2例本地新冠肺炎确诊病例,然后通过设置地点标签标识符《loc》限制生成的文本内容范围,使得标签不会过分偏离,从而在预训练模型输入为:10月27日0时至24时,《loc》《mask》《loc》新增2例本地新冠肺炎确诊病例,得到扩充样本文本:10月27日0时至24时,b地新增2例本地新冠肺炎确诊病例。上述数据增强方法中,利用同义词替换原始样本文本的单词或预训练模型生成方式时,可以替换标签,其余情况则是对除标签外的原始样本文本中的单词进行处理,从而保持标签的一致性。
29.现有技术中,人工进行样本的标注对原始样本文本进行扩充,或者利用数据增强方式对原始样本集中的原始样本文本进行数据扩充时,由于无法确定扩充样本文本的质量,只能够对数据增强方法进行简单的叠加,通过模型训练结果倒推当前分类任务是否适合所使用的数据增强方法,一般只使用1-2种数据增强方法,并且后续需要手工进行数据增强方法的选择,因此,至少存在以下缺点:训练成本较高;限制了扩充样本文本的个数和数据增强方法的种类,尤其对于突发性新闻事件抽取等场景,生成的扩充样本文本依然不足;获得扩充样本文本存在大量噪声,许多扩充样本文本的标签可能发生改变,对事件抽取模型并没有任何的促进作用,反而降低了事件抽取分类效果。相较于现有技术,本方案数据增强方法应用上,不再拘泥于某一种方法,所有保持标签一致性的数据增强方法都可以单独或者任意叠加使用,从而对数据增强方法以及方法数量没有限制,尽可能运用更多的数据增强方法,有效获得更多的训练数据,快速扩充训练集。
30.步骤s12:获取第一样本集中各目标样本文本对事件抽取模型的决策影响。
31.在利用第一样本集中的目标样本文本对事件抽取模型进行第一训练后,增加子采样流程,具体参阅步骤s12和步骤s13,对第一样本集中各目标样本文本进行评估,判断其对模型训练的决策影响,由于决策影响表示目标样本文本对模型训练是否具有促进作用或者促进作用的大小,因此,最终可找到第一样本集中对模型训练的促进作用较大的目标样本文本,从而有效对目标样本文本进行降噪,提升模型效果。
32.决策影响的获取方式不做具体限定,例如一公开实施例中,获取第一样本集中各目标样本文本对事件抽取模型的决策影响时,可以利用经第一训练的事件抽取模型,对第一样本集中的各目标样本文本进行事件预测,得到各目标样本文本的第一事件预测信息;基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响。其中,目标样本文本的第一事件预测信息可以包括目标样本文本的第一分类概率分布,或者目标样本文本的预测事件分类。因此,利用目标样本文本的经事件抽取模型的事件预测得到的第一事
件预测信息,确定各目标样本文本的决策影响,由于事件抽取模型经过第一训练已经进行了参数调整,使得决策影响能够反映目标样本文本对事件抽取模型的训练影响。
33.步骤s13:基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集。
34.每个目标样本文本对应有其对事件抽取模型的决策影响,比较各目标样本文本对事件抽取模型的决策影响,从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,从而对目标样本文本进行降噪,筛选出决策影响较好的目标样本文本用于第二训练。在一公开实施例中,基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集时,从第一样本集中,选出决策影响满足预设影响条件的目标样本文本,以得到第二样本集。预设影响条件为决策影响大于预设影响值,或者位于第一样本集的各目标样本文本的决策影响从高到低排序中的前预设比例范围内。预设影响条件、预设影响值、预设比例范围均可以自定义设置和调整,在此不做具体限定。
35.数据降噪技术在事件抽取方向至关重要。在人工智能时代,训练一个高质量信息抽取模型可以实现海量数据的快速自动筛选,但是如何获取高质量的训练数据、实现快速高质量训练数据构建是一个急迫需要解决的难题。数据增强方法生成的扩充样本文本中,并不是所有样本都对模型有促进作用,在训练过程中,模型需要能够挑选出数据增强方法得到的扩充样本文本中能够帮助模型训练的高质量数据,才能有效运用多种数据增强方法。现有的对目标样本文本进行降噪的方法一般采用对抗学习、对比学习、强化学习等,对模型进行复杂训练,模型很难收敛,训练成本较高,并且模型复杂度较高、模型训练效率较低,本案获取第一样本集中各目标样本文本对事件抽取模型的决策影响,基于决策影响从第一样本集中筛选出至少一个目标样本文本,直接通过计算,获得每一个目标样本文本对模型训练效果的决策影响,达到自动化高质量数据采样,可以更加有效节省训练成本。
36.步骤s14:利用第二样本集中的目标样本文本对事件抽取模型进行第二训练。
37.利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,第二次训练的训练文本是利用决策影响对目标样本文本进行降噪后的目标样本文本,而模型训练的实现方式可以是现有的任意一种模型训练方式。
38.上述利用第一样本集中的目标样本文本对事件抽取模型进行第一训练,或利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,可以利用事件抽取模型对目标样本文本进行事件预测,得到目标样本文本的第二事件预测信息,从而利用目标样本文本的第二事件预测信息,确定本次训练损失,并基于本次训练损失调整事件抽取模型的参数。第二事件预测信息可以是分类概率分布、预测事件分类。损失的计算方法可以是交叉熵损失函数。
39.上述方案,利用第一样本集中的目标样本文本对用于预测文本的事件分类的事件抽取模型进行第一训练后,获取第一样本集中各目标样本文本对事件抽取模型的决策影响,从而基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,则可以利用第二样本集中的目标样本文本对事件抽取模型进行第二训练,相较于人工降噪或者采用对比学习、对抗学习、强化学习来进行样本的降噪,本方案基于目标样本文本对事件抽取模型的决策影响,对目标文本样本进行降噪,能够节省事件抽取模型的训练成本。
40.请参阅图2,图2是本技术事件抽取模型的训练方法另一实施例的流程示意图。具
体而言,可以包括如下步骤:
41.步骤s21:利用数据增强方式对原始样本集中的原始样本文本进行数据扩充,得到若干扩充样本文本,并将原始样本集中的至少部分原始样本文本和若干扩充样本文本均作为目标样本文本,以组成第一样本集。
42.扩充样本文本是利用数据增强方法对原始样本集中的原始样本文本进行转化得到,使得目标样本文本的数量大增,但扩充样本文本可能存在标签偏移等问题,因此,需要对目标样本文本进行降噪。有关步骤s21的描述可参阅上述步骤s11,在此不再赘述。
43.步骤s22:利用第一样本集中的目标样本文本对事件抽取模型进行第一训练。
44.有关步骤s22的描述可参阅上述步骤s11,在此不再赘述。在对事件抽取模型进行第一训练后,增加子采样流程,具体参阅后文步骤s23至步骤s28中使用子采样来进行数据挑选的过程。
45.步骤s23:利用经第一训练的事件抽取模型,对测试样本集中的测试样本文本进行事件预测,得到测试样本集中各测试样本文本的第二分类概率分布。
46.步骤s24:利用经第一训练的事件抽取模型,对第一样本集中的各目标样本文本进行事件预测,得到各目标样本文本的第一事件预测信息。
47.本公开实施例中,目标样本文本的第一事件预测信息包括目标样本文本的第一分类概率分布。因此,步骤s23和步骤s24分别利用经第一训练的事件抽取模型,对测试样本文本和目标样本文本进行事件预测,对应得到第二分类概率分布和第一分类概率分布。经第一训练的事件抽取模型为利用目标样本文本训练且调整参数后的模型,从而再将目标样本文本和测试样本文本输入调整参数后的事件抽取模型时,只需要取梯度变化,不进行梯度回传,不更新参数,利用梯度变化计算目标样本文本对训练结果的促进效果大小即可。
48.测试样本集中包括若干个测样样本文本,该测样样本文本的标签如原始样本文本一样准确,从而测样样本文本的第二分类概率分布比较贴合对应的实际分类概率分布。目标样本文本中有一部分是利用数据增强方法扩充得到的扩充样本文本,从而目标样本文本的第一分类概率分布可能与对应的实际分类概率分布有较大差距。
49.本公开实施例中,目标样本文本的第一事件预测信息包括目标样本文本的第一分类概率分布,在基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响之前,利用经第一训练的事件抽取模型,对测试样本集中的测试样本文本进行事件预测,得到测试样本集中各测试样本文本的第二分类概率分布,以便通过下文步骤s25-步骤s27,实现图1实施例中步骤s12基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响。
50.步骤s25:利用目标样本文本的第一分类概率分布,确定每个目标样本文本的向量参数。
51.在一公开实施例中,利用目标样本文本的第一分类概率分布,确定每个目标样本文本的向量参数时,计算第一分类概率分布和第一实际分类概率分布的差值,将差值、目标样本文本的句子表示的平方、正则参数的乘积与一的和作为目标样本文本的逆海塞向量积。具体公式如下:
52.53.其中,h表示逆海塞向量积,yi表示第一分类概率分布;yi表示第一实际分类概率分布;x
ik
表示目标样本文本的句子表示,且其中i表示句子、k表示单词;c表示正则参数。
54.步骤s26:基于各目标样本文本的第一事件预测信息,得到各目标样本文本对应的第一损失,并基于各测试样本文本的第二分类概率分布,得到各测试样本文本对应的第二损失。
55.目标样本文本的第一事件预测信息包括目标样本文本的第一分类概率分布。损失是计算事件抽取模型预测的分类概率分布与对应的实际分类概率分布的差异得到的结果。例如,损失的计算方法可以是交叉熵损失函数获得的。
56.步骤s27:利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量,影响函数向量表征目标样本文本的决策影响。
57.影响函数向量的计算公式如下:
[0058][0059]
zi~p为第一样本集中的第i个目标样本文本的分类概率分布,为测试样本集中的第j个测试样本文本的分类概率分布,φ表示利用测试样本集中的第j个测试样本文本求得的第一样本集中的第i个目标样本文本的影响函数向量;表示测试样本集中的第j个测试样本文本的第二损失;表示第一样本集中的第i个目标样本文本的第一损失。因此,利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量时,将逆海塞向量积、目标样本文本的第一损失、测试样本文本的第二损失的乘积作为目标样本文本的影响函数向量,从而引入影响函数方法进行数据采样,以便从大量数据中挑选高质量目标样本文本。测试样本文本的第二损失是测试样本集中任意一个测试样本文本的第二损失,从而在计算每个目标样本文本的影响函数向量时,分别将该目标样本文本与任意一个测试样本文本进行比较,得到该目标样本文本对模型训练的参数影响。
[0060]
步骤s28:从第一样本集中,选出影响函数向量满足预设影响条件的目标样本文本,以得到第二样本集。
[0061]
由于影响函数向量表征目标样本文本的决策影响,因此在基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集时,从第一样本集中,选出影响函数向量满足预设影响条件的目标样本文本,以得到第二样本集。预设影响条件为影响函数向量大于预设影响值,或者位于第一样本集的各目标样本文本的影响函数向量从高到低排序中的前预设比例范围内。
[0062]
基于影响函数向量,得到每个目标样本文本对事件抽取模型参数的影响,因此,在利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量后,可采用线性采样函数对影响函数向量进行处理,从而对每个目标样本文本计算采样分类概率分布,因此在基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集时,从第一样本集中,选出处理后的影响函数向量满足预设影响条件的目标样本文本,以得到第二样本集。
[0063]
每个目标样本文本的决策影响通过影响函数计算获取并用影响函数向量表征,从
而影响函数向量可以获得每个目标样本文本在训练事件抽取模型参数上的影响,再根据影响函数向量获得采样概率分布,对第一样本集进行子采样。通过子采样,保留能帮助模型训练的目标样本文本,过滤那些因为数据增强产生标签偏移的目标样本文本,提高目标样本文本的质量,促进模型更好地训练。
[0064]
步骤s29:利用第二样本集中的目标样本文本对事件抽取模型进行第二训练。
[0065]
利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,可以利用事件抽取模型对目标样本文本进行事件预测,使事件抽取模型执行获取目标样本文本的句子表示,并获取句子表示中各单词的第三分类概率分布,将第三分类概率分布作为目标样本文本的第二事件预测信息;然后利用目标样本文本的第二事件预测信息,确定本次训练损失,则可以基于本次训练损失调整事件抽取模型的参数,完成对事件抽取模型进行第二训练。
[0066]
基于前述表征决策影响的影响函数向量,对第一样本集中的目标样本文本进行降噪,得到第二样本集中的目标样本文本。由于影响函数向量可以获取目标样本文本对模型训练是否有促进作用,能够将有用的目标样本文本保存下来,且由于每个目标样本文本的对模型训练促进程度不同,在训练过程中,对于更有促进作用的样本,我们希望其权重更大,而促进作用较小的样本,我们希望其权重相对更小。因此,利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,为了筛选出来的目标样本文本更好地帮助模型训练,可以为目标样本文本匹配不同权重,基于此,为了清楚的说明步骤s29,请参阅图3,图3是本技术事件抽取模型的训练方法另一实施例步骤s29的流程示意图。具体而言,可以包括如下步骤:
[0067]
步骤s291:复制经第一训练的事件抽取模型,得到复制模型。
[0068]
为了在获取权重时不影响经第一训练的事件抽取模型的参数更新,复制经第一训练的事件抽取模型,得到复制模型,从而重新定义一个与经第一训练的事件抽取模型的结构相同的模型,保存经第一训练的事件抽取模型的模型参数和模型梯度。
[0069]
步骤s292:利用第二样本集中的目标样本文本对复制模型进行训练。
[0070]
利用第二样本集中的目标样本文本对复制模型进行训练后,该经训练的复制模型用于对验证样本集进行事件预测。在利用第二样本集中的目标样本文本对复制模型进行训练时,将第二样本集中的目标样本文本分批次输入复制模型进行事件预测,以得到对应批次的目标样本文本的第五分类概率分布,然后定义一个与批次所含目标样本文本相同大小的间接向量,将间接向量与批次的目标样本文本的第五分类概率分布相乘,以得到复制模型的第三损失,最后基于第三损失,调整复制模型的参数。第五分类概率分布为多个维度的矩阵,具体为对应批次的目标样本文本的数量、目标样本文本的单词数量、单词所属的预设分类数量相乘的矩阵。间接向量也是对应批次的目标样本文本的数量与一相乘的矩阵。
[0071]
在基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重之前,可以利用第二样本集中的目标样本文本对复制模型进行训练。经训练的复制模型用于对验证样本集进行事件预测。
[0072]
步骤s293:基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重。
[0073]
基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标
样本文本的权重时,可以利用复制模型对验证样本集中的各验证样本文本进行事件预测,得到各验证样本文本的第三事件预测信息,然后基于各验证样本文本的第三事件预测信息,得到验证样本集的第二损失,最后利用验证样本集的第二损失,确定第二样本集中各目标样本文本的权重。具体地,利用验证样本集的第二损失,确定第二样本集中各目标样本文本的权重时,可以获取间接向量的梯度变化,将梯度变化归一化后的结果作为权重。
[0074]
为了避免测试集的过度拟合,也就是为了避免目标样本文本仅对测试样本文本的促进作用是有的,但是换了一部分样本文本后就没有促进作用了,所以还需要复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重。
[0075]
复制模型后采样样本输入复制模型,输出概率分布矩阵,进行梯度回传,调整参数,与上述模型训练一样。然后验证集样本输入调整参数后的复制模型,为了获得验证集权重,需要验证集的验证样本输入模型取梯度,不用梯度回传和参数调整。
[0076]
因此,由于经过采样留下来的第二样本集中目标样本文本对事件抽取模型的促进作用有大有小,对于促进作用大的目标样本文本,使其权重更大,对于促进作用小的目标样本文本,使其权重更小,从而通过引入权重分配,对于采样后的目标样本文本进行权重计算,使得第二次训练的目标样本文本对模型训练的促进作用越大,权重越大,进而更好地帮助模型训练。
[0077]
步骤s294:利用事件抽取模型对目标样本文本进行事件预测,得到目标样本文本的第二事件预测信息。
[0078]
第二事件预测信息包括第三分类概率分布时,在利用事件抽取模型对目标样本文本进行事件预测,得到目标样本文本的第二事件预测信息时,利用事件抽取模型执行获取目标样本文本的句子表示,并获取句子表示中各单词的第三分类概率分布。
[0079]
上述步骤s291至步骤s293获取权重的整个过程均是在复制模型上进行的,而步骤s294获取目标样本文本的第二事件预测信息是在事件抽取模型上进行的,且由于是利用第二样本集中的目标样本文本对事件抽取模型进行第二训练的过程中,因此该事件抽取模型是经第一训练的事件抽取模型。步骤s291至步骤s293获取权重的整个过程与步骤s294获取目标样本文本的第二事件预测信息之间的先后顺序不做限定。
[0080]
步骤s295:利用权重对目标样本文本的第三分类概率分布进行加权,得到目标样本文本的第四分类概率分布,并基于目标样本文本的第四分类概率分布,确定本次训练损失,并基于本次训练损失调整事件抽取模型的参数。
[0081]
在第二训练过程中,利用目标样本文本的第二事件预测信息,确定本次训练损失时,可以利用权重对目标样本文本的第三分类概率分布进行加权,得到目标样本文本的第四分类概率分布;基于目标样本文本的第四分类概率分布,确定本次训练损失,并基于本次训练损失调整事件抽取模型的参数。
[0082]
因此,上述方案中,事件抽取模型的输入不再是整个第一训练集中的目标样本文本,而是利用影响函数向量对数据进行采样、实现降噪后的第二训练集中的目标样本文本,并且可以选出影响函数向量满足预设影响条件的目标样本文本,便于选择出测试集上效果最好的采样比例,获得质量更高的训练样本;同时在第二次训练过程中,采用权重分配的方式,根据验证集上的梯度变化,计算目标样本文本的重要性,更好地促进模型训练。
[0083]
请参阅图4,图4是本技术事件抽取方法一实施例的流程示意图。
[0084]
具体而言,可以包括如下步骤:
[0085]
步骤s41:利用上述任一事件抽取模型的训练方法,训练得到事件抽取模型。
[0086]
事件抽取模型的训练方法可以是上述任一事件抽取模型的训练方法实施例中的方法。
[0087]
步骤s42:获取待抽取文本。
[0088]
待抽取文本可以是任意文本。例如一实际场景中,在新冠疫情的突然爆发,以新冠疫情事件为中心的新闻会有一个指数型的增长的场景中,待抽取文本为新闻文本,从而可利用事件抽取方法对新闻文本进行事件类别预测。
[0089]
步骤s43:利用事件抽取模型对待抽取文本进行事件抽取,得到待抽取文本的事件分类。
[0090]
在利用事件抽取模型对待抽取文本进行事件抽取,得到待抽取文本的事件分类时,可以获取待抽取文本的句子表示,获取句子表示中各单词的分类概率分布,然后基于各单词的分类概率分布得到各单词的事件分类,最后即可利用各单词的事件分类得到待抽取文本的事件分类,因此使用训练好的事件抽取模型对待抽取文本进行抽取,得到其最大分类概率分布,并对事件分类进行类别预测。
[0091]
通过上述方式,获取待抽取文本后,利用事件抽取模型对待抽取文本进行事件抽取,得到待抽取文本的事件分类,可以快速便捷地实现事件抽取。
[0092]
请参阅图5,图5是本技术事件抽取模型的训练装置50一实施例的框架示意图。事件抽取模型的训练装置50包括第一训练模块51、获取模块52、筛选模块53和第二训练模块54。第一训练模块51,用于利用第一样本集中的目标样本文本对事件抽取模型进行第一训练,其中,事件抽取模型用于预测文本的事件分类;获取模块52,用于获取第一样本集中各目标样本文本对事件抽取模型的决策影响;筛选模块53,用于基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集;第二训练模块54,用于利用第二样本集中的目标样本文本对事件抽取模型进行第二训练。
[0093]
上述方案,第一训练模块51利用第一样本集中的目标样本文本对用于预测文本的事件分类的事件抽取模型进行第一训练后,获取模块52获取第一样本集中各目标样本文本对事件抽取模型的决策影响,从而筛选模块53基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,则第二训练模块54可以利用第二样本集中的目标样本文本对事件抽取模型进行第二训练,相较于人工降噪或者采用对比学习、对抗学习、强化学习来进行样本的降噪,本方案基于目标样本文本对事件抽取模型的决策影响,对目标文本样本进行降噪,能够节省事件抽取模型的训练成本。
[0094]
在一些公开实施例中,获取模块52用于获取第一样本集中各目标样本文本对事件抽取模型的决策影响时,还用于利用经第一训练的事件抽取模型,对第一样本集中的各目标样本文本进行事件预测,得到各目标样本文本的第一事件预测信息;基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响。
[0095]
因此,利用目标样本文本的经事件抽取模型的事件预测得到的第一事件预测信息,确定各目标样本文本的决策影响,使得决策影响能够反映目标样本文本对事件抽取模型的训练影响。
[0096]
在一些公开实施例中,目标样本文本的第一事件预测信息包括目标样本文本的第
一分类概率分布;获取模块52用于在基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响之前,还用于利用经第一训练的事件抽取模型,对测试样本集中的测试样本文本进行事件预测,得到测试样本集中各测试样本文本的第二分类概率分布;获取模块52用于基于各目标样本文本的第一事件预测信息,确定各目标样本文本的决策影响时,还用于利用目标样本文本的第一分类概率分布,确定每个目标样本文本的向量参数;基于各目标样本文本的第一事件预测信息,得到各目标样本文本对应的第一损失,并基于各测试样本文本的第二分类概率分布,得到各测试样本文本对应的第二损失;利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量,影响函数向量表征目标样本文本的决策影响。
[0097]
因此,利用目标样本文本和测试样本文本均输入经第一训练的事件抽取模型,得到对应的分类概率分布,并基于对应的分类概率分布计算各自的损失,并利用目标样本文本的第一分类概率分布,确定每个目标样本文本的向量参数,从而利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量,使得影响函数向量表征目标样本文本的决策影响,且影响函数向量是目标样本文本和测试样本文本对比分析后的结果。
[0098]
在一些公开实施例中,获取模块52用于利用目标样本文本的第一分类概率分布,确定每个目标样本文本的向量参数时,还用于计算第一分类概率分布和第一实际分类概率分布的差值,将差值、目标样本文本的句子表示的平方、正则参数的乘积与一的和作为目标样本文本的逆海塞向量积;获取模块52用于利用向量参数、目标样本文本的第一损失、测试样本文本的第二损失,得到各目标样本文本对应的影响函数向量时,还用于将逆海塞向量积、目标样本文本的第一损失、测试样本文本的第二损失的乘积作为目标样本文本的影响函数向量。
[0099]
因此,向量参数为逆海塞向量积,将逆海塞向量积、目标样本文本的第一损失、测试样本文本的第二损失的乘积作为目标样本文本的影响函数向量,从而通过计算的方式实现模型训练的决策影响的判断,相较于复杂模型,可节省模型训练的成本。
[0100]
在一些公开实施例中,第一训练模块51用于利用第一样本集中的目标样本文本对事件抽取模型进行第一训练,或第二训练模块54用于利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,还用于利用事件抽取模型对目标样本文本进行事件预测,得到目标样本文本的第二事件预测信息;利用目标样本文本的第二事件预测信息,确定本次训练损失,并基于本次训练损失调整事件抽取模型的参数。
[0101]
因此,利用事件抽取模型对目标样本文本进行事件预测得到的第二事件预测信息计算模型的损失,实现第一训练和第二训练中模型参数的调整。
[0102]
在一些公开实施例中,第二事件预测信息包括第三分类概率分布,第一训练模块51或第二训练模块54用于利用事件抽取模型对目标样本文本进行事件预测,得到目标样本文本的第二事件预测信息时,还用于利用事件抽取模型执行:获取目标样本文本的句子表示,并获取句子表示中各单词的第三分类概率分布。
[0103]
因此,事件抽取模型通过获取目标样本文本的句子表示,并获取句子表示中各单词的第三分类概率分布作为第二事件预测信息,整个模型训练过程简单,对模型结构要求低。
[0104]
在一些公开实施例中,第二训练模块54用于利用第二样本集中的目标样本文本对事件抽取模型进行第二训练时,还用于复制经第一训练的事件抽取模型,得到复制模型;基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重;在第二训练过程中,第二训练模块54用于利用目标样本文本的第二事件预测信息,确定本次训练损失时,还用于利用权重对目标样本文本的第三分类概率分布进行加权,得到目标样本文本的第四分类概率分布;基于目标样本文本的第四分类概率分布,确定本次训练损失。
[0105]
因此,由于经过采样留下来的第二样本集中目标样本文本对事件抽取模型的促进作用有大有小,对于促进作用大的目标样本文本,使其权重更大,对于促进作用小的目标样本文本,使其权重更小,从而通过引入权重分配,对于采样后的目标样本文本进行权重计算,使得第二次训练的目标样本文本对模型训练的促进作用越大,权重越大,进而更好地帮助模型训练。
[0106]
在一些公开实施例中,第二训练模块54用于在基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重之前,还用于利用第二样本集中的目标样本文本对复制模型进行训练,其中,经训练的复制模型用于对验证样本集进行事件预测;和/或,第二训练模块54用于基于复制模型对验证样本集进行事件预测的第二损失,确定第二样本集中各目标样本文本的权重时,还用于利用复制模型对验证样本集中的各验证样本文本进行事件预测,得到各验证样本文本的第三事件预测信息;基于各验证样本文本的第三事件预测信息,得到验证样本集的第二损失;利用验证样本集的第二损失,确定第二样本集中各目标样本文本的权重。
[0107]
因此,为了避免测试集的过度拟合,也就是为了避免目标样本文本对测试样本文本的促进作用是有的,但是换了一部分样本文本后就没有促进作用了,所以还需要验证样本文本输入调整参数后的复制模型,对验证样本集进行事件预测,证明目标样本文本的促进作用大小,从而对应确定权重,从而引入权重分配,优化模型训练效果。
[0108]
在一些公开实施例中,第二训练模块54用于利用第二样本集中的目标样本文本对复制模型进行训练时,还用于将第二样本集中的目标样本文本分批次输入复制模型进行事件预测,以得到对应批次的目标样本文本的第五分类概率分布;定义一个与批次所含目标样本文本相同大小的间接向量,将间接向量与批次的目标样本文本的第五分类概率分布相乘,以得到复制模型的第三损失;基于第三损失,调整复制模型的参数;第二训练模块54用于利用验证样本集的第二损失,确定第二样本集中各目标样本文本的权重时,还用于获取间接向量的梯度变化,将梯度变化归一化后的结果作为权重。
[0109]
因此,对于采样后的目标样本文本进行权重计算,使得目标样本文本对模型训练的促进作用越大,权重越大,可以更好地帮助模型训练。
[0110]
在一些公开实施例中,筛选模块53用于基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集时,还用于从第一样本集中,选出决策影响满足预设影响条件的目标样本文本,以得到第二样本集,其中,预设影响条件为决策影响大于预设影响值,或者位于第一样本集的各目标样本文本的决策影响从高到低排序中的前预设比例范围内。
[0111]
因此,获取第一样本集中各目标样本文本对事件抽取模型的决策影响,基于决策
影响从第一样本集中筛选出至少一个目标样本文本,直接通过计算,获得每一个目标样本文本对模型训练效果的决策影响,达到自动化高质量数据采样,可以更加有效节省训练成本。
[0112]
在一些公开实施例中,第一训练模块51用于在利用第一样本集中的目标样本文本对事件抽取模型进行第一训练之前,还用于利用数据增强方式对原始样本集中的原始样本文本进行数据扩充,得到若干扩充样本文本;将原始样本集中的至少部分原始样本文本和若干扩充样本文本均作为目标样本文本,以组成第一样本集。
[0113]
因此,通过数据增强方法,可以达到自动化的构建训练数据,从而自动化扩充样本集的目的。
[0114]
在一些公开实施例中,数据增强方式包括词典替换、基于词向量替换、基于tf-idf替换、随机插入单词、随机交换、随机删除、预训练模型生成方式中的一种或者组合,其中,预训练模型生成方式是对文本中的部分单词进行遮挡,并利用预训练模型生成新的单词并替换遮挡的单词。
[0115]
因此,数据增强方法应用上,不再拘泥于某一种方法,所有保持标签一致性的数据增强方法都可以单独或者任意叠加使用,从而对数据增强方法以及方法数量没有限制,尽可能运用更多的数据增强方法,有效获得更多的训练数据,快速扩充训练集。
[0116]
请参阅图6,图6是本技术事件抽取装置60一实施例的框架示意图。事件抽取装置60包括训练模块61、文件获取模块62和分类模块63。训练模块61,用于利用上述任一事件抽取模型的训练方法实施例,训练得到的事件抽取模型;文件获取模块62,用于获取待抽取文本;分类模块63,用于利用事件抽取模型对待抽取文本进行事件抽取,得到待抽取文本的事件分类。
[0117]
通过上述方式,文件获取模块62获取待抽取文本后,文件获取模块62利用事件抽取模型对待抽取文本进行事件抽取,得到待抽取文本的事件分类,可以快速便捷地实现事件抽取。
[0118]
请参阅图7,图7是本技术电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一事件抽取模型的训练方法实施例中的步骤,或者实现上述任一事件抽取方法实施例中的步骤。具体地,电子设备70可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0119]
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一事件抽取模型的训练方法实施例中的步骤,或者实现上述任一事件抽取方法实施例中的步骤。处理器72还可以称为cpu(central processing unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
[0120]
上述方案,利用第一样本集中的目标样本文本对用于预测文本的事件分类的事件抽取模型进行第一训练后,获取第一样本集中各目标样本文本对事件抽取模型的决策影
响,从而基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,则可以利用第二样本集中的目标样本文本对事件抽取模型进行第二训练,相较于人工降噪或者采用对比学习、对抗学习、强化学习来进行样本的降噪,本方案基于目标样本文本对事件抽取模型的决策影响,对目标文本样本进行降噪,能够节省事件抽取模型的训练成本。
[0121]
请参阅图8,图8是本技术计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一事件抽取模型的训练方法实施例中的步骤,或者实现上述任一事件抽取方法实施例中的步骤。
[0122]
上述方案,利用第一样本集中的目标样本文本对用于预测文本的事件分类的事件抽取模型进行第一训练后,获取第一样本集中各目标样本文本对事件抽取模型的决策影响,从而基于决策影响从第一样本集中筛选出至少一个目标样本文本,以得到第二样本集,则可以利用第二样本集中的目标样本文本对事件抽取模型进行第二训练,相较于人工降噪或者采用对比学习、对抗学习、强化学习来进行样本的降噪,本方案基于目标样本文本对事件抽取模型的决策影响,对目标文本样本进行降噪,能够节省事件抽取模型的训练成本。
[0123]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0124]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0125]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0126]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0127]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0128]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献