一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

模型优化方法、装置、电子设备及可读存储介质与流程

2022-06-05 21:00:32 来源:中国专利 TAG:


1.本公开涉及计算机技术领域,具体涉及一种模型优化方法、装置、电子设备及可读存储介质。


背景技术:

2.关系抽取任务的目标是给定实体对和实体对所在的上下文,基于预先设定的标签集合,预测实体对所具有的关系。比如对于“北京”和“中国”这一实体对,句子“北京是中国的首都”表达了它们之间“/地区/国家/首都”的关系。关系抽取作为信息抽取的重要子任务,可以被应用于很多下游任务中,比如知识图谱的构建与扩展,问答系统,搜索引擎等。目前主要采用有监督的学习方法进行关系抽取:将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。但是,该方法需要大量的人工标注训练语料,而语料标注工作通常非常耗时耗力。为了打破有监督学习中人工标注数据的局限性,提出了远程监督算法,该算法的核心思想是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注。虽然远程监督标注方法非常高效,理论上可以构造无限多的标注数据,但是基于远程监督方法标注的数据通常含有大量噪音,这些噪音标注会对模型的效果带来一定的影响。因此,降低噪音数据对模型的负面影响,对提升模型的效果有着重要的意义。


技术实现要素:

3.为了解决相关技术中的问题,本公开实施例提供一种模型优化方法、装置、电子设备及可读存储介质。
4.第一方面,本公开实施例中提供了一种模型优化方法。
5.具体地,所述模型优化方法,包括:
6.使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
7.根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
8.使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
9.结合第一方面,本公开在第一方面的第一种实现方式中,所述获取多个训练实例各自在标签集合上的预测概率分布,包括:
10.获取所述训练实例的向量表示;
11.将所述训练实例的向量表示输入到以softmax为激活函数的全连接层进行非线性变换,得到所述训练实例在标签集合上的预测概率分布。
12.结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述
获取所述训练实例的向量表示,包括:
13.获取所述训练实例的向量列表,所述向量列表包括所述训练实例中各个词的词向量和所述词相对于所述训练实例中的实体的位置向量;
14.对所述训练实例的向量列表进行特征提取,得到特征提取结果;
15.将所述特征提取结果以所述实体的位置为界限进行最大池化,得到池化结果;
16.根据所述池化结果得到所述训练实例的向量表示。
17.结合第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中:
18.所述对所述训练实例的向量列表进行特征提取,得到特征提取结果,包括:将所述向量列表输入卷积神经网络,所述卷积神经网络输出所述特征提取结果;
19.所述根据所述池化结果得到所述训练实例的向量表示,包括:将所述池化结果输入丢弃层,所述丢弃层输出所述向量表示。
20.结合第一方面,本公开在第一方面的第四种实现方式中,所述方法还包括:
21.使用所述多个训练实例和所述多个训练实例各自的初始标签对所述预测模型进行预训练。
22.结合第一方面,本公开在第一方面的第五种实现方式中,所述使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布,包括:
23.根据所述多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签;
24.使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,根据第一约束条件更新所述预测模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
25.结合第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述第一约束条件包括:
26.使所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数最小化。
27.结合第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述第一约束条件还包括:
28.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
29.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
30.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
31.结合第一方面,本公开在第一方面的第八种实现方式中,所述根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,包括:
32.根据所述多个训练实例各自的预测概率分布和第二约束条件,确定所述多个训练实例各自在标签集合上的伪概率分布。
33.结合第一方面的第八种实现方式,本公开在第一方面的第九种实现方式中,所述第二约束条件包括:
34.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
35.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
36.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
37.结合第一方面,本公开在第一方面的第十种实现方式中,所述方法还包括:
38.使用所述多个训练实例各自的初始标签,对所述多个训练实例各自在标签集合上的伪概率分布进行初始化。
39.结合第一方面,本公开在第一方面的第十一种实现方式中,所述标签表示相应训练实例中的实体之间的关系。
40.第二方面,本公开实施例提供给了一种模型优化装置,所述模型优化装置包括:
41.第一获取模块,被配置为使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
42.第二获取模块,被配置为根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
43.优化模块,被配置为使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
44.结合第二方面,本公开在第二方面的第一种实现方式中,所述获取多个训练实例各自在标签集合上的预测概率分布,包括:
45.获取所述训练实例的向量表示;
46.将所述训练实例的向量表示输入到以softmax为激活函数的全连接层进行非线性变换,得到所述训练实例在标签集合上的预测概率分布。
47.结合第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,所述获取所述训练实例的向量表示,包括:
48.获取所述训练实例的向量列表,所述向量列表包括所述训练实例中各个词的词向量和所述词相对于所述训练实例中的实体的位置向量;
49.对所述训练实例的向量列表进行特征提取,得到特征提取结果;
50.将所述特征提取结果以所述实体的位置为界限进行最大池化,得到池化结果;
51.根据所述池化结果得到所述训练实例的向量表示。
52.结合第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中:
53.所述对所述训练实例的向量列表进行特征提取,得到特征提取结果,包括:将所述向量列表输入卷积神经网络,所述卷积神经网络输出所述特征提取结果;
54.所述根据所述池化结果得到所述训练实例的向量表示,包括:将所述池化结果输入丢弃层,所述丢弃层输出所述向量表示。
55.结合第二方面,本公开在第二方面的第四种实现方式中,所述装置还包括:
56.预训练模块,被配置为使用所述多个训练实例和所述多个训练实例各自的初始标签对所述预测模型进行预训练。
57.结合第二方面,本公开在第二方面的第五种实现方式中,所述使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布,包括:
58.根据所述多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签;
59.使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,根据第一约束条件更新所述预测模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
60.结合第二方面的第五种实现方式,本公开在第二方面的第六种实现方式中,所述第一约束条件包括:
61.使所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数最小化。
62.结合第二方面的第六种实现方式,本公开在第二方面的第七种实现方式中,所述第一约束条件还包括:
63.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
64.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
65.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
66.结合第二方面,本公开在第二方面的第八种实现方式中,所述根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,包括:
67.根据所述多个训练实例各自的预测概率分布和第二约束条件,确定所述多个训练实例各自在标签集合上的伪概率分布。
68.结合第二方面的第八种实现方式,本公开在第二方面的第九种实现方式中,所述第二约束条件包括:
69.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
70.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
71.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
72.结合第二方面,本公开在第二方面的第十种实现方式中,所述装置还包括:
73.初始化模块,被配置为使用所述多个训练实例各自的初始标签,对所述多个训练实例各自在标签集合上的伪概率分布进行初始化。
74.结合第二方面,本公开在第二方面的第十一种实现方式中,所述标签表示相应训
练实例中的实体之间的关系。
75.第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现如第一方面至第一方面的第十一种实现方式中任一项所述的方法。
76.第四方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面至第一方面的第十一种实现方式中所述的方法。
77.第五方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面至第一方面的第十一种实现方式中任一项所述的方法。
78.根据本公开实施例提供的技术方案,使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文,根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。以此方式,相比于过滤掉可能是噪音的数据的方法,本公开实施例的方法能够纠正数据中的噪音标注,将噪音数据转化为有价值的数据,因而可以提高模型的表现;此外,相比于其他噪音重标的方法,本公开实施例的方法不依赖于额外的先验信息,适用范围更广,更容易实现。
79.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
80.结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
81.图1示出根据本公开的实施例的数据处理方法的流程图。
82.图2示出了根据本公开实施例的系统架构图。
83.图3示出了根据本公开实施例的预测模型的结构示意图。
84.图4示出了伪标签的更新和预测概率分布的更新的原理示意图。
85.图5示出根据本公开的实施例的数据处理装置的结构框图。
86.图6示出根据本公开的实施例的电子设备的结构框图。
87.图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
具体实施方式
88.下文中,将参考附图详细描述本公开的示例性实施例,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施例无关的部分。
89.在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
90.另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
91.在本公开中,对用户信息或用户数据的获取均为经用户授权、确认,或由用户主动选择的操作。
92.如上文所述,虽然远程监督标注方法非常高效,理论上可以构造无限多的标注数据,但是基于远程监督方法标注的数据通常含有大量噪音,这些噪音标注会对模型的效果带来一定的影响。因此,降低噪音数据对模型的负面影响,对提升模型的效果有着重要的意义。
93.在关系抽取任务中减少远程监督噪音标注带来的影响的方法主要分为三类:过滤掉数据集中可能是噪音的数据;根据数据含有噪音的可能性,为数据分配不同的权重;对噪音数据进行重新标注。上述方法均存在一定的缺陷,比如前两种方法并没有完全消除噪音的影响,因为噪音标签在训练过程中是固定不变的,而对噪音数据进行重新标注的方法也往往依赖于任务的先验信息。
94.本公开实施例提供了一种模型优化方法,包括:
95.使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
96.根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
97.使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
98.相比于过滤掉可能是噪音的数据的方法,本公开实施例的方法能够纠正数据中的噪音标注,将噪音数据转化为有价值的数据,因而可以提高模型的表现;此外,相比于其他噪音重标的方法,本公开实施例的方法不依赖于额外的先验信息,适用范围更广,更容易实现。
99.图1示出根据本公开的实施例的数据处理方法的流程图。
100.如图1所示,所述数据处理方法包括以下步骤s101-s103:
101.在步骤s101中,使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
102.在步骤s102中,根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
103.在步骤s103中,使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
104.相比于过滤掉可能是噪音的数据的方法,本公开实施例的方法能够通过更新训练实例在标签集合上的预测概率分布纠正数据中的噪音标注。当模型优化完毕时,可以根据训练实例在标签集合上的预测概率分布更新训练实例的标签,从而将噪音数据转化为有价值的数据,提高模型的表现;此外,相比于其他噪音重标的方法,本公开实施例的方法不依赖于额外的先验信息,适用范围更广,更容易实现。
105.根据本公开的实施例,训练实例例如可以包括实体对和所述实体对所在的上下文,所述标签表示相应训练实例中的实体之间的关系。本公开实施例可以用于纠正通过远程监督方式确定的训练实例中实体关系的噪音标签,也可以用于纠正其他的训练实例标签,例如文本的语义标签、情绪标签,等等。
106.根据本公开的实施例,训练实例的初始标签可以是通过远程监督算法对训练实例进行标注得到的标签,也可以是用其他方法得到的可能包含噪音的标签。
107.图2示出了根据本公开实施例的系统架构图。
108.如图2所示,使用多个训练实例和所述多个训练实例各自的初始标签对预测模型进行预训练,预训练好的预测模型输出训练实例在标签集合上的预测概率分布。
109.将多个训练实例各自的预测概率分布输入噪音重标模块,噪音重标模块根据预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布。然后,使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。接着,使用多个训练实例各自在标签集合上的更新的预测概率分布,更新所述多个训练实例各自在标签集合上的伪概率分布。然后,使用所述多个训练实例各自在标签集合上的更新的伪概率分布和所述多个训练实例各自的初始标签,优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。伪标签的更新和预测概率分布的更新迭代进行,直到模型优化完毕。
110.在一个具体的示例中,可以将多个训练实例各自的预测概率分布输入噪音重标模块,噪音重标模块根据预测概率分布,在第二约束条件下获得所述多个训练实例各自在标签集合上的伪概率分布。基于多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签。例如,将伪概率最大的伪标签确定为相应训练实例的伪标签。然后,使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,在第一约束条件下对预测模型进行联合训练,以更新预测概率分布。然后,以更新的预测概率分布,在第二约束条件下获得所述多个训练实例各自的更新的伪标签,再使用更新的伪标签重复上述更新预测概率分布的过程。伪标签的更新和预测概率分布的更新迭代进行,直到第一约束条件和第二约束条件均被满足。此时预测模型输出的预测概率分布是预测概率分布的最终更新结果。然后,根据该最终更新结果,确定相应训练实例的标签。例如,将最终更新结果中概率最大的标签作为相应训练实例的标签。
111.图3示出了根据本公开实施例的预测模型的结构示意图。
112.根据本公开的实施例,所述获取多个训练实例各自在标签集合上的预测概率分布,包括:
113.获取所述训练实例的向量表示;
114.将所述训练实例的向量表示输入到以softmax为激活函数的全连接层进行非线性变换,得到所述训练实例在标签集合上的预测概率分布。
115.根据本公开的实施例,所述获取所述训练实例的向量表示,包括:
116.获取所述训练实例的向量列表,所述向量列表包括所述训练实例中各个词的词向量和所述词相对于所述训练实例中的实体的位置向量;
117.对所述训练实例的向量列表进行特征提取,得到特征提取结果;
118.将所述特征提取结果以所述实体的位置为界限进行最大池化,得到池化结果;
119.根据所述池化结果得到所述训练实例的向量表示。
120.根据本公开的实施例,所述对所述训练实例的向量列表进行特征提取,得到特征提取结果,包括:将所述向量列表输入卷积神经网络,所述卷积神经网络输出所述特征提取结果;
121.所述根据所述池化结果得到所述训练实例的向量表示,包括:将所述池化结果输入丢弃层,所述丢弃层输出所述向量表示。
122.例如,如图3所示,可以利用word2vec工具获取训练实例中各个词的词向量,并根据实体对的位置确定各个词相对于实体对中两个实体的位置向量,位置向量表示所述词相对于两个实体的距离。每个词的向量表示包括所述词的词向量和所述词的位置向量。训练实例中各个词的向量表示构成训练实例的向量列表。将向量列表输入特征提取层,例如卷积神经网络,得到特征提取结果。将所述特征提取结果以所述实体的位置为界限进行池化,得到池化结果。例如,对特征提取结果以实体的位置为界限分三段进行最大池化,将最大池化得到的三个向量拼接起来,然后经过丢弃层(dropout层,图中未示出),得到训练实例的向量表示。然后,将训练实例的向量表示输入分类器,例如以softmax为激活函数的全连接层,得到所述训练实例在标签集合上的预测概率分布。
123.根据本公开的实施例,所述使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布,包括:
124.根据所述多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签;
125.使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,根据第一约束条件更新所述预测模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
126.如图3所示,预测模型可以包括用于生成训练实例的向量列表的模块、特征提取层、分段池化层、分类器,预测模型中的参数全部是可以训练的,或者,预测模型中的部分参数(例如用于获取训练实例中各个词的词向量的部分的参数)可以是预先设置好且不变的,而其余参数是可训练的。可以使用所述多个训练实例和所述多个训练实例各自的初始标签对预测模型进行预训练,并使用预训练的模型输出训练实例在标签集合上的预测概率分布。
127.在获得所述多个训练实例各自的伪标签之后,可以使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,以及所述第一约束条件更新所述预测概率模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
128.根据本公开的实施例,所述根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,包括:
129.根据所述多个训练实例各自的预测概率分布和第二约束条件,确定所述多个训练实例各自在标签集合上的伪概率分布。
130.根据本公开的实施例,伪概率分布可以作为可训练参数,通过反向传播进行更新。
131.根据本公开的实施例,基于标签的预测概率分布生成伪标签,基于伪标签和初始
标签联合训练预测模型以更新预测概率分布,迭代进行伪标签的更新和预测概率分布的更新,能够在不需要额外的先验知识的情况下,有效减小噪声标注对预测模型的影响。
132.图4示出了伪标签的更新和预测概率分布的更新的原理示意图。
133.根据本公开的实施例,所述第一约束条件包括:使所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数最小化。其中,所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数例如通过以下方式计算得到:对于每个训练实例,分别计算该训练实例在标签集合上的预测概率分布相对于该训练实例的初始标签的损失函数和该训练实例在标签集合上的预测概率分布相对于该训练实例的伪标签的损失函数,再对所述多个训练实例的这两种损失函数求和,作为所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数。
134.根据本公开的实施例,所述第一约束条件还包括:
135.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
136.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
137.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
138.根据本公开的实施例,所述第二约束条件包括:
139.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
140.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
141.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
142.如图4所示,因为预测概率分布准确度越高,则预测概率分布和伪概率分布之间的互信息越大,所以更新伪概率分布的约束条件之一为使得使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界(infonce)最大化。根据本公开的实施例,由于直接计算高维空间中两个变量的互信息是非常困难的,所以使用一个容易获得的互信息的下界infonce对互信息进行估计。此外,可以使用所述多个训练实例各自的初始标签,对所述多个训练实例各自在标签集合上的伪概率分布进行初始化,以充分利用初始标签中的信息。在约束条件中规定使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛,以防止预测模型的参数剧烈更新。此外,对预测概率分布添加熵减约束,要求所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
143.根据本公开的实施例,训练实例在标签集合上的伪概率分布的更新(以及伪标签的更新)与预测模型的联合训练(即,预测概率分布的更新)是交替进行的,在伪概率分布更新时需考虑第二约束条件,在联合训练时需考虑第一约束条件。
144.图5示出根据本公开的实施例的数据处理装置的结构框图。其中,该装置可以通过
软件、硬件或者两者的结合实现成为电子设备的部分或者全部。
145.如图5所示,所述数据处理装置500包括第一获取模块510、第二获取模块520、优化模块530。
146.第一获取模块510被配置为使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
147.第二获取模块520被配置为根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
148.优化模块530被配置为使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
149.根据本公开的实施例,所述获取多个训练实例各自在标签集合上的预测概率分布,包括:
150.获取所述训练实例的向量表示;
151.将所述训练实例的向量表示输入到以softmax为激活函数的全连接层进行非线性变换,得到所述训练实例在标签集合上的预测概率分布。
152.根据本公开的实施例,所述获取所述训练实例的向量表示,包括:
153.获取所述训练实例的向量列表,所述向量列表包括所述训练实例中各个词的词向量和所述词相对于所述训练实例中的实体的位置向量;
154.对所述训练实例的向量列表进行特征提取,得到特征提取结果;
155.将所述特征提取结果以所述实体的位置为界限进行最大池化,得到池化结果;
156.根据所述池化结果得到所述训练实例的向量表示。
157.根据本公开的实施例:
158.所述对所述训练实例的向量列表进行特征提取,得到特征提取结果,包括:将所述向量列表输入卷积神经网络,所述卷积神经网络输出所述特征提取结果;
159.所述根据所述池化结果得到所述训练实例的向量表示,包括:将所述池化结果输入丢弃层,所述丢弃层输出所述向量表示。
160.根据本公开的实施例,所述装置还包括:
161.预训练模块540,被配置为使用所述多个训练实例和所述多个训练实例各自的初始标签对所述预测模型进行预训练。
162.根据本公开的实施例,所述使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布,包括:
163.根据所述多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签;
164.使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,根据第一约束条件更新所述预测模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
165.根据本公开的实施例,所述第一约束条件包括:
166.使所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的
初始标签和伪标签的总损失函数最小化。
167.根据本公开的实施例,所述第一约束条件还包括:
168.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
169.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
170.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
171.根据本公开的实施例,所述根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,包括:
172.根据所述多个训练实例各自的预测概率分布和第二约束条件,确定所述多个训练实例各自在标签集合上的伪概率分布。
173.根据本公开的实施例,所述第二约束条件包括:
174.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
175.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
176.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
177.根据本公开的实施例,所述装置还包括:
178.初始化模块550,被配置为使用所述多个训练实例各自的初始标签,对所述多个训练实例各自在标签集合上的伪概率分布进行初始化。
179.根据本公开的实施例,所述标签表示相应训练实例中的实体之间的关系。
180.本公开还公开了一种电子设备,图6示出根据本公开的实施例的电子设备的结构框图。
181.如图6所示,所述电子设备600包括存储器601和处理器602,其中,存储器601用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器602执行以实现根据本公开的实施例的方法。
182.根据本公开的实施例,一种模型优化方法,包括:
183.使用预测模型获取多个训练实例各自在标签集合上的预测概率分布,所述训练实例包括实体对和所述实体对所在的上下文;
184.根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布;
185.使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布。
186.根据本公开的实施例,所述获取多个训练实例各自在标签集合上的预测概率分布,包括:
187.获取所述训练实例的向量表示;
188.将所述训练实例的向量表示输入到以softmax为激活函数的全连接层进行非线性变换,得到所述训练实例在标签集合上的预测概率分布。
189.根据本公开的实施例,所述获取所述训练实例的向量表示,包括:
190.获取所述训练实例的向量列表,所述向量列表包括所述训练实例中各个词的词向量和所述词相对于所述训练实例中的实体的位置向量;
191.对所述训练实例的向量列表进行特征提取,得到特征提取结果;
192.将所述特征提取结果以所述实体的位置为界限进行最大池化,得到池化结果;
193.根据所述池化结果得到所述训练实例的向量表示。
194.根据本公开的实施例:
195.所述对所述训练实例的向量列表进行特征提取,得到特征提取结果,包括:将所述向量列表输入卷积神经网络,所述卷积神经网络输出所述特征提取结果;
196.所述根据所述池化结果得到所述训练实例的向量表示,包括:将所述池化结果输入丢弃层,所述丢弃层输出所述向量表示。
197.根据本公开的实施例,所述方法还包括:
198.使用所述多个训练实例和所述多个训练实例各自的初始标签对所述预测模型进行预训练。
199.根据本公开的实施例,所述使用所述多个训练实例各自在标签集合上的伪概率分布和所述多个训练实例各自的初始标签优化所述预测模型,以更新所述多个训练实例各自在标签集合上的预测概率分布,包括:
200.根据所述多个训练实例各自在标签集合上的伪概率分布确定所述多个训练实例各自的伪标签;
201.使用所述多个训练实例、所述多个训练实例各自的初始标签和各自的伪标签,根据第一约束条件更新所述预测模型的参数,以更新所述多个训练实例各自在标签集合上的预测概率分布。
202.根据本公开的实施例,所述第一约束条件包括:
203.使所述多个训练实例各自在标签集合上的预测概率分布相对于相应训练实例的初始标签和伪标签的总损失函数最小化。
204.根据本公开的实施例,所述第一约束条件还包括:
205.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
206.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
207.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
208.根据本公开的实施例,所述根据所述多个训练实例各自在标签集合上的预测概率分布,获取所述多个训练实例各自在标签集合上的伪概率分布,包括:
209.根据所述多个训练实例各自的预测概率分布和第二约束条件,确定所述多个训练实例各自在标签集合上的伪概率分布。
210.根据本公开的实施例,所述第二约束条件包括:
211.使所述多个训练实例各自在标签集合上的伪概率分布与相应训练实例在标签集合上的预测概率分布之间的总互信息下界最大化;
212.使所述多个训练实例各自的预测概率分布与相应训练实例的初始标签之间的总交叉熵损失收敛;
213.使所述多个训练实例各自的预测概率分布满足在一个标签上的概率远大于在其他标签上的概率。
214.根据本公开的实施例,所述方法还包括:
215.使用所述多个训练实例各自的初始标签,对所述多个训练实例各自在标签集合上的伪概率分布进行初始化。
216.根据本公开的实施例,所述标签表示相应训练实例中的实体之间的关系。图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。
217.如图7所示,计算机系统700包括处理单元701,其可以根据存储在只读存储器(rom)702中的程序或者从存储部分708加载到随机访问存储器(ram)703中的程序而执行上述实施例中的各种处理。在ram 703中,还存储有系统700操作所需的各种程序和数据。处理单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
218.以下部件连接至i/o接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中,所述处理单元701可实现为cpu、gpu、tpu、fpga、npu等处理单元。
219.特别地,根据本公开的实施例,上文描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在计算机可读存储介质上的计算机程序,所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
220.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
221.描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或
模块的名称在某种情况下并不构成对该单元或模块本身的限定。
222.作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
223.以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献