一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

三元组任务集的构建方法、装置及电子设备与流程

2023-03-19 17:59:17 来源:中国专利 TAG:


1.本技术涉及模型训练技术领域,尤其是涉及一种三元组任务集的构建方法、装置及电子设备。


背景技术:

2.人工智能技术在近些年快速发展,现有的深度学习框架对于数据量的需求与日俱增,而训练数据的构建也成为了机器学习应用的关键瓶颈。主动学习可以通过机器学习的方法筛选出合适的候选集交付给人工进行标注,再将人工标注得到的数据再次使用有监督学习或半监督学习模型进行训练,从而达到逐步提升模型效果的目的。在实际应用中,数据集的标签往往会通过外包的形式获得,而数据众包是近些年被广泛采用的一类获取标签方式。众包平台通过吸引在线人群进行大量的数据标注,再通过聚合多个标注员的结果获得对任务的标签。然而在众包平台中用于特定的三元组任务的主动学习通用策略中,仅通过信息熵度量样例不确定度不仅缺乏针对性,也存在筛选冗余样本的可能性,而特定策略的设计具有一定的挑战性。


技术实现要素:

3.本技术的目的在于提供一种三元组任务集的构建方法、装置及电子设备,能够基于未标注三元组任务集中每个任务的难度评价指标参数进行任务排序,基于任务排序结果进行任务分组抽样,构建出待标注三元组任务集,提高任务集中任务多样性的同时减少冗余情况。
4.第一方面,本技术实施例提供一种三元组任务集的构建方法,方法包括:获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务;确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表征三元组任务被标注时的难易程度;根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。
5.在本技术较佳的实施方式中,上述确定未标注三元组任务集中每个三元组任务的难度评价指标参数的步骤,包括:针对未标注三元组任务集中的每个三元组任务,获取三元组任务对应的具有同一起点的三个特征向量;根据三个特征向量确定三元组任务的难度评价指标参数。
6.在本技术较佳的实施方式中,上述获取三元组任务对应的具有同一起点的三个特征向量的步骤,包括:将三元组任务中的三个样本输入至预先训练好的向量映射模型,得到具有同一起点的三个特征向量。
7.在本技术较佳的实施方式中,上述根据三个特征向量确定三元组任务的难度评价指标参数的步骤,包括:基于三个特征向量构建用于评价任务标注难度的三角形;根据三角形确定三元组任务对应的难度评价指标参数。
8.在本技术较佳的实施方式中,上述基于三个特征向量构建用于评价任务标注难度的三角形的步骤,包括:将三个特征向量分别对应的终点进行连线,得到用于评价任务标注难度的三角形。
9.在本技术较佳的实施方式中,上述根据三角形确定三元组任务对应的难度评价指标参数的步骤,包括:根据三个特征向量计算三角形的三个边长;基于三个边长和余弦函数,计算三角形对应的三个角度;基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数;最小角度与难度评价指标参数成正比。
10.在本技术较佳的实施方式中,上述根据三个特征向量计算三角形的三个边长的步骤,包括:获取三个特征向量分别对应的终点坐标;计算两两终点坐标间的欧式距离;以两两终点间的欧式距离作为三角形的三个边长。
11.在本技术较佳的实施方式中,上述基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数的步骤,包括:将三个角度中的最小角度确定为三元组任务对应的难度评价指标参数;或者,将最小角度转换为0到1之间的数值,以数值作为三元组任务对应的难度评价指标参数。
12.在本技术较佳的实施方式中,上述基于任务排序结果进行任务分组抽样,得到待标注三元组任务集的步骤,包括:将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务;针对每组任务,抽取指定数量的三元组任务;由每组中抽取出的三元组任务构成待标注三元组任务集。
13.在本技术较佳的实施方式中,上述将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务的步骤,包括:将难度评价指标参数的最小值和最大值构成的数值区间均匀划分为多个子区间;将每个子区间对应的三元组任务作为一组任务。
14.在本技术较佳的实施方式中,上述针对每组任务,抽取指定数量的三元组任务的步骤,包括:从每组任务中,按照难度评价指标参数从高到低的顺序,抽取指定数量的三元组任务。
15.第二方面,本技术实施例还提供一种三元组任务集的构建装置,装置包括:任务集获取模块,用于获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务;难度评价模块,用于确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表征三元组任务被标注时的难易程度;排序模块,用于根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;分组抽样模块,用于基于任务排序结果进行三元组任务构建,得到待标注三元组任务集。
16.第三方面,本技术实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
17.第四方面,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
18.本技术实施例提供的一种三元组任务集的构建方法、装置及电子设备中,首先获取未标注三元组任务集;其中,未标注三元组任务集包括多个未标注的三元组任务;确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表
征三元组任务被标注时的难易程度;根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。本技术实施例通过基于未标注三元组任务集中每个任务的难度评价指标参数进行任务排序,基于任务排序结果进行任务分组抽样,构建出的待标注三元组任务集其任务多样性较高且冗余较少。
附图说明
19.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1为本技术实施例提供的一种三元组任务集的构建方法的流程图;
21.图2为本技术实施例提供的一种三元组任务集的构建方法中难度评价指标参数的确定方法的流程示意图;
22.图3为本技术实施例提供的一种三元组任务对应的特征向量示意图;
23.图4为本技术实施例提供的一种困难分布情形示意图;
24.图5为本技术实施例提供的一种三角形欧式距离示意图;
25.图6为本技术实施例提供的一种简单分布三角形示意图;
26.图7为本技术实施例提供的一种困难分布三角形示意图;
27.图8为本技术实施例提供的一种分组抽样示意图;
28.图9为本技术实施例提供的一种任务处理整体流程图;
29.图10为本技术实施例提供的一种三元组任务集的构建装置的结构框图;
30.图11为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
31.下面将结合实施例对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.以众包平台上的三元组任务为例,每一轮的标注环节中,标注员将在标注页面上获取一组具有三个待标注样本的任务包。三个样本真实标签分别对应了anchor、positive和negative,anchor表示对比的目标,positive表示与对比的目标相似的目标,negative表示与对比的目标不同的目标;由于anchor和positive在特征空间上分布的相似性,因此标注员只需要在众包平台上选出该组任务包中最独特的样本,作为negative样本。以上为三元组标注任务在众包平台上的标注思路。
33.本技术实施例中,定义三元组任务为,在完成三元组标注任务的过程中,标注员只需要挑选出该组别内区分最大的样本。例如,对于样本abc,标注员认为a和b在三个样本中具有最高的相似度,此时标注员将选择c作为该题的negative样本,即给予独特样本negative标注。
34.目前针对三元组任务的主动学习策略主要倾向于通过信息熵度量不确定度指标,或通过聚类等方式评估样本的多样性指标。而由于该类方法仅仅是思路的泛用性,目前并没有针对三元组任务的多样性策略设计。
35.主动学习中的不确定采样法,是通过将模型判断边界的样本作为高不确定性样本,再将该类样本供给专家系统进行标注并更新对模型的训练,从而提升模型对于难以区分样本的判断能力。最小置信度策略往往用于二分类或多分类模型,通过置信度分数判定该样本所属的类别。例如在二分类场景中,存在两个数据被某一个分类器预测,该策略下会选择最大概率值最小的样本进行标注。熵在数学中可以用来度量当前系统的不确定性,熵值越大代表该系统的不确定性越大,熵值越小表示该系统的不确定性越小。因此,在某些分类问题中,往往通过选择熵值较大的样本作为高不确定性样本,从而构建待标注数据集。
36.而在主动学习策略中的多样性采样,也是从数据的分布考虑的常用策略。多样性算法往往是通过数据分布确保查询的样本能够覆盖到整个数据,从而保证标注样本的多样性。常用的方法中存在以下几类:(1)基于模型的离群值:采用使模型低激活的离群样本构建待标注数据集:(2)代表性采样:选择未标注样本池中一些最有代表性的样本,例如采用聚类等簇的方式获得代表性样本,或是通过域分布的差异性获得代表性样本;(3)真实场景多样性:通过真实场景的多样性和分布完成采样。
37.众包平台上现有的主动学习方法主要是通过不确定性和样本多样性两个角度对未标注样本池进行采样,从而选出最具有标注价值的样本。然而针对不确定性选择样本在批量选择的场景中会产生大量冗余样本,而针对多样性选择样本会出现类噪声的离群样本。并且现有的主动学习策略的评价指标主要是针对分类任务或回归任务设计,并没有针对三元组任务设计的评价指标。因此,在计算样本数据的不确定性或多样性时已有策略的有效性不能得到合理的验证,可能会存在评估的差异性从而导致模型性能的下降。
38.基于此,本技术实施例提供一种三元组任务集的构建方法、装置及电子设备,能够基于未标注三元组任务集中每个任务的难度评价指标参数进行任务排序,基于任务排序结果进行任务分组抽样,构建出待标注三元组任务集,提高任务集中任务多样性的同时减少冗余情况。
39.为便于对本实施例进行理解,首先对本技术实施例所公开的一种三元组任务集的构建方法进行详细介绍。
40.图1为本技术实施例提供的一种三元组任务集的构建方法的流程图,该方法具体包括以下几个步骤:
41.步骤s102,获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务。
42.具体实施时,可以将众包平台内三元组任务下的未标注数据,构建未标注三元组任务集。即三元组任务集中的每个任务均为未标注的三元组任务。
43.步骤s104,确定未标注三元组任务集中每个三元组任务的难度评价指标参数。
44.上述难度评价指标参数用于表征三元组任务被标注时的难易程度;三元组任务的标注难度的确定方式有多种,比如,根据三元组任务中三个样本分别对应的特征向量,构建用于评价难度评价指标参数的三角形,然后通过确定三角形中的最小角度评价该任务标注难度。本技术实施例中,难度评价指标参数以三元组任务中三个样本分别对应的三个特征
向量所构成的三角形的最小角度进行表征;或者基于最小角度转换为0到1之间的值,进行表征。
45.步骤s106,根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序。
46.可以根据难度评价指标参数从小到大的顺序对任务集中的任务进行排序,或者也可以根据难度评价指标参数从大到小的顺序进行任务排序。
47.步骤s108,基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。
48.将按照难度大小排序好的任务,按照难度进行分组,从每组中抽取一定数量的任务即可得到待标注的三元组任务集。
49.本技术实施例提供的一种三元组任务集的构建方法,首先获取未标注三元组任务集;其中,未标注三元组任务集包括多个未标注的三元组任务;然后确定未标注三元组任务集中每个三元组任务的难度评价指标参数;根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;最后基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。本技术实施例通过上述方式,可以基于未标注三元组任务集中每个任务的难度评价指标参数进行任务排序,基于任务排序结果进行任务分组抽样,构建出的待标注三元组任务集其任务多样性较高且冗余较少。
50.本技术实施例还提供一种三元组任务集的构建方法,该方法在上一实施例的基础上实现,该实施例重点描述难度评价指标参数的具体确定方式、以及分组抽样过程。
51.参见图2所示,上述确定未标注三元组任务集中每个三元组任务的难度评价指标参数的过程,具体包括以下步骤:
52.步骤s202,针对未标注三元组任务集中的每个三元组任务,获取三元组任务对应的具有同一起点的三个特征向量。
53.具体实施时,可以将三元组任务中的三个样本输入至预先训练好的向量映射模型,得到具有同一起点的三个特征向量。
54.预先训练好的向量映射模型采集的任务框架可以是知识蒸馏的框架,用于完成表征学习和三元组分类的目标。在模型训练的过程中,基于已知且固定的teacher model来指导student model的训练,具体的方式为要求student model得到的表征向量与teacher model输出的表征相近。
55.通过已训练模型映射将三元组任务中的三个样本映射为三个特征向量是指将三元组数据通过student model,经过mlp等网络映射至高维空间从而得到的特征向量。特征向量可以认为是一种高维隐式的编码方式。
56.将三元组任务中的三个样本通过已训练模型映射为特征向量,vec1、vec2和vec3,如图3所示。特征向量所在空间为n维的高维空间,图3中的表示方法仅仅是以二维的方式表示便于理解。
57.步骤s204,根据三个特征向量确定三元组任务的难度评价指标参数。
58.具体实施时,可以采用以下方式实现:
59.(1)基于三个特征向量构建用于评价任务标注难度的三角形。将三个特征向量分别对应的终点进行连线,得到用于评价任务标注难度的三角形。
60.在三元组任务中,当其中有一个特征向量严重偏离其余两个特征向量,而这两个
特征向量在空间中的分布高度相似时,模型很容易得出在该组任务中最独特的样本为高度偏离的特征向量对应的原始样本。而当三个特征向量在特征空间中呈现高度相似的分布,或者是三者在两两之间均有较大偏差时,模型较难通过特征空间中的特征向量分布选出最独特的样本。具体情形如图4所示。
61.由图4中所示出的简单分布和困难分布可以看出,将三个特征向量终点连接起来所构成的三角形可以反映出该任务的标注难易程度,比如,简单分布中,三个特征向量终点连接起来构成的三角形的最小角度非常小,而困难分布中,三个特征向量终点连接起来构成的三角形的最小角度接接近60度;也就是说,通过三角形的最小角度值的大小可以确定该任务的标注难度大小。因此,本技术实施例中,针对三元组任务,通过其对应的三个特征向量构建三角形,基于该三角形的最小角度来评价其任务标注难度,即如下步骤:
62.(2)根据三角形确定三元组任务对应的难度评价指标参数。具体的难度评价指标参数的确定过程如下:
63.a.根据三个特征向量计算三角形的三个边长;具体实施时,获取三个特征向量分别对应的终点坐标;计算两两终点坐标间的欧式距离;以两两终点间的欧式距离作为三角形的三个边长。
64.本实施例中,目标是通过一个三角形的参数表达三个特征向量的差异,所以只需要解算两两特征向量终点之间的距离,而高维空间中的距离表达方式为欧式距离,参见图5所示,通过d1,d2,d3分别表示vec1和vec2,vec2和vec3,vec1和vec3之间的欧式距离,也就是三个边长。
65.b.基于三个边长和余弦函数,计算三角形对应的三个角度。
66.余弦函数对应的余弦定理的含义是:对于任意三角形,任何一边的平方等于其他两边平方的和减去这两边与它们夹角的余弦的积的两倍。
67.c.基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数;最小角度与难度评价指标参数成正比。即最小角度越小,表征标注难度越小;最小角度越大,表征标注难度越大。
68.具体的,可以将三个角度中的最小角度确定为三元组任务对应的难度评价指标参数;或者,将最小角度转换为0到1之间的数值,以数值作为三元组任务对应的难度评价指标参数。
69.参见图6所示的简单任务三角形可知,由于存在某个偏离量较大的特征向量,因此该距离三角形的形状呈现明显的“两长一短”的尖锐状,而在该三角形内部的最小角度值也越倾向于零。由图7所示的困难任务三角形可知,由于三个特征向量分布呈现高度相似性(左)或两两间均存在较大分布偏差时(右),所构建的距离三角形呈现“三边近似”状,而在该三角形内部的最小角度值也更倾向于60
°

70.因此,本技术实施例中通过特征向量所构建出的三角形的最小角度值来界定该三元组任务的难度评价指标参数。由于三角形内角最大值不超过60
°
,因此该难度评价指标参数得分可设置为:
71.score=(minδ
angle
)/60,score∈[0,1];
[0072]
该得分越高,距离三角形最小内角最大值越趋向于60
°
,则该组任务难度越高;反之,若该得分越低,距离三角形最小内角最大值越趋向于0
°
,则该组任务难度越低。在通过
上述方式确定出每个三元组任务对应的难度评价指标参数后,可以对未标注三元组任务集中的所有任务进行排序。
[0073]
下面详细说明具体的任务抽样过程:
[0074]
上述任务排序结果包括:未标注三元组任务集中按照难度评价指标参数大小顺序排列的多个任务;根据任务排序结果进行任务分组抽样,得到待标注三元组任务集的步骤通过以下方式实现:
[0075]
(1)将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务;
[0076]
具体实施时,可以将难度评价指标参数的最小值和最大值构成的数值区间均匀划分为多个子区间;将每个子区间对应的三元组任务作为一组任务。
[0077]
按照难度评价指标参数的大小顺序对任务集中的任务排序后,任务集如图8(a)所示,其中左端为分值低样本,右端为分值高样本。记最低值为min,最高值为max,并将该(min,max)数值区间等分为n分,其中(min,θ1,

,θ
n-1
,max)呈等差数列分布,示意图如图8(b)中所示(该示例图中n=4)。
[0078]
(2)针对每组任务,抽取指定数量的三元组任务;具体实施时,可以从每组任务中,按照难度评价指标参数从高到低的顺序,抽取指定数量的三元组任务。
[0079]
在每组任务中,按照难度评价指标参数由高至低抽样(n
topk
=n
topk
/n)个任务,示意图如图8(c)所示。
[0080]
(3)由每组中抽取出的三元组任务构成待标注三元组任务集。
[0081]
最后将n组n
topk
任务组合成该次以难度多样性为指标采样出的待标注任务集,示意图如图8(d)所示,即最终构建的待标注三元组任务集中的任务数量为n
top
k。
[0082]
参见图9所示,在构建出待标注的三元组任务集后,送至线上标注员进行标注,标注后即可作为训练数据进行模型训练,基于该训练数据训练出的模型会有更高的准确性。
[0083]
本技术实施例提供的三元组任务集的构建方法,通过三元组任务中三个样本分别对应的特征向量,确定三元组任务的难度评价指标参数,然后基于该参数对任务集中的所有任务进行排序;依据排序结果进行任务分组抽样,即按照难度评价指标参数将总任务分为多组,均匀从每组中抽出等量的任务,从而基于难度指标构建多样性任务包供给标注员完成标注;这种方式构建的任务集,一方面保证了任务多样性,另一方面在一定程度上降低了冗余样本的采样频率。
[0084]
基于上述方法实施例,本技术实施例还提供一种三元组任务集的构建装置,参见图10所示,该装置包括:任务集获取模块102,用于获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务;难度评价模块104,用于确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表征三元组任务被标注时的难易程度;排序模块106,用于根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;分组抽样模块108,用于基于任务排序结果进行任务分组采样,得到待标注三元组任务集。
[0085]
在本技术较佳的实施方式中,上述难度评价模块104,用于以未标注三元组任务集中的每个三元组任务作为三元组任务,均执行以下步骤:通过预先训练好的向量映射模型将三元组任务中的三个样本映射为三个特征向量;三个特征向量对应有同一个起点;基于
三个特征向量构建用于评价任务标注难度的三角形;根据三角形确定三元组任务对应的难度评价指标参数。
[0086]
在本技术较佳的实施方式中,上述难度评价模块104,用于将三个特征向量分别对应的终点进行连线,得到用于评价任务标注难度的三角形。
[0087]
在本技术较佳的实施方式中,上述难度评价模块104,用于根据三个特征向量计算三角形的三个边长;基于三个边长和余弦函数,计算三角形对应的三个角度;基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数;最小角度与难度评价指标参数成正比。
[0088]
在本技术较佳的实施方式中,上述难度评价模块104,用于获取三个特征向量分别对应的终点坐标;计算两两终点坐标间的欧式距离;以两两终点间的欧式距离作为三角形的三个边长。
[0089]
在本技术较佳的实施方式中,上述难度评价模块104,用于将三个角度中的最小角度确定为三元组任务对应的难度评价指标参数;或者,将最小角度转换为0到1之间的数值,以数值作为三元组任务对应的难度评价指标参数。
[0090]
在本技术较佳的实施方式中,上述分组抽样模块108,用于将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务;针对每组任务,抽取指定数量的三元组任务;由每组中抽取出的三元组任务构成待标注三元组任务集。
[0091]
在本技术较佳的实施方式中,上述分组抽样模块108,用于将难度评价指标参数的最小值和最大值构成的数值区间均匀划分为多个子区间;将每个子区间对应的三元组任务作为一组任务。
[0092]
在本技术较佳的实施方式中,上述分组抽样模块108,用于从每组任务中,按照难度评价指标参数从高到低的顺序,抽取指定数量的三元组任务。
[0093]
本技术实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
[0094]
本技术实施例还提供了一种电子设备,如图11所示,为该电子设备的结构示意图,其中,该电子设备包括处理器111和存储器110,该存储器110存储有能够被该处理器111执行的计算机可执行指令,该处理器111执行该计算机可执行指令以实现以下方法步骤:
[0095]
获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务;确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表征三元组任务被标注时的难易程度;根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。
[0096]
在本技术较佳的实施方式中,上述确定未标注三元组任务集中每个三元组任务的难度评价指标参数的步骤,包括:以未标注三元组任务集中的每个三元组任务作为三元组任务,均执行以下步骤:通过预先训练好的向量映射模型将三元组任务中的三个样本映射为三个特征向量;三个特征向量对应有同一个起点;基于三个特征向量构建用于评价任务标注难度的三角形;根据三角形确定三元组任务对应的难度评价指标参数。
[0097]
在本技术较佳的实施方式中,上述基于三个特征向量构建用于评价任务标注难度的三角形的步骤,包括:将三个特征向量分别对应的终点进行连线,得到用于评价任务标注
难度的三角形。
[0098]
在本技术较佳的实施方式中,上述根据三角形确定三元组任务对应的难度评价指标参数的步骤,包括:根据三个特征向量计算三角形的三个边长;基于三个边长和余弦函数,计算三角形对应的三个角度;基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数;最小角度与难度评价指标参数成正比。
[0099]
在本技术较佳的实施方式中,上述根据三个特征向量计算三角形的三个边长的步骤,包括:获取三个特征向量分别对应的终点坐标;计算两两终点坐标间的欧式距离;以两两终点间的欧式距离作为三角形的三个边长。
[0100]
在本技术较佳的实施方式中,上述基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数的步骤,包括:将三个角度中的最小角度确定为三元组任务对应的难度评价指标参数;或者,将最小角度转换为0到1之间的数值,以数值作为三元组任务对应的难度评价指标参数。
[0101]
在本技术较佳的实施方式中,上述基于任务排序结果进行任务分组抽样,得到待标注三元组任务集的步骤,包括:将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务;针对每组任务,抽取指定数量的三元组任务;由每组中抽取出的三元组任务构成待标注三元组任务集。
[0102]
在本技术较佳的实施方式中,上述将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务的步骤,包括:将难度评价指标参数的最小值和最大值构成的数值区间均匀划分为多个子区间;将每个子区间对应的三元组任务作为一组任务。
[0103]
在本技术较佳的实施方式中,上述针对每组任务,抽取指定数量的三元组任务的步骤,包括:从每组任务中,按照难度评价指标参数从高到低的顺序,抽取指定数量的三元组任务。
[0104]
在图11示出的实施方式中,该电子设备还包括总线112和通信接口113,其中,处理器111、通信接口113和存储器110通过总线112连接。
[0105]
其中,存储器110可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口113(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线112可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线112可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
[0106]
处理器111可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器111中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器111可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或
者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器111读取存储器中的信息,结合其硬件完成前述实施例的方法的步骤。
[0107]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现以下方法步骤:
[0108]
获取未标注三元组任务集;未标注三元组任务集包括多个未标注的三元组任务;确定未标注三元组任务集中每个三元组任务的难度评价指标参数;所述难度评价指标参数用于表征三元组任务被标注时的难易程度;根据每个三元组任务的难度评价指标参数,对未标注三元组任务集中的三元组任务进行排序;基于任务排序结果进行任务分组抽样,得到待标注三元组任务集。
[0109]
在本技术较佳的实施方式中,上述确定未标注三元组任务集中每个三元组任务的难度评价指标参数的步骤,包括:以未标注三元组任务集中的每个三元组任务作为三元组任务,均执行以下步骤:通过预先训练好的向量映射模型将三元组任务中的三个样本映射为三个特征向量;三个特征向量对应有同一个起点;基于三个特征向量构建用于评价任务标注难度的三角形;根据三角形确定三元组任务对应的难度评价指标参数。
[0110]
在本技术较佳的实施方式中,上述基于三个特征向量构建用于评价任务标注难度的三角形的步骤,包括:将三个特征向量分别对应的终点进行连线,得到用于评价任务标注难度的三角形。
[0111]
在本技术较佳的实施方式中,上述根据三角形确定三元组任务对应的难度评价指标参数的步骤,包括:根据三个特征向量计算三角形的三个边长;基于三个边长和余弦函数,计算三角形对应的三个角度;基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数;最小角度与难度评价指标参数成正比。
[0112]
在本技术较佳的实施方式中,上述根据三个特征向量计算三角形的三个边长的步骤,包括:获取三个特征向量分别对应的终点坐标;计算两两终点坐标间的欧式距离;以两两终点间的欧式距离作为三角形的三个边长。
[0113]
在本技术较佳的实施方式中,上述基于三个角度中的最小角度确定三元组任务对应的难度评价指标参数的步骤,包括:将三个角度中的最小角度确定为三元组任务对应的难度评价指标参数;或者,将最小角度转换为0到1之间的数值,以数值作为三元组任务对应的难度评价指标参数。
[0114]
在本技术较佳的实施方式中,上述基于任务排序结果进行任务分组抽样,得到待标注三元组任务集的步骤,包括:将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务;针对每组任务,抽取指定数量的三元组任务;由每组中抽取出的三元组任务构成待标注三元组任务集。
[0115]
在本技术较佳的实施方式中,上述将未标注三元组任务集中的任务,按照难度评价指标参数大小划分为多组任务的步骤,包括:将难度评价指标参数的最小值和最大值构
成的数值区间均匀划分为多个子区间;将每个子区间对应的三元组任务作为一组任务。
[0116]
在本技术较佳的实施方式中,上述针对每组任务,抽取指定数量的三元组任务的步骤,包括:从每组任务中,按照难度评价指标参数从高到低的顺序,抽取指定数量的三元组任务。
[0117]
本技术实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
[0118]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本技术的范围。
[0119]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0120]
在本技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0121]
最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献