一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种提高样本标记数量的方法及系统与流程

2021-10-24 10:43:00 来源:中国专利 TAG:互联网 样本 标记 数量 提高


1.本发明涉及互联网技术领域,特别是涉及一种提高样本标记数量的方法及系统。


背景技术:

2.近些年来电力企业得到了空前的发展,不仅在发展规模上较之前有了明显的提升,当前信息通信系统建设力度也在不断加大,在发展的同时也引发了一系列的困扰,通信系统的不断升级与完善无疑增加了运维的难度与复杂性。构建合理、科学的管理操作平台是电力企业亟待解决的问题。通过一体化运维体系的构建,可以在其技术框架基础之上,结合当前电力信息通信网络实际情况,对其网络的运维模式以及状态进行合理化评估。评估结果能够有效为电力信息通信设施正常运行提供相应的技术支撑,提高电力信息通信系统运维高效性。
3.现有为了能够更好的提升运维效率,可利用深度学习技术对相关标记操作进行自动化处理,但是,深度学习的准确度依靠于学习模型的准确度,提升训练度的过程就需要持续训练,但是在训练过程中,训练集需要采集标记数据,对于目前标记数量有限的情况下,若想性能达到理想就要不停训练,需要大量的人工干预进行标记操作。随着电力系统的发展,服务器的数量也是大量上升,成百上千,如果数据全部标记起来会很麻烦,人工标记已经远远满足不了,而且人工标记是靠“感觉”理解实体字段的类型、数据边界问题,以及复杂镶嵌问题,工作量大,准确率也低,也费时间,大大降低了鲁棒性和泛化性。


技术实现要素:

4.本发明的目的在于,提出一种提高样本标记数量的方法及系统,解决现有方法标记效率低,准确度差的技术问题。
5.一方面,提供一种提高样本标记数量的方法,包括以下步骤:
6.步骤s1,响应于接收到标记数据类型的确定指令,获取相应类型的历史标注数据;
7.步骤s2,根据所述历史标注数据对第一基础模型进行训练,获得参考模型;
8.步骤s3,获取未标注数据,通过所述参考模型对所述未标注数据进行识别,获得与所述未标注数据对应的软标签;
9.步骤s4,根据所述软标签对第二基础模型进行训练,获得标准模型;
10.步骤s5,重复执行步骤s1至步骤s4,直到执行次数达到预设的次数阈值为止,获得多个标准模型;
11.步骤s6,根据获得的多个标准模型对所述未标注数据进行标记,获得标记样本。
12.优选地,在步骤s2中,所述获得参考模型具体包括:
13.提取所述历史标注数据的数据特征,将具有相同数据特征的历史标注数据对第一基础模型进行训练,获得一个数据类型的参考模型。
14.优选地,所述步骤s3包括:
15.通过所述参考模型识别所述未标注数据的特征,并将其与所述历史标注数据的特
征比较,按数据特征相同或相似的历史标注数据的软标签对所述未标注数据进行标记,标记上与所述历史标注数据相同的软标签。
16.优选地,所述步骤s5包括:
17.获取重复执行次数,将获取的重复执行次数与预设的执行阈值进行比较,当重复执行次数达到预设的执行阈值时,统计训练出的标准模型的数量并输出训练出的标准模型。
18.优选地,所述步骤s5包括:
19.获取训练出的标准模型的数量,将训练出的标准模型的数量与预设的数量阈值进行比较,当训练出的标准模型的数量达到预设的数量阈值时,统计并输出训练出的标准模型。
20.优选地,所述步骤s6包括:
21.根据软标签对所述未标注数据进行分类,判断某一类别的未标注数据是否少于预设的数量阈值,如果不少于,则继续判断另一类别的未标注数据;如果少于,则对该类别的未标注数据进行标记。
22.优选地,所述步骤s6还包括:
23.当需要对未标记的数据进行标记时,通过与该类别的未标注数据对应的标准模型对所述未标注数据进行标记。
24.另一方面,还提供一种提高样本标记数量的系统,实现所述的提高样本标记数量方法,包括:
25.历史标注数据获取模块,用以响应于标记数据类型的确定指令,获取相应类型的历史标注数据;
26.参考模型模块,用以根据预设的训练规则对获取的历史标注数据进行训练,获得参考模型;
27.预测模块,用以获取未标注数据,通过所述参考模型对所述未标注数据进行预测,获得与所述未标注数据对应的软标签;
28.标准模型模块,用以根据预设的训练规则对所述软标签进行训练,获得标准模型;
29.标准模型训练模块,用以重复执行对所述软标签进行训练,获得标准模型,直到执行次数达到预设的次数阈值为止,获得多个标准模型;
30.标记执行模块,用以根据获得的多个标准模型对所述未标注数据进行标记,获得标记样本。
31.优选地,所述标准模型训练模块还用于将重复执行次数与预设的执行阈值进行比较,当重复执行次数达到预设的执行阈值时,统计训练出的标准模型的数量并输出训练出的标准模型;或者将训练出的标准模型的数量与预设的数量阈值进行比较,当训练出的标准模型的数量达到预设的数量阈值时,统计并输出训练出的标准模型。
32.优选地,所述标记执行模块还用于根据软标签对所述未标注数据进行分类,判断某一类别的未标注数据是否少于预设的数量阈值,如果不少于,则继续判断另一类别的未标注数据;如果少于,则通过与该类别的未标注数据对应的标准模型对所述未标注数据进行标记。
33.综上,实施本发明的实施例,具有如下的有益效果:
34.本发明提供的提高样本标记数量的方法及系统,通过建立一套参考模型和标准模型模式,通过参考模型延伸出标准模型,可以通过多个标准模型对未标记数据进行标记,这样采用机器学习,取代昂贵的大规模标记,进而达到增量式的样本 迭代式的训练过程,能够在保证不降低模型性能的情况下减少人为的标注成本,同时对增量数据样本进行持续迭代训练就会能提升样本的数量。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
36.图1为本发明实施例中一种提高样本标记数量的方法的主流程示意图。
37.图2为本发明实施例中一种提高样本标记数量的方法的逻辑示意图。
38.图3为本发明实施例中一种提高样本标记数量的系统的示意图。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
40.如图1和图2所示,为本发明提供的一种提高样本标记数量的方法的一个实施例的示意图。在该实施例中,所述方法包括以下步骤:
41.步骤s1,响应于接收到标记数据类型的确定指令,获取相应类型的历史标注数据;可以理解的是,历史标注数据是已经被训练集采用并被训练过的数据,获取原始标注数据具体为均匀获取每个不同业务指标(类型)的已被训练过的历史标注数据,或者获取指定的间隔时间段的原始标注数据,又或者单独获取同一个业务指标(如内存、硬盘、磁盘或中间件等)的历史指标数据,如确定需要被训练的对象是内存的数据,则获取已经被训练集训练过的内存的原始标注数据等。再具体地,在获取历史标注数据之前,先确定要获取的标记数据的类型,只有在类型确定之后,才获取该类型的原始标记数据。
42.步骤s2,根据所述历史标注数据第一基础模型进行训练,获得参考模型;可以理解的是,相当于基于历史标注数据训练一个ner参考模型。也就是说,原始标注数据作为参考模型的主要参考数据,将历史标注数据的特征提炼出来以形成一个参考模型,即可以通过ner参考模型知道历史标注数据的属性或特征等。另外,为了降低产生重复的样本信息,使用cae聚类算法引入到主动学习中,增加样本的多样性,减少样本间的重复。
43.具体实施例中,提取所述历史标注数据的数据特征,将具有相同数据特征的历史标注数据对第一基础模型进行训练,获得一个数据类型的参考模型。
44.步骤s3,获取未标注数据,通过所述参考模型对所述未标注数据进行识别,获得与所述未标注数据对应的软标签;可以理解的是,获取未标注数据,并通过ner参考模型对未标注数据预测soft标签(软标签)。
45.具体实施例中,通过所述参考模型识别所述未标注数据的特征,并将其与所述历史标注数据的特征比较,按数据特征相同或相似的历史标注数据的软标签对所述未标注数
据进行标记,标记上与所述历史标注数据相同的软标签。可以理解的是,可以通过ner参考模型去识别出与历史标注数据相同或相似的未标注数据,即识别出与历史标注数据相同或相似的未标注数据之后,并对该未标注数据进行打标签等操作。应理解,历史标注数据和未标注数据为同一业务指标(类型)的,如当获取内存所对应的历史标注数据时,则需要获取内存所对应的未标注数据,如当获取磁盘所对应的历史标注数据时,则需要获取磁盘所对应的未标注数据。
46.步骤s4,根据对第二基础模型所述软标签进行训练,获得标准模型;可以理解的是,基于soft标签(软标签)的数据训练以得到ner标准模型,也就是说,soft标签的数据作为标准模型的数据。
47.步骤s5,重复执行步骤s1至步骤s4,直到执行次数达到预设的次数阈值为止,获得多个标准模型;可以理解的是,不断重复执行上述步骤,能够得出多个标准模型,这样能够通过这些标准模型去标记更多的数据。
48.具体实施例中,获取重复执行次数,将获取的重复执行次数与预设的执行阈值进行比较,当重复执行次数达到预设的执行阈值时,统计训练出的标准模型的数量并输出训练出的标准模型。还可以获取训练出的标准模型的数量,将训练出的标准模型的数量与预设的数量阈值进行比较,当训练出的标准模型的数量达到预设的数量阈值时,统计并输出训练出的标准模型。可以理解的是,可以根据系统环境的情况来设置循环的次数,即可以根据需要训练出多少个标准模型设置循环次数的上限,当循环的次数达到预设的次数的上限时,停止循环,并通过多个标准模型对未标注数据进行标记,也就是说,判断循环执行步骤s1

步骤s4的次数是否达到预设次数,如果是,则统计所训练出的标准模型的数量,本实施例并不限定判断循环次数,还可以是判断通过重复执行步骤s1

步骤s4所训练出的标准模型的数量是否达到预定数量,如果是,则统计所训练出的标准模型。
49.步骤s6,根据获得的多个标准模型对所述未标注数据进行标记,获得标记样本。可以理解的是,标准模型有分类型的,即标准模型有自己的属性,如标准模型是属于训练内存的数据还是训练硬盘的数据等;在需要对未标记的数据进行标记时,可以根据需要选择不同的类型的标准模型进行数据标记。
50.具体实施例中,根据软标签对所述未标注数据进行分类,判断某一类别的未标注数据是否少于预设的数量阈值,如果不少于,则继续判断另一类别的未标注数据;如果少于,则对该类别的未标注数据进行标记;当需要对未标记的数据进行标记时,通过与该类别的未标注数据对应的标准模型对所述未标注数据进行标记。可以理解的是,判断所有不同业务指标所标记的样本是否过少,如果否,则继续判断,如果是,则选出样本标记少的业务指标所对应的标准模型进行数据样本标记,如判断出磁盘的样本数据标记的比较少,则选出磁盘所对应的标准模型对磁盘类数据进行标记。
51.如图3所示,为本发明提供的一种提高样本标记数量的系统的一个实施例的示意图。在该实施例中,所述系统用以实现所述提高样本标记数量的方法包括:
52.历史标注数据获取模块,用以响应于标记数据类型的确定指令,获取相应类型的历史标注数据;
53.参考模型模块,用以根据预设的训练规则对获取的历史标注数据进行训练,获得参考模型;
54.预测模块,用以获取未标注数据,通过所述参考模型对所述未标注数据进行预测,获得与所述未标注数据对应的软标签;
55.标准模型模块,用以根据预设的训练规则对所述软标签进行训练,获得标准模型;
56.标准模型训练模块,用以重复执行对所述软标签进行训练,获得标准模型,直到执行次数达到预设的次数阈值为止,获得多个标准模型;
57.标记执行模块,用以根据获得的多个标准模型对所述未标注数据进行标记,获得标记样本。
58.具体实施例中,所述标记执行模块还用于根据软标签对所述未标注数据进行分类,判断某一类别的未标注数据是否少于预设的数量阈值,如果不少于,则继续判断另一类别的未标注数据;如果少于,则通过与该类别的未标注数据对应的标准模型对所述未标注数据进行标记。
59.关于提高样本标记数量的系统的实现过程可以参考所述提高样本标记数量的方法的具体过程,在此不再赘述。
60.综上,实施本发明的实施例,具有如下的有益效果:
61.本发明提供的提高样本标记数量的方法及系统,通过建立一套参考模型和标准模型模式,通过参考模型延伸出标准模型,可以通过多个标准模型对未标记数据进行标记,这样采用机器学习,取代昂贵的大规模标记,进而达到增量式的样本 迭代式的训练过程,能够在保证不降低模型性能的情况下减少人为的标注成本,同时对增量数据样本进行持续迭代训练就会能提升样本的数量。
62.以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜