一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法

2023-01-15 21:34:58 来源:中国专利 TAG:


1.本发明属于人工智能知识图谱领域,特别涉及一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法。


背景技术:

2.知识图谱是一种用图模型来描述概念和事实的结构,其中知识以三元组的形式存储。知识图谱嵌入模型旨在将知识图谱中的三元组嵌入到连续的矢量空间中。随着知识图谱规模的快速增长,高效的知识图谱嵌入模型在知识问答、推荐系统和知识图谱补全等下游应用中发挥着关键作用。大多数知识图谱嵌入模型的表现随着嵌入维度的增高而变好,然而,在实际应用中越高维度的模型往往推理时间越长,并且所需要的存储量更大。具体来说,512维的模型比32维的模型多7-15倍的模型参数和2-6倍的推理时间。因此,如何将一个高维知识图谱嵌入模型压缩成低维知识图谱嵌入模型是一个很重要的问题。知识蒸馏是一种常用的模型压缩方法,它旨在将一个较大的教师模型作为教师模型,将一个较小的模型作为学生模型,然后让学生模型模仿教师模型的输出。最近,尽管已经提出了几种基于知识蒸馏的知识图谱嵌入模型压缩方法,但是它们仍然存在三个缺点。第一,现有的工作将高维的教师模型直接蒸馏为低维的学生模型,但更好的教师并不总是能教出更好的学生。之前的研究表明,教师模型和学生模型之间过大的差异会影响蒸馏性能。基于知识蒸馏的知识图谱嵌入模型也存在类似的现象,这表现为嵌入维度之间的差距。具体来说,直接用高维度的教师模型蒸馏低维度学生模型,过大的维度差距导致更好的老师难以教出更好的学生。这种维度差距意味着不同的性能,这进一步导致教师和学生模型之间的输出分布存在显着差异,这使得学生模型难以学习。第二,现有方法面临的另一个巨大挑战是蒸馏目标和原始任务目标之间优化方向的不同导致模型难以收敛。第三,目前的工作主要集中在提高推理效率上,但存在训练过程耗时的问题。具体来说,现有的知识图谱嵌入模型蒸馏方法往往使用多教师蒸馏框架或者将教师模型和学生模型一起训练,这使得训练时间与直接蒸馏相比要长数倍。
3.因此有人申请,申请号cn202111152202.4,名称为一种基于知识图谱蒸馏的知识图谱嵌入压缩方法,该申请将充分捕捉高维知识图谱嵌入模型(teacher模型)中的三元组信息和嵌入结构信息蒸馏到知识图谱嵌入模型(student模型)中,在保证student模型存储和推理效率的情况下,提升了student模型的表达能力,在蒸馏过程中考虑了teacher模型和student模型之间的双重影响,提出了软标签评估机制来区分不同三元组的软标签的质量,并提出了先固定teacher模型后解除固定teacher模型的训练方式,来提高student模型对teacher模型的适应性,最终提升student模型的性能。
4.但是其存在如下情况;1)解决问题的侧重点不同:“一种基于知识图谱蒸馏的知识图谱嵌入压缩方法”侧重于解决教师模型和学生模型之间会有双重影响的问题。本发明侧重于解决教师模型和学生模型之间嵌入维度过大导致蒸馏效果下降的问题。此外,本发明侧重考虑训练效率的问
题。
5.2)解决问题的方法不同:“一种基于知识图谱蒸馏的知识图谱嵌入压缩方法”提出一种两阶段蒸馏方法,直接将高维度的教师模型蒸馏成低维度的学生模型。本发明提出一种基于迭代蒸馏的快速知识图谱嵌入方法,通过使用迭代蒸馏的方法逐步缩小教师模型的维度,从而使知识能够平滑地传递下去,最终得到一个性能较好的学生模型,解决了教师模型和学生模型之间的维度差距过大的问题。
6.3)解决问题的效率不同:为了加速训练过程,并进一步解决蒸馏过程中硬标签和软标签优化方向不一致的问题,本发明提出软标签权重动态调整机制,通过训练时的损失动态地调整软标签和硬标签之间的权重,训练时间上具有较大优势。
7.本发明提出一种用于知识图谱嵌入模型的新型迭代蒸馏方法。不同于直接用高维教师模型蒸馏低维学生模型,迭代蒸馏方法采用逐渐减小模型大小的方法缩小每次蒸馏的教师模型和学生模型之间的维度差距。具体来说,首先将一个训练好的高维知识图谱嵌入模型作为教师模型,通过知识蒸馏的方法按照特定的压缩比压缩成更小的学生模型。然后这个过程将被迭代,上一轮迭代生成的学生模型将被作为下一轮迭代的教师模型,以指导更低维度的学生模型训练。最后当得到的学生模型维度达到所需维度的时候,迭代停止。通过迭代蒸馏的方法,学生模型和教师模型之间过大的维度差距被缩小了。换句话说,迭代蒸馏使得知识从高维的教师模型平滑地传递给了低维的学生模型,同时使最后一次迭代的学生模型很好地继承了第一次迭代的教师模型的性能。为了获得更好的蒸馏性能,本发明提出了一种新的软标签权重自适应调整方法。在训练的初期,硬标签损失被赋予较大的权重,软标签损失被赋予较小的权重。此时,硬标签主导模型的优化。随着训练的进行,软标签损失的权重逐渐增加,使得软标签损失在训练后期主导模型的优化。软标签权重自适应方法可以解决由于硬标签损失和软标签损失的优化方向不同导致模型不能很好地收敛的问题。为了进一步加速训练过程,本发明使用单个教师进行蒸馏,同时在蒸馏的过程中固定教师模型的参数。


技术实现要素:

8.为了解决以上问题,提出一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,首先,本发明提出先训练一个高嵌入维度教师模型,为接下来指导低嵌入维度学生模型做准备。然后,本发明提出一种软标签权重自适应蒸馏机制,在教师模型指导学生模型训练的过程中,根据蒸馏损失的变化逐渐增加软标签损失的权重来解决硬标签损失的优化方向和软标签损失的优化方向不一致的问题,从而提高训练效率。进而,本发明提出一种迭代蒸馏的框架,使知识图谱嵌入模型在迭代蒸馏过程中交替成为学生模型和教师模型。具体来说,上一次迭代的产生学生模型作为下一次迭代的教师模型,以指导更低维度的学生模型的训练。因此,知识可以在高维教师模型和低维学生模型之间以平滑的方式迁移,同时保持学生模型具有良好的性能。接着,为了进一步加速训练过程,本发明使用单个教师进行蒸馏,同时在蒸馏的过程中固定教师模型的参数。本发明可实现对知识图谱嵌入模型蒸馏压缩的优秀性能,同时保持了推理速度,并减少50%的训练时间,具有快速训练的优势,能满足现实世界中大规模知识图谱嵌入模型需要快速更新的需求。
9.为实现上述目的,本发明采取的技术方案是:
一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,具体步骤如下:1)预训练高维教师知识图谱嵌入模型;训练一个高嵌入维度教师模型,为接下来指导低嵌入维度学生模型做准备;2)软标签权重自适应蒸馏;提出一种软标签权重自适应蒸馏机制,在教师模型指导学生模型训练的过程中,根据蒸馏损失的变化逐渐增加软标签损失的权重来解决硬标签损失的优化方向和软标签损失的优化方向不一致的问题;3)迭代蒸馏;提出一种迭代蒸馏的框架,使知识图谱嵌入模型在迭代蒸馏过程中交替成为学生模型和教师模型,加速训练过程,使用单个教师进行蒸馏,同时在蒸馏的过程中固定教师模型的参数;4)低维学生知识图谱嵌入模型预测。
10.作为本发明进一步改进,步骤1)训练一个高嵌入维度教师模型的过程如下;首先,给定一系列的实体e和关系r,一个知识图谱g表示为一系列三元组的集合,使用h,r,t表示三元组,即头实体,关系,尾实体,知识图谱嵌入模型将知识图谱中原有的头实体、关系和尾实体构成的三元组作为正三元组,同时随机替换中的头实体和尾实体作为负三元组;然后,知识图谱嵌入模型将每个三元组嵌入为向量,然后用一个打分函数s计算每个三元组向量表示的得分;不同的知识图谱嵌入模型有不同的打分函数,得到每个三元组的得分后,损失函数采用二元交叉熵损失,公式如下:其中,,对于正三元组来说,;对于负三元组来说,,是softmax函数;训练高维教师模型结束后,保存训练好的高维教师模型。
11.作为本发明进一步改进,步骤2)具体步骤如下;给定三元组h,r,t,首先将它同时输入给教师模型和学生模型,分别经过教师模型和学生模型进行编码,然后定义教师模型的打分函数打分结果为,学生模型的打分函数结果为,蒸馏过程中的硬标签损失为学生模型原始的损失,定义如下:其中,,对于正三元组来说,;对于负三元组来说,,
是softmax函数,软标签损失采用huber损失计算教师模型和学生模型的分布差异,定义如下:最终,蒸馏的总损失硬标签损失和软标签损失加权之和,如下所示:其中,是软标签的权重,用来平衡软标签损失和硬标签损失。
12.作为本发明进一步改进,所述步骤2)软标签权重自适应蒸馏机制的蒸馏的过程中只训练学生模型,教师模型的模型参数是固定不动的。
13.作为本发明进一步改进,所述步骤2)软标签权重自适应蒸馏机制的蒸馏的过程中动态地调整软标签的权重,将完整的训练过程划分为两个阶段;第一阶段,硬标签损失占主导地位,软标签损失权重被分配较小的初始值并逐渐增加;第二阶段,软标签权重被固定;定义完整的训练轮数为m,第m轮的软标签权重如下所示:其中,参数k的值在训练过程中动态调整,保证了的值在范围内,软标签时间控制参数p控制了软标签权重调整的时间占比,是初始软标签权重。
14.作为本发明进一步改进,步骤3)具体步骤如下;定义在第k次迭代中教师模型的嵌入维度为,教师模型的嵌入维度为,则每次迭代的压缩率定义如下:随后,每一次迭代都使用这个固定的压缩率进行模型压缩,在第一次迭代中,使
用预先训练好的教师模型来训练第一个学生模型,在第k次迭代中,使用在第k-1次迭代中生成的学生作为第k次迭代中的教师,第k次迭代的硬标签损失定义如下:其中,为第k次迭代的学生模型打分函数的打分结果,第k次迭代的软标签损失定义如下:其中,为第k次迭代的教师模型打分函数的打分结果,第k轮的总损失定义如下:定义迭代的总次数为n,然后最终压缩率a定义如下:最终的压缩率a是预先设定的,所以迭代停止的条件为学生维度满足如下关系:。
15.作为本发明进一步改进,步骤3)中模型压缩的时候预先设定好所需要的学生模型维度和每次迭代的压缩率,然后迭代次数由教师模型维度、学生模型维度和每次迭代的压缩率共同决定。
16.作为本发明进一步改进,步骤4)具体步骤如下;经过步骤3),最终生成维度为的低维学生模型最为知识图谱嵌入模型压缩后的最终结果,得到蒸馏的低维模型后,即可进行低维学生模型预测。
17.作为本发明进一步改进,步骤4)低维学生模型预测采用的评价指标是平均倒数排名mrr 、排名小于等于1的三元组的平均占比和排名小于等于10的三元组的平均占比,而直接采用模型训练和预测所需的时间来评价模型速度的优劣。
18.作为本发明进一步改进,步骤4)进行低维学生模型预测的预测阶段,给定查询,其中h和r分别表示头实体和关系,预测的目标是在给定头实体和关系的前提下,预测尾实体t;具体预测过程如下,首先,将给定的查询中的头实体和关系嵌入为向
量,同时将所有候选的尾实体t嵌入为向量,然后,将查询q与所有候选的尾实体组成的三元组输入到打分函数中进行打分,将所有三元组的得分进行排序,计算指标,计算公式如下:其中,n表示所有三元组的数量,是指示函数,当满足条件时取1,不满足时取0。
19.与现有技术相比,本发明具有以下优点和有益效果:本发明提出了一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,通过迭代蒸馏的方法缩小每次蒸馏的教师模型和学生模型之间的维度差距,来使知识能够从教师模型平滑地转移给学生模型。同时,软标签权重自适应机制通过动态调整软标签的权重,解决了硬标签损失和软标签损失之间优化方向不一致影响训练效率的问题。进一步地,在蒸馏的过程中采用单个教师蒸馏的策略,教师模型的参数被固定不动,显著提高了蒸馏的速度。在链接预测任务上进行了验证,证明了本文提出的基于迭代蒸馏的快速知识图谱嵌入模型压缩方法具有较好的通用性,同时能够保证实际应用中的高效率。因此本发明具有良好的应用前景和推广范围。
附图说明
20.图1为本发明方法的逻辑流程图;图2为本发明方法的模型流程图;图3为本发明方法的训练配置图。
具体实施方式
21.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
22.下面结合附图与具体实施方式对本发明作进一步详细描述:本发明提出了一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,通过迭代蒸馏的方法缩小每次蒸馏的教师模型和学生模型之间的维度差距,来使知识能够从教师模型平滑地转移给学生模型。同时,软标签权重自适应机制通过动态调整软标签的权重,解决了硬标签损失和软标签损失之间优化方向不一致影响训练效率的问题。进一步地,在蒸馏的过程中采用单个教师蒸馏的策略,教师模型的参数被固定不动,显著提高了蒸馏的速度。在链接预测任务上进行了验证,证明了本文提出的基于迭代蒸馏的快速知识图谱嵌入模型压
缩方法具有较好的通用性,同时能够保证实际应用中的高效率。因此本发明具有良好的应用前景和推广范围。
23.作为本发明一种具体实施例,本发明提供逻辑流程图如图1所示,模型流程图如图2所示,训练配置图如图3所示的一种基于迭代蒸馏的快速知识图谱嵌入模型压缩方法,包括步骤为:1)预训练高维教师知识图谱嵌入模型。
24.知识图谱嵌入的过程是给定知识图谱中的三元组集合,将其中所有的实体和关系嵌入为连续空间中的向量。训练高维教师模型时,选取嵌入维度较高的知识图谱嵌入模型进行预训练。选取较高维度的模型作为教师模型的原因是,对于大多数知识图谱嵌入模型来说,嵌入维度越高,模型的表达能力越强。
25.训练高维教师模型的过程如下,首先,给定一系列的实体e和关系r,一个知识图谱g可以表示为一系列三元组的集合。一般地,使用h,r,t表示三元组(头实体,关系,尾实体)。知识图谱嵌入模型将知识图谱中原有的头实体、关系和尾实体构成的三元组作为正三元组,同时随机替换中的头实体和尾实体作为负三元组。然后,知识图谱嵌入模型将每个三元组嵌入为向量,然后用一个打分函数s计算每个三元组向量表示的得分。不同的知识图谱嵌入模型有不同的打分函数。得到每个三元组的得分后,损失函数采用二元交叉熵损失,公式如下:其中,,对于正三元组来说,;对于负三元组来说,,是softmax函数。训练高维教师模型结束后,保存训练好的高维教师模型。通过先训练高维教师模型,得到了一个性能较好的知识图谱嵌入模型,以用于接下来蒸馏低维知识图谱嵌入模型。
26.2)软标签权重自适应蒸馏。
27.软标签权重自适应蒸馏使用步骤1)训练好的高维知识图谱嵌入模型作为教师模型,目标是让低维学生模型模仿高维教师模型的输出来学习知识,使学生模型达到和教师模型相匹配的性能。
28.在传统的知识图谱嵌入模型的蒸馏过程中,因为软标签损失和硬标签损失优化方向不一致,所以会导致模型在训练的过程中难以收敛的问题。为了解决这个问题,软标签权重自适应蒸馏在蒸馏的过程中动态调整软标签的权重大小,创新性地根据总损失的变化来改变软标签的权重,使得在训练初期软标签具有较小的权重,硬标签主导模型的训练过程。随着训练的进行,逐渐增加软标签权重,使得学生模型在硬标签主导的优化方向上逐渐进行优化。通过这种策略使得模型收敛到更优的方向,并且加快了模型的收敛速度。
29.具体来说,给定三元组h,r,t,首先将它同时输入给教师模型和学生模型,分别经过教师模型和学生模型进行编码。然后定义教师模型的打分函数打分结果为,学生模型的打分函数结果为,蒸馏过程中的硬标签损失为学生模型原始的损失,定义如
下:其中,,对于正三元组来说,;对于负三元组来说,,是softmax函数。软标签损失采用huber损失计算教师模型和学生模型的分布差异,定义如下:最终,蒸馏的总损失硬标签损失和软标签损失加权之和,如下所示:其中,是软标签的权重,用来平衡软标签损失和硬标签损失。注意,在蒸馏的过程中只训练学生模型,教师模型的模型参数是固定不动的。
30.为了进一步平衡蒸馏过程中的硬标签损失和软标签损失,在蒸馏过程中动态地调整软标签的权重。在训练的初期,希望软标签损失的权重尽可能小。然后,随着训练过程的进行,软标签权重不断增大并且最终被固定。具体来说,将完整的训练过程划分为两个阶段。第一阶段,硬标签损失占主导地位,软标签损失权重被分配较小的初始值并逐渐增加。第二阶段,软标签权重被固定。定义完整的训练轮数为m,第m轮的软标签权重如下所示:其中,参数k的值在训练过程中动态调整,保证了的值在范围内,软标签时间控制参数p控制了软标签权重调整的时间占比,是初始软标签权重。软标签权重自适应蒸馏解决了在训练初期由于硬标签损失优化和软标签损失优化的方向不同,导致模型难以收敛的问题。
31.3)迭代蒸馏。
32.迭代蒸馏重复步骤1)和步骤2)的操作,将上一次迭代生成的学生模型作为下一次迭代的教师模型,从而减小每次蒸馏时学生模型和教师模型之间的维度差距,使得知识能够更平滑地传递下去。之前的方法直接用高维的教师模型蒸馏低维的学生模型,然而在蒸馏知识图谱嵌入模型时,性能越好的教师模型并不一定能教出性能越好的学生模型。这是
因为教师模型和学生模型之间的嵌入维度差距过大,导致输出结果之间的差异过大,知识很难直接从教师模型传递给学生模型。本发明提出迭代蒸馏的策略,不直接将原始的教师模型蒸馏成最终的学生模型,而是逐步减小模型的嵌入维度进行蒸馏,这样就减小了每次蒸馏过程中教师模型和学生模型之间的维度差距,从而使知识可以平滑地从教师模型转移到学生模型。通过迭代蒸馏的方法,最终生成的学生模型很好地继承了原始的教师模型的性能。
33.具体来说,定义在第k次迭代中教师模型的嵌入维度为,教师模型的嵌入维度为,则每次迭代的压缩率定义如下:随后,每一次迭代都使用这个固定的压缩率进行模型压缩。在第一次迭代中,使用预先训练好的教师模型来训练第一个学生模型。在第k次迭代中,使用在第k-1次迭代中生成的学生作为第k次迭代中的教师。第k次迭代的硬标签损失定义如下:其中,为第k次迭代的学生模型打分函数的打分结果,第k次迭代的软标签损失定义如下:其中,为第k次迭代的教师模型打分函数的打分结果,第k轮的总损失定义如下:定义迭代的总次数为n,然后最终压缩率a定义如下:最终的压缩率a是预先设定的,所以迭代停止的条件为学生维度满足如下关系:。
34.在实际应用中,压缩模型的时候预先设定好所需要的学生模型维度和每次迭代的
压缩率,然后迭代次数由教师模型维度、学生模型维度和每次迭代的压缩率共同决定。
35.4)低维学生知识图谱嵌入模型预测。
36.经过步骤3),最终生成维度为的低维学生模型最为知识图谱嵌入模型压缩后的最终结果。得到蒸馏的低维模型后,即可进行低维学生模型预测。通常采用知识图谱嵌入模型在链接预测任务上的表现来评价知识图谱嵌入模型的好坏,采用的评价指标是平均倒数排名mrr 、排名小于等于1的三元组的平均占比和排名小于等于10的三元组的平均占比,而直接采用模型训练和预测所需的时间来评价模型速度的优劣。具体来说,在预测阶段,给定查询,其中h和r分别表示头实体和关系,预测的目标是在给定头实体和关系的前提下,预测尾实体t。具体预测过程如下,首先,将给定的查询中的头实体和关系嵌入为向量,同时将所有候选的尾实体t嵌入为向量。然后,将查询q与所有候选的尾实体组成的三元组输入到打分函数中进行打分。将所有三元组的得分进行排序,计算指标,计算公式如下:其中,n表示所有三元组的数量,是指示函数,当满足条件时取1,不满足时取0。
37.【实施例1】在实施例中,将基于迭代蒸馏的快速知识图谱嵌入模型压缩方法在通用的数据集fb15k-237和wn18rr上进行训练和预测,且所有的其他实施例中均使用和本实施例相同的数据。数据集使用。fb15k-237数据集中包含14541种实体和237种关系,其中,训练集中包含272115条三元组,验证集中包含17535条三元组,测试集中包含20466条三元组。wn18rr数据集中包含40943种实体和11种关系,其中,训练集中包含86835条三元组,验证集中包含3034条三元组,测试集中包含3134条三元组。由于模型具有良好的鲁棒性和泛化性,在不同的通用数据集中都可以使用相同的超参数设置。
38.具体实施如下:知识图谱嵌入模型选择transe,complex,simple和rotate。初始的教师模型嵌入层的嵌入维度为512,最终通过蒸馏得到的学生模型的嵌入维度为32。每层蒸馏的压缩率 设置为2,迭代的次数n设置为4。超参数p的值设置为2。在训练阶段,使用adagrad作为优化器,学习率的值设置为0.1。每次训练的批量大小设置为1024,每次迭代的训练轮数设置为1000。由于模型的稳定性比较好,每次迭代最多只需要1000个训练轮数即
可收敛,所以对于不同的模型和不同的数据集都可以采用相同的批量设置和轮数设置。
39.使用不同的知识图谱嵌入模型测试基于迭代蒸馏的快速知识图谱嵌入模型压缩方法的效果,并将最终的学生模型的预测结果与其他蒸馏方法得到的学生模型进行对比,发现在三个指标上都达到了最高的性能,说明基于迭代蒸馏的快速知识图谱嵌入模型压缩方法在实际的应用场景中可以达到最优的水平。
40.【实施例2】基于迭代蒸馏的快速知识图谱嵌入模型压缩方法具有训练上的优势。首先,蒸馏采用单个教师进行蒸馏,相比于多教师蒸馏框架训练时间可以大大减小;其次,在蒸馏阶段固定教师参数不动,并且采用软标签权重动态调整机制加快训练流程,训练时间相比之前最优的方法平均少50%的时间。对于越复杂的知识图谱嵌入模型,训练时间缩短得越明显。例如对于较复杂的知识图谱嵌入模型rotate来说,训练时间可以缩短63%。
41.在实际应用中,由于真实的知识图谱经常需要更新,而现有的知识图谱嵌入模型每次遇到新的实体时都需要重新训练。所以,相比于传统的蒸馏方法,基于迭代蒸馏的快速知识图谱嵌入模型压缩方法可以保证知识图谱嵌入模型高效率地更新,同时大幅度节省资源的消耗。
42.【实施例3】基于迭代蒸馏的快速知识图谱嵌入模型压缩方法每次迭代生成的学生模型相比于同维度没有蒸馏的模型效果要好。具体来说,将512维度知识图谱嵌入模型通过迭代蒸馏的方法,每层压缩率设置为2,分别蒸馏到256维、128维、64维和32维,分别测试这些中间模型相比于没有蒸馏的同维度模型效果,发现蒸馏后得到的模型性能可以提高5%~90%。其中,模型的嵌入维度越低,性能提升的效果越明显。这说明迭代蒸馏方法具有较高的灵活性,在实际应用中,可以根据实际需求选择需要蒸馏的维度。对于不同的需求维度,迭代蒸馏方法都可以获得高性能的低维度模型。
43.【实施例4】基于迭代蒸馏的快速知识图谱嵌入模型压缩方法每次迭代的压缩率设置为2,同时保证了蒸馏的性能和效率。如果增加每次迭代的压缩率,可以使用更少的迭代次数得到需要的学生模型,但是性能会受到一定影响。例如,将每层压缩率设置为4和16时,训练的迭代次数可以减少50%和75%,但是性能上下降5%~10%。由此可知,每层的压缩率越小,迭代蒸馏的效果越明显。同时,由于巨大的训练时间优势,在实际应用中可以根据需求来灵活选择不同的压缩率。
44.以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献