一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于知识蒸馏的对象行为的预测方法及系统、设备及介质与流程

2022-08-03 02:07:32 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种基于知识蒸馏的对象行为的预测方法及系统、设备及介质。


背景技术:

2.建立对于目标对象的风险行为的评估模型具有重要意义。而现有技术中对于风险评估模型的选择主要有专家评分卡、逻辑回归评分卡、基于树模型的风险概率等实现方法。由于上述领域涉及的基础数据往往特征变量繁多且需要对海量数据进行处理,因此现有技术往往难以兼顾多特征数据对象的准确性和评估处理的计算效率。例如,专家评分卡很大程度依赖于专家经验,不同专家之间的先验知识不同也有可能导致不同特征权重之间的分配有差异,导致模型结果不稳定;使用逻辑回归评分卡建模,其模型拟合能力有限,不一定能很好的表征评估对象的风险评分;基于树模型的风险概率预测模型输入特征个数多,中间计算过程相对复杂,处理效率低,模型可解释性较差。


技术实现要素:

3.本发明要解决的技术问题是为了克服现有技术中对于涉及大数据的目标对象的风险行为评估无法兼顾准确性和计算效率的缺陷,提供一种基于知识蒸馏的对象行为的预测方法及系统、设备及介质。
4.本发明是通过下述技术方案来解决上述技术问题:
5.本发明提供了一种基于知识蒸馏的对象行为的预测方法,包括:
6.生成训练样本数据,所述训练样本数据包括目标对象对应的特征信息;
7.根据所述训练样本数据确定教师模型;
8.根据所述教师模型和所述训练样本数据确定学生模型;
9.通过所述学生模型获取对所述目标对象的风险行为的预测结果。
10.较佳地,所述根据所述训练样本数据确定教师模型的步骤包括:
11.设置教师模型的超参数范围;
12.根据预设超参数搜索方法和所述训练样本数据确定所述教师模型,以使所述教师模型对应的超参数符合所述超参数范围。
13.较佳地,所述根据所述教师模型和所述训练样本数据确定学生模型的步骤包括:
14.根据所述目标对象对应的特征信息,分别设置所述训练样本数据中各特征变量对应的权重值的范围;
15.根据所述训练样本数据训练所述学生模型;
16.在所述权重值的范围内确定目标权重组合,以使所述目标权重组合对应的学生模型输出结果和教师模型输出结果的关联度符合预设值;其中,所述教师模型输出结果为所述训练样本数据在所述教师模型中获得;所述学生模型输出结果为所述训练样本数据在符合所述目标权重组合的所述学生模型中获得;
17.根据所述目标权重组合,确定所述学生模型。
18.较佳地,所述通过所述学生模型获取对所述目标对象的风险行为的预测结果的步骤包括:
19.将所述目标对象对应的特征变量输入所述学生模型,以得到所述特征变量对应的评分值;其中,所述特征变量对应于所述目标权重组合;
20.根据所述评分值,获取对所述目标对象的风险行为的预测结果。
21.较佳地,所述特征信息包括所述目标对象对应的机构信息和/或地理位置信息。
22.本发明还提供了一种基于知识蒸馏的对象行为的预测系统,包括:
23.数据生成模块,用于生成训练样本数据,所述训练样本数据包括目标对象对应的特征信息;
24.教师模型确定模块,用于根据所述训练样本数据确定教师模型;
25.学生模型确定模块,用于根据所述教师模型和所述训练样本数据确定学生模型;
26.预测模块,用于通过所述学生模型获取对所述目标对象的风险行为的预测结果。
27.较佳地,所述教师模型确定模块包括:
28.超参数设置单元,用于设置教师模型的超参数范围;
29.确定单元,用于根据预设超参数搜索方法和所述训练样本数据确定所述教师模型,以使所述教师模型对应的超参数符合所述超参数范围。
30.较佳地,所述学生模型确定模块包括:
31.权重范围设置单元,用于根据所述目标对象对应的特征信息,分别设置所述训练样本数据中各特征变量对应的权重值的范围;
32.学生模型训练单元,用于根据所述训练样本数据训练所述学生模型;
33.目标权重确定单元,用于在所述权重值的范围内确定目标权重组合,以使所述目标权重组合对应的学生模型输出结果和教师模型输出结果的关联度符合预设值;其中,所述教师模型输出结果为所述训练样本数据在所述教师模型中获得;所述学生模型输出结果为所述训练样本数据在符合所述目标权重组合的所述学生模型中获得;
34.学生模型确定单元,用于根据所述目标权重组合,确定所述学生模型。
35.较佳地,所述预测模块包括:
36.评分单元,用于将所述目标对象对应的特征变量输入所述学生模型,以得到所述特征变量对应的评分值;其中,所述特征变量对应于所述目标权重组合;
37.预测结果获取单元,用于根据所述评分值,获取对所述目标对象的风险行为的预测结果。
38.较佳地,所述特征信息包括所述目标对象对应的机构信息和/或地理位置信息。
39.本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于知识蒸馏的对象行为的预测方法。
40.本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于知识蒸馏的对象行为的预测方法。
41.本发明的积极进步效果在于:本发明的基于知识蒸馏的对象行为的预测方法及系统、设备及介质基于知识蒸馏模型压缩技术,通过训练构建相对复杂的教师模型匹配多样
性的目标对象的风险行为的训练样本数据,并通过训练构建对应的相对简单的学生模型与教师模型进行拟合逼近,在确保对于目标对象的风险行为评价预测结果的准确度和可解释性的同时,降低了对于海量训练样本数据处理的复杂度,节省了计算资源。
附图说明
42.图1为本发明实施例1基于知识蒸馏的对象行为的预测方法的流程图。
43.图2为本发明实施例1基于知识蒸馏的对象行为的预测方法一具体实施方式的流程图。
44.图3为本发明实施例1基于知识蒸馏的对象行为的预测方法一具体示例的流程图。
45.图4为本发明实施例2的基于知识蒸馏的对象行为的预测系统的模块示意图。
46.图5为本发明实施例3的电子设备的结构框图。
具体实施方式
47.下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
48.实施例1
49.参见图1-图2所示,本实施例具体提供了一种基于知识蒸馏的对象行为的预测方法,包括:
50.s1.生成训练样本数据,训练样本数据包括目标对象对应的特征信息;
51.s2.根据训练样本数据确定教师模型;
52.s3.根据教师模型和训练样本数据确定学生模型;
53.s4.通过学生模型获取对目标对象的风险行为的预测结果。
54.知识蒸馏是一种通过较小(较简单)模型学习较大(较复杂)模型知识的模型压缩技术,较小模型即学生(student)模型,较大模型即教师(teacher) 模型,知识蒸馏的过程可以认为是通过拟合使学生模型的输出接近教师模型的输出,具体可以通过定义损失函数来衡量学生模型和教师模型的接近程度。为便于说明,本实施例中以风险活动预测为例,针对具体的活动事件中的活动主体进行说明。当然,本领域技术人员可知,本发明的训练数据处理对象包括但不限于上述范畴。活动预测存在复杂、涉及面宽泛、重复活动比例高、偶发性突出等问题,涉及活动主体的评价特征维度较多,且往往涉及海量数据。本发明聚焦上述现象,基于知识蒸馏技术对活动主体予以风险评估,评估结果具备较强的可解释性。
55.在模型特征构造方面,常规的建模主要根据数据字段进行衍生,包括原始特征、统计特征、时序特征等,但风险活动预测领域中,数据主要为事件相关的信息,重要信息集中在事件的概况文本中,常规构造特征的方法并不会对非结构化的文本特征进行分析,会导致模型丢失很大部分重要信息,从而导致模型表现效果不佳。为了克服常规的特征构造方法在活动风险预测领域中丢失事件概况内容信息的问题,本发明对非结构化的事件概况作了处理,一方面基于对重要关键词的归并分类构造活动主体及相关活动事件中出现的每类关键词的统计特征,另一方面通过命名实体提取技术和关键词提取技术,提取事件概况文本中出现的公司、组织、地理位置信息、关键词,构造了实体和关键词出现的统计特征。通过手工分类和自动抽取技术结合,能够保留更多的重要信息,更好的表征活动主体的风险程
度。
56.步骤s1生成训练样本数据,建立训练样本集可以包括但不限于下述方式实现:获取历史活动数据作为基础数据集;对基础数据集的活动主体构造风险标签活动活动活动,作为后续模型的监督机器学习模型的标签信息;对基础数据集中的活动主体相关特征进行提取,并在此基础上构造高阶特征;将活动主体的特征作为x标签,风险标签作为y标签,构造训练样本数据集。
57.其次进行特征分箱和筛选。具体地,去除训练样本数据集中空值率高于预设空值比例(例如95%)的特征,去除单值占比超过预设单值占比(例如 95%)的特征;对训练样本数据集筛选后的特征进行变量分箱(如采用卡方自动分箱、决策树自动分箱等方式),并计算每个分箱内该变量的证据权重 (weight of evidence,以下简称woe)值,并检验有序变量不同分箱之间 woe值的单调性,不满足单调性的分箱合并到其他分箱内,直至满足单调性要求为止。对每个特征计算信息价值(information value,以下简称iv) 值过滤小于预设下限值(例如0.05,该特征与活动主体风险关系很弱或者无关)及大于上限值(如0.5,变量为穿越特征或风险标签强相关的特征,会影响模型稳定性)的特征。计算特征之间的相关性,相关性大于预设阈值(例如0.8)时,去除iv值较低的特征。使用xgboost开源软件库提供的梯度提升树(gradient boosting decison tree,以下简称gbdt)算法,评估活动主体的风险情况,设置模型的超参数搜索空间,使用贝叶斯优化器(bayesianoptimization)进行超参数搜索,得到最优的风险评估模型,并根据该模型的特征重要度排序,取排名靠前的设定数量(例如前30个)的若干个特征作为后续建模的输入特征;其中,可以使用双向逐步回归等方法剔除表现较弱的特征。较佳地,特征信息包括但不限于目标对象对应的机构信息和/或地理位置信息。
58.作为较佳的实施方式,步骤s2包括:
59.s21.设置教师模型的超参数范围;
60.s22.根据预设超参数搜索方法和训练样本数据确定教师模型,以使教师模型对应的超参数符合超参数范围。
61.超参数在机器学习的上下文中,在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常用于定义关于模型的更高层次的概念,如复杂性或学习能力,包括但不限于模型中树的数量或树的深度、矩阵分解中潜在因素的数量、深层神经网络的隐藏层数等。本实施方式中对于教师模型进行训练可以通过包括但不限于lightgbm机器学习算法框架实现。具体地,可以将分箱筛选后的数据集转换为lightgbm专用的数据格式;步骤s21 可以通过设置lightgbm的超参数搜索范围确定教师模型的超参数范围,步骤s22根据预设的超参数搜索方法将分箱筛选后的特征和活动主体风险标签输入lightgbm,使用贝叶斯优化进行超参数搜索,得到最优的风险评估教师模型。此外,通过对于各特征变量的重要度排序,取排名靠前的预设数量(例如前10个)的特征变量作为最终模型的输入变量,重新训练上述 lightgbm模型并得到用于学生模型拟合的最终教师模型。
62.作为较佳的实施方式,步骤s3包括:
63.s31.根据目标对象对应的特征信息,分别设置训练样本数据中各特征变量对应的权重值的范围;
64.s32.根据训练样本数据训练学生模型;
65.s33.在权重值的范围内确定目标权重组合,以使目标权重组合对应的学生模型输出结果和教师模型输出结果的关联度符合预设值;其中,教师模型输出结果为训练样本数据在教师模型中获得;学生模型输出结果为训练样本数据在符合目标权重组合的学生模型中获得;
66.s34.根据目标权重组合,确定学生模型。
67.本实施方式对于学生模型进行训练,步骤s31可以基于目标对象对应的特征信息,采用包括但不限于集中趋势分析、离中趋势分析、回归分析、置信度分析、时间序列分析等方式或其组合,对于训练样本数据中各特征变量对应的权重值的范围进行设置。例如通过初始化逻辑回归(logisticregression)模型,结合目标对象对应的特征信息,设置每个特征的权重的搜索空间,即该特征的取值范围和限定条件;步骤s32根据训练样本数据训练学生模型获得结果,从而步骤s33在权重值的范围内确定目标权重组合,具体地,可以将学生模型输出结果和教师模型输出结果比较,基于比较结果来调整参数的权重,可以理解,基于调整后的权重重复执行步骤s32。从而步骤s33最终能够通过遍历权重组合计算每个模型与教师模型评估结果的相关性,确定目标权重组合,使学生模型和教师模型符合预设相关性。步骤s34 基于确定的目标权重组合确定学生模型,例如取相关性最高的一组或多组参数作为最终计算得到的活动主体风险评估模型即学生模型。
68.作为较佳的实施方式,步骤s4包括:
69.s41.将目标对象对应的特征变量输入学生模型,以得到特征变量对应的评分值;其中,特征变量对应于目标权重组合;
70.s42.根据评分值获取目标对象的风险行为的预测结果。
71.本实施方式中,基于上述确定的目标权重组合对应的学生模型对于目标对象的风险行为进行分析。具体地,步骤s41将目标对象对应的特征变量输入学生模型获取评分值,包括但不限于将学生模型(如上述逻辑回归模型) 转换为标准评分卡,得到每个特征在每个分箱上的分值。步骤s42基于评分值和预设的阈值即可确定目标行为对象的风险行为的预测结果。此外,可以采用fastapi web服务框架部署活动主体风险评估模型,满足高并发场景下用户对风险评估应用程序接口服务的调用以及模型监控,并对模型每天进行增量训练,保证模型的有效性。
72.作为一个具体的例子,参见图3,本实施例中的基于知识蒸馏的对象行为的预测方法可以按照下述步骤步骤实施:
73.s101:获取基础数据集。具体通过活动部门合法授权且在保证数据安全的情况下,通过数据库获取八万多条历史活动件数据,作为基础数据集。
74.s102:构造风险标签。具体在上述基础数据集中,有一万多个活动主体即约15%的活动主体存在风险行为,将这部分存在风险行为的活动主体的风险标签设置为“1”,其余活动者的风险标签设置为“0”,作为后续模型训练的监督信息。
75.s103:提取低阶特征。具体地,提取活动主体相关的字段,作为低阶特征,如年龄、性别、出生年月、风险行为时间、风险行为目的、风险行为类型、概况描述等。
76.s104:在低阶特征的基础上,构造高阶特征。包括但不限于:
77.频次特征提取:对活动主体相关字段进行频次统计,得到相应频次特征。如活动主体历史活动频率、最频繁的活动月份、最频繁活动月份的活动次数、不同活动目的的活动次
数等。
78.时序特征提取:对活动主体的历史事件进行分析,得到时间序列上的特征字段。如近三年活动的年份、过去三十天活动的次数、过去一天是否有过活动、过去一年的活动次数等。
79.词频特征提取:对时间概况进行分析,一方面归类关键词,统计活动主体历史活动事件中出现每类关键词的频次;另一方面,通过tf-idf算法对事件概况进行分词和去除停用词后,得到事件中的关键词,统计这类关键词的出现的频次。
80.实体特征提取:通过对事件概况进行命名实体提取,得到每个活动件中出现的公司、组织、地理位置信息,做完实体消歧后,统计过去三十天以内事件中的三类实体出现的频次。
81.具体地,可以通过关联图特征提取、动作序列特征提取等方式实现。关联图特征提取通过获取目标对象相关概述文本,对文本进行标注,以及训练序列标注模型得到对象的实体及其类型等;通过对象结构特征结合实体特征,以对象、各类实体、类别特征为节点,与对象有关为边来构造关联图,并对关联图上节点的特征进行提取(如各节点的度数,某类节点度数大于某个阈值等)。动作序列特征提取通过对对象动作序列编码表征该对象在某个时间点上的动作,通过预训练模型实现对象动作序列嵌入表示,即获取对象历史一段时间内的动作序列数据,通过对预训练模型进行微调预测未来某个时间点每种动作的发生概率,得到对象动作序列嵌入表示(即各类动作的概率向量)。
82.s105:将在基础数据集上提取到的活动主体特征x及风险标签y合并,作为后续模型训练的样本数据集。
83.s106:筛选训练样本数据集。具体地,删除缺失值占比大于95%的特征和单个值占比超过95%的特征。
84.s107:对训练样本数据集中的特征进行分箱处理。对值的个数小于等于 5的特征,直接单独对每个值进行分箱;对值个数大于5的,首先通过卡方自动分箱、决策树自动分箱,然后计算每个分箱上的woe并验证有序特征的单调性,不单调的情况下进行合并分箱或手动分箱。
85.s108:对分箱后的特征进行特征筛选。具体地,去除iv值大于0.5和小于0.05的特征;去除相关性大于0.8且iv值较小的特征;去除在gdbt中表现较差的特征;使用双向逐步回归剔除表现不好的特征。
86.s109:训练教师模型。具体地,选用lightgbm作为活动主体风险评估的教师模型,原因在于结构化数据上树模型的表现比神经网络相关模型表现更好,设定超参数搜索空间,使用贝叶斯优化器进行超参数搜索,得到表现最好的lightgbm模型,并选取特征重要度top 10的特征作为模型的最终输入特征。重新设定超参数搜索空间并使用贝叶斯优化器进行超参数搜索,得到最有的教师模型。
87.s110:训练学生模型。可选用逻辑回归模型作为最终的风险评估模型,结合相关活动工作人员的经验,设置每个特征的权重的搜索空间,即该特征的取值范围和限定条件,以逻辑回归模型与教师模型结果相似度作为评价指标,通过贝叶斯优化器求解得到最优的特征权重,最终得到学生模型。
88.具体地,设定特征变量的权重值范围,保证所有权重值之和为1;使用教师模型对
目标对象进行预测,得到的结果为y={y1,y2,

,yn};随机初始学生模型的特征权重,对目标对象进行预测,得到的结果为计算学生模型预测结果和教师模型结果之间的差异或相关性根据的值更新参数;重复执行直至符合预设条件(例如一定的执行次数或找到局部最优点),选取最优参数组合,得到最优学生模型。
89.例如,对于特征变量,分别设定权重值范围w1∈[0.3,0.6],w2∈[0.4, 0.7],限定条件:w1 w2=1(即权重和为1),根据教师模型的结果训练学生模型调整确定各特征变量的权重值,再进行后续训练步骤。如教师模型输出结果y_t={y_t1,y_t2,
……
,y_tn},学生模型输出结果y_s={y_s1,y_s2,
……
, y_sn},计算y_t和y_s两个序列的差异,找到差异最小的一组权重w1和 w2,即最优的学生模型。
[0090]
s111:将学生模型转换为标准评分卡,得到模型输入特征每个分箱上的风险分数以及基础分,即活动主体风险评估的评分卡。例如,通过相关技术把上述w1和w2转换为对应的评分,比如x1∈{0,0.5,1},x1=1时,得分为 s1=0.5,x1=0.5时,s1=0.25,x=0时,s1=0,类似的计算得到x2,学生模型输出的结果即s1 s2,之后根据设定的阈值,就可以将单个样本评分转换为目标对象的风险行为预测等级。
[0091]
s112:通过python环境提供的fastapi web服务框架,在服务器部署活动主体风险评估模型,能满足高并发场景下用户对风险评估api服务的调用以及模型监控。
[0092]
s113:对模型每天进行增量训练,保证模型的有效性。模型相较于传统评分卡建模流程得到的评估模型,在保证模型准确率不下降的情况下,加入了活动相关工作人员的先验信息,可解释性更好。
[0093]
本实施例的基于知识蒸馏的对象行为的预测方法基于知识蒸馏模型压缩技术,通过训练构建相对复杂的教师模型匹配多样性的目标对象的风险行为的训练样本数据,并通过训练构建对应的相对简单的学生模型与教师模型进行拟合逼近,在确保对于目标对象的风险行为评价预测结果的准确度和可解释性的同时,降低了对海量训练样本数据处理的复杂度,节省了计算资源。
[0094]
实施例2
[0095]
参见图4所示,本实施例具体提供了一种基于知识蒸馏的对象行为的预测系统,包括:
[0096]
数据生成模块1,用于生成训练样本数据,训练样本数据包括目标对象对应的特征信息;
[0097]
教师模型确定模块2,用于根据训练样本数据确定教师模型;
[0098]
学生模型确定模块3,用于根据教师模型和训练样本数据确定学生模型;
[0099]
预测模块4,用于通过学生模型获取对目标对象的风险行为的预测结果。
[0100]
知识蒸馏是一种通过较小模型学习较大模型知识的模型压缩技术,较小模型即学生模型,较大模型即教师模型,知识蒸馏的过程可以认为是通过拟合使学生模型的输出接近教师模型的输出,具体可以通过定义损失函数来衡量学生模型和教师模型的接近程度。为便于说明,本实施例中以具体的风险活动预测为例,针对活动事件中的活动主体进行说明。当然,本领域技术人员可知,本发明的训练数据处理对象包括但不限于上述范畴。活动
预测领域存在诉求复杂、涉及面宽泛、重复活动比例高、偶发性突出等问题,涉及活动群体的评价特征维度较多,且往往涉及海量数据。本发明聚焦上述现象,基于知识蒸馏技术对活动主体予以风险评估,评估结果具备较强的可解释性。
[0101]
在模型特征构造方面,常规的建模主要根据数据字段进行衍生,包括原始特征、统计特征、时序特征等,但风险活动预测领域中,数据主要为事件相关的信息,重要信息集中在事件的概况文本中,常规构造特征的方法并不会对非结构化的文本特征进行分析,会导致模型丢失很大部分重要信息,从而导致模型表现效果不佳。为了克服常规的特征构造方法在风险活动预测领域中丢失事件概况内容信息的问题,本发明对非结构化的事件概况作了处理,一方面基于对重要关键词的归并分类构造活动主体及相关活动事件中出现的每类关键词的统计特征,另一方面通过命名实体提取技术和关键词提取技术,提取事件概况文本中出现的公司、组织、地理位置信息、关键词,构造了实体和关键词出现的统计特征。通过手工分类和自动抽取技术结合,能够保留更多的重要信息,更好的表征活动主体的风险程度。
[0102]
数据生成模块1生成训练样本数据,建立训练样本集可以包括但不限于下述方式实现:获取历史活动数据作为基础数据集;对基础数据集的活动主体构造风险标签,作为后续模型的监督机器学习模型的标签信息;对基础数据集中的活动主体相关特征进行提取,并在此基础上构造高阶特征;将活动主体的特征作为x标签,风险标签作为y标签,构造训练样本数据集。
[0103]
其次进行特征分箱和筛选。具体地,去除训练样本数据集中空值率高于预设空值比例(例如95%)的特征,去除单值占比超过预设单值占比(例如 95%)的特征;对训练样本数据集筛选后的特征进行变量分箱,并计算每个分箱内该变量的woe值,并检验有序变量不同分箱之间woe值的单调性,不满足单调性的分箱合并到其他分箱内,直至满足单调性要求为止。对每个特征计算iv值过滤小于预设下限值(例如0.05,该特征与活动主体风险关系很弱或者无关)及大于上限值(如0.5,变量为穿越特征或风险标签强相关的特征,会影响模型稳定性)的特征。计算特征之间的相关性,相关性大于预设阈值(例如0.8)时,去除iv值较低的特征。使用xgboost开源软件库提供的gbdt算法,评估活动主体的风险情况,设置模型的超参数搜索空间,使用贝叶斯优化器进行超参数搜索,得到最优的风险评估模型,并根据该模型的特征重要度排序,取排名靠前的设定数量(例如前30个)的若干个特征作为后续建模的输入特征;其中,可以使用双向逐步回归等方法剔除表现较弱的特征。较佳地,特征信息包括但不限于目标对象对应的机构信息和/或地理位置信息。
[0104]
作为较佳的实施方式,教师模型确定模块2包括:
[0105]
超参数设置单元21,用于设置教师模型的超参数范围;
[0106]
确定单元22,用于根据预设超参数搜索方法和训练样本数据确定教师模型,以使教师模型对应的超参数符合超参数范围。
[0107]
超参数在机器学习的上下文中,在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常用于定义关于模型的更高层次的概念,如复杂性或学习能力,包括但不限于模型中树的数量或树的深度、矩阵分解中潜在因素的数量、深层神经网络的隐藏层数等。本实施方式中对于教师模型进行训练可以通过包括但不限于lightgbm机器学习算法框架实现。具体地,可以将分箱筛选后的数据集转换为lightgbm专用的数据格式;超参
数设置单元21可以通过设置lightgbm的超参数搜索范围确定教师模型的超参数范围,确定单元22根据预设的超参数搜索方法将分箱筛选后的特征和活动主体风险标签输入lightgbm,使用贝叶斯优化进行超参数搜索,得到最优的风险评估教师模型。此外,通过对于各特征变量的重要度排序,取排名靠前的预设数量(例如前10个)的特征变量作为最终模型的输入变量,重新训练上述lightgbm模型并得到用于学生模型拟合的最终教师模型。
[0108]
作为较佳的实施方式,学生模型确定模块3包括:
[0109]
权重范围设置单元31,用于根据目标对象对应的特征信息,分别设置训练样本数据中各特征变量对应的权重值的范围;
[0110]
学生模型训练单元32,用于根据训练样本数据训练学生模型;
[0111]
目标权重确定单元33,用于在权重值的范围内确定目标权重组合,以使目标权重组合对应的学生模型输出结果和教师模型输出结果的关联度符合预设值;其中,教师模型输出结果为训练样本数据在教师模型中获得;学生模型输出结果为训练样本数据在符合目标权重组合的学生模型中获得。
[0112]
学生模型确定单元34,用于根据目标权重组合,确定学生模型。
[0113]
本实施方式对于学生模型进行训练,权重范围设置单元31可以基于目标对象对应的特征信息,采用包括但不限于集中趋势分析、离中趋势分析、回归分析、置信度分析、时间序列分析等方式或其组合,对于训练样本数据中各特征变量对应的权重值的范围进行设置。例如通过初始化逻辑回归模型,结合目标对象对应的特征信息,设置每个特征的权重的搜索空间,即该特征的取值范围和限定条件;学生模型训练单元32根据训练样本数据训练学生模型获得结果,从而目标权重确定单元33在权重值的范围内确定目标权重组合,具体地,可以将学生模型输出结果和教师模型输出结果比较,基于比较结果来调整参数的权重,可以理解,基于调整后的权重重复调用学生模型训练单元32。从而目标权重确定单元33最终能够通过遍历权重组合计算每个模型与教师模型评估结果的相关性,确定目标权重组合,使学生模型和教师模型符合预设相关性。学生模型确定单元34基于确定的目标权重组合确定学生模型,例如取相关性最高的一组或多组参数作为最终计算得到的活动主体风险评估模型即学生模型。
[0114]
作为较佳的实施方式,预测模块4包括:
[0115]
评分单元41,用于将目标对象对应的特征变量输入学生模型,以得到特征变量对应的评分值;其中,特征变量对应于目标权重组合;
[0116]
预测结果获取单元42,用于根据评分值,获取对目标对象的风险行为的预测结果。
[0117]
本实施方式中,基于上述确定的目标权重组合对应的学生模型对于目标对象的风险行为进行分析。具体地,评分单元41将目标对象对应的特征变量输入学生模型获取评分值,包括但不限于将学生模型转换为标准评分卡,得到每个特征在每个分箱上的分值。预测结果获取单元42基于评分值和预设的阈值即可确定目标行为对象的风险行为的预测结果。此外,可以采用 fastapi web服务框架部署活动主体风险评估模型,满足高并发场景下用户对风险评估应用程序接口服务的调用以及模型监控,并对模型每天进行增量训练,保证模型的有效性。
[0118]
本实施例的基于知识蒸馏的对象行为的预测系统基于知识蒸馏模型压缩技术,通过训练构建相对复杂的教师模型匹配多样性的目标对象的风险行为的训练样本数据,并通
过训练构建对应的相对简单的学生模型与教师模型进行拟合逼近,在确保对于目标对象的风险行为评价预测结果的准确度和可解释性的同时,降低了对海量训练样本数据处理的复杂度,节省了计算资源。
[0119]
实施例3
[0120]
参见图5所示,本实施例提供了一种电子设备30,包括处理器31、存储器32及存储在存储器32上并可在处理器31上运行的计算机程序,处理器31执行程序时实现实施例1中的基于知识蒸馏的对象行为的预测方法。图5显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0121]
电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线 33。
[0122]
总线33包括数据总线、地址总线和控制总线。
[0123]
存储器32可以包括易失性存储器,例如随机存取存储器(ram)321和/ 或高速缓存存储器322,还可以进一步包括只读存储器(rom)323。
[0124]
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0125]
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1中的基于知识蒸馏的对象行为的预测方法。
[0126]
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(i/o)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器36通过总线33 与模型生成的设备30的其它模块通信。可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0127]
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0128]
实施例4
[0129]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1中的基于知识蒸馏的对象行为的预测方法。
[0130]
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0131]
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1中的基于知识蒸馏的对象行为的预测方法。
[0132]
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序
代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0133]
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献