一种基于MSP-GEP-Elman算法的实时短视频用户画像预测方法及系统与流程

2022-05-11 13:50:34 来源：中国专利 TAG：

一种基于msp-gep-elman算法的实时短视频用户画像预测方法及系统
技术领域
1.本发明属于数据分析领域，涉及一种基于msp-gep-elman算法的实时短视频用户画像预测方法及系统。

背景技术：

2.在短视频公司中，各个平台存储着eb级的超大规模、多维度、高质量的用户行为数据，基于这些用户行为数据可以勾勒出用户的行为习惯，进而为用户推送用户偏爱的内容。
3.为了准确地预测用户画像，需要将大量历史数据输入到神经网络中进行训练，然而训练的过程需要消耗大量的时间，如何提升神经网络模型预测的精准度和速度成为整个行业都急需解决的问题，因此亟需一种精度高、速度快的预测方法，快速处理海量的数据。

技术实现要素：

4.本发明的目的在于解决现有技术中的问题，提供一种基于msp-gep-elman算法的实时短视频用户画像预测方法及系统，能够提高种群内个体的质量和个体的多样性，提高对优质个体的发现能力；提升了gep算法迭代的速度，加快收敛的进程；还可以提升elman神经网络的收敛速度，快速寻找到全局最优解，避免elman神经网络陷入局部最优的情况。
5.为达到上述目的，本发明采用以下技术方案予以实现：
6.一种基于msp-gep-elman算法的实时短视频用户画像预测方法，包括：
7.步骤1：设定elman神经网络的初始权值和阈值；
8.步骤2：基于msp-gep算法，spark分布式计算集群的master节点；
9.步骤3：分发基于master节点生成不同的随机种子到不同的worker节点，初始化msp-gep种群内的所有个体；并将elman神经网络的初始权值和阈值映射到种群内个体的基因上，对每个个体都进行编码；
10.步骤4：对msp-gep种群内的所有个体进行进化迭代，丰富种群内多样性；
11.步骤5：判断种群内多样性是否大于阈值；若是，进行步骤6；若否，基于镜像重置策略，对劣质个体进行替代，进行步骤6；
12.步骤6：基于克隆对比策略，筛选种群中适应度值最大的若干个个体进行处理，提高种群的最大适应度值；
13.步骤7：判断局部迭代次数是否大于设定的最大值k1时，若是，每个worker节点选出最优个体发送给master节点；若否，重复步骤4～步骤7；
14.步骤8：对比所有局部最优个体的适应度，筛选出适应度值最大的个体作为整个spark分布式计算集群的全局最优个体以及全局最优个体对应的worker节点编号i，然后将全局最优个体和编号i发送到所有worker节点；
15.步骤9：对比worker节点自身编号与编号i，如果相等，则将自身最差个体替换为全局最优个体，反之，不进行任何操作；
16.步骤10：当全局迭代次数到达设定的最大值k2时，结束迭代流程，否则，重复步骤4～步骤10；
17.步骤11：将msp-gep的全局最优个体传递给elman神经网络进行二次初始化，即作为全局最优个体开始训练的初始权值和阈值；
18.步骤12：基于elman神经网络的学习算法对全局最优个体进行训练，直到elman神经网络的输出误差小于期望误差时即为训练完成。
19.本发明的进一步改进在于：
20.将elman神经网络的初始权值和阈值映射到种群内个体的基因上，对每个个体都进行编码，具体为：由elman神经网络的权值和阈值w1、w2、w3、b1、b2五个部分按照先后顺序组成的向量。
21.对msp-gep种群内的所有个体进行进化迭代，包括：各个worker节点同时进行计算适应度值、选择、复制、转座、重组和变异。
22.种群内个体的适应度值表达式如公式(1)所示：
[0023][0024]
式中：yk(w)为原始输出向量；为目标输出向量。
[0025]
镜像重置策略具体为：
[0026]
1、分别计算理想种群的熵h
l
和当前种群的熵h
p
；
[0027]
2、将种群的局部最大迭代次数k1平均划分为三个等级，并设置每个等级所对应的阈值；
[0028]
3、将理想种群的熵h
l
与每个等级所对应的阈值分别相乘，获取每个等级的理想种群的阈值；
[0029]
4、判断当前种群的熵h
p
是否小于每个等级的理想种群的阈值；若是，进行步骤6；若否，进行步骤5；
[0030]
5、计算种群内所有个体的适应度值，并筛选出适应度值最小的m个个体和在剩余的个体中适应度值最小的n个个体；
[0031]
6、随机产生m个个体来替代适应度值最小的m个个体，使用n个镜像个体来替代在剩余的个体中适应度值最小的n个个体，并将种群中个体内的函数集的各个运算符替代为其镜像。
[0032]
将种群的最大迭代次数k1平均划分为三个等级，并设置每个等级所对应的阈值，具体为：三个等级为：和每个等级对应的阈值分别设定为0.5、0.4和0.3。
[0033]
计算理想种群的熵h
l
和当前种群的熵h
p
如公式(2)所示：
[0034][0035]
式中：l为单个个体的长度；s为运算符和终结符的个数；p
ij
为每个运算符和终结符
在种群内各个位置出现的频率p
ij
。
[0036]
克隆对比策略具体为：
[0037]
计算父类种群内所有个体的适应度值，筛选出适应度值最大的a％个体；
[0038]
对筛选出的a％个体分别克隆b次，对克隆的新个体使用变异算子；
[0039]
计算所选的父类个体和变异后的个体的适应度值，选择每个父类最好的后代作为下一代，克隆选择后，选择下一代的后代数量c最大值为克隆的个体数量的a％；
[0040]
使用竞争规模为s的对比选择算子从父类种群中选择剩下的n-c个个体，以保证种群规模n不变；
[0041]
对比当前这一代的最大适应度值f
best
，与父类种群的最大适应度值f
max
，若f
best
＞f
max
，更新f
max
的值为f
best
；若f
best
＜f
max
，用适应度值为f
max
的个体去替代这一代中适应度值最小的个体。
[0042]
一种基于msp-gep-elman算法的实时短视频用户画像预测系统，包括：
[0043]
设定模块，所述设定模块用于设定elman神经网络的初始权值和阈值；
[0044]
计算模块，所述计算模块基于msp-gep算法，spark分布式计算集群的master节点；
[0045]
第一初始化模块，所述第一初始化模块用于分发基于master节点生成不同的随机种子到不同的worker节点，初始化msp-gep种群内的所有个体；并将elman神经网络的初始权值和阈值映射到种群内个体的基因上，对每个个体都进行编码；
[0046]
迭代模块，所述迭代模块用于对msp-gep种群内的所有个体进行进化迭代，丰富种群内多样性；
[0047]
第一判断模块，所述第一判断模块用于判断种群内多样性是否大于阈值；
[0048]
筛选模块，所述筛选模块基于克隆对比策略，筛选种群中适应度值最大的若干个个体进行处理，提高种群的最大适应度值；
[0049]
第二判断模块，所述第二判断模块用于判断局部迭代次数是否大于设定的最大值k1时，直至每个worker节点选出最优个体发送给master节点；
[0050]
第一对比模块，所述第一对比模块用于对比所有局部最优个体的适应度，筛选出适应度值最大的个体作为整个spark分布式计算集群的全局最优个体以及全局最优个体对应的worker节点编号i，然后将全局最优个体和编号i发送到所有worker节点；
[0051]
第二对比模块，所述第二对比模块用于对比worker节点自身编号与编号i，如果相等，则将自身最差个体替换为全局最优个体，反之，不进行任何操作；
[0052]
第三判断模块，所述第三判断模块用于当全局迭代次数到达设定的最大值k2时，结束迭代流程；
[0053]
第二初始化模块，所述第二初始化模块用于将msp-gep的全局最优个体传递给elman神经网络进行二次初始化，即作为全局最优个体开始训练的初始权值和阈值；
[0054]
训练模块，所述训练模块基于elman神经网络的学习算法对全局最优个体进行训练，直到elman神经网络的输出误差小于期望误差时即为训练完成。
[0055]
与现有技术相比，本发明具有以下有益效果：
[0056]
本发明基于镜像重置对种群内的劣质个体进行替代，提高种群内个体的质量和个体的多样性，然后基于克隆对比策略进行克隆，提高对优质个体的发现能力；提升了gep算法迭代的速度，加快收敛的进程。同时基于分布式计算的并行化设计，能够更好地提高预测
精度，同时提升gep算法的收敛速度，加快收敛进程。最后基于msp-gep算法优化elman神经网络，能够提升elman神经网络的收敛速度，快速寻找到全局最优解，避免elman神经网络陷入局部最优的情况。
附图说明
[0057]
为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0058]
图1为本发明的基于msp-gep-elman算法的实时短视频用户画像预测方法流程图；
[0059]
图2为基于msp-gep算法优化elman神经网络的流程图；
[0060]
图3为elman神经网络的整体结构图；
[0061]
图4为基于镜像重置、克隆对比策略选择的混合策略改进的gep算法的流程图；
[0062]
图5为本发明的基于msp-gep-elman算法的实时短视频用户画像预测系统结构图。
具体实施方式
[0063]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0064]
因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0065]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
[0066]
在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0067]
此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。
[0068]
在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0069]
下面结合附图对本发明做进一步详细描述：
[0070]
参见图1和图2，本发明公开了一种基于msp-gep-elman算法的实时短视频用户画像预测方法，包括：
[0071]
s101：设定elman神经网络的初始权值和阈值。
[0072]
参见图3，elman神经网络的结构包含四层，每层的作用如下：
[0073]
1)输入层：用于传输数据或信号。
[0074]
2)输出层：仅仅起到线性加权的线性函数。
[0075]
3)隐含层：非线性加权的非线性函数，常用的函数如sigmoid函数。
[0076]
4)承接层：因其所处的位置特殊，通常被称为状态层或者上下文单元层。对于从承接层的神经元输出的信号经过一定的时间延迟再将返回给网络的隐含层作为输入，这极大地提升了网络对前面一定时间的输入数据的敏感性，使网络具有极强的处理动态信息和适应时变能力。
[0077]
elman神经网络有独特的ssr(state-space representation，由状态方程、输出方程组成的状态空间表达式)：
[0078]
x(k)＝f(w
j1
xc(k) w
j2
(u(k-1)))
[0079]
xc(k)＝x(k-1)
[0080]
y(k)＝g(w
j3
x(k))
[0081]
其中：k为时刻；y＝[y1，y2，...，ym]输出节点的m维的节点向量；x＝[x1，x2，...，xn]隐含层节点的n维的节点单元向量；u＝[u1，u2，...，ur]r维的输入向量；xc＝[x
c1
，x
c2
，...，x
cn
]n维的反馈状态向量；w
j3
为隐含层和输出层之间的连接权值；w
j2
为输入层和隐含层之间的连接权值；w
j1
为承接层和隐含层之间的连接权值；g(*)为输出层的神经元传递函数；f(*)为隐含层的神经元传递函数。
[0082]
对于输出层的神经元传递函数g(*)为线性函数：
[0083]
g(x)＝α3x(k)
[0084]
对于隐含层的神经元传递函数f(*)通常为非线性函数(sigmoid函数)：
[0085][0086]
s102：基于msp-gep算法和spark分布式计算集群的master节点。
[0087]
s103：分发基于master节点生成不同的随机种子到不同的worker节点，初始化msp-gep种群内的所有个体；并将elman神经网络的初始权值和阈值映射到种群内个体的基因上，对每个个体都进行编码。
[0088]
由elman神经网络的权值和阈值w1、w2、w3、b1、b2五个部分按照先后顺序组成的向量。
[0089]
s104：对msp-gep种群内的所有个体进行进化迭代，丰富种群内多样性。
[0090]
各个worker节点同时进行计算适应度值、选择、复制、转座、重组和变异。
[0091]
种群内个体的适应度值表达式如公式(1)所示：
[0092]
[0093]
式中：yk(w)为原始输出向量；为目标输出向量。
[0094]
s105：判断种群内多样性是否大于阈值；若是，进行s106；若否，基于镜像重置策略，对劣质个体进行替代，进行s106；
[0095]
参见图4，s105.1、分别计算理想种群的熵h
l
和当前种群的熵h
p
；
[0096]
计算理想种群的熵h
l
和当前种群的熵h
p
如公式(2)所示：
[0097][0098]
式中：l为单个个体的长度；s为运算符和终结符的个数；p
ij
为每个运算符和终结符在种群内各个位置出现的频率p
ij
。
[0099]
s105.2、将种群的最大迭代次数k1平均划分为三个等级，并设置每个等级所对应的阈值；
[0100]
三个等级为：和每个等级对应的阈值分别设定为0.5、0.4和0.3。
[0101]
s105.3、将理想种群的熵h
l
与每个等级所对应的阈值分别相乘，获取每个等级的理想种群的阈值；
[0102]
s105.4、判断当前种群的熵h
p
是否小于每个等级的理想种群的阈值；若是，进行步骤s105.6；若否，进行步骤s105.5；
[0103]
s105.5、计算种群内所有个体的适应度值，并筛选出适应度值最小的m个个体和在剩余的个体中适应度值最小的n个个体；
[0104]
s105.6、随机产生m个个体来替代适应度值最小的m个个体，使用n个镜像个体来替代在剩余的个体中适应度值最小的n个个体，并将种群中个体内的函数集的各个运算符替代为其镜像。如：设定函数集{ -*/sin cos ln exp}，其镜像为{- /*cos sin exp ln}。
[0105]
s106：基于克隆对比策略，筛选种群中适应度值最大的若干个个体进行处理，提高种群的最大适应度值。
[0106]
计算父类种群内所有个体的适应度值，筛选出适应度值最大的a％个体；
[0107]
对筛选出的a％个体分别克隆b次，对克隆的新个体使用变异算子；
[0108]
计算所选的父类个体和变异后的个体的适应度值，选择每个父类最好的后代作为下一代，克隆选择后，选择下一代的后代数量c最大值为克隆的个体数量的a％；
[0109]
使用竞争规模为s的对比选择算子从父类种群中选择剩下的n-c个个体，以保证种群规模n不变；
[0110]
对比当前这一代的最大适应度值f
best
，与父类种群的最大适应度值f
max
，若f
best
＞f
max
，更新f
max
的值为f
best
；若f
best
＜f
max
，用适应度值为f
max
的个体去替代这一代中适应度值最小的个体。
[0111]
s107：判断局部迭代次数是否大于设定的最大值k1时，若是，每个worker节点选出最优个体发送给master节点；若否，重复s104～s107；
[0112]
s108：对比所有局部最优个体的适应度，筛选出适应度值最大的个体作为整个spark分布式计算集群的全局最优个体以及全局最优个体对应的worker节点编号i，然后将
全局最优个体和编号i发送到所有worker节点；
[0113]
s109：对比worker节点自身编号与编号i，如果相等，则将自身最差个体替换为全局最优个体，反之，不进行任何操作；
[0114]
s110：当全局迭代次数到达设定的最大值k2时，结束迭代流程，否则，重复s104～s110；
[0115]
s111：将msp-gep的全局最优个体传递给elman神经网络进行二次初始化，即作为全局最优个体开始训练的初始权值和阈值；
[0116]
s112：基于elman神经网络的学习算法对全局最优个体进行训练，直到elman神经网络的输出误差小于期望误差时即为训练完成。
[0117]
参见图5，本发明公布了一种基于msp-gep-elman算法的实时短视频用户画像预测系统，包括：
[0118]
设定模块，所述设定模块用于设定elman神经网络的初始权值和阈值；
[0119]
计算模块，所述计算模块基于msp-gep算法，spark分布式计算集群的master节点；
[0120]
第一初始化模块，所述第一初始化模块用于分发基于master节点生成不同的随机种子到不同的worker节点，初始化msp-gep种群内的所有个体；并将elman神经网络的初始权值和阈值映射到种群内个体的基因上，对每个个体都进行编码；
[0121]
迭代模块，所述迭代模块用于对msp-gep种群内的所有个体进行进化迭代，丰富种群内多样性；
[0122]
第一判断模块，所述第一判断模块用于判断种群内多样性是否大于阈值；
[0123]
筛选模块，所述筛选模块基于克隆对比策略，筛选种群中适应度值最大的若干个个体进行处理，提高种群的最大适应度值；
[0124]
第二判断模块，所述第二判断模块用于判断局部迭代次数是否大于设定的最大值k1时，直至每个worker节点选出最优个体发送给master节点；
[0125]
第一对比模块，所述第一对比模块用于对比所有局部最优个体的适应度，筛选出适应度值最大的个体作为整个spark分布式计算集群的全局最优个体以及全局最优个体对应的worker节点编号i，然后将全局最优个体和编号i发送到所有worker节点；
[0126]
第二对比模块，所述第二对比模块用于对比worker节点自身编号与编号i，如果相等，则将自身最差个体替换为全局最优个体，反之，不进行任何操作；
[0127]
第三判断模块，所述第三判断模块用于当全局迭代次数到达设定的最大值k2时，结束迭代流程；
[0128]
第二初始化模块，所述第二初始化模块用于将msp-gep的全局最优个体传递给elman神经网络进行二次初始化，即作为全局最优个体开始训练的初始权值和阈值；
[0129]
训练模块，所述训练模块基于elman神经网络的学习算法对全局最优个体进行训练，直到elman神经网络的输出误差小于期望误差时即为训练完成。
[0130]
本发明提出一种基于msp-gep算法优化elman神经网络算法的实时短视频用户画像预测算法，其具体实施方式如下：
[0131]
1)实验数据集：
[0132]
实验数据集来源于icme2019&字节跳动短视频内容理解与推荐竞赛，数据集为用户与作品的交互数据，包含了脱敏后的用户点击、喜爱、关注等交互行为数据，目的是通过
对一个视频及用户交互行为数据集对用户兴趣进行建模，然后预测该用户在另一视频数据集上的点赞行为(数据集中对作品点赞的类别标签为true，没有对作品点赞的类别标签为false)，其数据规模为亿级别。在本实验中，出于对短周期和长周期的考虑，从中选取了其中连续两天的数据，约86万条。其中大多数数据都是官方经过脱敏处理的，比如性别、年龄、学历等都映射成了脱敏的数值。表1为数据集文件说明，表2为数据集文件的字段说明。
[0133]
表1数据集文件说明
[0134][0135]
表2数据集文件的字段说明
[0136][0137][0138]
从数据集文件中抽取第一天全部和第二天最开始10min的数据，前者作为本实验的训练集用来构建预测模型，后者作为测试集来检验预测模型的分类性能。其中训练集数据一共447456条，测试数据集一共2898条，所使用的数据集全部存储在hdfs上。
[0139]
2)实验环境：
[0140]
本发明基于hdfs(hadoop) spark大数据分布式计算集群来进行预测模型的构建
和测试，其中spark是以spark on yarn的方式部署，其中spark节点和hdfs节点均为5个，均包含一个主节点和五个从节点。表3为分布式集群的节点分布信息，表4为分布式集群的硬件信息，表5为分布式集群的软件信息。
[0141]
表3分布式集群的节点分布信息
[0142][0143]
表4分布式集群的硬件信息
[0144][0145][0146]
表5分布式集群的软件信息
[0147][0148]
3)数据预处理：
[0149]
(1)缺失值处理
[0150]
由于本实验所使用的数据是关于用户与作品交互的行为数据，由于部分字段的数据来源存在不确定性，难免会存在一些缺失值。因此对各个字段的缺失值进行了统计，结果如表6所示：
[0151]
表5-6字段缺失值统计
[0152][0153][0154]
统计后发现，存在缺失的字段只有一个，其中只有观看该作品的来源的channel字段缺失率高达76％，其他字段的缺失率均为0％。由于channel字段缺失率过高，属于稀疏属性，对该字段进行删除操作，不将其作为特征参与本实验的建模。
[0155]
(2)特征替换
[0156]
本发明的like字段是boolean类型，其值为true/false，属于二元属性，因此将其映射为1/0，使like字段成为计算机可识别的离散数值。
[0157]
(3)时间特征的处理
[0158]
对于long类型的时间戳time1、time2，使用连续的时间差值的方法来进行转化，将其转化为该时刻到第二天24点时刻(time3)的时间差距(单位：秒)。
[0159]
(4)增加额外特征
[0160]
出于对有效特征探索的考虑，增加一些额外特征：
[0161]
(1)user_item_order：用户观看的item列表中的item热度排序(从高到低)；
[0162]
(2)user_author_order：用户观看的item列表中的author热度排序(从高到低)；
[0163]
(3)user_like_ratio：用户观看的item列表中点赞的item的比例。
[0164]
经过预处理后的特征如表7所示：
[0165]
表7数据集文件的字段说明
[0166][0167][0168]
4)特征提取：
[0169]
(1)方差过滤
[0170]
有时候，数据集中的某一个特征的所有值方差非常小，特征数值非常接近，这样导致的结果就是：该特征没有区分度。因此在特征提取时首先计算所有特征的方差，找到那些有区分度(方差大)的特征。
[0171]
因此，对经预处理后的数据集计算每个特征内特征值的方差，发现只有国家country的方差很小，说明该特征的相似程度过高，因此将其从特征中剔除。过滤后剩下的特征一共18个，如表8所示：
[0172]
表8数据集文件方差过滤后的字段说明
[0173][0174]
(2)lda特征降维
[0175]
为了减少数据集中冗余特征对预测模型的影响，使用lda的方法来对数据集(包括训练集和测试集)的原始特征以不同形式来进行函数映射，这样就能转换出一组更加具有代表性的特征，以达到特征降维的目的。
[0176]
假设训练集d1＝{(x1,y1),(x2,y2),
……
,(xm,ym)}，其中xi为特征矩阵中的18维向量，yi∈{0,1}。再定义nj(j＝0,1)为第j类样本向量的个数，xj(j＝0,1)为第j类样本向量的集合，μj(j＝0，1)为第j类样本向量的均值向量，∑j(j＝0，1)为第j类样本的协方差矩阵的分子。
[0177]
μj的计算表达式如公式(3)所示：
[0178][0179]
∑j的计算表达式如公式(4)所示：
[0180][0181]
对于二分类数据，将其投影到一条直线上。假设向量w是所投影的直线，那么对于任意一个样本向量xi，其在投影向量w上的投影为w
t
xi，对于两个类别的中心点(两个类别的均值向量)μ0、μ1，它们在投影向量w上的投影分别为w
t
μ0、w
t
μ1。lda的核心思想是既要保证投影后类内方差最小，即类别中心的距离尽可能大，因此要最大化又要保证投影后类内方差最小，即同一类别数据的点尽可能接近，因此要最小化同类样本投影点的协方差w
t
∑0w、w
t
∑1w，也就是说要最小化w
t
∑0w w
t
∑1w。因此，最终的优化目标如公式(5)所示：
[0182][0183]
此时定义类内散度矩阵sw如公式(6)所示：
[0184][0185]
同时定义类间散度矩阵sb如公式(7)所示：
[0186]
sb＝(μ
0-μ1)(μ
0-μ1)
t
(7)
[0187]
将公式(6)和公式(7)代入公式(5)中，则优化目标如公式(8)所示：
[0188][0189]
要最大化j(w)，只需要对w求偏导，并使导数等于0，便得到公式(9)：
[0190]
(w
t
sww)sbw＝(w
t
sbw)sww(9)
[0191]
将式(9)代入式(8)中，便可以得到公式(10)：
[0192]
sbw＝λsww(10)
[0193]
式(10)中的λ为j(w)，是一个数值，因此可以整理为如公式(11)所示：
[0194][0195]
j(w)的最大值是的最大特征值，然后最大的15个特征值所对应的特征向量(w1，w2，...，w
15
)就是投影矩阵w。
[0196]
然后将特征矩阵中的18维向量xi转化为15维向量zi：
[0197]
zi＝w
t
xi[0198]
这样便得到了特征提取后的15维训练集
[0199]d′1＝{(z1，y1)，(z2，y2)，..，...，(zm，ym)}
[0200]
同理，对测试集d2同样进行上述操作，便完成了训练集d1和测试集d2的lda特征降维。
[0201]
5)实验参数：
[0202]
设置的可变参数如下：
[0203]
对于hdfs(hadoop) spark大数据分布式计算集群，在消融实验中分别设定msp-gep算法的计算节点个数为5来进行实验。
[0204]
对于msp-gep算法，其参数设定如表9所示：
[0205]
表9 msp-gep算法参数设定
[0206][0207][0208]
对于elman神经网络，其参数设定如表10所示：
[0209]
表10 elman神经网络参数设定
[0210][0211]
6)模型训练：
[0212]
以设定的实验参数对模型进行训练，构建msp-gep-elman预测模型，同时在相同的训练数据集上构建elman预测模型和gep-elman预测模型以进行对比。
[0213]
7)数据预测：
[0214]
模型训练完成后，使用msp-gep-elman预测模型、elman预测模型和gep-elman预测模型对测试集进行测试，实验结果如表11所示：
[0215]
表11实验结果
[0216][0217]
本发明所设计的基于msp-gep算法优化elman神经网络算法的实时短视频用户画像预测算法在数据集上的auc值为0.818，执行时间为39513秒，优于常规的elman算法和gep-elman，具备更好的预测精度和执行速度
[0218]
以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种核电厂质量缺陷报告的智能推送方法与流程

一种基于MSP-GEP-Elman算法的实时短视频用户画像预测方法及系统与流程

相关文献

最热文献