一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

话题热度预测模型训练方法、话题热度预测方法及装置与流程

2023-08-16 18:02:20 来源:中国专利 TAG:


1.本公开涉及时序数据分析技术领域,尤其涉及人工智能技术领域。


背景技术:

2.随着互联网信息技术的迅猛发展,在互联网平台参与话题讨论的用户越来越多。用户在互联网平台上传的视频、发表的评论以及参与的投票等互动数据,均可能与一个或多个话题相关,用户对话题的关注度反映了话题的热度。


技术实现要素:

3.本公开提供了一种话题热度预测模型训练方法、话题热度预测方法及装置。
4.本公开实施例的第一方面,提供了一种话题热度预测模型训练方法,包括:
5.获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
6.按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
7.基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
8.利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
9.本公开实施例的第二方面,提供了一种话题热度预测方法,包括:
10.获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
11.将获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于第一方面任一项所述的方法训练得到的模型。
12.本公开实施例的第三方面,提供了一种话题热度预测模型训练装置,包括:
13.获取模块,用于获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为所述话题在所述多个周期的下一个周期内的话题热度;
14.组合模块,用于按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
15.筛选模块,用于基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
16.训练模块,用于利用所述多个训练样本的目标组合维度的组合属性数据,和所述多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
17.本公开实施例的第四方面,提供了一种话题热度预测装置,包括:
18.获取模块,用于获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
19.预测模块,用于将所述获取模块获取的属性数据输入话题热度预测模型,得到所述话题热度预测模型输出的所述多个历史周期的下一个周期内的所述待预测话题的话题热度;其中,所述话题热度预测模型为基于第一方面任一项所述的方法训练得到的模型。
20.本公开实施例的第五方面,提供了一种电子设备,包括:
21.至少一个处理器;以及
22.与所述至少一个处理器通信连接的存储器;其中,
23.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
24.本公开实施例的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面或第二方面中任一项所述的方法。
25.本公开实施例的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面或第二方面中任一项所述的方法。
26.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
27.附图用于更好地理解本方案,不构成对本公开的限定。其中:
28.图1是本公开实施例提供的一种话题热度预测模型训练方法的流程图;
29.图2是本公开实施例提供的一种lstm中的一个重复模块的结构示意图;
30.图3是本公开实施例提供的一种隐因子分析方法的流程图;
31.图4是本公开实施例提供的一种筛选目标组合维度的方法流程图;
32.图5是本公开实施例提供的一种话题热度预测方法的流程图;
33.图6是本公开实施例提供的一种话题热度预测模型训练装置的结构示意图;
34.图7是本公开实施例提供的一种话题热度预测装置的结构示意图;
35.图8是用来实现本公开实施例的话题热度预测模型训练方法和话题热度预测方法的电子设备的框图。
具体实施方式
36.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
37.对于话题热度的预测方法,主要包括基于时间序列的预测方法和基于机器学习的预测方法。其中,基于时间序列的预测方法所使用的预测模型主要为:自回归移动平均模型(autoregressive integrated moving average model,arima)、自回归条件异方差模型
(autoregressive conditional heteroskedasticity model,arch)或者广义自回归条件异方差模型(generalized autoregressive conditional heteroskedasticity model,garch)。基于机器学习的预测方法所使用的预测模型主要为:人工神经网络(artificial neural network,ann)或者支持向量回归机(support vector regression,svr)等。
38.传统的基于时间序列的预测方法难以对话题数据和话题热度进行精准建模,因此目前主要采用基于机器学习的预测方法。而直接使用话题的相关信息对机器学习模型进行训练,得到的话题预测模型存在话题热度预测准确度低的问题。
39.为了提高对话题热度预测的准确度,本公开实施例提供了一种话题热度预测模型训练方法,该方法应用于电子设备,例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备数据处理能力的设备。如图1所示,本公开实施例提供的话题热度预测模型训练方法,包括如下步骤:
40.s101、获取多个训练样本以及每个训练样本的训练标签。
41.其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为该话题在多个周期的下一个周期内的话题热度。
42.可以以一天为一个周期,并针对每个话题,统计该话题在每天的多维度的话题属性数据,将连续预设天数统计的多维度的话题属性数据作为一个训练样本,并将预设天数的后一天该话题的话题热度,作为该训练样本的训练标签。
43.其中,多维度的话题属性数据包括话题的话题基本信息和话题搜索数据。例如,话题基本信息包括:话题的类型、相关人物、创建时间、评论量和被引用量等。话题搜索数据包括话题在单个周期内多个时刻的搜索量和多个时间段的搜索量等。
44.s102、按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据。
45.例如,预设的组合维度大小为2,即对两个维度进行组合,则可以对每两个维度进行组合,以及将每个维度与自身进行组合。或者,预设的组合维度大小可以为其他值,本公开实施例对此不作具体限定。
46.生成组合属性数据时,可以针对每个训练样本,确定每个候选组合维度包括的各维度,在该训练样本中对应的话题属性数据,并将确定的话题属性数据相乘,将乘积作为该候选组合维度的组合属性数据。
47.s103、基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度。
48.可以基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中,筛选出与训练标签之间的相关性高于阈值的候选组合维度,作为目标组合维度。
49.s104、利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
50.通过上述方法,本公开实施例能够对话题属性数据进行组合,得到组合属性数据,并基于组合属性数据与训练标签之间的相关性,对组合属性数据所属的组合维度进行筛选,从而筛选出与训练标签相关性更强的目标组合维度的组合属性数据。由于与训练标签相关性较弱的数据,不但对模型预测准确度提高较小,还可能影响模型对于其他数据的处
理,因此本公开实施例将与训练标签相关性较弱的组合属性数据剔除,利用与训练标签相关性较强的组合属性数据进行模型训练,能够提高话题热度预测模型的预测准确度。以便后续基于话题热度预测模型能够对话题热度进行更准确的预测。
51.以下对本公开实施例提供的话题热度预测模型训练方法进行详细说明:
52.在本公开的一些实施例中,首先进行训练样本和训练标签的收集。
53.以一天为一个周期为例,采集每个话题每天的多维度话题属性数据,其中包括多维度的话题基本信息、话题搜索数据和标签(label)数据。话题基本信息的维度数记为n
基本
,例如n
基本
=122;话题搜索数据的维度数记为n
搜索
,例如n
搜索
=28,label数据的维度数记为n
label
,例如n
label
=4。即针对每个话题每天共收集n
基本
n
搜索
n
label
个数据。其中,label数据包括单个话题在单个周期内多个时刻的话题热度。
54.即,本公开实施例能够使话题预测模型基于单个话题在d天内的话题基本信息、话题搜索数据和话题热度,预测该话题在(d 1)天的热度,具体可以为预测该话题在(d 1)天内多个时刻的热度。例如,d=10。
55.可以将针对每个话题采集的多维度的话题属性数据按照日期的顺序,并记录在一张表内。之后,删除采集的天数低于天数阈值的话题所在的表项。对于采集的天数高于或等于天数阈值的话题,若该话题的多维度话题属性数据中存在缺失,则用指定数据补齐,例如指定数据为0。
56.为了消除同维度数据采用不同量纲而产生的奇异数据导致的不良影响,还可以对同维度的数据进行归一化。由于每个训练样本包括d天针对一个话题收集的话题属性数据,为了减少在训练样本中泄露未来的信息,即d天后的话题属性数据,可以仅对采集时间最早的预设天数内的话题属性数据进行归一化。之后将各训练样本和每个训练样本的训练标签,组成数据集。
57.对数据集按照预设比例划分为训练集和测试集。例如,将包括的话题属性数据对应的日期处于指定时间段的训练样本,以及该训练样本的训练标签,作为测试集,其余训练样本和训练标签作为训练集。其中指定时间段为:(收集的最后一天-d
test
)~收集的最后一天,例如d
test
=360。并从测试集中选取f%的训练样本和训练标签作为验证集。
58.本公开实施例除了可以应用于话题热度预测场景之外,还可以应用于股票收益预测场景或传染病预测等场景。
59.在股票收益预测场景下,训练样本为一只股票在连续多个周期内的多维度的股票属性数据。其中,股票属性数据包括股票基本数据、股票搜索数据和股票label数据。例如,股票基本数据包括:股票的成交量、价格、达到该成交量所用的时间、达到该价格所用的时间和价格波动范围等;股票搜索数据包括:股票在单个周期内多个时刻的搜索量和多个时间段的搜索量等。股票label数据包括股票在单个周期内多个时刻的收益。
60.相应的,训练样本的训练标签为该股票在多个周期的下一个周期内多个时刻的股票收益。并按照上述方法构建训练集、验证集和测试集,并训练得到股票收益预测模型。
61.在股票收益预测场景下,本公开实施例能够通过股票收益预测模型为用户提供预测到的股票收益,从而实现了为用户提供股票的历史数据之外,还能提供未来数据,丰富了为用户提供的数据类型,从而为用户选择股票提供更多参考依据。
62.在传染病预测场景下,训练样本为一种传染病在连续多个周期内的多维度的病毒
属性数据。其中,病毒属性数据包括病毒基本数据、病毒搜索数据和病毒label数据。例如,病毒基本数据包括:传染病的类型、已传播时间、已传播地点、传播途径、变异次数和是否被管控等。病毒搜索数据包括:传染病在单个周期内多个时刻的搜索量和多个时间段的搜索量等。病毒label数据包括病毒在单个周期内多个时刻的感染人数。
63.相应的,训练样本的训练标签为该传染病在多个周期的下一个周期内多个时刻的感染人数。并按照上述方法构建训练集、验证集和测试集,并训练得到传染病预测模型。
64.在传染病预测场景下,本公开实施例能够通过传染病预测模型为用户提供预测到的感染人数,从而在预测的感染人数超过阈值时,及时发出预警,以便管理人员能够提前对传染病进行管控。
65.另外,本公开实施例还可以预先构建预设神经网络模型。
66.在本公开实施例中,预设神经网络模型包括一层输入线性层、一层长短期记忆(long short-term memory,lstm)层和一层输出线性层。
67.构建预设神经网络模型之后,采用交叉验证的方法,利用训练集和验证集,训练预设神经网络模型;当验证集损失累积在一定数量次(epoch)都不再下降时,预设神经网络模型训练停止,保留当前的预设神经网络模型。可选的,训练时可以采用adam优化器,并采用均方误差损失(mean squared error,mse)作为损失函数,学习率lr=0.001,并采用等间隔学习率衰减策略调整学习率,采用epoch=1000。
68.利用保留的预设神经网络模型对测试集中的训练样本进行预测,得到预测的话题热度,根据训练样本的训练标签,对预测的话题热度进行测评,得到测评结果。测评时可以使用信息系数(information ratio,ic)、信噪比(signal to interference plus noise ratio,snr)、相对误差(relative error,re)和mse作为测评指标。若测评结果满足预设需求,则将当前的预设神经网络模型作为初始神经网络模型;若测评结果满足不预设需求,则对当前的预设神经网络模型继续训练,直至获得初始神经网络模型。
69.其中,输入预设神经网络模型的输入线性层的输入数据维度v
输入in
为:批数量*d*(n
基本
n
搜索
n
label
),批数量为每轮迭代时输入模型的训练样本数量,可以预先设置,例如批数量=128。经输入线性层对输入数据降维后,输入至lstm层的输入数据维度为v
lstm-in
;之后经lstm层处理后,输入至输出线性层的数据维度为v
lstm-out
;输出线性层的输出数据维度为v
输出out
,其中,v
输出out
=n
label

70.本公开实施例中的预设神经网络模型基于lstm构建,以下结合图2,对lstm进行简要介绍。
71.lstm是循环神经网络(recurrent neural network,rnn)的一种变体,利用门控机制控制信息的流入和损失,可以利用到较远的历史记忆。lstm为重复模块链结构,每个重复模块结构相同,图2为其中一个重复模块。图2中的“σ”表示sigmoid函数,“tanh”表示tanh函数,
“×”
表示逐点相乘,“ ”表示逐点相加。
72.如图2所示,lstm中包括3个门,分别为输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。
73.遗忘门用于决定需丢弃或保留的数据。通过遗忘门将来自前一个隐藏状态h
t-1
和当前输入的数据x
t
传递到第一个sigmoid函数,通过第一个sigmoid函数计算输出值f
t
,其中f
t
表示h
t-1
和x
t
中每个数据被保留的概率。其中,输出值介于0~1之间,输出值越接近0,表示
越应该丢弃,输出值越接近1表示越应该保留。
74.f
t
=σ(wf·
[h
t-1
,x
t
] bf)
ꢀꢀꢀ
(1)
[0075]
其中,wf和bf是遗忘门中需要在训练过程中调整的网络参数,wf和bf的初始值可以随机设置或者根据实际需求预先设置。
[0076]
输入门用于更新细胞状态。将来自前一个隐藏状态h
t-1
和当前输入的数据x
t
传递到第二个sigmoid函数,通过第二个sigmoid函数计算输出值i
t
,其中i
t
表示h
t-1
和x
t
中每个数据被保留的概率,输出值i
t
介于0~1之间,输出值越接近0,表示数据越不重要,因此越应该丢弃,输出值越接近1,表示数据越重要,因此越应该保留。同时将h
t-1
和x
t
传递到第一个tanh函数,通过第一个tanh函数输出候选值向量之后将第二个sigmoid函数的输出值i
t
与第一个tanh函数输出的候选值向量相乘,得到输入门的输出值。
[0077]it
=σ(wi·
[h
t-1
,x
t
] bi)
ꢀꢀꢀ
(2)
[0078][0079]
其中,wi、bi、wc和bc是输入门中需要在训练过程中调整的网络参数,wi、bi、wc和bc的初始值可以随机设置或者根据实际需求预先设置。
[0080]
图2中c
t-1
表示前一个细胞状态,c
t
表示当前的细胞状态。将c
t-1
与遗忘门的输出向量f
t
逐点相乘,将乘积与输入门的输出值相加,将相加结果作为新的细胞状态c
t

[0081][0082]
其中,

表示逐点相乘。
[0083]
输出门用于更新隐藏状态。将前一个隐藏状态h
t-1
和当前输入的数据x
t
传递到第三个sigmoid函数,通过第三个sigmoid函数计算输出值o
t
,其中输出值o
t
表示h
t-1
和x
t
中每个数据被保留的概率。将更新后的细胞状态c
t
传递到第二个tanh函数,并将第二个tanh函数的输出结果与第三个sigmoid函数的输出值o
t
逐点相乘,得到新的隐藏状态h
t
。新的隐藏状态h
t
是当前重复模块的输出,也可以输入下一个重复模块。
[0084]ot
=σ(wo·
[h
t-1
,x
t
] bo)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0085]ht
=o
t

tanh(c
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0086]
其中,

表示逐点相乘,wo和bo是输出门中需要在训练过程中调整的网络参数,wo和bo的初始值可以随机设置或者根据实际需求预先设置。
[0087]
由于ann模型存在过拟合、容易陷入局部最优解、泛化能力不强等问题。svr模型虽具有较强的泛化能力且不易陷入局部最优,但输入数据的特征维度过高时模型的预测性能会受到影响,因此需要在预测之前对输入数据进行降维,这就需要借助特征工程的降维方法来提升模型的预测性能,缺陷是对先验知识依赖程度大,适用性不强。
[0088]
而本公开实施例中,基于lstm构建初始神经网络模型,既能够提高模型的泛化能力,又具有更强的适用性。
[0089]
在本公开的一些实施例中,在上述s102进行维度组合之前,还可以对各话题属性数据进行隐因子分析,从而分析出对于预测话题热度更有价值的话题属性数据。参见图3,隐因子分析过程包括如下步骤:
[0090]
s301、多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集。
[0091]
每次从各训练样本包括的各话题属性数据中,随机抽取话题属性数据,得到一个特征子集。其中,每次抽取的话题属性数据的数量可以相同或者不同,抽取数据的次数可以预先设置。
[0092]
各训练样本包括的每个话题属性数据,均可以称为一个特征。假设各训练样本共包括m个特征,则理论上生成的特征子集存在2m种。
[0093]
s302、针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集。
[0094]
针对m个特征中的每个特征f,将s301生成的各特征子集,分为包括特征f的第一特征子集,以及不包括特征f的第二特征子集。从而构成是否包含特征f的特征子集对。对于m个特征,共具有2
m-1
对特征子集。
[0095]
例如,m=2时,各话题属性数据为[a,b],s301生成的特征子集包括:[a,0]、[a,b]、[0,b]、[0,0]。对于话题属性数据a,包括话题属性数据a的第一特征子集为:[a,0]、[a,b],不包括话题属性数据a的第二特征子集为:[0,b]、[0,0]。
[0096]
s303、基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果,确定该话题属性数据的特征贡献。
[0097]
本公开实施例中,可以利用初始神经网络模型对第一特征子集进行识别,得到第一识别结果y
withf
,并利用初始神经网络对第二特征子集进行识别,得到第二识别结果y
withoutf
。之后基于第一识别结果与第二识别结果之间的差值,确定该话题属性数据的特征贡献。
[0098]
由于第一特征子集和第二特征子集均存在多个,可以将第一特征子集和第二特征子集两两结合,作为一个特征子集对。针对每一对特征子集,计算y
withf-y
withoutf
,将计算结果作为该话题属性数据f的边际贡献。将每一对特征子集得到的边际贡献求和,将求和结果作为该话题属性数据f的特征贡献。
[0099]
通过上述方法,本公开实施例能够基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果的差距,得到有/无该话题属性数据对于识别结果的影响。从而区分不同的话题属性数据,对识别结果的影响程度,方便后续能够从各话题属性数据中,筛选出对识别结果影响更大的话题属性数据。
[0100]
s304、将多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到多个更新后的训练样本。
[0101]
例如预设贡献阈值为0,从而筛选出特征贡献为负数的话题属性数据,作为待删除的话题属性数据,并将待删除的话题属性数据从所属训练样本中删除。
[0102]
s305、利用多个更新后的训练样本和多个训练样本的训练标签,对初始神经网络模型进行训练,得到指定神经网络模型。
[0103]
可以将更新后的各训练样本输入初始神经网络模型,得到识别结果,基于预设的损失函数,计算识别结果与各训练样本的训练标签之间的误差,得到损失值。在初始神经网络模型未收敛时,利用损失值调整初始神经网络模型的网络参数,并进行下一轮训练。在初始神经网络模型收敛时,将当前的初始神经网络模型作为指定神经网络模型。
[0104]
可选的,可以通过在初始神经网络模型的迭代次数达到预设次数时,确定初始神经网络模型收敛,否则确定初始神经网络模型未收敛。或者,在本次计算的损失值小于预设
损失值时,确定初始神经网络模型收敛,否则确定初始神经网络模型未收敛。或者还可以通过其他方式判断初始神经网络模型是否收敛,本公开实施例对此不作具体限定。
[0105]
通过上述方法,本公开实施例基于沙普利加和解释(shapley additive explanations,shap)算法的思想,对各训练样本包括的每个话题属性数据,即每个特征,进行隐因子分析,从而分析出每个特征对于预测话题热度的重要性,即特征贡献。以便筛选出对话题热度预测更具有代表性的特征,并删除对预测话题热度的特征贡献较小的特征。这样既能够减少训练样本中包括的特征数量,又能够提高训练得到的指定神经网络的话题热度预测能力。
[0106]
在本公开的一些实施例中,图1中的多维度包括多个第一维度和多个第二维度,其中,第一维度为话题基本信息的维度,第二维度为话题搜索数据的维度。
[0107]
上述s102中按照预设的组合维度大小,对各维度进行组合的方式,可以实现为:将多个第一维度划分为多个分组,并将多个第二维度分别加入每个分组。之后在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
[0108]
第一维度共有x个,即一个训练样本中单个周期内包括x个话题基本信息;第二维度共有n个,即一个训练样本中单个周期内包括n个话题搜索数据。将第一维度划分为k组,每个分组共包括x/k个第一维度,将多个第二维度分别加入每个分组,使得每个分组共包括x/k n个维度。例如x=122,n=58,k=2。
[0109]
之后,对于每个分组包括的x/k n个维度,按照预设的组合维度大小,各维度进行组合,将每个组合结果作为一个候选组合维度。例如,预设的组合维度大小为2,则将每个分组包括的x/k n个维度中,每两个维度组合为一个候选组合维度。
[0110]
由于第一维度是话题基本信息维度,使得第一维度数量较多,因此对第一维度进行分组,再分别结合第二维度,并在组内进行维度组合,能够提高第一维度与第二维度的组合概率。使得在模型训练过程中,使模型能够从组合维度的组合属性数据中,学习到更复杂的非线性特征,从而提升话题预测模型的预测能力。
[0111]
参见图4,在本公开的一些实施例中,上述s103从各候选组合维度中筛选出目标组合维度的方式,包括以下步骤:
[0112]
s401、针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将指定数量的候选组合维度作为该训练样本的候选组合维度集合。
[0113]
可选的,可以针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度。
[0114]
或者,在计算第一相关度之前,还可以对候选组合维度进行筛选,得到保留的候选组合维度,然后确定该训练样本的每个保留的候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度。筛选方式可以实现为:针对每个候选组合维度,确定各训练样本的该候选组合维度的组合属性数据之间的方差,并删除方差小于预设方差阈值的候选组合维度。例如,预设方差阈值为4。由于方差小于预设方差预设时,候选组合维度的组合属性数据变化较小,因此对于模型预测话题热度的贡献较小,可以将这个候选组合维度删除。
[0115]
可以针对每个训练样本,计算该训练样本的每个候选组合维度的组合属性数据与
该训练样本的训练标签之间斯皮尔曼(spearman)相关系数的绝对值,作为第一相关度。
[0116]
之后,按照第一相关度从高到低的顺序,选择前m
spm
个候选组合维度。以m
spm
=700为例,则按照第一相关度从大到小的顺序,选择前700个候选组合维度,这些候选组合维度是与该训练样本的训练标签相关性较高的维度。
[0117]
s402、基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
[0118]
可以理解的,训练样本的候选组合维度集合中的各候选组合维度,与该训练样本的训练标签之间具有较高的相关度。因此各训练样本的候选组合维度集合之间的交集,与每个训练样本的训练标签之间均具有较高的相关度。
[0119]
通过上述方法,本公开实施例可以从各候选组合维度中,筛选出与各训练样本的训练标签均具有较高相关度的组合维度,从而确定出目标组合维度。利用与训练标签相关度较高的组合维度的数据进行模型训练,不但能够降低使用的训练数据的数据量,还能够提高模型预测话题热度的能力。而且,还减少了与训练标签相关度较低的候选组合维度的组合属性数据,对话题热度预测模型的预测准确性的影响。
[0120]
在本公开实施例中,上述s402确定目标组合维度的方式,包括如下步骤:
[0121]
步骤一、基于交集内的候选组合维度的组合属性数据,确定交集内的各候选组合维度之间的第二相关度。
[0122]
可以针对交集内每两个候选组合维度,计算这两个候选组合维度的组合属性数据之间的spearman相关系数的绝对值,作为第二相关度。
[0123]
步骤二、依次针对交集内的每个候选组合维度,若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除。
[0124]
若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,说明交集内存在与该候选组合维度相似度较高的其他候选组合维度,可以删除该候选组合维度。
[0125]
步骤三、若该候选组合维度与交集内的其他候选维度之间的第二相关度均小于预设相关度阈值,则将该候选组合维度作为目标组合维度。
[0126]
如果存在候选组合维度之间的第二相关度大于预设相关度阈值,说明这些候选组合维度的组合属性数据之间高度相关,而高度相关的组合属性数据可能导致模型预测失真或者难以预测,即影响模型预测准确性。同时,高度相关的组合数据数据之间存在冗余信息。因此,本公开实施例从交集中高度相关的候选组合维度中,保留其中一个候选组合维度,从而减少训练指定神经网络模型所使用的冗余数据,减少训练时基于的训练样本的数据量,提高模型训练的效率,还能提高指定神经网络模型预测的准确性。
[0127]
在筛选出目标组合维度之后,还可以使用预设的降维算法,对于k组内的目标组合维度,将每组目标组合维度降低到m
pca
维,例如预设的降维算法为主成分分析(principalcomponentanalysis,pca)算法,m
pca
=80。对目标组合维度进行降维,能减少训练指定神经网络模型所使用的数据量。
[0128]
本公开实施例中,上述多维度的话题属性数据还包括label数据,label数据包括话题在多个时刻的热度。
[0129]
在执行s104时,可以将每个训练样本中的目标组合维度的组合属性数据与label数据输入指定神经网络模型,得到指定神经网络模型的输出结果。基于预设的损失函数,计
算输出结果与该训练样本的训练标签之间的误差,得到损失值。在指定神经网络模型未收敛时,利用损失值调整指定神经网络模型,并进行下一轮训练。在指定神经网络模型收敛时,将当前的指定神经网络模型作为话题热度预测模型。
[0130]
在本公开实施例中,在上述s104训练指定神经网络模型,得到话题热度预测模型之后,还可以对话题热度预测模型进行进一步更新,从而优化话题热度预测模型。更新方式包括以下两种:
[0131]
方式一、确定各组合属性数据的特征贡献,删除多个更新后的训练样本中,特征贡献小于预设贡献阈值的组合属性数据;利用多个更新后的训练样本中保留的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题预测模型。
[0132]
其中,确定每个组合属性数据的特征贡献的方式,与上述隐因子分析中确定每个话题属性数据的特征贡献的方式相同,可参考上述描述,此处不再赘述。
[0133]
训练话题热度预测模型的方式,与上述隐因子分析中对初始神经网络模型的训练方式相同,可参考上述描述,此处不再赘述。
[0134]
通过对组合属性数据进行进一步的隐因子挖掘,能够从各组合属性数据中,挖掘出对预测话题热度更具有代表性的组合属性数据。从而减少组合属性数据的数量,提高模型训练的效率,并提高以此训练得到的更新后的话题预测模型的话题热度预测能力。
[0135]
方式二、按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用多个更新后的训练样本的目标二次组合维度的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题热度预测模型。
[0136]
其中,筛选目标二次组合维度的方式,与上述筛选组合维度的方式相同,可参考上述描述,此处不再赘述。
[0137]
训练话题热度预测模型的方式,与上述s104中对指定神经网络模型的训练方式相同,可参考上述描述,此处不再赘述。
[0138]
通过对目标组合维度进行组合,并从中筛选出与各训练样本的训练标签均具有较高相关度的目标二次组合维度。利用与训练标签相关度较高的目标二次组合维度的组合属性数据进行模型训练,不但能够进一步降低使用的训练数据的数据量,还能够进一步提高话题热度预测模型的话题热度预测能力。而且,还减少了与训练标签相关度相对较低的二次组合维度的组合属性数据,对话题热度预测模型的预测准确性的影响。
[0139]
基于相同的发明构思,本公开实施例还提供了一种话题热度预测方法,该方法可以应用于电子设备。例如电子设备可以是服务器、台式计算机或者笔记本电脑等具备数据处理能力的设备。上述话题热度预测模型训练方法应用的电子设备,与话题热度预测方法应用的电子设备可以相同或者不同。如图5所示,本公开实施例还提供的话题热度预测方法,包括如下步骤:
[0140]
s501、获取待预测话题在连续多个历史周期内的多维度的话题属性数据。
[0141]
其中,收集的话题属性数据包括:话题基本信息、话题搜索数据和label数据。
[0142]
s502、将获取的话题属性数据输入话题热度预测模型,得到话题热度预测模型输
出的多个历史周期的下一个周期内的待预测话题的话题热度。
[0143]
其中,话题热度预测模型为基于上述话题热度预测模型训练方法训练得到的模型。
[0144]
以一天为一个周期为例,本公开实施例能够基于待预测话题在今天以及今天之前的多天内的话题属性数据,预测明天的话题热度。其中,预测得到的话题热度可以包括明天的多个时刻的话题热度。
[0145]
由于本公开实施例在训练话题热度预测模型时,能够对话题属性数据进行组合,得到组合属性数据,并基于组合属性数据与训练标签之间的相关性,对组合属性数据所属的组合维度进行筛选,从而筛选出与训练标签相关性更强的目标组合维度的组合属性数据。由于与训练标签相关性较弱的数据,不但对模型预测准确度提高较小,还可能影响模型对于其他数据的处理,因此本公开实施例将与训练标签相关性较弱的组合属性数据剔除,利用与训练标签相关性较强的组合属性数据进行模型训练,能够提高话题热度预测模型的预测准确度。从而使得利用话题热度预测模型能够对待预测话题的热度进行更准确的预测。
[0146]
由上述可知,本公开实施例还可以应用在股票收益预测场景或者传染病预测场景。
[0147]
在股票收益预测场景下,可以获取待预测股票在连续多个历史周期内的多维度的股票属性数据,并将获取的股票属性数据输入股票收益预测模型,得到股票收益预测模型输出的多个历史周期的下一个周期内的待预测股票的收益。
[0148]
其中,股票收益预测模型的训练方法与上述话题热度预测模型的训练方法相同。
[0149]
由于本公开实施例中能够提高股票收益预测模型的预测准确度,使得在实际应用中能够更准确地进行股票收益预测,从而为用户选择股票提供更多更准的参考依据。
[0150]
在传染病预测场景下,可以获取待预测传染病在连续多个历史周期内的多维度的病毒属性数据,并将获取的病毒属性数据输入传染病预测模型,得到传染病预测模型输出的多个历史周期的下一个周期内的待预测传染病的感染人数。
[0151]
其中,传染病预测模型的训练方法与上述话题热度预测模型的训练方法相同。
[0152]
由于本公开实施例中能够提高传染病预测模型的预测准确度,使得在实际应用中能够更准确地进行感染人数的预测,从而在预测的感染人数超过阈值时,及时发出预警,以便管理人员能够提前对待预测传染病进行管控。
[0153]
本公开的技术方案中,所涉及的训练样本和训练标签的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0154]
需要说明的是,本实施例中的话题属性数据、股票属性数据和传染病属性数据均可以来自于公开数据集。
[0155]
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种话题热度预测模型训练装置,如图6所示,该装置包括:获取模块601、组合模块602、筛选模块603和训练模块604;
[0156]
获取模块601,用于获取多个训练样本以及每个训练样本的训练标签;其中,针对每个训练样本,该训练样本为一个话题在连续多个周期内的多维度的话题属性数据,该训练样本的训练标签为话题在多个周期的下一个周期内的话题热度;
[0157]
组合模块602,用于按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度,并针对每个训练样本,生成该训练样本的每个候选组合维度的组合属性数据;
[0158]
筛选模块603,用于基于每个训练样本的各候选组合维度的组合属性数据与该训练样本的训练标签之间的相关性,从各候选组合维度中筛选出目标组合维度;
[0159]
训练模块604,用于利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型。
[0160]
在本公开的一些实施例中,其中,筛选模块603,具体用于:
[0161]
针对每个训练样本,确定该训练样本的每个候选组合维度的组合属性数据与该训练样本的训练标签之间的第一相关度,并按照第一相关度从高到低的顺序,选择指定数量的候选组合维度,将指定数量的候选组合维度作为该训练样本的候选组合维度集合;
[0162]
基于各训练样本的候选组合维度集合之间的交集,确定目标组合维度。
[0163]
在本公开的一些实施例中,其中,筛选模块603,具体用于:
[0164]
基于交集内的候选组合维度的组合属性数据,确定交集内的各候选组合维度之间的第二相关度;
[0165]
依次针对交集内的每个候选组合维度,若该候选组合维度与交集内的至少一个候选组合维度之间的第二相关度大于预设相关度阈值,则将该候选组合维度删除;
[0166]
若该候选组合维度与交集内的其他候选维度之间的第二相关度均小于预设相关度阈值,则将该候选组合维度作为目标组合维度。
[0167]
在本公开的一些实施例中,该装置还可以包括:
[0168]
抽取模块,用于在按照预设的组合维度大小,对各维度进行组合,得到多个候选组合维度之前,多次对各训练样本的各话题属性数据进行随机抽取,将每次抽取的话题属性数据作为一个特征子集;
[0169]
确定模块,用于针对各训练样本的每个话题属性数据,确定包括该话题属性数据的第一特征子集,以及不包括该话题属性数据的第二特征子集;
[0170]
确定模块,还用于基于初始神经网络模型分别对第一特征子集和第二特征子集的识别结果,确定该话题属性数据的特征贡献;识别结果为预测的话题热度;
[0171]
删除模块,用于将多个训练样本中特征贡献小于预设贡献阈值的属性数据删除,得到多个更新后的训练样本;
[0172]
训练模块604,还用于利用多个更新后的训练样本和多个训练样本的训练标签,对初始神经网络模型进行训练,得到指定神经网络模型。
[0173]
在本公开的一些实施例中,其中,确定模块,具体用于:
[0174]
利用初始神经网络模型对第一特征子集进行识别,得到第一识别结果;
[0175]
利用初始神经网络对第二特征子集进行识别,得到第二识别结果;
[0176]
基于第一识别结果与第二识别结果之间的差值,确定该话题属性数据的特征贡献。
[0177]
在本公开的一些实施例中,该装置还可以包括更新模块,更新模块,用于:
[0178]
在利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,确定各组合属性数据的特征贡献,删除多个更新后的训练样本中,特征贡献小于预设贡献阈值的组合属性数据;利用多个
更新后的训练样本中保留的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题预测模型;或者,
[0179]
在利用多个训练样本的目标组合维度的组合属性数据,和多个训练样本的训练标签,训练指定神经网络模型,得到话题热度预测模型之后,按照预设的组合维度大小,对各目标组合维度进行组合,得到多个候选二次组合维度,并针对每个训练样本,生成该训练样本的每个候选二次组合维度的组合属性数据;基于每个训练样本的各候选二次组合维度的组合属性数据与该训练样本的训练标签之间的相关性,对各候选二次组合维度进行筛选,得到目标二次组合维度;利用多个更新后的训练样本的目标二次组合维度的组合属性数据,和多个训练样本的训练标签,训练话题热度预测模型,得到更新后的话题热度预测模型。
[0180]
在本公开的一些实施例中,其中,多维度包括多个第一维度和多个第二维度,第一维度为话题基本信息的维度,第二维度为话题搜索数据的维度;组合模块602,具体用于:
[0181]
将多个第一维度划分为多个分组;
[0182]
将多个第二维度分别加入每个分组;
[0183]
在每个分组内按照预设的组合维度大小,对各维度进行组合,将每个组合结果作为一个候选组合维度。
[0184]
基于相同的发明构思,对应于上述方法实施例,本公开实施例还提供了一种话题热度预测装置,如图7所示,该装置包括:获取模块701和预测模块702;
[0185]
获取模块701,用于获取待预测话题在连续多个历史周期内的多维度的话题属性数据;
[0186]
预测模块702,用于将获取模块701获取的属性数据输入话题热度预测模型,得到话题热度预测模型输出的多个历史周期的下一个周期内的待预测话题的话题热度;其中,话题热度预测模型为基于上述话题热度预测模型训练方法训练得到的模型。
[0187]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0188]
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0189]
如图8所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0190]
电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800
通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0191]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如话题热度预测模型训练方法和话题热度预测方法。例如,在一些实施例中,话题热度预测模型训练方法和话题热度预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的话题热度预测模型训练方法和话题热度预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行话题热度预测模型训练方法和话题热度预测方法。
[0192]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0193]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0194]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0195]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用
任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0196]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0197]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0198]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0199]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表