一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

构建GBDT模型的方法、装置及预测方法、装置与流程

2022-07-30 19:53:01 来源:中国专利 TAG:

构建gbdt模型的方法、装置及预测方法、装置
1.本技术是申请日为2019年6月18日、申请号为201910526406.6、题为“构建gbdt模型的方法、装置及预测方法、装置”的专利申请的分案申请。
技术领域
2.本发明涉及机器学习技术领域,尤其涉及一种构建梯度提升决策树gbdt模型的方法、装置以及利用该模型进行预测的方法、装置。


背景技术:

3.随着技术的不断进步,人工智能技术也逐步发展。其中,机器学习是人工智能研究发展到一定阶段的必然产物,其致力于通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,“经验”通常以“数据”形式存在,通过机器学习算法,可从数据中产生“模型”,也就是说,将经验数据提供给机器学习算法,就能基于这些经验数据产生模型,在面对新的情况时,模型会提供相应的判断,即,预测结果。不论是训练机器学习模型,还是利用训练好的机器学习模型进行预测,数据都需要转换为包括各种特征的机器学习样本。
4.目前,在现实应用中,数据的获取是相对容易的,而对数据的标记则需要花费较高的人力、物力等资源,因此往往在某个数据集中会存在少量已标记的数据,记作正样本,以及大量未标记的数据。对于这种情况,一般会选择使用pu学习(positive and unlabeled learning,简称pu learning)结合梯度提升决策树算法进行决策树模型的训练,例如选取gbdt算法来根据样本数据训练对应的梯度提升决策树的gbdt模型。
5.然而,在实际应用中,在通过训练基于pu学习的决策树模型时,基于样本数据中已标记的“正样本”较少,大部分为未标记的数据,因此,在训练梯度提升决策树模型时极为容易出现“过拟合”现象,其中,过拟合是指为了得到一致假设而使假设变得过度严格的现象,从而导致现有方式所训练出的决策树模型的准确率较低。


技术实现要素:

6.鉴于上述问题,本发明提出了一种构建梯度提升决策树gbdt模型的方法及装置,主要目的在于解决现有的所训练的决策树模型的准确率较低的问题,提高训练出的模型的准确率。
7.为达到上述目的,本发明主要提供如下技术方案:
8.一方面,本发明提供一种构建梯度提升决策树gbdt模型方法,具体包括:
9.获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
10.在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度
提升决策树gbdt模型。
11.可选的,所述基于所述样本数据集中的正样本数据构建一个正样本训练子集包括:
12.取所述样本数据集中的所有正样本数据构建一个正样本训练子集;
13.或者,
14.取所述样本数据集中的部分正样本数据构建一个正样本训练子集。
15.可选的,当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。
16.可选的,所述基于该训练集训练当前回归树包括:
17.通过所述当前回归树的训练集,及预设gbdt算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。
18.可选的,所述通过所述当前回归树的训练集,及预设gbdt算法进行迭代训练,得到对应每次迭代训练的每一棵回归树,包括:
19.从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设gbdt算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;
20.当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设gbdt算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。
21.可选的,在从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设gbdt算法,以及第二参数,训练第二回归树之前,所述方法还包括:
22.通过所述第一回归树对所述第二训练集进行预测,得到所述第二训练集对应的预测结果;
23.根据所述第二训练集的实际结果与所述第二训练集对应的预测结果,确定所述实际结果与预测结果的残差,并将所述残差确定为所述第二参数。
24.可选的,所述方法进一步包括:
25.基于所述样本数据集构建多个训练集;
26.从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择,训练得到多个候选模型,其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型;
27.对至少一个所述gbdt模型和所述多个候选模型分别进行评估,选出多个符合预设条件的模型;
28.集成所述多个符合预设条件的模型得到集成后的复合模型。
29.可选的,在对至少一个所述gbdt模型和所述多个候选模型分别进行评估之前,所述方法还包括:
30.对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集;
31.所述对至少一个所述gbdt模型和所述多个候选模型分别进行评估,选出多个符合预设条件的模型包括:
32.根据所述评估集对所述至少一个所述gbdt模型和所述多个候选模型分别进行评估,得到对应每个模型的评估结果,并从所述评估结果中选出多个符合预设条件的模型。
33.可选的,所述样本数据集包括:目标对象推荐时的目标对象数据、银行卡泄漏点检测时的被盗刷银行卡的交易数据、图像/文本分类时的图像/文本数据、恶意流量检测时的流量数据;
34.其中,当所述样本数据集为目标对象数据时,所述目标对象数据中已被推荐的目标对象数据为正样本数据,所述未被推荐的目标对象数据为负样本数据;当所述样本数据集为被盗刷银行卡的交易数据时,所述交易数据中已知泄露点的交易数据为正样本数据,未知泄漏点的交易数据为负样本数据;当所述样本数据集为图像/文本数据时,所述已分类的图像/文本数据为正样本数据,未分类的图像/文本数据为负样本数据;当所述样本数据集为流量数据时,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。
35.另一方面,本发明还提供了一种构建梯度提升决策树gbdt模型的装置,其中,该方法包括:
36.获取单元,用于获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
37.构建单元,用于在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型。
38.可选的,所述构建单元包括:
39.第一构建模块,用于取所述样本数据集中的所有正样本数据构建一个正样本训练子集,或者用于取所述样本数据集中的部分正样本数据构建一个正样本训练子集
40.可选的,所述构建单元包括:
41.第二构建模块,用于当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。
42.可选的,所述构建单元包括:
43.训练模块,用于通过所述当前回归树的训练集,及预设gbdt算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。
44.可选的,所述训练模块包括:
45.第一训练子模块,用于从所述样本数据集中获取第一训练集、并根据所述第一训
练集、预设gbdt算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;
46.第二训练子模块,用于当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设gbdt算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。
47.可选的,所述训练模块还包括:
48.预测子模块,用于通过所述第一回归树对所述第二训练集进行预测,得到所述第二训练集对应的预测结果;
49.确定子模块,用于根据所述第二训练集的实际结果与所述第二训练集对应的预测结果,确定所述实际结果与预测结果的残差,并将所述残差确定为所述第二参数。
50.可选的,所述装置还包括:
51.训练集构建单元,用于基于所述样本数据集构建多个训练集;
52.训练单元,用于从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择,训练得到多个候选模型,其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型;
53.评估单元,用于对至少一个所述gbdt模型和所述多个候选模型分别进行评估,选出多个符合预设条件的模型;
54.集成单元,用于集成所述多个符合预设条件的模型得到集成后的复合模型。
55.可选的,所述装置还包括:
56.评估集构建单元,用于对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集;
57.所述评估单元,具体用于根据所述评估集对所述至少一个所述gbdt模型和所述多个候选模型分别进行评估,得到对应每个模型的评估结果,并从所述评估结果中选出多个符合预设条件的模型。
58.可选的,所述样本数据集包括:目标对象推荐时的目标对象数据、银行卡泄漏点检测时的被盗刷银行卡的交易数据、图像/文本分类时的图像/文本数据、恶意流量检测时的流量数据;
59.其中,当所述样本数据集为目标对象数据时,所述目标对象数据中已被推荐的目标对象数据为正样本数据,所述未被推荐的目标对象数据为负样本数据;当所述样本数据集为被盗刷银行卡的交易数据时,所述交易数据中已知泄露点的交易数据为正样本数据,未知泄漏点的交易数据为负样本数据;当所述样本数据集为图像/文本数据时,所述已分类的图像/文本数据为正样本数据,未分类的图像/文本数据为负样本数据;当所述样本数据集为流量数据时,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。
60.另一方面,本发明提供一种实现目标对象推荐的方法,包括:
61.获取待预测的目标对象数据;
62.根据如第一方面中任一项所述的方法,得到所述梯度提升决策树gbdt模型;
63.利用所得到的梯度提升决策树gbdt模型执行目标对象推荐任务;
64.其中,所述目标对象为通过互联网提供的商品或服务。
65.另一方面,本发明提供一种实现银行卡泄露点检测的方法,包括:
66.获取待检测泄漏点的被盗刷银行卡的交易数据;
67.根据如第一方面中任一项所述的方法,得到梯度提升决策树gbdt模型;
68.利用所得到的梯度提升决策树gbdt模型执行银行卡泄露点检测任务;
69.其中,所述交易数据集中包含有每一个银行卡的每次交易时的交易时间及交易时的终端设备标识。
70.另一方面,本发明实施例提供了一种实现图像/文本分类的方法,包括:
71.获取待预测的图像/文本数据;
72.根据如第一方面中任一项所述的方法,得到梯度提升决策树gbdt模型;
73.利用所得到的梯度提升决策树gbdt模型执行图像/文本分类任务。
74.另一方面,本发明实施例还提供了一种恶意流量检测的方法,包括:
75.获取待检测的流量数据;
76.根据所述如第一方面中任一项所述的方法,得到梯度提升决策树gbdt模型;
77.利用所得到的梯度提升决策树gbdt模型对所述待检测的流量数据执行检测任务。
78.另一方面,本发明提供一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现上述任一项所述方法。
79.另一方面,本发明提供一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述任一项所述方法。
80.借由上述技术方案,本发明提供的一种构建梯度提升决策树gbdt模型的方法及装置,能够获取样本数据集,然后在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型,相对现有技术,本发明能够通过样本数据集中获取的正样本训练子集及负样本训练子集来训练每一颗gbdt模型的回归树,由于用于训练每一颗回归树的当前回归树训练集都是从样本训练集抽取得到的,从而能够保证多得到多个树之间的差异性,避免了因现有的训练方式所导致的过拟合的问题,继而提高了训练得到的梯度提升决策树gbdt模型的准确性。
81.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
82.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
83.图1示出了本发明实施例提出的一种构建梯度提升决策树gbdt模型方法的流程图;
84.图2示出了本发明实施例提出的另一种构建梯度提升决策树gbdt模型方法的流程图;
85.图3示出了本发明实施例提出的一种构建梯度提升决策树gbdt模型装置的组成框图;
86.图4示出了本发明实施例提出的另一种构建梯度提升决策树gbdt模型装置的组成框图;
87.图5示出了本发明实施例提出的一种实现目标对象推荐的系统的组成框图;
88.图6示出了本发明实施例提出的一种实现银行卡泄露点检测的系统的组成框图;
89.图7示出了本发明实施例提出的一种实现图像/文本分类的系统的组成框图;
90.图8示出了本发明实施例提出的一种实现恶意流量检测的系统的组成框图。
具体实施方式
91.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
92.本发明实施例提供了一种构建梯度提升决策树gbdt模型方法,该方法可应用于诸如银行卡漏点检测、商品服务的推荐、图像或文本等分类以及恶意流量的检测过程中,上述场景中,已标记的正样本数据为一小部分,样本数据中的大部分为未标记的数据。本发明实施例所述的方法旨在通过构建一种准确度较高的梯度提升决策树gbdt模型,解决现有方式所训练出的模型因多拟合而导致的准确度较低的问题,本方法具体步骤如图1所示,包括:
93.101、获取样本数据集。
94.其中,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据。在很多实际情况中,数据很容易获得,但数据的标记过程需要花费高昂的人力物力资源。例如,在恶意流量检测、银行泄漏点检测、音乐推荐等过程中,往往只能获得少量的正样本数据(已知的恶意流量、泄露点、用户喜欢的音乐)以及大量的未标记样本数据。在此情况下,通常可以选择pu学习来进行模型训练,以便根据训练得到的模型对上述场景的数据进行分析和自动分类。
95.其中pu(positive and unlabeled learning,简称pu learning)称作正例与未标记样本学习,即在只有正样本数据和未标记样本数据的情况下来训练分类模型。以往的研究通常从未标记样本中选取负类样本训练分类器,然而,在只含有正样本数据情况下,模型以及参数都很难选择出可靠的结果。
96.基于此,针对现有技术存在的问题,在本发明实施例中,首先可以根据本步骤的方
法,进行样本数据集的获取,其中该样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据。例如,在实际应用中,当所执行的任务为对恶意流量进行检测时,则所述样本数据集中的正样本数据可以理解为已知的恶意流量数据,而未标记样本数据则可以理解为未进行检测过的流量数据。
97.102、在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型。
98.其中gbdt gbdt(gradient boosting decision tree)又叫mart(multiple additive regression tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终预测结果,该算法在被提出之初就和svm一起被认为是泛化能力较强的算法,近些年更因为被用于搜索排序的机器学习模型而引起大家关注。
99.因此,基于gbdt算法的特点,在本发明实施例中,在训练梯度提升决策树gbdt模型时,是通过训练集进行每一颗回归树进行训练的。具体的,基于现有的决策树模型在训练过程中往往会因训练时的样本数量较少而存在过拟合的问题,在此,可以首先将样本数据集中的正样本数据、负样本数据针对每一颗要训练的回归树单独构建一个对应当前回归树的训练集,其中对应当前回归树的训练集可以是用正样本数据构建一个正样本训练子集,并从未标记的样本数据中进行采样操作,得到对应的一个负样本训练子集,并以该正样本训练子集及负样本训练子集组合得到需要训练的这棵回归树所需的训练集,即当前回归树的训练集。
100.在确定了当前回归树的训练集后,则可以通过gbdt算法训练对应的树,以此依次进行迭代训练,得到对应所述样本训练集的全部回归树,并将上述回归树进行组合得到对应该样本训练集的梯度提神决策树gbdt模型。
101.为了更好的对本发明实施例提供的构建梯度提升决策树gbdt模型的方法进行说明,在此还提供了另一实施例,用以针对上述实施例中各步骤进行细化和扩展,具体的,如图2所示,包括:
102.201、获取样本数据集。
103.其中,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据。
104.具体的,在实际的应用中,所述样本数据集可以包括:目标对象推荐场景下的目标对象数据;银行卡泄漏点检测时场景下的被盗刷银行卡的交易数据;图像/文本分类场景下的图像/文本数据;以及,在恶意流量检测场景下的流量数据。
105.其中,基于不同的实际应用场景,每种样本数据集中的正样本数据集未标记样本数据也随之变化:
106.例如,当所述样本数据集为目标对象数据时,所述目标对象数据中已被推荐的目标对象数据为正样本数据,所述未被推荐的目标对象数据为负样本数据;
107.当所述样本数据集为被盗刷银行卡的交易数据时,所述交易数据中已知泄露点的交易数据为正样本数据,未知泄漏点的交易数据为负样本数据;
108.当所述样本数据集为图像/文本数据时,所述已分类的图像/文本数据为正样本数据,未分类的图像/文本数据为负样本数据;
109.当所述样本数据集为流量数据时,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。
110.202、在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型。
111.具体的,在构建正样本训练子集时,即基于所述样本数据集中的正样本数据构建一个正样本训练子集的过程中,其构建过程可以包括:取所述样本数据集中的所有正样本数据构建一个正样本训练子集,或者,取所述样本数据集中的部分正样本数据构建一个正样本训练子集。同时,构建一个负样本子集的过程中,当从未标记样本数据进行采样构建一个负样本训练子集时,其所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。例如,当正样本训练子集包含1000条数据时,则负样本训练子集的数量则可以为1000条至2000条数据。这样,可以确保在训练每一个gbdt模型的回归树时,都能有包含不同样本数据的训练集来进行训练,从而确保了每一颗树的差异性。并且,负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍时,相较于1倍以下而言,可以确保在训练集中有足够多的样本数据,从而能够保所训练出的模型的准确性较高,同时,相较于2倍以上而言,此时样本数量较多,会导致模型的训练耗时较长,因此,选取负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍时,能够在兼顾模型准确率的同时较少模型训练过程中的时间消耗,提高模型训练的效率。需要说明的是,在上述确定训练集的过程中,在按照上述方式选取正负样本的训练子集时,其执行方法是当正负样本比例未知的业务场景下执行的,而另一种情况,还可以当在具体的实施场景中,在已知样本数据中正负样本比例时,或者是基于历史数据能够确定通常整个样本数据中正负样本之间的比例时,则在选取负样本的过程中,可以通过该已知的正负样本比例来确定正样本训练子集与负样子训练子集,即当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍。
112.当确定了当前回归树的训练集后,则通过所述当前回归树的训练集,及预设gbdt算法进行迭代训练,得到对应每次迭代训练所对应的每一棵回归树。具体的,在迭代训练每一颗回归树时,其执行方式可以按照下述方式进行:
113.首先,进行第一回归树的训练。具体为,从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设gbdt算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;
114.然后,根据第一回归树训练后续其他的回归树。具体为,当训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设gbdt算法,以及第二参数,训练第二回归树。
115.在此,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集
均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。即,当训练第一回归树时,可以先从样本训练集中计算实际结果的平均值,并将该平均值确定为第一参数,然后根据该第一参数来训练对应的第一棵树,即第一回归树。
116.在训练完第一回归树后,可以由该第一回归树进行第二参数的确定,具体为:首先,通过所述第一回归树对所述第二训练集进行预测,得到所述第二训练集对应的预测结果;然后,根据所述第二训练集的实际结果与所述第二训练集对应的预测结果,确定所述实际结果与预测结果的残差,并将所述残差确定为所述第二参数。在本发明实施例中,所述第一回归树可以理解为根回归树,当训练出该第一回归树后,则可以依次迭代训练后续的多个第二回归树,其中,每次迭代训练时的第二参数均是由前一次迭代训练得到的回归树对该次迭代训练时的训练集的预测结果和该训练集的实际结果的进行差值计算得到残差。
117.例如,当样本训练集中样本数据a,样本数据b及样本数据c三个的实际结果分别为6、11、4时,则根据本步骤的方法可以在训练第一回归树时确定其第一参数为三个实际结果的平均值为7,这样在训练第一回归树时可以根据该第一参数7进行训练,当确定了第一回归树后,可以通过第一回归树对样本数据a进行预测,当预测结果为5时,由于样本数据a的实际结果为6,则可以将实际结果与预测结果之间进行差值计算,得到残差1,并将该残差1作为第二参数用作第二回归树的训练过程。
118.203、基于所述样本数据集构建多个训练集。
119.基于实际的pu学习的过程中,基于样本数据中正样本数据是少量的,为了得到更为准确的模型,还可以通过构建基于不同算法的模型对已得到的gbdt模型进行补充。并且,通过不同的算法及训练集能够训练出不同的模型,因此,在本步骤中可以通过样本数据集构建用于后续其他模型训练时的训练集。
120.具体的,在构建过个训练集时可以按照下述方式进行;首先基于所述样本数据集中的至少部分正样本数据构建一个正样本训练子集,并对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集。然后再将所述正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。当然,在构建训练集中正样本训练子集的过程中,可以如上述所述的构建一个正样本训练集,还可以从样本数据集中抽取部分正样本来进行训练集的构建,具体的可以为:首先,基于所述样本数据集中的至少部分正样本数据构建多个正样本训练子集,并对所述样本数据集中的未标记样本数据进行多次采样操作构建多个负样本训练子集。然后,再将每个正样本训练子集与所述多个负样本训练子集分别进行组合得到多个训练集。
121.204、从机器学习算法的集合、超参数组合的集合以及所述多个训练集中分别进行选择,训练得到多个候选模型。
122.具体的,其机器算法可以从预设的机器算法集合中选取,超参数则可以由超参数组合的集合中获得,在此,所述候选模型可以是由一种机器学习算法,结合一组选定的超参数以及对应的多个训练集中的一个训练集所确定的。其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型。
123.例如,机器学习算法集合为:[算法1,算法2,算法3],超参数组合的集合为:[超参数组合1,超参数组合2,
……
,超参数组合10],训练集包括:训练集1,训练集2,
……
,训练集
8。则选择“算法1 超参数组合1 训练集1”可确定一个候选决策树模型,选择“算法2 超参数组合1 训练集1”可确定另一个候选决策树模型,选择“算法1 超参数组合2 训练集1”可确定又一个候选决策树模型,选择“算法1 超参数组合1 训练集2”可确定再一个候选决策树模型,以此类推。
[0124]
205、对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集。
[0125]
基于前述步骤得到了多个候选模型,对于这些模型而言,其准确性是不同的,因此,在本发明实施例中还需要对这些候选模型进行评估,以便得到相对准确的模型,因此,在所述基于所述样本数据集构造评估集时,还可以具体为:对所述样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集。此外,为了进一步的提高评估结果的准确性,还可以在本步骤中构造多个评估集,以便后续利用多个评估集对每个候选模型进行多次评估,并按照多次评估结果确定综合评估效果,因此,基于所述样本数据集构造评估集时还可以具体为:基于所述样本数据集构建多个评估集,其中每个评估集中包括正样本数据以及作为负样本数据的未标记样本数据。
[0126]
206、根据所述评估集对所述至少一个所述gbdt模型和所述多个候选模型分别进行评估,得到对应每个模型的评估结果,并从所述评估结果中选出多个符合预设条件的模型。
[0127]
其中,当构建的评估集为多个评估集时,则根据评估结果中选出符合预设条件的模型过程,可以按照下述方式进行:首先,对于每个候选模型,根据所述多个评估集和预设评估条件分别对该候选模型进行评估,得到多个评估结果。然后,对每个候选模型的多个评估结果进行融合,并将融合了所述多个评估结果得到该候选模型对应的最终评估结果作为实际的评估结果。
[0128]
需要说明的是,基于不同的预设评估条件对评估方式及评估结果存在直接影响,因此对于评估结果而言,基于不同的预设评估条件其对应的评估结果也是不同的,例如:当所述预设评估条件为最大间隔法时,所述对应每个候选模型的评估结果是每个候选模型在评估集上的预测结果的分类间隔。而当所述预设评估条件为计算auc值的方法时,所述对应每个候选模型的评估结果是每个候选模型在评估集上的auc值。其中,auc值可以理解为一个概率值,当你随机挑选一个正样本以及负样本时,当前的分类算法根据计算得到的分数值将这个正样本排在负样本前面的概率就是auc值,auc值越大,说明当前分类模型越有可能将正样本排在负样本前面,从而能够更好地分类,从而确定模型的分类效果更为准确。
[0129]
207、集成所述多个符合预设条件的模型得到集成后的复合模型。
[0130]
基于在选择评估结果符合预设条件的候选模型时所得到符合预设条件的候选模型往往是多个,并且上述候选模型的准确性也不是相同的,为了进一步确保得到的模型的准确性,对于这种情况,需要将上述模型进行集成,其中,在集成时其过程可以为:按照对应的评估结果为每个所选择的候选模型分配对应的权重值,并根据权重值对所选择的候选模型进行集成。
[0131]
这样,能够确保通过对符合预测条件的模型进行集成,得到最终的符合模型,能够
在得到的gbdt模型的基础上进一步的改善模型的过拟合问题,从而确保了得到的模型能够具有较好的预测准确性。
[0132]
进一步的,作为上述构建梯度提升决策树gbdt模型的方法不仅仅在于获取一个较为准确的模型,其实际意义还在于实际场景的应用以解决实际问题,例如,目标对象推荐、银行卡泄露点检测、图像/文本分类以及致恶意流量检测的过程中,因此,在结合上述方法来解决上述问题时的过程可以如下述示例所示。
[0133]
首先,获取待预测数据,其中,该待预测数据可以包括:待分类的图像/文本数据、待检测泄漏点的盗刷银行卡的交易数据、待预测的目标对象数据、以及待检测的流量数据。具体的,根据不同的应用场景,其待预测数据是不同的。
[0134]
然后,按照如前述实施例任一项所述的方法,进行梯度提升决策树gbdt模型的训练,得到梯度提升决策树gbdt模型。具体的,其执行过程可以是:获取样本数据集,然后在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型。例如,当本方法执行在恶意流量的场景中时,则本步骤中,获取的样本数据集则为恶意流量检测时的流量数据,其中,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。
[0135]
最后,利用所得到的梯度提升决策树gbdt模型执行预测任务,其中,该预测任务与前述步骤中的所获取的待预测数据相对应。例如,当所述待预测数据为恶意流量检测场景下的待检测流量数据时,则最后根据梯度提升决策树gbdt模型执行的预测任务即为恶意流量检测任务。
[0136]
此外,在上述示例中,还可以应用在对目标对象推荐的场景、此外,作为对上述构建梯度提升决策树gbdt模型方法的实现,本发明实施例提供了一种构建梯度提升决策树gbdt模型装置,该装置主要用于改善过拟合导致的模型准确性较低的问题,提高所训练出的gbdt模型的准确性。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
[0137]
获取单元31,可以用于获取样本数据集,所述样本数据集中包括带正标签的正样本数据及无标签的未标记样本数据;
[0138]
构建单元32,可以用于在训练gbdt模型的每一棵回归树时,基于所述获取单元31获取的样本数据集中的正样本数据构建一个正样本训练子集,对所述获取单元31获取的样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型。
[0139]
进一步的,如图4所示,所述构建单元32包括:
[0140]
第一构建模块321,可以用于取所述样本数据集中的所有正样本数据构建一个正样本训练子集,或者可以用于取所述样本数据集中的部分正样本数据构建一个正样本训练子集。
[0141]
进一步的,如图4所示,所述构建单元32包括:
[0142]
第二构建模块322,可以用于当正负样本比例已知的业务场景下,预估负样本数据量与正样本数据量比例为x时,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的x倍;当正负样本比例未知的业务场景下,则令所述负样本训练子集的数据量是所述正样本训练子集的数据量的1至2倍。
[0143]
进一步的,如图4所示,所述构建单元32包括:
[0144]
训练模块323,可以用于通过所述第一构建模块及第二构建模块得到的所述当前回归树的训练集,及预设gbdt算法进行迭代训练,得到对应每次迭代训练的每一棵回归树。
[0145]
进一步的,如图4所示,所述训练模块323包括:
[0146]
第一训练子模块3231,可以用于从所述样本数据集中获取第一训练集、并根据所述第一训练集、预设gbdt算法,以及第一参数,训练第一回归树,所述第一参数是为样本数据集中的全部样本数据的实际结果的均值;
[0147]
第二训练子模块3232,可以用于当第一训练子模块3231训练得到所述第一回归树后,从所述样本训练集中选取第二训练集,并根据所述第二训练集、预设gbdt算法,以及第二参数,训练第二回归树,所述第二参数是通过所述第二训练集中的样本数据根据所述第一回归树确定的预测结果与第二训练集中样本数据的实际结果确定的,所述第一训练集、第二训练集均是由一个正样本训练子集及一个负样本训练子集构成的,所述第一训练集与所述第二训练集所包含的负样本训练子集不同。
[0148]
进一步的,如图4所示,所述训练模块323还包括:
[0149]
预测子模块3233,可以用于通过所述第一训练子模块3231得到的第一回归树对所述第二训练集进行预测,得到所述第二训练集对应的预测结果;
[0150]
确定子模块3234,可以用于根据所述第二训练集的实际结果与所述预测子模块3233对第二训练集对应的预测结果,确定所述实际结果与预测结果的残差,并将所述残差确定为所述第二参数,以便所述第二训练子模块3232根据所述第二参数训练第二回归树。
[0151]
进一步的,如图4所示,所述装置还包括:
[0152]
训练集构建单元33,可以用于基于所述获取单元31获取的样本数据集构建多个训练集;
[0153]
训练单元34,可以用于从机器学习算法的集合、超参数组合的集合以及所述训练集构建单元33得到的多个训练集中分别进行选择,训练得到多个候选模型,其中,一种机器学习算法、一组超参数和一个训练集确定一个候选模型;
[0154]
评估单元35,可以用于对构建单元32构建的至少一个所述gbdt模型和所述训练单元34训练的多个候选模型分别进行评估,选出多个符合预设条件的模型;
[0155]
集成单元36,可以用于集成所述评估单元35评估后多个符合预设条件的模型得到集成后的复合模型。
[0156]
进一步的,如图4所示,所述装置还包括:
[0157]
评估集构建单元37,可以用于对所述获取单元31获取的样本数据集中的正样本数据进行采样构建正样本评估子集,对所述样本数据集中的未标记样本数据进行采样构建负样本评估子集,将正样本评估子集和负样本评估子集组合得到评估集;
[0158]
所述评估单元35,可以具体用于根据所述评估集构建单元37得到的评估集对所述
至少一个所述gbdt模型和所述多个候选模型分别进行评估,得到对应每个模型的评估结果,并从所述评估结果中选出多个符合预设条件的模型。
[0159]
进一步的,如图4所示,所述样本数据集包括:目标对象推荐时的目标对象数据、银行卡泄漏点检测时的被盗刷银行卡的交易数据、图像/文本分类时的图像/文本数据、恶意流量检测时的流量数据;
[0160]
其中,当所述样本数据集为目标对象数据时,所述目标对象数据中已被推荐的目标对象数据为正样本数据,所述未被推荐的目标对象数据为负样本数据;当所述样本数据集为被盗刷银行卡的交易数据时,所述交易数据中已知泄露点的交易数据为正样本数据,未知泄漏点的交易数据为负样本数据;当所述样本数据集为图像/文本数据时,所述已分类的图像/文本数据为正样本数据,未分类的图像/文本数据为负样本数据;当所述样本数据集为流量数据时,所述流量数据中的已知恶意流量数据为正样本数据,未知的流量数据为负样本数据。
[0161]
基于前述实施例所述的方法和装置,结合具体的应用场景,在诸如音乐推荐、商品推荐等目标对象推荐的过程中,本发明实施例还提供了一种实现目标对象推荐的系统,用以对实现目标对象的推荐功能的实现,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的,如图5所示,包括:
[0162]
目标对象数据获取单元51,可以用于获取待预测的目标对象数据;
[0163]
构建梯度提升决策树gbdt模型的装置52,可以用于基于样本数据集,得到梯度提升决策树gbdt模型,其中,训练该梯度提升决策树gbdt模型的样本数据集是关于目标对象的数据集,其中,被用户选择过的目标对象的数据为正样本数据,未被用户选择过的目标对象的数据为未标记样本数据;在本发明的实施例中,构建梯度提升决策树gbdt模型的装置52具体可以是如图3或图4所示;
[0164]
执行单元53,可以用于利用构建梯度提升决策树gbdt模型的装置52所得到的梯度提升决策树gbdt模型执行目标对象推荐任务;其中,所述目标对象为通过互联网提供的商品或服务。
[0165]
另外,结合具体的应用场景,在银行卡泄漏点检测的过程中,本发明实施例还提供了一种实现银行卡泄露点检测的系统,用以对实现银行卡交易数据中进行泄漏点的检测功能,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的,如图6所示,包括:
[0166]
交易数据获取单元61,可以用于获取待检测泄漏点的被盗刷银行卡的交易数据;
[0167]
构建梯度提升决策树gbdt模型的装置62,用于基于样本数据集,得到梯度提升决策树gbdt模型,其中,训练该梯度提升决策树gbdt模型的样本数据集是被盗刷的银行卡的交易数据集,其中,已标记泄露点的被盗刷银行卡的交易数据为正样本数据,未标记泄露点的被盗刷银行卡的交易数据为未标记样本数据;在本发明的实施例中,构建梯度提升决策树gbdt模型的装置62具体可以是如图3或图4所示;
[0168]
执行单元63,可以用于利用构建梯度提升决策树gbdt模型的装置62所得到的梯度提升决策树gbdt模型执行银行卡泄露点检测任务;
[0169]
其中,所述交易数据集中包含有每一个银行卡的每次交易时的交易时间及交易时的终端设备标识。
[0170]
此外,结合具体的应用场景,在文本、图像进行分类的过程中,本发明实施例还提供了一种实现图像/文本分类的系统,用以实现对文本、图像进行分类的功能,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的,如图7所示,包括:
[0171]
图像/文本数据获取单元71,可以用于获取待预测的图像/文本数据;
[0172]
构建梯度提升决策树gbdt模型的装置72,用于基于样本数据集,得到梯度提升决策树gbdt模型,其中,训练该梯度提升决策树gbdt模型的样本数据集是图像/文本数据集,其中,已有分类标记的图像/文本数据为正样本数据,无分类标记的图像/文本数据为未标记样本数据;在本发明的实施例中,构建梯度提升决策树gbdt模型的装置72具体可以是如图3或图4所示;
[0173]
执行单元73,可以用于利用构建梯度提升决策树gbdt模型的装置72所得到的梯度提升决策树gbdt模型执行图像/文本分类任务。
[0174]
此外,结合具体的应用场景,在恶意流量检测场景中,本发明实施例还提供了一种实现恶意流量检测的系统,用以对从未检测的流量数据中检测恶意流量,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的系统能够对应实现前述方法实施例中的全部内容。具体的,如图8所示,包括:
[0175]
流量数据获取单元81,可以用于获取待检测的基因数据;
[0176]
构建梯度提升决策树gbdt模型的装置82,用于基于样本数据集,得到梯度提升决策树gbdt模型,其中,训练该梯度提升决策树gbdt模型的样本数据集是流量数据集,其中,已知的恶意流量数据为正样本数据,未检测的流量数据为未标记样本数据;在本发明的实施例中,构建梯度提升决策树gbdt模型的装置82具体可以是如图3或图4所示;
[0177]
执行单元83,可以用于利用构建梯度提升决策树gbdt模型的装置82所得到的梯度提升决策树gbdt模型执行致病基因的检测任务。
[0178]
进一步的,本发明实施例还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被一个或多个计算装置执行时实现上述的构建梯度提升决策树gbdt模型方法。
[0179]
另外,本发明实施例还提供了一种包括一个或多个计算装置和一个或多个存储装置的系统,所述一个或多个存储装置上记录有计算机程序,所述计算机程序在被所述一个或多个计算装置执行时使得所述一个或多个计算装置实现上述的构建梯度提升决策树gbdt模型方法。
[0180]
综上所述,本发明实施例提出的一种构建梯度提升决策树gbdt模型的方法及装置,能够获取样本数据集,然后在训练gbdt模型的每一棵回归树时,基于所述样本数据集中的正样本数据构建一个正样本训练子集,对所述样本数据集中的未标记样本数据进行采样构建一个负样本训练子集,将所述正样本训练子集与所述多个负样本训练子集进行组合得到当前回归树的训练集,并基于所述当前回归树的训练集训练当前回归树,再根据所述每一颗回归树构建梯度提升决策树gbdt模型,相对现有技术,本发明能够通过样本数据集中获取的正样本训练子集及负样本训练子集来训练每一颗gbdt模型的回归树,由于用于训练
每一颗回归树的当前回归树训练集都是从样本训练集抽取得到的,从而能够保证多得到多个树之间的差异性,避免了因现有的训练方式所导致的过拟合的问题,继而提高了训练得到的梯度提升决策树gbdt模型的准确性。
[0181]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0182]
可以理解的是,上述的方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
[0183]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0184]
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0185]
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0186]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0187]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0188]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0189]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0190]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0191]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/
或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0192]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0193]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0194]
本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0195]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献