一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于隐私保护的预测模型更新方法及装置与流程

2021-11-24 21:08:00 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,特别涉及基于隐私保护的预测模型更新方法及装置、预测方法及装置、计算设备和计算机可读存储介质。


背景技术:

2.随着计算机技术的不断发展,网购、网约车、网上银行、社交网络等互联网服务全方位地从虚拟数据世界介入到现实生活中。人们已经习惯为了获取便利高效的服务,录入自己的姓名、电话、住址、银行卡号等隐私信息。伴随着生物科技的发展,指纹、面容等个人生物信息也被作为特殊密钥,用于消费支付和解锁登录等。人们享受着大数据时代前所未有的便捷,但是自己在网络中的所有活动都被数字化留存,这些数字信息借由机器和技术的力量,有将公众变成“透明人”的风险。
3.在个人隐私保护越来越受重视的现在,数据的遗忘权也变得格外重要。例如,在某网络购物平台中,平台方为了提高营销的质量,使用了机器学习技术为用户个性化推荐可能感兴趣的商品。为了达到较好的效果,通常需要采集用户的身份信息、网络连接信息、地理位置、购物记录等隐私数据训练机器学习模型。使用此类数据需要得到用户的授权,用户也可以随时取消授权。当用户取消授权时,由已撤销授权的数据训练出的模型已不可再使用,因此,模型需要重新训练以避开未经授权的数据访问。现有技术中,若果用户需要删除自己的数据,整个模型都需要使用所有用户的数据集重新训练,计算成本巨大,其时间复杂度完全不可接受。因此亟需一种有效的方案以解决上述问题。


技术实现要素:

4.有鉴于此,本技术实施例提供了基于隐私保护的预测模型更新方法及装置、预测方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
5.根据本技术实施例的第一方面,提供了一种基于隐私保护的预测模型更新方法,包括:
6.获取预测模型,所述预测模型是利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到,n为大于或等于2的正整数;
7.在接收到第i个子样本数据集的样本数据撤回请求的情况下,删除所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据,其中,i为大于或等于1、且小于或等于n的正整数;
8.根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型,所述第一中间预测模型为根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
9.根据本技术实施例的第二方面,提供了一种预测方法,包括:
10.接收待预测目标对象标识;
11.将所述待预测目标对象标识输入至目标预测模型,获得所述待预测目标对象标识
对应的预测价值,所述目标预测模型是通过上述的基于隐私保护的预测模型更新方法处理得到的。
12.根据本技术实施例的第三方面,提供了一种基于隐私保护的预测模型更新装置,包括:
13.获取模块,被配置为获取预测模型,所述预测模型是利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到,n为大于或等于2的正整数;
14.删除模块,被配置为在接收到第i个子样本数据集的样本数据撤回请求的情况下,删除所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据,其中,i为大于或等于1、且小于或等于n的正整数;
15.训练模块,被配置为根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型,所述第一中间预测模型为根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
16.根据本技术实施例的第四方面,提供了一种基于隐私保护的预测模型更新装置,包括:
17.接收模块,被配置为接收待预测目标对象标识;
18.预测模块,被配置为将所述待预测目标对象标识输入至目标预测模型,获得所述待预测目标对象标识对应的预测价值,所述目标预测模型是通过上述的基于隐私保护的预测模型更新方法处理得到的。
19.根据本技术实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述基于隐私保护的预测模型更新方法或所述预测方法的步骤。
20.根据本技术实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述基于隐私保护的预测模型更新方法或所述预测方法的步骤。
21.本技术实施例中,通过获取预测模型,所述预测模型是利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到,n为大于或等于2的正整数;在接收到第i个子样本数据集的样本数据撤回请求的情况下,删除所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据,其中,i为大于或等于1、且小于或等于n的正整数;根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型,所述第一中间预测模型为根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练得到。如此,将样本数据分为多个子样本数据,对第一初始预测模型进行训练,在保护用户隐私的同时,还提供了一种针对样本数据撤回的模型训练方法。同时,在样本数据撤销时,无需对所有的样本数据进行训练,只需从更新的子样本数据集集成训练,极大程度上降低了数据处理量和时间成本,提高预测模型的更新速度,保证了预测模型的有效性。
附图说明
22.图1是本技术实施例提供的计算设备的结构框图;
23.图2是本技术实施例提供的基于隐私保护的预测模型更新方法的流程图;
24.图3a是本技术实施例提供的机器学习的示意图;
25.图3b是本技术实施例提供的传统训练预测模型过程的示意图;
26.图3c是本技术实施例提供的分组训练预测模型过程的示意图;
27.图4是本技术实施例提供的预测方法的流程图;
28.图5是本技术实施例提供的应用于商品推荐场景中的流程图;
29.图6是本技术实施例提供的基于隐私保护的预测模型更新装置的结构示意图
30.图7是本技术实施例提供的预测装置的结构示意图。
具体实施方式
31.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本技术内涵的情况下做类似推广,因此本技术不受下面公开的具体实施的限制。
32.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
33.应当理解,尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本技术一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
34.在本技术中,提供了基于隐私保护的预测模型更新方法及装置、预测方法及装置、计算设备和计算机可读存储介质,以下分别结合本技术提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。
35.图1示出了根据本技术一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
36.计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi

max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
37.在本技术的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本技术范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
38.计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计
算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
39.其中,处理器120可以执行下述基于隐私保护的预测模型更新方法或预测方法中的步骤。
40.图2示出了根据本技术一实施例的基于隐私保护的预测模型更新方法的流程图,包括步骤202至步骤206。
41.步骤202:获取预测模型,所述预测模型是利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到,n为大于或等于2的正整数。
42.具体的,预测模型是指用于预测的、用数学语言或公式所描述的事物间的数量关系;子样本数据集是指将样本数据集的一个子集,n个子样本数据集构成完整的样本数据集;第一初始预测模型是指未经过训练的、最原始的预测模型,预测模型可以是推荐模型、评价模型,可以是其他用于预测的模型,也可以是对未知数据进行预测的算法,本技术对此不做限定。
43.机器学习是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。参见图3a,图3a示出了本技术实施例提供的机器学习的示意图:机器学习的主要流程为:制作数据集、训练模型、预测阶段。其中,制作数据集通过从数据源收集并整理数据形成数据集;训练模型通过将制作好的数据集输入至初始模型进行训练,从而获得目标模型;预测阶段通过将应用数据集、即预测数据集输入至目标模型,使目标模型进行预测并输出应用结果,也即预测结果。
44.例如,某购物网站需要给用户推荐用户感兴趣的商品,可以根据大量用户的购物记录与各种个人数据制作数据集,根据一定的机器学习算法(初始模型)训练得到目标模型。当需要给某个用户推荐商品时,把该用户以及商品的信息作为应用数据集输入到目标模型,目标模型会给出相应到应用结果,该应用结果即推荐的商品。
45.实际应用中,对预测模型进行更新,首先需要获取已经训练好的预测模型。该预测模型是通过将样本数据集分为至少两个子样本数据集后,基于划分后的子样本数据集对第一初始预测模型进行参数继承训练后得到的。如此,为后续对模型进行更新做好了准备工作,提高了更新预测模型的效率。
46.在大数据机器学习的背景下,用户可以撤销自己已经授权过的数据,此时需要对整个模型进行重新训练以符合隐私保护的需求。为了在部分数据“遗忘”的情况下,保护用户隐私,同时提高重新对模型训练的效率,获取预测模型的具体实现过程可以如下:
47.接收样本数据集,将所述样本数据集进行分组,得到n个子样本数据集;
48.从第1个子样本数据集开始,依次基于当前子样本数据集,对当前初始预测模型进行训练,直至第n个子样本数据集,训练得到预测模型,其中,所述第1个子样本数据集对应训练的当前初始预测模型为预先设定的第一初始预测模型,除所述第1个子样本数据集以外的其他样本数据集对应训练的当前初始预测模型为上一个子样本数据集训练得到的模型。
49.具体的,样本数据集是指用来训练第一初始预测模型进行得到预测模型的样本。
50.参见图3b,图3b示出了本技术实施例提供的传统训练预测模型过程的示意图:在传统的预测模型训练方法中,只需要将样本数据集输入至第一初始预测模型中进行训练,如式1所示,即可得到训练后的预测模型。
51.m=f(d)
ꢀꢀꢀꢀ
(式1)
52.其中,d为样本数据集,m为训练得到的预测模型,f为用于训练的fit函数,也即第一初始预测模型。
53.例如,在最简单的推荐系统示例场景下,服务提供商收集了其若干用户对商品的打分信息,服务提供商通过该打分信息采用传统的预测模型训练方法训练出预测模型,通过该预测模型预测出新用户或者新商品的打分信息以进行推荐。在用户授权的基础上,服务提供商可以使用各用户授权的数据进行训练。但是,该打分信息包含了不同用户对不同商品的喜好信息,属于其个人隐私。当用户不愿再授权时,即用户删除自己的数据,需要对整个模型进行重新训练以符合隐私保护的需求,这样方式不仅计算成本巨大、时间耗费长,复杂度也极大。
54.实际应用中,参见图3c,图3c示出了本技术实施例提供的分组训练预测模型过程的示意图。为了避免上述缺陷,在接收到样本数据集的基础上,将样本数据集进行分组,分为至少两个子样本数据集,即n个样本数据集。此时,将第1个样本数据集输入至第一初始预测模型,以便对第一初始预测模型进行训练得到第二初始预测模,保存第二初始预测模型;此时,将第2个子样本数据集输入至第二初始预测模中进行训练,得到第三初始预测模型,保存第三初始预测模型。以此类推,直至将第n个子样本数据集输入至第n初始预测模型中进行训练,得到训练好的预测模型。如此,可以提供了一个分组训练的预测模型训练框架,在当用户发起撤销授权请求时,可以快速地重新训练出不包含已撤销数据地模型,从而达到隐私要求。
55.例如,接收到样本数据集d,将样本数据集d包含的样本数据进行分组处理,得到4个子样本数据集:d1、d2、d3和d4。将d1输入至第一初始预测模型中进行训练,得到第二初始预测模型;将d2输入至第二初始预测模型中进行训练,得到第三初始预测模型;将d3输入至第三初始预测模型中进行训练,得到第四初始预测模型;将d4输入至第四初始预测模型中进行训练,得到训练好的预测模型。
56.需要说明的是,将所述样本数据集进行分组得到n个子样本数据集时,可以将所述样本数据集中的样本数据进行聚类处理,得到n个子样本数据集;或者将所述样本数据集中的样本数据进行平均分组,得到n个子样本数据集;或者将所述样本数据即中的样本数据进行随机抽取分组,得到n个子样本数据集。
57.具体的,聚类处理是指以相似性为基础,采用聚类算法对样本数据集中的样本数据集进行分组;聚类算法可以是划分法、层次法、密度算法、图论聚类法、网格算法、模型方法算法等,更具体的,可以是k

means算法、single

pass算法等,本技术对此不做限定。
58.实际应用中,可以采用single

pass算法将样本数据集的样本数据进行聚类,从而得多个簇,也即多个子样本数据集;根据聚类算法进行分组,可以使每个子样本数据集中的样本数据较为相似。还可以将样本数据集中的样本数据进行平均分租,例如样本数据集中包含1000组样本数据,可以平均分为10个子样本数据集,或者平均分为50子样本数据集。此
外,还可以通过随机抽取的方式,将样本数据集中的样本数据分为多个子样本数据集。对样本数据集进行分组,不仅可以提高训练当前初始预测模型的效率,还在一定程度上提高了预测模型的准确度。
59.在分组得到n个子样本数据集的基础上,需要从第1个子样本数据集开始,依次基于当前子样本数据集,对当前初始预测模型进行训练。为了更加清楚的描述使用子样本数据集进行训练的过程,可以将当前子样本数据集作为第k个子样本数据集,将当前初始预测模型作为第k初始预测模型,其中k为大于或等于1且小于或等于n的正整数。在第k个子样本数据集包括目标对象标识和所述目标对象标识对应的价值标签的情况下,基于当前子样本数据集,对当前初始预测模型进行训练的具体实现过程如下:
60.将所述第k个子样本数据集中的目标对象标识输入至所述第k初始预测模型中,得到所述目标对象标识的预测价值;
61.将所述第k个子样本数据集中的价值标签输入至所述第k初始预测模型中,并根据所述预测价值和所述价值标签计算损失值;
62.根据所述损失值调整所述第k初始预测模型的参数,继续训练所述第k初始预测模型;
63.当所述损失值小于目标值时,或者当所述第k初始预测模型的迭代次数达到目标迭代次数时,停止训练第k初始预测模型,得到第k 1初始预测模型。
64.具体的,目标对象是指样本数据集所描述的对象,目标对象包括但不限于用户、商品、店铺中的一个或多个。目标对象标识是指代表或表征目标对象的记号,可以是数字,也可以是字符串,例如目标对象的id,本技术对此不做限定。价值标签是指体现目标对象的价值的标志,可以是评分,还可以是喜爱程度,例如美食的评分、店铺收藏、商品的购买次数或加入购物车、电影风评等。预测价值是指第k初始预测模型针对第k个子样本数据集进行训练预测出的目标对象的价值。计算损失值的损失函数有很多,如交叉熵损失函数、l1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等,在本技术中,不对计算损失值的损失函数的选择做限定。
65.实际应用中,根据每个子样本数据集对其对应的初始预测模型进行训练的过程是一样的,以根据第1个子样本数据集训练第一初始预测模型为例进行说明。首先需要将第1个子样本数据集中的目标对象标识输入至第一初始预测模型中,第一初始预测模型基于输入的目标对象标识进行响应,输出第1个子样本数据集中的目标对象标识的对应的预测价值。此时,再将第1个子样本数据集中目标对象标识对应的价值标签输入至第一初始预测模型,第一初始预测模型可以基于第1个子样本数据集中目标对象标识的价值标签和预测价值进行均方误差损失值计算。在此基础上,判断均方误差损失值是否小于预设的目标均方误差值,或者判断第一初始预测模型的迭代次数是否达到上限。若否,根据得到的均方误差损失值调整第一初始预测模型的各项参数,继续根据第1个子样本数据集训练第一初始预测模型;若是,停止训练第一初始预测模型,并保存此时的参数,得到第二初始预测模型。
66.例如,在电影推荐系统的环境下,第1个子样本数据集包括用户

电影标识和电影标识对应的评分。将用户

电影标识输入至第一初始电影推荐模型中,得到电影标识的推荐评分,再将电影标识对应的评分输入至第一初始电影推荐模型,根据推荐评分与评分计算对数损失值,判断得到的对数损失值是否小于预设的目标对数值。若否,则根据对数损失值
调整第一初始电影推荐模型的参数,重复上述训练过程;若是,则停止训练第一初始电影推荐模型,得到第二初始电影推荐模型。
67.需要说明的是,基于第2个子样本数据集至第n个子样本数据集中任意一个子样本数据集的训练过程,均可参照上述基于第1个子样本数据集的训练过程。此外,在对第n初始预测模型进行训练完成时,得到的第n 1初始预测模型即为最终的预测模型。
68.本技术中,通过计算损失值时,对参数进行优化,有利于提高预测模型在后续应用过程中预测时的表现,使得预测效果更加精准、快速。
69.步骤204:在接收到第i个子样本数据集的样本数据撤回请求的情况下,删除所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据,其中,i为大于或等于1、且小于或等于n的正整数。
70.在获取到训练好的预测模型的基础上,进一步地,当样本数据发生撤回、对该预测模型进行更新时,需要对样本数据集进行调整。
71.具体的,样本数据集撤回请求是指由用户发起的撤回数据的请求,例如样本数据集中的数据为用户授权的数据,当用户取消授权时,即生成样本数据撤回请求。
72.实际应用中,在接收到样本数据撤回请求的情况下,需要确定该样本数据撤回请求对应的样本数据所在的子样本数据集。可以根据需要撤回的样本数据与各个子样本数据集进行匹配,匹配成功的子样本数据集即为样本数据所在的子样本数据集;也可以根据样本数据撤回请求中携带标识,直接定位到需要撤回的样本数据所在的子样本数据集,本技术对此不做限定。在确定了样本数据撤回请求对应的子样本数据集之后,将该子样本数据集中对应于样本数据撤回请求的样本数据进行删除,以保证样本数据集的准确性。
73.例如,在应用程序评价系统的环境下,样本数据包括应用程序标识和应用程序的使用量。在某个用户取消数据授权时,先确定该用户取消的样本数据对应的子样本数据集,根据该用户的id确定该用户的样本数据在第5个子样本数据集中,则将第5个子样本数据集中该用户对应的应用程序标识和该用户对应用程序的使用量。
74.步骤206:根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型,所述第一中间预测模型为根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
75.在删除第i个子样本数据集中样本数据撤回请求对应的样本数据的基础上,进一步地,基于调整后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练。
76.具体的,当i=1时,第一中间预测模型为第一初始预测模型;当i=2时,第一中间预测模型为根据第1个子样本数据集对第一初始预测模型进行训练,得到的第二初始预测模型;当i=3时,第一中间预测模型为根据第1个子样本数据集和第2个子样本数据集对第一初始预测模型进行训练,得到的第三初始预测模型,以此类推。
77.实际应用中,为了保证在用户撤销样本数据的的情况下预测模型的有效性,需要根据更新后的样本数据集对预测模型进行更新。为了保证训练的高效性,需要获取根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练,获得的模型,即第一中间预测模型。再根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,直至得到目标预测模型。如此可以减少第i个子样本数据
集之前的子样本数据集对第一初始预测模型进行继承训练的过程,大大节省了数据处理量,在保护用户隐私的同时,提高了基于隐私保护的预测模型更新的效率。
78.例如,n=5,i=4,将更新后的第4个子样本数据集和第5个子样本数据集,输入至基于第1个至第3个子样本数据集对第一初始预测模型进行继承训练得到的第一中间预测模型中进行继承训练,得到目标预测模型。
79.本实施例的一个或多个实施方式中,根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型的具体实现过程可以如下:
80.将更新后的第i个子样本数据集输入至第一中间预测模型中进行训练,得到更新后的第i 1初始预测模型;
81.将第i 1个子样本数据集输入至所述更新后的第i 1初始预测模型中进行训练,得到更新后的第i 2初始预测模型;
82.直至将第n个子样本数据集输入至更新后的第n初始样本模型中进行训练,得到目标预测模型。
83.实际应用中,根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练时,可以将更新后的子样本数据集输入至第i初始预测模型中进行训练,即输入至第一中间预测模型中进行训练,训练完成后,得到更新后的第i 1初始预测模型;再将第i 1个子样本数据集输入至上述训练好的i 1初始预测模型中进行训练,然后得到更新后的第i 2个子样本数据集,以此类推,直至得到目标预测模型。
84.例如,i=2,n=4,将更新后的第2个子样本数据集输入至第二初始预测模型中进行训练,得到更新后的第三初始预测模型;将第3个子样本数据集输入至第三初始预测模型中进行训练,得到更新后的第四初始预测模型;将第4个子样本数据集输入至第四初始预测模型中进行训练,得到目标预测模型。
85.通过根据更新后的第i子样本数据集至第n子样本数据集对第一中间预测模型继承式的训练,可以保证更新后的预测模型,即目标预测模型在保护用户隐私的同时,可以有效地提高对基于隐私保护的预测模型更新的效率。
86.此外,在实际操作中,存在一些用户取消授权的情况,也存在一些用户同意授权的情况。针对新增一些用户同意授权时,也就说明样本数据有新增,同样可以对预测模型进行更新,具体实现过程如下:
87.在接收到样本数据新增请求的情况下,将所述样本数据新增请求对应的样本数据添加至第j个子样本数据集,其中,j为大于或等于1、且小于或等于n的正整数;
88.根据更新后的第j个子样本数据集至第n个子样本数据集对第二中间预测模型进行继承训练,得到目标预测模型,所述第二中间预测模型为根据第1个子样本数据集至第j

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
89.具体的,样本数据集新增请求是指由用户发起的新增数据的请求,例如样本数据集没有当前用户的数据,当该用户同意授权时,即生成样本数据新增请求。
90.当j=1时,第二中间预测模型为第一初始预测模型;当j=2时,第二中间预测模型为根据第1个子样本数据集对第一初始预测模型进行训练,得到的第二初始预测模型;当j=3时,第一中间预测模型为根据第1个子样本数据集和第2个子样本数据集对第一初始预
测模型进行训练,得到的第三初始预测模型,以此类推。
91.实际应用中,在接收到样本数据新增请求的情况下,需要将该样本数据添加至对应的子样本数据集中,该子样本数据集为第j个子样本数据集,得到更新后的第j个子样本数据集,以保证样本数据集的准确性和实时性。进一步地,为了保证在用户新增样本数据的的情况下预测模型的有效性,需要基于调整后的第j个子样本数据集至第n个子样本数据集对第二中间预测模型进行继承训练。如此可以减少第j个子样本数据集之前的子样本数据集对第二初始预测模型进行继承训练的过程,大大节省了数据处理量,在保护用户隐私的同时,提高了基于隐私保护的预测模型更新的效率。
92.例如,在音乐推荐系统的环境下,在某个新用户同意授权时,将该新用户的样本数据添加至对应的第6个子样本数据集中,同时获取根据第1个子样本数据集至第5个子样本数据集对第一初始推荐模型继承训练得到的第二初始推荐模型。若n=6,将更新后的第5个子样本数据集和第6个子样本数据集,输入至第二中间预测模型中进行继承训练,得到目标预测模型。
93.此外,将样本数据新增请求对应的样本数据添加至对应的子样本数据集的方式有多种,可以对所述样本数据新增请求对应的样本数据进行聚类处理,添加至第j个子样本数据集;或者将所述样本数据新增请求对应的样本数据添加至所述样本数据新增请求指定的第j个子样本数据集;或者将所述样本数据新增请求对应的样本数据随机添加至第j个子样本数据集。
94.对于聚类处理的方式,可以将新增的样本数据添加至与其相似度或者关联度较高的子样本数据集中,如此可以使子样本数据集中的样本数据更将集中,有利于提高目标预测模型的准确度。对于指定、随机添加,可以降低数据量和减少数据处理时长,一定程度上提高了基于隐私保护的预测模型更新的速度。
95.本技术实施例提供的基于隐私保护的预测模型更新方法,通过获取利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到的预测模型,在接收到样本数据撤回请求的情况下,将所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据进行删除,根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型。如此,将样本数据分为多个子样本数据,对第一初始预测模型进行训练,在保护用户隐私的同时,还提供了一种针对样本数据撤回的模型训练方法。同时,在样本数据撤销时,无需对所有的样本数据进行训练,只需从更新的子样本数据集集成训练,极大程度上降低了数据处理量和时间成本,提高预测模型的更新速度,保证了预测模型的有效性。
96.图4示出了本技术一实施例的预测方法的流程图,该预测方法包括步骤402至步骤404。
97.步骤402:接收待预测目标对象标识。
98.具体的,待预测目标对象标识为需要进行预测的目标对象的标识,目标对象包括但不限于待预测的用户、商品、店铺中的一个或多个。
99.在实际应用中,在目标预测模型训练完成后,即可接收待预测目标对象标识,并将待预测目标对象标识作为目标预测模型的输入项。例如,用户登录某个电影网站,将该用户以及所有电影的信息作为待预测目标对象标识。
100.本技术中,通过获取待预测目标对象标识,确保所述目标预测模型可以接收有效的输入内容,避免了因输入内容无效导致的错误,提升了用户体验。
101.步骤404:将所述待预测目标对象标识输入至目标预测模型,获得所述待预测目标对象标识对应的预测价值,所述目标预测模型是通过上述的基于隐私保护的预测模型更新方法处理得到的。
102.具体的,预测价值是指目标预测模型针对待预测目标对象标识进行预测而得到的目标对象的价值,可以是评分,还可以是喜爱程度等。
103.在获取待预测目标对象标识的基础上,进一步地,可以将待预测目标对象标识输入到预先训练好的目标预测模型,以便于基于待预测目标对象标识输出预测目标对象标识对应的预测价值。
104.实际应用中,在待预测目标对象标识输入至目标预测模型,并获得待预测目标对象标识对应的预测价值之后,可以根据预测价值对目标对象进行排序,将排名靠前的目标对象推荐给用户,或者将预测价值高于设定值的目标对象标识对应的目标对象推荐给用户。
105.沿用上例,将该用户以及所有电影的信息输入至预先训练好的目标预测模型中,也即待预测目标对象标识输入至预先训练好的目标预测模型。得到电影1至电影100的预测评分,根据每部电影的预测评分,将预测评分排名前10的电影推荐给该用户。
106.需要说明的是,目标预测模型是预先训练好的,也即通过上述基于隐私保护的预测模型更新方法训练得到的模型。
107.本技术实施例提供的预测方法,通过将待预测目标对象标识输入至预先训练好的目标预测模型,进而确定得到待预测目标对象标识的预测价值,保证了在保护用户隐私的同时,可以快速、准确的获取待预测目标对象标识的预测价值。
108.图5示出了本技术一实施例的应用于商品推荐场景中的流程图,基于隐私保护的预测模型更新方法和预测方法以对商品推荐为例进行描述,包括步骤502至步骤534。
109.步骤502:接收样本数据集,其中,样本数据集包括20组样本户数,每组样本数据包括用户id、商品id和用户对商品的评分。
110.步骤504:将样本数据集进行平均分组,得到4个子样本数据集。
111.将20组样本数据组成的样本数据集进行平均分组,分组结果如表1所示,其中,行号为每组样本数据的编号。
112.表1样本数据集
113.[0114][0115]
步骤506:将第1个子样本数据集中的用户id和商品id输入至第一初始推荐模型中,得到商品的预测评分。
[0116]
步骤508:将第1个子样本数据集中的评分输入至第一初始推荐模型中,并根据预测评分和评分计算损失值。
[0117]
步骤510:根据损失值调整第一初始推荐模型的参数,继续训练第一初始推荐模型。
[0118]
步骤512:当损失值小于目标值时,停止训练第一初始推荐模型,得到第二初始推荐模型。
[0119]
第二初始推荐模型即为表1中的模型m1。
[0120]
步骤514:基于第2个子样本数据集,对第二初始推荐模型进行训练,得到第三初始推荐模型。
[0121]
第三初始推荐模型即为表1中的模型m2。
[0122]
步骤516:基于第3个子样本数据集,对第三初始推荐模型进行训练,得到第四初始推荐模型。
[0123]
第四初始推荐模型即为表1中的模型m3。
[0124]
步骤518:基于第4个子样本数据集,对第四初始推荐模型进行训练,得到推荐模型。
[0125]
推荐模型即为表1中的模型m4。
[0126]
步骤520:接收用户a发起的样本数据撤回请求。
[0127]
步骤522:根据样本数据撤回请求确定该样本数据撤回请求对应的样本数据为第14行对应的样本数据。
[0128]
步骤524:删除第3个子样本数据集中第14行对应的样本数据,得到更新后的第3个子样本数据集。
[0129]
更新后的样本数据集如表2所示。
[0130]
表2更新后的样本数据集
[0131]
[0132][0133]
步骤526:基于更新后的第3个子样本数据集,对第三初始推荐模型进行训练,得到更新后的第四初始推荐模型。
[0134]
更新后的第四初始推荐模型为表2中的模型m3’。
[0135]
步骤528:基于第4个子样本数据集,对更新后的第四初始推荐模型进行训练,得到目标推荐模型。
[0136]
目标推荐模型为表2中的模型m4’。
[0137]
步骤530:接收用户b的id和250个商品id。
[0138]
步骤532:将用户b的id和520个商品id输入至目标推荐模型,获得各商品的预测评分。
[0139]
步骤534:将预测评分最高的前50个商品推荐给用户b。
[0140]
本技术实施例提供的应用于推荐场景的基于隐私保护的预测模型更新方法,通过接收样本数据并分组得到多个子样本数据集,基于多个子样本数据集对第一初始推荐模型
进行继承训练得到的推荐模型,在接收到用户发起的第14行样本数据撤回请求的情况下,将第3个子样本数据集中的第14行样本数据进行删除,根据更新后的第3个子样本数据集至第4个子样本数据集对第三初始推荐模型进行继承训练,得到目标预测模型。如此,将样本数据分为多个子样本数据,对第一初始预测模型进行训练,在保护用户隐私的同时,还提供了一种针对样本数据撤回的模型训练方法。同时,在样本数据撤销时,无需对所有的样本数据进行训练,只需从更新的子样本数据集集成训练,极大程度上降低了数据处理量和时间成本,提高预测模型的更新速度,保证了预测模型的有效性。
[0141]
本技术实施例提供的应用于推荐场景的预测方法,通过将用户b的id和商品id输入至预先训练好的目标推荐模型,进而确定得到商品的预测评分,保证了在保护用户隐私的同时,可以快速、准确的获取待预测目标对象标识的预测价值。
[0142]
与上述基于隐私保护的预测模型更新方法实施例相对应,本技术还提供了基于隐私保护的预测模型更新装置实施例,图6示出了本技术一个实施例的基于隐私保护的预测模型更新装置的结构示意图。如图6所示,该基于隐私保护的预测模型更新装置包括:
[0143]
获取模块602,被配置为获取预测模型,所述预测模型是利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到,n为大于或等于2的正整数;
[0144]
删除模块604,被配置为在接收到第i个子样本数据集的样本数据撤回请求的情况下,删除所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据,其中,i为大于或等于1、且小于或等于n的正整数;
[0145]
训练模块606,被配置为根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型,所述第一中间预测模型为根据第1个子样本数据集至第i

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
[0146]
可选地,所述获取模块602,还被配置为:
[0147]
接收样本数据集,将所述样本数据集进行分组,得到n个子样本数据集;
[0148]
从第1个子样本数据集开始,依次基于当前子样本数据集,对当前初始预测模型进行训练,直至第n个子样本数据集,训练得到预测模型,其中,所述第1个子样本数据集对应训练的当前初始预测模型为预先设定的第一初始预测模型,除所述第1个子样本数据集以外的其他样本数据集对应训练的当前初始预测模型为上一个子样本数据集训练得到的模型。
[0149]
可选地,所述当前子样本数据集为第k个子样本数据集,所述当前初始预测模型为第k初始预测模型,所述第k个子样本数据集包括目标对象标识和所述目标对象标识对应的价值标签,其中k为大于或等于1且小于或等于n的正整数;
[0150]
所述获取模块602,还被配置为:
[0151]
将所述第k个子样本数据集中的目标对象标识输入至所述第k初始预测模型中,得到所述目标对象标识的预测价值;
[0152]
将所述第k个子样本数据集中的价值标签输入至所述第k初始预测模型中,并根据所述预测价值和所述价值标签计算损失值;
[0153]
根据所述损失值调整所述第k初始预测模型的参数,继续训练所述第k初始预测模型;
[0154]
当所述损失值小于目标值时,或者当所述第k初始预测模型的迭代次数达到目标
迭代次数时,停止训练第k初始预测模型,得到第k 1初始预测模型。
[0155]
可选地,所述训练模块606,还被配置为:
[0156]
将更新后的第i个子样本数据集输入至第一中间预测模型中进行训练,得到更新后的第i 1初始预测模型;
[0157]
将第i 1个子样本数据集输入至所述更新后的第i 1初始预测模型中进行训练,得到更新后的第i 2初始预测模型;
[0158]
直至将第n个子样本数据集输入至更新后的第n初始样本模型中进行训练,得到目标预测模型。
[0159]
可选地,所述获取模块602,还被配置为:
[0160]
将所述样本数据集中的样本数据进行聚类处理,得到n个子样本数据集;或者
[0161]
将所述样本数据集中的样本数据进行平均分组,得到n个子样本数据集;或者
[0162]
将所述样本数据即中的样本数据进行随机抽取分组,得到n个子样本数据集。
[0163]
可选地,所述基于隐私保护的预测模型更新装置还包括添加模块,被配置为:
[0164]
在接收到样本数据新增请求的情况下,将所述样本数据新增请求对应的样本数据添加至第j个子样本数据集,其中,j为大于或等于1、且小于或等于n的正整数;
[0165]
根据更新后的第j个子样本数据集至第n个子样本数据集对第二中间预测模型进行继承训练,得到目标预测模型,所述第二中间预测模型为根据第1个子样本数据集至第j

1个子样本数据集对所述第一初始预测模型进行继承训练得到。
[0166]
可选地,所述添加模块,还被配置为:
[0167]
对所述样本数据新增请求对应的样本数据进行聚类处理,添加至第j个子样本数据集;或者
[0168]
将所述样本数据新增请求对应的样本数据添加至所述样本数据新增请求指定的第j个子样本数据集;或者
[0169]
将所述样本数据新增请求对应的样本数据随机添加至第j个子样本数据集。
[0170]
本技术实施例提供的基于隐私保护的预测模型更新装置,通过获取利用预先划分的n个子样本数据集对第一初始预测模型进行继承训练得到的预测模型,在接收到样本数据撤回请求的情况下,将所述第i个子样本数据集中所述样本数据撤回请求对应的样本数据进行删除,根据更新后的第i个子样本数据集至第n个子样本数据集对第一中间预测模型进行继承训练,得到目标预测模型。如此,将样本数据分为多个子样本数据,对第一初始预测模型进行训练,在保护用户隐私的同时,还提供了一种针对样本数据撤回的模型训练装置。同时,在样本数据撤销时,无需对所有的样本数据进行训练,只需从更新的子样本数据集集成训练,极大程度上降低了数据处理量和时间成本,提高预测模型的更新速度,保证了预测模型的有效性。
[0171]
上述为本实施例的一种基于隐私保护的预测模型更新装置的示意性方案。需要说明的是,该基于隐私保护的预测模型更新装置的技术方案与上述的基于隐私保护的预测模型更新方法的技术方案属于同一构思,基于隐私保护的预测模型更新装置的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护的预测模型更新方法的技术方案的描述。
[0172]
与上述预测方法实施例相对应,本技术还提供了预测装置实施例,图7示出了本申
请一个实施例的预测装置的结构示意图。如图7所示,该预测装置包括:
[0173]
接收模块702,被配置为接收待预测目标对象标识;
[0174]
预测模块706,被配置为将所述待预测目标对象标识输入至目标预测模型,获得所述待预测目标对象标识对应的预测价值,所述目标预测模型是通过上述的基于隐私保护的预测模型更新方法处理得到的。
[0175]
本技术实施例提供的预测装置,通过将待预测目标对象标识输入至预先训练好的目标预测模型,进而确定得到待预测目标对象标识的预测价值,保证了在保护用户隐私的同时,可以快速、准确的获取待预测目标对象标识的预测价值。
[0176]
上述为本实施例的一种预测装置的示意性方案。需要说明的是,该预测装置的技术方案与上述的预测方法的技术方案属于同一构思,预测装置的技术方案未详细描述的细节内容,均可以参见上述预测方法的技术方案的描述。
[0177]
本技术一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述的基于隐私保护的预测模型更新方法或所述预测方法的步骤。
[0178]
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的基于隐私保护的预测模型更新方法或所述预测方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护的预测模型更新方法或所述预测方法的技术方案的描述。
[0179]
本技术一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述基于隐私保护的预测模型更新方法或所述预测方法的步骤。
[0180]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的基于隐私保护的预测模型更新方法或所述预测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述基于隐私保护的预测模型更新方法或所述预测方法的技术方案的描述。
[0181]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0182]
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0183]
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为
依据本技术,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本技术所必须的。
[0184]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0185]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本技术的内容,可作很多的修改和变化。本技术选取并具体描述这些实施例,是为了更好地解释本技术的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献