一种特征库构建方法和模型训练方法与流程

2022-02-22 23:45:57 来源：中国专利 TAG：

1.本发明涉及人工智能技术领域，更具体地涉及一种特征库构建方法、模型训练方法、特征库构建装置和横向联邦学习系统。

背景技术：

2.随着手机硬件的提升，手机存储空间也越来越大，目前主流手机的配置一般为64g、128g或512g。虽然如此，随着移动软件体积的增大、以及视频和照片等存储功能的频繁使用，手机存储空间不足仍然是手机用户常见的问题，比如，手机存储空间不足除了影响正常的使用(如下载不了软件或文件)，还会伴随卡顿现象等影响体验的问题。因此，手机垃圾文件清理功能的需求依然为手机的主要功能之一。
3.目前手机的垃圾清理功能主要是通过人工运营结合自动化分析的方法来实现，一般包含：一键清理或建议清理(清理后对软件不产生影响，默认扫描并勾选上，这个一般指纯粹意义上的垃圾)、深度清理(清理后可能对软件或手机系统产生影响，也可能并没有影响，需要用户主动思考并选择)。
4.发明人研究发现：现有技术中垃圾清理功能的实现方式不仅人力物力成本较高，且当用户想进一步清理时，需要用户需要花费很大的精力去考虑和选择哪些需要保留、哪些需要删除，时间成本较高且用户体验度较差；另外，现有技术中还存在通过模型识别垃圾邮件的方法，但是这种方法所使用的特征库并不适用于文件清理等级的识别。

技术实现要素：

5.本发明提供了一种特征库构建方法、模型训练方法、特征库构建装置和横向联邦学习系统，能够有效地解决上述问题。
6.本发明的一个方面提供了一种特征库构建方法，所述方法包括：获取第一文件样本集，所述第一文件样本集包括多个文件样本和每个文件样本的清理等级；从所述第一文件样本集的每个文件样本中提取可影响该文件样本的清理等级的特征词；对提取的特征词进行过滤处理，以获得多个有效特征词；设置每个有效特征词的权重，并根据每个有效特征词和每个有效特征词的权重构建用于推荐文件的清理等级的特征库。
7.可选地，所述从所述第一文件样本集的每个文件样本中提取可影响该文件样本的清理等级的特征词，包括：从所述第一文件样本集的每个文件样本的内部固有属性中提取可影响该文件样本的清理等级的特征词；和/或从所述第一文件样本集的每个文件样本的外部操作属性中提取可影响该文件样本的清理等级的特征词。
8.可选地，所述设置每个有效特征词的权重，包括：获取第二文件样本集，所述第二文件样本集包括训练集和测试集，所述训练集和所述测试集中均包括多个文件样本和每个文件样本的清理等级；从获得的所有有效特征词中筛选出用于确定权重的目标特征词；从所述训练集的多个文件样本中提取与所述目标特征词相匹配的特征，将从所述训练集中提取的特征作为输入并将对应的清理等级作为输出对预置的机器学习模型进行训练；从所述
测试集的多个文件样本中提取与所述目标特征词相匹配的特征，将从所述测试集中提取的特征输入至训练好的机器学习模型，得到输出的清理等级；根据所述输出的清理等级和所述测试集中对应的清理等级，确定用于表征所述训练好的机器学习模型的优劣的指标值；根据所述指标值确定对应的有效特征词的权重。
9.可选地，所述从获得的所有有效特征词中筛选出用于确定权重的目标特征词，包括：从获得的所有有效特征词中随机筛选出一未确定权重的有效特征词，作为所述目标特征词；所述根据所述指标值确定对应的有效特征词的权重，包括：根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前目标特征词的权重。
10.可选地，所述从获得的所有有效特征词中筛选出用于确定权重的目标特征词，包括：从获得的所有有效特征词中随机剔除一未确定权重的有效特征词，并将剩余的所有有效特征词作为所述目标特征词；所述根据所述指标值确定对应的有效特征词的权重，包括：根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前被剔除的有效特征词的权重。
11.本发明的另一个方面提供了一种模型训练方法，应用于包含一个中心服务器和多个客户端的横向联邦学习系统，所述方法包括：所述中心服务器随机获取一机器学习模型并下发至各个客户端；所述客户端获取第三文件样本集，所述第三文件样本集包括多个文件样本和每个文件样本的清理等级，且所述第三文件样本集中的每个文件样本均是由该客户端产生的；所述客户端从所述第三文件样本集的多个文件样本中提取与特征库中各个有效特征词相匹配的特征，所述特征库通过上述任一实施例所述的特征库构建方法获得；所述客户端将从所述第三文件样本集中提取的特征作为输入并将对应的清理等级作为输出对所述机器学习模型进行训练，计算出训练好的机器学习模型的模型梯度，并将所述模型梯度上传至所述中心服务器；所述中心服务器聚合各个客户端上传的模型梯度，并将聚合结果下发至各个客户端；所述客户端按照所述聚合结果更新训练好的机器学习模型的模型参数。
12.可选地，所述中心服务器聚合各个客户端上传的模型梯度，并将聚合结果下发至各个客户端，包括：所述中心服务器根据聚合结果获取一模型标识，并将所述聚合结果和所述模型标识下发至各个客户端；其中，当所述聚合结果满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型可正常工作的工作标识；当所述聚合结果不满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型需继续训练的训练标识；在所述客户端按照所述聚合结果更新训练好的机器学习模型的模型参数之后，所述方法还包括：当所述模型标识为工作标识时，所述客户端监听是否接收到垃圾清理指令，若是则根据更新后的机器学习模型输出本地文件的清理等级；当所述模型标识为训练标识时，所述客户端继续训练更新后的机器学习模型。
13.可选地，所述中心服务器随机获取一机器学习模型并下发至各个客户端，包括：所述中心服务器随机获取一机器学习模型，将所述机器学习模型和所述机器学习模型的训练时机下发至各个客户端；所述客户端获取第三文件样本集，包括：所述客户端监测到当前时刻满足所述训练时机时，获取第三文件样本集。
14.本发明的再一个方面提供了一种特征库构建装置，所述装置包括：获取模块，用于获取第一文件样本集，所述第一文件样本集包括多个文件样本和每个文件样本的清理等
级；提取模块，用于从所述第一文件样本集的每个文件样本中提取可影响该文件样本的清理等级的特征词；过滤模块，用于对提取的特征词进行过滤处理，以获得多个有效特征词；构建模块，用于设置每个有效特征词的权重，并根据每个有效特征词和每个有效特征词的权重构建用于推荐文件的清理等级的特征库。
15.本发明的又一个方面提供了一种横向联邦学习系统，所述横向联邦学习系统包括一个中心服务器和多个客户端：所述中心服务器用于：随机获取一机器学习模型并下发至各个客户端,聚合各个客户端上传的模型梯度，并将聚合结果下发至各个客户端；所述客户端用于：获取第三文件样本集，从所述第三文件样本集的多个文件样本中提取与特征库中各个有效特征词相匹配的特征，将从所述第三文件样本集中提取的特征作为输入并将对应的清理等级作为输出对所述机器学习模型进行训练，计算出训练好的机器学习模型的模型梯度，将所述模型梯度上传至所述中心服务器，并按照所述聚合结果更新训练好的机器学习模型的模型参数；其中，所述第三文件样本集包括多个文件样本和每个文件样本的清理等级，且所述第三文件样本集中的每个文件样本均是由该客户端产生的，所述特征库通过上述任一实施例所述的特征库构建方法获得。
16.本发明的又一个方面提供了一种非暂时性计算机可读存储介质，其上存储有程序指令，当所述程序指令被一个或多个处理器执行时，所述一个或多个处理器用于实现本发明的特征库构建方法。
17.本发明通过提供特征库的选择方法，能够用于推荐文件的清理等级，使得后续无论使用任何机器学习模型都可以准确训练出用于推荐文件的清理等级的模型；为了给用户更好的推荐选择，需要联合大量的用户终端样本，因此本技术通过横向联邦学习训练模型可以解决各个终端用户的数据孤岛与隐私问题。本发明在现有的清理功能上，为用户提供进一步的清理推荐功能，降低用户学习成本，方便地清理更多空间。
附图说明
18.为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图进行简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1示出了现有的android存储架构的示意图；
20.图2示出了现有的垃圾文件存储结构的示意图；
21.图3示出了本发明提供的清理功能的效果示意图；
22.图4示出了本发明实施例一提供的特征库构建方法的流程图；
23.图5示出了本发明实施例一提供的特征选择过程的流程图；
24.图6示出了本发明实施例二提供的模型训练方法的流程图；
25.图7示出了本发明实施例三提供的特征库构建装置的框图；
26.图8示出了本发明实施例四提供的模型训练装置的框图。
具体实施例
27.如在本文中所使用的，词语“第一”、“第二”等可以用于描述本发明的示例性实施例中的元件。这些词语只用于区分一个元件与另一元件，并且对应元件的固有特征或顺序
等不受该词语的限制。除非另有定义，本文中使用的所有术语(包括技术或科学术语)具有与本发明所属技术领域的普通技术人员通常理解的含意相同的含意。如在常用词典中定义的那些术语被解释为具有与相关技术领域中的上下文含意相同的含意，而不被解释为具有理想或过于正式的含意，除非在本发明中被明确定义为具有这样的含意。
28.本领域的技术人员将理解的是，本文中描述的且在附图中说明的本发明的装置和方法是非限制性的示例性实施例，并且本发明的范围仅由权利要求书限定。结合一个示例性实施例所说明或描述的特征可与其他实施例的特征组合。这种修改和变化包括在本发明的范围内。
29.下文中，将参考附图详细描述本发明的示例性实施例。在附图中，省略相关已知功能或配置的详细描述，以避免不必要地遮蔽本发明的技术要点。另外，通篇描述中，相同的附图标记始终指代相同的电路、模块或单元，并且为了简洁，省略对相同电路、模块或单元的重复描述。
30.此外，应当理解一个或多个以下方法或其方面可以通过至少一个控制系统、控制单元或控制器执行。术语“控制单元”，“控制器”,“控制模块”或者“主控模块”可以指代包括存储器和处理器的硬件设备。存储器或者计算机可读存储介质配置成存储程序指令，而处理器具体配置成执行程序指令以执行将在以下进一步描述的一个或更多进程。而且，应当理解，正如本领域普通技术人员将意识到的，以下方法可以通过包括处理器并结合一个或多个其他部件来执行。
31.随着手机硬件的提升，手机存储空间也越来越大，目前主流手机的配置一般为64g,128g或512g。虽然如此，随着移动软件的体积增大，视频和照片等使用存储的功能更加频繁等原因，手机存储空间不足仍然是手机用户常见的问题。比如，手机使用时间久了，手机存储空间不足除了影响正常的使用(如下载不了软件或文件)，还会伴随卡顿现象等影响体验的问题。而且据相关调查，在国内使用低端机的用户基数十分庞大，这些用户的手机存储空间还是小于或等于64g。在2021年的3.15晚会上曝光了垃圾清理软件相关的问题，特别针对老年人群体进行广告弹框等行为，因为他们手机配置低，手机存储空间小，往往容易受到第三方的恶意垃圾软件的影响，从侧面也说明垃圾清理功能需求依然为手机的主要功能之一。
32.目前主流垃圾清理软件在垃圾清理方面提供的功能一般包含：一键清理或建议清理(清理后对软件不产生影响，默认扫描并勾选上，这个一般指纯粹意义上的垃圾)、深度清理(清理后可能对软件或手机系统产生影响，也可能并没有影响，需要用户主动思考并选择)。而在垃圾清理这个功能上，无论是普通用户还是高级用户，对于除了清理软件主动扫描并选上一键清理的，对于手机上的其它垃圾文件或应用(深度清理)，哪些能删除或卸载，哪些需要保留，往往需要较深入的主动考虑。的确，垃圾清理是一个较高级的操作，用户往往都需要特别小心。所以很多用户在手机空间不足的时候，点击一下清理软件扫描出并默认勾选能放心清理的，如果这时还存在空间不足，则需要花费很大的精力去考虑和选择或根本不知道删除哪些(如中老年人)。
33.对于需要花费很大的精力去考虑和选择哪些需要删除哪些不需要删除，目前主流的方法是通过人工运营结合自动化分析的方法来确定某一个app所产生的数据哪些是垃圾软件，哪些是重要数据不能删除。其中人工运营占比往往不少。
34.另外，考虑这样一种场景，父母让你帮忙进一步清理手机垃圾，对于我们会根据多方面考虑，比如会考虑如下等情况：
35.1，是否乱安装了不用的软件
‑‑‑
根据父母这个群体特征考虑
36.2，是否下载了不用的软件包
‑‑‑
根据父母这个群体特征考虑
37.3，是否下载了不用的文件—根据数据文件所属的应用属性和该文件的内容决定
38.4，文件按照从大到小和重要度删除—根据文件的格式内容等决定
39.5，微信和抖音等应用不重要的数据—根据文件的格式内容等决定
40.6，相册是否有需要删除的—根据照片的内容决定等。
41.可见，目前市场上第三方垃圾清理功能”推荐”不足,不同层次的用户在空间不足时面对选择清理项都存在较大的疑惑和担忧，学习成本很高,而且缺少目标导向。
42.因此，发明人想到现有技术中人工主动考虑哪些需要保留，哪些需要删除的思考过程，可以交由人工智能去学习与处理。且发明人发现，目前android系统中文件的存储结构大部分如图1所示，在这种存储结构下，垃圾文件大部分产生自app data(应用程序数据)，参见图2，这种垃圾文件的定义是相对狭义的方式，即从用户角度看，垃圾文件是指在app的安装、使用、卸载过程中产生的过期的或无用的临时文件，但是实际上，从广义角度来说，只要是用户不要的数据均可成为垃圾文件。发明人还发现，在垃圾清理这个功能上，每个用户产生的数据有相似，相同，不同等情况。比如相似：如使用微信这个软件，在a文件夹下存放的可能是同一个功能产生的文件，但是是用户相关的，即使用相同的软件产生相似的数据。如果有大部分用户删除这个数据，说明删除的风险较小)；比如相同：多个用户在微信上转发的某一个视频(网红视频等)
‑‑
共性说明可能删除风险较小；比如不同：微信中下载的私人文件等。也就是说，在大量的数据样本和用户样本中，从如何清理及释放更多的存储空间来说，垃圾清理的目的和思路是一样的。
43.基于此，本技术的实施例一提供了一种特征库构建方法、实施例二提供了一种模型训练方法，其中，实施例一中的特征库能够帮助实施例二训练出用于推荐文件的清理等级的模型，以便用户根据该模型确定文件的清理等级，其中，本技术的方案并不是代替市面上已有的清理功能，而是通过人工智能方法增加推荐类项，为用户快速决策并释放更多空间，具体可参见图3。
44.实施例一
45.图4示出了本发明实施例一提供的特征库构建方法的流程图，如图4所示，该特征库构建方法可以包括步骤a1～步骤a4，其中：
46.步骤a1，获取第一文件样本集，所述第一文件样本集包括多个文件样本和每个文件样本的清理等级。
47.其中，此处的清理等级可以人工根据经验设置的清理等级；文件样本可以是文本样本、应用程序样本。
48.步骤a2，从所述第一文件样本集的每个文件样本中提取可影响该文件样本的清理等级的特征词。
49.对于某个用户手机中的数据，评判一个文件是否应该/可以删除，涉及到较多方面(如上面帮父母清理垃圾的场景)，是一个比较复杂的过程，将这些场景涉及到的内容特征化后会存在较多的特征，因此需要通过特征工程进行选择。首先可以执行步骤a2(也即图5
中的第一步构建候选特征集1)，先提取可影响每个文件样本的清理等级的特征词，也即提取的特征词中包括影响是否清理某个文件的因素变量全集。
50.作为一种可选地实施例：
51.步骤a2可以包括：
52.从所述第一文件样本集的每个文件样本的内部固有属性中提取可影响该文件样本的清理等级的特征词；和/或
53.从所述第一文件样本集的每个文件样本的外部操作属性中提取可影响该文件样本的清理等级的特征词。
54.内部固有属性可以包括：版本号、安全等级、文件名、文件路径、文件大小、文件创建时间、文件名、是否是系统应用创建、文件类型(如文件夹、文本、图片、视频等)、文件格式/扩展名(.mp4、.apk等)等。
55.外部操作属性可以包括：是否移动过目录(多个保存路径)、最近打开时间、打开次数总和、目录、文件夹被清理的频率、删除时间与创建时间差、创建时间、删除时间、访问时间等。
56.步骤a3，对提取的特征词进行过滤处理，以获得多个有效特征词。
57.过滤处理可以包括图5中的剩余步骤：首先，利用特征选择算法进行特征筛选，因为特征变量与是否推荐清理的结果之间根据初步的预估，应该不是线性关系，所以选择非线性算法(如决策树)进行特征筛选；其次，对筛选出的特征进行数据降维，因为特征较多，某些特征变量的影响可能很小，如某个文件位于文件夹的层深度，所以需要选择合适的算法进行过滤并降维处理，得到最重要的候选特征集2，最后，对候选特征集2中的特征进行高级特征提取，比如某些隐藏的特征的信息增益可能较大，即隐藏的特征对于决定是否清理起到非常大的作用，如文件被清理的次数，频率，删除时间与创建时间差等，提取出的所有特征即可作为最终获得的有效特征词。
58.获得的有效特征词包括但不限于：文件名、文件路径、文件大小、文件创建时间、文件名、是否系统应用创建、文件类型(如文件夹、文本、图片、视频等)、文件格式/扩展名(.mp4、.apk等)、是否移动过目录(多个保存路径)、最近打开时间、打开次数总和、目录、文件夹被清理的频率、删除时间与创建时间差等。
59.步骤a4，设置每个有效特征词的权重，并根据每个有效特征词和每个有效特征词的权重构建用于推荐文件的清理等级的特征库。
60.评判一个文件在当前手机环境中是否应该清除，涉及到较多变量的考虑，最终结果的选择是一个整体的考量，而各个有效特征词所起的作用可能并不相同，因此需要为其设置权重。
61.作为一种可选地实施例：
62.所述设置每个有效特征词的权重，包括：
63.步骤a41，获取第二文件样本集，所述第二文件样本集包括训练集和测试集，所述训练集和测试集中均包括多个文件样本和每个文件样本的清理等级；
64.步骤a42，从获得的所有有效特征词中筛选出用于确定权重的目标特征词；
65.步骤a43，从所述训练集的多个文件样本中提取与所述目标特征词相匹配的特征，将从训练集中提取的特征作为输入并将对应的清理等级作为输出对预置的机器学习模型
进行训练；
66.步骤a44，从所述测试集的多个文件样本中提取与所述目标特征词相匹配的特征，将从测试集中提取的特征输入至训练好的机器学习模型，得到输出的清理等级；
67.步骤a45，根据所述输出的清理等级和所述测试集中对应的清理等级，确定用于表征所述训练好的机器学习模型的优劣的指标值；
68.步骤a46，根据所述指标值确定对应的有效特征词的权重。
69.本实施例中，通过执行步骤a42～步骤a45可以确定一个指标值，每个指标值用于确定对应的有效特征词的权重，通过重复步骤a42～步骤a45，可以确定出每个有效特征词对应的指标值，然后根据各个指标值确定各个有效特征词的权重。具体地，可以通过指标值确定一个初步权重，当确定出每个有效特征词的初步权重之后，可以对确定出的初步权重做归一化处理，进而得到各个有效特征词最终的权重，然后进行降序集合，最后对最终结果进行冗余和降噪处理。其中，预置的机器学习模型可以为决策树、支持向量机(support vector machine，svm)等。
70.作为一种可选地实施例：
71.步骤a42可以包括：
72.从获得的所有有效特征词中随机筛选出一未确定权重的有效特征词，作为所述目标特征词；
73.步骤a46可以包括：
74.根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前目标特征词的权重。
75.可以预先为准确率、精确率和召回率设置相应的权重，然后进行加权平均可以获得当前目标特征词的初步权重；也可以将准确率、精确率和召回率计算平均值作为当前目标特征词的初步权重。最后在获得所有有效特征词的初步权重之后进行归一化处理，即可获得每个有效特征词的权重。
76.作为一种可选地实施例：
77.步骤a42可以包括：
78.从获得的所有有效特征词中随机剔除一未确定权重的有效特征词，并将剩余的所有有效特征词作为所述目标特征词；
79.步骤a46可以包括：
80.根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前被剔除的有效特征词的权重。
81.可以预先为准确率、精确率和召回率设置相应的权重，然后进行加权平均可以获得当前被剔除的有效特征词的初步权重；也可以将准确率、精确率和召回率计算平均值作为当前被剔除的有效特征词的初步权重。最后在获得所有有效特征词的初步权重之后进行归一化处理，即可获得每个有效特征词的权重。
82.实施例二
83.图6示出了本发明实施例二提供的模型训练方法的流程图，该模型训练方法应用于包含一个中心服务器和多个客户端的横向联邦学习系统，如图6所示，该模型训练方法可以包括步骤b1～步骤b6，其中：
84.步骤b1，所述中心服务器随机获取一机器学习模型并下发至各个客户端；
85.步骤b2，所述客户端获取第三文件样本集，所述第三文件样本集包括多个文件样本和每个文件样本的清理等级，且所述第三文件样本集中的每个文件样本均是由该客户端产生的；
86.步骤b3，所述客户端从所述第三文件样本集的多个文件样本中提取与特征库中各个有效特征词相匹配的特征，所述特征库通过实施例一所述的方法获得；
87.步骤b4，所述客户端将从第三文件样本集中提取的特征作为输入并将对应的清理等级作为输出对所述机器学习模型进行训练，计算出训练好的机器学习模型的模型梯度，并将所述模型梯度上传至所述中心服务器；
88.步骤b5，所述中心服务器聚合各个客户端上传的模型梯度，并将聚合结果下发至各个客户端；
89.步骤b6，所述客户端按照所述聚合结果更新训练好的机器学习模型的模型参数。
90.此处的机器学习模型可以为决策树、支持向量机(support vector machine，svm)等。为了给用户更好的推荐选择，需要联合大量的用户终端样本，通过联邦学习解决各个终端用户的数据孤岛与隐私问题。在清理场景中，多终端用户的数据情况为：特征一样且用户样本有一定的差异，因此可采用横向联邦进行学习。横向联邦学习的定义是指：当有着相同特征的样本分布于不同的参与方时，在能够实现综合运用各方数据的同时，保证各方数据隐私的算法，被称为横向联邦学习。
91.客户端可以在本地计算模型梯度，并使用同态加密[35]、差分隐私[148]或秘密共享[115]等加密技术，对模型梯度进行掩饰，并将掩饰后的结果(简称为加密梯度)发送给中心服务器。中心服务器进行安全聚合(secure aggregation)操作，如使用基于同态加密的加权平均[1，203](梯度平均算法)进行聚合，然后中心服务器将聚合结果(新的模型梯度)加密后发送给各个客户端，客户端接收到聚合结果(新的模型梯度)后进行解密，并使用解密后的聚合结果更新各自的模型参数。
[0092]
各个客户端可以增加功能开关(默认关闭)，用户可以选择参与训练或不参与训练。
[0093]
作为一种可选地实施例：
[0094]
步骤b5包括：
[0095]
所述中心服务器根据聚合结果获取一模型标识，并将所述聚合结果和所述模型标识下发至各个客户端；
[0096]
其中，当所述聚合结果满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型可正常工作的工作标识；当所述聚合结果不满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型需继续训练的训练标识；
[0097]
在步骤b6之后，所述方法还包括：
[0098]
步骤b7，当所述模型标识为工作标识时，所述客户端监听是否接收到垃圾清理指令，若是则根据更新后的机器学习模型输出本地文件的清理等级；
[0099]
步骤b8，当所述模型标识为训练标识时，所述客户端继续训练更新后的机器学习模型。
[0100]
当所述模型标识为训练标识时，所述中心服务器还可以下发训练时机至各个客户
端，客户端可以在监测当前时刻满足训练时机时，继续训练更新后的机器学习模型。
[0101]
作为一种可选地实施例：
[0102]
步骤b1包括：
[0103]
所述中心服务器随机获取一机器学习模型，将所述机器学习模型和所述机器学习模型的训练时机下发至各个客户端；
[0104]
步骤b2包括：
[0105]
所述客户端监测到当前时刻满足所述训练时机时，获取第三文件样本集。
[0106]
训练时机可以为固定时间，如3点、5点，还可以是固定条件，如手机充电时触发训练，如手机空闲时触发训练，以尽可能保证不影响用户使用。
[0107]
实施例三
[0108]
本发明的实施例三还提供了一种特征库构建装置，该特征库构建装置与上述实施例一提供的特征库构建方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例一。具体地，图7示出了本发明实施例三提供的特征库构建装置的框图。如图7所示，该特征库构建装置700可以包括获取模块701、提取模块702、过滤模块703和构建模块704，其中：
[0109]
获取模块701，用于获取第一文件样本集，所述第一文件样本集包括多个文件样本和每个文件样本的清理等级；
[0110]
提取模块702，用于从所述第一文件样本集的每个文件样本中提取可影响该文件样本的清理等级的特征词；
[0111]
过滤模块703，用于对提取的特征词进行过滤处理，以获得多个有效特征词；
[0112]
构建模块704，用于设置每个有效特征词的权重，并根据每个有效特征词和每个有效特征词的权重构建用于推荐文件的清理等级的特征库。
[0113]
可选地，所述提取模块具体用于：从所述第一文件样本集的每个文件样本的内部固有属性中提取可影响该文件样本的清理等级的特征词；和/或从所述第一文件样本集的每个文件样本的外部操作属性中提取可影响该文件样本的清理等级的特征词。
[0114]
可选地，所述构建模块在执行设置每个有效特征词的权重时，具体用于：获取第二文件样本集，所述第二文件样本集包括训练集和测试集，所述训练集和测试集中均包括多个文件样本和每个文件样本的清理等级；从获得的所有有效特征词中筛选出用于确定权重的目标特征词；从所述训练集的多个文件样本中提取与所述目标特征词相匹配的特征，将从训练集中提取的特征作为输入并将对应的清理等级作为输出对预置的机器学习模型进行训练；从所述测试集的多个文件样本中提取与所述目标特征词相匹配的特征，将从测试集中提取的特征输入至训练好的机器学习模型，得到输出的清理等级；根据所述输出的清理等级和所述测试集中对应的清理等级，确定用于表征所述训练好的机器学习模型的优劣的指标值；根据所述指标值确定对应的有效特征词的权重。
[0115]
可选地，所述构建模块在执行从获得的所有有效特征词中筛选出用于确定权重的目标特征词时，具体用于：从获得的所有有效特征词中随机筛选出一未确定权重的有效特征词，作为所述目标特征词；所述构建模块在执行根据所述指标值确定对应的有效特征词的权重时，具体用于：根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前目标特征词的权重。
[0116]
可选地，所述构建模块在执行从获得的所有有效特征词中筛选出用于确定权重的目标特征词时，具体用于：从获得的所有有效特征词中随机剔除一未确定权重的有效特征词，并将剩余的所有有效特征词作为所述目标特征词；所述构建模块在执行根据所述指标值确定对应的有效特征词的权重时，具体用于：根据所述训练好的机器学习模型的准确率、精确率和召回率确定当前被剔除的有效特征词的权重。
[0117]
实施例四
[0118]
本发明的实施例四还提供了一种横向联邦学习系统，该横向联邦学习系统与上述实施例二提供的模型训练方法相对应，相应的技术特征和技术效果在本实施例中不再详述，相关之处可参考上述实施例二。具体地，图8示出了本发明实施例四提供的横向联邦学习系统的框图。如图8所示，该横向联邦学习系统800可以包括一个中心服务器801和多个客户端802，其中：
[0119]
所述中心服务器801用于：随机获取一机器学习模型并下发至各个客户端802,聚合各个客户端802上传的模型梯度，并将聚合结果下发至各个客户端802；
[0120]
所述客户端802用于：获取第三文件样本集，从所述第三文件样本集的多个文件样本中提取与特征库中各个有效特征词相匹配的特征，将从第三文件样本集中提取的特征作为输入并将对应的清理等级作为输出对所述机器学习模型进行训练，计算出训练好的机器学习模型的模型梯度，将所述模型梯度上传至所述中心服务器801，并按照所述聚合结果更新训练好的机器学习模型的模型参数；
[0121]
其中，所述第三文件样本集包括多个文件样本和每个文件样本的清理等级，且所述第三文件样本集中的每个文件样本均是由该客户端产生的，所述特征库通过实施例一所述的方法获得。
[0122]
可选地，所述中心服务器在执行聚合各个客户端上传的模型梯度，并将聚合结果下发至各个客户端时，具体用于：根据聚合结果获取一模型标识，并将所述聚合结果和所述模型标识下发至各个客户端；其中，当所述聚合结果满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型可正常工作的工作标识；当所述聚合结果不满足期望阈值时，所述模型标识为用于表征更新后的机器学习模型需继续训练的训练标识；所述客户端在执行按照所述聚合结果更新训练好的机器学习模型的模型参数之后，还用于：当所述模型标识为工作标识时，所述客户端监听是否接收到垃圾清理指令，若是则根据更新后的机器学习模型输出本地文件的清理等级；当所述模型标识为训练标识时，所述客户端继续训练更新后的机器学习模型。
[0123]
可选地，所述中心服务器在执行随机获取一机器学习模型并下发至各个客户端时，具体用于：随机获取一机器学习模型，将所述机器学习模型和所述机器学习模型的训练时机下发至各个客户端；所述客户端在执行获取第三文件样本集时，具体用于：监测到当前时刻满足所述训练时机时，获取第三文件样本集。
[0124]
实施例五
[0125]
本实施例还提供一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等，其上存储有计算机程序，所述计算机程序被处理器执行
时实现特征库构建方法的步骤。
[0126]
显然，本领域的技术人员应该明白，上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。
[0127]
需要说明的是，本发明实施例序号仅仅为了描述，并不代表实施例的优劣。
[0128]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。
[0129]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型转换方法、处理芯片以及电子设备与流程

一种特征库构建方法和模型训练方法与流程

相关文献

最热文献