一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

样本分组方法、装置、设备及计算机可读存储介质与流程

2022-07-30 16:27:40 来源:中国专利 TAG:


1.本技术涉及数据处理技术领域,特别涉及一种样本分组方法、装置、设备及计算机可读存储介质。


背景技术:

2.在数据处理技术领域,ab实验(也称分组对比实验)是常用的用来分析不同方案的效果差异的手段。通常,ab实验首先通过样本分组方法将大量的实验样本划分为相似的多组样本,然后对多组样本进行不同方案的实验,根据多组样本之间的实验指标的变化差异来分析各个方案的效果差异。
3.因此,样本分组方法的性能直接影响ab实验的效率和效果,而由于不同ab实验所需分组的样本特性不同,提供一种具有强通用性且性能较高的样本分组方法显得尤为重要。


技术实现要素:

4.本技术提供了一种样本分组方法、装置、设备及计算机可读存储介质,以提高样本分组的通用性以及样本分组的性能。
5.第一方面,提供一种样本分组方法,所述方法包括:
6.获取待分组的多个样本,每个样本包括对应的第一指标值,任一样本的第一指标值用于指示所述任一样本与其他样本之间的差异;
7.基于所述每个样本对应的第一指标值和划分粒度,将所述多个样本划分为多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,所述划分粒度用于确定所述多个中间组的组数,所述划分粒度基于上一次迭代分组结果确定;
8.根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的第一分组结果,所述第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。
9.在一种可能的实施方式中,所述基于所述每个样本对应的第一指标值和划分粒度,将所述多个样本划分为多个中间组,包括:基于所述每个样本对应的第一指标值对所述多个样本进行排序,得到排序后的样本序列;根据所述样本序列中每相邻两个样本之间的第一指标值的差值,获取所述样本序列对应的差值序列;基于所述差值序列和所述划分粒度,将所述多个样本划分为多个中间组。
10.在一种可能的实施方式中,所述基于所述差值序列和所述划分粒度,将所述多个样本划分为多个中间组,包括:基于所述差值序列和所述划分粒度,获取差值阈值;依次遍历所述差值序列中的每个差值,根据所述每个差值与所述差值阈值的关系将所述多个样本划分为多个中间组。
11.在一种可能的实施方式中,所述根据所述每个差值与所述差值阈值的关系将所述多个样本划分为多个中间组,包括:初始化第一个中间组;
12.对于所述每个差值中的第一差值,当所述第一个中间组包括的样本数量小于下限阈值时,将所述第一差值对应的样本划分到所述第一个中间组中;
13.当所述第一个中间组包括的样本数量大于等于所述下限阈值且小于上限阈值时,若所述第一差值小于所述差值阈值,将所述第一差值对应的样本划分到所述第一个中间组中,若所述第一差值大于等于所述差值阈值,确定第一个中间组包括的样本并初始化第二个中间组,将所述第一差值对应的样本划分到所述第二个中间组中;
14.当所述第一个中间组包括的样本数量大于等于所述上限阈值时,确定第一个中间组包括的样本并初始化第二个中间组,将所述第一差值对应的样本划分到所述第二个中间组中。
15.在一种可能的实施方式中,所述划分粒度为分位值;所述基于所述差值序列和所述划分粒度,获取差值阈值,包括:对所述差值序列进行排序,得到排序后的差值序列;将所述排序后的差值序列中位于所述分位值处的差值作为所述差值阈值。
16.在一种可能的实施方式中,所述根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的第一分组结果,包括:根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的迭代分组结果;当所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于所述差异度阈值,将所述迭代分组结果作为所述第一分组结果;当所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于所述差异度阈值,更新所述划分粒度;基于所述每个样本对应的第一指标值和更新的划分粒度,将所述多个样本划分为多个更新的中间组;根据所述分组比例和所述多个更新的中间组分别包括的样本,获取所述多个样本对应的第一分组结果。
17.在一种可能的实施方式中,所述更新所述划分粒度,包括:若所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照参考方向更新所述划分粒度;若所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照反参考方向更新所述划分粒度。
18.在一种可能的实施方式中,所述根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的迭代分组结果,包括:按照所述分组比例对所述多个中间组中每个中间组包括的样本分别进行随机分组,得到所述多个中间组分别对应的中间分组结果;将所述多个中间组分别对应的中间分组结果之间按照所述分组比例合并,得到所述多个样本对应的初始分组结果;循环执行上述操作,直至所述初始分组结果中的各个组包括的样本之间的第一指标值的差异度大于所述差异度阈值,将所述初始分组结果作为所述迭代分组结果,或者,循环次数达到循环阈值,将当前循环的初始分组结果作为所述迭代分组结果。
19.在一种可能的实施方式中,所述每个样本还包括对应的第二指标值,任一样本的第二指标值用于指示所述任一样本与其他样本之间的差异;
20.所述根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的第一分组结果之后,还包括:对于所述多个中间组中的任一中间组,基于所述划分粒度和所述任一中间组包括的样本分别对应的第二指标值,将所述任一中间组包括的样本划分为多
个子中间组,不同子中间组包括的样本的第二指标值位于不同的连续的取值区间;根据所述分组比例和所述多个子中间组分别包括的样本,获取所述任一中间组包括的样本对应的子分组结果,所述子分组结果中的各个组包括的样本之间的第二指标值的差异度小于等于所述差异度阈值;基于所述多个中间组分别对应的子分组结果,获取所述多个样本对应的第二分组结果。
21.第二方面,提供了一种样本分组装置,所述装置包括:
22.第一获取模块,用于获取待分组的多个样本,每个样本包括对应的第一指标值,任一样本的第一指标值用于指示所述任一样本与其他样本之间的差异;
23.划分模块,用于基于所述每个样本对应的第一指标值和划分粒度,将所述多个样本划分为多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,所述划分粒度用于确定所述多个中间组的组数,所述划分粒度基于上一次迭代分组结果确定;
24.第二获取模块,用于根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的第一分组结果,所述第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。
25.在一种可能的实施方式中,划分模块,用于基于所述每个样本对应的第一指标值对所述多个样本进行排序,得到排序后的样本序列;根据所述样本序列中每相邻两个样本之间的第一指标值的差值,获取所述样本序列对应的差值序列;基于所述差值序列和所述划分粒度,将所述多个样本划分为多个中间组。
26.在一种可能的实施方式中,划分模块,用于基于所述差值序列和所述划分粒度,获取差值阈值;依次遍历所述差值序列中的每个差值,根据所述每个差值与所述差值阈值的关系将所述多个样本划分为多个中间组。
27.在一种可能的实施方式中,划分模块,用于初始化第一个中间组;对于所述每个差值中的第一差值,当所述第一个中间组包括的样本数量小于下限阈值时,将所述第一差值对应的样本划分到所述第一个中间组中;
28.当所述第一个中间组包括的样本数量大于等于所述下限阈值且小于上限阈值时,若所述第一差值小于所述差值阈值,将所述第一差值对应的样本划分到所述第一个中间组中,若所述第一差值大于等于所述差值阈值,确定第一个中间组包括的样本并初始化第二个中间组,将所述第一差值对应的样本划分到所述第二个中间组中;
29.当所述第一个中间组包括的样本数量大于等于所述上限阈值时,确定第一个中间组包括的样本并初始化第二个中间组,将所述第一差值对应的样本划分到所述第二个中间组中。
30.在一种可能的实施方式中,所述划分粒度为分位值;划分模块,用于对所述差值序列进行排序,得到排序后的差值序列;将所述排序后的差值序列中位于所述分位值处的差值作为所述差值阈值。
31.在一种可能的实施方式中,第二获取模块,用于根据分组比例和所述多个中间组分别包括的样本,获取所述多个样本对应的迭代分组结果;当所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于所述差异度阈值,将所述迭代分组结果作为所述第一分组结果;当所述迭代分组结果中的各个组包括的样本之间的第一指标值的
差异度大于所述差异度阈值,更新所述划分粒度;基于所述每个样本对应的第一指标值和更新的划分粒度,将所述多个样本划分为多个更新的中间组;根据所述分组比例和所述多个更新的中间组分别包括的样本,获取所述多个样本对应的第一分组结果。
32.在一种可能的实施方式中,第二获取模块,用于若所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照参考方向更新所述划分粒度;若所述迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照反参考方向更新所述划分粒度。
33.在一种可能的实施方式中,第二获取模块,用于按照所述分组比例对所述多个中间组中每个中间组包括的样本分别进行随机分组,得到所述多个中间组分别对应的中间分组结果;将所述多个中间组分别对应的中间分组结果之间按照所述分组比例合并,得到所述多个样本对应的初始分组结果;循环执行上述操作,直至所述初始分组结果中的各个组包括的样本之间的第一指标值的差异度大于所述差异度阈值,将所述初始分组结果作为所述迭代分组结果,或者,循环次数达到循环阈值,将当前循环的初始分组结果作为所述迭代分组结果。
34.在一种可能的实施方式中,所述每个样本还包括对应的第二指标值,任一样本的第二指标值用于指示所述任一样本与其他样本之间的差异;该装置还包括:
35.第三获取模块,用于对于所述多个中间组中的任一中间组,基于所述划分粒度和所述任一中间组包括的样本分别对应的第二指标值,将所述任一中间组包括的样本划分为多个子中间组,不同子中间组包括的样本的第二指标值位于不同的连续的取值区间;根据所述分组比例和所述多个子中间组分别包括的样本,获取所述任一中间组包括的样本对应的子分组结果,所述子分组结果中的各个组包括的样本之间的第二指标值的差异度小于等于所述差异度阈值;基于所述多个中间组分别对应的子分组结果,获取所述多个样本对应的第二分组结果。
36.第三方面,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以使计算机设备实现上述任一项所述的样本分组方法。
37.第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以使计算机实现上述任一项所述的样本分组方法。
38.第五方面,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述任一所述的样本分组方法。
39.本技术提供的技术方案至少可以带来如下有益效果:
40.本技术提供的技术方案,由于样本对应的第一指标值用于指示该样本与其他样本之间的差异,且采用迭代的方式基于每次迭代的分组结果来确定划分粒度,因而基于每个样本对应的第一指标值和划分粒度将多个样本划分到多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,从而使同一个中间组的样本之间的差异较小,
进而实现将多个样本划分为差异较小的多个样本组,对于不同特性的样本具有较强的通用性,提高了样本分组的性能。
附图说明
41.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
42.图1是本技术实施例提供的一种样本分组方法的实施环境的示意图;
43.图2是本技术实施例提供的一种样本分组方法的流程图;
44.图3是本技术实施例提供的一种获取第二分组结果的过程示意图;
45.图4是本技术实施例提供的一种样本分组方法的过程示意图;
46.图5是本技术实施例提供的一种遍历差值序列的过程示意图;
47.图6是本技术实施例提供的一种样本分组装置的示意图;
48.图7是本技术实施例提供的一种计算机设备的结构示意图;
49.图8是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
50.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
51.需要声明的是,本技术实施例的技术方案所提及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均在遵守相关政策法规且取得对应主体同意的基础上收集并加工,该数据经过加工处理后使用于大数据应用场景,无法识别至任意自然人或与其隐私产生特定关联。例如,本技术中涉及到的待分组的多个样本都是在经用户授权或者经过各方充分授权的情况下获取的。
52.由于样本分组方法的性能直接影响ab实验的效果,而样本分组方法的性能由分组结果中各个组之间的差异度决定,分组结果中各个组之间的差异度越小样本分组方法的性能越好。因此,本技术实施例提供了一种样本分组方法,该方法能够将多个样本划分为差异性较小的多个样本组,并且对于不同特性的样本具有较强的通用性。
53.图1示出了本技术实施例提供的样本分组方法的实施环境的示意图。该实施环境包括:计算机设备101,计算机设备101可以是指终端,也可以是指服务器。可选地,计算机设备101中安装和运行有应用程序,该应用程序是支持对多个样本进行分组的应用程序。
54.示例性地,终端可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如个人计算机(personal computer,pc)、智能手机、个人数字助手(personal digital assistant,pda)、可穿戴设备、掌上电脑ppc(pocket pc,ppc)、平板电脑、智能车机等。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容
分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
55.本领域技术人员应能理解上述计算机设备101仅为举例,其他现有的或今后可能出现的计算机设备也可适用于本技术,也应包含在本技术保护范围以内,并在此以引用方式包含于此。
56.需要说明的是,本技术实施例提供的样本分组方法可应用于任何需要对多个样本进行分组的场景。例如,互联网、医疗或教育等领域中进行的ab实验。可以理解的是,在互联网领域对应的样本可以为用户数据,例如用户对应的标识,在医疗领域对应的样本可以为患者数据,例如患者对应的标识,在教育领域对应的样本可以为学生数据,例如学生对应的标识。
57.示例性地,以互联网领域中进行的ab实验为例,当互联网产品需要进行迭代优化时,例如,产品界面颜色的调整或者产品逻辑的调整等。可针对产品的新旧版本进行ab实验,首先根据分组指标将使用该产品的用户分为实验组和对照组,在同一时间维度上,实验组的用户访问新版本,对照组的用户访问旧版本。然后采集各个版本对应的用户体验数据或业务数据等,对所采集的用户体验数据或业务数据进行分析,以确定各个版本对应的实验指标的效果差异。最后将实验指标效果较好的版本作为最终采用的迭代版本。
58.可选地,ab实验的实验对象可以是一个产品的版本,也可以是一个产品中的一个或多个元素。例如,可以针对产品中的界面颜色进行ab实验,此时的实验对象是界面颜色。其中,红色界面、蓝色界面以及黄色界面分别作为ab实验的三个版本,此时,需要根据分组指标将使用该产品的用户分为实验组1、实验组2、实验组3。也就是说,本技术实施例不对样本分组的组数进行限定,可以根据应用场景灵活调整。
59.在本技术实施例中,分组指标用于确定样本分组的分组结果中各个组包括的样本之间的差异度是否小于等于差异度阈值,即衡量分组结果性能的指标。示例性地,当ab实验的实验对象为产品的版本时,ab实验的实验指标可以包括浏览时长,采用控制变量法的原理,分组指标为能够影响ab实验的实验指标不准确的指标,此时,用于样本分组的分组指标可以包括用户的历史浏览时长和用户年龄段。基于本技术实施例提供的样本分组方法,能够根据该分组指标将大量的用户分为实验组和对照组,且实验组和对照组之间用户的平均历史浏览时长和平均年龄相似。由此,使得基于该实验组和对照组进行ab实验得到的实验指标的效果差异主要由产品的版本不同导致,不受实验组和对照组之间的分组指标的差异的影响,大幅提升了实验效果的置信度。
60.基于上述图1所示的实施环境,本技术实施例提供一种样本分组方法,该方法应用于计算机设备101,计算机设备101可以为终端,也可以为服务器,本技术实施例对此不进行限定。如图2所示,本技术实施例提供的样本分组方法包括如下步骤201-步骤203。
61.步骤201,获取待分组的多个样本,每个样本包括对应的第一指标值,任一样本的第一指标值用于指示任一样本与其他样本之间的差异。
62.本技术实施例不对样本的类型进行限定,该多个样本可以为任意应用场景下的ab实验对应的实验样本,例如,在互联网应用场景下,该多个样本为多个用户对应的标识。在获取待分组的多个样本之前,需要先确定该待分组的多个样本对应的一个或多个分组指标。本技术实施例不对确定多个样本的分组指标的方式进行限定,例如,分组指标可以根据
人工经验确定,或者根据ab实验的实验对象和实验指标等确定。通常,分组指标为能够影响实验指标的效果差异的指标,可选地,分组指标可以与实验指标相同,也可以与实验指标不同,该分组指标可以为一个也可以为多个。
63.可选地,当该多个样本对应的分组指标为一个时,该第一指标值即为样本对应该分组指标的取值;当该多个样本对应的分组指标为多个时,该第一指标值可以为样本对应的该分组指标中任一指标的取值。由于分组指标能够用于确定样本分组方法的分组结果中各个组包括的样本之间的差异度是否小于等于差异度阈值,因此,分组指标中的每一指标用于确定样本分组方法的分组结果中各个组包括的样本之间的该每一指标对应的差异度是否小于等于差异度阈值。可选地,差异度阈值可以根据经验设置,或者根据应用场景灵活调整,例如,差异度阈值为0.002。
64.可以理解的是,差异度也可以用相似度来表示,可选的,分组指标中的每一指标用于确定样本分组方法的分组结果中各个组包括的样本之间的该每一指标对应相似度大于等于相似度阈值,可选地,相似度阈值可以根据经验设置,或者根据应用场景灵活调整,例如,相似度阈值为0.99。当分组指标包括第一指标时,第一指标值用于确定分组结果中各个组包括的样本之间的该每一指标对应第一指标值的相似度大于等于相似度阈值。
65.在一种可能的实施方式中,计算机设备的数据库中包括该多个样本以及每个样本对应的第一指标值,或者与计算机设备连接的服务器或者终端的数据库中包括该多个样本以及每个样本对应的第一指标值。因此,计算机设备能够从数据库中获取到该待分组的多个样本以及每个样本对应的第一指标值。可选地,计算机设备还可以从互联网的历史记录数据中,分析提取得到该待分组的多个样本以及每个样本对应的第一指标值。
66.步骤202,基于每个样本对应的第一指标值和划分粒度,将多个样本划分为多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,划分粒度用于确定多个中间组的组数,划分粒度基于上一次迭代分组结果确定。
67.在一种可能的实施方式中,获取每个样本对应的第一指标值和划分粒度后,可以根据划分粒度将多个样本划分到不同的多个中间组中,每个中间组包括的样本的第一指标值对应一个连续的取值区间,且多个中间组中各个中间组包括的样本的第一指标值的取值区间不同。由此,使得第一指标值相近的样本能够划分到同一个中间组。又由于任一样本的第一指标值用于指示任一样本与其他样本之间的差异,因而第一指标值相近的样本划分到同一个中间组,意味着同一个中间组的样本之间的差异较小。
68.在本技术实施例中,划分粒度代表了划分多个中间组的粗细程度,划分粒度越粗划分得到的中间组的组数越少,各个中间组之间的差距越大,划分粒度越细划分得到的中间组的组数越多,各个中间组之间的差距越小。
69.本技术实施例不对划分粒度的表示形式进行限定,可选地,划分粒度可以直接用组数表示,例如,划分粒度为3组;或者划分粒度可以用倍率表示,例如,划分粒度为1.2倍;或者划分粒度可以用分位值表示,例如,划分粒度为90分位。可以理解的是,不同的划分粒度能够划分得到不同的多个中间组,本技术实施例中的划分粒度是通过迭代过程中的分组结果更新确定的,由此,对于不同的多个样本更新确定的划分粒度可能是不同的,且是最符合当前多个样本的样本特征的。可选地,第一次迭代过程中的划分粒度可以根据经验设置,或者,根据应用场景调整。
70.在一种可能的实施方式中,当划分粒度用组数表示时,基于每个样本对应的第一指标值和划分粒度,将多个样本划分为多个中间组,包括:基于每个样本对应的第一指标值对多个样本进行排序,得到排序后的样本序列;将排序后的样本序列按照组数值和排列顺序平均划分为对应的多个中间组。示例性地,排序后的样本序列包括20个样本序列值,划分粒度为2组,将排在前10位样本序列值对应的样本划分为一个中间组,将排在后10位样本序列值对应的样本划分为另一个中间组。
71.在一种可能的实施方式中,当划分粒度用倍率或者分位值表示时,基于每个样本对应的第一指标值和划分粒度,将多个样本划分为多个中间组,包括但不限于如下步骤2021-步骤2023。
72.步骤2021,基于每个样本对应的第一指标值对多个样本进行排序,得到排序后的样本序列。
73.可选地,按照第一指标值对多个样本进行排序可以为按照第一指标值从大到小的顺序排列,也可以按照第一指标值从小到大的顺序排列。示例性地,以多个样本的数量为5为例,样本1-样本5分别对应的第一指标值为5、7、3、2和10,那么,按照第一指标值从大到小的顺序排列,得到排序后的样本序列为可以表示为{10;7;5;3;2}。由此,通过样本序列能够得到该多个样本针对第一指标值的取值范围,以及在该多个样本针对第一指标值的取值范围内的取值稀疏度。
74.步骤2022,根据样本序列中每相邻两个样本之间的第一指标值的差值,获取样本序列对应的差值序列。
75.由于样本序列是排序后的序列,因此,样本序列中每相邻两个样本之间的第一指标值的差值能够表示该多个样本针对第一指标的变化幅度。可选地,按照相同的方向获取每相邻两个样本之间的第一指标值的差值,例如,对于样本序列中的n个序列值,n为大于2的正整数,依次获取后一个序列值与相邻前一个序列值之间的差值,或者,依次获取前一个序列值与相邻后一个序列值之间的差值,得到n-1个差值,该n-1个差值即为获取的差值序列,其中,该n-1个差值保持样本序列的顺序。
76.在本技术实施例中,样本序列与差值序列具有对应的关系,即一个差值序列值对应一个样本序列值,而一个样本序列值对应一个样本,因此,一个差值序列值对应一个样本。但由于差值序列相较于样本序列少一个序列值,使得多个差值序列值中包括1个对应两个样本的差值序列值。可选地,差值序列中的第1位差值序列值对应两个样本,或者,差值序列中的最后1位差值序列值对应两个样本。
77.示例性地,对于样本序列{10;7;5;3;2},依次获取前一个序列值与相邻后一个序列值之间的差值为3、2、2和1,则该样本序列对应的差值序列可以表示为{3;2;2;1}。可选地,第1位差值序列值3对应样本5,第2位差值序列值2对应样本2,第3位差值序列值2对应样本1,最后1位差值序列值1对应样本3和样本4;或者,第1位差值序列值3对应样本5和样本2,第2位差值序列值2对应样本1,第3位差值序列值2对应样本3,最后1位差值序列值1对应样本4。
78.步骤2023,基于差值序列和划分粒度,将多个样本划分为多个中间组。
79.在一种可能的实施方式中,由于差值序列保持样本序列的排列顺序,且差值序列值与样本具有对应关系,那么,即可根据该差值序列和划分粒度,将多个样本划分为多个中
间组。
80.可选地,当划分粒度用倍率表示时,基于差值序列和划分粒度,将多个样本划分为多个中间组,包括:获取差值序列中相差倍率大于等于划分粒度的至少一个相邻的两个差值序列值;以至少一个相邻的两个差值序列值作为划分界限,将多个样本划分为多个中间组。例如,差值序列包括19个差值序列值,以划分粒度为1.2倍为例,若差值序列中相差倍率大于等于1.2倍的差值序列值包括差值序列5、6、9和10,那么,将差值序列1-5对应的样本划分为第一中间组,将差值序列6-9对应的样本划分为第二中间组,将差值序列10-19对应的样本划分为第三中间组。
81.可选地,当划分粒度用分位值表示时,基于差值序列和划分粒度,将多个样本划分为多个中间组,包括:基于差值序列和分位值,获取差值阈值;依次遍历差值序列中的每个差值,根据每个差值与差值阈值的关系将多个样本划分为多个中间组。可以理解的是,分位值为能够灵活调整的参数,分位值不同则确定的差值阈值不同,差值阈值作为划分中间组的参数,能够决定中间组的划分粒度的粗细程度,即能够决定中间组的组数。差值序列中的每个差值,即为差值序列中的每个差值序列值。
82.在一种可能的实施方式中,基于该差值序列和分位值,确定差值阈值,包括:对差值序列进行排序,得到排序后的差值序列;将排序后的差值序列中位于该分位值处的差值作为差值阈值。示例性地,以分位值为90为例,若排序后的差值序列包括100个序列值,将该100个序列值中排在第90位的序列值作为差值阈值;若排序后的差值序列包括88个序列值,将该88个序列值中排在第79位的序列值作为差值阈值。也就是说,当差值序列的长度与分位值的乘积为小数的情况下,采用四舍五入的方法获取该小数对应的整数即可,使得可以在排序后的差值序列中获取位于该整数位处的差值作为差值阈值。
83.在本技术实施例中,确定了该分位值在该差值序列中对应的差值阈值后,即可通过遍历差值序列中的每个差值的方式,获取大于等于差值阈值的至少一个差值序列值,以该至少一个差值序列值作为划分界限,将多个样本划分为多个中间组。例如,差值序列包括19个差值序列值,若差值序列中大于等于差值阈值的差值序列值包括差值序列8和15,那么,将差值序列1-7对应的样本划分为第一中间组,将差值序列8-14对应的样本划分为第二中间组,将差值序列15-19对应的样本划分为第三中间组。
84.可选地,对于划分得到的中间组可能存在包括的样本数量过少的情况,例如,中间组包括的样本数量为1,此时,难以再根据分组比例对该中间组包括的样本进行分组。基于此,本技术实施例通过设定上限阈值和下限阈值来限制中间组包括的样本的数量,即中间组中包括的样本数量在上限阈值和下限阈值之间,既不能多于上限阈值,也不能少于下限阈值。可选地,对于上限阈值和下限阈值的选取方式本技术实施例不进行限定,例如,可以根据经验设置,或者根据应用场景灵活调整。通常,下限阈值的选取与分组比例相关,以避免上述无法对中间组包括的样本按照分组比例进行分组的问题。例如,若分组比例为1:2,则下限阈值至少为3。
85.在一种可能的实施方式中,当中间组包括对应的上限阈值和下限阈值时,根据每个差值与差值阈值的关系将多个样本划分为多个中间组,包括:初始化第一个中间组;对于每个差值中的第一差值,当第一个中间组包括的样本数量小于下限阈值时,将第一差值对应的样本划分到第一个中间组中;当第一个中间组包括的样本数量大于等于下限阈值且小
于上限阈值时,若第一差值小于差值阈值,将第一差值对应的样本划分到第一个中间组中,若第一差值大于等于差值阈值,确定第一个中间组包括的样本并初始化第二个中间组,将第一差值对应的样本划分到第二个中间组中;当第一个中间组包括的样本数量大于等于上限阈值时,确定第一个中间组包括的样本并初始化第二个中间组,将第一差值对应的样本划分到第二个中间组中。
86.可以理解的是,在确定第一个中间组包括的样本并初始化第二个中间组之后,对于每个差值中的第二差值,当第二个中间组包括的样本数量小于下限阈值时,将第二差值对应的样本划分到第二个中间组中;当第二个中间组包括的样本数量大于等于下限阈值且小于上限阈值时,若第二差值小于差值阈值,将第二差值对应的样本划分到第二个中间组中,若第二差值大于等于差值阈值,确定第二个中间组包括的样本并初始化第三个中间组,将第二差值对应的样本划分到第三个中间组中;当第二个中间组包括的样本数量大于等于上限阈值时,确定第二个中间组包括的样本并初始化第三个中间组,将第二差值对应的样本划分到第三个中间组中。以此类推,直至遍历结束该差值序列中的每个差值。由此,即可得到划分后的多个中间组,以及该多个中间组分别包括的样本。
87.步骤203,根据分组比例和多个中间组分别包括的样本,获取多个样本对应的第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。
88.在示例性实施例中,在获取到多个中间组分别包括的样本之后,按照分组比例可以分别将每个中间组包括的样本进行分组,得到每个中间组包括的样本对应的中间分组结果,根据该多个中间组分别对应的中间分组结果,即可获取多个样本对应的第一分组结果。由于相较于多个样本对应的取值范围,每个中间组包括的样本位于更小的第一指标值的取值区间内,并且每个中间组之间对应的取值区间不同。由于每个中间组的取值区间小于多个样本的取值区间,因此,先对于每个中间组进行分组,再将每个中间分组结果合并,由此得到的第一分组结果的性能优于直接根据多个样本进行分组的性能。
89.可选地,分组比例根据应用场景的需求可灵活调整,例如,分组比例可以为1:1,则将中间组分为组1和组2,组1和组2分别包括中间组中50%的样本;分组比例还可以为2:3:5,则将中间组分为组1、组2和组3,组1包括中间组中20%的样本,组2包括中间组中30%的样本,组3包括中间组中50%的样本。
90.在一种可能的实施方式中,通过迭代更新划分粒度的方法,能够寻找更准确的划分粒度下的第一分组结果。可选地,根据分组比例和多个中间组分别包括的样本,获取多个样本对应的第一分组结果,包括但不限于如下步骤2031和步骤2032。
91.步骤2031,根据分组比例和多个中间组分别包括的样本,获取多个样本对应的迭代分组结果。
92.可选地,按照分组比例分别将每个中间组包括的样本进行分组,得到每个中间组包括的样本对应的中间分组结果,通过将该多个中间组分别对应的中间分组结果合并,得到多个样本对应的迭代分组结果。本技术实施例不对按照分组比例进行分组的方式进行限定,可选地,按照分组比例进行随机分组,或者,按照分组比例根据分组规则进行分组。其中,分组规则可以根据经验设置,例如,分组规则为样本序列中相邻的两个样本不可以分到同一个组中。
93.在一种可能的实施方式中,根据分组比例和多个中间组分别包括的样本,获取多个样本对应的迭代分组结果,包括:按照分组比例对多个中间组中每个中间组包括的样本分别进行随机分组,得到多个中间组分别对应的中间分组结果;将多个中间组分别对应的中间分组结果之间按照分组比例合并,得到多个样本对应的初始分组结果;循环执行上述操作,直至初始分组结果中的各个组包括的样本之间的第一指标值的差异度大于差异度阈值,将初始分组结果作为迭代分组结果,或者,循环次数达到循环阈值,将当前循环的初始分组结果作为迭代分组结果。
94.可选地,将多个中间组分别对应的中间分组结果之间按照分组比例合并,包括:按照中间分组结果中各个组所占的分组比例,将各个中间组对应的中间分组结果中占相同分组比例的组合并。例如,以分组比例为2:3:5,中间分组结果包括组1、组2和组3,组1包括中间组中20%的样本,组2包括中间组中30%的样本,组3包括中间组中50%的样本为例,将各个中间组对应的中间分组结果中的组1合并,各个中间组对应的中间分组结果中的组2合并,各个中间组对应的中间分组结果中的组3合并,得到合并后的组1、组2和组3,该合并后的组1、组2和组3即为初始分组结果。
95.步骤2032,当迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值,将迭代分组结果作为第一分组结果;当迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于差异度阈值,更新划分粒度,基于更新的划分粒度获取第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。
96.在本技术实施例中,基于更新的划分粒度获取第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值,包括:基于每个样本对应的第一指标值和更新的划分粒度,将多个样本划分为多个更新的中间组;根据分组比例和多个更新的中间组分别包括的样本,获取多个样本对应的第一分组结果。
97.可以理解的是,更新划分粒度后执行的操作可参见步骤202和步骤203所执行的操作,此处不再赘述。由于每一次迭代都会产生一个更新的划分粒度,因此每一次迭代都会对应一个迭代分组结果,直至迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值,将迭代分组结果作为第一分组结果,迭代结束。
98.在本技术实施例中,对于当前迭代中的迭代分组结果,更新划分粒度,包括:若迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照参考方向更新划分粒度;若迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照反参考方向更新划分粒度。
99.可选地,划分粒度的更新方向包括增长和减小,参考方向可以为增长或减小中的任一种,反参考方向为与参考方向相反的方向。通过每一次迭代的分组结果的变化趋势来确定不同的更新方向,加快了获取到第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值的速度。在本技术实施例中,每次迭代更新划分粒度之后,还会记录已经更新过的划分粒度的值,并在每次迭代更新划分粒度时根据记录的已经更新过的划分粒度的值进行筛选,例如,若当前迭代更新的划分粒度的值属
于记录的已经更新过的划分粒度的值时,再次更新划分粒度。以避免基于重复的划分粒度获取重复的迭代分组结果,进一步加快了获取到第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值的速度。
100.在一种可能的实施方式中,按照参考方向更新划分粒度,包括:按照参考方向和参考步长更新划分粒度;按照反参考方向更新划分粒度,包括:按照反参考方向和反参考步长更新划分粒度。可选地,参考步长和反参考步长均可根据经验设置,或者根据应用场景灵活调整,参考步长和反参考步长可以相同也可以不同。
101.本技术实施例不对计算各个组包括的样本之间的第一指标值的差异度的方式进行限定,可选地,可以通过计算各个组包括的样本之间的第一指标值的均值或方差来计算各个组之间的差异度。示例性地,以均值为例,可以采用公式(mean
max-mean
min
)/mean
max
来计算各个组之间的差异度。其中,mean
max
表示各个组包括的样本中最大的第一指标值的均值,mean
min
表示各个组包括的样本中最小的第一指标值的均值。
102.由此,通过迭代更新划分粒度,能够获取不同划分粒度下的第一分组结果,直至找到性能较高的第一分组结果。此外,通过划分粒度的更新来调整获取的中间组的组数,使得中间组的组数无需根据人工经验针对特定的样本集来设置,而是通过迭代更新的方式自动寻找适应于当前样本集的组数,使得本技术实施例提供的样本分组方法具有较强的通用性。
103.通过上述步骤201-步骤203,基于多个样本分别对应的第一指标值,获取到了多个样本对应的第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。在一种可能的实施方式中,该多个样本的分组指标可能包括多个,对于分组指标包括多个的情况,在获取完第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值之后,将划分得到的多个中间组中每个中间组包括的样本分别作为整体样本集,重新采用步骤201-步骤203获取对应的分组结果。
104.示例性地,以分组指标包括的第二指标为例,获取的多个样本中的每个样本还包括对应的第二指标值。可选地,根据分组比例和多个中间组分别包括的样本,获取多个样本对应的第一分组结果之后,还包括:对于多个中间组中的任一中间组,基于划分粒度和任一中间组包括的样本分别对应的第二指标值,将任一中间组包括的样本划分为多个子中间组,不同子中间组包括的样本的第二指标值位于不同的连续的取值区间;根据分组比例和多个子中间组分别包括的样本,获取任一中间组包括的样本对应的子分组结果,子分组结果中的各个组包括的样本之间的第二指标值的差异度小于等于差异度阈值。
105.可选地,该第二指标为该分组指标中的除第一指标之外的任一指标,同理,任一样本的第二指标值也用于指示任一样本与其他样本之间的差异。
106.在本技术实施例中,获取任一中间组包括的样本对应的子分组结果,子分组结果中的各个组包括的样本之间的第二指标值的差异度小于等于差异度阈值之后,即可基于多个中间组分别对应的子分组结果,获取多个样本对应的第二分组结果。可选地,基于多个中间组分别对应的子分组结果,获取多个样本对应的第二分组结果,包括:将该多个中间组分别对应的子分组结果按照分组比例进行合并,得到多个样本对应的第二分组结果。示例性地,以分组比例为1:1为例,对于3个中间组,若中间组1对应的子分组结果为子组11和子组
12,中间组2对应的子分组结果为子组21和子组22,中间组3对应的子分组结果为子组31和子组32,将子组11、子组21和子组31合并,将子组12、子组22和子组32合并,得到第二分组结果。
107.在一种可能的实施方式中,参见图3,图3为本技术实施例提供的一种获取第二分组结果的过程示意图。如图3所示,对于待分配的多个样本,首先基于每个样本对应的第一指标值获取第一分组结果,该过程中,能够将多个样本划分为第一个中间组、第二个中间组、

、第m个中间组,m为大于2的正整数。
108.示例性地,对于第二个中间组包括的样本,基于第二个中间组包括的样本中每个样本对应的第二指标值将第一个中间组包括的样本进一步划分为第一个子中间组、第二个子中间组、

、第k个中间组,k为大于2的正整数。接下来,按照分组比例将每个子中间组分为实验组和对照组,最后将每个子中间组的实验组合并起来得到第二个中间组对应的实验组,将每个子中间组的对照组合并起来得到第二个中间组对应的对照组。
109.基于同样的原理,可以获取到每个中间组对应的实验组和对照组,进一步地,将每个中间组对应的实验组合并起来得到该多个样本对应的实验组,将每个中间组对应的对照组合并起来得到该多个样本对应的对照组,该多个样本对应的实验组和对照组即为第二分组结果。
110.本技术实施例提供的样本分组方法,由于样本对应的第一指标值用于指示该样本与其他样本之间的差异,且采用迭代的方式基于每次迭代的分组结果来确定划分粒度,因而基于每个样本对应的第一指标值和划分粒度将多个样本划分到多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,从而使同一个中间组的样本之间的差异较小,进而实现将多个样本划分为差异较小的多个样本组,对于不同特性的样本具有较强的通用性,提高了样本分组的性能。
111.示例性地,以划分粒度为分位值为例,参见图4,图4为本技术实施例提供的一种样本分组方法的过程示意图。如图4所示,该样本分组方法包括如下步骤1-步骤13。
112.步骤1,获取待分配的多个样本。
113.可选地,该多个样本中的每个样本包括对应的分组指标值。分组指标值包括至少一个用于确定分组结果中各个组包括的样本之间的差异度是否小于等于差异度阈值的指标的取值。
114.步骤2,判断是否需要基于指标进行分组;当需要基于指标进行分组时,执行步骤3,当不需要基于指标进行分组时,执行步骤13。
115.可选地,遍历分组指标中的每个指标,需要对于分组指标中的每个指标进行分组。当遍历完分组指标中的每个指标后,确定不再需要基于指标进行分组。
116.步骤3,将该多个样本按照指标值排序,得到排序后的样本序列。
117.步骤4,基于样本序列中每相邻两个样本之间的第一指标值的差值,获取该样本序列对应的差值序列。
118.步骤5,基于该差值序列和分位值,获取差值阈值。
119.步骤6,基于该差值阈值遍历该差值序列,将该多个样本划分为多个中间组。
120.可选地,参见图5,图5是本技术实施例提供的一种遍历差值序列的过程示意图,该步骤6包括如下步骤61-步骤66:
121.步骤61,初始化上限阈值、下限阈值和中间组列表。
122.步骤62,判断当前中间组包括的样本数量是否小于下限阈值;当该当前中间组包括的样本数量小于下限阈值时,执行步骤63,当该当前中间组包括的样本数量大于等于下限阈值时,执行步骤64。
123.步骤63,将当前遍历的差值划分到该当前中间组中。
124.步骤64,判断当前中间组包括的样本数量是否小于上限阈值;当该当前中间组包括的样本数量小于上限阈值时,执行步骤65,当该当前中间组包括的样本数量大于等于下限阈值时,执行步骤66。
125.步骤65,判断该差值是否小于差值阈值;当该差值小于差值阈值时,执行步骤63,当该差值大于等于差值阈值时,执行步骤66。
126.步骤66,将该当前中间组加入到中间组列表中,初始化下一个中间组,将该当前遍历的差值划分到该下一个中间组中。
127.通过对该差值序列中的每个差值执行上述步骤61-步骤66,使得遍历结束后,即可通过中间组列表获取得到划分的多个中间组,以及每个中间组包括的样本。
128.步骤7,将各个中间组包括的样本打乱并按照分组比例随机分组,得到各个中间组分别对应的中间分组结果。
129.步骤8,将各个中间组分别对应的中间分组结果合并,得到该多个样本对应的初始分组结果。
130.步骤9,判断该初始分组结果中的各个组之间的差异度是否小于等于差异度阈值;当该初始分组结果中的各个组之间的差异度大于差异度阈值时,执行步骤10,当该初始分组结果中的各个组之间的差异度小于等于差异度阈值时,执行步骤12。
131.步骤10,判断循环次数是否达到循环阈值;当循环次数达到循环阈值时,执行步骤11,该循环次数未达到循环阈值时,返回执行步骤7。
132.步骤11,基于当前循环中的初始分组结果,更新分位值,并返回执行步骤5。
133.步骤12,获取当前循环中的初始分组结果作为该指标对应的目标分组结果,并返回执行步骤2。
134.步骤13,基于各个指标对应的目标分组结果,返回最优分组结果。
135.该样本分组方法通过将样本按照指标排序,获取对应的差值序列,并针对迭代更新的分位值自动化搜索最优的多个中间组的划分结果,使得获取的多个中间组的组数更符合样本特性,增强了样本分组方法的对于不同样本的通用性,提高了分组结果的性能。
136.参见图6,本技术实施例提供了一种样本分组装置,该装置包括:
137.第一获取模块601,用于获取待分组的多个样本,每个样本包括对应的第一指标值,任一样本的第一指标值用于指示任一样本与其他样本之间的差异;
138.划分模块602,用于基于每个样本对应的第一指标值和划分粒度,将多个样本划分为多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,划分粒度用于确定多个中间组的组数,划分粒度基于上一次迭代分组结果确定;
139.第二获取模块603,用于根据分组比例和多个中间组分别包括的样本,获取多个样本对应的第一分组结果,第一分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值。
140.在一种可能的实施方式中,划分模块602,用于基于每个样本对应的第一指标值对多个样本进行排序,得到排序后的样本序列;根据样本序列中每相邻两个样本之间的第一指标值的差值,获取样本序列对应的差值序列;基于差值序列和划分粒度,将多个样本划分为多个中间组。
141.在一种可能的实施方式中,划分模块602,用于基于差值序列和划分粒度,获取差值阈值;依次遍历差值序列中的每个差值,根据每个差值与差值阈值的关系将多个样本划分为多个中间组。
142.在一种可能的实施方式中,划分模块602,用于初始化第一个中间组;对于每个差值中的第一差值,当第一个中间组包括的样本数量小于下限阈值时,将第一差值对应的样本划分到第一个中间组中;
143.当第一个中间组包括的样本数量大于等于下限阈值且小于上限阈值时,若第一差值小于差值阈值,将第一差值对应的样本划分到第一个中间组中,若第一差值大于等于差值阈值,确定第一个中间组包括的样本并初始化第二个中间组,将第一差值对应的样本划分到第二个中间组中;
144.当第一个中间组包括的样本数量大于等于上限阈值时,确定第一个中间组包括的样本并初始化第二个中间组,将第一差值对应的样本划分到第二个中间组中。
145.在一种可能的实施方式中,划分粒度为分位值;划分模块602,用于对差值序列进行排序,得到排序后的差值序列;将排序后的差值序列中位于分位值处的差值作为差值阈值。
146.在一种可能的实施方式中,第二获取模块603,用于根据分组比例和多个中间组分别包括的样本,获取多个样本对应的迭代分组结果;当迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于差异度阈值,将迭代分组结果作为第一分组结果;当迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于差异度阈值,更新划分粒度;基于每个样本对应的第一指标值和更新的划分粒度,将多个样本划分为多个更新的中间组;根据分组比例和多个更新的中间组分别包括的样本,获取多个样本对应的第一分组结果。
147.在一种可能的实施方式中,第二获取模块603,用于若迭代分组结果中的各个组包括的样本之间的第一指标值的差异度小于等于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照参考方向更新划分粒度;若迭代分组结果中的各个组包括的样本之间的第一指标值的差异度大于上一次迭代的分组结果中的各个组包括的样本之间的第一指标值的差异度,按照反参考方向更新划分粒度。
148.在一种可能的实施方式中,第二获取模块603,用于按照分组比例对多个中间组中每个中间组包括的样本分别进行随机分组,得到多个中间组分别对应的中间分组结果;将多个中间组分别对应的中间分组结果之间按照分组比例合并,得到多个样本对应的初始分组结果;循环执行上述操作,直至初始分组结果中的各个组包括的样本之间的第一指标值的差异度大于差异度阈值,将初始分组结果作为迭代分组结果,或者,循环次数达到循环阈值,将当前循环的初始分组结果作为迭代分组结果。
149.在一种可能的实施方式中,每个样本还包括对应的第二指标值,任一样本的第二指标值用于指示任一样本与其他样本之间的差异;参见图6,该装置还包括:
150.第三获取模块604,用于对于多个中间组中的任一中间组,基于划分粒度和任一中间组包括的样本分别对应的第二指标值,将任一中间组包括的样本划分为多个子中间组,不同子中间组包括的样本的第二指标值位于不同的连续的取值区间;根据分组比例和多个子中间组分别包括的样本,获取任一中间组包括的样本对应的子分组结果,子分组结果中的各个组包括的样本之间的第二指标值的差异度小于等于差异度阈值;基于多个中间组分别对应的子分组结果,获取多个样本对应的第二分组结果。
151.本技术实施例提供的样本分组装置,由于样本对应的第一指标值用于指示该样本与其他样本之间的差异,且采用迭代的方式基于每次迭代的分组结果来确定划分粒度,因而基于每个样本对应的第一指标值和划分粒度将多个样本划分到多个中间组,不同中间组包括的样本的第一指标值位于不同的连续的取值区间,从而使同一个中间组的样本之间的差异较小,进而实现将多个样本划分为差异较小的多个样本组,对于不同特性的样本具有较强的通用性,提高了样本分组的性能。
152.应理解的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
153.请参考图7,其示出了本技术一个实施例提供的计算机设备的结构示意图。该计算机设备可以为终端,例如可以是:智能手机、平板电脑、车载终端、笔记本电脑或台式电脑。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
154.通常,终端包括有:处理器701和存储器702。
155.处理器701可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器701可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器701可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器701还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
156.存储器702可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器701所执行以实现本技术中方法实施例提供的样本分组方法。
157.在一些实施例中,终端还可选包括有:外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地,外围设备包括:射频电路
704、显示屏705、摄像头组件706、音频电路707和电源709中的至少一种。
158.外围设备接口703可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中,处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上;在一些其他实施例中,处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
159.射频电路704用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路704包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或无线保真(wireless fidelity,wifi)网络。在一些实施例中,射频电路704还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
160.显示屏705用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时,显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时,显示屏705还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏705可以为一个,设置在终端的前面板;在另一些实施例中,显示屏705可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在再一些实施例中,显示屏705可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏705还可以设置成非矩形的不规则图形,也即异形屏。显示屏705可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
161.摄像头组件706用于采集图像或视频。可选地,摄像头组件706包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
162.音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器701进行处理,或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换
为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路707还可以包括耳机插孔。
163.电源709用于为终端中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
164.在一些实施例中,终端还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于:加速度传感器711、陀螺仪传感器712、压力传感器713、光学传感器715以及接近传感器716。
165.加速度传感器711可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号,控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。
166.陀螺仪传感器712可以检测终端的机体方向及转动角度,陀螺仪传感器712可以与加速度传感器711协同采集用户对终端的3d动作。处理器701根据陀螺仪传感器712采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
167.压力传感器713可以设置在终端的侧边框和/或显示屏705的下层。当压力传感器713设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时,由处理器701根据用户对显示屏705的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
168.光学传感器715用于采集环境光强度。在一个实施例中,处理器701可以根据光学传感器715采集的环境光强度,控制显示屏705的显示亮度。具体地,当环境光强度较高时,调高显示屏705的显示亮度;当环境光强度较低时,调低显示屏705的显示亮度。在另一个实施例中,处理器701还可以根据光学传感器715采集的环境光强度,动态调整摄像头组件706的拍摄参数。
169.接近传感器716,也称距离传感器,通常设置在终端的前面板。接近传感器716用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器716检测到用户与终端的正面之间的距离逐渐变小时,由处理器701控制显示屏705从亮屏状态切换为息屏状态;当接近传感器716检测到用户与终端的正面之间的距离逐渐变大时,由处理器701控制显示屏705从息屏状态切换为亮屏状态。
170.本领域技术人员可以理解,图7中示出的结构并不构成对计算机设备的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
171.请参考图8,图8是本技术实施例提供的一种服务器的结构示意图,该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器801和一个或多个的存储器802,其中,该一个或多个存储器802中存储有至少一条程序指令,该至少一条程序指令由该一个或多个处理器801加载并执行以实现上述各个方法实施例提供的样本分组方法。当然,该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器800还可以包括其他用于实现设备功能的部件,在此不做赘述。
172.在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条程序代码。该至少一条程序代码由一个或者一个以上处理器加载并执行,以使计算机设备实现上述任一种样本分组方法。
173.在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由计算机设备的处理器加载并执行,以使计算机实现上述任一种样本分组方法。
174.可选地,上述计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
175.在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一种样本分组方法。
176.本技术的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任意变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
177.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献