一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种用户年龄推测方法、装置以及存储介质与流程

2022-02-25 21:40:54 来源:中国专利 TAG:


1.本技术涉及数据处理领域,尤其涉及一种用户年龄推测方法、装置以及存储介质。


背景技术:

2.随着移动互联网和移动互联网的普及和发展,应用软件的开发商及运营商越来越关心其产品的当前主要使用群体的信息,例如群体的年龄段分布、性别以及使用习惯等等,以便在后继阶段更有针对性地开发产品的功能,从而为客户提供更准确的商品或服务。
3.在实际中,不同年龄段的用户使用电脑、手机等智能设备时对应用软件的偏好不同,当用户在应用软件上产生交易时或者用户在下载应用软件后进行注册时,应用软件会要求用户输入注册信息,而现有技术中一般通过注册信息来获知用户的年龄,但是这种方法过于依赖用户的注册信息,用户在注册时可能输入的不是真实的信息或者当用户使用时没有产生交易,那么这种方法很难准确推测出用户的年龄。


技术实现要素:

4.为了解决上述技术问题,本技术提供了一种用户年龄推测方法、装置以及存储介质。
5.本技术第一方面提供了一种用户年龄推测方法,所述方法包括:
6.读取用户的已安装的应用软件的应用数据;
7.根据所述应用数据生成对应的列表文本;
8.根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;
9.将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,所述随机森林分类器为通过样本数据集进行训练得到,所述样本数据集包括多个携带有用户年龄的应用软件的列表文本;
10.通过所述随机森林分类器输出对所述用户的用户年龄的推测结果。
11.可选的,所述根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选包括:
12.从所述列表文本中剔除超过预设时间点未使用的应用软件对应的应用数据;
13.从所述列表文本中剔除使用时长未达到预设时长的应用软件对应的应用数据;
14.从所述列表文本中剔除使用频次未达到预设频次的应用软件对应的应用数据。
15.可选的,所述应用数据中包含有所述应用软件的描述信息,所述根据所述应用数据生成对应的列表文本包括:
16.提取所述描述信息中的关键词,并记录至列表文本中。
17.可选的,所述描述信息为根据应用软件在应用市场中的发布信息获得的信息。
18.可选的,所述随机森林分类器通过如下方法进行训练得到:
19.获取第一样本数据集,并将所述第一样本数据集输入至初始化的随机森林分类器
中对初始化的随机森林分类器进行训练,所述第一样本数据集包括携带有用户年龄的应用软件的列表文本;
20.将所述第二样本数据集输入训练后的随机森林分类器中,对用户的年龄进行推测,并确定置信度达到预设置信度阈值的第三样本数据集;
21.对所述第三样本数据的置信度设置为最高;
22.将所述第三样本数据集以及所述第二样本数据集重新输入至经过训练后的随机森林分类器中进行训练,直至随机森林分类器收敛,得到所述随机森林分类器。
23.本技术第二方面提供了一种用户年龄推测装置,所述装置包括:
24.读取单元,用于读取用户的已安装的应用软件的应用数据;
25.生成单元,用于根据所述应用数据生成对应的列表文本;
26.筛选单元,用于根据所述列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;
27.输入单元,用于将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,所述随机森林分类器为通过样本数据集进行训练得到,所述样本数据集包括多个携带有用户年龄的应用软件的列表文本;
28.输出单元,用于通过所述随机森林分类器输出对所述用户的用户年龄的推测结果。
29.可选的,所述筛选单元具体用于:
30.从所述列表文本中剔除超过预设时间点未使用的应用软件对应的应用数据;
31.从所述列表文本中剔除使用时长未达到预设时长的应用软件对应的应用数据;
32.从所述列表文本中剔除使用频次未达到预设频次的应用软件对应的应用数据。
33.可选的,所述生成单元具体用于:
34.提取所述描述信息中的关键词,并记录至列表文本中。
35.本技术第三方面提供了一种用户年龄推测装置,所述装置包括:
36.处理器、存储器、输入输出单元以及总线;
37.所述处理器与所述存储器、所述输入输出单元以及所述总线相连;
38.所述存储器保存有程序,所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的所述方法。
39.本技术第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上保存有程序,所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的所述方法。
40.从以上技术方案可以看出,本技术具有以下优点:
41.本技术提供的方法可以用于对用户的年龄进行推测,推测时读取用户的已安装的应用软件的应用数据,根据应用数据生成对应的列表文本,根据列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本,通过对列表文本筛选,能够有效提高推测数据的有效性,从而为最终的推测结果带来精准度的提升,通过将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,随机森林分类器输出对用户的用户年龄的推测结果,通过随机森林分类器对用户年龄进行推测,具有较高的精准度,并且该方法不依赖于用户的注册信息或者交易信息等,该方
法具有一定的普适应,能够满足很多使用场景。
附图说明
42.为了更清楚地说明本技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术中提供的用户年龄推测方法的一个实施例流程示意图;
44.图2为本技术中提供的用户年龄推测方法的另一个实施例流程示意图;
45.图3为本技术中提供的用户年龄推测装置的一个实施例结构示意图;
46.图4为本技术中提供的用户年龄推测装置的另一个实施例结构示意图。
具体实施方式
47.在实际中,不同年龄段的用户使用电脑、手机等智能设备时对应用软件的偏好不同,当用户在应用软件上产生交易时或者用户在下载应用软件后进行注册时,应用软件会要求用户输入注册信息,而现有技术中一般通过注册信息来获知用户的年龄,但是这种方法过于依赖用户的注册信息,用户在注册时可能输入的不是真实的信息或者当用户使用时没有产生交易,那么这种方法很难准确推测出用户的年龄。
48.基于此,本技术提供了一种用户年龄推测方法,用于根据安装的应用软件对用户的年龄进行推测。
49.需要说明的是,本技术提供的用户年龄推测方法,可以应用于终端也可以应用于系统,还可以应用于服务器上,例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述,本技术中以终端为执行主体进行举例说明。
50.请参阅图1,图1为本技术提供的用户年龄推测方法一个实施例流程示意图,该用户年龄推测方法包括:
51.101、读取用户的已安装的应用软件的应用数据;
52.本技术提供的方法,用于对用户的年龄进行推测,不同年龄的用户受到所处阶层和周围环境的影响,对应用软件的安装和使用是不同的,一般可以表现在应用软件的类型不同、应用软件的使用时长不同,应用软件的使用时间点不同以及应用软件的使用频次不同等。本技术提供的方法基于这样的影响因素,提供了一种用户年龄推测方法,收取读取用户已安装的应用软件的应用数据,应用软件的应用数据包括用户安装了哪些应用软件,以及各个应用软件的使用数据等。
53.进一步的,应用数据中还可以包含有应用软件的描述信息,该描述信息可以记录有该应用软件的发布信息,例如发布者、使用对象、使用对象的建议年龄段以及该应用软件本身的一些信息或者是其它,该描述信息可以是发布者发布应用软件时创建的信息,也可以是用户对该应用软件的评价描述信息。
54.102、根据应用数据生成对应的列表文本;
55.为了能更好对应用数据进行整理筛选,以及后续的分析使用,这里将应用数据生成列表文本(txt),列表文本中可以记录有应用软件的使用时间点、使用时长以及使用频次
等数据。
56.在一种可选的实施例中,如果应用软件包含了描述信息,那么根据应用软件数据生成对应的列表文本可以是提取描述信息中的关键词以及该关键词的出现次数等,并将该数据记录在列表文本中。
57.103、根据列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;
58.根据列表文本中所记录的各类数据对应用软件进行筛选,以剔除一部分无效的或者可能影响推测准确度的数据,筛选时可以有多种策略,例如可以是从列表文本中剔除超过预设时间点未使用的应用软件对应的应用数据;超过预设时间点未使用是指上一次使用的时间至统计时已经超过了一定的时长,例如已经超过了三个月未使用。这类长时间未使用的应用软件很可能是误装的,不具有很高的代表性特征性。从列表文本中剔除使用时长未达到预设时长的应用软件对应的应用数据;例如剔除使用时长在5分钟以下的应用软件,这类应用软件很可能是系统预装的软件或者是一些不具有代表性的工具类软件,例如日历、指南针等。从列表文本中剔除使用频次未达到预设频次的应用软件对应的应用数据。使用频次能够较好的反映用户的特征,剔除一些使用频次较低的应用。
59.104、将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,随机森林分类器为通过样本数据集进行训练得到,样本数据集包括多个携带有用户年龄的应用软件的列表文本;
60.对列表文本进行筛选,将筛选后的列表文本输入预先训练好的随机森林分类器中,从而对列表文本进行分析,随机森林属于分类器的一种,随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(ensemble learning)方法。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有c4.5、id3和cart。集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。随机森林是集成学习的一个子类,它依靠于决策树的投票选择来决定最后的分类结果。
61.105、通过随机森林分类器输出对用户的用户年龄的推测结果。
62.通过随机森林分类器对列表文本中应用软件的应用数据进行分析,例如将应用软件的类型、应用软件对应的使用频次、使用时长以及使用时间点等推测数据作为随机森林分类器的输入参数,最终输出对用户年龄的推测结果,具体的,对该随机森林分类器的训练方法的实施例请参阅图2对应的实施例。
63.请参阅图2,本技术中的随机森林分类器通过如下方法训练得到:
64.201、获取第一样本数据集,并将第一样本数据集输入至初始化的随机森林分类器中对初始化的随机森林分类器进行训练,第一样本数据集包括携带有用户年龄的应用软件的列表文本;
65.本实施例中,采用半监督的方案对随机森林分类器进行训练,首先获取初始的第一样本数据并输出至初始化的随机森林分类器中,初始化的随机森林分类器是未经训练的,具有基本的参数的分类器,第一样本数据携带有多个已知用户年龄的列表文本,其中包
含有应用软件的应用数据以及对应的用户的年龄。即使用已知的第一样本数据对初始化的随机森林进行训练。
66.202、将第二样本数据集输入训练后的随机森林分类器中,对用户的年龄进行推测,并确定置信度达到预设置信度阈值的第三样本数据集;
67.将第二样本数据集输入至经过使用第一样本数据训练的随机森林分类器中,对用户的年龄进行推测,然后得到置信度较高的第三样本数据,置信度较高是指达到预设的置信度阈值。
68.203、将第三样本数据的置信度设置为最高,并将第三样本数据集以及第二样本数据集重新输入至经过训练后的随机森林分类器中进行训练,直至随机森林分类器收敛,得到随机森林分类器。
69.将置信度较高的第三样本数据的置信度设置为最高的置信度,再将第三样本数据和第二样本数据重新作为训练数据输入至训练后的随机森林分类器中进行训练,不断重复,直至随机森林分类器收敛,或者无置信度或者置信度较低的数据消耗完毕。
70.通过上述半监督的方法对随机森林分类器进行训练,能够有效提高随机森林分类器对用户年龄的推测的准确度。
71.上述实施例对本技术中提供的用户年龄推测方法进行了阐述,下面将对本技术中提供的用户年龄推测装置以及存储介质进行阐述。
72.请参阅图3,本技术提供的用户年龄推测装置包括:
73.读取单元301,用于读取用户的已安装的应用软件的应用数据;
74.生成单元302,用于根据应用数据生成对应的列表文本;
75.筛选单元303,用于根据列表文本中所记录的应用软件的使用时间点、使用时长以及使用频次对应用软件进行筛选,得到筛选后的列表文本;
76.输入单元304,用于将筛选后的列表文本作为推测数据集输入至预选训练好的随机森林分类器中,随机森林分类器为通过样本数据集进行训练得到,样本数据集包括多个携带有用户年龄的应用软件的列表文本;
77.输出单元305,用于通过随机森林分类器输出对用户的用户年龄的推测结果。
78.可选的,筛选单元303具体用于:
79.从列表文本中剔除超过预设时间点未使用的应用软件对应的应用数据;
80.从列表文本中剔除使用时长未达到预设时长的应用软件对应的应用数据;
81.从列表文本中剔除使用频次未达到预设频次的应用软件对应的应用数据。
82.可选的,生成单元302具体用于:
83.提取描述信息中的关键词,并记录至列表文本中。
84.可选的,该装置还包括:
85.训练单元306,用于:
86.获取第一样本数据集,并将第一样本数据集输入至初始化的随机森林分类器中对初始化的随机森林分类器进行训练,第一样本数据集包括携带有用户年龄的应用软件的列表文本;
87.将第二样本数据集输入训练后的随机森林分类器中,对用户的年龄进行推测,并确定置信度达到预设置信度阈值的第三样本数据集;
88.将第三样本数据的置信度设置为最高,并将第三样本数据集以及第二样本数据集重新输入至经过训练后的随机森林分类器中进行训练,直至随机森林分类器收敛,得到随机森林分类器。
89.请参阅图4,本技术还提供了一种用户年龄推测装置,包括:
90.处理器401、存储器402、输入输出单元403、总线404;
91.处理器401与存储器402、输入输出单元403以及总线404相连;
92.存储器402保存有程序,处理器401调用程序以执行如上任一用户年龄推测方法。
93.本技术还涉及一种计算机可读存储介质,计算机可读存储介质上保存有程序,其特征在于,当程序在计算机上运行时,使得计算机执行如上任一用户年龄推测方法。
94.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
95.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
96.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
97.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
98.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献