一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用户消费标签提取方法及装置与流程

2022-05-11 12:06:29 来源:中国专利 TAG:


1.本发明涉及自然语言处理技术领域,具体而言,涉及一种用户消费标签提取方法及装置。


背景技术:

2.在如今的商业时代,大数据越发凸显其价值,企业迫切地需要从海量的数据中挖掘出用户的需求,以更好的为用户服务。基于用户消费行为的用户消费标签提取能够帮助企业对用户进行精准化服务、个性化营销和特色推荐。
3.现有的常见的标签分类标准会将用户消费类数据分为两级标签,大类标签和小类标签。但是两级标签都存在明显的缺陷。以大类标签为例可将消费标签划分为办公、购物、餐饮、休闲娱乐等19个大类,但这些划分较为综合,无法直观获取用户的偏好等信息。而小类标签较为精细,可将数据划分为打车、单车、电影、数码电器等100个小类标签,行业二级分类会出现分类交叉和标签分类错误(这主要是因为吃词问题和中文歧义问题造成的)等问题。由此可见,采用大类标签和小类标签作为用户消费标签均存在相应的缺陷,现有技术缺少一种更为准确并且更能反应出用户的消费偏好的消费标签提取方法。


技术实现要素:

4.本发明为了解决上述背景技术中的至少一个技术问题,提出了一种用户消费标签提取方法及装置。
5.为了实现上述目的,根据本发明的一个方面,提供了一种用户消费标签提取方法,该方法包括:
6.获取目标用户的消费数据;
7.将所述消费数据输入到预设的消费关键词提取模型中,得到所述消费关键词提取模型输出的所述消费数据对应的消费关键词;
8.将所述消费关键词输入到预设的聚类模型中,得到所述聚类模型输出的所述目标用户的用户消费标签。
9.可选的,所述将所述消费关键词输入到预设的聚类模型中,具体包括:
10.将所述消费关键词转化为词向量;
11.将所述词向量输入到所述聚类模型中。
12.可选的,该用户消费标签提取方法,还包括:
13.获取训练样本,其中,所述训练样本为标注出消费关键词的消费数据;
14.根据所述训练样本对预设的bert模型进行训练,得到所述消费关键词提取模型。
15.可选的,所述将所述消费关键词转化为词向量,具体包括:
16.将所述消费关键词输入到预设的word2vec模型中,得到词向量。
17.可选的,在所述将所述消费数据输入到预设的消费关键词提取模型中之前,还包括:
18.对所述消费数据进行预处理,其中,所述预处理包括:去除空值以及去除重复值。
19.可选的,所述聚类模型包括:k-means模型。
20.为了实现上述目的,根据本发明的另一方面,提供了一种用户消费标签提取装置,该装置包括:
21.消费数据获取单元,用于获取目标用户的消费数据;
22.消费关键词提取单元,用于将所述消费数据输入到预设的消费关键词提取模型中,得到所述消费关键词提取模型输出的所述消费数据对应的消费关键词;
23.用户消费标签确定单元,用于将所述消费关键词输入到预设的聚类模型中,得到所述聚类模型输出的所述目标用户的用户消费标签。
24.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述用户消费标签提取方法的步骤。
25.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述用户消费标签提取方法的步骤。
26.为了实现上述目的,根据本发明的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述用户消费标签提取方法的步骤。
27.本发明的有益效果为:
28.本发明实施例通过将目标用户的消费数据输入到预设的消费关键词提取模型中,得到所述消费关键词提取模型输出的所述消费数据对应的消费关键词,进而将所述消费关键词输入到预设的聚类模型中,得到所述聚类模型输出的所述目标用户的用户消费标签,实现了准确高效的确定目标用户的用户消费标签的有益效果,本发明通过对消费关键词进行聚类,得到的用户消费标签也更能反应出用户的消费偏好。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
30.图1是本发明实施例用户消费标签提取方法的第一流程图;
31.图2是本发明实施例用户消费标签提取方法的第二流程图;
32.图3是本发明实施例用户消费标签提取方法的第三流程图;
33.图4是本发明实施例用户消费标签提取整体流程示意图;
34.图5是本发明实施例用户消费标签提取装置的结构框图;
35.图6是本发明实施例计算机设备示意图。
具体实施方式
36.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的
附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
37.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
38.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
40.需要说明的是,本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
41.需要说明的是,本发明的用户消费标签提取方法及装置可以应用于金融领域,也可以应用于其他技术领域。
42.图1是本发明实施例用户消费标签提取方法的第一流程图,如图1所示,在本发明一个实施例中,本发明的用户消费标签提取方法包括步骤s101至步骤s103。
43.步骤s101,获取目标用户的消费数据。
44.在本发明中,目标用户的消费数据为经过目标用户授权使用的消费数据。
45.在本发明一个实施例中,本发明可以从银行业务系统中调取所述目标用户的消费数据。目标用户的消费数据通常数量较多,本发明可以调取所述目标用户的所有消费数据,也可以调取所述目标用户在预设时间段内的所有消费数据。
46.步骤s102,将所述消费数据输入到预设的消费关键词提取模型中,得到所述消费关键词提取模型输出的所述消费数据对应的消费关键词。
47.由于现有的银行用户消费数据较短,反映主题的关键词较少,直接对整个文本进行聚类,聚类效果不佳。为使得文本聚类达到较为理想的效果,本发明在进行文本聚类前,先对文本进行关键词抽取,去除一些无关紧要的词。
48.在本发明一个实施例中,本发明预先训练出消费关键词提取模型,进而通过消费关键词提取模型提取出消费数据中的消费关键词。
49.在本发明一个实施例中,消费关键词提取模型为采用训练样本对预设的机器学习模型进行训练得到的,所述训练样本为标注出消费关键词的消费数据,所述机器学习模型可以采用tf-idf(term frequency-inverse document frequency)模型、textrank模型、lda(latent dirichlet allocation)模型等。在本发明一个优选实施例中,所述机器学习模型采用bert模型。
50.步骤s103,将所述消费关键词输入到预设的聚类模型中,得到所述聚类模型输出
的所述目标用户的用户消费标签。
51.在本发明一个实施例中,所述聚类模型采用k-means模型。最终聚类的簇采用37类时效果最好,也就是分为37类。通过聚类方法对数据进行划分,相比于大类标签,能够更细粒度提取用户消费偏好。相比于小类,类别更集中,数据也能够得到更明确的划分,解决小类标签分类错误高的问题。
52.本发明通过聚类方法对数据进行划分,相比于大类标签,能够更细粒度提取用户消费偏好。相比于小类,类别更集中,数据也能够得到更明确的划分,解决小类标签分类错误高的问题。综上,相较于现有的银行用户消费数据标签提取方法中,常见的由于吃词问题和中文歧义问题造成的标签分类错误的问题,本发明能够更优地解决上述问题,让标签分类更为准确,更能够反映用户特征、用户偏好等信息。
53.在本发明一个实施例中,在上述步骤s102的将所述消费数据输入到预设的消费关键词提取模型中之前,本发明方法还包括:
54.对所述消费数据进行预处理,其中,所述预处理包括:去除空值以及去除重复值。
55.如图2所示,在本发明一个实施例中,上述步骤s103的将所述消费关键词输入到预设的聚类模型中,具体包括步骤s201和步骤s202。
56.步骤s201,将所述消费关键词转化为词向量。
57.在本发明一个实施例中,本步骤具体将所述消费关键词输入到预设的word2vec模型中,得到词向量。
58.在本发明一个实施例中,为获取好的词向量表示,本发明采用word2vec方法对bert提取好的关键词进行训练,得到词语的向量表示。为后续的文本聚类提供良好的表示。
59.在本发明一个实施例中,本发明可以利用python现有的工具包来实现word2vec,训练后的word2vec的词向量维度可以为256维。
60.步骤s202,将所述词向量输入到所述聚类模型中。
61.如图3所示,在本发明一个实施例中,上述步骤s102中的消费关键词提取模型具体由以下步骤s301和步骤s302训练得出。
62.步骤s301,获取训练样本,其中,所述训练样本为标注出消费关键词的消费数据。
63.在本发明一个实施例中,本发明先对原始银行的用户消费数据进行预处理,删除掉空值数据和重复值数据,保持每种数据只有一种,这能够让模型的泛化能力更强。进而对预处理后的数据进行人工标注,标注出消费关键词,生成训练样本。
64.步骤s302,根据所述训练样本对预设的bert模型进行训练,得到所述消费关键词提取模型。
65.如图4所示,在本发明一个实施例中,本发明采用bert word2vec k-means的方案,对现有的银行数据标签分类方法存在的问题进行优化。
66.具体的,本发明先采用预训练的bert模型提取出用户消费数据中的消费关键词,进而采用预训练的word2vec模型将所述消费关键词转化为词向量,最后通过k-means聚类模型基于所述词向量进行聚类,得到用户的用户消费标签。
67.由以上实施例可以看出,本发明方法能够解决传统用户消费标签提取方法存在的歧义问题和分类交叉的问题,提取后的用户消费标签能够帮助银行更好地实现个性化、精准化和智能化营销。
68.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
69.基于同一发明构思,本发明实施例还提供了一种用户消费标签提取装置,可以用于实现上述实施例所描述的用户消费标签提取方法,如下面的实施例所述。由于用户消费标签提取装置解决问题的原理与用户消费标签提取方法相似,因此用户消费标签提取装置的实施例可以参见用户消费标签提取方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
70.图5是本发明实施例用户消费标签提取装置的结构框图,如图5所示,在本发明一个实施例中,本发明的用户消费标签提取装置包括:
71.消费数据获取单元1,用于获取目标用户的消费数据;
72.消费关键词提取单元2,用于将所述消费数据输入到预设的消费关键词提取模型中,得到所述消费关键词提取模型输出的所述消费数据对应的消费关键词;
73.用户消费标签确定单元3,用于将所述消费关键词输入到预设的聚类模型中,得到所述聚类模型输出的所述目标用户的用户消费标签。
74.在本发明一个实施例中,所述用户消费标签确定单元3,具体包括:
75.词向量转化模块,用于将所述消费关键词转化为词向量;
76.词向量输入模块,用于将所述词向量输入到所述聚类模型中。
77.在本发明一个实施例中,本发明的用户消费标签提取装置,还包括:
78.训练样本获取单元,用于获取训练样本,其中,所述训练样本为标注出消费关键词的消费数据;
79.消费关键词提取模型训练单元,用于根据所述训练样本对预设的bert模型进行训练,得到所述消费关键词提取模型。
80.在本发明一个实施例中,所述词向量转化模块,具体用于将所述消费关键词输入到预设的word2vec模型中,得到词向量。
81.在本发明一个实施例中,本发明的用户消费标签提取装置,还包括:
82.数据预处理单元,用于对所述消费数据进行预处理,其中,所述预处理包括:去除空值以及去除重复值。
83.为了实现上述目的,根据本技术的另一方面,还提供了一种计算机设备。如图6所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
84.处理器可以为中央处理器(central processing unit,cpu)。处理器还可以为其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
85.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
86.存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
87.所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
88.上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
89.为了实现上述目的,根据本技术的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述用户消费标签提取方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
90.为了实现上述目的,根据本技术的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述用户消费标签提取方法的步骤。
91.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
92.以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献