一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种商品类目的预测方法、装置、计算机设备和存储介质与流程

2022-06-05 19:28:31 来源:中国专利 TAG:


1.本技术涉及搜索预测的技术领域,特别是涉及一种商品类目的预测方法、装置、计算机设备和存储介质。


背景技术:

2.随着电子商务的发展及商品数量的增长,搜索引擎已成为人们购物的主要入口之一。每个用户在发起一次搜索后,将会经历多个阶段。首先是qr阶段(query rewrite),后进行文本粗排序、精排序,最终呈现给用户一次搜索的结果。在电商搜索中,用户输入文本后,首先要预测的就是文本与商品类目的关系,预测的结果将作用在后续多个模块,对整个搜索带来很大的影响。
3.现有常用的类目预测方案如下:
4.一、利用电商商品中的纯文本信息建立索引,后结合文本匹配度打分,实现类目预测。但是,该方法对商品文本内容纯度要求很高,并且忽略了用户行为对结果的影响。
5.二、使用多维度数据使用机器学习方法进行类目预测。该方法的弊端在于,无法利用搜索技术中纯文本匹配的优势,另外一个弊端是预测速度往往达不到线上要求。
6.经典bm25算法如下公式1所示,通常可以用bm25算法来做搜索排序打分。对搜索信息q进行语素解析,生成语素qi;然后,对于每个搜索结果文档d,计算每个语素qi与文档d的相关性得分,最后,将语素qi相对于文档d的相关性得分进行加权求和,从而得到搜索信息q与搜索结果d的相关性得分。
[0007][0008]
其中wi是判断一个词与一个文档的相关性的权重,方法有多种,较常用的是idf,idf前文已经说明。语素qi与文档d的相关性得分r(qi,d)如下公式2,k的值如下公式3。
[0009][0010]
其中,qi表示搜索词,qfi表示搜索信息query中搜索词词频,k1,k2为权值因子。
[0011][0012]
其中,k1、b是权值因子,dl是文档长度,avgdl是平均文档长度。
[0013]
因此,经典的bm25算法仅考虑词频、逆文档频率,并没有考虑覆盖商品数目特征、点击次数特征;商品组商品数量很大,统计词频、点击次数特征值都很大,按照经典bm25算法计算r(qi,d),大部分商品组文档计算出来的r值将会十分接近一个常数值。假设qfi为1,dl和avgdl相当,k1取2,那么r(qi,d)可以简化为3fi/(fi 2),fi表示在商品组下词出现的频率,前文已说明商品组下商品数量往往上百万,这就使fi往往会很大,fi很大的情况下r(qi,d)就会趋向于整数3,fi越大最终的值越趋近于3。


技术实现要素:

[0014]
为了解决上述问题,本发明提出了:
[0015]
一种商品类目的预测方法,该方法包括:
[0016]
获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;
[0017]
根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;
[0018]
选取频率特征、覆盖特征和点击特征,构建商品组索引;
[0019]
接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0020]
在一个实施例中,对预处理后的商品信息数据进行分词处理,统计每个词的词频特征,并根据词频特征,获取该词的逆文档频率特征,频率特征包括词频特征和逆文档频率特征。
[0021]
在一个实施例中,根据分词处理的结果,统计每个词覆盖的商品数以及覆盖的商品组总数,分别提取词覆盖商品数特征和词覆盖商品组总数特征,覆盖特征包括词覆盖商品数特征和词覆盖商品组总数特征。
[0022]
在一个实施例中,根据预设时间段,在预处理后的用户行为数据中提取具有点击纪录的商品信息数据,并对上述商品信息数据进行分词处理,根据每个商品所在的商品组,获取每个词的总点击数和在每个商品组下的每个词点击数,形成词点击总数特征和商品组下词点击数特征,点击特征包括词点击总数特征和商品组下词点击数特征。
[0023]
在一个实施例中,对搜索信息进行分词处理并分析词性,根据每个词的词性设定对应的相关性权值,加权计算每个词的相关性,输出类目候选集。
[0024]
在一个实施例中,每个词的相关性为:
[0025][0026]
其中,qi为搜索信息的词,d为搜索结果,kt是词频对应的k值,kg是商品组对应的k值,kg和kt的取值相同,nij是qi在商品组j上的词频,∑
k nkj是qi在所有商品组的总词频,gij是qi在商品组j上覆盖的商品数目,∑
k gkj是qi在所有商品组下的总覆盖商品数,cl是qi的点击数,clall是qi的总点击数。
[0027]
在一个实施例中,商品特征还包括类目性别特征,分析搜索信息的类目性别特征,在类目候选集中,过滤与搜索信息性别冲突的类目。
[0028]
一种商品类目的预测装置,该装置包括:
[0029]
预处理模块,用于获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;
[0030]
特征提取模块,用于根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;
[0031]
索引模块,用于选取频率特征、覆盖特征和点击特征,构建商品组索引;
[0032]
预测模块,用于接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0033]
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的
计算机程序,处理器执行计算机程序时实现上述方法的步骤。
[0034]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0035]
本发明的商品类目的预测方法、装置、计算机设备和存储介质,基于多组特征构建,结合文本信息特征、用户行为特征、商品组本身特征,实现类目预测,进而提高搜索结果的准确性。
附图说明
[0036]
图1为一个实施例中一种商品类目的预测方法的步骤示意图;
[0037]
图2为一个实施例中一种商品类目的预测方法的流程示意图;
[0038]
图3为一个实施例中一种商品类目的预测装置的结构框图;
[0039]
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
[0040]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0041]
本技术提供的一种商品类目的预测方法,结合了elasticsearch默认bm25算法,加入商品组下多组特征,重新设计打分算法,优化类目预测结果。
[0042]
先是对商品组下商品信息数据、用户行为信息进行数据预处理,后根据需求进行特征提取,对提取特征进行索引构建,后进行自定义打分,对打分结果进行排序,并做规则化处理,实现类目预测。在一个实施例中,如图1-图2所示,包括以下步骤:
[0043]
s100,获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标。
[0044]
在本实施例中,需要对所有的商品信息数据和用户行为数据进行统计计算,预处理商品信息数据和用户行为数据,先对脏数据进行清洗过滤,主要清洗的脏数据包括但不限于有人为作弊行为的、商品描述信息存在不合理的商品信息数据等。再按照预设的统计规则计算商品的各个指标,至少包括商品的点击量、商品描述的分词结果等。
[0045]
s200,根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征。
[0046]
商品类目的预测主要是通过类目下的特征去刻画的,好的特征可以刻画类目本身的特性,也可以凸显类目之间的差异性,特征选择对后续工作起着至关重要的作用。
[0047]
在本实施例中,主要采用信息检索特征、电商商品特有特征以及用户行为特征,通过将这些特征运用到后续的类目预测上,优化类目预测准确性。具体地,依次统计提取频率特征、覆盖特征和点击特征。
[0048]
在一个实施例中,频率特征包括词频特征和逆文档频率特征。对预处理后的商品信息数据进行分词处理,统计每个词的词频特征,从而缩短文件的长度。当把每个商品组下的词频特征都统计完之后,根据文件下覆盖的词,获取该词的逆文档频率特征。频率特征包括词频特征和逆文档频率特征。
[0049]
在本实施例中,词频特征、逆文档频率特征可以很好的刻画商品组下的文本信息对商品组的影响程度。词频特征指的是某一个给定的词语在该文件中出现的次数,逆文档频率特征根据公式4得到。
[0050]
idf(qi)=log((n-n(qi) 0.5)/(n(qi) 0.5))
ꢀꢀꢀꢀ
公式4;
[0051]
其中,n(qi)是词qi的出现类目数,n是总类目数。可以看出,越常用的词的idf值越低。
[0052]
一个词的词频特征越高,说明这个词在该类目下越重要,逆文档频率越高说明这个词在所有类目中越特殊。
[0053]
在一个实施例中,覆盖特征包括词覆盖商品数特征和词覆盖商品组总数特征。根据之前的分词处理结果,统计每个词覆盖的商品数以及覆盖的商品组总数,分别提取词覆盖商品数特征和词覆盖商品组总数特征。
[0054]
在本实施例中,商品组下的商品有些很杂乱,部分商品分错了类别,商品描述信息噪音大,包含很多无效信息,这些原因导致单使用信息检索文本匹配,进行类目预测会带来偏差。而商品组下覆盖商品数越多说明这个词在该商品组下越重要,覆盖商品组数越多说明这个词越常用,权值越低。
[0055]
在一个实施例中,点击特征包括词点击总数特征和商品组下词点击数特征。根据预设时间段,在预处理后的用户行为数据中提取具有点击纪录的商品信息数据,并对上述商品信息数据进行分词处理,根据每个商品所在的商品组,获取每个词的总点击数和在每个商品组下的每个词点击数,形成词点击总数特征和商品组下词点击数特征。优选地,获取一年内所有有点击数据的商品,对这些商品对应的商品标题进行分词,每个词的点击次数就是商品本身的点击次数,后按照商品组进行聚合,统计商品组下每个词的点击次数,后根据商品组统计每个词的总点击次数。
[0056]
在本实施例中,点击次数可以很好的说明用户的潜在需求意图,点击总次数可以和点击次数结合使用来说明不同商品组的点击的差异,从而说明不同商品组之间的差异性。加入用户点击特征,可以帮助解决一些纯文本匹配所遇到的问题,比如主配件问题。很多配件的总数远高于配件对应的主件商品个数,这时候如果通过文本匹配,往往会匹配到大量的配件,但是通过用户行为,用户点击的大多数是主件,这时候就可以通过点击行为纠正主配件问题。
[0057]
s300,选取频率特征、覆盖特征和点击特征,构建商品组索引。
[0058]
在本实施例中,选取步骤s200得到的频率特征、覆盖特征和点击特征,使用了elasticsearch进行索引构建。提取每个商品组下词的上述特征导入到elasticsearch中,构建商品组索引,根据设定打分算法进行排序。
[0059]
具体地,通过公式6展示了打分算法,通过获得词与搜索结果的相关性,从而进行打分。
[0060][0061][0062]
其中,使用公式5来计算idf,以防结果为负值。qi为搜索信息的词,d为搜索结果,
kt是词频对应的k值,kg是商品组对应的k值,kg和kt的取值相同,nij是qi在商品组j上的词频,∑
k nkj是qi在所有商品组的总词频,gij是qi在商品组j上覆盖的商品数目,∑
k gkj是qi在所有商品组下的总覆盖商品数,cl是qi的点击数,clall是qi的总点击数。
[0063]
通过调整r(qi,d)的计算方式,考虑三组不同特征的权值因子,词频和覆盖商品数具有类似的特点,计算方法也类似,但点击特征不同于词频、覆盖商品组特征,使用归一化的点击得分来作为点击得分。点击特征没有使用词频和覆盖商品组的计算方法,是由于,第一点击是用户行为特征,和词频、覆盖商品数这种特征本质不属于一类,第二采用公式6的方式计算点击得分可以充分考虑点击对所有商品组的影响,而词频、覆盖商品数得分计算只考虑当前商品组的影响。
[0064]
在本实施例中,构建完索引后,根据公式6的算法去进行打分,匹配方法可以采用模糊匹配增加召回集,提高预测准确性
[0065]
s400,接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0066]
在本实施例中,对搜索信息进行分词处理并分析词性,根据每个词的词性设定对应的相关性权值,加权计算每个词的相关性,输出类目候选集。
[0067]
具体地,在电商搜索中对搜索信息进行分析,搜索信息中不同词性的词往往对结果的影响程度不同,本实施例对搜索信息进行分词后分析词性,对不同词性的词给与不同的打分权值,可以帮助优化类目预测结果。例如,假设搜索信息是“明星美邦连衣裙长袖”,分词后识别出“连衣裙”是品类词,“美邦”是品牌词,其他词属于属性词,在最终的类目预测打分中会根据词性,对“连衣裙”给最高的权值,“美邦”给次高的权值,其他词保持默认权值,优化打分策略。
[0068]
在另一个实施例中,还考虑类目名称和搜索信息名的相似度。如果用户搜索与类目名称很相似的信息,可对该类目进行加权,反之,不进行操作。优选地,在实施打分过程中,对搜索信息进行分析,对品牌词、物品词、品类词加权,对和类目名称类似的搜索信息进行加权。这里的类似包含2种可能,第一是类目和搜索信息完全相同,第二是类目和搜索信息的最大公共字串与类目长度比值大于0.8。
[0069]
在另一个实施例中,还考虑性别类目对结果的影响。商品特征还包括类目性别特征,分析搜索信息的类目性别特征,在类目候选集中,过滤与搜索信息性别冲突的类目。例如,识别到用户想要搜索男性的衣服,在搜索结果出现女士的衣服会严重影响用户的体验。出现这种情况的原因是,部分男士类目和女士类目特征极为相似,这时在排序打分后往往会出现部分男士类目。为了类目预测的准确性,根据用户的搜索信息,过滤掉性别冲突的类目。优选地,提前标注类目的性别特征,特征包括男、女以及均可。然后对搜素信息进行分析,过滤掉性别冲突的类目。
[0070]
本发明通过规则优化类目预测准确性。使用本发明中的技术方案,预测速度可以达到上线需求,在加入以上维度特征并优化预测打分方法后,线上订单转化率相对提升约0.7%-1.2%,另外,相对深度模型来说预测速度从约50ms每次提升到约3ms每次。
[0071]
应该理解的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,附图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完
成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0072]
在一个实施例中,如图3所示,提供了应用上述预测方法的预测装置,包括:预处理模块100、特征提取模块200、索引模块300和预测模块400。其中:
[0073]
预处理模块100,用于获取所有商品组下的商品信息数据和用户行为数据,预处理商品信息数据和用户行为数据,统计多个商品指标;
[0074]
特征提取模块200,用于根据多个商品指标,提取多组商品特征,多组商品特征至少包括频率特征、覆盖特征和点击特征;
[0075]
索引模块300,用于选取频率特征、覆盖特征和点击特征,构建商品组索引;
[0076]
预测模块400,用于接收并分析搜索信息,根据商品组索引,输出搜索信息对应的类目候选集。
[0077]
关于预测装置的具体限定可以参见上文中对于预测方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0078]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是数据管理服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的数据源终端通过网络连接通信,以接收数据源终端上传的数据。该计算机程序被处理器执行时以实现商品类目的预测方法。
[0079]
本领域技术人员可以理解,图4中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0080]
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述商品类目的预测方法。
[0081]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0082]
本发明公开了一种商品类目的预测方法、装置、计算机设备和存储介质。针对现有
的技术点,提出基于电商商品组特征的类目预测方法。该方法的创新点主要体现在:1.充分利用电商商品各维度特征,并融合各特征进行类目预测,可以提高目前纯文本信息检索的准确性。2.根据实际情况,结合多组不同特征,优化改进bm25算法,达到更好的类目预测效果。3.结合实际情况,提出一些合理的规则处理,并结合es特性,相对深度模型,预测速度大大加快。
[0083]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0084]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献