基于人工智能的召回方法、装置、电子设备及存储介质与流程

2022-02-22 17:31:07 来源：中国专利 TAG：

1.本公开涉及数据处理技术领域，尤其涉及人工智能领域的基于人工智能的方法、装置、电子设备及存储介质。

背景技术：

2.人工智能(artificial intelligence，ai)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理和决策的功能。
3.召回系统是人工智能领域的重要应用之一，能够在信息过载的环境中帮助用户发现可能令他们感兴趣的信息，并将信息进行召回，推送给对该信息感兴趣的用户。

技术实现要素：

4.本公开提供了一种基于人工智能的召回的方法、装置、电子设备以及存储介质。
5.根据本公开的第一方面，提供了一种基于人工智能的召回方法，包括：基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值，所述第一嵌入值用于表征所述用户特征、所述资源特征和所述用户特征与所述资源特征之间的关联程度；
6.基于所述第一嵌入值，确定与所述第一用户满足相似条件的第二用户；
7.基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
8.根据本公开的第二方面，提供了一种基于人工智能的召回装置，包括：
9.确定单元，用于基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值，所述第一嵌入值用于表征所述用户特征、所述资源特征和所述用户特征与所述资源特征之间的关联程度；基于所述第一嵌入值，确定与所述第一用户满足相似条件的第二用户；
10.召回单元，用于基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
11.本公开第三方面提供一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的基于人工智能的召回方法。
12.本公开第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述所述的基于人工智能的召回方法。
13.本公开第五方面提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令在被处理器执行时实现上述所述的基于人工智能的召回方法。
14.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
15.附图用于更好地理解本方案，不构成对本公开的限定。其中：
16.图1是本公开实施例提供的基于人工智能的召回系统的一种架构示意图；
17.图2是本公开实施例提供的基于人工智能的召回系统的另一种架构示意图；
18.图3是本公开实施例提供的基于人工智能的召回方法的一种可选流程示意图；
19.图4是本公开实施例提供的基于人工智能的召回方法的另一种可选流程示意图；
20.图5是本公开实施例提供的基于人工智能的召回系统的又一种架构示意图；
21.图6是本技术实施例提供的基于人工智能的召回装置的可选结构示意图；
22.图7是用来实现本公开实施例的基于人工智能的召回方法的电子设备的框图。
具体实施方式
23.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
24.在资源推荐中，多矩阵产品排序模型(或称为多应用程序资源召回模型)主要采用如下三种方案实现：
25.1)基于内容库(content base，cb)队列，使用标签、一二级分类进行显式资源召回；
26.2)基于优热队列，根据资源(item)的曝光、点击、点击通过率(click-through-rate，ctr)等后验信息进行倒排索引资源召回；
27.3)基于图协同过滤(graph collaborative filtering，gcf)队列，基于用户的点击、评论等行为信息进行图游走训练，确认训练出来的嵌入值(embedding)与触发项嵌入值(trigger item embedding)之间的相似度，基于相似度，召回最相似的m个资源。
28.然而在资源推荐中，推荐中台为大部分矩阵产品进行推荐赋能，得出大部分矩阵产品的日活跃用户数量(daily active user，dau)较低，且新用户和低活跃用户较多；其中，新用户和低活跃用户指用户的行为信息(如登录应用程序、点击应用程序中的连接、通过应用程序进行搜索、观看视频、阅读等行为的信息)数量小于或等于第二阈值的用户；本公开中，可以将新用户和低活跃用户统称为冷启用户。相比活跃用户(用户的行为信息大于第二阈值的用户)，冷启用户的行为信息较少，行为信息对应的矩阵相对稀疏。
29.对于上述方案1)，cb队列是相关技术中最常用的召回队列，但在大部分矩阵产品的召回中召回效果差，常用作兜底召回方案；对于上述方案2)热优队列同样作为最常用的召回队列，召回的内容为高优高热的资源，对于某一用户而言，缺乏个性化与定制化；对于上述方案3)gcf队列使用用户已有行为进行训练，召回资源的效果较好，也具备个性化与定制化，但是对于大部分矩阵产品而言，冷启用户在总用户中占据较大比例，即大部分用户的行为信息对应的矩阵较为稀疏，gcf队列能够覆盖的用户较少。此外，相关技术中，还可以使用基于图模型的召回方式对用户进行资源召回，但需要基于丰富的用户行为信息，才能充分学习用户和资源的向量表示，因此也无法通过相关技术中基于图模型的召回方式为冷启用户进行资源召回。
30.因此，针对相关技术中资源召回方法中存在的缺陷，本公开提供一种基于人工智能的召回方法，能够克服现有技术的部分或全部缺点。
31.本公开实施例提供一种基于人工智能的召回方法、装置、电子设备及计算机可读存储介质，能够提升冷启用户资源召回的准确性。下面说明本公开实施例提供的电子设备的示例性应用，本公开实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器，还可以实施为服务器和终端设备协同的方式。
32.参见图1，图1是本公开实施例提供的基于人工智能的召回系统100的一种架构示意图，为实现支撑一个示例性应用，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。
33.在一些实施例中，以电子设备是终端设备为例，本公开实施例提供的基于人工智能的召回方法可以由终端设备实现。例如，终端设备400运行客户端410，客户端410可以是用于基于人工智能的召回的客户端。客户端可以采集第一用户的用户特征和第一用户输入的信息的资源特征，并将所述第一用户的用户特征和第一用户输入的信息的资源特征通过网络300传输至服务器200。
34.在一些实施例中，以电子设备是服务器为例，本公开实施例提供的基于人工智能的基于人工智能的召回方法可以由服务器和终端设备协同实现。例如，服务器200从数据库500中获取历史用户的历史点展日志集和历史用户的用户信息集。然后，服务器200根据获取到的正资源特征样本集、负资源特征样本集和用户特征样本集训练嵌入值模型。
35.在需要进行基于人工智能的召回时，客户端410获取第一用户的用户特征和第一用户输入的信息的资源特征，其中，客户端410可以基于所述第一用户的登录信息和/或所述第一用户输入的用户信息，确认所述第一用户的特征；所述客户端还可以基于所述第一用户输入的信息(如在应用程序的搜索框内输入的信息)，确认所述第一用户的资源特征。然后，服务器200基于所述第一用户的历史行为信息，确定所述第一用户的类型；若所述第一用户为活跃用户，则将所述第一用户的用户特征和/或第一用户输入的信息的资源特征输入至优热队列或cb队列中，进行活跃用户的资源召回；若所述第一用户为冷启用户，则将所述第一用户的用户特征和第一用户输入的信息的资源特征输入至冷启队列，所述冷启队列中包括嵌入值模型(所述嵌入值模型可以以字典的形式存在)，所述冷启队列将第一用户的用户特征和所述第一用户输入的信息的资源特征输入至所述嵌入值模型中，根据嵌入值模型的输出结果确定所述第一用户对应的第一嵌入值；所述第一嵌入值用于表征所述用户特征、所述资源特征和所述用户特征与所述资源特征之间的关联程度；基于所述第一嵌入值，确定与所述第一用户满足相似条件的第二用户；基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
36.在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本公开实施例提供的基于人工智能的召回方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(native)应用程序(application，app)，即需要在操作系统中安装才能运行的程序；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意app中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。
37.在实际应用中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。终端设备400以及服务器200可以通过有线或无线通信方式进行直接或间接地连接，本公开在此不做限制。
38.图2示出了本公开实施例提供的基于人工智能的召回系统的另一种架构示意图，为实现支撑一个示例性应用，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。
39.在一些实施例中，以电子设备是服务器为例，本公开提供的基于人工智能的召回方法可以由终端设备和服务器协同实现。例如，终端设备400运行客户端410，客户端410可以是用于基于人工智能的召回的客户端。客户端可以采集第一用户的用户特征和第一用户输入的信息的资源特征，并将携带所述第一用户的用户特征和第一用户输入的信息的资源特征的feed刷新请求通过网络300传输至服务器200包括的资源汇聚模块201；所述资源汇聚模块201向下游的各个队列发送所述feed刷新请求。
40.其中所述每个队列分别对应一种召回方式，如队列1对应热优召回方法、队列2对应cb召回方法、队列k对应本公开实施例提供的基于人工智能的召回方法等。
41.所述各个队列根据所述用户特征和/或所述资源特征的属性不同，使用不同的策略召回资源。例如，对于冷启用户，可以通过本公开实施例提供的基于人工智能的召回方法进行资源召回；还可以通过本公开实施例提供的基于人工智能的召回方法，以及其他召回方法相结合的召回方法进行召回；并对各个队列召回的资源分别进行粗排序、经排序和重排序等阶段打分，将所述资源和对应的评分返回至所述资源汇聚模块201；对于活跃用户，可以分别通过优热召回方法对应的队列和cb召回方法对应的队列分别进行召回；并对各个队列召回的资源分别进行粗排序、精排序和重排序等阶段打分，将所述资源和对应的评分返回至所述资源汇聚模块201。基于不同用户使用不同的召回方法，一方面提升冷启用户资源召回的准确性，另一方面还可以保证活跃用户资源召回的准确性与个性化。
42.所述资源汇聚模块201对所述各个队列的资源整合，并进行去重、融合、过滤和排序等至少之一的处理后，生成最终的下发列表(资源召回列表)，并将所述列表返回至客户端410，或者，通过服务器200将所述列表返回至所述客户端410。
43.所述客户端410基于所述列表，将与所述列表对应的资源通过所述客户端410对应的显示设备呈现给所述第一用户。
44.其中，所述资源汇聚模块201和所述服务器200包括的各个队列中除本公开实施例提供的基于人工智能的召回方法所对应的队列以外的其他队列，均是针对单一的矩阵产品(应用程序)进行设计和策略优化，需要较多的人力成本和机器成本，本公开实施例提供的基于人工智能的召回方法所对应的队列以外的其他队列具有较强的泛化性，能够较好地结合不同产品线(应用程序)的特点来提高冷启用户所召回资源的相关性，可以快速应用于各
矩阵产品，很好地节省机器和人力资源。
45.图3示出了本技术实施例提供的基于人工智能的召回方法的一种可选流程示意图，将根据各个步骤进行说明。
46.步骤s301，基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值。
47.在一些实施例中，基于人工智能的召回装置(以下简称装置)获取第一用户的用户信息；基于所述用户信息确定所述第一用户的用户特征；所述装置接收所述第一用户输入的信息；对所述第一用户输入的信息进行处理，得到资源特征；基于所述第一用户的所述用户特征和所述资源特征，确定得到第一用户对应的第一嵌入值。其中，所述第一嵌入值用于表征所述用户特征、所述资源特征和所述用户特征与所述资源特征之间的关联程度。所述用户信息包括用户的身份标识号(identity document，id)、年龄、性别、收入、一级分类、二级分类、兴趣爱好中至少之一；所述用户特征样本集包括所述历史用户对应的id特征、年龄特征、性别特征、收入特征、一级分类特征、二级分类特征和兴趣爱好特征中至少之一。所述兴趣爱好可以是所述历史用户启动应用程序后，基于应用程序的引导由用户输入的，所述id特征可以是id的语义特征和/或结构特征，如语义特征可以包括对用户而言具备特殊意义的字母和数字的组合、动漫人物对应的字符串等，结构特征可以包括字符数字、aabb、顺序的数字或字母等；所述年龄特征可以是年龄对应的区间，如12-15岁、16-18岁、19-23岁等；所述收入特征可以是收入对应的区间，如月收入0-1000元、1001元-3000元等，具体的年龄区间或收入区间可以基于实际需求设置为任一数值对应的区间，本公开不做具体限制；所述一级分类和所述二级分类可以是各领域规定的一级分类和二级分类，例如将某一领域的大类确定为一级分类，每个大类中包括的小类为二级分类；具体的，经济学的一级分类(或一级学科)可以包括理论经济学和应用经济学；其中，理论经济学中包括经济学的二级分类：政治经济学、经济思想史、经济史等；应用经济学中包括经济学的二级分类：国民经济学、区域经济学和财政学等。所述对所述第一用户输入的信息进行处理，可以至少包括以下之一：分词、去除无意义的字词(如连词、语气词)以及将相邻且重复的字或词合并中至少之一。例如，第一用户输入的信息为“减肥期间晚饭吃什么呀”，可以基于分词模型对所述输入信息进行处理，得到“减肥期间”、“晚饭”、“吃什么”、“呀”，去除无意义的语气词“呀”，得到的资源特征为“减肥期间”、“晚饭”和“吃什么”。
48.在一些实施例中，所述第一嵌入值通过嵌入值模型确定，所述装置基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值之前，还可以先训练所述嵌入值模型。
49.具体实施时，所述装置基于历史用户的历史点展日志集获取正资源特征样本集和负资源特征样本集；基于所述历史用户的用户信息集获取用户特征样本集；以所述正资源特征样本集、所述负资源特征样本集和所述用户特征样本集中的特征作为所述嵌入值模型的输入，嵌入值作为所述嵌入值模型的输出训练所述嵌入值模型。所述历史用户的历史点展日志包括基于所述历史用户的输入的信息，向所述历史用户展示资源，且所述历史用户点击所述资源的日志，或者基于所述历史用户的输入的信息向所述历史用户展示资源，且所述历史用户未点击所述资源的日志。其中，所述正资源特征样本集包括向所述历史用户展示资源，且所述历史用户点击所述资源的日志集合；所述负资源特征样本集包括向所述
历史用户展示资源，且所述历史用户未点击所述资源的日志集合；所述历史用户的历史点展日志可以是全部应用程序对应的历史点展日志；可选的由于各应用程序的数据量庞大，对于上线时间小于第一时间阈值的应用程序，可以以天为周期回溯所述应用程序对应的历史点展日志；对于上线时间大于或等于所述第一时间阈值的应用程序，可以以小时为周期回溯所述应用程序对应的历史点展日志。
50.在一些可选实施例中，所述装置还可以对所述嵌入值模型进行评估，得到所述嵌入值模型的模型评估指标(area under the curve，auc)；基于所述嵌入值模型的auc调整所述嵌入值模型的参数。具体地，若所述嵌入值模型的auc小于阈值，则调整所述嵌入值模型中的参数，基于所述正资源特征样本集、所述负资源特征样本集和所述用户特征样本集中的特征重新训练模型，训练完成后，对所述嵌入值模型进行评估，得到嵌入值模型的auc，直至所述嵌入值模型的auc大于或等于所述阈值，确认所述嵌入值模型训练完成。
51.本公开的技术方案中，所涉及的用户个人信息(用户信息)的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
52.步骤s302，基于所述第一嵌入值，确定与所述第一用户满足相似条件的第二用户。
53.在一些实施例中，所述装置可以筛选所述历史点展日志集中，包括点击操作的历史点展日志，以及与所述点击操作对应的用户信息；基于所述包括点击操作的历史点展日志，以及与所述点击操作对应的用户信息，确定嵌入值集合；所述嵌入值集合用于确定与所述第一用户满足相似条件的第二用户。
54.在一些实施例中，所述装置基于所述第一嵌入值，确定嵌入值集合中满足所述相似条件的第二嵌入值；确定所述第二嵌入值所对应的用户为所述第二用户。其中，所述第二用户可以为一个用户，也可以基于相似度排序确定的多个用户，例如基于相似度由高至低对所述嵌入值集合中的嵌入值进行排序，确认排在前面的k个嵌入值对应的k个用户为所述第二用户。
55.具体实施时，所述装置可以通过确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，确定满足相似条件的第二嵌入值。其中，确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度的算法不同，所述相似条件不同；所述嵌入值可以通过向量表示(例如一行n列的向量，每个嵌入值的长度相同，n可以基于实际需求通过设置嵌入值模型的参数调整)，则确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度可以通过包括但不限于以下之一的方法实现：
56.1)所述装置采用计算欧氏距离(euclidean distance)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是与所述第一嵌入值在空间中的欧氏距离最小，所述装置确认所述嵌入值集合中与所述第一嵌入值在空间中的欧氏距离最小的嵌入值，为所述第二嵌入值；
57.2)所述装置采用计算曼哈顿距离(manhattan distance)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是与所述第一嵌入值在空间中的曼哈顿距离最小，所述装置确认所述嵌入值集合中与所述第一嵌入值在空间中的曼哈顿距离最小的嵌入值，为所述第二嵌入值；
58.3)所述装置采用计算切比雪夫距离(chebyshev distance)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是
与所述第一嵌入值在空间中的切比雪夫距离最小，所述装置确认所述嵌入值集合中与所述第一嵌入值在空间中的切比雪夫距离最小的嵌入值，为所述第二嵌入值；
59.4)所述装置采用计算标准化欧式距离(standardized euclidean distance)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是与所述第一嵌入值在空间中的标准化欧式距离最小，所述装置确认所述嵌入值集合中与所述第一嵌入值在空间中的标准化欧式距离最小的嵌入值，为所述第二嵌入值；
60.5)所述装置采用计算夹角余弦的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是与所述第一嵌入值之间的夹角余弦值最大(即与所述第一嵌入值之间的夹角最小，最小夹角时为0度，此时两个嵌入值对应的向量在空间中重合)；所述装置确认所述嵌入值集合中与所述第一嵌入值之间的夹角余弦值最大的嵌入值，为所述第二嵌入值；
61.6)所述装置采用计算汉明距离(hamming distance)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是转换为所述第一嵌入值时，替换次数最少，所述装置确认所述嵌入值集合中转换为所述第一嵌入值时替换次数最少的嵌入值，为所述第二嵌入值；
62.7)所述装置采用计算杰卡德相似系数(jaccard similarity coefficient)的方式确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度，则所述相似条件可以是与所述第一嵌入值的交集元素在与所述第一嵌入值的并集元素中所占比例最大；所述装置确认所述嵌入值集合中与所述第一嵌入值的交集元素在于所述第一嵌入值的并集元素中所占比例最大的嵌入值，为所述第二嵌入值。
63.本领域技术人员理解，上述确认相似度的方法1)～7)仅仅为示例，也可以通过其他确认两个向量之前相似度的方式从所述嵌入值集合中确认满足相似度条件的嵌入值，本公开不作具体限定。
64.步骤s303，基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
65.在一些实施例中，所述装置基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
66.在一些可选实施例中，所述装置基于所述第二用户包括点击操作的历史点展日志召回每个所述第二用户对应的至少一条资源信息，对所述全部第二用户对应的至少一条资源进行合并，并记录每一条资源的总点击数量，对全部资源的总点击数量排序，从全部所述第二用户的至少一条资源信息中确认总点击数量最多的第一数量阈值的资源，为所述第一用户召回总点击数量最多的第一数量阈值的资源。如此，可以将点击次数最多资源优先推荐给所述第一用户，使得所述第一用户可以迅速获得可能感兴趣的资源，提升应用程序的dau。
67.如此，通过本公开提供的基于人工智能的召回方法，基于用户特征和资源特征确定第一用户的具备关联关系的第一嵌入值，可以提升后续确定第二用户时使用参数(第一嵌入值)的准确性，进而提升后续确定第二用户时的准确度，提升用户所召回资源的相关性，提升用户体验。对于用户行为稀疏的冷启用户，仅基于用户特征和用户输入的信息的资源特征，即可准确地确认与冷启用户相似度高的第二用户，进而准确地将冷启用户可能感
兴趣的资源召回，使得冷启用户可以触发更多的操作变为活跃用户，提升矩阵产品的dau。此外，在训练嵌入值模型时，使用全部应用程序(或称矩阵产品)的历史用户的历史点展日志作为资源特征样本集，一方面使得模型训练样本的覆盖范围更广，另一方面使得训练完成的嵌入值模型可以适配全部应用程序，使得本公开提供的嵌入值模型具有较强的泛化性，能够较好地结合不同的应用程序的特点提升冷启用户所召回资源的相关性，可以快速应用于各种应用程序，节省机器资源和人力资源。
68.图4示出了本公开实施例提供的基于人工智能的召回方法的另一种可选流程示意图，图5示出了本公开实施例提供的基于人工智能的召回系统的又一种架构示意图，将结合图4和图5进行说明。
69.步骤s401，确定训练样本集。
70.在一些实施例中，所述训练样本集包括资源特征样本集和用户特征样本集；所述资源特征样本集包括正资源特征样本集和负资源特征样本集；基于人工智能的召回装置将全部应用程序(或称矩阵产品)的历史用户的历史点展日志作为资源特征样本集；基于所述全部应用程序的历史用户的用户信息集获取用户特征样本集；其中，所述历史用户的历史点展日志包括基于所述历史用户的输入的信息，向所述历史用户展示且所述历史用户点击的资源的日志，以及向所述历史用户展示且所述历史用户未点击的资源的日志。其中，所述向所述历史用户展示且所述历史用户点击的资源的日志集合为正资源特征样本集；所述向所述历史用户展示且所述历史用户未点击的资源的日志集合为负资源特征样本集；其中，所述用户信息包括用户的id、年龄、性别、收入、一级分类、二级分类、兴趣爱好等至少之一；所述用户特征样本集包括所述历史用户对应的id特征、年龄特征、性别特征、收入特征、一级分类特征、二级分类特征和兴趣爱好特征中至少之一；所述资源特征可以包括资源的id、一级分类、二级分类、兴趣点和标题分词等至少一种。其中，所述兴趣爱好可以是所述历史用户启动应用程序后，基于应用程序的引导由用户输入的，所述id特征可以是id的语义特征和/或结构特征，如语义特征可以包括对用户而言具备特殊意义的字母和数字的组合、动漫人物对应的字符串等，结构特征可以包括字符数字、aabb、顺序的数字或字母等；所述年龄特征可以是年龄对应的区间，如12-15岁、16-18岁、19-23岁等；所述收入特征可以是收入对应的区间，如月收入0-1000元、1001元-3000元等，具体的年龄区间或收入区间可以基于实际需求设置为任一数值对应的区间，本公开不做具体限制；所述一级分类和所述二级分类可以是各领域规定的一级分类和二级分类，例如将某一领域的大类确定为一级分类，每个大类中包括的小类为二级分类；具体的，经济学的一级分类(或一级学科)可以包括理论经济学和应用经济学；其中，理论经济学中包括经济学的二级分类：政治经济学、经济思想史、经济史等；应用经济学中包括经济学的二级分类：国民经济学、区域经济学和财政学等。。
71.在一些可选实施例中，所述训练样本集可以基于时间变化进行更新，并基于所述更新后的训练样本集周期性执行步骤s402(即训练嵌入值模型)，并周期性将所述训练完成的嵌入值模型配送到线上(或配送到服务器、或配送至服务器包括的队列中)。由于用户关注的兴趣点和感兴趣的内容是一直变化的，如果只基于某一段时间内的历史点展数据训练所述嵌入值模型，且在模型使用的过程中没有针对性继续训练，较长时间后，所述嵌入值模型无法准确地确认用户的嵌入值，进而无法准确地确认相似用户。例如某一时期“一起爬山
吗”只是单纯的出行邀请，而在另一时期，含义就变为死亡邀约；通过本公开周期性更新训练集样本，使得所述嵌入值模型能够不断学习用户特征与资源特征之间的相关性，更准确地确认用户的嵌入值，提升冷启用户的资源召回准确性。
72.在一些可选实施例中，对于上线时间小于第一时间阈值的应用程序，可以以天为周期回溯所述应用程序对应的历史点展日志；对于上线时间大于或等于所述第一时间阈值的应用程序，可以以小时为周期回溯所述应用程序对应的历史点展日志；一方面保证历史点展日志的数量事宜，另一方面也能够使得所述嵌入值模型能够不断学习用户特征与资源特征之间的相关性，更准确地确认用户的嵌入值，提升冷启用户的资源召回准确性。
73.在再一些可选实施例中，所述装置还可以在所述嵌入值模型应用的过程中，基于冷启用户的召回资源以及点击资源系信息持续训练所述嵌入值模型，使得所述嵌入值模型能够不断学习用户特征与资源特征之间的相关性，更准确地确认用户的嵌入值，提升冷启用户的资源召回准确性。
74.本公开的技术方案中，所涉及的用户个人信息(用户信息)的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
75.步骤s402，训练嵌入值模型。
76.在一些实施例中，所述装置以所述正资源特征样本集、所述负资源特征样本集和所述用户特征样本集中的特征作为所述嵌入值模型的输入，嵌入值作为所述嵌入值模型的输出训练所述嵌入值模型。
77.在另一些实施例中，所述装置还可以对所述嵌入值模型进行评估，得到所述嵌入值模型的auc；基于所述嵌入值模型的auc调整所述嵌入值模型的参数。具体地，若所述嵌入值模型的auc小于阈值，则调整所述嵌入值模型中的参数，基于所述正资源特征样本集、所述负资源特征样本集和所述用户特征样本集中的特征重新训练模型，训练完成后，对所述嵌入值模型进行评估，得到嵌入值模型的auc，直至所述嵌入值模型的auc大于或等于所述阈值，确认所述嵌入值模型训练完成。。
78.具体实施时，所述嵌入值模型可以是因子分解机(alpha factor machine，alphafm)模型，所述alphafm模型可以通过物理机以用户的点击行为为目标进行训练，所述alphafm模型的输入包括用户侧输入的用户特征和资源侧输入的资源特征，其中，所述用户特征输入至所述alphafm模型后，生成用户特征对应的隐向量；所述资源特征输入至所述alphafm模型模型后，生成资源特征对应的隐向量；其中，所述用户特征对应的隐向量与所述资源特征对应的隐向量的长度相同，可以均为一行多列的向量。将所述用户特征对于的隐向量和所述资源特征对应的隐向量进行线性相加，得到所述用户对应的嵌入值。
79.在训练过程中，所述装置可以分别将某一用户对应的用户侧特征和资源侧特征输入至所述alphafm模型中，待所述alphafm模型分别生成所述用户侧特征对应的隐向量和所述资源侧特征对应的隐向量后，将所述用户特征对于的隐向量和所述资源特征对应的隐向量进行线性相加，得到所述用户对应的嵌入值；或者，所述装置可以将某一用户对应的用户特征和资源特征全部输入至所述alphafm模型中，待所述alphafm模型分别生成所述用户特征对应的隐向量和所述资源特征对应的隐向量后，将所述用户特征对于的隐向量和所述资源特征对应的隐向量进行线性相加，得到所述用户对应的嵌入值。
80.其中，所述alphafm模型对应的公式可以通过下式表示：
[0081][0082][0083]
其中，y为特征对应的隐向量，ω0和ωi为所述alphafm模型的参数，vi为第i维特征的隐向量，《,》代表向量点积，隐向量的长度为k(k＜＜n)，xi为特征。xhxi和xixj的系数分别为《vh,vi》和《vi,vj》，它们之间有共同项vi。
[0084]
步骤s403，将所述嵌入值模型配送到线上；筛选有点用户的嵌入值，配送到索引服务器。
[0085]
在一些实施例中，所述装置将训练好的所述嵌入值模型配送到线上(或者配送至服务器中，或者配送至服务器包括的冷启召回队列中)，所述线上包括多个召回队列，每个队列分别对应一种召回方式，如某一召回队列对应热优召回方式、另一召回队列对应cb召回方式等。
[0086]
可选的，所述装置可以将所述嵌入值模型以字典的形式配送到线上；其中，所述字典至少包括用户特征对应的隐向量和资源特征对应的隐向量。在接收到第一用户的用户特征和资源特征后，基于所述字典包括的用户特征对应的隐向量和资源特征对应的隐向量，确定所述第一用户对应的全部隐向量，将所述第一用户对应的全部隐向量进行线性相加，获得所述第一用户对应的第一嵌入值。
[0087]
在另一些实施例中，所述装置基于所述历史用户的历史点展日志和所述嵌入值模型，确定所述历史用户对应的嵌入值；筛选有点用户的嵌入值，将所述有点用户的嵌入值和所述有点用户对应的历史点击信息索引存储至所述索引服务器(可以是vec-index服务对应的服务器)中。其中，所述有点用户包括具有历史点击行为的用户(如向所述历史用户展示资源，所述历史用户点击所述资源，则说明所述历史用户为有点用户，具有历史点击行为)。所述索引服务器用于，响应于冷启用户的嵌入值，基于所述冷启用户的嵌入值确定与所述冷启用户满足相似条件的用户，以及所述满足相似条件的用户对应的历史点击信息索引。
[0088]
步骤s404，获取有点用户的历史点击信息，写入redis服务器。
[0089]
在一些实施例中，所述装置获取有点用户的历史点击信息和/或所述历史点击信息索引，并将所述有点用户的历史点击信息和/或所述历史点击信息索引存储至所述redis服务器中。
[0090]
在一些可选实施例中，所述装置响应于冷启用户的嵌入值，基于所述冷启用户的嵌入值从所述索引服务器中确定与所述冷启用户满足相似条件的用户，以及所述用户对应的历史点击信息索引；基于所述历史点击信息索引，从所述redis服务器中确定所述用户的历史点击信息，将所述历史点击信息对应的资源召回给所述冷启用户。
[0091]
在一些可选实施例中，所述步骤s401至步骤s404的步骤可以在离线情况下执行，步骤s405至步骤s408可以在在线情况下执行。
[0092]
步骤s405，确认第一用户的用户类型。
[0093]
在一些实施例中，所述装置响应于所述第一用户输入的信息，基于所述第一用户的历史行为信息数量，确认所述第一用户的用户类型。
[0094]
若所述第一用户的历史行为信息的数量小于或等于第二阈值，则所述第一用户为
冷启用户；若所述第一用户的历史行为信息的数量大于所述第二阈值，则所述第一用户为活跃用户。
[0095]
其中，所述历史行为信息至少包括：登录(或打开)应用程序的信息、点击应用程序中的链接的信息(如连接对应的统一资源定位器和超文本标记语言，以及所述统一资源定位器和所述超文本标记语言对应的特征)、通过应用程序进行搜索的信息(如搜索的信息的特征、搜索次数等)、观看视频的信息(如视频的特征、观看时长等)、阅读的信息(如阅读的文本的特征、阅读时长等)中至少之一。
[0096]
若所述第一用户未冷启用户，则基于服务器中冷启队列为所述第一用户进行资源召回，具体可以包括：
[0097]
步骤s406，基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值。
[0098]
在一些实施例中，所述装置获取所述第一用户的用户信息；基于所述用户信息确定所述第一用户的用户特征；所述装置基于所述第一用户输入的信息；对所述第一用户输入的信息进行处理，得到资源特征；将所述第一用户的所述用户特征和所述资源特征输入至所述嵌入值模型中，得到第一用户对应的第一嵌入值。
[0099]
其中，所述对所述第一用户输入的信息进行处理，可以至少包括以下之一：分词、去除无意义的字词(如连词、语气词)以及将相邻且重复的字或词合并中至少之一。例如，第一用户输入的信息为“减肥期间晚饭吃什么呀”，可以基于分词模型对所述输入信息进行处理，得到“减肥期间”、“晚饭”、“吃什么”、“呀”，去除无意义的语气词“呀”，得到的资源特征为“减肥期间”、“晚饭”和“吃什么”。
[0100]
具体实施时，如图5所示，所述用户侧特征(第一用户的用户特征)输入至所述alphafm模型后，生成用户特征对应的隐向量；所述资源特征输入至所述alphafm模型后，生成资源特征对应的隐向量；其中，所述用户特征对应的隐向量与所述资源特征对应的隐向量的长度相同，均为一行多列的向量。
[0101]
在一些可选实施例中，所述装置可以分别将第一用户对应的用户特征和资源特征输入至所述alphafm模型中，待所述alphafm模型分别生成所述用户特征对应的隐向量和所述资源特征对应的隐向量后，进行线性相加，确定所述第一用户对应的第一嵌入值；或者，所述装置可以将所述第一用户对应的用户特征和资源特征全部输入至所述alphafm模型中，待所述alphafm模型分别生成所述用户特征对应的隐向量和所述资源特征对应的隐向量后，进行线性相加，确定所述第一用户对应的第一嵌入值。
[0102]
步骤s407，基于所述第一嵌入值，从所述索引服务器中确定与所述第一用户满足相似条件的第二用户。
[0103]
在一些实施例中，所述装置基于所述第一嵌入值，从所述索引服务器中确定嵌入值集合中满足所述相似条件的第二嵌入值；确定所述第二嵌入值所对应的用户为所述第二用户。
[0104]
具体实施时，如图5所示，所述装置可以通过确定所述第一嵌入值和所述索引服务器中的嵌入值集合中包括的至少一个嵌入值之间的相似度，确定满足相似条件的第二嵌入值。其中，确定所述第一嵌入值和所述嵌入值集合中包括的至少一个嵌入值之间的相似度的算法不同，所述相似条件不同；所述嵌入值可以通过向量表示(例如一行n列的向量，每个
嵌入值的长度相同，n可以基于实际需求通过嵌入值模型的参数设置)。
[0105]
其中，所述第二嵌入值可以包括多个嵌入值。
[0106]
步骤s408，从所述redis服务器中获取所述第二用户对应的资源信息，为所述第一用户进行资源召回。
[0107]
在一些实施例中，所述装置响应于所述第一用户的所述第一嵌入值，基于所述第一用户的所述第一嵌入值从所述索引服务器中确定与所述第一用户满足相似条件的第二用户，以及所述第二用户对应的历史点击信息索引；基于所述历史点击信息索引，从所述redis服务器中确定所述第二用户的历史点击信息，将所述历史点击信息对应的资源召回给所述第一用户，实现所述第一用户的资源召回。
[0108]
如此，通过本公开实施例提供的基于人工智能的召回方法，基于用户特征和资源特征确定第一用户的具备关联关系的第一嵌入值，可以提升后续确定第二用户时使用参数(第一嵌入值)的准确性，进而提升后续确定第二用户时的准确度，提升用户所召回资源的相关性，提升用户体验。对于用户行为稀疏的冷启用户，仅基于用户特征和用户输入的信息的资源特征，即可准确地确认与冷启用户相似度高的第二用户，进而准确地将冷启用户可能感兴趣的资源召回，使得冷启用户可以触发更多的操作变为活跃用户，提升矩阵产品的dau。在模型训练阶段，使用全部应用程序(或称矩阵产品)的历史用户的历史点展日志作为资源特征样本集，一方面使得模型训练样本的覆盖范围更广，另一方面使得训练完成的嵌入值模型可以适配全部应用程序，使得本公开提供的嵌入值模型具有较强的泛化性，能够较好地结合不同的应用程序的特点提升冷启用户所召回资源的相关性，可以快速应用于各种应用程序，很好地节省机器资源和人力资源。
[0109]
图6示出了本技术实施例提供的基于人工智能的召回装置的可选结构示意图，将根据各个部分进行说明。
[0110]
在一些实施例中，所述基于人工智能的召回装置600包括确定单元601和召回单元602。
[0111]
所述确定单元601，用于基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值，所述第一嵌入值用于表征所述用户特征、所述资源特征和所述用户特征与所述资源特征之间的关联程度；基于所述第一嵌入值，确定与所述第一用户满足相似条件的第二用户；
[0112]
所述召回单元602，用于基于所述第二用户对应的资源信息，为所述第一用户进行资源召回。
[0113]
在一些实施例中，所述基于人工智能的召回装置600还可以包括：获取单元603。
[0114]
所述获取单元603，用于在所述基于第一用户的用户特征和所述第一用户输入的信息对应的资源特征确定所述第一用户对应的第一嵌入值之前，获取所述第一用户的用户信息；基于所述用户信息确定所述第一用户的用户特征。
[0115]
在一些实施例中，所述基于人工智能的召回装置600还可以包括：接收单元604。
[0116]
所述接收单元604，用于在所述基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值之前，接收所述第一用户输入的信息；对所述第一用户输入的信息进行处理，得到所述资源特征。
[0117]
在一些实施例中，所述基于人工智能的召回装置600还可以包括：模型训练单元
605。
[0118]
所述模型训练单元605，用于所述基于第一用户的用户特征和所述第一用户输入的信息对应的资源特征确定所述第一用户对应的第一嵌入值之前，基于历史用户的历史点展日志集获取正资源特征样本集和负资源特征样本集；基于所述历史用户的用户信息集获取用户特征样本集；以所述正资源特征样本集、所述负资源特征样本集和所述用户特征样本集中的特征作为所述嵌入值模型的输入，嵌入值作为所述嵌入值模型的输出训练所述嵌入值模型。
[0119]
所述模型训练单元605，还用于对所述嵌入值模型进行评估，得到所述嵌入值模型的auc；基于所述嵌入值模型的auc，调整所述嵌入值模型的参数。
[0120]
所述确定单元601，还用于筛选所述历史点展日志集中，包括点击操作的历史点展日志，以及与所述点击操作对应的用户信息；基于所述包括点击操作的历史点展日志，以及与所述点击操作对应的用户信息，确定嵌入值集合；所述嵌入值集合用于确定与所述第一用户满足相似条件的第二用户。
[0121]
所述确定单元601，具体用于基于所述第一嵌入值，确定嵌入值集合中满足所述相似条件的第二嵌入值；确定所述第二嵌入值所对应的用户为所述第二用户。
[0122]
所述召回单元602，具体用于基于所述第二用户包括点击操作的历史点展日志对所述第二用户对应的资源信息进行排序；确定满足第一条件的至少一条资源；为所述第一用户召回所述满足第一条件的至少一条资源。
[0123]
在一些实施例中，所述基于人工智能的召回装置600还可以包括：用户属性确认单元606。
[0124]
用户属性确认单元606，用于在所述基于第一用户的用户特征和所述第一用户输入的信息的资源特征确定所述第一用户对应的第一嵌入值之前，基于所述第一用户的历史行为信息，确定所述第一用户为冷启用户；所述冷启用户包括历史行为信息数量小于或等于第二阈值的用户。
[0125]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0126]
图7示出了可以用来实施本公开的实施例的示例电子电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0127]
如图7所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0128]
电子设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以
及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0129]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如基于人工智能的召回方法。例如，在一些实施例中，基于人工智能的召回方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的基于人工智能的召回方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行基于人工智能的召回方法。
[0130]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0131]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0132]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0133]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0134]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0135]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
[0136]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0137]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：分时上电方法、装置、整机柜服务器及存储介质与流程

基于人工智能的召回方法、装置、电子设备及存储介质与流程

相关文献

最热文献