一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

推荐模型的构建方法和相似用户推荐方法与流程

2022-04-06 21:44:14 来源:中国专利 TAG:


1.本发明涉及用户推荐技术领域,尤其涉及一种推荐模型的构建方法和相似用户推荐方法。


背景技术:

2.在进行科技用户相似度推荐时,往往采用基于人工标签的方法进行相似用户推荐,该推荐方法推荐的结果不准确、多样性差且无法满足用户的需求的变化。


技术实现要素:

3.本发明提供一种推荐模型的构建方法和相似用户推荐方法,用以解决现有技术中科技用户推荐的结果不准确的缺陷,实现高效且准确地科技用户推荐。
4.本发明提供一种推荐模型的构建方法,包括:
5.获取样本用户信息,所述样本用户信息包括样本用户的样本属性信息和样本科研信息;
6.基于所述样本属性信息,构建所述样本用户的属性关系特征;
7.基于所述样本科研信息,构建所述样本用户的用户行为关系特征;
8.基于所述属性关系特征和所述用户行为关系特征,生成所述推荐模型。
9.根据本发明提供的一种推荐模型的构建方法,所述基于所述属性关系特征和所述用户行为关系特征,生成所述推荐模型,包括:
10.融合所述属性关系特征和所述用户行为关系特征,生成用户画像模型;
11.基于所述用户画像模型,构建所述推荐模型。
12.根据本发明提供的一种推荐模型的构建方法,在所述融合所述属性关系特征和所述用户行为关系特征,生成用户画像模型之后,且在所述基于所述用户画像模型,构建所述推荐模型之前,所述方法还包括:
13.以所述样本用户信息为样本,以与所述样本用户信息对应的样本用户画像信息为样本标签,对所述用户画像模型进行训练。
14.根据本发明提供的一种推荐模型的构建方法,所述用户行为关系特征包括科研领域关系特征和科研方向关系特征中的至少一项,所述基于所述样本科研信息,构建所述样本用户的用户行为关系特征,包括:
15.基于所述样本科研信息,确定所述样本用户对应的成果发表信息和成果引用信息;
16.对所述成果发表信息和所述成果引用信息进行图网络建模,生成所述科研领域关系特征;
17.或者,
18.对所述样本科研信息进行特征提取,生成所述样本用户对应的科研方向信息;
19.对所述科研方向信息进行语义信息建模,生成所述科研方向关系特征。
20.根据本发明提供的一种推荐模型的构建方法,所述对所述成果发表信息和所述成果引用信息进行图网络建模,生成所述科研领域关系特征,包括:
21.基于所述成果发表信息和所述成果引用信息,建立加权有向图;
22.基于所述加权有向图,建立多个成果之间的实体及关系特征;
23.基于所述实体及关系特征,建立所述科研领域关系特征。
24.本发明还提供一种相似用户推荐方法,包括:
25.获取目标用户信息,所述目标用户信息包括目标用户的目标属性信息和目标科研信息;
26.将所述目标用户信息输入至由推荐模型的构建方法生成的推荐模型,获取所述推荐模型输出的与所述目标用户信息对应的目标相似用户。
27.本发明还提供一种推荐模型的构建装置,包括:
28.第一获取模块,用于获取样本用户信息,所述样本用户信息包括样本用户的样本属性信息和样本科研信息;
29.第一处理模块,用于基于所述样本属性信息,构建所述样本用户的属性关系特征;
30.第二处理模块,用于基于所述样本科研信息,构建所述样本用户的用户行为关系特征;
31.第三处理模块,用于基于所述属性关系特征和所述用户行为关系特征,生成所述推荐模型。
32.本发明还提供一种相似用户推荐装置,包括:
33.第二获取模块,用于获取目标用户信息,所述目标用户信息包括目标用户的目标属性信息和目标科研信息;
34.第四处理模块,用于将所述目标用户信息输入至由推荐模型的构建方法生成的推荐模型,获取所述推荐模型输出的与所述目标用户信息对应的目标相似用户。
35.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述推荐模型的构建方法的步骤或所述相似用户推荐方法的步骤。
36.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述推荐模型的构建方法的步骤或所述相似用户推荐方法的步骤。
37.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述推荐模型的构建方法的步骤或所述相似用户推荐方法的步骤。
38.本发明提供的推荐模型的构建方法和相似用户推荐方法,通过样本用户的样本属性信息和样本科研信息分别构建属性关系特征和用户行为关系特征,并基于属性关系特征和用户行为关系特征构建推荐模型,从而实现了用户的属性特征和用户行为特征的融合,使得生成的用户嵌入画像特征更全面,从而显著提高了推荐结果的准确性和精确性;除此之外,该推荐模型还能够基于用户的用户行为特征的变化而动态调整,也即能够随着用户科研行为的变化而对应变化,具有较高的灵活性和普适性。
附图说明
39.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1是本发明提供的推荐模型的构建方法的流程示意图之一;
41.图2是本发明提供的推荐模型的构建方法的流程示意图之二;
42.图3是本发明提供的推荐模型的构建方法的原理示意图之一;
43.图4是本发明提供的推荐模型的构建方法的原理示意图之二;
44.图5是本发明提供的推荐模型的构建方法的原理示意图之三;
45.图6是本发明提供的推荐模型的构建方法的原理示意图之四;
46.图7是本发明提供的相似用户推荐方法的流程示意图;
47.图8是本发明提供的推荐模型的构建装置的结构示意图;
48.图9是本发明提供的相似用户推荐装置的结构示意图;
49.图10是本发明提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.下面结合图1至图6描述本发明的推荐模型的构建方法。
52.该推荐模型的构建方法的执行主体可以为推荐模型的构建装置,或者为服务器,或者为终端,其中,终端包括但不限于:手机、电脑、平板电脑、手表、学习机以及阅读器等。
53.如图1所示,该推荐模型的构建方法包括:步骤110、步骤120、步骤130和步骤140。
54.步骤110、获取样本用户信息,样本用户信息包括样本用户的样本属性信息和样本科研信息;
55.在该步骤中,样本用户为科技用户,即进行科技研究的用户。
56.样本用户信息为样本用户的相关信息,包括样本用户的属性信息和科研信息。样本用户信息用于进行推荐模型的构建以及训练。
57.其中,属性信息用于表征样本用户的个人信息,属性信息包括但不限于样本用户的姓名、年龄、专业、性别以及研究机构等信息。
58.科研信息用于表征样本用户的科研情况,包括但不限样本用户的研究成果相关信息;基于科研信息,可以确定样本用户的研究领域、研究方向以及研究成果等情况。
59.需要说明的是,对于同一个样本用户,其在不同阶段的科研情况可能是变化的,则在本步骤中,所获取的样本用户信息也是在不断更新的。
60.在实际执行过程中,可以获取多个样本用户的样本用户信息,每个样本用户均对应有样本属性信息和样本科研信息。
61.将每一个样本用户对应的样本用户信息作为一个样本训练集,则可以得到多个样
本训练集。
62.在获取得到多个样本用户的样本用户信息后,可以将样本用户信息存储于本地或云端服务器,在需要时调取即可。
63.在一些实施例中,还可以每隔目标时长更新一次样本用户的样本用户信息。
64.步骤120、基于样本属性信息,构建样本用户的属性关系特征;
65.在该步骤中,属性关系特征为样本用户的个人信息标签。
66.属性关系特征可以表现为稠密向量。
67.在实际执行过程中,基于样本属性信息,可以建立每一个样本用户的用户标签,其中,用户标签包括但不限于该样本用户的姓名、年龄、专业、性别以及研究机构等。
68.通过构建每一个样本用户的属性关系特征,可以基于属性关系特征,确定任意两个样本用户之间相同的属性、相近的属性以及不同的属性。
69.可以理解的是,任意两个样本用户之间的属性关联关系,可以表现为:大部分相似、或者部分相似、或者少数相似、或者还可以为完全无关联。
70.例如,可以使用编码器对样本用户的样本属性信息进行建模,以将稀疏信息编码为稠密信息。
71.在获取样本属性信息后,如获取样本用户所填写的个人信息后,基于样本属性信息生成一系列标签,包括但不限于:研究机构、年龄以及专业等。
72.然后将这些标签转为one-hot编码,通过编码器,如全连接神经网络,即可将上述标签编码为固定维度的稠密向量,该固定维度的稠密向量即为该样本用户对应的属性关系特征,用于描述用户标签信息模型。
73.步骤130、基于样本科研信息,构建样本用户的用户行为关系特征;
74.在该步骤中,用户行为关系特征用于表征样本用户的用户行为特征。
75.用户行为关系特征可以表现为稠密向量。
76.其中,用户行为用于表征样本用户的科研行为,包括但不限于样本用户在历史阶段或在当前阶段的研究领域、研究方向以及研究成果等情况;其中,研究成果还可以包括样本用户的研究成果发表情况、研究成果引用情况以及研究成果内容等。
77.可以理解的是,研究成果可以为论文、期刊、书籍以及研究报告等文本信息,或者也可以为演讲或讲座等音视频信息。
78.通过构建每一个样本用户对应的用户行为关系特征,可以确定多个样本用户中,任意两个样本用户之间的用户行为特征的相关性,也即可以确定任意两个样本用户之间的科研行为的相似度。
79.需要说明的是,任意两个样本用户可能具有相似的研究领域,或者具有相似的研究方向,或者具有相似的研究成果,或者任意两个样本用户所对应的研究成果具有一定的关联关系,如引用或被引用等关系。
80.步骤140、基于属性关系特征和用户行为关系特征,生成推荐模型。
81.在该步骤中,推荐模型用于向目标用户推荐与目标用户相似的科技用户。
82.通过步骤120可以得到多个样本用户的属性关系特征对应的稠密向量,通过步骤130可以得到多个样本用户的用户行为关系特征对应的稠密向量。
83.基于多个样本用户的属性关系特征对应的稠密向量以及多个样本用户的用户行
为关系特征对应的稠密向量,即可生成用于表征样本用户的用户画像特征的稠密向量。
84.其中,用户画像特征用于表征用户的详细的属性特征和用户行为特征;包括但不限于用户的姓名、年龄、专业、性别以及研究机构等属性特征,以及样本用户在历史阶段或在当前阶段的研究领域、研究方向以及研究成果等用户行为特征。
85.基于用户画像特征的稠密向量,即可构建得到推荐模型。
86.可以理解的是,在样本用户的用户行为关系特征变化的情况下,基于样本用户的用户行为关系特征所生成的推荐模型也会相应发生调整。
87.发明人在研发过程中发现,科技用户的背景较为复杂,可能涉及多个机构以及专业领域,而且他们研究的领域也在不断地变化。此外,科技用户还涉及学科交叉的问题。另外对于每一位科技用户而言,研究层次有较大的差别,例如有的经验较少,有的经验丰富,有的是领域专家,对于不同的科技用户,其需要寻找的目标相似用户都不一样。
88.发明人在研发过程中还发现,现有的科技领域相似用户推荐方法一般采用基于人工标签的方法建立用户画像,然后使用一定的规则进行用户匹配并推荐。具体地,首先收集或标注用户基本信息,需要尽可能完善个人信息;然后依据用户基本信息和不同用户标签描述用户画像;最后使用一定规则,例如,标签的杰卡德(jacard)相似度,对用户标签进行筛选匹配,筛选匹配得到的结果即为该方法为用户推荐的相似的科技用户。
89.该方法不仅需要用户尽可能完善个人信息,操作较为繁杂;而且,在实际执行过程中,需要为每个科技用户标注大量标签信息,导致成本过高;此外,人工标签难以满足科技用户的交叉且复杂的属性,且在标签体系以及标注手段不一致的情况下,极易导致标签数据不统一,用户信息描述不准确,从而影响推荐结果的准确性;最后,使用规则的方法,难以适应用户行为的变化,难以保证推荐结果的多样性和实时性,从而导致推荐的精确度和灵活性不佳,影响用户的使用体验。
90.而在本发明中,利用样本用户的样本属性信息,可以将稀疏的用户标签信息编码为稠密信息,从而生成属性关系特征,完成对样本用户标签信息的建模;然后基于样本用户的样本科研信息,生成用户行为关系特征,完成对样本用户的科研行为信息的建模;接着基于属性关系特征和用户行为关系特征,生成推荐模型,融合了样本用户的属性特征和科研行为特征,从而能够从不同的方面描述样本用户,描述更加完整且准确。
91.除此之外,该推荐模型还可以基于用户行为关系特征的变化而实时调整,使得推荐模型能随着科技用户科研行为的变化而调整,具有较高的灵活性和实时性。
92.根据本发明实施例提供的推荐模型的构建方法,通过样本用户的样本属性信息和样本科研信息分别构建属性关系特征和用户行为关系特征,并基于属性关系特征和用户行为关系特征构建推荐模型,从而实现了用户的属性特征和用户行为特征的融合,使得生成的用户嵌入画像特征更全面,从而显著提高了推荐结果的准确性和精确性;除此之外,该推荐模型还能够基于用户的用户行为特征的变化而动态调整,也即能够随着用户科研行为的变化而对应变化,具有较高的灵活性和普适性。
93.下面通过具体实施例,对步骤140的实现方式进行具体说明。
94.如图2所示,在一些实施例中,步骤140还可以包括:
95.融合属性关系特征和用户行为关系特征,生成用户画像模型;
96.基于用户画像模型,构建推荐模型。
97.在该实施例中,用户画像模型用于生成用户画像信息。
98.用户画像信息用于表征用户的详细的属性信息和用户行为信息。
99.用户画像信息为用户画像信息的嵌入向量,可以表现为稠密向量。
100.每一个样本用户均对应有一个用户画像信息。
101.不同的样本用户,其对应的用户画像信息可能不同。
102.在生成用户画像模型后,基于用户画像模型所生成的用户画像信息的嵌入向量,通过嵌入向量之间的相似度的计算方法,即可构建推荐模型。
103.在实际执行过程中,可以将样本用户的不同特征的稠密向量进行融合,比如使用全连接层的方式,将样本用户所对应的属性关系特征的稠密向量和用户行为关系特征的稠密向量作为全连接层的输入,通过全连接层计算,最后输出一个固定维度的稠密向量。
104.通过全连接神经网络输出的该固定维度的稠密向量,即为用户画像模型。
105.通过该用户画像模型,可以得到各样本用户对应的经融合了不同特征的用户画像信息的嵌入向量以及目标用户对应的经融合了不同特征的用户画像信息的嵌入向量。
106.通过计算目标用户的嵌入向量与其他不同样本用户的嵌入向量之间的几何距离,并基于几何距离对其他用户进行排序,输出排序较前的其他用户,即可得到与目标用户相似度较近的其他用户。
107.其中,该几何距离用于表征不同的用户之间的相似度。
108.在一些实施例中,在构建生成推荐模型后,还可以采用度量用户相似性的方法来训练推荐模型,例如fm以及deepfm等用于训练相似度排序模型的方法,本发明不做限定。
109.在该实施例中,通过融合属性关系特征和用户行为关系特征,生成用户画像模型,实现了用户的标签特征以及研究行为特征之间的融合,从而能够从用户的属性以及用户的研究行为等不同方面描述科技用户,使得科技用户的嵌入画像特征更全面。
110.除此之外,基于用户行为关系特征构建用户画像模型,能够使通过用户画像模型输出的用户画像信息随着科技用户研究行为的变化而调整,从而提高输出的用户画像信息的准确度和精确度。
111.在一些实施例中,在融合属性关系特征和用户行为关系特征,生成用户画像模型之后,且在基于用户画像模型,构建推荐模型之前,该方法还可以包括:
112.以样本用户信息为样本,以与样本用户信息对应的样本用户画像信息为样本标签,对用户画像模型进行训练。
113.在该实施例中,样本用户画像信息为样本用户信息对应的真实的用户画像信息。
114.在生成用户画像模型后,可以将样本用户信息输入至用户画像模型,并得到由用户画像模型输出的预测用户画像信息;
115.然后基于预测用户画像信息和样本用户画像信息,即可对用户画像模型进行反复训练及调整,直至输出准确的预测用户画像信息。
116.在实际执行过程中,可以使用有监督方法对用户画像信息的嵌入向量进行微调。
117.其中,有监督方法可以为有监督学习训练方法。
118.例如,可以将监督学习方法使用的标签设置为基于用户表征的下游任务标签,例如,利用用户研究方向为下游任务进行特征微调。
119.具体地,将用户的研究方向标签作为用户画像模型的目标,以用户画像模型作为
输入特征,预测用户的标签,依据预测结果,反向传播,微调用户画像模型,使得用户画像模型更精准,更能表述用户特征。
120.在该实施例中,通过对用户画像模型进行训练,可以有效提高用户画像模型的智能化程度,从而提高所输出的结果的准确性和精确性。
121.可以理解的是,在实际使用过程中,还可以将新生成的目标用户对应的用户画像信息作为后续训练过程中的训练样本。随着训练库样本量的扩大,该用户画像模型的智能程度将越来越高,其输出的结果的准确性也将越来越好。
122.继续参考图2,在一些实施例中,用户行为关系特征包括科研领域关系特征和科研方向关系特征中的至少一项,下面分别从不同的角度,对步骤130的实现方式进行说明。
123.一、构建科研领域关系特征
124.在一些实施例中,步骤130还可以包括:
125.基于样本科研信息,确定样本用户对应的成果发表信息和成果引用信息;
126.对成果发表信息和成果引用信息进行图网络建模,生成科研领域关系特征。
127.在该实施例中,科研领域关系特征用于表征样本用户的各个研究领域之间的关系特征。
128.科研方向关系特征用于表征样本用户的各个研究方向之间的关系特征。
129.可以理解的是,基于各个样本用户所对应的科研领域关系特征,可以确定任意两个样本用户在科研领域维度的相关性;基于各个样本用户所对应的科研方向关系特征,可以确定任意两个样本用户在科研方向维度的相关性。
130.成果发表信息用于表征样本用户发表科研成果的情况,例如可以为发表的论文、期刊、专著、专利文献以及其他科研成果的情况。
131.成果发表信息可以包括:发表的成果的数量、发表的成果的时间以及发表的成果的作者排序等。
132.成果引用信息用于表征用户发表的科研成果的引用以及被引用的情况,例如用户发表的论文所引用的其他论文的情况。
133.其中,同一个样本用户对应有至少一个成果。
134.可以理解的是,对于用户发表的一篇论文,其引用了多篇其他论文,其中,其他论文中包括该用户本人发表的论文以及其他用户发表的论文。
135.对于不同的引用情况,可以设置不同的权重,以提高最终所生成科研领域关系特征的精确性和准确性。
136.在生成科研领域关系特征以及科研方向关系特征之后,将二者中的至少一个与用户的属性关系特征进行融合,即可生成用户画像模型。
137.在本实施例中,基于样本科研信息,构建科研领域关系特征以及科研方向关系特征,并将科研领域关系特征、科研方向关系特征以及属性关系特征进行融合以生成用户画像模型,使得用户画像模型可以从科技用户的标签、研究领域及研究方向等多个方面描述科技用户,进一步提高了所生成的用户画像信息的全面性。
138.下面结合图3-图6,通过具体实施例,对该步骤进行说明。
139.在一些实施例中,对成果发表信息和成果引用信息进行图网络建模,生成科研领域关系特征,包括:
140.基于成果发表信息和成果引用信息,建立加权有向图;
141.基于加权有向图,建立多个成果之间的实体及关系特征;
142.基于实体及关系特征,建立科研领域关系特征。
143.在该实施例中,加权有向图用于表征成果之间的时间先后顺序以及成果之间的引用关系。
144.如图4所示,加权有向图包括多个节点和节点之间的连接线。
145.其中,节点对应于用户发表的成果以及引用的成果,每一个成果均对应有一个节点。
146.节点与节点之间的连接线用于表征两个成果之间的关系。
147.连接线可以包括有向连接实线和有向连接虚线。
148.其中,连接线的方向用于表征成果发表的时间顺序,实线用于表征该实线两端节点所对应的成果为同一个样本用户发表的,虚线用于表征该虚线两端节点所对应的论文具有引用关系。
149.任意相邻的两个节点之间均对应有权重值,用于表征该成果与样本用户之间的关联程度。
150.可以理解的是,不同的两个节点之间所对应的权重值可能不同。
151.例如,同一个样本用户发表的成果之间的关系权重较成果引用关系权重更高。
152.又如,对于同一个样本用户,其发表了两个成果,且这两个成果之间还具有引用关系,则可以将权重设置为同发表者的权重与引用关系的权重之和。
153.例如,在成果为论文的情况下,可以理解的是,样本用户的论文发表以及论文引用存在一个时间先后关系,则可以基于样本用户发表论文的时间先后顺序,建立时间序列图。
154.图3示例了一种时间序列图,包括user1、user2和user3三个样本用户,a、b、c等字母分别代表不同的论文,其中,在时间轴上的字母表示该论文为该样本用户所发表的,该时间轴上的字母下一级的字母,表征该论文所引用的论文。
155.如,样本用户user1先后发表了a、b和c三篇论文,其中,论文a引用了论文h和论文i,论文b引用了论文a和论文d,论文c引用了论文a和论文e。
156.而在这些引用的论文中,论文d和论文e为样本用户user2发表的,论文d为样本用户user3发表的。
157.其中,论文b又为样本用户user1和样本用户user2共同发表的。
158.可以理解的是,一篇论文可以引用多篇论文,且一篇论文也有多位作者,因此一篇论文会出现在其他用户的时间序列图中。
159.在构建时间序列图的基础上,基于用本用户发表论文以及引用论文的情况建立加权有向图。
160.该加权有向图包括多个节点和节点之间的连接线。
161.其中,节点对应于用户发表的论文以及引用的论文,每一个论文均对应有一个节点。
162.节点与节点之间的连接线用于表征两篇论文之间的关系。
163.连接线可以包括有向连接实线和有向连接虚线。
164.其中,连接线的方向用于表征论文发表的时间顺序,实线用于表征该实线两端节
点所对应的论文为同一个作者发表的,虚线用于表征该虚线两端节点所对应的论文为引用关系。
165.同样,同作者发表的论文关系权重较论文引用关系权重更高,若两篇论文中,既有发表论文同作者关系也有引用关系,则权重为同作者论文的权重与引用关系的权重之和。
166.基于论文之间的权重值、时间顺序以及引用关系,即可构建加权有向图。
167.通过构建加权有向图,即可以得到成果之间的时间先后顺序、引用关系以及与样本用户之间的关联程度。
168.在生成加权有向图后,基于加权有向图,可进一步构建多个成果之间的实体及关系特征。
169.实体及关系特征用于表征成果在实体空间的实体特征,以及在关系空间的关系特征。
170.在实际执行过程中,可以使用知识表示方法对该加权有向图所表征的关系进行空间特征及关系特征建模。
171.其中,知识表示方法可以为知识图谱的向量表示方法,包括但不限于transe、transh或transr等方法。
172.下面以transr为例,对成果的空间特征及关系特征建模进行说明。
173.其中,transr方法可以计算不同实体的实体特征及关系特征。
174.通过transr方法,可以将实体空间中的实体通过投影的方法,投影到关系空间。
175.如图5所示了一种transr的理论示意图,其中,在成果为论文的情况下,论文a与论文b为实体空间中的主要实体h和t,论文d和论文f在实体空间中分别与论文a和论文b较为接近的其他论文。
176.其中,关系空间所表述的关系即为发表论文同作者关系和引用关系。
177.从关系空间中可以看出,r用于表征实体h和实体t之间的关系,即论文a与论文b之间的关系,论文a与论文b较其他论文更接近,即论文a与论文b之间的关系更紧密。
178.可以理解的是,每两个实体之间均对应有一个关系三元组(h,r,t),其中,h和t用于分别表示两个实体h和t的实体嵌入表示,也即分别表征论文a和论文b,其中,
179.r用于表征h和t之间的关系嵌入表示,也即论文a与论文b之间的关系,其中k和d为超参,且d≠k。
180.然后对每一个实体关系r,都有一个投影矩阵该投影矩阵用于将实体从实体空间投影到关系空间。
181.通过公式:
182.hr=hmr;
183.tr=tmr184.即可生成实体在关系控件中的投影向量,其中,hr为实体h在关系控件中的投影向量,tr为实体t在关系控件中的投影向量,h和t用于表征任意两个实体向量。
185.通过公式:
[0186][0187]
即可生成实体h和实体t在关系空间中的分数计算函数,其中fr(h,t)为分数计算
函数,hr为实体h在关系空间中的投影向量,tr为实体t在关系控件中的投影向量,r为h和t之间的关系嵌入表示。
[0188]
对于上述实体嵌入表示及投影向量,可以设置约束条件:||h||2≤1,||r||2≤1,||t||2≤1,||hmr||2≤1,||tmr||2≤1。
[0189]
通过分数计算函数fr(h,t)即可对成果的空间特征及关系特征建模,得到成果在实体空间的实体特征,以及在关系空间的关系特征。
[0190]
在一些实施例中,还可以对成果的空间特征及关系特征模型进行训练。
[0191]
例如,可以采用transr,分别在实体空间中训练实体特征,在关系空间中训练关系特征,并通过公式:
[0192][0193]
计算损失函数,其中l
tranr
为损失函数,max(x,y)函数用于获得x和y之间的最大值,γ为边距,s为正确三元组的集合,s’为错误三元组的集合,h’为错误的实体h,t’为错误的实体t。
[0194]
例如,论文a和论文b具有真实的引用关系,则论文a和论文b对应的三元组的集合则为正确的三元组的集合。
[0195]
基于该损失函数,即可对实体特征和关系特征进行训练,直至能够输出准确的成果之间的实体特征以及关系特征。
[0196]
在得到空间特征及关系特征之后,使用图嵌入方法对成果之间联系特征建模,即可生成科研领域关系特征。
[0197]
其中,图嵌入方法是指将图中的节点映射到低维空间的方法,包括但不限于item2vec、node2vec和deepwalk等方法。
[0198]
下面以deepwalk方法为例,使用deepwalk方法对成果之间联系特征建模。
[0199]
具体的,deepwalk方法包括deepwalk和skipgram两部分,其中,deepwalk用于生成随机序列,skipgram用于训练节点之间的关系。
[0200]
在实际执行过程中,首先使用deepwalk方法在加权有向图中随机选择一个节点,并向其他相邻节点移动,直到达到最大长度t,记录deepwalk方法移动的位序作为随机序列。
[0201]
其中,t为超参。
[0202]
以成果为论文为例,通过该步骤所得到的位序扩充了如图3所示的时间序列图中原有样本用户发表论文及引用论文序列,得到如图6所示的扩充后的序列示意图。
[0203]
在生成扩充后的序列示意图后,在deepwalk扩充序列上,使用skipgram方法计算在当前节点出现的情况下,其他节点出现的概率。
[0204]
当然,在另一些实施例中,还可以使用hierarchical softmax方法,近似计算节点出现的概率。
[0205]
需要说明的是,在使用hierarchical softmax方法近似计算节点出现的概率时,首先设顶点uk的路径由一系列树节点表示,其中(b0=root,),vj和uk为扩充后的序列示意图上的任意两个顶点,也即任意两个论文实体。
[0206]
然后通过公式:
[0207][0208]
近似计算节点出现的概率;其中,pr为顶点vj到顶点uk的概率,vj和uk为扩充后的序列示意图上的任意两个顶点,vj,uk∈v,v为扩充后的序列示意图中顶点的集合,φ(vj)为顶点vj的表示向量。
[0209]
通过该方法计算近似节点出现的概率,然后由通过分配给节点b
l
的父节点的二元分类器建模,可以降低skipgram方法的时间复杂度,显著提高计算效率。
[0210]
通过deepwalk方法扩充样本用户发表论文及引用论文序列,然后使用hierarchical softmax方法近似计算在当前节点出现的情况下,其他节点出现的概率。
[0211]
在得到概率后,依据节点间的关系,即可对成果之间的联系特征建模,生成科研领域关系特征,也即样本用户的行为关系特征对应的图网络。
[0212]
二、构建科研方向关系特征
[0213]
在一些实施例中,步骤130还可以包括:
[0214]
对样本科研信息进行特征提取,生成样本用户对应的科研方向信息;
[0215]
对科研方向信息进行语义信息建模,生成科研方向关系特征。
[0216]
在该实施例中,对样本科研信息进行特征提取,生成样本用户对应的科研方向信息,可以表现为:对样本科研信息中的研究成果内容进行特征提取,获取研究成果内容对应的标识信息,并将该标识信息作为样本用户对应的科研方向信息。
[0217]
例如,可以对样本用户所发表的论文的标题进行特征提取,生成科研方向信息;或者对样本用户所发表的论文的摘要进行特征提取,生成科研方向信息;或者对样本用户所发表的论文的全文内容进行特征提取,生成科研方向信息。
[0218]
在实际执行中,可以采用自然语言处理技术(nlp)对样本科研信息进行特征提取,包括但不限于word2vec、elmo或bert等方法。
[0219]
下面以bert方法对样本科研信息进行特征提取为例,对该实施例进行具体说明。
[0220]
可以理解的是,bert是一个在大型数据集上进行预训练的模型,该模型可以在不调整模型结构的情况下,在任意下游模型上进行微调,并得到极好的效果。
[0221]
bert模型可以用于多种不同的下游任务,比如:文本分类、问答系统以及词性标注等。
[0222]
该模型不仅可以学习各个文字之间的语义特征,而且可以学习整个句子的语义特征。
[0223]
在本实施例中,可以采用bert模型对样本用户所有发表的研究成果内容进行特征提取,如提取样本用户所有发表的论文的论文标题的句向量。
[0224]
在得到句向量后,将这些句向量进行融合并求平均值,得到样本用户发表的论文的论文标题所对应的语义的稠密向量表征,该稠密向量表征即为样本用户对应的科研方向关系特征。
[0225]
当然,在其他实施例中,还可以通过其他方式获取科研方向信息,如对用本用户的讲座视频进行音频特征提取及语义识别,以生成科研方向信息等。本发明不做具体限定。
[0226]
下面对本发明提供的推荐模型的构建装置进行描述,下文描述的推荐模型的构建装置与上文描述的推荐模型的构建方法可相互对应参照。
[0227]
如8所示,该推荐模型的构建装置包括:第一获取模块810、第一处理模块820、第二处理模块830和第三处理模块840。
[0228]
第一获取模块810,用于获取样本用户信息,样本用户信息包括样本用户的样本属性信息和样本科研信息;
[0229]
第一处理模块820,用于基于样本属性信息,构建样本用户的属性关系特征;
[0230]
第二处理模块830,用于基于样本科研信息,构建样本用户的用户行为关系特征;
[0231]
第三处理模块840,用于基于属性关系特征和用户行为关系特征,生成推荐模型。
[0232]
根据本发明实施例提供的推荐模型的构建装置,通过样本用户的样本属性信息和样本科研信息分别构建属性关系特征和用户行为关系特征,并基于属性关系特征和用户行为关系特征构建推荐模型,从而实现了用户的属性特征和用户行为特征的融合,使得生成的用户嵌入画像特征更全面,从而显著提高了推荐结果的准确性和精确性;除此之外,该推荐模型还能够基于用户的用户行为特征的变化而动态调整,也即能够随着用户科研行为的变化而对应变化,具有较高的灵活性和普适性。
[0233]
在一些实施例中,第三处理模块830,还可以用于:
[0234]
融合属性关系特征和用户行为关系特征,生成用户画像模型;
[0235]
基于用户画像模型,构建推荐模型。
[0236]
在一些实施例中,该装置还可以包括:第五处理模块,用于在融合属性关系特征和用户行为关系特征,生成用户画像模型之后,且在基于用户画像模型,构建推荐模型之前,以样本用户信息为样本,以与样本用户信息对应的样本用户画像信息为样本标签,对用户画像模型进行训练。
[0237]
在一些实施例中,用户行为关系特征包括科研领域关系特征和科研方向关系特征中的至少一项,第二处理模块830,还可以用于:
[0238]
基于样本科研信息,确定样本用户对应的成果发表信息和成果引用信息;
[0239]
对成果发表信息和成果引用信息进行图网络建模,生成科研领域关系特征。
[0240]
在一些实施例中,用户行为关系特征包括科研领域关系特征和科研方向关系特征中的至少一项,第二处理模块830,还可以用于:
[0241]
对样本科研信息进行特征提取,生成样本用户对应的科研方向信息;
[0242]
对科研方向信息进行语义信息建模,生成科研方向关系特征。
[0243]
在一些实施例中,第二处理模块830,还可以用于:
[0244]
基于多个成果发表信息和多个成果引用信息,建立加权有向图;
[0245]
基于加权有向图,建立多个成果之间的实体及关系特征;
[0246]
基于实体及关系特征,建立科研领域关系特征。
[0247]
下面对本发明提供的相似用户推荐方法进行描述,下文描述的相似用户推荐方法与上文描述的推荐模型的构建方法可相互对应参照。
[0248]
如图7所示,该相似用户推荐方法,包括:步骤710和步骤720。
[0249]
步骤710、获取目标用户信息,目标用户信息包括目标用户的目标属性信息和目标科研信息;
[0250]
在该步骤中,目标用户信息为需要进行相似用户推荐的用户。
[0251]
目标属性信息用于表征目标用户的个人信息,包括但不限于目标用户的姓名、年龄、专业、性别以及研究机构等信息。
[0252]
目标科研信息用于表征目标用户的科研情况,包括目标用户相关的研究成果等信息。
[0253]
步骤720、将目标用户信息输入至由上述的推荐模型的构建方法生成的推荐模型,获取推荐模型输出的与目标用户信息对应的目标相似用户。
[0254]
在该步骤中,将由步骤710获取的目标用户信息输入至推荐模型,推荐模型输出目标用户对应的目标用户画像信息,该目标用户画像信息为稠密向量,用于表征目标用户的属性关系特征以及用户行为关系特征。
[0255]
其中,该目标用户画像信息可以为经全连接网络对目标用户所对应的属性关系特征的稠密向量和用户行为关系特征的稠密向量进行融合后,所生成固定维度的稠密向量。
[0256]
在得到目标用户对应的目标用户画像信息后,通过计算目标用户的嵌入向量与其他用户的用户画像信息之间的几何距离,并基于几何距离对其他用户进行排序,输出排序较前的其他用户,即可得到与目标用户相似度较近的其他用户。
[0257]
在一些实施例中,还可以将目标用户信息以及目标用户信息对应的目标用户画像信息存储于数据库中,作为后续训练用户画像模型的训练样本。
[0258]
在另一些实施例中,还可以将目标用户信息以及目标用户信息对应的目标相似用户作为一个训练样本存储于数据库中,用于后续联合训练推荐模型。
[0259]
根据本发明实施例提供的相似用户推荐方法,基于目标用户的属性特征和用户行为特征生成目标用户的目标用户画像信息,显著提高了所得到的目标用户画像信息的完整性、精确性和准去性;基于目标用户画像信息给目标用户推荐相似用户,实现了向目标用户精准推荐相似用户,推荐速率快,且灵活性高。
[0260]
除此之外,本发明实施例提供的相似用户推荐方法,还可以减少科技用户在查找不同领域用户时所花费的时间,促进科技用户之间的交流与合作,帮助科技用户更好更快地解决相关问题,进而提高科技用户的工作效率,促进科技工作者之间的正向交流,提高科技工作者的积极协同。
[0261]
下面对本发明提供的相似用户推荐装置进行描述,下文描述的相似用户推荐装置与上文描述的相似用户推荐方法可相互对应参照。
[0262]
如图9所示,该相似用户推荐装置包括:第二获取模块910和第四处理模块920。
[0263]
第二获取模块910,用于获取目标用户信息,目标用户信息包括目标用户的目标属性信息和目标科研信息;
[0264]
第四处理模块920,用于将目标用户信息输入至由上所述的推荐模型的构建方法生成的推荐模型,获取推荐模型输出的与目标用户信息对应的目标相似用户。
[0265]
根据本发明实施例提供的相似用户推荐装置,基于目标用户的属性特征和用户行为特征生成目标用户的目标用户画像信息,显著提高了所得到的目标用户画像信息的完整性、精确性和准去性;基于目标用户画像信息给目标用户推荐相似用户,推荐速率快,且灵活性高。
[0266]
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:
处理器(processor)1010、通信接口(communications interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行推荐模型的构建方法,该方法包括:获取多个样本用户信息,样本用户信息包括样本用户的样本属性信息和样本科研信息;基于样本属性信息,构建样本用户的属性关系特征;基于样本科研信息,构建样本用户的用户行为关系特征;基于属性关系特征和用户行为关系特征,生成推荐模型;或者相似用户推荐方法,该方法包括:获取目标用户信息,目标用户信息包括目标用户的目标属性信息和目标科研信息;将目标用户信息输入至由推荐模型的构建方法生成的推荐模型,获取推荐模型输出的与目标用户信息对应的目标相似用户。
[0267]
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0268]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的推荐模型的构建方法,该方法包括:获取多个样本用户信息,样本用户信息包括样本用户的样本属性信息和样本科研信息;基于样本属性信息,构建样本用户的属性关系特征;基于样本科研信息,构建样本用户的用户行为关系特征;基于属性关系特征和用户行为关系特征,生成推荐模型;或者相似用户推荐方法,该方法包括:获取目标用户信息,目标用户信息包括目标用户的目标属性信息和目标科研信息;将目标用户信息输入至由推荐模型的构建方法生成的推荐模型,获取推荐模型输出的与目标用户信息对应的目标相似用户。
[0269]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的推荐模型的构建方法,该方法包括:获取多个样本用户信息,样本用户信息包括样本用户的样本属性信息和样本科研信息;基于样本属性信息,构建样本用户的属性关系特征;基于样本科研信息,构建样本用户的用户行为关系特征;基于属性关系特征和用户行为关系特征,生成推荐模型;或者相似用户推荐方法,该方法包括:获取目标用户信息,目标用户信息包括目标用户的目标属性信息和目标科研信息;将目标用户信息输入至由推荐模型的构建方法生成的推荐模型,获取推荐模型输出的与目标用户信息对应的目标相似用户。
[0270]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0271]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0272]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献