一种面向问答社区的问题回答专家跨域推荐方法及系统

2022-08-13 20:58:59 来源：中国专利 TAG：

1.本发明属于数据挖掘技术领域，尤其涉及一种面向问答社区的问题回答专家跨域推荐方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.近期，随着网络的发展，知识问答社区日益成为人们分享经验与获取知识的新平台，知识问答社区的模式是交互式的，大量的用户在平台上提出自己的疑难问题并且分享自己的知识和见解。对于用户来说，不仅是问题的提问者，也是答案的回答者。作为问题的提问者，用户可以在平台上向其他用户提出问题以得到他们的解答；作为答案的回答者，用户依据自己生活中积累的经验以及通过各种渠道获得的知识来提出自己的见解，帮助有问题的用户解决各种疑难问题。但是，随着问题的增多，许多问题不能及时分配给合适的专家，不能够得到及时有效的解决。为了解决这一问题，知识问答社区专家推荐被提出，其主要目的是为问题及时分配合适的专家，从而可以使问题得到快速且高质量的回答。
4.发明人发现，以往的专家推荐方法往往利用单个问答社区信息进行专家推荐。然而，对于一些新投入使用的在线问答社区，社区内注册用户较少而且用户个人信息的填写并不是强制性的，所以导致用户的个人描述画像不够详细，无法全面的捕捉到用户专业能力特征，为问题的推荐带来很大的阻力和困难。同时，新投入使用的在线问答社区中问答记录数目有限，有限的数据也会导致推荐模型的准确性受限。以往的方法往往在单个问答社区进行推荐模型的训练，对于新社区来说，不能满足社区专家推荐系统快速、准确推荐的要求。

技术实现要素：

5.为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种面向问答社区的问题回答专家跨域推荐方法及系统，其充分利用相关平台丰富的信息来提升新平台的专家推荐系统的性能。
6.为了实现上述目的，本发明采用如下技术方案：
7.本发明的第一个方面提供一种面向问答社区的问题回答专家跨域推荐方法，包括如下步骤：
8.提取目标域和源域中的问题和专家特征信息；
9.基于问题和专家特征信息构建训练样本；
10.基于训练样本对目标域专家推荐模型、源域专家推荐模型和特征降维模型进行训练；
11.根据训练好的目标域专家推荐模型、源域专家推荐模型和特征降维模型对目标域中的新问题进行专家推荐，得到专家推荐列表，具体包括：
12.基于目标域中的新问题和目标域专家推荐模型进行专家推荐，得到第一专家推荐列表；
13.结合特征降维模型，通过相似度计算公式找到此问题在源域中对应的多个相近问题，采用源域专家推荐模型对多个相近问题进行专家推荐，得到第二专家推荐列表；
14.基于相似度计算公式，计算目标域中与第二专家推荐列表相似的第三专家推荐列表；基于合并规则，将第一专家推荐列表和第三专家推荐列表进行合并，得到最终的专家推荐列表。
15.本发明的第二个方面提供一种面向问答社区的问题回答专家跨域推荐系统，包括：
16.特征提取模块，用于提取目标域和源域中的问题和专家特征信息；
17.训练样本构建模块，用于基于问题和专家特征信息构建训练样本；
18.训练模块，用于基于训练样本对目标域专家推荐模型、源域专家推荐模型和特征降维模型进行训练；
19.专家推荐模块，用于根据训练好的目标域专家推荐模型、源域专家推荐模型和特征降维模型对目标域中的新问题进行专家推荐，得到专家推荐列表，具体包括：
20.基于目标域中的新问题和目标域专家推荐模型进行专家推荐，得到第一专家推荐列表；
21.结合特征降维模型，通过相似度计算公式找到此问题在源域中对应的多个相近问题，采用源域专家推荐模型对多个相近问题进行专家推荐，得到第二专家推荐列表；
22.基于相似度计算公式，计算目标域中与第二专家推荐列表相似的第三专家推荐列表；基于合并规则，将第一专家推荐列表和第三专家推荐列表进行合并，得到最终的专家推荐列表。
23.本发明的第三个方面提供一种计算机可读存储介质。
24.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种面向问答社区的问题回答专家跨域推荐方法中的步骤。
25.本发明的第四个方面提供一种计算机设备。
26.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种面向问答社区的问题回答专家跨域推荐方法中的步骤。
27.与现有技术相比，本发明的有益效果是：
28.本发明通过跨域的方式，借助信息积累丰富社区(源域)中丰富信息来提升新问答社区(目标域)中的推荐性能，解决了新社区中信息匮乏的问题，有效提升了目标域中的推荐性能。
29.本发明提出了基于自编码器的特征维度对齐模型，解决了两个域中问题特征维度不一致，问题回答专家特征维度不一致所导致的无法计算相似度的问题。
30.本发明使用目标域推荐模型和源域推荐模型相结合的方式得到两个推荐列表，并设计了良好的推荐列表合并策略，对源域中的丰富信息利用充分，提升了目标域的推荐性能。
31.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变
得明显，或通过本发明的实践了解到。
附图说明
32.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
33.图1是本发明实施例面向问答社区的问题回答专家跨域推荐方法的流程示意图；
34.图2是本发明实施例多层的bp网络结构示意图；
35.图3是本发明实施例栈式降噪自编码器逐层训练示意图；
36.图4是本发明实施例栈式降噪自编码器的微调示意图。
具体实施方式
37.下面结合附图与实施例对本发明作进一步说明。
38.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
39.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
40.实施例一
41.如图1所示，本实施例提供一种面向问答社区的问题回答专家跨域推荐方法，包括如下步骤：
42.步骤1:提取目标域和源域中的问题和专家特征信息；
43.作为一种或多种实施例，步骤1中，目标域问题的特征信息包括：文本特征为：“题目”、“问题描述”和“话题”，离散特征为“问题类别”，数值特征为：
ꢀ“
发布时间”、“悬赏金”。
44.专家的特征信息包括：文本特征为：“用户名”和“自我介绍”，离散特征为：“性别”、“职业”和“个人技术专长”，数值特征为：“财富值”、“回帖数”、
ꢀ“
主题数”和“马蹄金”。
45.源域中问题的的特征信息包括：文本特征为：“题目”、“问题描述”和“话题”，离散特征为“问题类别”，数值特征为：“发布时间”、“完成时间”、“查看数”、“收藏数”、“悬赏金”、“关注数”和“评论数”；
46.专家文本特征为：“用户名”和“自我介绍”，离散特征为：“性别”、“职业
”ꢀ
和“个人技术专长”，数值特征为：“财富值”、“年龄”和“主题数”。
47.可以理解的是，目标域和源域可以根据实际需求进行选取和设置，比如本实施例中，目标域可以是马后炮论坛，源域为海川化工论坛。
48.步骤2：基于问题和专家特征信息构建训练样本；
49.作为一种或多种实施例，步骤2中，基于问题和专家特征信息构建训练样本，具体包括：
50.步骤201：基于目标域和源域中的问题与专家之间的交互信息构建目标域和辅助域的评分矩阵；
51.设目标域和源域的专家集合分别为u
t
和us，二者长度分别为m
t
和ms，已有目标域和源域的问题集合为q
t
和qs，长度分别为n
t
和ns,目标域中冷启动问题集合q
new
。
52.目标域中使用专家回答问题所获得赞数作为评分，使用公式(1)归一化到 [0,5],得到目标域评分矩阵其中归一化处理公式为：
[0053][0054]
其中，x
max
为一个问题所有回答中所获赞数的最大值，x
min
为最小值。
[0055]
源域域中使用专家回答问题所获得的财富值作为评分，并使用与目标域域相同的归一化方式处理，最终得到的源域评分矩阵为
[0056]
步骤202：使用自然语言处理模型bert模型将问题和专家的文本特征转换为向量表示，离散化特征使用one-hot表示，并对数值特征进行归一化处理，将三部分特征组合后构成问题和专家的向量化特征表示；
[0057]
对于一个问题或者一个专家的文本特征我们将所有字段合成一个描述文本。
[0058]
将目标域中专家的文本特征使用自然语言处理模型bert将其转换为嵌入向量，将离散特征使用one-hot编码，对数值特征使用如下公式进行归一化：
[0059][0060]
其中，min为数值特征的最大值，max为最小值。
[0061]
将以上三部分特征拼接后得到专家的向量化特征同理，目标域中问题的向量化表示为
[0062]
将源域中专家的文本特征使用自然语言处理模型bert将其转换为嵌入向量，并将其与one-hot编码的离散向量和归一化后的数值向量拼接后得到专家的向量化特征同理，目标域中问题的向量化表示为 [0063]
步骤203：基于目标域和源域中问题和专家的向量化特征表示和评分矩阵构建训练样本数据；
[0064]
两个领域中专家和问题的向量化表示之后，可以按照目标域和辅助域的评分矩阵中的评分构建训练专家推荐模型的数据，设专家u对应的问题q的评分为r
uq
，那么可以构建训练样本其中为特征拼接，r
uq
为此样本对应的评分。按照此方式可以分别构建目标域和辅助域的训练样本。
[0065]
步骤3：基于训练样本对目标域专家推荐模型和源域专家推荐模型进行训练；
[0066]
bp网络具有较好的拟合能力，因此本实施例使用多层的bp网络来进行专家推荐的评分预测。
[0067]
所述具有l层的多层bp网络的结构图如图2所示，其计算过程如下：
[0068][0069]h(1)
＝relu(h
(0)w(1)
b
(1)
)
[0070]h(2)
＝relu(h
(1)w(2)
b
(2)
)
[0071]
...
[0072]h(l)
＝relu(h
(l-1)w(l)
b
(l)
)
[0073][0074]
其中，relu为非线性激活函数，w和b为权重矩阵和偏置。
[0075]
所述评分预测网络的优化目标如下：
[0076][0077]
其中，d为数据集合，λ为正则化系数，θ＝{w,b}为参数集合，||
·
||为矩阵的f范数，为模型预测的专家u和问题q之间的评分。
[0078]
本实施例使用adam优化模型参数。模型训练完成后，对一个新问题，将其向量化表示与现有的专家的向量化表示拼接后输入网络预测分数，为此问题推荐预测评分最高的n个专家。
[0079]
利用上述模型可以训练得到目标域和源域各自的专家推荐模型 recmodel_t(q)和recmodel_s(q)，此推荐模型输入为问题和专家的特征向量化表示，输出为长度为n的专家推荐列表。
[0080]
步骤4：训练目标域和辅助域的特征降维模型；
[0081]
本实施例使用相似度计算的方式为目标域中的新问题源域中查找相似问题，借助辅助域推荐模型为相似问题推荐专家，最后，通过计算辅助域推荐专家列表中专家与目标域中专家的相似度确定目标域的专家推荐列表。但是，目标域和源域的问题特征维度不一致，专家特征维度也不一致，这导致相似度计算无法进行。
[0082]
本实施例将使用基于栈式降噪自编码器(stacked denoising autoencoders，sdae)的特征降维模型将两个领域的问题特征映射到相同维度，对于专家特征也做相同处理。sdae由多个降噪自编码器堆叠而成，单个降噪自编码器由编码器和解码器组成，编码器的计算公式如下：
[0083][0084]
其中，为编码器输入x加入高斯噪声之后的特征，w
encoder
,b
encoder
分别为编码器的权重和偏置，leakyrelu为激活函数。
[0085]
与此相似，解码器的计算公式如下：
[0086]
z＝leakyrelu(w
decoder
y b
decoder
)
[0087]
其中，w
decoder
,b
decoder
分别为解码器的权重和偏置，leakyrelu为激活函数，z为编码器输入x的重构表示。
[0088]
降噪自编码器的损失函数如下：
[0089][0090]
在目标域和源域分别使用其已有的专家特征和问题特征训练各自领域的专家特征栈式降噪自编码器和问题栈式降噪自编码器，训练过程采用逐层训练加微调的训练方式，使用adam优化模型参数，逐层训练示意图如图3所示，逐层训练完成之后，将所有层连接起来对预训练的参数进行一次微调，微调示意图如图4所示。
[0091]
最终可以得到目标域将问题特征映射到低维的编码器uec
t
(
·
)，将专家特征映射到低维的编码器qec
t
(
·
)，源域将问题特征映射到低维的编码器 uecs(
·
)，将专家特征映射到低维的编码器qecs(
·
)。uec
t
(
·
)和uecs(
·
)可以将专家特征映射到相同的维度du，qec
t
(
·
)和qecs(
·
)可以将问题特征映射到相同维度dq。
[0092]
步骤5：根据训练好的目标域专家推荐模型和源域专家推荐模型对目标域中的新问题进行专家推荐，得到专家推荐列表；
[0093]
本实施例使用目标域推荐模型以及辅助域的推荐模型共同为目标域中的新问题推荐目标域中的专家，通过设计了一个借助信息积累丰富的问答社区(源域) 为新投入的问答社区(目标域)中的新问题推荐专家的推荐方法。
[0094]
对于目标域中的一个新问题q
new
，其推荐过程有如下步骤：
[0095]
(1)将新问题的文本特征、离散特征和数值特征转换为向量表示，得到问题的特征表示；
[0096]
(2)在目标域使用目标域的推荐模型进行推荐，得到第一专家推荐列表 list_a，推荐列表长度为n；
[0097]
(3)通过计算相似度的方式找到此问题在源域中相似的k个问题，并使用辅助域(即源域)的推荐模型为这些相似问题推荐kn个专家，取得分前n名专家得到第二专家列表list_b；
[0098]
使用编码器qec
t
(
·
)将目标域新问题q
new
的特征映射为维度为dq的向量表示同时使用qecs(
·
)将源域问题的特征映射为维度为dq的特征向量表示通过计算此新问题与源域中问题的余弦相似度来找到与此新问题最相近的 k个问题；相似度计算公式如下：
[0099][0100]
(4)通过计算相似度，得到目标域中与第二专家列表list_b中专家相似的第三专家列表list_c，推荐列表长度为n；
[0101]
使用编码器uecs(
·
)将此推荐列表中专家的特征映射为du维，同时使用 uec
t
(
·
)将目标域中专家特征映射为du维，使用余弦相似度计算找到第二专家推荐列表list_b中的每一个专家在目标域中最相似的一个专家得到第三专家推荐列表list_c。
[0102]
(5)将第一专家推荐列表list_a和list_c结合，得到最终的推荐列表list_d。
[0103]
将专家推荐列表list_a和第三专家推荐列表list_c进行合并，得到长度为n 的最终专家推荐列表list_d。
[0104]
合并规则为：
[0105]
①
推荐第一专家推荐列表list_a和第三专家推荐列表list_c共同的专家直接加入到第四专家推荐列表list_d，并按照第三专家推荐列表list_c中的顺序排列。
[0106]
②
如果经过
①
的处理推荐列表list_d仍不足n个专家，则在第三专家推荐列表list_c中取缺少的专家的总数的一半数目的专家，如果数目不能整除，则在list_c中所取专家数目向上取整，剩余在list_a中取。所取专家保持原排列顺序。
[0107]
如果list_a＝{u1,u3,u
10
,u2,u8},list_c＝{u
10
,u7,u1,u4,u
15
}，那么 list_d＝{u
10
,u1,u7,u4,u3}。
[0108]
实施例二
[0109]
本实施例提供一种面向问答社区的问题回答专家跨域推荐系统，包括：
[0110]
特征提取模块，用于提取目标域和源域中的问题和专家特征信息；
[0111]
训练样本构建模块，用于基于问题和专家特征信息构建训练样本；
[0112]
训练模块，用于基于训练样本对目标域专家推荐模型、源域专家推荐模型和特征降维模型进行训练；
[0113]
专家推荐模块，用于根据训练好的目标域专家推荐模型、源域专家推荐模型和特征降维模型对目标域中的新问题进行专家推荐，得到专家推荐列表，具体包括：
[0114]
基于目标域中的新问题和目标域专家推荐模型进行专家推荐，得到第一专家推荐列表；
[0115]
结合特征降维模型，通过相似度计算公式找到此问题在源域中对应的多个相近问题，采用源域专家推荐模型对多个相近问题进行专家推荐，得到第二专家推荐列表；
[0116]
基于相似度计算公式，计算目标域中与第二专家推荐列表相似的第三专家推荐列表；基于合并规则，将第一专家推荐列表和第三专家推荐列表进行合并，得到最终的专家推荐列表。
[0117]
实施例三
[0118]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种面向问答社区的问题回答专家跨域推荐方法中的步骤。
[0119]
实施例四
[0120]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种面向问答社区的问题回答专家跨域推荐方法中的步骤。
[0121]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0122]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器
以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0123]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0124]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0125]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory， rom)或随机存储记忆体(random accessmemory，ram)等。
[0126]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：面向多对多智能体协同作战场景的火力分配方法及系统与流程

一种面向问答社区的问题回答专家跨域推荐方法及系统

相关文献

最热文献