一种文本信息推荐方法、装置及可读介质与流程

2021-10-27 20:31:00 来源：中国专利 TAG：推荐介质装置可读信息检索

技术特征：
1.一种文本信息推荐方法，其特征在于，包括以下步骤：s1，获取用户数据及所对应的文本语料，对所述文本语料进行预处理，得到文本数据；s2，将所述用户数据进行处理得到用户属性特征，将所述文本数据通过词注意力网络生成文本特征，将所述用户数据利用知识图谱表示学习模型生成用户知识图谱特征，将所述用户属性特征、文本特征和用户知识图谱特征进行拼接，得到综合特征；s3，将所述综合特征输入多层感知机，得到用户偏好类别及对应的推送数量。2.根据权利要求1所述的文本信息推荐方法，其特征在于，所述对所述文本语料进行预处理包括文本清洗、分词、去停用词和数据过滤。3.根据权利要求1所述的文本信息推荐方法，其特征在于，所述步骤s2中的所述将所述用户数据进行处理得到用户属性特征具体包括：针对所述用户数据中的离散型数据通过整数编码的方式得到稠密的向量表示的离散型数据集合；针对所用户数据中的连续数据通过线性函数归一化得到连续型数据集合；将所述离散型数据集合和所述连续型数据集合拼接得到所述用户属性特征。4.根据权利要求1所述的文本信息推荐方法，其特征在于，所述步骤s2中的所述将所述文本数据通过词注意力网络生成文本特征具体包括：在所述文本数据的第i个句子s
i
中总共有t个词，其分词序列表示为{w
1i
,w
2i
,
…
,w
it
}，将所述分词序列转换成词向量表示：x
it
＝w
e
w
it
,t∈[1,t]；其中，w
e
表示一个嵌入矩阵；将所述词向量表示利用双向gru网络结合正向、反向的上下文信息，通过隐藏层输出结果，得到w
it
在整个句子中正反两个方向的词向量表示：在整个句子中正反两个方向的词向量表示：在整个句子中正反两个方向的词向量表示：通过注意力机制提取句子中词级别最重要的特征作为所述文本特征。5.根据权利要求4所述的文本信息推荐方法，其特征在于，将h
it
作为单层感知机的输入，获取其潜在特征表示：u
it
＝tanh(w
w
h
it
b
w
)；其中，w
w
表示权重，b
w
表示偏置向量，根据计算得到的潜在特征表示u
it
和一个随机初始化的上下文向量u
w
的相似度，挖掘出词w
it
的重要程度，其中上下文向量u
w
是在训练网络的过程中联合学习得到，通过softmax函数生成注意力权重矩阵α
it
，代表句子s
i
中第t个词的权重：将所述词向量表示进行加权求和，得到句子s
i
的向量表示：
根据所述句子s
i
的向量表示得到整个文本的向量表示：v＝[s1,s2,
…
,s
i
]∈r
i
×
n
；式中，i表示用户的总文本数量，n表示整个文本的向量维度。6.根据权利要求1所述的文本信息推荐方法，其特征在于，所述步骤s2中的所述将所述用户数据利用知识图谱表示学习模型生成用户知识图谱特征具体包括：将所述用户数据利用随机方式初始化实体和关系的嵌入表示，其中实体为用户信息，关系为用户关注关系，所述知识图谱表示学习模型的训练过程中的每次迭代都对实体进行规范化处理；从训练集中采样出小批量正例三元组集合，基于伯努利抽样算法对所述训练集进行负采样处理，得到负例三元组集合，具体为：对知识图谱中每一个关系r的三元组，计算出每个头实体对应尾实体数量的平均值r
tph
以及每个尾实体对应头实体数量的平均值r
hpt
，定义一个参数为p的抽样方法：针对三元组(h,r,t)构建负例三元组集合，用概率p替换头实体，概率1
‑
p替换尾实体；优化训练目标，采用随机梯度下降算法不断迭代更新参数，当知识图谱表示学习模型收敛或达到最大迭代次数时停止训练，其中，定义所有样本的损失函数：l＝∑
(h,r,t)∈s(h,r,t)
∑
(h',r,t')∈s'(h,r,t)
[f
r
(h,t) γ
‑
f
r
(h',t')]

；式中，s(h,r,t)表示知识图谱中的正例三元组集合，s'(h,r,t)表示负例三元组集合，[x]

表示当x大于0时取原值，x小于0时取0；γ表示正例三元组集合和负例三元组集合之间的边界值；将用户知识图谱中的实体和关系信息全部映射到同一个d维的向量空间中，最终可得到所有实体的向量表示：e＝kge(e1,e2,
…
,e
v
)∈r
v
×
d
；式中，e
v
表示实体v的特征向量表示，v表示总共的实体数量。7.根据权利要求1所述的文本信息推荐方法，其特征在于，所述步骤s3具体包括：将所述综合特征输入深度神经网络进行模型训练，通过softmax函数对输出向量进行变换，得到用户偏好类别z的概率：式中，x
z
表示输出向量中的第z个值，x
s
表示输入向量的所有值，t表示文本的总类别数，根据概率值大小对类别进行排序，基于打散策略的思想，选取得分最高的若干条多个类别的文本作为最终的推荐结果，假定n为文本推送总数，根据概率p
z
计算类别z的推送数量：n
z
＝n
×
p
z
。8.一种文本信息推荐装置，其特征在于，包括：预处理模块，被配置为获取用户数据及所对应的文本语料，对所述文本语料进行预处理，得到文本数据；
综合特征生成模块，被配置为将所述用户数据进行处理得到用户属性特征，将所述文本数据通过词注意力网络生成文本特征，将所述用户数据利用表示学习生成用户知识图谱特征，将所述用户属性特征、文本特征和用户知识图谱特征进行拼接，得到综合特征；类别推送模块，被配置为将所述综合特征输入多层感知机，得到用户偏好类别及对应的推送数量。9.一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1
‑
7中任一所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1
‑
7中任一所述的方法。

技术总结
本发明公开了一种文本信息推荐方法、装置及可读介质，通过获取用户数据及所对应的文本语料，对文本语料进行预处理，得到文本数据；将用户数据进行处理得到用户属性特征，将文本数据通过词注意力网络生成文本特征，将用户数据利用知识图谱表示学习模型生成用户知识图谱特征，将用户属性特征、文本特征和用户知识图谱特征进行拼接，得到综合特征；将综合特征输入多层感知机，得到用户偏好类别及对应的推送数量。本发明加强对用户兴趣的识别度和扩展性，从而提高推荐结果的准确性和多样性，通过综合特征可得到多个维度的抽象特征表示，缓解传统个性化信息推荐中的数据稀疏、冷启动等问题。将注意力机制应用到文本推荐，进一步提高准确度。准确度。准确度。

技术研发人员：李弼程林正超郁友琴皮慧娟王华珍王成
受保护的技术使用者：华侨大学
技术研发日：2021.07.30
技术公布日：2021/10/26

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种文本信息推荐方法、装置及可读介质与流程

相关文献

最热文献