一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于多维度特征的新闻推荐方法

2022-04-16 14:46:23 来源:中国专利 TAG:


1.本发明涉及新闻推荐技术领域,尤其涉及一种基于多维度特征的新闻推荐方法。


背景技术:

2.随着互联网技术的发展和人们生活需求的提高,阅读新闻的用户数量一直在增加,人们对新闻类app的推荐效果也有着越来越高的要求。
3.专利cn102929928a提出,使用标题和正文内容去得到主题特征向量,然后根据新闻的主题特征向量和用户行为数据去构造新闻模型和用户模型,然后在根据时间特征去进行个性化推荐。虽然一定程度上考虑了多种特征,如标题、正文、时间特征,但在模型中真正用于特征抽取的只有标题和正文,并未真正的体现出多维,提出的时间特征,也只是用于推荐时的一种策略筛选,且用户在点击新闻时一般是先看到标题,才去看正文的,并未符合人们的阅读习惯。
4.专利cn111061856a提出,从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示,用卷积神经网络融合新闻的词向量和实体向量,从中学习新闻的特征,以注意力机制去得到用户特征,再将候选新闻特征、用户特征和路径特征为输入,使用多层感知机计算候选新闻的点击概率,最终实现个性化推荐。该发明提出的使用知识图谱中的实体和关系,虽然在auc和f1上有很好的提升,但是在实际工程中,并不是所有的新闻app,都会事先去搭建知识图谱,如果知识图谱没有建立或者过于稀疏,那么推荐效果就会降低。
5.由于上述技术方案均不能满足人们对新闻阅读推荐问题的需求,因此提出一种新的推荐方法是有必要的。


技术实现要素:

6.针对上述现有技术的不足,本发明提供一种基于多维度特征的新闻推荐方法。
7.为解决上述技术问题,本发明所采取的技术方案是:一种基于多维度特征的新闻推荐方法,具体过程如下:
8.步骤1:构建新闻特征提取器,提取新闻特征ra,过程如下:
9.步骤1.1:获取新闻,从新闻标题的文本中提取实体信息和关系信息,构建知识图谱;并从构建的知识图谱中学习实体向量和关系向量,计算每个实体的上下文向量的平均值,具体过程如下:
10.步骤1.1.1:基于命名实体识别技术对新闻标题进行实体抽取,将抽取得到的实体组合成新闻实体集合;
11.步骤1.1.2:将新闻标题和对应的实体输入到pcnn中进行关系抽取,形成三元组(h,r,t);其中,h为头部实体、t为尾部实体,h和t均来自新闻实体集合,r为关系,由pcnn抽取后得到;
12.步骤1.1.3:以三元组(h,r,t)为基础构建知识图谱;
13.步骤1.1.4:使用知识图谱特征学习方法,从构建的知识图谱中学习实体向量和关系向量;
14.步骤1.1.5:提取每个实体的上下文信息,即获取每个实体在图谱中的邻居,并计算每个实体的上下文向量的平均值。
15.具体计算公式如下:
[0016][0017]
context(e)={ei|(e,r,ei)∈g or(ei∈g)}
[0018]
其中,context(e)为实体e的上下文集合,ei是context(e)的第i个实体向量表示,r为实体间的关系,g为知识图谱,为为实体e的上下文向量的平均值。
[0019]
进一步的,为了防止所述知识图谱中边的数量少且缺乏多样性,对知识图谱进行扩展,引入和知识图谱中的实体距离在阈值内的实体和相关的边来增加边的数量。
[0020]
步骤1.2:获得新闻标题中每个词的词向量,与实体向量和实体的上下文向量的平均值一同映射到相同维度的向量空间中,并输入到动态多卷积核cnn中进行特征提取,得到相应的词特征、实体特征和实体上下文特征,具体过程如下:
[0021]
步骤1.2.1:将新闻标题[w1,w2,...,wn]中的每个词wi与其词向量实体向量ei、实体上下文向量平均值一一对应,如果没有匹配到实体向量和上下文向量,则用零向量代替;
[0022]
步骤1.2.2:使用映射函数将词向量、实体向量和上下文向量映射到d维的向量空间中,使三种向量的维度统一,得到词向量序列实体向量序列[e1,e2,...en]、实体上下文向量序列
[0023]
具体的映射函数如下:
[0024]
g(e)=tanh(me b)
[0025]
其中,m∈rd×k为转换矩阵,k为转换前的维度,d为转换后的维度;b为偏置常量,e为实体向量。
[0026]
步骤1.2.3:分别将词向量序列、实体向量序列、实体上下文向量序列,输入到动态多卷积核cnn中,在经过relu激活函数得到的特征分别用多卷积核cnn中,在经过relu激活函数得到的特征分别用表示;
[0027]
步骤1.2.4:在步骤2.3得到的特征上分别使用注意力权重,
[0028]
得到:
[0029][0030][0031]
其中,表示第i个词向量的权重值,vw和vw是计算向量权重时的投影参数,qw是计算向量权重时的注意力查询向量,为经过relu激活函数得到的词特征;采用同样的方法得到第i个实体向量对应的权重值和第i个实体上下文向量对应的权重值
[0032]
步骤1.2.5:分别将词向量、实体向量和实体上下文向量乘以各自对应的权重值并进行求和计算,分别得到词特征rw、实体特征re和实体上下文特征
[0033]
具体的计算公式如下:
[0034][0035][0036][0037]
步骤1.3:分别计算步骤2得到的词特征、实体特征、实体上下文特征相应的权重值,并分别乘以对应的词特征、实体特征和实体上下文特征,然后相加得到最终的标题特征r
t
,过程如下:
[0038]
步骤1.3.1:计算词特征上的权重αw,公式如下:
[0039][0040][0041]
其中,uw、uw为计算特征权重时的投影参数,qw是计算特征权重时的注意力查询向量;采用同样的方法计算得到实体特征对应的权重αe和实体上下文特征对应的权重
[0042]
步骤1.3.2:计算最终的标题特征,公式如下:
[0043][0044]
其中,r
t
为最终的标题特征。
[0045]
步骤1.4:使用k-means均值聚类算法对新闻标题的文本进行聚类分析,获取聚类后的质心,并将k个质心对应到k个类别,得到新闻标题文本聚类的类别特征表示r
cq

[0046]
进一步的,所述新闻标题文本聚类的类别特征表示r
cq
的具体方法如下:
[0047]
将k个质心对应到k个类别,分别用0,1,...k编号,并初始化k个类别特征;
[0048]
将新闻标题特征求和,然后与每个质心向量进行欧式距离计算,将距离最近的那个质心对应的类别特征cq输入到深度学习的dense神经网络中,得到新闻标题文本聚类的类别特征表示r
cq

[0049]
步骤1.5:从新闻中获取一幅配图,对图像进行转化得到rgb图,将rgb图像颜色空间转换到hsv颜色空间,并对其中的色调h、饱和度s和亮度v进行计算,得到图像的颜色特征;
[0050]
具体的计算方法如下:
[0051]
步骤1.5.1:对色调h进行rgb转换,计算如下所示:
[0052]
[0053]
步骤1.5.2:对饱和度s进行rgb转换,计算如下所示:
[0054][0055]
步骤1.5.3:对亮度v进行rgb转换,计算如下所示:
[0056][0057]
步骤1.6:对于每幅图像f(x,y)计算其几何不变矩,并使用几何不变矩来描述图像的形状特征;具体算法如下:
[0058]
步骤1.6.1:对于离散的数字图像f(x,y)的p q阶原点矩和p q阶中心矩的计算方式如下所示:
[0059][0060][0061]
其中,p,q=0,1,2

,m
pq
为p q阶原点矩,μ
pq
为p q阶中心矩,表示图像中心坐标;
[0062]
步骤1.6.2:图像中心坐标计算方式如下所示:
[0063][0064][0065]
步骤1.6.3:中心矩表示图像内不同灰度级的像素相对于重心的分布方式,对该中心矩进行归一化操作以获取针对图像无关的性质,规格化的中心矩的计算如下所示:
[0066][0067]
其中,r=(p q 2)/2,p q=2,3,4,

,η
pq
为中心距,为零阶中心距;
[0068]
步骤1.6.4:基于规格化的二阶和三阶中心矩,可以导出7个矩组,计算方式如下所示:
[0069]
m1=η
20
η
02
[0070]
m2=(η
20-η
02
)2 4η
11
[0071]
m3=(η
30-3η
12
)2 (3η
21-η
03
)2[0072]
m4=(η
30
η
12
)2 (η
21
η
03
)2[0073]
m5=(η
03-3η
12
)(η
30
η
12
)[(η
30

12
)
2-3(η
21-η
03
)2]
[0074]
(3η
21-η
03
)(η
21
η
03
)[3(η
30
η
12
)
2-(η
21
η
03
)2]
[0075]
m6=(η
20-η
02
)[(η
30
η
12
)
2-(η
21
η
03
)2] 4η
11

30
η
12
)(η
21
η
03
)
[0076]
m7=(3η
21-η
03
)(η
30
η
12
)[(η
30
η
12
)
2-3(η
21
η
03
)2]
[0077]
(3η
21-η
03
)(η
21
η
03
)[3(η
30
η
12
)
2-(η
21
η
03
)2]
[0078]
其中,上述7个不变矩组m1、m2、m3、m4、m5、m6和m7称为几何不变矩,用来描述形状特征。
[0079]
步骤1.7:对于每幅图像f(x,y)计算其灰度共生矩阵,并使用灰度共生矩阵来描述图像的纹理特征;
[0080]
灰度共生矩阵是通过统计图像上保持某距离的像素点分别具有某种灰度情况得
到的,其具体计算方法如下:
[0081]
步骤1.7.1:对于每幅灰度图像f(x,y),定义s为任意区域r中具有特定空间联系的像素对集合,灰度共生矩阵计算方式如下所示:
[0082]
m(d,θ)(i,j)=card{[(x1,y1),(x2,y2)]∈s|f(x1,y1)=i&f(x2,y2)=j}
[0083]
其中,x2=x1 dcosθ,y2=y1 dsinθ,card(s)表示集合,m
(d,θ)
(i,j)表示有贡献的元素个数,d为步距,θ为方向;
[0084]
步骤1.7.2:对灰度共生矩阵归一化,如下所示:
[0085][0086]
进一步的,所述灰度共生矩阵来描述图像的纹理特征,还可以由采用熵、对比度、逆方差构造特征向量来描述图像的纹理特征来代替。
[0087]
步骤1.8:分别计算每一张新闻图像的颜色、形状和纹理特征的特征相似度,并根据特征相似度计算结果动态调整阈值,建立每一张新闻图像特征的知识图谱子图,把所有知识图谱子图链接到一起,得到新闻图像特征的知识图谱;
[0088]
步骤1.9:将图像的颜色、形状和纹理特征表示为知识图谱中的头实体向量和尾实体向量,特征之间的相似度表示为关系向量,将头实体向量、尾实体向量和关系向量使用transe0模型进行过滤;
[0089]
进一步的,所述特征之间的相似度计算方法如下:
[0090]
a、图像的颜色特征的相似度采用欧氏距离计算;
[0091]
b、图像的形状特征的相似度采用相关系数法计算;
[0092]
c、图像的纹理特征的相似度采用余弦相似度计算。
[0093]
步骤1.10:将图像的颜色、形状和纹理特征进行线性融合得到图像的特征向量d;
[0094]
步骤1.11:获取新闻类别id,并获取该类别id所对应的初始特征,将初始特征输入到dense中得到新闻类别id的特征表示r
ca

[0095]
步骤1.12:将新闻类别id的特征r
ca
、新闻标题文本聚类的类别特征r
cq
、新闻标题特征r
t
、图像特征d用注意力机制融合在一起,作为最终的新闻特征ra;
[0096]
具体的计算式如下:
[0097]
ra=αca*r
ca
α
cq
*r
cq
αd*d α
t
*r
t

[0098]
步骤2:构建用户特征处理器,将每篇新闻经过注意力网络得到的注意力权重乘以各自经过步骤1的新闻特征提取器提取得到的新闻特征,得到用户特征u;
[0099]
具体的计算式如下:
[0100][0101]
其中,为第i个新闻特征经过注意力网络得到的注意力权重,m为新闻数量。
[0102]
步骤3:将用户特征u和新闻特征ra相乘得到每篇新闻的点击概率得分
[0103]
具体的计算式如下:
[0104][0105]
步骤4:随机从多个用户的交互记录中抽取k篇用户未点击的新闻作为负样本,抽取一篇用户点击过的新闻作为正样本,所有的用户数据组合在一起构成训练集,计算训练
集正样本的点击概率得分pi,并定义点击率损失函数l,具体过程如下:
[0106]
步骤4.1:随机从多个用户的交互记录中抽取k篇用户未点击的新闻作为负样本,同时根据步骤3的方法计算每篇负样本新闻的点击概率得分,得到负样本集的点击概率得分,记为
[0107]
步骤4.2:抽取一篇用户点击过的新闻作为正样本,根据步骤3的方法计算该正样本新闻的点击概率得分,记为
[0108]
步骤4.3:计算训练集正样本的点击概率得分pi,公式如下:
[0109][0110]
其中,是第i个正样本的点击概率得分,是与第i个正样本在同一候选新闻序列中第j个负样本的点击概率得分,为正样本的点击概率得分;
[0111]
步骤4.4:定义点击率损失函数l,公式如下:
[0112][0113]
其中,s是正向训练样本的集合。
[0114]
步骤5:将多个用户的交互记录输入深度学习的batch中,重复执行步骤1至步骤4进行深度学习模型的训练;
[0115]
步骤6:将用户历史浏览新闻和候选新闻输入步骤5训练好的深度学习模型中,进行首页推荐或个性化推荐。
[0116]
采用上述技术方案所产生的有益效果在于:
[0117]
1、本发明提供的方法使用了文本聚类后的类别,可以一定程度上避免人工编辑后的类别带来的偏差,也可以得到文本的隐含类别表示。
[0118]
2、本发明提供的方法使用了知识图谱中的实体信息,实体属于知识呈现的一种方式,且新闻间可以通过实体进行连接,因此标题特征中融入了实体特征和实体上下文特征,可以表示更多的信息。
[0119]
3、本发明提供的方法结合新闻图像数据,将新闻的颜色、形状和纹理特征考虑在内并建立知识图谱,并经过transe模型进行过滤,得到融合后的新闻图像特征,进一步扩大了数据特征维度。
[0120]
4、本发明提供的方法以注意机制,把多种特征融合在一起,且文本聚类后的类别、新闻类别、实体、标题这几种信息,在实际工程也容易获取,模型中使用多种特征,可以一定程度上提升模型预测的精准度和推荐效果。
附图说明
[0121]
图1为本发明实施例中基于多维度特征的新闻推荐方法的流程图;
[0122]
图2为本发明实施例中新闻图像特征的知识图谱结构示意图;
[0123]
图3为本发明实施例中结合新闻特征提取器和用户特征处理器的深度学习模型的结构示意图;
[0124]
图4为本发明实施例中步骤6的流程图。
具体实施方式
[0125]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0126]
如图1所示,本实施例中基于多维度特征的新闻推荐方法如下所述。
[0127]
步骤1:构建新闻特征提取器,提取新闻特征ra,过程如下:
[0128]
步骤1.1:获取新闻,从新闻标题的文本中提取实体信息和关系信息,构建知识图谱;并从构建的知识图谱中学习实体向量和关系向量,计算每个实体的上下文向量的平均值,具体过程如下:
[0129]
步骤1.1.1:基于命名实体识别技术对新闻标题进行实体抽取,将抽取得到的实体组合成新闻实体集合;
[0130]
本实施例中,采用基于感知机序列标注的命名实体识别技术、bi-lstm crf等技术对新闻标题进行实体抽取。
[0131]
步骤1.1.2:将新闻标题和对应的实体输入到pcnn中进行关系抽取,形成三元组(h,r,t);其中,h为头部实体、t为尾部实体,h和t均来自新闻实体集合,r为关系,由pcnn抽取后得到;
[0132]
步骤1.1.3:以三元组(h,r,t)为基础构建知识图谱;
[0133]
本实施例中,基于neo4j数据库去构建知识图谱,可以对数据进行存取,并且也可以在该数据库上写针对图操作的算法,可以保存图谱,也可以编写算法在上面进行操作。
[0134]
步骤1.1.4:使用知识图谱特征学习方法,从构建的知识图谱中学习实体向量和关系向量;
[0135]
本实施例中,采用transe、transr等知识图谱特征学习方法学习实体向量和关系向量。
[0136]
步骤1.1.5:提取每个实体的上下文信息,即获取每个实体在图谱中的邻居,并计算每个实体的上下文向量的平均值。
[0137]
具体计算公式如下:
[0138][0139]
context(e)={ei|(e,r,ei)∈g or(ei∈g)}
[0140]
其中,context(e)为实体e的上下文集合,ei是context(e)的第i个实体向量表示,r为实体间的关系,g为知识图谱,为实体e的上下文向量的平均值。
[0141]
进一步的,为了防止所述知识图谱中边的数量少且缺乏多样性,对知识图谱进行扩展,引入和知识图谱中的实体距离在阈值内的实体和相关的边来增加边的数量。
[0142]
本实施例中,采用欧式距离、余弦距离等距离计算方法来计算实体之间的距离。
[0143]
步骤1.2:获得新闻标题中每个词的词向量,与实体向量和实体的上下文向量的平均值一同映射到相同维度的向量空间中,并输入到动态多卷积核cnn中进行特征提取,得到相应的词特征、实体特征和实体上下文特征,具体过程如下:
[0144]
步骤1.2.1:将新闻标题[w1,w2,...,wn]中的每个词wi与其词向量实体向量ei、实体上下文向量平均值一一对应,如果没有匹配到实体向量和上下文向量,则用零向量代替;
[0145]
步骤1.2.2:使用映射函数将词向量、实体向量和上下文向量映射到d维的向量空间中,使三种向量的维度统一,得到词向量序列实体向量序列[e1,e2,...en]、实体上下文向量序列
[0146]
具体的映射函数如下:
[0147]
g(e)=tanh(me b)
[0148]
其中,m∈rd×k为转换矩阵,k为转换前的维度,d为转换后的维度;b为偏置常量,e为实体向量。
[0149]
步骤1.2.3:分别将词向量序列、实体向量序列、实体上下文向量序列,输入到动态多卷积核cnn中,在经过relu激活函数得到的特征分别用多卷积核cnn中,在经过relu激活函数得到的特征分别用表示;
[0150]
步骤1.2.4:在步骤2.3得到的特征上分别使用注意力权重,
[0151]
得到:
[0152][0153][0154]
其中,表示第i个词向量的权重值,vw和vw是计算向量权重时的投影参数,qw是计算向量权重时的注意力查询向量,为经过relu激活函数得到的词特征;采用同样的方法得到第i个实体向量对应的权重值和第i个实体上下文向量对应的权重值
[0155]
步骤1.2.5:分别将词向量、实体向量和实体上下文向量乘以各自对应的权重值并进行求和计算,分别得到词特征rw、实体特征re和实体上下文特征
[0156]
具体的计算公式如下:
[0157][0158][0159][0160]
步骤1.3:分别计算步骤2得到的词特征、实体特征、实体上下文特征相应的权重值,并分别乘以对应的词特征、实体特征和实体上下文特征,然后相加得到最终的标题特征rt
,过程如下:
[0161]
步骤1.3.1:计算词特征上的权重αw,公式如下:
[0162][0163][0164]
其中,uw、uw为计算特征权重时的投影参数,qw是计算特征权重时的注意力查询向量;采用同样的方法计算得到实体特征对应的权重αe和实体上下文特征对应的权重
[0165]
步骤1.3.2:计算最终的标题特征,公式如下:
[0166][0167]
其中,r
t
为最终的标题特征。
[0168]
步骤1.4:使用k-means均值聚类算法对新闻标题的文本进行聚类分析,获取聚类后的质心,并将k个质心对应到k个类别,得到新闻标题文本聚类的类别特征表示r
cq

[0169]
进一步的,所述新闻标题文本聚类的类别特征表示r
cq
的具体方法如下:
[0170]
将k个质心对应到k个类别,分别用0,1,...k编号,并初始化k个类别特征;
[0171]
将新闻标题特征求和,然后与每个质心向量进行欧式距离计算,将距离最近的那个质心对应的初始类别特征cq输入到深度学习的dense神经网络中,得到新闻标题文本聚类的类别特征表示r
cq

[0172]
本实施例中,k-means均值聚类算法对新闻标题的文本进行聚类分析的具体过程如下:
[0173]
步骤1.4.1:将新闻标题[w1,w2,...,wn]中的每个词对应的词向量进行求和形成文本特征向量di,计算公式如下所示:
[0174][0175]
其中,为新闻标题中的词对应的词向量。
[0176]
步骤1.4.2:将质心的数量定义为k,随机选择一个数据点作为质心co,使用1-di*co计算质心与数据点间的距离,其中di*co=||di||
·
||c0||cos(di,co);
[0177]
步骤1.4.3:计算每个簇内的点到该簇质心的距离之和,将其作为新的准则函数值,并维护每个点到最近质心的距离;
[0178]
步骤1.4.4:为了选择剩余质心,将通过计算初始的第一个质心co得到的准则函数值的一部分定位为δ;
[0179]
步骤1.4.5:遍历剩下的所有数据点,若该点的距离到最近质心的距离小于δ,则将该点添加到质心列表中;
[0180]
步骤1.4.6:遍历所有数据点,将其分配给最近的质心,构成新的簇;
[0181]
步骤1.4.7:重新计算每个簇的质心,直到质心不发生变化,形成k个质心,即[c0,c1…ck
]。
[0182]
步骤1.5:从新闻中获取一幅配图,对图像进行转化得到rgb图,将rgb图像颜色空间转换到hsv颜色空间,并对其中的色调h、饱和度s和亮度v进行计算,得到图像的颜色特
征;
[0183]
具体的计算方法如下:
[0184]
步骤1.5.1:对色调h进行rgb转换,计算如下所示:
[0185][0186]
步骤1.5.2:对饱和度s进行rgb转换,计算如下所示:
[0187][0188]
步骤1.5.3:对亮度v进行rgb转换,计算如下所示:
[0189][0190]
步骤1.6:对于每幅图像f(x,y)计算其几何不变矩,并使用几何不变矩来描述图像的形状特征;几何不变矩作为图像的一种统计特征,具有平移、旋转和尺度不变性,用于描述图像的分布特性。
[0191]
具体算法如下:
[0192]
步骤1.6.1:对于离散的数字图像f(x,y)的p q阶原点矩和p q阶中心矩的计算方式如下所示:
[0193][0194][0195]
其中,p,q=0,1,2

,m
pq
为p q阶原点矩,μ
pq
为p q阶中心矩,表示图像中心坐标;
[0196]
步骤1.6.2:图像中心坐标计算方式如下所示:
[0197][0198][0199]
步骤1.6.3:中心矩表示图像内不同灰度级的像素相对于重心的分布方式,对该中心矩进行归一化操作以获取针对图像无关的性质,规格化的中心矩的计算如下所示:
[0200][0201]
其中,r=(p q 2)/2,p q=2,3,4,

,η
pq
为中心距,为零阶中心距;
[0202]
步骤1.6.4:基于规格化的二阶和三阶中心矩,可以导出7个矩组,计算方式如下所示:
[0203][0204]
其中,上述7个不变矩组m1、m2、m3、m4、m5、m6和m7称为几何不变矩,用来描述形状特征。
[0205]
步骤1.7:对于每幅图像f(x,y)计算其灰度共生矩阵,并使用灰度共生矩阵来描述图像的纹理特征;
[0206]
灰度共生矩阵是通过统计图像上保持某距离的像素点分别具有某种灰度情况得到的,其具体计算方法如下:
[0207]
步骤1.7.1:对于每幅灰度图像f(x,y),定义s为任意区域r中具有特定空间联系的像素对集合,灰度共生矩阵计算方式如下所示:
[0208]m(d,θ)
(i,j)=card{[(x1,y1),(x2,y2)]∈s|f(x1,y1)=i&f(x2,y2)=j}
[0209]
其中,x2=x1 dcosθ,y2=y1 dsinθ,card(s)表示集合,m
(d,θ)
(i,j)表示有贡献的元素个数,d为步距,θ为方向;
[0210]
步骤1.7.2:对灰度共生矩阵归一化,如下所示:
[0211][0212]
进一步的,所述灰度共生矩阵来描述图像的纹理特征,还可以由采用熵、对比度、逆方差构造特征向量来描述图像的纹理特征来代替,从而减少计算量。可以先对图像进行
灰度变换,再提取熵、对比度、逆方差。
[0213]
其中,熵:度量图像具有的信息量。图像中的纹理较多,对应的熵值越大;纹理越稀疏,熵值越小,熵值计算方式如下所示:
[0214]
ent=-∑i∑jp(i,j)logp(i,j)
[0215]
其中,p(i,j)表示灰度分别为i和j的两个像素出现的次数。
[0216]
对比度:反映图像纹理特征的清晰度。|i-j|代表灰度值之间的差值,灰度值相差大的像素对越多,对比度越大,对比度表示纹理特征的粗细度,对比度计算方式如下所示:
[0217]
con=∑i∑j(i-j)2p(i,j)
[0218]
逆方差:反映了纹理特征的均匀性,(i-j)2越小,图像的均匀特性越大,反之,图像的均匀特性越小,反映图像的平滑性的测度,逆方差计算如下所示:
[0219][0220]
步骤1.8:分别计算每一张新闻图像的颜色、形状和纹理特征的特征相似度,并根据特征相似度计算结果动态调整阈值,建立每一张新闻图像特征的知识图谱子图,把所有知识图谱子图链接到一起,得到新闻图像特征的知识图谱,其结构如图2所示;
[0221]
步骤1.9:将图像的颜色、形状和纹理特征表示为知识图谱中的头实体向量和尾实体向量,特征之间的相似度表示为关系向量,将头实体向量、尾实体向量和关系向量使用transe0模型进行过滤;通过l2范数来衡量实体之间的距离,距离越小表示关系越强,计算方式如下所示:
[0222][0223]
其中,x1为实体,x2为另一实体,x
1i
为实体中的向量,x
2i
为另一实体中的向量。
[0224]
进一步的,所述特征之间的相似度计算方法如下:
[0225]
a、图像的颜色特征的相似度采用欧氏距离计算;
[0226]
具体的过程为:将h、s、v三个分量合成一个一维的特征向量,并对向量进行归一化,采用欧氏距离计算相似度,计算如下所示:
[0227][0228]
其中,p为特征向量,q为另一特征向量,为向量值,为另一向量值。
[0229]
b、图像的形状特征的相似度采用相关系数法计算;
[0230]
具体的计算公式如下:
[0231][0232]
其中,r(x,y)为相关系数,x为特征向量,y为另一特征向量。
[0233]
c、图像的纹理特征的相似度采用余弦相似度计算。
[0234]
具体的计算公式如下:
[0235][0236]
其中,a为特征向量,b为另一特征向量。
[0237]
步骤1.10:将图像的颜色、形状和纹理特征进行线性融合得到图像的特征向量d,计算公式如下所示:
[0238][0239]
其中,wi为特征权重,di为特征向量。
[0240]
步骤1.11:获取新闻类别id,并获取该类别id所对应的初始特征,将初始特征输入到dense中得到新闻类别id的特征表示r
ca

[0241]
步骤1.12:将新闻类别id的特征r
ca
、新闻标题文本聚类的类别特征r
cq
、新闻标题特征r
t
、图像特征d用注意力机制融合在一起,作为最终的新闻特征ra;
[0242]
具体的计算式如下:
[0243]
ra=α
ca
*r
ca
α
cq
*r
cq
αd*d α
t
*r
t

[0244]
步骤2:构建用户特征处理器,将每篇新闻经过注意力网络得到的注意力权重乘以各自经过步骤1的新闻特征提取器提取得到的新闻特征,得到用户特征u;
[0245]
具体的计算式如下:
[0246][0247]
其中,为第i个新闻特征经过注意力网络得到的注意力权重,m为新闻数量。
[0248]
步骤3:将用户特征u和新闻特征ra相乘得到每篇新闻的点击概率得分
[0249]
具体的计算式如下:
[0250][0251]
步骤4:随机从多个用户的交互记录中抽取k篇用户未点击的新闻作为负样本,抽取一篇用户点击过的新闻作为正样本,所有的用户数据组合在一起构成训练集,计算训练集正样本的点击概率得分pi,并定义点击率损失函数l,具体过程如下:
[0252]
步骤4.1:随机从多个用户的交互记录中抽取k篇用户未点击的新闻作为负样本,同时根据步骤3的方法计算每篇负样本新闻的点击概率得分,得到负样本集的点击概率得分,记为
[0253]
步骤4.2:抽取一篇用户点击过的新闻作为正样本,根据步骤3的方法计算该正样本新闻的点击概率得分,记为
[0254]
步骤4.3:计算训练集正样本的点击概率得分pi,公式如下:
[0255][0256]
其中,是第i个正样本的点击概率得分,是与第i个正样本在同一候选新闻序列中第j个负样本的点击概率得分,为正样本的点击概率得分;
[0257]
步骤4.4:定义点击率损失函数l,公式如下:
[0258][0259]
其中,s是正向训练样本的集合。
[0260]
步骤5:将多个用户的交互记录输入深度学习的batch中,如图3所示,重复执行步骤1至步骤4进行深度学习模型的训练;
[0261]
步骤6:将用户历史浏览新闻和候选新闻输入步骤5训练好的深度学习模型中,进行首页推荐或个性化推荐,其流程如图4所示。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献