基于关联图谱和机器学习的文档混合推荐方法及其应用与流程

2021-11-15 18:00:00 来源：中国专利 TAG：

1.本发明属于自然语言处理技术领域，更具体地，涉及一种基于关联图谱和机器学习的文档混合推荐方法及其应用。

背景技术：

2.自然语言处理(natural language processing，简称nlp)是计算机科学与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。基于自然语言处理的应用已经开始影响人们生活和生产的方方面面，如智能问答机器人、自动文本摘要等。
3.近来，人们在生产生活逐渐对文档推荐衍生出了更多的需求。但是基于机器学习的文档混合推荐在部分场景下的推荐精度有限。如何提升现有机器学习的推荐精确度，从而使得文档推荐更加智能，是目前亟待解决的问题。

技术实现要素：

4.针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于关联图谱和机器学习的文档混合推荐方法及其应用，通过基于知识图谱计算节点相似度和基于文本向量计算文档关键词相似度，实现更智能、精确度更高的文档推荐，并适用各种类型的文档。
5.为实现上述目的，按照本发明的第一方面，提供了一种基于关联图谱和机器学习的文档混合推荐方法，包括步骤：
6.构建文档关联图谱，所述文档关联图谱用于表示文档库中每个文档与文档中命名实体的关系；
7.从待推荐文档中提取命名实体和关键词；
8.根据所述文档关联图谱计算所述待推荐文档与所述文档库中文档的文档节点相似度；
9.计算所述待推荐文档与所述文档库中文档的关键词相似度；
10.根据所述文档节点相似度和所述关键词相似度从所述文档库中获取推荐文档。
11.优选的，所述文档关联图谱的节点包括文档节点和命名实体节点，所述文档节点和所述命名实体节点的边根据文档与命名实体的包含关系确定。
12.优选的，所述构建文档关联图谱包括步骤：
13.对所述文档库中每个文档进行预处理，提取每个文档的命名实体；
14.定义文档类、命名实体类和关系类，并定义文档类的属性和属性限制、命名实体类的属性和属性限制、以及关系类的属性和属性限制；
15.为所述文档库中每个文档提取的命名实体和关键词创建文档类、命名实体类和关系类的实例，生成所述文档关联图谱。
16.优选的，采用线性链条件随机场模型提取命名实体，线性链条件随机场的定义如下：
[0017][0018]
其中，x表示观测序列，y表示对应的命名实体标注序列，p(y|x)表示为命名实体y的概率，ω是对应的权重，f是特征函数，t是观测序列x的长度，k是定义在该观测序列x的局部特征函数的总个数，t是当前字符在观测序列x中的位置，z(x)为归一化函数。
[0019]
优选的，所述计算所述待推荐文档与所述文档库中文档的文档节点相似度的计算公式为：
[0020][0021]
其中，s(a,b)为所述文档节点相似度，a为所述待推荐文档的文档节点，b为所述文档库中待比较文档的文档节点，o(a)表示节点a的出度，oi(a)表示文档a指向的第i个节点的出度，o(b)表示节点b的出度，oj(b)表示文档b指向的第j个节点的出度，s(oi(a),oj(b))表示节点a指向的第i个节点与节点b指向的第j个节点的相似度，c是阻尼系数，c∈(0,1)。
[0022]
优选的，所述计算所述待推荐文档与所述文档库中文档的关键词相似度的计算公式为：
[0023][0024]
其中，s(a,b)表示所述关键词相似度，a为所述待推荐文档的关键词tf
‑
idf值向量，b为所述文档库中待比较文档的关键词tf
‑
idf值向量，向量a和向量b都是n维向量，向量a为[a1,a2,
…
,a
n
]，a
i
为向量a的第i个标量，向量b为[b1,b2,
…
,b
n
]，b
i
为向量b的第i个标量。
[0025]
优选的，所述根据所述节点相似度和所述关键词相似度从所述文档库中获取推荐文档包括步骤：
[0026]
预先设置所述文档节点相似度和所述关键词相似度的权重系数，根据所述权重系数对所述文档节点相似度和所述关键词进行加权，计算文档综合相似度；
[0027]
根据文档综合相似度获取推荐文档。
[0028]
优选的，根据文档综合相似度获取推荐文档包括步骤：
[0029]
从所述文档库库中的所有文档组成的数列中随机挑出一个文档元素，该文档称为“基准”，该文档对应的文档综合相似度称为“基准值”；
[0030]
重新排序数列，文档综合相似度小于基准值的所有元素放置在基准前面，文档综合相似度大于基准值的所有元素比放置在基准后面；
[0031]
递归地对小于基准值的所有元素组成的子数列和大于基准值的所有元素组成的子数列排序；
[0032]
通过排序算法获得相似度在预设阈值以上的文档作为推荐文档。
[0033]
按照本发明的第二方面，提供了一种基于关联图谱和机器学习的文档混合推荐系统，包括：
[0034]
知识图谱构建模块，用于构建文档关联图谱，所述文档关联图谱用于表示文档库中每个文档与文档中命名实体的关系；
[0035]
识别模块，用于从待推荐文档中提取命名实体和关键词；
[0036]
节点相似度计算模块，用于根据所述文档关联图谱计算所述待推荐文档与所述文档库中文档的文档节点相似度；
[0037]
关键词相似度计算模块，用于计算所述待推荐文档与所述文档库中文档的关键词相似度；
[0038]
推荐模块，用于根据所述文档节点相似度和所述关键词相似度从所述文档库中获取推荐文档。
[0039]
按照本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项文档混合推荐方法。
[0040]
总体而言，本发明与现有技术相比，解决了相关技术存在的实用性低、精度不高的问题，实施简单方便，实用性强，精确度高，能够提高用户体验，具有重要的市场价值，具体表现在：
[0041]
(1)为了解决现有机器学习的文档混合推荐无法对多主题的文本进行推荐的问题，本技术将基于文档关联图谱计算节点相似度和基于文本向量计算文档关键词相似度两个维度作为文档推荐的依据，可以适用于多种类型的文本。
[0042]
(2)混合结合现有的基于文本向量的学习算法，增加了文本的命名实体提取形成文档关联图谱的方式，从文本的特征来表征文本的相似性，增加了文本相似度的维度。
[0043]
(3)通过引入节点相似度，降低机器学习文本的关键词相似度权重，避免单一多义词在机器学习的关键词提取权重过大，导致推荐准确率较低的问题。
附图说明
[0044]
图1是本发明实施例的文档推荐方法的流程图；
[0045]
图2是本发明实施例的文档关联图谱的示意图。
具体实施方式
[0046]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0047]
如图1所示，本发明实施例的一种基于关联图谱和机器学习的文档混合推荐方法，包括步骤：
[0048]
s101，构建文档关联图谱，文档关联图谱用于表示文档库中每个文档与文档中命名实体的关系。
[0049]
进一步地，如图2所示，文档关联图谱的节点包括文档节点和命名实体节点，文档节点和命名实体节点的边根据文档与命名实体的包含关系确定。
[0050]
进一步地，构建文档关联图谱包括步骤：
[0051]
(1)对文档库中每个文档进行预处理，提取每个文档的命名实体。
[0052]
文档库中文档可以为json文档，也可以为其他类型的文档。
[0053]
在一个实施例中，提取命名实体步骤：首先基于设计需要，定义所要获取的命名实体的类型，然后对预处理文本进行标注，形成与所需要识别的命名实体。
[0054]
可选地，对命名实体识别的模型，可以为crf或感知机。
[0055]
crf(条件随机场)：条件随机场模型，是一种判别式无向图模型，用以进行分词和命名实体识别。
[0056]
感知机：用于二分类的线性模型。用以判别词是否属于某个命名实体。
[0057]
优选通过linear
‑
crf(线性链条件随机场)命名实体识别算法进行命名实体识别，crf(条件随机场)是一种给定输入随机变量x，求解条件概率p(y|x)的概率无向图模型。线性链条件随机场的定义如下：
[0058][0059]
其中，x表示观测序列，y表示对应的命名实体标注序列，p(y|x)表示为命名实体y的概率，ω是对应的权重，f是特征函数，t是观测序列x的长度，k是定义在该观测序列x的局部特征函数的总个数，t是当前字符在观测序列x中的位置，特征函数f仅依赖当前特征状态值和前一个位置的特征状态值。
[0060]
其中，z(x)为归一化函数，定义如下：
[0061][0062]
(2)定义文档类、命名实体类和关系类，并定义文档类的属性和属性限制、命名实体类的属性和属性限制、以及关系类的属性和属性限制。
[0063]
定义本体模型，即命名实体和关系，本例中定义的实体包括：文档、命名实体；关系为包含，即文档
‑
>包含
‑
>命名实体。
[0064]
本体建立方法：
[0065]
1)确定本体的领域和范围。即本体在解决什么问题。本例本体的主要领域为文档。
[0066]
2)考虑重用现有的本体。在已有的本体基础上复用。
[0067]
3)列举本体的重要术语。本实施例所涉及的重要本体包括文档、人名、地名等。
[0068]
4)定义类及其层次结构。本例涉及的类包括：文档类、命名实体类；所涉及的关系类包括：包含。
[0069]
5)定义类的属性。
[0070]
a)文档类的属性包括：
[0071]
i.文档名
[0072]
ii.文档所属
[0073]
iii.文档创建时间
[0074]
b)命名实体类的属性包括：
[0075]
i.实体名称
[0076]
ii.实体的命名实体名称
[0077]
c)包含类的属性包括：
[0078]
i.名称
[0079]
6)定义属性的限制
[0080]
a)文档类的属性限制
[0081]
i.文档名：string
[0082]
ii.文档所属：string
[0083]
iii.文档创建时间：date
[0084]
b)命名实体类的属性包括：
[0085]
i.实体名称：string
[0086]
ii.实体的命名实体名称：string
[0087]
c)包含类的属性包括：
[0088]
i.名称：string
[0089]
(3)为文档库中每个文档提取的命名实体创建文档类、命名实体类和关系类的实例，生成文档关联图谱。
[0090]
s102，从待推荐文档中提取命名实体和关键词。
[0091]
待推荐文档是需要为其推荐的文档。待推荐文档可以是用户正在阅读的文档。
[0092]
从待推荐文档中提取命名实体的方法和上述构建文档关联图谱中的提取方法原理相同，此处不再赘述。
[0093]
s103，根据文档关联图谱计算待推荐文档与文档库中文档的文档节点相似度。
[0094]
将文档节点与命名实体节点看作二部图，命名实体节点相似度的实现方式如下。
[0095]
基于上述二部图结构的相似度计算方法simrank基本公式：
[0096][0097]
其中，a，b为命名实体的节点代号，s(a,b)表示a，b的命名实体节点相似度，i(a)表示a的入度，i(b)表示b的入度，ii(a)表示指向a的第i个节点的入度，ij(b)表示指向b的第j个节点的入度，s(ii(a),ij(b))表示指向a的第i个节点与指向b的第j个节点的相似度，c是阻尼系数，c∈(0,1)。当a＝b时，s(a,b)＝1。相似度等于a和b所有关联的节点的相似度的平均值，即对所有相连节点的入度求加和并除以|i(a)||i(b)|。
[0098]
除了命名实体节点之外，二部图的另一部分是文档节点，文档节点相似度定义如下：
[0099][0100]
其中，s(a,b)为文档节点相似度，a为待推荐文档的文档节点，b为文档库中待比较文档的文档节点，o(a)表示节点a的出度，oi(a)表示文档a指向的第i个节点的出度，o(b)表示}节点b的出度，oj(b)表示文档b指向的第j个节点的出度，s(oi(a),oj(b))表示节点a指向的第i个节点与节点b指向的第j个节点的相似度，c是阻尼系数，c∈(0,1)。
[0101]
为了计算全图中的文档节点相似度，需要在文档节点和命名实体节点的相似度之间进行迭代计算，利用simrank算法的迭代公式为：
[0102]
对于命名实体节点a、b，
[0103][0104]
ab为实体节点
[0105]
对于文档节点a、b，
[0106][0107]
ab为文档节点
[0108]
s0(a,b)是初始化的a，b的节点相似度。s
k
(i
i
(a),i
j
(b))是第k次计算指向a的第i个节点与指向b的第j个节点的相似度。s
k
(a,b)是k的单调不减函数，是第k次计算节点a与节点b的相似度，优选地，实施例设置的收敛条件是，当s
k 1
(a,b)与s
k
(a,b)之间的差值小于10
‑6，即可认为s
k 1
(a,b)已经收敛到接近结束，即s
k 1
(a,b)为节点a与节点b的相似度。
[0109]
s104，计算待推荐文档与文档库中文档的关键词相似度。
[0110]
在步骤101进行预处理之后得到的关键词进行词频统计后，通过计算文本距离得到基于关键词的文本相似度。
[0111]
可选地，对文档相似性算法采用的算法，包括：基于词向量的余弦相似度、欧几里得距离等；基于字符的编辑距离的simhash(文本相似度算法)；基于概率统计的杰卡德相似系数；基于词嵌入模型的word2vec(一群用来产生词向量的相关神经网络模型)等。
[0112]
实施例中，基于关键词的文本相似度算法优选采用tf
‑
idf方法。
[0113]
一个词的权重由tf*idf表示，其中tf表示词频，即一个词在这篇文本中出现的频率；idf表示逆文档频率，即一个词在所有文本中出现的频率倒数。
[0114]
1.计算词频
[0115][0116]
2.计算逆文档频率
[0117]
[0118]
3.计算tf
‑
idf
[0119]
tf
‑
idf＝词频(tf)
×
逆文档频率(idf)
[0120]
计算得到一篇文档内的所有的词频，并组成一篇文章的词频向量。两篇文章的词频向量可以看作空间中的两条线段，都是从原点([0,0,...])出发，指向不同的方向。两条线段之间形成一个夹角，如果夹角为0度，意味着方向相同、线段重合；如果夹角为90度，意味着形成直角，方向完全不相似；如果夹角为180度，意味着方向正好相反。因此，我们可以通过夹角的大小，来判断向量的相似程度。夹角越小，就代表越相似，即余弦公式。
[0121]
其计算公式为：
[0122][0123]
其中，s(a,b)表示a,b的相似度，a.b为文档的关键词tf
‑
idf值向量，都是n维向量。a为[a1,a2,
…
,a
n
]，a
i
为a的第i个标量。b为[b1,b2,
…
,b
n
]，b
i
为b的第i个标量。
[0124]
s105，根据文档节点相似度和关键词相似度从文档库中获取推荐文档。
[0125]
进一步地，获取推荐文档包括步骤：预先设置文档节点相似度和关键词相似度的权重系数，根据权重系数对文档节点相似度和关键词进行加权，计算文档综合相似度，根据文档综合相似度获取推荐文档。
[0126]
权重系数w1，w2为正有理数且和为1，文档综合相似度加权公式如下：
[0127]
s＝w1*s1 w2*s2
[0128]
其中，s为文档综合相似度；s1为步骤103中计算得到的图文档节点相似度；s2为步骤104中计算得到的关键词相似度。
[0129]
优选地，权重系数w1、w2均可取为0.5。
[0130]
进一步地，根据文档综合相似度获取推荐文档包括步骤：
[0131]
(1)从文档库库中的所有文档组成的数列中随机挑出一个文档元素，该文档称为“基准”，该文档对应的文档综合相似度称为“基准值”；
[0132]
(2)重新排序数列，文档综合相似度小于基准值的所有元素放置在基准前面，文档综合相似度大于基准值的所有元素比放置在基准后面；
[0133]
(3)递归地对小于基准值的所有元素组成的子数列和大于基准值的所有元素组成的子数列排序；
[0134]
(4)通过排序算法获得相似度在预设阈值以上的文档作为推荐文档。
[0135]
本发明实施例的一种基于关联图谱和机器学习的文档混合推荐系统，包括以下功能模块：
[0136]
知识图谱构建模块，用于构建文档关联图谱，文档关联图谱用于表示文档库中每个文档与文档中命名实体的关系；
[0137]
识别模块，用于从待推荐文档中提取命名实体和关键词；
[0138]
节点相似度计算模块，用于根据文档关联图谱计算待推荐文档与文档库中文档的文档节点相似度；
[0139]
关键词相似度计算模块，用于计算待推荐文档与文档库中文档的关键词相似度；
[0140]
推荐模块，用于根据文档节点相似度和关键词相似度从文档库中获取推荐文档。
[0141]
文档混合推荐系统的实现原理、技术效果与上述方法类似，此处不再赘述。
[0142]
本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一文档混合推荐方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。
[0143]
必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。
[0144]
本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于DeepLabv3+_SLAM的动态对象检测方法与流程

基于关联图谱和机器学习的文档混合推荐方法及其应用与流程

相关文献

最热文献