基于链接相似度的同义词提取方法及系统

2022-06-11 13:12:17 来源：中国专利 TAG：

1.本发明涉及同义词提取技术，特别是一种基于链接相似度的同义词提取方法及系统。

背景技术：

2.自然语言处理作为目前最热门的研究之一，许多应用都需要词汇语义相似度的度量，比如机器翻译、问答系统以及搜索系统等。以淘宝搜索为例，搜索商品关键词“笔记本”，系统能够联想到“笔记本文具”、“笔记本电脑”、“轻薄本”、“游戏本”等多种商品关键词。高效且准确地提取同义词是此类应用最基础且最重要的功能。
3.同义词提取方法大致可以分为两类，一种研究领域是基于分布相似性假设，直接从免费的语料库中得出语义相似性度量，在这个领域中，单词向量的方法有着非常优越的性能。另一种是基于图结构的链接相似度模型，通过计算基础图上节点之间的相似度来评估单词之间的相似性，基础图中节点表示单词，边用来表示单词之间的语义联系。
4.目前存在许多基于链接相似度的模型，其中在语义提取上应用较为广泛的是cosimrank模型，该模型的核心思想是“如果两个节点被相似的节点引用，那么这两个节点也相似”。其公式的矩阵形式可以表示为s＝ca
t
sa i，其中s表示相似度矩阵，c表示衰败因子，a表示概率转移矩阵，i表示单位矩阵。但在实际应用场景中会发现，cosimrank模型在相似度检索中往往无法给出令人满意的结果。这是因为cosimrank系列模型是对称游走，任意两个节点相距的奇数路径上的相似度贡献均被忽略，导致同义词提取的准确性不高。
5.另一方面，词典中单词的数量相当巨大，想要快速的进行同义词提取任务，对于模型的计算速度也存在较高的要求。cosimrank采用ppr向量迭代的计算方式，时空复杂度很高，当图结构的数据规模很大时，计算的效率低下，并不能在有效的时间内完成同义词提取的任务。

技术实现要素：

6.本发明的目的在于提供一种基于链接相似度的同义词提取方法，其能够在有效的时间内提取出给定单词的同义词，同时保证较高的准确度，满足查询需求。
7.实现本发明目的的技术解决方案为：一种基于链接相似度的同义词提取方法，包括以下步骤：
8.步骤1，将词典根据单词的词性转化为图结构，其中，词典中单词作为图节点，单词具有多种词性，单词之间的联系作为图的边，边上附有权重；
9.步骤2，给定单词节点v作为请求，使用基于热扩散的非对称随机游走模型cosimheat来计算节点v和其余单词节点的相似度；
10.步骤3，使用krylov子空间降维技术来加速单源cosimheat的计算；
11.步骤4，获取词性相同且相似度排名最高的前k个单词，从而得到单词v的同义词。
12.根据本发明一个实施例的基于链接相似度的同义词提取方法，所述步骤2具体包
括如下：
13.步骤201，输入一个请求单词，在词典中查找该单词，存在则返回单词节点序号v，否则返回无对应单词；
14.步骤202，使用基于热扩散的非对称随机游走模型cosimheat来计算图中的节点相似度，cosimheat模型的主要计算方式如下所示：
[0015][0016]
with w＝(a
t
diag(d

)-1-i),
[0017]
其中，s表示相似度矩阵，λ(0,1)表示衰败因子，a表示概率转移矩阵，i表示单位矩阵，d

表示出度向量，θ表示平衡系数，m表示边数，n表示节点数。
[0018]
步骤203，利用步骤201中得到节点序号构造单位向量ev＝[0,0,...1,0,...0]
t
，其中下标第v位为1，其余位均为0。步骤202中的cosimheat模型可以进一步计算单源相似度，具体公式如下：
[0019][0020]
这样可以计算出给定单词节点v和其余节点之间的相似度。
[0021]
根据本发明一个实施例的基于链接相似度的同义词提取方法，所述步骤3具体包括如下：
[0022]
步骤301，对概率转移随机矩阵w使用krylov子空间技术进行降维，对任意一个概率转移矩阵w和一个单位向量q，一个α维的krylov子空间可以定义为：
[0023]
k(w,q)＝span{q,wq,w2q,...,w
α-1
q}
[0024]
其中，span{
·
}表示全体在{
·
}中向量张成的子空间，即这些向量的所有线性组合的全体。
[0025]
步骤302，通过arnoldi算法，将概率转移随机矩阵w投影到krylov子空间上。arnoldi算法就是计算krylov子空间的一组正交基的过程，能把矩阵w分解成一组正交向量组成的矩阵v和一个上三角矩阵h，分解后的矩阵满足如下关系式：
[0026]
av
α
＝v
α 1hα 1,α
＝v
αhα
h
α 1,αvα 1eαt
[0027]vαt
av
α
＝h
α
，ej＝v
α
e1[0028]
其中，h
α 1,αvα 1eαt
表示矩阵分解后产生的误差，当降维后的维数α不小于概率转移随机矩阵a的秩时，误差为0。由于α＜＜n，可以大大加快计算速度。
[0029]
步骤303，将单源cosimheat公式的右半部分通过步骤302进行降维，得到如下公式：
[0030][0031]
用向量u来表示右半部分的计算结果。
[0032]
步骤304，将单源cosimheat公式的左半部分结合步骤303计算出的向量u，再次使用步骤302来进行降维，得到公式如下所示：
[0033][0034]
用向量z来表示计算结果。
[0035]
步骤305，经过步骤303和304的计算，最后单源cosimheat的计算结果可以表示为：sev＝z
[0036]
这样得到的向量就是单词节点v和其余单词节点之间的相似度值。
[0037]
一种基于链接相似度的同义词提取系统，包括：
[0038]
第一模块，用于将词典根据单词的词性转化为图结构，其中，词典中单词作为图节点，单词具有多种词性，单词之间的联系作为图的边，边上附有权重；
[0039]
第二模块，给定单词节点v作为请求，使用基于热扩散的非对称随机游走模型cosimheat来计算节点v和其余单词节点的相似度；
[0040]
第三模块，使用krylov子空间降维技术来加速单源cosimheat的计算；
[0041]
第四模块，用于获取词性相同且相似度排名最高的前k个单词，从而得到单词v的同义词。
[0042]
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于链接相似度的同义词提取方法。
[0043]
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的基于链接相似度的同义词提取方法。
[0044]
相较于现有技术，本发明具有如下优点：首先，本发明方法在提取同义词时，只需要通过相应语言的词典进行图结构的构造，不需要依赖语料库，即可以不用受限于现存语料库的缺点，比如免费语料库功能不完善，功能完善的语料库价格不菲等。其次，传统方法使用对称随机游走，任意两个节点相距的奇数路径上的相似度贡献均被忽略，即相似度路径信息只能计算一半，搜索质量不尽如人意，而本发明使用了基于热扩散的非对称随机游走模型，能够有效避免“奇数路径”问题，得到的相似度值更加接近实际情况，即同义词提取的准确性更高。最后本发明使用了krylov子空间技术进行降维，在大规模图下，保证相似度计算精度的同时大大提高了计算速度，可以满足应用实时、准确的同义词提取需求。
附图说明
[0045]
图1是本发明实施例提供的一种基于链接相似度的同义词提取方法的流程图。
[0046]
图2是本发明实施例中提取的单词示例子图。
具体实施方式
[0047]
为了加深对本发明的理解，下面结合附图对本实施例做详细的说明，但应当理解本发明的保护范围并不受具体实施方式的限制。
[0048]
一种基于链接相似度的同义词提取方法，包括根据词典构造图结构、根据给定单词请求计算单源cosimheat模型相似度、使用krylov子空间降维、根据相似度排名返回同义词四个步骤，具体流程如图1所示。
[0049]
本发明实施例的基于链接相似度的同义词提取方法，包括以下具体操作步骤：
[0050]
步骤1)给定一个英语词典，其中包括91148个单词，单词又可以分为三种词性，包括形容词、动词和名词，单词作为节点，单词之间的联系作为图的边并附带权重。由于单词较多，不易观察其分布，这里抽取一个子图进行计算讲解，边的权值设置为1，如图2所示，图中有7个节点，包括4个形容词和3个名词，并给定节点编号构造的图结构。则概率转移矩阵a和出度向量d

表示如下：
[0051]d
＝[4 3 1 1 1 1 1]
[0052]
步骤2)给定一个单词请求，在词典中查找该单词，存在则返回单词节点序号v，否则返回无对应单词；以单词请求hard为例，在词典中查找返回单词节点序号4。
[0053]
步骤3)使用基于热扩散的非对称随机游走模型cosimheat来计算图中的节点相似度，cosimheat模型的主要计算方式如下所示：
[0054][0055]
with w＝(a
t
diag(d

)-1-i),
[0056]
其中，s表示相似度矩阵，λ(0,1)表示衰败因子，a表示概率转移矩阵，i表示单位矩阵，d

表示出度向量，θ表示平衡系数，m表示边数，n表示节点数。
[0057]
参数设置为λ＝0.6，θ＝0.5，通过计算可以得到向量w和t0如下：
[0058]
[0059]
步骤4)利用步骤2)得到节点序号构造单位向量e4＝[0,0,0,1,0,0,0]
t
，其中下标第4位为1，其余位均为0。cosimheat模型可以进一步计算单源相似度，具体公式如下：
[0060][0061]
这样可以计算给定单词节点4和其余节点之间的相似度。
[0062]
步骤5)对概率转移随机矩阵w使用krylov子空间技术进行降维，对概率转移矩阵w和给定单位向量e4，一个α维的krylov子空间可以定义为：
[0063]
k(w,e4)＝span{e4,we4,w2e4,...,w
α-1
e4}
[0064]
通过arnoldi算法，将概率转移随机矩阵w投影到krylov子空间上。arnoldi算法就是计算krylov子空间的一组正交基的过程，能把矩阵w分解成一组正交向量组成的矩阵v和一个上三角矩阵h。由于子图本身节点较少，矩阵只有7维，秩为4，为了保证精度，这里降维到4维，在大图上α＜＜n。w矩阵降维后的矩阵v1和h1计算如下：
[0065][0066]
步骤6)将单源cosimheat公式的右半部分进行降维，得到如下公式：
[0067][0068]
将参数代入计算可得结果：
[0069]
u＝[0.056,0.002,0.007,0.749,0.007,0.0005,0.0005]
t
[0070]
步骤7)再次使用步骤5)的arnoldi算法，将矩阵a
t
结合步骤6)中求出的向量u投影到krylov子空间上，可以将矩阵a
t
进行降维，降维后矩阵v2和h2计算如下：
[0071][0072]
步骤8)将单源cosimheat公式的左半部分结合步骤6)计算出的向量u，再次进行降
维，得到公式如下所示：
[0073][0074]
将参数带入计算可得结果
[0075]
z＝[0.029,0.011,0.0045,0.043,0.0045,0.0035,0.0035]
t
。
[0076]
步骤9)获取词性相同且相似度排名最高的前k个单词，由于单词和自身的相似度最高，故舍弃排名第一的单词，得到单词hard的同义词列表如下所示：
[0077]
[difficult，challenging，troublesome]
[0078]
可以发现，节点challenging、节点troublesome与节点hard路径都为奇数路径，但cosimheat仍可以完成同义词提取。
[0079]
进一步的，本发明还提供一种基于链接相似度的同义词提取系统，包括：
[0080]
第一模块，用于将词典根据单词的词性转化为图结构，其中，词典中单词作为图节点，单词具有多种词性，单词之间的联系作为图的边，边上附有权重；
[0081]
第二模块，给定单词节点v作为请求，使用基于热扩散的非对称随机游走模型cosimheat来计算节点v和其余单词节点的相似度；
[0082]
第三模块，使用krylov子空间降维技术来加速单源cosimheat的计算；
[0083]
第四模块，用于获取词性相同且相似度排名最高的前k个单词，从而得到单词v的同义词。
[0084]
上述第一～第四模块的具体实现方式与前述的基于链接相似度的同义词提取方法相同，本发明不再赘述。
[0085]
上述步骤展示了实施例子图的同义词提取过程，而完整实施例图结构同样的可以完成同义词提取。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种实体识别方法、装置、设备及存储介质与流程

基于链接相似度的同义词提取方法及系统

相关文献

最热文献