一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于语义的不完全最大匹配分词方法与流程

2021-10-24 14:29:00 来源:中国专利 TAG:方法 分词 语义 词组 不完全


1.本发明涉及词组分配方法,具体地涉及一种基于语义的不完全最大匹配分词方法。


背景技术:

2.中文分词技术作为文本处理的初始阶段,直接影响着数据挖掘全流程的准确性。高精度的中文分词技术将为语义消歧、关键字提取、信息检索等领域提供优质的文本预处理基础,对推动自然语言的发展具有重要意义。目前,中文分词技术的研究主要在准确性和时效性两个方向上共同推进:在提高算法时效性方面,主要方式是通过定义词典和高性能数据结构。比如利用字符树或分组字符树加载词典。在提高准确性方面,多数研究更关注分词算法的改进。常用的中文分词方法可划分为以下两类:
3.基于规则的分词算法:
4.最大匹配算法是典型的基于规则分词法。它依据分词词典、不需考虑文本领域问题,因而具备领域无关性和高时效性。但难以处理歧义词,易发生词语粘连。业内出现了很多对最大匹配算法的改进,比如:使用词典词条动态截取输入串、应用哈希技术提升分词效率等。
5.基于统计的分词算法:
6.统计分词法聚焦于字与字的稳定组合,常用相邻字的共现率模拟它们构成词的可能性。利用这种统计词语出现频率的方式实现分词。
7.但是现有的这两种方法容易发生词语黏连,不能保证分词的准确性。


技术实现要素:

8.为了解决上述现有技术的不足,本发明提出一种基于语义的不完全最大匹配分词方法,其能够构建正向语义相似度词典,该词典能记录词语间的关联强度,保障时间开销的基础上,解决最大匹配算法词语粘连的缺陷,提升分词算法的准确性。其一方面应用词典实现后续词识别,提升分词准确性,减少循环,提升效率。另一方面,本发明提出了三特征权值计算式,该计算式重新定义分词算法的切分原则,解决了传统算法词语粘连的缺陷。
9.具体地,本发明提供一种基于语义的不完全最大匹配分词方法,其利用语义词典中的语义元素重新定义匹配算法的切分原则,具体包括以下步骤:
10.s1、构建正向语义相似度词典:利用训练集语料t和同义词词林构建正向语义相似度词典d
sim
,构建过程具体包括以下子步骤:
11.s11、对于训练集语料t中词条w
i
,n
i
个后续词条组成的集合为c
w
={w
ij
,1≤j≤n
i
},由w
i
与w
ij
的语义相似度组成的集合计为c
sim
={w
ij
:sim
ij
,1≤j≤n
i
},其中w
ij
表示w
i
的第j个后续词条,sim
ij
表示w
i
与w
ij
在词林中的语义相似度,表示词条w
i
与所有后续词条语义相似度的平均值,即:
[0012][0013]
s12、以w
i
为键存储c
sim
和均值收录t内相邻词条的语义信息,得到d
sim

[0014]
s2、对词语进行切分,得到初始词,其具体包括以下子步骤:
[0015]
s21、假设有长度为n的待切分汉字串s
n
=w1w2......w
n
,将含有所有词条的通用词典计为d;在一轮最大匹配算法中,所有匹配成功的h组成的集合计作c
h
={h|(1≤h≤k)∩w1w2......w
h
∈d},k表示最大匹配算法的匹配词长,即w1w2......w
k
是最大匹配算法的首个切分结果,集合c
h
内每一个元素构成的分词都是通用词典d中的,均作为备用结果;
[0016]
s22、计算每一个词的三特征权值we,计算公式如下:
[0017][0018]
其中,s
h
表示由集合c
h
中元素确定的长度为h的分词;表示词语s
h
与后续词的平均语义相似度;表示最大的平均语义相似度;p
h
表示在通用词典d中词长为h的词语出现的频率;p
max
表示在通用词典d中p
h
的最大值;
[0019]
s23、取三特征权值最大的s
h
作为分词结果,计为初始词s
h
=w1w2......w
h

[0020]
s3、后续词自动识别:对于待切分汉字串s
n
=w1w2......w
n
经过s2的切分方法得到s
h
=w1w2......w
h
(h≤n)后,在词典d
sim
中读取所有s
h
的后续词集合如果有s
h
的某个后续词匹配成功,即将s
h2
自动识别为s
h
的后续词;
[0021]
若存在多个s
h2
,取与s
h
语义相似度最大的;若不存在继续执行步骤s2切分s
h
的后续串,即输入串为s
n

h
=w
h 1
w
h 2
......w
n

[0022]
s4、反复执行步骤s2

s3,最终切分完成汉字串s
n

[0023]
优选地,步骤s1中,对于t中词条w
i
,n
i
个后续词条组成的集合为c
w
={w
ij
,1≤j≤n
i
};由w
i
与w
ij
的语义相似度组成的集合计为c
sim
={w
ij
:sim
ij
,1≤j≤n
i
},其中w
ij
表示w
i
的第j个后续词条,sim
ij
表示w
i
与w
ij
在词林中的语义相似度,表示词条w
i
与所有后续词条语义相似度的平均值,即:
[0024][0025]
d
sim
以w
i
为键存储c
sim
和均值收录t内相邻词条的语义信息。
[0026]
优选地,三特征权值的语义相似度和词频特征小于1,词长特征大于1。
[0027]
优选地,三特征权值利用最大平均语义相似度和最大频率进行归一化处理,消除数据偶然性。
[0028]
优选地,还包括步骤s5、对计算结果进行验证:使用准确率、召回率、调和均值f1以及时间开销作为评估指标,假设在算法切分后的分词中,正确的结果有r1个,错误的结果有
f个,样本给出的分词个数是r2,准确率、召回率和f1的计算公式如下:
[0029][0030][0031][0032]
与现有技术相比,本发明具有以下有益效果:
[0033]
(1)本发明将基于规则和统计两种方法相结合,提出了基于语义的不完全最大匹配分词法。因使用三特征权值计算式解决了传统最大匹配算法词语粘连的缺陷。同时应用正向语义相似度词典实现了后续词的自动识别,提升了算法性能,减少时间开销。在保障算法时间开销的基础上提升了算法的准确性。
[0034]
(2)本发明的这种通过语义进行后续词识别的方式,聚焦于词语间语义层面上的关联,在一定程度上达到了解决词语歧义的效果。所以本发明不仅提供了准确高效的分词方法,而且为文本处理的后续消歧步骤提供了便利。
附图说明
[0035]
图1为本发明的流程示意框图;
[0036]
图2为本发明的实施流程示意图;
[0037]
图3为本发明的实施例中f1的对比折线图。
具体实施方式
[0038]
以下将参考附图详细说明本发明的示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0039]
具体地,本发明提供一种基于语义的不完全最大匹配分词方法,如图1及图2所示,其包括以下步骤:
[0040]
s1、构建正向语义相似度词典:利用训练集语料t和同义词词林构建正向语义相似度词典d
sim
,构建过程具体包括以下子步骤:
[0041]
s11、对于训练集语料t中词条w
i
,n
i
个后续词条组成的集合为c
w
={w
ij
,1≤j≤n
i
},由w
i
与w
ij
的语义相似度组成的集合计为c
sim
={w
ij
:sim
ij
,1≤j≤n
i
},其中w
ij
表示w
i
的第j个后续词条,sim
ij
表示w
i
与w
ij
在词林中的语义相似度,表示词条w
i
与所有后续词条语义相似度的平均值,即:
[0042][0043]
s12、以w
i
为键存储c
sim
和均值收录t内相邻词条的语义信息,得到d
sim

[0044]
s2、对词语进行切分,得到初始词,其具体包括以下子步骤:
[0045]
s21、假设有长度为n的待切分汉字串s
n
=w1w2......w
n
,将含有所有词条的通用词典计为d;在一轮最大匹配算法中,所有匹配成功的h组成的集合计作c
h
={h|(1≤h≤k)∩w1w2......w
h
∈d},k表示最大匹配算法的匹配词长,即w1w2......w
k
是最大匹配算法的首个切分结果,集合c
h
内每一个元素构成的分词都是通用词典d中的,均作为备用结果;
[0046]
s22、计算每一个词的三特征权值we,计算公式如下:
[0047][0048]
其中,s
h
表示由集合c
h
中元素确定的长度为h的分词;表示词语s
h
与后续词的平均语义相似度;表示最大的平均语义相似度;p
h
表示在通用词典d中词长为h的词语出现的频率;p
max
表示在通用词典d中p
h
的最大值;
[0049]
s23、取三特征权值最大的s
h
作为分词结果,计为初始词s
h
=w1w2......w
h

[0050]
s3、后续词自动识别:对于待切分汉字串s
n
=w1w2……
w
n
经过s2的切分方法得到s
h
=w1w2......w
h
(h≤n)后,在词典d
sim
中读取所有s
h
的后续词集合如果有s
h
的某个后续词匹配成功,即将s
h2
自动识别为s
h
的后续词;
[0051]
若存在多个s
h2
,取与s
h
语义相似度最大的;若不存在继续执行步骤s2切分s
h
的后续串,即输入串为s
n

h
=w
h 1
w
h 2
……
w
n

[0052]
s4、反复执行步骤s2

s3,最终切分完成汉字串s
n

[0053]
优选地,步骤s1中,对于t中词条w
i
,n
i
个后续词条组成的集合为c
w
={w
ij
,1≤j≤n
i
}。由w
i
与w
ij
的语义相似度组成的集合计为c
sim
={w
ij
:sim
ij
,1≤j≤n
i
},其中w
ij
表示w
i
的第j个后续词条,sim
ij
表示w
i
与w
ij
在词林中的语义相似度,表示词条w
i
与所有后续词条语义相似度的平均值,即:
[0054][0055]
d
sim
以w
i
为键存储c
sim
和均值收录t内相邻词条的语义信息。
[0056]
优选地,三特征权值的语义相似度和词频特征小于1,词长特征大于1。
[0057]
优选地,三特征权值利用最大平均语义相似度和最大频率进行归一化处理,消除数据偶然性。
[0058]
具体实施例
[0059]
s1、切分算法。假设有长度为n的待切分汉字串s
n
=w1w2……
w
n
。将含有所有词条的通用词典计为d;在一轮最大匹配算法中,所有匹配成功的h组成的集合计作c
h
={h|(1≤h≤k)∩w1w2……
w
h
∈d}。k表示最大匹配算法的匹配词长,即w1w2……
w
k
是最大匹配算法的首个切分结果。集合c
h
内每一个元素构成的分词都是通用词典d中的,它们都可能是最终结果。计算每一个词的三特征权值we,计算公式如下:
[0060]
[0061]
其中,s
h
表示由集合c
h
中元素确定的长度为h的分词;表示词语s
h
与后续词的平均语义相似度;表示最大的平均语义相似度;p
h
表示在通用词典d中词长为h的词语出现的频率;p
max
表示在通用词典d中p
h
的最大值。
[0062]
最后,取三特征权值最大的s
h
作为分词结果。计为初始词s
h
=w1w2……
w
h

[0063]
s2、后续词自动识别。对于待切分汉字串s
n
=w1w2......w
n
经过s1的切分方法得到s
h
=w1w2......w
h
(h≤n)后,在词典d
sim
中读取所有s
h
的后续词集合如果有s
h
的某个后续词匹配成功,即将s
h2
自动识别为s
h
的后续词。若存在多个s
h2
,取与s
h
语义相似度最大的;若不存在继续执行s2切分s
h
的后续串,即输入串为s
n

h
=w
h 1
w
h 2
......w
n

[0064]
反复执行1和2最终切分完成汉字串s
n

[0065]
分词完成之后,通过实验验证算法在准确性和时间开销上的性能。
[0066]
实验数据的来源主要包括三部分:
[0067]
词典:通用词典d由百度分词词库、搜狗词库和五笔词库组成,整理后共包含41.2736万个分词,同时引入《同义词词林》用于语义相似度的计算。
[0068]
训练库文本:共包含了不同领域的7243个段落,总计37.6519万个分词。主要用于构建正向语义相似度词典。
[0069]
测试库文本:含有3147个不同领域的段落,总计12.3928万词。在测试库中选取部分段落进行试验测试。
[0070]
为了验证算法的准确性和高效性,本文使用准确率、召回率、调和均值f1以及时间开销作为评估指标。假设在算法切分后的分词中,正确的结果有r1个,错误的结果有f个,样本给出的分词个数是r2。准确率、召回率和f1的计算公式如下:
[0071][0072][0073][0074]
为了检验算法的性能,本文针对五种分词算法进行了三组对比实验,这五种算法分别是:
[0075]
fmm:前向最大匹配分词法;
[0076]
bmm:后向最大匹配分词法;
[0077]
dsfmm:基于d
sim
实现后续词识别的前向最大匹配算法;
[0078]
dsbmm:基于d
sim
实现后续词识别的后向最大匹配算法;
[0079]
simm:即本专利提出的基于语义特征改进的不完全最大匹配分词法。
[0080]
三组实验的基本信息如表2、3、4所示:
[0081]
表2第一组实验基本信息
[0082][0083]
表3第二组实验基本信息
[0084][0085][0086]
表4:第三组实验基本信息
[0087][0088]
实验结果与分析
[0089]
分别对五种算法进行实验。为了便于比较,将实验e1和e2的结果汇总展示。统计实验e1、e2的准确率、召回率和二者的调和均值f1,结果如表5、6、7所示,f1的对比折线图如图3所示:
[0090]
表5:e1和e2的准确率对比表
[0091]
分组c1/c1

c2/c2

c3/c3

c4/c4

c5/c5

c6/c6

平均值fmm(e1)84%83.333%81.395%84%80.488%83.720%82.823%fmm(e2)88.372%82.5%86.275%85.714%78.049%84.314%83.704%bmm(e1)86.275%86.047%83.720%82.353%82.927%80.952%83.712%bmm(e2)84.091%78.049%84.314%81.633%80.952%78.571%81.268%dsfmm(e1)88.235%88.372%79.545%86.275%83.721%86.364%85.419%dsfmm(e2)86.667%83.721%88.462%86.275%83.721%86.364%85.868%dsbmm(e1)88.235%86.364%79.545%84.615%84.091%88.889%85.290%dsbmm(e2)88.889%81.818%88.235%86.538%86.047%86.792%86.387%simm(e1)85.455%87.037%92%86.885%91.489%85.714%88.097%simm(e2)86.275%88.679%85.714%86.441%91.489%87.272%87.645%
[0092]
表6:e1和e2的召回率对比表
[0093][0094][0095]
表7:e1和e2的f1对比表
[0096]
分组c1/c1

c2/c2

c3/c3

c4/c4

c5/c5

c6/c6

平均值fmm(e1)83.858%83.820%82.373%84.683%81.858%83.535%83.355%fmm(e2)87.309%83.032%85.777%84.806%80.003%84.316%84.207%bmm(e1)86.125%86.305%83.870%82.956%82.360%82.363%83.997%bmm(e2)84.003%78.939%84.322%81.885%80.602%78.870%81.437%dsfmm(e1)85.660%86.815%79.570%86.064%82.846%86.113%84.511%dsfmm(e2)86.164%84.233%88.162%86.281%84.088%86.280%85.868%dsbmm(e1)87.682%86.482%79.693%84.914%84.173%88.186%85.178%dsbmm(e2)88.561%82.085%88.140%86.618%86.157%86.924%86.414%simm(e1)85.402%87.154%90.418%86.494%89.833%86.124%87.571%simm(e2)86.319%87.850%86.188%86.855%90.134%87.751%87.516%
[0097]
将五种算法分为三类:第一类是传统的最大匹配算法(fmm算法和bmm算法);第二类是利用正向语义相似度词典,实现了后续词的自动识别的两种算法(dsfmm算法和dsbmm算法)。如果未识别成功,仍然进行最大匹配。所以第二类算法在一定程度上依然遵循最大匹配原则;第三类算法是simm算法,它将词频和语义加入到分词匹配算法中,形成了新的计算方法,是不完全的最大匹配分词方法。从折线图可知:
[0098]
横向来看,一类算法的斜率最大,三类算法的斜率最小。这说明一类算法受分词长短的影响更大。因为它依据的最大匹配原则容易造成词语粘连现象,切分结果往往是多个词的组合,如果实验样本的分词结果多为短词就会导致一类算法的准确率降低。
[0099]
纵向来看,一类算法的f1值最小,三类算法的f1值最大。二类算法f1值大于一类算法f1值,说明引入的正向语义相似度词典能对后续词进行正确有效地识别。三类算法f1值大于二类算法的f1值,说明使用语义和词频重新定义的切分原则提高了分词算法的准确
性。
[0100]
第三组试验e3中,从三类算法中各取一个进行实验,三种算法的时间性能对比表如表8所示:
[0101]
表8:三种算法处理100篇段落耗时对比表
[0102][0103]
从表中可以看出dsfmm算法比fmm算法的耗时更短,说明在传统最大匹配算法的基础上,引入正向语义相似度词典进行后续词识别能有效提升算法效率。本文提出的simm算法时间开销比传统算法略大,因为它需要对匹配到的每一个词进行计算,消耗大量时间。但同时采用后续词自动识别,节约了时间。使得simm算法在时间性能上与传统的最大匹配算法几乎相等。同样在可接受范围内。
[0104]
最后应说明的是:以上所述的各实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜