一种基于语法依赖图与词典扩展的中文情感极性检测方法与流程

2022-02-22 18:15:31 来源：中国专利 TAG：

1.本发明属于情感极性检测技术领域，具体设计的是一种基于语法依赖图与词典扩展的情感检测的改进方法，适用于中文文本情感极性的分析与检测。

背景技术：

2.文本情感极性分析是自然语言处理中的一项重要应用。随着互联网的飞速发展，社交网络已经成为人们生活中不可或缺的一部分，各个平台的日均用户集成文本信息数据量也不可小觑。面对庞大的文本数据集，仅仅依靠人工收集并进行分析会消耗大量的资源，从而造成资源的浪费，利用机器辅助对文本情感极性进行分析处理可以有效的解决上述问题。
3.目前，多数情感极性分析模型的建立都是基于语法信息与词典集。其中，基于语法信息的文本情感极性分析方法中多采用语法依赖关系提取文本主要语义信息，如利用n-gram语言模型以及语言特征进行短语间语法关系的提取，或者用树形结构来表示文本中各个词语间的依赖关系。通过提取语法关系来表示文本主要的语义信息可以有效的消除文本中非主要词汇对整体情感极性分析的干扰，但该类方法必须基于外部知识库才能进行有效分析。因此，词典覆盖范围与分析精度有直接关系。在词典基础上对文本进行情感分析的关键是将文本中单个词语作为情感极性分析的最小单位。由于多数词典所涵盖的词语数量有限且词义陈旧，难以满足社交网络上大多文本情感极性分析的需求，针对当前文本进行词典扩展的概念不断被提出，例如将hownet作为种子词典根据具体语料域扩展情感极性词汇。由于情感极性特征无法直接获取，词典在情感极性分析中无可替代，然而，词语的多义性所导致的极性模糊性对情感极性分析的准确度造成的影响无法忽略。一方面，相同词语在不同词典中的情感极性可能存在冲突；另一方面，相同词语在不同语境中情感极性可能不同甚至相反。
4.针对上述问题，本发明首先对种子词典进行处理，去除不同词典中存在情感冲突的词汇，再结合文本分析所得语法依赖树中的上下文关系，对于种子词典中已有词汇，根据当前上下文不断修正目前语料域内所有词汇的情感极性，并根据已知词汇的情感极性对新词汇的情感极性进行推测分析，进而消除情感极性模糊性所带来的问题。

技术实现要素：

5.本发明所要解决的技术问题是针对传统中文情感极性检测系统中情感极性冲突的问题，即相同词语在不同情境中情感极性不同的问题。由于中华文化博大精深，同一词语在不同的语义环境中所包含的情感极性可能完全相反，如果中文情感极性分析仅依靠词典，其灵活性低的缺点会引发语义歧义，导致文本情感分析精度的降低。为了得到更加准确的分析结果，提出一种基于语法依赖图与词典扩展的中文情感极性检测方法。
6.为实现上述目的，本发明采用以下技术方案：
7.一种基于语法依赖图与词典扩展的中文情感极性检测方法，包括以下步骤：
8.步骤1，输入待处理的语料库，对语料库中的文本进行预处理，对照所有种子词典将语料库中所有文本分词处理，进行词性标注以及去停用词工作，并添加否定标记，将具有否定意义的词汇否定标志置1；种子词典即为针对不同领域的词典，不同种子词典对同一个词语依据领域进行专业解释；
9.步骤2，对于步骤1得到的预处理之后的数据集中的文本视为词语序列，以词语为节点，依据词语间语法关系进行依赖关系分析，并根据依赖关系生成相应依赖图，依据所采用的种子词典对词语节点的情感极性强度值初始化处理；
10.步骤3，对所采用的多个种子词典中的每一个种子词典中的正向词汇列表即p_wl、负向词汇列表即n_wl进行交叉计算，去除其交集部分得到极性种子词汇表,包括正向种子词汇表即p_swl、负向种子词汇表即n_swl；
11.步骤4，根据步骤3中得出的极性种子词汇表，对步骤2所得出的依赖图中所有节点词汇进行分类并归纳进p_swl、n_swl,若节点词汇都不在p_swl、n_swl中，则单独归纳进未知词汇表unknown_list；
12.步骤5，对于步骤4中每一个节点词汇，基于步骤2所获得的依赖图中相邻节点的情感极性强度值进行情感极性强度值计算，可以得出部分未知词汇表中词汇的情感极性强度值，重复迭代直至未知词汇表中词汇清零；
13.步骤6，对步骤5中所有得出情感极性的词汇依据其情感极性强度值进行降序排列并重新分组，将否定标记为1的词汇的情感极性逆置后把所有词汇的否定标记置0；
14.步骤7，将步骤6中处理完毕的词汇记为词典扩展结果保存并反馈至步骤3的种子词典中，从中抽取目标语料域即待处理语料库内词语的情感极性信息，将其作为初始情感特征对称映射，构建一个完整的情感特征空间；
15.步骤8，采用词频对步骤7中所获得的情感特征空间进行特征枝剪，提取情感特征子集；
16.步骤9，根据步骤8中所提取的情感特征子集中的特征，通过关键情感特征将文本表示为n维0-1向量，再将n维向量依据“正向情感特征”与“负向情感特征”划分为两个子向量，最终对每个给定文本输出n 2维向量，其中n为情感特征总数，2为当前特征向量中“正向”与“负向”词语总数。
17.进一步地，步骤2中，根据词语间的语法关系，即词语共现关系，对所得语法依赖图的依赖关系进行限制缩减，以获得最终的语法依赖图，其中词语共现关系具体包括由连词连接的两个词语或在文本中常共同出现的词对以及形如“形容词/副词动词/习语”的任意修饰组合，记为a/d v/i。
18.进一步地，步骤3中，所述对所采用的多个种子词典中的每一个种子词典中的p_wl及 n_wl进行交叉计算并去除冲突部分，具体如下：
19.步骤31，设种子词典中每个情感极性词典包括正向词汇列表p_wl与负向词汇列表 n_wl，计算任意两个种子词典i和j的正向词列表对(p_wli,p_wlj)的交集，将所有正向词列表对的交集合并并记为p_wl*；同理，计算任意两个种子词典i和j的负向词列表对 (n_wli,n_wlj)的交集，并将计算得出的所有交集合并并记为n_wl*；
20.步骤32，根据公式(1)和公式(2)分别遍历计算不同p_wl*与n_wl*各自的交集，并进行删减，最终形成正向关键词列表p_kwl与负向关键词列表n_kwl，
[0021][0022][0023]
步骤33，根据公式(3)和(4)计算正负关键词表对(p_kwl，n_kwl)的交集，并将其分别从p_kwl与n_kwl中扣除，最终获的正向种子词汇列表p_swl与负向种子词汇列表n_swl，具体如下：
[0024]
p_swl＝p_kwl-(p_kwl∩n_kwl)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0025]
n_swl＝n_kwl-(p_kwl∩n_kwl)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0026]
进一步地，步骤5中，语法依赖图中每一个节点即词语w的情感极性可依据其邻居节点的情感极性推测得出，因此，记图中任一节点为w，记与词语w直接相连的正向邻居节点个数为n
w
、负向邻居节点个数为n
w-、未知邻居节点个数为n
w0
，则词语w的情感极性强度值由下式计算得出：
[0027][0028]
其中，公式(5)中base值取10，polarity_intensity(w)指每个词语的情感极性强度。
[0029]
进一步地，步骤5至步骤7所述通过当前语料库中每个词语的相邻节点获得该词语的上下文，并以此为依据对步骤3中的种子词典进行正向和负向情感两方面扩展并反馈，对种子词典不断积累更新。
[0030]
本发明的有益效果是：本发明针对传统中文情感极性检测方法的改进，基于语法依赖图与词典扩展的中文情感极性检测方法，能够更为准确的分析出中文文本的情感极性。本方法首先对目标文本进行预处理，进行语法依赖关系分析并生成相应的语法依赖图。在已有种子词典的基础上依据不同域内文本的语法关系依赖图对图中每个节点词语进行分类，并将其归属至不同词汇表，根据依赖图中每一个节点词语的上下文节点的情感极性计算得出该点情感极性，重复迭代计算出图中每一个词语的情感极性，依据新算出的情感极性对依赖图中所有节点词汇重新分类归纳，并将扩展结果保存至相应域下的种子词典中。相对于传统中文情感极性检测方法，本方法在词典的基础上对其进行“两方面”扩展，成功克服了词语的不可罗列性，结合每个词语给定的上下文，修正词典中已有词汇的情感极性，并推测新出现的词汇的情感极性，消除了对情感极性分析精确度的影响以及情感极性模糊所导致的语义歧义的问题，将词典结果保存至相应域内的种子词典，计算并消除其情感极性冲突，以保证不同情境下词语情感极性的单一性，避免了语义分析产生歧义的情况，大大提高了中文情感极性分析在不同的特定情境下所得结果的准确性与精确度。
附图说明
[0031]
图1是基于语法依赖图与词典扩展的中文情感极性检测方法的流程图；
[0032]
图2是基于语法依赖图与词典扩展的中文情感极性检测方法中去除种子词典间情感极性冲突的整体流程；
[0033]
图3是通过情感特征的对称映射构建完整情感特征空间的示例；
[0034]
图4是基于情感特征子集的0-1文本表示方法。
具体实施方式
[0035]
现在结合附图对本发明作进一步详细的说明。
[0036]
结合流程图及实施案例对本发明所述的基于语法依赖图与词典扩展的中文情感极性检测方法作进一步的详细描述。
[0037]
本实施案例采用语法依赖图与词典扩展对中文情感极性检测方法进行改进，进而提高中文情感极性分析的精确度。如图1所示，本方法包含如下步骤：
[0038]
步骤1，输入预先爬取的语料，对给定语料文本进行预处理，包括分词、词性标注、去停用词以及否定处理，在预处理过程中，仅保留目标文本中词性为形容词、副词、动词以及习语的词汇；当遇到否定词语时，展开否定范围直到下一个否定词语或连词时结束，并为否定范围内所有词语添加否定标记，表明该词语情感极性是否需要反转；若否定处理过程中词语所在否定范围有所重叠，重叠范围中词语的否定标记由(-1)
否定标志个数
决定。
[0039]
步骤2，将文本视为词语序列，以词语为节点，词语间语法关系为边构建语法依赖图；通过文本不同句子间的共有词汇将不同句子的语法依赖图连接形成更大一个较大的语法依赖图，进一步的，根据词语间重要的语法关系，即词语共现关系，对所得语法依赖图的依赖关系进行限制缩减，以获得最终的语法依赖图。其中词语共现关系具体包括由连词连接的两个词语或在文本中常共同出现的词对以及形如“形容词/副词动词/习语”的任意修饰组合(记为a/d v/i)。
[0040]
步骤3，对所采用的多个种子词典中的每一个种子词典中的正向词汇列表p_wl、负向词汇列表n_wl进行交叉计算，去除不同种子词典词语列表中情感极性存在冲突的部分，并得到正向种子词汇表p_swl与负向种子词汇表n_swl。
[0041]
步骤4，根据步骤3中得出的正向种子词汇表p_swl与负向种子词汇表n_swl，将步骤2中所获得的语法依赖图中的所有节点分类并归纳进正向种子词汇表p_swl、负向种子词汇表n_swl以及unknown_list未知词汇表。
[0042]
步骤5，步骤2中所获得的语法依赖图包含了给定了语料中任意词语间的关系，从而可以获得任意词语及其上下文。语法依赖图中每一个节点即词语w的情感极性可依据其邻居节点的情感极性推测得出，因此，记图中任一节点为w，记与w直接相连的正向邻居节点个数为n
w
、负向邻居节点个数为n
w-、未知邻居节点个数为n
w0
，则词语w的情感极性强度值由公式(1)计算得出。
[0043][0044]
其中，公式(1)中base值取10，polarity_intensity(w)指每个词语的情感极性强度。
[0045]
步骤6，将语法依赖图中由公式(1)计算得出的每一个节点的情感极性强度值按照极性强度降序排序，并依据排序结果将正向词汇表中含有负向极性强度值的节点重新归属至负向词汇表，将负向词汇表中含有正向极性强度值的节点调整至正向词汇表，并对未知词汇表中的节点依照其情感极性强度值的正负分别归属至正向词汇表以及负向词汇
表，不断重复步骤 5以及步骤6以调整节点归属关系，直至语法依赖图中所有节点归属关系不再发生任何变化；遍历语法依赖图中每个词语的否定标识，若标识为1，则将词语的情感极性反转。遍历结束后，将所有词语的否定标识全部置为0。
[0046]
步骤7，将由步骤5以及步骤6遍历计算得出的词典扩展结果反馈至步骤3中，并按照给定语料的语料域进行相应存储与更新。从扩展后的种子词典中，抽取对应目标语料域中词语的原始情感特征即词语的情感极性，并对其做“对称映射”。将所抽取的原始情感特征集合划分为正向列表positive list与负向列表negative list，并将两个列表中所有词汇的否定标识进行反转，得到
“‑
positive list”与
“‑
negative list”两个列表，最终由四个列表共同构成给定语料的完整情感特征空间。
[0047]
步骤8，根据给定语料计算其中关键词语的最小词频阈值，通过所得词频对步骤7中所得的完整情感特征空间进行剪枝，得到情感特征子集。
[0048]
步骤9，由步骤8所获得的情感特征子集，将语料域中每个文本表示为n维0-1情感特征向量。根据给定的文本i，遍历检查中每个特征或词语是否包含在其中，情感特征子集为由对称映射得到的新特征加上neg前缀，若包含，其所表示的n维向量中相应位置取1，否则取 0；由此得到文本i的n维0-1特征向量。对每个文本所得到的对应特征向量，根据其所包含的正向情感特征与负向情感特征，以子向量方式重新排列，得到相应的正向情感特征映射子向量与负向情感特征映射子向量，并引入“个数统计”特征，分别表示文本i中所包含的正向与负向词语数量。最终，输出由0-1组成的n 2维情感特征向量。其中n为情感特征子集中包含的特征总数，i为语料域中的第i个文本，2为表示“个数统计”特征中所包含的正向与负向词语数量维度。
[0049]
如图2所示，去除种子词典间情感极性冲突的整体流程如下：
[0050]
步骤31，设种子词典中每个情感极性词典由正向词汇列表p_wl与负向词汇列表n_wl 共同组成，计算任意两个种子词典i和j的正向词列表对(p_wli,p_wlj)的交集，将所有正向词列表对的交集合并并记为p_wl*；同理，计算任意两个种子词典i和j的负向词列表对(b_wli,n_wlj)的交集，并将计算得出的所有交集合并并记为n_wl*。
[0051]
步骤32，根据公式(2)和公式(3)分别遍历计算不同p_wl*与n_wl*各自的交集，并进行删减，最终形成正向关键词列表p_kwl与负向关键词列表n_kwl。
[0052][0053][0054]
步骤33，根据公式(4)和(5)计算正负关键词表对(p_kwl，n_kwl)的交集，并将其分别从p_kwl与n_kwl中扣除，最终获的正向种子词汇列表p_swl与负向种子词汇列表n_swl。
[0055]
p_swl＝p_kwl-(p_kwl∩n_kwl)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0056]
n_swl＝n_kwl-(p_kwl∩n_kwl)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0057]
如图3所示，word：单词；pos：词性；negation flag：否定标志；polarity：情感极性将从种子词典中抽取的原始特征集合划分为“正向列表”positive list与“负向列表
”ꢀ
negative list，将这两个列表中所有词汇的否定标识negation flag全部进行反转，即将否定标识由0
→
1，作用于整个原始情感特征集合上，例如，图3罗列的正向词汇“爱国”与负向词汇“差”，接着通过对称映射获得的四个列表，具体包括:“positive list"、“_positivelist"、“negative list"以及
“‑
negative list”,共同构成关于给定语料的“完整情感特征空间”，其中
“‑
positive list"与
“‑
negative list"所有词语的否定标识即negationflag均为1。
[0058]
如图4所示，给定语料会基于上述情感特征子集被表示为n维情感特征向量，此处n表示情感特征子集中包含的特征总数；步骤9会检查情感特征子集中的每个特征或词语，确定其是否包含在文本i中，若是，则相应特征位置取1，否则取0；特别的，否定前缀“neg
”ꢀ
表示由对称映射提供的“新词”，其否定标识为1；由此，可得文本i的n维0-1特征向量。
[0059][0060]
表1
[0061]
表1为最终输出的文本表示示例，如表1所示，每个文本对应的特征向量包含了“正向情感特征映射子向量”与“负向情感特征映射子向量”，“正向情感特征映射子向量”与“负向情感特征映射子向量”均由0/1组成。特别的，“正向情感特征映射子向量”长度即为情感特征子集中“正向词语”总数；同理，“负向情感特征映射子向量”长度即为情感特征子集中“负向词语”总数。此外，引入了新特征“个数统计”，该特征表示当前文本或特征向量中所包含的“正向”与“负向”词语数量。
[0062]
需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后
”ꢀ
等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
[0063]
以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，
凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：销量预测方法及其模型的获取方法、装置和电子设备与流程

一种基于语法依赖图与词典扩展的中文情感极性检测方法与流程

相关文献

最热文献