互联网短文本主题特征与情感倾向分析方法、系统及介质与流程

2021-10-24 04:25:00 来源：中国专利 TAG：互联网本主题数据处理短文介质

1.本发明涉及数据处理技术领域，特别涉及一种互联网短文本主题特征与情感倾向分析方法、系统及介质。

背景技术：

2.现在评价情感分析主要使用snownlp词库，通过反复迭代分词词典和情感词典，分词结果比对snownlp词库的下正面和负面情感词典库，得到一个情感词列表，统计正负面情感词出现次数评价情感倾向。但是，现有的情感倾向分析方法忽略重点关注的特征维度情感分析和以及互联网评价中常见的评分要素。

技术实现要素：

3.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种互联网短文本主题特征与情感倾向分析方法，能够精准分析互联网评价主题和行业口碑水平。
4.本发明还提出一种互联网短文本主题特征与情感倾向分析系统。
5.本发明还提出一种实施上述互联网短文本主题特征与情感倾向分析方法的计算机可读存储介质。
6.根据本发明的第一方面实施例的互联网短文本主题特征与情感倾向分析方法，包括以下步骤：s100、通过python网络爬虫采集互联网ota资源对象及其评价信息，录入数据库并将不同平台的资源对象归一化；s200、将ota评价信息进行分词，并根据分词结果的相似度进行聚类，得到各分类的特征词，并根据各分类的特征词得到主题特征；s300、提取聚类分析主题特征维度下的分词中的高频词，基于knn计算高频词的情感倾向及特征倾向，归类出特征词库及情感词库；将所述特征词库记为领域关键词库，以及根据特征相似度筛选出特征领域停用词词库；基于词汇间相似度建立同义词林；s400、输入一个完整的ota评价信息，将评价信息拆分为短句，过滤掉不包含领域特征关词的短句，对包含领域关键词的短句进行分词、同义词林处理及停用词处理；s500、通过词汇相似度和所述情感词库得到情感词向量，并计算得到句子的情感向量，然后通过支持向量机计算情感倾向；s600、通过词汇相似度和所述特征词库得到分词的特征倾向，并通过统计确定短句的特征主题；s700、输出该评价信息的特征主题和综合情感倾向。
7.根据本发明实施例的互联网短文本主题特征与情感倾向分析方法，至少具有如下有益效果：本发明实施例的方法不仅通过正负面情感词评价情感倾向，还考虑了评价信息的特征主题，能够识别互联网评价主题及量化主题特征情感，深度精准挖掘用户评价的想法，分析行业发展口碑，为行业发展科学决策提供数据支撑。
8.根据本发明的一些实施例，所述步骤s100包括：将各个平台的对象根据名称相似度、地址相似度和具体坐标相关联匹配。
9.根据本发明的一些实施例，所述步骤s200包括：将ota评价信息分别通过jieba分
词进行分词，并按句关联保存到关联分词库，并将两两关联的分词作为新词保存入关联分词库；将分词结果以句子为单位，分词间空格间隔录入word2vec模型训练，得到已训练的词语相似度比较模型；将分词结果通过word2vec对比相似度，根据词语相似度置入k
‑
means模型进行归类，并从分类结果中提取出该类的特征词，结合行业标准得到最终的主题特征。
10.根据本发明的一些实施例，所述步骤s300包括：提取各主题特征维度下的分词中的高频词，并将情感倾向分为多个级别，然后基于knn计算高频词的情感/特征倾向，归类出特征词库及情感词库，knn训练出的各个特征词库作为领域关键词库，并用word2vec模型训练形成分词相似度模型向量，将第一相似跟第二相似的特征相似度差距不超过阈值的词设为特征领域停用词词库；基于已训练的word2vec计算词汇间的相似度，相似度超过设定阈值的词认为是同义词，建立同义词林。
11.根据本发明的一些实施例，所述步骤s500包括：使用word2vec得到分词的最近邻词语的相似度数组，将各最近邻词数组跟多个级别的情感词库比对，若有完全一致或相似度超过设定阈值的词，则认为该分词的情感级别为该情感词库对应的情感级别，并通过最近邻词语得到情感词向量。
12.根据本发明的一些实施例，所述步骤s500包括：若最近邻词语中有特征关键词或其同义词林的词，所述情感词向量的值翻倍。
13.根据本发明的一些实施例，所述计算得到句子的情感向量包括：将各分词情感向量线性相加得到句子的情感向量。
14.根据本发明的一些实施例，所述步骤s600包括：将各分词在特征词库的所有词中通过word2vec进行最近邻匹配(knn)，设定一个阈值，若超过阈值的词数量不超过k，则忽略该词，最终通过该词属于最近邻词最多的那一类特征；统计短句中各特征的分词数，数量最多的特征为该短句的特征主题。
15.根据本发明的一些实施例，所述方法还包括：评定情感倾向时，结合程度词量化短句情感分，加入用户评价原始分，分别设0.5权重，计算出情感综合分数。
16.根据本发明的第二方面实施例的互联网短文本主题特征与情感倾向分析系统，用于实现如本发明第一方面实施例中任一项所述的方法，包括：信息采集模块，用于通过python网络爬虫采集互联网ota资源对象及其评价信息；主题特征模块，用于通过将ota评价信息进行分词，并根据分词结果的相似度进行聚类，得到各分类的特征词，并根据各分类的特征词得到主题特征；词库建立模块，用于提取聚类分析主题特征维度下的分词中的高频词，基于knn计算高频词的情感倾向及特征倾向，归类出特征词库及情感词库；将所述特征词库记为领域关键词库，以及根据特征相似度筛选出特征领域停用词词库；基于词汇间相似度建立同义词林；信息输入模块，用于输入一个完整的ota评价信息，将评价信息拆分为短句，过滤掉不包含领域特征关词的短句，对包含领域关键词的短句进行分词、同义词林处理及停用词处理；情感倾向模块，用于通过词汇相似度和所述情感词库得到情感词向量，并计算得到句子的情感向量，然后通过支持向量机计算情感倾向；特征主题模块，用于通过词汇相似度和所述特征词库得到分词的特征倾向，并通过统计确定短句的特征主题；输出模块，用于输出评价信息的特征主题和综合情感倾向。
17.根据本发明实施例的互联网短文本主题特征与情感倾向分析系统，至少具有如下有益效果：本发明实施例的系统不仅通过正负面情感词评价情感倾向，还考虑了评价信息
的特征主题，能够识别互联网评价主题及量化主题特征情感，深度精准挖掘用户评价的想法，分析行业发展口碑，为行业发展科学决策提供数据支撑。
18.根据本发明的第三方面实施例的计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明第一方法实施例中任一项的方法。
19.由于本发明实施例的计算机可读存储介质上存储有用于执行如本发明第一方面中任一项所述的互联网短文本主题特征与情感倾向分析方法的计算机可执行指令，因此具有本发明第一方面的所有有益效果。
20.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
21.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
22.图1为本发明实施例的方法的流程示意图。
23.图2为本发明实施例的系统的模块示意框图。
具体实施方式
24.下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
25.在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个及两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
26.参照图1，本发明提出一种互联网短文本主题特征与情感倾向分析方法，主要包括以下步骤：
27.(1)通过python网络爬虫采集互联网ota景点/酒店资源对象及相关评价信息录入数据库。随后将各个平台的对象根据名称、地址相似度和具体坐标相关联匹配，把不同平台的资源对象尽可能的归一化。
28.例如：“广州长隆游乐园”在ota上会出现“广州长隆游乐园”、“广州长隆游乐园碰碰车项目”、“广州长隆游乐园十环过山车项目”等，名称、地址、简介、坐标很相似，归并成同一个资源“广州长隆游乐园”；
29.(2)将景区/酒店的ota评论分别通过jieba分词进行分词，并按句关联保存入库，将两两相邻的分词也作为新词保存入库；
30.例如：“服务真的很好”，以词语“服务”、“真的”、“很好”、“服务真的”、“真的很好”入分词库，以“服务真的很好”作为关联分词入关联分词库；
31.(3)将分词结果通过word2vec训练形成各分词相似度计算模型；将分词结果以句子为单位，分词间空格间隔(如"我觉得很好吃"为一个句子)录入word2vec模型训练，通过数十万句子的训练，word2vec能形成良好的词语相似度比较模型；
32.(4)将景区/酒店的ota分词结果通过word2vec对比相似度，根据词语相似度置入k
‑
means模型分别归为8/6类，人工从分类结果中提取出最适合形容该类的特征词，结合行业标准得出最终的主题特征(最终特征为：景区：信息化、项目、设施、景观、交通、价格、服务、导游，酒店：交通、位置、设施、价格、环境、服务)；
33.(5)提取聚类分析主题特征维度下的分词、词频前5000的高频词。将情感倾向分为极度正面、正面、负面、极度负面四个级别，特征分类按照上述分类。基于knn计算高频词的情感/特征倾向(情感词四个级别分别选取非常好、好、差、非常差作为首次匹配的中心词)，归类出特征词库及情感词库，knn训练出的各个特征领域的词库作为领域关键词库，并用word2vec模型训练形成分词相似度模型向量，将第一相似跟第二相似的特征相似度差距不超过15％的词设为特征领域停用词词库。
34.例如：“不错”跟“服务”最相似0.4，跟“环境”第二相似0.36，差距不超过15％，则将“不错”设为特征领域停用词；
35.(6)使用训练完毕的word2vec来判断词汇间的相似度，相似度超过70％的词认为是同义词，建立同义词林；
36.(7)对包含关键词的短句进行分词，同义词林处理，停用词处理；
37.(8)判断一个词的倾向时，使用word2vec得到该词的最近邻词语的相似度数组，将各最近邻词数组跟四个情感级别词库比对，若在词库中或词库中有相似度超过70％的词则认为该词属于该情感等级，最终通过最近邻词得到情感词向量，若其中有特征关键词或其同义词林的词，该向量值翻倍。句子的情感向量直接将各分词情感向量线性相加，最终情感向量通过支持向量机计算其情感倾向。词向量能更多维的解释词语，将特征关键词权重加倍可以让特征倾向更具辨别性；
38.例如：评论内容“服务员的态度非常好，就是有点偏僻”，分词后为“服务/态度/非常好/就是/有点/偏僻”。“服务”最近邻词为：[服侍、接待......]，转为词情感向量为：[极度正面：0，正面：2，负面：1，极度负面：0]，同理，“态度”情感向量为：[极度正面：0，正面：2，负面：1，极度负面：0]，“非常好”情感向量为：[极度正面：2，正面：2，负面：0，极度负面：0]，“就是”：[极度正面：0，正面：0，负面：0，极度负面：0]，“有点”：[极度正面：0，正面：0，负面：0，极度负面：0]，“偏僻”：[极度正面：0，正面：0，负面：3，极度负面：0]，整句情感向量为：[极度正面：2，正面：6，负面：5，极度负面：0]，经过支持向量机，得到情感倾向为好评；
[0039]
(9)判别短句的特征主题，同理，将各分词进行最近邻匹配，找到最近邻词数组，然后将各最近邻词通过word2vec比对各特征词库，若有完全一致或相似度超过70％的词，则认为属于该词库，否则，认为该分词没有特征倾向。统计短句中各特征的分词数，数量最多的特征为该短句的特征主题；
[0040]
例如：评论内容“服务员的态度非常好，就是有点偏僻”，分词后为“服务/态度/非常好/就是/有点/偏僻”。特征倾向举例：“服务员的态度非常好
”‑
>“服务/的/态度/非常好”，“服务”包含在“服务”特征词中，特征为“服务”，“态度”包含在“服务”特征词中，特征为“服务”，“非常好”最近邻词为[很好、很棒...]跟各特征词库比对相似度都不足70％，无特征。因此，最终“服务”分词最多，为2个，认为短句属于“服务”特征。“就是有点偏僻
”‑
>“就是/有点/偏僻”，就是“最近邻词”为[也是、就等于...]跟各特征词库比对相似度都不足70％，无特征，同理“有点”无特征，“偏僻”属于“位置”，最终“位置”分词最多，为1个，认为短
句属于“位置”。最终评论内容为[服务：1，位置：1]，而服务的评论短句字数较多，认为该评论属于“服务”特征。
[0041]
(10)最终形成的分析模型，输入一个完整ota评价后，模型自动为其定位最相似特征主题并给出评价的综合情感倾向(好/中/差评)。
[0042]
例如：评论内容“服务员的态度非常好，就是有点偏僻”，最终模型输出结果为，评论特征“服务”，评论情感好评。
[0043]
与前述实施例相对应，本发明还提供了系统的实施例。对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。
[0044]
参照图2，本发明实施例的系统包括：信息采集模块，用于通过python网络爬虫采集互联网ota资源对象及其评价信息；主题特征模块，用于通过将ota评价信息进行分词，并根据分词结果的相似度进行聚类，得到各分类的特征词，并根据各分类的特征词得到主题特征；词库建立模块，用于提取聚类分析主题特征维度下的分词中的高频词，基于knn计算高频词的情感倾向及特征倾向，归类出特征词库及情感词库；将特征词库记为领域关键词库，以及根据特征相似度筛选出特征领域停用词词库；基于词汇间相似度建立同义词林；信息输入模块，用于输入一个完整的ota评价信息，将评价信息拆分为短句，过滤掉不包含领域特征关词的短句，对包含领域关键词的短句进行分词、同义词林处理及停用词处理；情感倾向模块，用于通过词汇相似度和情感词库得到情感词向量，并计算得到句子的情感向量，然后通过支持向量机计算情感倾向；特征主题模块，用于通过词汇相似度和特征词库得到分词的特征倾向，并通过统计确定短句的特征主题；输出模块，用于输出评价信息的特征主题和综合情感倾向。
[0045]
尽管本文描述了具体实施方案，但是本领域中的普通技术人员将认识到，许多其它修改或另选的实施方案同样处于本公开的范围内。例如，结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外，虽然已根据本公开的实施方案描述了各种例示性具体实施和架构，但是本领域中的普通技术人员将认识到，对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。
[0046]
上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解，框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样，根据一些实施方案，框图和流程图中的一些块可能无需按示出的顺序执行，或者可以无需全部执行。另外，超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。
[0047]
因此，框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解，框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。
[0048]
本文所述的程序模块、应用程序等可包括一个或多个软件组件，包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令，所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如，本文所述的例示性方法的一种或多种操作)被执行。
[0049]
软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言，诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言，其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中，包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行，而无需首先转换成另一种形式。
[0050]
软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如，预设的或固定的)或动态的(例如，在执行时创建或修改的)。
[0051]
上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种面向实时流数据预测性分析的降载方法及系统与流程

互联网短文本主题特征与情感倾向分析方法、系统及介质与流程

相关文献

最热文献