一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

互联网短文本主题特征与情感倾向分析方法、系统及介质与流程

2021-10-24 04:25:00 来源:中国专利 TAG:互联网 本主题 数据处理 短文 介质

技术特征:
1.一种互联网短文本主题特征与情感倾向分析方法,其特征在于,包括以下步骤:s100、通过python网络爬虫采集互联网ota资源对象及其评价信息,录入数据库并将不同平台的资源对象归一化;s200、将ota评价信息进行分词,并根据分词结果的相似度进行聚类,得到各分类的特征词,并根据各分类的特征词得到主题特征;s300、提取聚类分析主题特征维度下的分词中的高频词,基于knn计算高频词的情感倾向及特征倾向,归类出特征词库及情感词库;将所述特征词库记为领域关键词库,以及根据特征相似度筛选出特征领域停用词词库;基于词汇间相似度建立同义词林;s400、输入一个完整的ota评价信息,将评价信息拆分为短句,过滤掉不包含领域特征关词的短句,对包含领域关键词的短句进行分词、同义词林处理及停用词处理;s500、通过词汇相似度和所述情感词库得到情感词向量,并计算得到句子的情感向量,然后通过支持向量机计算情感倾向;s600、通过词汇相似度和所述特征词库得到分词的特征倾向,并通过统计确定短句的特征主题;s700、输出该评价信息的特征主题和综合情感倾向。2.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s100包括:将各个平台的对象根据名称相似度、地址相似度和具体坐标相关联匹配。3.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s200包括:将ota评价信息分别通过jieba分词进行分词,并按句关联保存到关联分词库,并将两两关联的分词作为新词保存入关联分词库;将分词结果以句子为单位,分词间空格间隔录入word2vec模型训练,得到已训练的词语相似度比较模型;将分词结果通过word2vec对比相似度,根据词语相似度置入k

means模型进行归类,并从分类结果中提取出该类的特征词,结合行业标准得到最终的主题特征。4.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s300包括:提取各主题特征维度下的分词中的高频词,并将情感倾向分为多个级别,然后基于knn计算高频词的情感/特征倾向,归类出特征词库及情感词库,knn训练出的各个特征词库作为领域关键词库,并用word2vec模型训练形成分词相似度模型向量,将第一相似跟第二相似的特征相似度差距不超过阈值的词设为特征领域停用词词库;基于已训练的word2vec计算词汇间的相似度,相似度超过设定阈值的词认为是同义词,建立同义词林。5.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s500包括:使用word2vec得到分词的最近邻词语的相似度数组,将各最近邻词数组跟多个级别的情感词库比对,若有完全一致或相似度超过设定阈值的词,则认为该分词的情感级别为该情感词库对应的情感级别,并通过最近邻词语得到情感词向量。6.根据权利要求5所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s500包括:若最近邻词语中有特征关键词或其同义词林的词,所述情感词向量的值
翻倍。7.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述计算得到句子的情感向量包括:将各分词情感向量线性相加得到句子的情感向量。8.根据权利要求1所述的互联网短文本主题特征与情感倾向分析方法,其特征在于,所述步骤s600包括:将各分词在特征词库的所有词中通过word2vec进行最近邻匹配,设定一个阈值,若超过阈值的词数量不超过k,则忽略该词,最终通过该词属于最近邻词最多的那一类特征;统计短句中各特征的分词数,数量最多的特征为该短句的特征主题。9.一种互联网短文本主题特征与情感倾向分析系统,用于实现如权利要求1至8中任一项所述的方法,其特征在于,包括:信息采集模块,用于通过python网络爬虫采集互联网ota资源对象及其评价信息;主题特征模块,用于通过将ota评价信息进行分词,并根据分词结果的相似度进行聚类,得到各分类的特征词,并根据各分类的特征词得到主题特征;词库建立模块,用于提取聚类分析主题特征维度下的分词中的高频词,基于knn计算高频词的情感倾向及特征倾向,归类出特征词库及情感词库;将所述特征词库记为领域关键词库,以及根据特征相似度筛选出特征领域停用词词库;基于词汇间相似度建立同义词林;信息输入模块,用于输入一个完整的ota评价信息,将评价信息拆分为短句,过滤掉不包含领域特征关词的短句,对包含领域关键词的短句进行分词、同义词林处理及停用词处理;情感倾向模块,用于通过词汇相似度和所述情感词库得到情感词向量,并计算得到句子的情感向量,然后通过支持向量机计算情感倾向;特征主题模块,用于通过词汇相似度和所述特征词库得到分词的特征倾向,并通过统计确定短句的特征主题;输出模块,用于输出评价信息的特征主题和综合情感倾向。10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8中任一项的方法。

技术总结
本发明公开了互联网短文本主题特征与情感倾向分析方法、系统及介质,其中方法包括:采集互联网OTA资源对象及其评价信息;将OTA评价信息进行分词并聚类,得到主题特征;提取聚类分析主题特征维度下的分词中的高频词,计算其情感倾向及特征倾向,归类出特征词库及情感词库;以及筛选出特征领域停用词词库;建立同义词林;将评价信息拆分为短句,进行分词、同义词林处理及停用词处理;计算句子的情感向量,通过支持向量机计算情感倾向;确定分词的特征倾向,并确定短句的特征主题;输出该评价信息的特征主题和综合情感倾向。本发明能够精准分析互联网评价主题和行业口碑水平。互联网评价主题和行业口碑水平。互联网评价主题和行业口碑水平。


技术研发人员:郭浩哲 蒙圣光 廖玉敏
受保护的技术使用者:广东东华发思特软件有限公司
技术研发日:2021.06.07
技术公布日:2021/10/23
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜