一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于景区评价的满意度提升系统和方法与流程

2021-12-14 22:59:00 来源:中国专利 TAG:


1.本发明涉及旅游大数据技术领域,具体涉及一种基于景区评价的满意度提升系统和方法。


背景技术:

2.对于景区满意度的调查最常见的方式就是问卷调查方法,而在线上旅游平台评价景区时,往往只有一个总体评分,很少会有对景区全方面、全维度的评价。
3.从景区管理者的角度来看,景区的总体评价比较轻易的获取,但无法明确了解游客实际的抱怨点,但该方法费时费力且准确度难以把握,无法精准定位问题所在,不利于总结经验,改善景区管理。


技术实现要素:

4.针对现有技术的不足,本发明公开了一种基于景区评价的满意度提升系统和方法,用于解决动态监控景区满意度的变化趋势无法确定的问题,并基于改善因子帮助旅游管理部门、景区管理人员提升管理水平。
5.本发明通过以下技术方案予以实现:
6.第一方面,本发明提供了一种基于景区评价的满意度提升方法,包括以下步骤:
7.s1选择待评价景区,并通过爬虫获取游客在ota网站对该景区发布的评论数据信息;
8.s2对获取的评论数据信息进行数据清洗,根据数据清洗规则筛除无效和冗余的数据;
9.s3通过文本情感分析对评论数据信息中蕴含的情感总值进行量化,并通过句子求和计算景区该条评论的文本情感值;
10.s4最终通过主题聚类分析正负向评论的主题,研究景区评价中对景区满意或者不满意的主要原因,并以此为改进提升满意度。
11.更进一步的,所述方法中,对数据清洗时规则包括:去除重复数据,去除缺失无效数据,短句删除,英文、数字、字符的删除,去除停用词及中文分词。
12.更进一步的,所述重复数据包括容重复数据和系统默认评论数据;
13.所述无效数据包括内容缺失数据,数据集中多次出现空白评论,空值数据以及html超文本标签数据;
14.所述短句删除是删除与评论内容较短的数据;
15.所述中文分词是将数据切分处理转变成结构化数据。
16.更进一步的,所述方法中,通过文本情感分析进行情感值计算时,步骤如下:
17.t1对评论数据信息进行句子切分得到子句;
18.t2对切分后的子句进行分词处理和停用词处理;
19.t3对情感词进行定位和赋值;
20.t4对子句进行加权调整;
21.t5对子句进行求和得到文本情感值。
22.更进一步的,所述步骤t2中,利用jieba分词对每个子句进行中文分词以及去除停用词,先对子句进行分词且分处理,然后进行停用词处理,将分词文本与本文构造的停用词词典进行匹配,删除匹配成功的停用词,未匹配成功的则保留。
23.更进一步的,所述步骤t5中,对子句进行求和时,假设一条景区在线评论文本被划分为n个子句,每个子句的情感值分别为senti1,senti2,....senti
n
,那么整条景区在线评论的情感倾向值为:
[0024][0025]
更进一步的,所述方法中,所述主题聚类在整体体验、景区基础条件、景区旅游消费、景区旅游资源和景区便利程度方面利用主题聚类方法分析正负向评论的主题。
[0026]
更进一步的,所述主题聚类,使用lda主题聚类模型,其为三层贝叶斯模型,通过对文本数据通过训练优化,计算将文档归为一个主题的可能性,以及将一个主题归为一个词语的可能性,最终形成文档

主题

词语的三层贝叶斯模型;其中
[0027]
p(词语|文档)=p(主题|文档)
×
p(词语|主题)
[0028]
应用lda主题聚类模型时,设定三个参数:主题数量,超参数α和β,主题数量需要根据文本实际情况进行设定,对于超参数α和β,α越大,整个文档越接近一个主题,β越大,每个主题下的特殊词汇的重要性越大。
[0029]
第二方面,本发明公开了一种基于景区评价的满意度提升系统,所述系统用于实现第一方面所述的基于景区评价的满意度提升方法,其特征在于,包括
[0030]
源数据获取模块,用于获取游客发布ota网站公开数据的评论数据信息;
[0031]
数据清洗模块,用于根据数据清洗规则筛除无效和冗余的数据;
[0032]
文本情感分析模块,用于分析得到文本情感值;
[0033]
主题聚类模块,用于研究景区评价中对景区满意或者不满意的主要原因。
[0034]
更进一步的,所述文本情感分析包括:
[0035]
文本情感分析部分,通过评论中的标点符号对句子进行切分,对整条文本评论进行句子分割形成子句;
[0036]
分句分词切分及去除停用词部分,利用jieba分词对每个子句进行分词切分,再利用文本中构造的停用词词表删除每个分句中存在的停用词;
[0037]
定位情感词以及情感赋值部分,将每个子句中的所有情感词与构造的情感词典进行匹配,对匹配成功的情词进行情感赋值;
[0038]
加权求和部分,将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配,并赋予相应其权重,最终计算整个子句的情感倾向值;
[0039]
计算整条文本的情感倾向值部分,将整句单条文本中所有子句的倾向值求和,最终得到整条文本情感倾向值。
[0040]
本发明的有益效果为:
[0041]
本发明通过建立各维度下的景区满意度关键特征,在各评论的情感层面进行赋值,再与景区的游客评价文字进行关联匹配,得到不同维度下的游客评价倾向,用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况,帮助旅游管理部门、景区管理人员实现游客评论的多维度分析,能够有针对性的对景区进行分析,助力提升管理水平。
附图说明
[0042]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]
图1是一种基于景区评价的满意度提升方法的流程图;
[0044]
图2是本发明实施例文本情感分析模块的流程图;
[0045]
图3是本发明实施例lda主题分析流程图。
具体实施方式
[0046]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
实施例1
[0048]
本实施例公开一种基于景区评价的满意度提升方法,包括以下步骤:
[0049]
1、源数据获取,选择待评价景区,通过爬虫获取游客发布ota网站公开数据的评论数据信息;
[0050]
2、数据清洗,对采集到的数据信息进行简单的筛选,筛除一些无用垃圾数据信息;
[0051]
3、文本情感分析,利用文本情感分析的方法对评论中蕴含的情感总值分析并量化,通过句子求和计算景区该条评论的文本情感值;
[0052]
4、主题聚类,在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度五个方面利用主题聚类方法分析正负向评论的主题,研究景区评价中对景区满意或者不满意的主要原因。
[0053]
本实施例通过获取ota平台的评论,计算每个景区评论文本的情感总值,判断评论文本的情感倾向,包括正向、负向及中性,其次利用lda主题聚类方法分析正负向评论的主题,结合时间变量,挖掘游客满意度的影响因素以及游客关注焦点变。
[0054]
实施例2
[0055]
本实施例以海南蜈支洲岛为例,因此选择爬取携程平台的景点评论,选取2015年至2020年数据集中携程网关于蜈支洲景区的在线评论共28000条,每条评论并不是只讨论景区的一个方面,往往包含景区的多个特征,因此并不能简单的对一整条评论进行主题提取和情感分析,需要对单条评论先进行切割划分后再进行后续的分析。
[0056]
本实施例进行数据清洗时,包括以下步骤:
[0091]
2016年高频关键词为“排队”、“接送”,“不值”,“人多”,“花钱”[0092]
2017年高频关键词为“门票”、“排队”,“人多”,“挺贵”,“强制”[0093]
2018年高频关键词为“服务态度”、“不值”,“太贵”,“消费”,“海鲜”[0094]
2019年高频关键词为“物价”、“排队”,“遗憾”,“失望”,“太坑”[0095]
2020年高频关键词为“排队”、“服务”,“太贵”,“商业化”,“消费”。
[0096]
实施例3
[0097]
本实施例公开一种基于景区评价的满意度提升系统,包括
[0098]
源数据获取模块,用于获取游客发布ota网站公开数据的评论数据信息;
[0099]
数据清洗模块,用于根据数据清洗规则筛除无效和冗余的数据;
[0100]
文本情感分析模块,用于分析得到文本情感值;
[0101]
主题聚类模块,用于研究景区评价中对景区满意或者不满意的主要原因。
[0102]
本实施例通过情感分析景区网上评论的情感倾向,得到了游客在不同维度的游客评价倾向和满意度分析,经过主题聚类,聚焦游客最满意和最不满意的焦点。
[0103]
实施例4
[0104]
本实施例公开文本情感分析模块,参阅图2所示,其计算情感倾向值时包括以下步骤:
[0105]
1、文本情感分析,通过评论中的标点符号对句子进行切分,对整条文本评论进行句子分割形成子句。
[0106]
2、分句分词切分及去除停用词,利用jieba分词对每个子句进行分词切分,再利用文本中构造的停用词词表删除每个分句中存在的停用词。
[0107]
3、定位情感词以及情感赋值。通过步骤2中的分词切分以及去除停用词后,将每个子句中的所有情感词与构造的情感词典进行匹配,对匹配成功的情词进行情感赋值。
[0108]
4、加权求和,将子句中情感词前的程度副词以及否定词与本文中构造的情感词典中的程度副词词典以及否定副词词典相匹配,并赋予相应其权重,最终计算整个子句的情感倾向值。
[0109]
5、计算整条文本的情感倾向值。将整句单条文本中所有子句的倾向值求和,最终得到整条文本情感倾向值。
[0110]
本实施例至此就计算出了整条文本的情感倾向值,根据文本情感值赋予文本不同的情感态度,即情感倾向值为正,则评论为正面评论;情感倾向值为负判定为负面评论,而情感值为零的判定为中性评论。
[0111]
实施例5
[0112]
本实施例公开一种lda主题聚类模型,可以看成一个三层贝叶斯模型,参照图3所示,通过对文本数据通过训练优化,计算将文档归为一个主题的可能性,以及将一个主题归为一个词语的可能性,最终形成文档

主题

词语的三层贝叶斯模型。
[0113]
p(词语|文档)p(主题|文档)p(词语|主题)
[0114]
本实施例应用lda过程中需要设定三个参数:主题数量,超参数和,主题数量需要根据文本实际情况进行设定,超参数和一般设定为0.01,也可以自行设定,越大,整个文档越接近一个主题,越大,每个主题下的特殊词汇的重要性越大。
[0115]
主题分别为整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程
度,根据每个主题下出现的特色高频词,从正面评论的主题聚类中可以看出游客对景区满意的关键特征,从负面评论的主题聚类中可以看出游客对景区不满意的关键特征。
[0116]
综上,本发明通过建立各维度下的景区满意度关键特征,在各评论的情感层面进行赋值,再与景区的游客评价文字进行关联匹配,得到不同维度下的游客评价倾向,用以衡量景区在整体体验、景区基础条件、景区旅游消费、景区旅游资源、景区便利程度等特定维度的满意度情况,帮助旅游管理部门、景区管理人员实现游客评论的多维度分析,能够有针对性的对景区进行分析,助力提升管理水平。
[0117]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献