一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于点评文本的公园多尺度评价方法与流程

2022-02-20 23:24:05 来源:中国专利 TAG:


1.本发明涉及城市规划领域中的使用后评价问题,尤其是涉及一种基于点评文本的公园多 尺度评价方法。


背景技术:

2.基于网络文本的评价方法是近年来出现的使用后评价方法,而自然语言处理领域利用深 度学习技术取得的突破,如评论观点抽取、情感倾向分析等也融入到该方法中,推动着该方 法往前发展。另外,近年来随着互联网的快速发展,网民的大量增加,社交媒体数据,尤其 文本数据呈指数级增长,更是为该方法的发展提供了强有力的动力源泉。各行各业和各社交 媒体的文本评价数据的涌现,更加拓宽了该方法的应用场景。例如:新能源汽车用户评论研 究、网易云音乐评论分析、公共空间的使用后评价、餐饮行业吃客的评价反馈等。
3.和传统方法,如实地勘察、调查问卷等相比,基于网络文本的评价方法解决了传统方法 中样本数据量较少、人力成本和时间成本较高、数据来源单一等问题。但是当前基于网络文 本的评价方法还存在对文本数据挖掘不够深入的问题,对文本数据的利用还停留在评论数量、 词频、整体情感分析等较为粗浅的层面,无法对评论文本中涉及的各尺度评价进行准确划分 并加以分析。本专利对评论内容进行细致划分,并利用关键词检索法对语句进行分类,最后 进行情感打分和尺度重要程度评估,实现了对评论内容各尺度评价的深入挖掘。


技术实现要素:

4.本发明的目的是提供一种基于点评文本的公园多尺度评价方法,深入挖掘评论内容,多 尺度对公园进行评价分析。首先,对获取的评论数据进行内容划分,并结合关键词检索法对 划分的内容分类,然后利用百度情感倾向分析api分析不同尺度的语句并打分,最后根据公 园各尺度评价的平均分和总体评分,构建多变量线性回归模型,根据拟合模型各尺度权重评 估各尺度在总体评价中的重要程度。因为将评论内容切分成了不同尺度的语句分别进行分析, 并对各尺度的重要程度进行了评估,所以达到了深入挖掘文本信息,多尺度评价公园的目的。
5.为了方便说明,首先介绍数据组织结构和相关分析工具:
6.(1)数据组织结构说明
7.如图1,将数据划分为文档级、段落级、语句级和词语级,它们是从大到小的包含关系。
8.文档级:将获取的评论数据按公园分类,放到不同的文档中,将文档定义为,则各公园 文档组成所有研究数据。如公式(1)所示,d表示所有数据,fi(i=1,2,...,n)表示各公园数 据。
9.d={f1,f2,f3,

,fn}
ꢀꢀꢀ
(1)
10.段落级:公园文档由诸多用户评论组成,把每位用户的评论都看成段落,则所有的用户 评论,即段落,构成公园文档。如公式(2)所示,f表示公园数据,pi(i=1,2,...,n)表示各条 评论。
11.f={p1,p2,p3,

,pn}
ꢀꢀꢀ
(2)
12.语句级:段落由诸多语句组成,各语句代表了访客对公园各尺度的评价。如公式(3)所 示,p表示评论数据,si(i=1,2,...,n)表示各语句。
13.p={s1,s2,s3,

,sn}
ꢀꢀꢀ
(3)
14.词语级:语句由诸多词语组成。如公式(4)所示,s表示语句,wi(i=1,2,...,n)表示各词 语。
15.s={w1,w2,w3,

,wn}
ꢀꢀꢀ
(4)
16.(2)相关分析工具介绍
17.百度文本情感倾向分析api分析文本数据。通过程序调用该接口,向服务器发送请求分 析的文本,服务器将返回相应的文本情感倾向数据,返回的数据包括:情感倾向(积极、中 性、消极)、各情感倾向的置信度等数据,取其中的积极情感倾向置信度进行后续的计算。
18.中文分词工具jieba对文本数据进行精确模式分词。该分词工具具有精确模式、全模式和 搜索引擎模式三种分词模式,并且支持自定义词典。
19.本发明具体采用如下技术方案:
20.提出了一种基于点评文本的公园多尺度评价方法,该方法的主要特征在于:
21.a.通过关键词检索法对公园评价语句进行分类;
22.b.通过文本情感积极倾向置信度对公园评价语句进行打分;
23.c.通过多变量线性回归的方法评估各尺度评价在总体评价中的重要程度;
24.该方法主要包括以下步骤:
25.(1)以网络爬虫方式获取公园点评文本数据,并用正则表达式匹配的方式删除文本中 的网址、表情等无用信息;
26.(2)以逗号、句号、分号、问号等标点符号为间隔对评论内容分句,并按精确模式的原 则对语句分词;
27.(3)通过关键词检索法对语句进行尺度分类;
28.(4)对各尺度的语句进行情感倾向分析,获得积极倾向置信度;
29.(5)根据积极倾向置信度计算语句得分和各尺度平均分;
30.(6)利用步骤(4)和步骤(5)的方法,计算各条评论得分,进而计算公园总体得分;
31.(7)结合公园各尺度得分和总体得分,利用多变量线性回归的方法评估各尺度在总体 评价中的重要程度。
32.本发明的有益效果是:
33.(1)充分利用网络文本数据的数据量大和易于获得的优势,解决了实地勘测、问卷调查 等传统评价方法中存在的人工和时间成本较大且无法获得足够的样本数据的问题。
34.(2)通过程序获得数据、处理数据、统计数据、分析数据,极大地减小了人工的工作量 并提高了评价效率。
35.(3)将大段评论内容划分为不同尺度的小段语句,并分尺度进行分析,有效提取了
文本 中不同尺度的评价内容,达到了多尺度评价公园的效果。
36.(4)结合各尺度得分和总体得分,构建多变线性回归模型,得到各尺度得分和总体得分 的线性关系,从权重数据科学评估各尺度在总体评价中的重要程度。
附图说明
37.图1为数据组织结构示意图。
38.图2为关键词检索法说明图。
39.图3为各尺度权重占比示例图。
40.具体实施方法
41.下面结合附图及实施例对本发明作进一步的详细说明,有必要指出的是,以下的实施例 只用于对本发明做进一步的说明,不能理解为对本发明保护范围的限制,所属领域技术熟悉 人员根据上述发明内容,对本发明做出一些非本质的改进和调整进行具体实施,应仍属于本 发明的保护范围。
42.基于点评文本的公园多尺度评价方法,具体包括以下步骤:
43.(1)爬取并清洗数据:编写爬虫程序,在遵守robots协议的情况下,爬取网络文本数据; 删除数据中正则表达式匹配的网址、表情等内容,提高文本的纯净度和有效利用性。
44.(2)通过正则表达式匹配文本数据中的逗号、句号、分号、问号等标点符号,根据标点 符号将文本划分为短语句,并使用中文分词工具jieba对语句进行精确模式分词。
45.(3)通过关键词检索法对语句进行尺度分类。
46.关键词检索法首先要建立尺度词典。结合孟醒和赵晓铭建立的绿地系统评价指标和所有 公园评价数据的词频统计,将具有代表性的高频词划分为交通、美学、市场价值、维护和安 全、保护和继承五个尺度,形成一张由尺度和对应的高频词组成的尺度词表,如下表所示。
[0047][0048]
具体检索方法如图2,对输入的已分词的语句逐一检索每一个词,若词语存在于词典中, 则返回该词对应的尺度,并作为该语句的尺度。如果所有词语都不在词典中,则该语句不归 属于任何尺度。例如,输入语句“地铁/可以/直达”,其中“地铁”一词存在于词典中,
属于 交通尺度,则输出该语句的尺度为“交通”。
[0049]
(4)编程反复调用百度情感倾向分析api接口对各尺度的语句进行分析,逐句分析各尺 度语句,保存返回的积极情感倾向置信度。
[0050]
(5)根据点评评分一般为0~5分的习惯,将获得的语句积极倾向置信度(情感倾向为积 极的概率)乘以5作为该语句的评价打分。如公式(5)所示,p表示语句积极情感倾向置信 度,s表示语句得分。
[0051]
s=5
×
p
ꢀꢀꢀ
(5)
[0052]
将同一尺度的语句得分求均值,得到尺度平均分。如公式(6)所示,si(i=1,2,...,n)表示 各语句得分,m表示尺度平均分。
[0053][0054]
(6)利用步骤(4)和步骤(5)的方法,计算各条评论得分,进而计算公园总体得分。
[0055]
(7)结合公园各尺度平均分和总体得分,构建多变量线性回归模型,根据最终模型拟合 的各尺度权重来评估各尺度在总体评价中的重要程度。拟合结果如公式(7)所示, xi(i=1,2,3,4,5)表示各尺度平均分,wi(i=1,2,3,4,5)表示尺度对应的权重,y表示公园总体得 分。
[0056]
y=w1x1 w2x2
···
w5x5ꢀꢀꢀ
(7)
[0057]
如图3所示,从各尺度权重来看,访客关注度较高的是公园美学方面的内容,其次是交 通、保护和继承两个方面,较少关注维护和安全、市场价值两方面。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献