一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于TF-IDF算法与POI密度的城市功能区综合识别方法

2023-02-06 10:48:17 来源:中国专利 TAG:

基于tf-idf算法与poi密度的城市功能区综合识别方法
技术领域
1.本发明属于城市规划领域,具体涉及一种城市功能区类型综合识别方法。


背景技术:

2.城市功能区的识别分类是对城市进行科学规划的前提。通过城市功能区的精确合理识别,可以掌握城市功能分布的现状,了解城市内部结构,有助于城市空间结构的优化、资源的合理利用以及功能区的科学划分。早期城市功能区研究的方法主要包括模糊聚类法、专家打分法、主成分分析法,研究区域相对宏观,且用地功能依赖规划从业者和专家经验,识别结果较为主观。近年来,随着城市空间大数据的发展,越来越多的学者利用poi数据(point of interest,兴趣点)对城市功能区识别划分进行定量研究。常见的城市功能区识别方法包括核密度估计法、频数密度与类型比例法。其中核密度估计法是指从数据样本本身出发研究数据空间分布特征,进而关注功能区中不同功能类型的集聚特征,对研究单元进行功能识别。频数密度与类型比例法是计算研究单元内每类poi在总体研究范围内的频率密度,进而根据频率密度计算研究单元内各poi类型的比例,识别研究单元功能类型。目前,伴随中国城市发展方法正由外延扩张型向内涵发展型迭代,城市内部功能结构持续优化,逐渐形成具有地区特色的城市功能结构。所以,在不同时期与不同城市,各类型的poi权重应当是根据变化的功能结构而不断变化的。仅靠简单的集聚特征和类型比例已不能满足对城市功能区的精确识别。因此,需要构建一种基于科学算法分析poi数据客观特征的城市功能区综合识别算法,增加城市结构划分的精确性。


技术实现要素:

3.为解决上述技术问题,本发明提供了一种在空间格网尺度的基于tf-idf算法与poi密度的城市功能区综合识别方法。
4.本发明所采用的技术方案是:一种格网尺度下基于tf-idf算法与poi密度的城市功能区综合识别方法,其中tf-idf(term frequency-inverse document frequency)算法是一种机器学习领域用于信息检索与数据挖掘的常用加权技术,可用来评估单个字词在一个文件集中的重要程度。tf指“词频”(term frequency),即某个词在文章中的出现次数在文章总次数中的占比。idf指“逆文本指数”(inverse document frequency),即语料库中文档总数与包含该词的文档数比值的对数值,即当一个词频繁在多个文档中出现(如“的”、“是”、“了”),其逆文本指数就会越低。基于算法特征,本方案将单个poi类型视为一个字词,将一个研究单元视为一个文档,将研究范围视为一个包含多个文档的语料库。由于地域差异性,不同地区的poi类型比例存在差异,所以同类poi在不同地区对当地的功能发展的重要性也有一定的差异性。通过此算法,可以根据不同研究范围,确定适应当地的poi权重;同时,对于常见类型poi与特殊类型poi,此算法将提供较为合理的权重值。根据算法得出得各类poi的tfidf值,代表各类型poi在研究单元中的重要程度,从而计算出研究单元中各poi的类型比例,识别当前网格的功能混合程度。功能密度也是评价地区功能发展的重要指标,
因而通过计算当前研究单元的poi密度值,识别当前网格的功能密集度。最后,结合功能混合度与功能密集度对研究范围的网格进行综合识别。具体包括以下步骤:
5.步骤1:收集研究区poi数据;
6.步骤2:对研究区生成1km*1km格网,格网单元采用方形格网;
7.步骤3:对poi数据与研究区格网进行空间连接,得到空间格网分布数据;
8.步骤4:针对步骤3得到的空间格网分布数据,计算当前研究范围的各类poi的idf值;
9.步骤5:针对步骤3得到的空间格网分布数据,计算网格单元中各类型poi的tf值;
10.步骤6:针对步骤4得到的对应类型poi的idf值与步骤5得到的各类型poi的tf值,计算每个格网中各类poi的tfidf综合值;
11.步骤7:针对步骤3得到的空间格网分布数据,计算格网内poi密度值;
12.步骤8:针对步骤6与步骤7得到的格网内各类型poi的tfidf值和密度值,对研究范围所有格网进行综合识别。
13.作为优选,步骤3的具体实现包含以下子步骤:
14.步骤3.1:利用arcgis软件的空间连接工具,将每个格网与处于其范围内的poi数据基于空间位置进行属性连接;
15.步骤3.2:基于相关规范与数据属性,构建poi类型表;
16.步骤3.3:导出属性表,整理属性面板数据,保留格网编号、poi类型等数据,方便后续算法分析。
17.作为优选,步骤4的具体实现包含以下子步骤:
18.步骤4.1:针对步骤3得到的空间格网分布数据,计算当前研究区总格网数sum
grid

19.步骤4.2:根据步骤3.2中的poi类型表,计算当前研究区包含i类poi的格网数量{j:poii∈gj},其中gj为第j个格网;
20.步骤4.3:构建当前研究时间与当前研究区域的idf值表,各类型poi的逆文本指数idf计算方法如下:
[0021][0022]
当{j:poii∈gj}为0时,说明研究范围内无此类型poi,则此类型poi的idf值将被重赋值为0。
[0023]
作为优选,步骤5的具体实现包含以下子步骤:
[0024]
步骤5.1:计算格网内各类型poi出现次数n
i,j
(n
i,j
表示i类poi在第j个格网内出现的次数);
[0025]
步骤5.2:计算格网内所有poi数量nj,nj表示第j个格网内所有poi的数量;
[0026]
步骤5.3:格网内各类型poi的tf值计算方法如下:
[0027][0028]
步骤5.4:构建格网内poi的tf值表。
[0029]
作为优选,步骤6的具体实现包含以下子步骤:
[0030]
步骤6.1:结合步骤4得到的idf值表和步骤5得到的格网poi的tf值,计算格网内各
类型poi的tfidf综合值,计算方法如下:
[0031]
tfidf
i,j
=tf
i,j
×
idfi[0032]
步骤6.2:构建格网内poi的tfidf综合值表。
[0033]
作为优选,步骤7的具体实现步骤包含以下子步骤:
[0034]
步骤7.1:结合步骤5中计算过的格网内所有poi数量nj,计算方法如下:
[0035][0036]sgrid
为格网面积,本方案中所有格网面积均为1km2。
[0037]
步骤7.2:基于实地调研确定样本点格网分类,以样本点格网的平均poi密度作为分类标准界定不同功能密集水平;
[0038]
步骤7.3:根据确定的分类标准,对研究区格网进行功能密集度识别,分别为无数据区、低功能密度区和高功能密度区。
[0039]
作为优选,步骤7.2的密度分类标准计算方法如下:
[0040]
(1)选取南通市全市作为研究对象;
[0041]
(2)通过实地调研,选取典型低poi密度与高poi密度样本点格网;
[0042]
(3)利用步骤7.1分别计算各样本点格网的poi密度值;
[0043]
(4)计算所有样本点格网的poi密度平均值,最后确定将密度值30(个/km2)作为分类标准。
[0044]
作为优选,步骤8的具体实现步骤包含以下子步骤:
[0045]
步骤8.1:针对步骤6.2构建的格网内tfidf综合值表,计算各poi的类型比例,计算方法如下:
[0046][0047]
i表示poi的类型,poi类型共为16种:'餐饮服务'、'道路附属设施'、'风景名胜'、'公共设施'、'公司企业'、'购物服务'、'交通设施服务'、'金融保险服务'、'科教文化服务'、'汽车服务'、'商务住宅'、'生活服务'、'体育休闲服务'、'医疗保健服务'、'社会团体'、'住宅服务';
[0048]
步骤8.2:构建格网内基于tfidf综合值的类型比例表,并对研究区格网进行功能混合度识别;
[0049]
步骤8.3:结合步骤7.3得到的功能密集度识别情况与步骤8.2得到的功能混合度情况,对研究区格网进行综合功能识别。
[0050]
作为优选,步骤8.2的格网功能混合度具体识别过程如下:
[0051]
(1)若格网对应的类型比例表中存在某类poi的ci值大于或等于0.5,则此格网被识别为单一功能区;
[0052]
(2)若格网对应的类型比例表中所有poi的ci值均小于0.5,则此格网被识别为混合功能区;
[0053]
(3)其他情况,则视为无数据区;
[0054]
作为优选,步骤8.3的格网综合功能具体识别过程如下:
[0055]
(1)若格网对应的混合功能识别结果为单一功能区,对应的功能密度识别结果为
低功能密度区,则此网格被识别为低密度单一功能区;
[0056]
(2)同理,网格的其他识别结果可为:低密度混合功能区、高密度单一功能区、高密度混合功能区。
[0057]
本发明的优点在于利用tf-idf算法特性,根据特定时间与特定城市的不同功能组成结构,从而确定更加符合时空特性的poi功能权重,解决了以往主观确定poi权重带来的功能识别误差。同时,本发明还将功能混合度与功能密集度综合考虑,提供了更加精确全面的城市功能区识别。
附图说明
[0058]
图1为本发明实施例流程图;
[0059]
图2为本发明实施例构建的tf-idf算法模型计算流程;
[0060]
图3为本发明实施例tf-idf算法与poi密度综合识别结果输出图;
[0061]
图4为本发明实施例输出结果可视化图。
具体实施方式
[0062]
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
[0063]
请见图1,本发明所采用的技术方案是:一种基于tf-idf算法与poi密度的城市功能区综合识别方法,包括以下步骤:
[0064]
步骤1:以南通市行政区域为研究区域,以2020年作为研究范围,收集研究区poi数据,对南通市行政区划底图与poi数据集进行统一投影转换,形成空间参考坐标一致的空间数据集;
[0065]
步骤2:利用创建渔网工具将南通市行政区划底图网格化,生成1km*1km格网数据;
[0066]
步骤3:利用空间连接工具将研究区poi数据与步骤2生成的格网数据进行属性连接。
[0067]
基于相关规范与数据属性,构建poi类型表,确定poi类型为'餐饮服务'、'道路附属设施'、'风景名胜'、'公共设施'、'公司企业'、'购物服务'、'交通设施服务'、'金融保险服务'、'科教文化服务'、'汽车服务'、'商务住宅'、'生活服务'、'体育休闲服务'、'医疗保健服务'、'社会团体'、'住宅服务'等16种;再导出属性表,整理属性面板数据,保留格网编号、poi类型等数据,方便后续算法分析;
[0068]
步骤4-6为图2所示的tf-idf算法模型计算流程;
[0069]
步骤4:针对步骤3得到的空间格网数据,计算当前研究范围的各类poi的idf值。
[0070]
针对步骤3得到的空间格网分布数据,计算当前研究区总格网数sum
grid
。根据计算得到,南通市行政区域的总格网数为13697。根据步骤3.2中的poi类型表,依次计算南通市所有格网包含每类poi的格网数量{j:poii∈gj}。构建2020年南通市的idf值表,各类型poi的逆文本指数idf计算方法如下:
[0071]
[0072]
当{j:poii∈gj}为0时,说明研究范围内无此类型poi,则此类型poi的idf值将被重赋值为0。
[0073]
2020年南通市的idf权重表及对应的poi类型见图3实施例tf-idf算法与poi密度综合识别结果输出图前半部分。
[0074]
步骤5:针对步骤3得到的空间格网分布数据,计算网格单元中各类型poi的tf值。针对南通市内每个格网,计算格网内各类型poi出现次数n
i,j
;再计算格网内所有poi数量nj;通过tf词频计算公式,逐一构建每个格网的tf值表。tf值计算方法如下:
[0075][0076]
步骤6:针对步骤4构建的全局idf权重值表与步骤5得到的格网tf值表,逐一计算每个格网中各类poi的tfidf综合值,构建格网tfidf表,计算方法如下;
[0077]
tfidf
i,j
=tf
i,j
×
idfi[0078]
再利用类型比例公式,对所有格网的tfidf表进行类型比例计算,得到最终的格网尺度类型比例表,计算方法如下:
[0079][0080]
步骤7:针对步骤3得到的空间格网分布数据,计算格网内poi密度值,计算方法如下:
[0081][0082]sgrid
为格网面积,本方案中所有格网面积均为1km2。
[0083]
基于实地调研确定样本点格网分类,以样本点格网的平均poi密度作为分类标准界定不同功能密集水平。选取南通市全市作为研究对象;通过实地调研,选取典型低poi密度与高poi密度样本点格网;分别计算各样本点格网的poi密度值;计算所有样本点格网的poi密度平均值,最后确定将密度值30(个/km2)作为分类标准。当格网poi密度值大于或等于30,则属于高密度区;反之,则为低密度区。
[0084]
步骤8:针对步骤6与步骤7得到的格网内各类型poi的tfidf值和密度值,对研究范围所有格网进行综合识别。当格网的tfidf类型比例表中,存在ci值》0.5,此格网被识别为单一功能区,若同时密度值小于30,则此格网被识别为低密度单一功能区,若密度值大于或等于30,则此格网被识别为高密度单一功能区;当格网的tfidf类型比例表中任意ci值均小于0.5,此格网被识别为混合功能区,若同时密度值小于30,则此格网被识别为低密度混合功能区,若密度值大于或等于30,则此格网被识别为高密度混合功能区。其余情况格网被识别为无数据区。
[0085]
识别结果见图3实施例tf-idf算法与poi密度综合识别结果输出图。
[0086]
步骤9:识别结果空间可视化。图4为本发明实施例输出结果可视化图。根据算法对应代码的识别结果输出文件,利用格网编号,将南通市格网底图与识别结果进行数据连接,直观反映出四种功能区类型在南通行政区域中的分布情况。
[0087]
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0088]
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献