一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于频繁模式的轨迹重建方法及装置与流程

2021-11-25 02:18:00 来源:中国专利 TAG:


1.本发明涉及大数据挖掘技术领域,尤其涉及一种基于频繁模式的轨迹重建方法及装置。


背景技术:

2.时空大数据,也称为轨迹大数据,是一种重要的数据资源。由于时空大数据具有覆盖人群广、覆盖范围广、数据真实可靠、数据实时性和持续性强等特点,所以近年来基于时空大数据的研究与应用越来越广泛,逐步覆盖到智慧城市的人口统计、交通监测、社会安全、智慧旅游等方方面面。例如,2020年疫情以来,基于时空大数据的技术被应用于疫情精准防控,为社会安全提供了精准、可靠的数据支撑。
3.但是,时空大数据常存在数据稀疏、数据采样不均匀的问题,这导致基于时空大数据得到的轨迹会常常出现中断现象,相邻轨迹数据间隔甚至会长达数小时,这严重影响了时空大数据的服务质量。通过一定的方法对中断轨迹进行重建,即轨迹重建可以在一定程度上解决轨迹中断的问题。主流的轨迹重建方法包括基于插值的方法和基于路网匹配的方法。
4.然而,当轨迹中断间隔较大时,基于插值的方法通常不符合实际情况,而基于路网匹配的方法依赖于路网数据,且计算复杂度较高。


技术实现要素:

5.有鉴于此,本发明提供了一种基于频繁模式的轨迹重建方法及装置,以提高轨迹重建效率和重建轨迹的真实性。
6.为了达到上述目的,本发明采用以下方案实现:根据本发明实施例的一个方面,提供了一种基于频繁模式的轨迹重建方法,包括:获取设定时间间隔范围内的历史轨迹数据;对所述历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式,形成通用频繁轨迹模式库;为通用频繁轨迹模式库中各通用频繁轨迹模式建立指纹索引;其中,通用频繁轨迹模式的指纹索引的信息包括起点位置信息、终点位置信息、及终点与起点时差;对所述历史轨迹数据中的轨迹序列按用户进行分组,得到各用户的历史轨迹数据;对每个用户的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式,形成用户频繁轨迹模式库;为用户频繁轨迹模式库中各用户频繁轨迹模式建立指纹索引;其中,用户频繁轨迹模式的指纹索引的信息包括用户标识、起点位置信息、终点位置信息、起点时间信息、及终点时间信息;获取待重建实时用户轨迹数据;提取待重建实时用户轨迹数据的轨迹段指纹信息;其中,轨迹段指纹信息包括用户标识、起点位置信息、终点位置信息、起点时间信息、及终点时间信息;在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息
进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段;若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段;利用替代轨迹段替换相应轨迹段指纹信息在待重建实时用户轨迹数据中对应的轨迹段。
7.在一些实施例中,获取设定时间间隔范围内的历史轨迹数据,包括:获取设定时间间隔范围内的历史原始轨迹数据;对历史原始轨迹数据进行数据清洗,得到历史轨迹数据;获取待重建实时用户轨迹数据,包括:获取用户原始轨迹数据;对用户原始轨迹数据进行清洗,得到用户的清洗后轨迹数据;获取用户的清洗后轨迹数据中相邻两个轨迹点之间的时间间隔;若用户的清洗后轨迹数据中存在时间间隔大于设定时间间隔阈值的相邻两个轨迹点,则将用户的清洗后轨迹数据确定为待重建实时用户轨迹数据。
8.在一些实施例中,对历史原始轨迹数据进行数据清洗,得到历史轨迹数据,包括:利用中值滤波或粒子滤波方法对历史原始轨迹数据进行数据清洗,得到历史轨迹数据;对用户原始轨迹数据进行清洗,得到用户的清洗后轨迹数据,包括:利用中值滤波或粒子滤波方法对用户原始轨迹数据进行清洗,得到用户的清洗后轨迹数据。
9.在一些实施例中,对所述历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式,包括:利用apriori算法或fp

growth算法对所述历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式;对每个用户的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式,包括:利用apriori算法或fp

growth算法对每个用户的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式。
10.在一些实施例中,获取设定时间间隔范围内的历史轨迹数据,包括:获取设定时间周期内的历史轨迹数据;利用替代轨迹段替换相应轨迹段指纹信息在待重建实时用户轨迹数据中对应的轨迹段之前,所述方法,还包括:若在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则将所述设定时间周期内的历史轨迹数据更新为更靠近当前时间的设定时间周期内的历史轨迹数据;对更新后的历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式,形成
更新后的通用频繁轨迹模式库;为更新后的通用频繁轨迹模式库中各通用频繁轨迹模式建立指纹索引;对更新后的历史轨迹数据中的轨迹序列按用户进行分组,得到各用户的更新后的历史轨迹数据;对每个用户的更新后的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式,形成更新后的用户频繁轨迹模式库;为更新后的用户频繁轨迹模式库中各用户频繁轨迹模式建立指纹索引;在更新后的用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段;若在更新后的用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在更新后的通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段。
11.在一些实施例中,通用频繁轨迹模式的指纹索引的信息还包括轨迹点数量;用户频繁轨迹模式的指纹索引的信息还包括轨迹点数量;在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段,包括:在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的用户标识中对轨迹段指纹信息中的用户标识进行匹配查询,若查询到与轨迹段指纹信息中的用户标识匹配一致的指纹索引中的用户标识,则在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点位置信息和终点位置信息中对轨迹段指纹信息中的起点位置信息和终点位置信息进行相应信息匹配查询;若查询到与轨迹段指纹信息中的起点位置信息和终点位置信息分别匹配的指纹索引中的起点位置信息和终点位置信息,则在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点时间信息和终点时间信息中对轨迹段指纹信息中的起点时间信息和终点时间信息进行相应信息匹配查询,若查询到与轨迹段指纹信息中的起点时间信息对应的附近时间和终点时间信息对应的附近时间分别匹配的指纹索引中的起点时间信息和终点时间信息,则选择其中轨迹点数量最多的指纹索引对应的用户频繁轨迹模式作为候选轨迹段,并从候选轨迹段中选择替代轨迹段;若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段,包括:若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点时间信息和终点时间信息中未查询到与轨迹段指纹信息中的起点时间信息对应的附近时间和终点时间信息对应的附近时间分别匹配的指纹索引中的起点时间信息和终点时间信息,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中的起点位置信息和终点位置信息中对轨迹段指纹信息中的起点位置信息和终点位置信息进行相应信息匹配查询,若查询到
与轨迹段指纹信息中的起点位置信息和终点位置信息分别匹配的指纹索引中的起点位置信息和终点位置信息,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中的终点与起点时差中对轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差进行匹配查询,得到与轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差对最接近的指纹索引中的终点与起点时差对应的通用频繁轨迹模式,作为候选轨迹段,并根据其中对应指纹索引中轨迹点数量最多的候选轨迹段得到替代轨迹段。
12.在一些实施例中,从候选轨迹段中选择替代轨迹段,包括:在候选轨迹段为多个的情况下,将所有候选轨迹段对应的指纹索引中起点时间信息和终点时间信息分别最接近轨迹段指纹信息中的起点时间信息和终点时间信息的指纹索引对应的候选轨迹段作为替代轨迹段。
13.在一些实施例中,通用频繁轨迹模式的指纹索引的信息、用户频繁轨迹模式的指纹索引的信息、及轨迹段指纹信息中的起点位置信息和终点位置信息均用geohash值表示;和/或,通用频繁轨迹模式的指纹索引的信息中的终点与起点时差用设定单位时长的倍数表示,轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差用设定单位时长的倍数表示。
14.根据本发明实施例的另一个方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述方法的步骤。
15.根据本发明实施例的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
16.本发明实施例的基于频繁模式的轨迹重建方法、计算机设备及计算机可读存储介质,通过直接挖掘所有用户的历史轨迹数据中的频繁模式,以及针对用户的历史轨迹数据挖掘频繁模式,并为各频繁模式建立指纹索引,基于该种指纹索引搜索匹配的频繁模式可以得到完整的轨迹段来对终端轨迹进行重建,不依赖于其他数据(如路网数据),降低了计算复杂度,而且,先搜索用户频繁模块再,若未得到查询结果再搜索通用频繁模块,既能够尽量提高准确度,又能够尽量提高查询速度,从而提高了轨迹重建效率和重建轨迹的真实性。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本发明一实施例的基于频繁模式的轨迹重建方法的流程示意图;图2是本发明一具体实施例的基于频繁模式的轨迹重建方法的流程示意图;图3是本发明一具体实施例的基于频繁模式的轨迹重建系统的结构示意图。
具体实施方式
18.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
19.需要预先说明的是,下述实施例或示例的描述或其中所提及的特征可以以相同或类似的方式,与其他实施例或示例中的特征组合,或替换其他实施例或示例中的特征,以形成可能的实施方式。另外,本文所使用的术语“包括/包含”是指特征、要素、步骤或组件的存在,但并不排除还存在一个或多个其他特征、要素、步骤或组件。
20.图1是本发明一实施例的基于频繁模式的轨迹重建方法的流程示意图,参见图1,该实施例的基于频繁模式的轨迹重建方法可包括以下步骤s110~步骤s170。
21.下面将对步骤s110至步骤s170的具体实施方式进行详细说明。
22.步骤s110:获取设定时间间隔范围内的历史轨迹数据。
23.该步骤s110中,轨迹数据又称为时空数据,包括位置信息、时间信息等,例如可以是蜂窝网络通信数据。该设定时间间隔范围可以是周期时间,在此情况下,获取设定时间间隔范围内的历史轨迹数据的具体实施方式可包括:获取设定时间周期内的历史轨迹数据。其中,设定时间周期例如可以是7天或30天,可以获取近期的历史轨迹数据。
24.进一步的实施例中,可以对历史轨迹数据进行清洗,以进行降噪。示例性地,上述步骤s110,即,获取设定时间间隔范围内的历史轨迹数据,具体可包括步骤:s1111,获取设定时间间隔范围内的历史原始轨迹数据;s1112,对历史原始轨迹数据进行数据清洗,得到历史轨迹数据。上述步骤s1111中,例如,可以利用中值滤波或粒子滤波方法对历史原始轨迹数据进行数据清洗,得到历史轨迹数据。
25.该实施例中,通过数据清洗可以过滤掉空值数据、过滤掉异常值数据、降低轨迹漂移等数据干扰,从而实现降噪。
26.步骤s120:对所述历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式,形成通用频繁轨迹模式库;为通用频繁轨迹模式库中各通用频繁轨迹模式建立指纹索引;其中,通用频繁轨迹模式的指纹索引的信息包括起点位置信息、终点位置信息、及终点与起点时差。
27.该步骤s120中,对历史轨迹数据直接进行频繁轨迹模式挖掘得到的频繁轨迹模式称为通用频繁轨迹模式库,适用范围广,比如适用于各用户的轨迹数据重建。可以利用apriori算法或fp

growth算法对所述历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式。通用频繁轨迹模式库即为通用频繁轨迹模式集合。起点位置信息、终点位置信息可以用geohash值表示。终点与起点时差可以用设定时长(如设定秒数)的倍数表示。进行频繁轨迹模式挖掘时,具体地,可以对子轨迹序列出现频次进行统计,可以将出现频次高于设定阈值的子轨迹序列作为频繁子轨迹模式,即频繁轨迹模式。不同用户往往因为城市结构、道路交通等因素具有相同的子轨迹序列,但出现时间通常和用户个人相关,所以通用频繁轨迹模式用起点与终点时差而非起点与终点时间戳,更利于轨迹重建。
28.步骤s130:对所述历史轨迹数据中的轨迹序列按用户进行分组,得到各用户的历史轨迹数据;对每个用户的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式,形成用户频繁轨迹模式库;为用户频繁轨迹模式库中各用户频繁轨迹模式建立指纹
索引;其中,用户频繁轨迹模式的指纹索引的信息包括用户标识、起点位置信息、终点位置信息、起点时间信息、及终点时间信息。
29.该步骤s130中,每组历史轨迹数据对应一个用户。可以利用apriori算法或fp

growth算法对每个用户的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式。可以通过提取轨迹模式的属性特征作为指纹索引,该些属性特征信息可称为指纹索引的信息。用户频繁轨迹模式库中,一个用户可以对应一个频繁轨迹模式。单个用户的频繁轨迹通常具有较强的周期性,因此使用更具体的起点与终点时间戳作为特征属性/指纹信息可以进行更精确的轨迹重建。
30.步骤s140:获取待重建实时用户轨迹数据;提取待重建实时用户轨迹数据的轨迹段指纹信息;其中,轨迹段指纹信息包括用户标识、起点位置信息、终点位置信息、起点时间信息、及终点时间信息。
31.进一步的实施例中,可以对用户的轨迹数据进行清洗。示例性地,上述步骤s140中,获取待重建实时用户轨迹数据,可包括:s1411,获取用户原始轨迹数据;s1412,对用户原始轨迹数据进行清洗,得到用户的清洗后轨迹数据。该用户的清洗后轨迹数据可以作为直接待重建实时用户轨迹数据。当然,可以进一步对数据是否需要进行重建进行判断。在此情况下,上述步骤s140中,获取待重建实时用户轨迹数据,还可包括:s1413,获取用户的清洗后轨迹数据中相邻两个轨迹点之间的时间间隔;s1414,若用户的清洗后轨迹数据中存在时间间隔大于设定时间间隔阈值的相邻两个轨迹点,则将用户的清洗后轨迹数据确定为待重建实时用户轨迹数据。上述步骤s1412,可以利用中值滤波或粒子滤波方法对用户原始轨迹数据进行清洗,得到用户的清洗后轨迹数据。上述步骤s1413,可以通过轨迹数据中的时间信息计算得到时间间隔。上述步骤s1414,出相邻的那两个轨迹点外,还可包括其他附近的轨迹点;该设定时间间隔阈值例如可以为一分钟。该些实施例中,通过对用户的轨迹数据进行清洗,可以过滤掉空值数据、过滤掉异常值数据、降低轨迹漂移等数据干扰,从而进行降噪。
32.步骤s150:在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段。
33.步骤s160:若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段。
34.步骤s170:利用替代轨迹段替换相应轨迹段指纹信息在待重建实时用户轨迹数据中对应的轨迹段。
35.通过上述步骤s150和步骤s160,可以先查询用户频繁轨迹模式库,若能得到查询结果,则可通过上述步骤s170进行轨迹段替换,若得不到查询结果,则可以进一步利用通用频繁轨迹模式库进行查询,以此可以尽可能保证查询的准确性和速度。
36.具体实施时,上述步骤s120中,建立的通用频繁轨迹模式的指纹索引的信息还可包括轨迹点数量,在此情况下,上述步骤s150中,在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息
匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段,具体可包括步骤:s151,在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的用户标识中对轨迹段指纹信息中的用户标识进行匹配查询,若查询到与轨迹段指纹信息中的用户标识匹配一致的指纹索引中的用户标识,则在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点位置信息和终点位置信息中对轨迹段指纹信息中的起点位置信息和终点位置信息进行相应信息匹配查询;s152,若查询到与轨迹段指纹信息中的起点位置信息和终点位置信息分别匹配的指纹索引中的起点位置信息和终点位置信息,则在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点时间信息和终点时间信息中对轨迹段指纹信息中的起点时间信息和终点时间信息进行相应信息匹配查询,若查询到与轨迹段指纹信息中的起点时间信息对应的附近时间和终点时间信息对应的附近时间分别匹配的指纹索引中的起点时间信息和终点时间信息,则选择其中轨迹点数量最多的指纹索引对应的用户频繁轨迹模式作为候选轨迹段,并从候选轨迹段中选择替代轨迹段。
37.本实施例中,用户频繁轨迹模式的指纹索引的信息中的起点位置信息和终点位置信息可以均用geohash值表示,轨迹段指纹信息中的起点位置信息和终点位置信息也可均用geohash值表示,所以在上述步骤s151可以通过比较geohash值来找到匹配的指纹索引,进而找到相应的用户频繁轨迹模式。
38.更具体地,上述步骤s152中,从候选轨迹段中选择替代轨迹段,具体可包括步骤:s1521,在候选轨迹段为多个的情况下,将所有候选轨迹段对应的指纹索引中起点时间信息和终点时间信息分别最接近轨迹段指纹信息中的起点时间信息和终点时间信息的指纹索引对应的候选轨迹段作为替代轨迹段。
39.具体实施时,上述步骤s130中,建立的用户频繁轨迹模式的指纹索引的信息还可包括轨迹点数量,在此情况下,上述步骤s160中,若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段,具体可包括步骤:s161,若在用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中的起点时间信息和终点时间信息中未查询到与轨迹段指纹信息中的起点时间信息对应的附近时间和终点时间信息对应的附近时间分别匹配的指纹索引中的起点时间信息和终点时间信息,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中的起点位置信息和终点位置信息中对轨迹段指纹信息中的起点位置信息和终点位置信息进行相应信息匹配查询,若查询到与轨迹段指纹信息中的起点位置信息和终点位置信息分别匹配的指纹索引中的起点位置信息和终点位置信息,则在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中的终点与起点时差中对轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差进行匹配查询,得到与轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差对最接近的指纹索引中的终点与起点时差对应的通用频繁轨迹模式,作为候选轨迹段,并根据其中对应指纹索引中轨迹点数量最多的候选轨迹段得到替代轨迹段。
40.本实施例中,通用频繁轨迹模式的指纹索引的信息中的起点位置信息和终点位置
信息可以均用geohash值表示,加之轨迹段指纹信息中的起点位置信息和终点位置信息也可均用geohash值表示,所以上述步骤s161中可以通过比较geohash值来找到匹配的指纹索引,进而找到相应的通用频繁轨迹模式。通过依次针对用户标识、位置信息、时间信息进行匹配,可以提高效率,并尽量保证准确性。具体实施时,可以利用knn算法、wknn或基于指纹中每个特征取值范围的区间过滤方法进行匹配比较。
41.此外,通用频繁轨迹模式的指纹索引的信息中的终点与起点时差可以用设定单位时长的倍数表示,轨迹段指纹信息中的起点时间信息和终点时间信息对应的时差也可以用设定单位时长的倍数表示。所以上述步骤s161中,可以通过比较用倍数表示的时差,来找到匹配的指纹索引,进而找到相应的通用频繁轨迹模式。
42.进一步的实施例中,上述步骤s160中,若查询通用频繁轨迹模式库也得不到查询结果,则可以更新步骤s110中的历史轨迹数据,从而对后续步骤中的通用频繁轨迹模式库和用户频繁轨迹模式库进行更新,进而重新进行匹配查询。示例性地,上述步骤s170之前,即,利用替代轨迹段替换相应轨迹段指纹信息在待重建实时用户轨迹数据中对应的轨迹段之前,图1所示方法还可包括步骤:s811,若在通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则将所述设定时间周期内的历史轨迹数据更新为更靠近当前时间的设定时间周期内的历史轨迹数据;s812,对更新后的历史轨迹数据进行频繁轨迹模式挖掘,得到通用频繁轨迹模式,形成更新后的通用频繁轨迹模式库;为更新后的通用频繁轨迹模式库中各通用频繁轨迹模式建立指纹索引;s813,对更新后的历史轨迹数据中的轨迹序列按用户进行分组,得到各用户的更新后的历史轨迹数据;对每个用户的更新后的历史轨迹数据进行频繁轨迹模式挖掘,得到相应用户频繁轨迹模式,形成更新后的用户频繁轨迹模式库;为更新后的用户频繁轨迹模式库中各用户频繁轨迹模式建立指纹索引;s814,在更新后的用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的用户频繁轨迹模式作为替代轨迹段;s815,若在更新后的用户频繁轨迹模式库中各用户频繁轨迹模式的指纹索引中未查询到与轨迹段指纹信息匹配的指纹索引,则在更新后的通用频繁轨迹模式库中各通用频繁轨迹模式的指纹索引中对轨迹段指纹信息进行相应信息匹配查询,若查询到与轨迹段指纹信息匹配的指纹索引,则将匹配出的指纹索引对应的通用频繁轨迹模式作为替代轨迹段。
43.上述步骤s811中,前述步骤s110中设定时间间隔范围为时间周期时则称为设定时间周期。之前时间间隔范围内的历史轨迹数据可能已经距当前时间有一点时长,所以可以利用更新的轨迹数据对其进行更新。上述步骤s812的具体实施方式可以参见步骤s120的具体实施例。上述步骤s813的具体实施方式可以参见步骤s130的具体实施例。上述步骤s814的具体实施方式可以参见步骤s140的具体实施例。上述s815的具体实施方式可以参见步骤s150的具体实施例,若仍没有得到查询结果,则可以继续更新历史轨迹数据,循环执行上述步骤s811~ s815。通过依次位置信息、时间信息进行匹配,可以提高效率,并尽量保证准确
性。具体实施时,可以利用knn算法、wknn或基于指纹中每个特征取值范围的区间过滤方法进行匹配比较。
44.另外,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的基于频繁模式的轨迹重建方法的步骤。
45.本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述的基于频繁模式的轨迹重建方法的步骤。
46.下面结合一个具体实施例对上述方法进行说明,然而,值得注意的是,该具体实施例仅是为了更好地说明本技术,并不构成对本技术的不当限定。
47.为解决基于时空大数据相邻数据间隔较大导致轨迹中断影响时空大数据挖掘效果和服务质量的现象,本发明提出一种基于频繁模式的轨迹重建方法和系统。基于历史轨迹数据挖掘用户频繁轨迹模式和轨迹特征,并建立时空索引结构。当需要对某用户某时间段轨迹进行重建时,通过时空索引查询获取最优参考轨迹模式进行轨迹重建。
48.在一具体实施例中,参见图2,基于频繁模式的轨迹重建方法可包括以下步骤:s1.接入一定时间周期的历史轨迹数据,例如,时间周期的可选范围可以为7天到30天;s2.对历史轨迹数据进行清洗,例如,可选择基于中值滤波或粒子滤波等方式对轨迹数据进行降噪;s3.基于步骤s2的清洗结果,对所有轨迹进行频繁轨迹模式挖掘,统计子轨迹序列出现频次,将出现频次高于一定阈值的子轨迹序列作为频繁子轨迹模式,从而得到通用频繁轨迹模式库,可选的频繁模式挖掘算法包括apriori算法(关联挖掘算法)、fp

growth算法(frequent pattern growth,频繁模式增长算法)等;s4.对通用频繁轨迹模式建立指纹索引,每个通用频繁轨迹模式提取轨迹模式的属性特征作为指纹包括:起点位置信息、终点位置信息、轨迹点数量、终点与起点时差;s5.基于步骤s2的结果,对所有轨迹序列按照用户进行分组,每组进行频繁轨迹模式挖掘,得到用户频繁轨迹模式库,其中每条频繁轨迹模式对应一个用户,可选的频繁模式挖掘算法包括apriori算法、fp

growth算法等;s6.对用户频繁轨迹模式建立指纹索引,每个用户频繁模式提取指纹包括:用户id、起点位置信息、终点位置信息、轨迹点数量、起点时间信息、终点时间信息;s7.获取用户轨迹数据,并进行数据清洗,可选择基于中值滤波或粒子滤波等方式对轨迹数据进行降噪;s8.检测相邻轨迹点时间间隔,如果时间间隔大于一定阈值(例如,阈值可选自10分钟~30分钟),则认为这两个轨迹点之间很可能存在轨迹中断,需要进行轨迹重建;s9.提取需要进行轨迹重建的轨迹段序列属性特征作为指纹信息,包括:用户id、起点位置信息、终点位置信息、轨迹点数量、起点时间信息、终点时间信息;s10.根据指纹匹配算法,查询用户频繁轨迹模式库,若查询到相应数据则利用查询得到的最优参考轨迹段对原始轨迹段进行替换完成轨迹重建。否则执行下一步。其中可选的指纹匹配算法包括knn(k

nearest neighbor,最邻近结点算法)、wknn (weighted k

nearest neighbor,加权k

最近邻算法)或基于指纹中每个特征取值范围的区间过滤方法;
s11.当用户频繁轨迹模式库中未匹配成果时,构建通用指纹,并查询通用频繁轨迹模式库,根据指纹匹配算法,若查询到相应数据则利用查询结果对原始轨迹段进行替换完成轨迹重建。否则轨迹重建失败,考虑利用更新、更全的历史轨迹数据按照步骤s3和s5更新频繁模式库。其中可选的指纹匹配算法包括knn、wknn或基于指纹中每个特征取值范围的区间过滤方法。
49.在另一具体实施例中,参见图3,与基于频繁模式的轨迹重建方法相对应的基于频繁模式的轨迹重建系统可包括以下模块:历史轨迹接入模块:用于接入全量或用户历史轨迹数据;数据清洗模块:用于轨迹数据清洗与预处理;频繁模式库构建模块:用于根据历史轨迹数据构建通用频繁轨迹模式库和用户频繁轨迹模式库,并构建对应的指纹索引;当前轨迹接入模块:用于接入当前需要进行轨迹重建的全量轨迹(多个用户的轨迹)或用户轨迹(单个用户的轨迹);指纹提取模块:用于提取待重建轨迹段的指纹;指纹匹配模块:用于将待重建轨迹段的指纹与频繁轨迹模式库进行匹配,获取最优参考轨迹段的过程;指纹重建模块:用于利用获取的最优参考轨迹段替换原始待重建轨迹段的过程。
50.举例而言,基于频繁模式的轨迹重建方法可包括以下步骤:(1)通过分布式文件系统或数据仓库获取近期历史轨迹数据;(2)对历史轨迹数据进行清洗,包括过滤空值数据、过滤异常值数据、利用中值滤波算法对历史轨迹数据进行降噪处理等环节,降低轨迹漂移等数据的干扰;(3)利用apriori算法对历史轨迹数据进行挖掘,分析得到频繁轨迹模式集合,称为通用频繁模式库;(4)对通用频繁轨迹模式建立指纹索引,每个通用频繁轨迹模式提取指纹包括:起点位置信息、终点位置信息、轨迹点数量、终点与起点时差。其中,起点和终点的位置信息可以用6位geohash表示,用geohash网格代替原始经纬度数值,可以基于geohash字符串建立索引,提高指纹匹配效率;终点与起点时差以30秒的倍数表示,通用频繁轨迹模式用起点与终点时差而非起点与终点时间戳,是由于不同用户往往因为城市结构、道路交通等因素具有相同的子轨迹序列,但出现时间通常和个人相关;(5)基于步骤(2)的结果,对所有轨迹按照用户进行分组,每组分别利用apriori算法进行频繁轨迹模式挖掘,得到的频繁轨迹模式集合称为用户频繁轨迹模式库;(6)对用户频繁轨迹模式建立指纹索引,每个用户频繁模式提取指纹包括:用户id、起点位置信息、终点位置信息、轨迹点数量、起点时间信息、终点时间信息;其中,起点和终点的位置信息可以用6位geohash表示;终点与起点时间信息用时间戳表示,单个用户的频繁轨迹通常具有较强的周期性,因此使用更具体的起点与终点时间戳作为特征可以进行更精确的轨迹重建;(7)获取需要重建的轨迹数据,并进行数据清洗去噪,基于中值滤波轨迹数据进行降噪,降低轨迹漂移等数据的干扰;(8)检测相邻轨迹点时间间隔,如果时间间隔大于10分钟,则认为这两个轨迹点之
间很可能存在轨迹中断,需要进行轨迹重建;(9)提取需要进行轨迹重建的轨迹段指纹信息,包括:用户id、起点位置信息、终点位置信息、轨迹点数量、起点时间信息、终点时间信息,其中,起点和终点的位置信息可以用6位geohash表示;终点与起点时间信息用时间戳表示;(10)把待重建轨迹段指纹与用户频繁轨迹模式库中的指纹进行匹配,首先根据用户id进行筛选,若无命中直接进入下一步,否则再对比起点和终点位置信息,再根据起点时间戳、终点时间戳阈值范围进一步筛选候选参考轨迹段,时间戳阈值范围可选[t1

2分钟,t2 2分钟],其中t1是起点时间戳,t2是终点时间戳。最后在候选参考轨迹段中选择轨迹点数量最多的作为最优参考轨迹段。若最优参考轨迹段数量大于1,则筛选距离待匹配轨迹段起点和终点时间最近的轨迹段作为最优参考轨迹段。
[0051]
(11)当用户频繁轨迹模式库中未匹配成果时,构建通用指纹,并查询通用频繁轨迹模式库,对比起点和终点的geohash值,再从匹配上的候选轨迹段中筛选终点和起点时间差与待重建轨迹段的起点和终点时间差最接近,且轨迹点数量最多的轨迹段作为最优参考轨迹段。
[0052]
(12)利用最优参考轨迹段替代待匹配轨迹段,作为轨迹重建的结果;(13)若未匹配到最优参考轨迹段,考虑利用更新、更全的历史轨迹数据按照步骤(3)和(5)更新频繁模式库。
[0053]
综上所述,本发明实施例的基于频繁模式的轨迹重建方法、计算机设备及计算机可读存储介质,基于频繁模式实现轨迹重建,无需依赖其他数据资源,且频繁模式挖掘可离线进行,定期更新,因此可以提高轨迹重建效率。此外,根据实际的轨迹模式进行轨迹重建,也更符合真实轨迹情况。
[0054]
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
[0055]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd

rom、光学存储器等)上实施的计算机程序产品的形式。
[0056]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0057]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0058]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0059]
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献