基于DNA序列表征的路径驾驶节奏模式分析方法及系统

2023-02-04 12:14:34 来源：中国专利 TAG：

基于dna序列表征的路径驾驶节奏模式分析方法及系统
技术领域
1.本发明涉及时空轨迹数据挖掘领域，尤其涉及一种基于dna序列表征的路径驾驶节奏模式分析方法及系统。

背景技术：

2.基于定位技术的飞速发展和位置服务技术的广泛应用，产生了大量的车辆行驶轨迹数据。在众多行驶轨迹数据中，出租车数据有着受客观因素约束少、轨迹数据量大、很少涉及隐私问题和空间覆盖率高等优点，为轨迹数据研究提供了优秀的素材。在现实生活中，出租车司机会在考虑动态道路通行能力的情况下选择当前的最佳路径，因此在出租车行驶过程中产生的大量的行驶轨迹数据隐藏着道路实时交通状态和出租车的路径选择经验。由于出租车的行驶经验包含着出租车司机在考虑道路通行能力、交通状况、沿途街道状况和天气状态等因素对道路选择的影响，而更贴近实际情况，因此对路径规划有很高的参考意义。如何从海量的出租车行驶数据中提取出出租车的路径选择经验已是轨迹数据挖掘和路径规划算法的重点研究方向。
3.在传统的路径规划算法中，往往注重计算两点在路网中的时间成本和距离成本，以此求得两点间时间成本最低的路径、距离成本最低的路径和时间成本与距离成本最适宜的路径作为推荐路径。但是道路状况十分复杂，道路通行成本会受车流量、车道分布、路面状况、道路交通规则、实时拥堵情况、沿途街道状况和天气状况等因素的影响，仅使用时间成本和空间的距离成本作为路径选择的影响因素并不能准确反映出实际情况下的最佳路径。
4.上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

技术实现要素：

5.为解决上述技术问题，本发明提供一种基于dna序列表征的路径驾驶节奏模式分析方法，包括：
6.s1：获取原始出租车轨迹数据集，对原始出租车轨迹数据集进行预处理，获得预处理后的出租车行程轨迹流数据集；
7.s2：构建od成本矩阵，将预处理后的出租车行程轨迹流数据集输入od成本矩阵，获得每条轨迹流中各个轨迹点间在路网中的距离成本；
8.s3：根据轨迹在路网中的距离成本结合轨迹点间的通过时间和平均速度，构造出轨迹的驾驶节奏序列；
9.s4：通过smith-waterman算法对各场景下的驾驶节奏序列进行相似性比对，计算获得各场景下的驾驶节奏序列之间的相似程度；
10.s5：将相似程度作为得分，对各场景下的驾驶节奏序列进行聚类分析，获得各场景下出租车司机对于路径选择的模式和情感趋向。
11.优选的，步骤s1具体为：
12.清洗掉原始出租车轨迹数据集中的未运营车辆轨迹数据、故障车辆轨迹数据和空车轨迹数据，完成清洗的数据集即为行程轨迹数据集；将有效轨迹点数据按照载客情况划分出载客行程，获得每一段载客行程的轨迹点数据；将载客行程中偏移的轨迹点数据拟合到路网上，此时每一段载客行程的轨迹点数据即构成了对应行程的轨迹流，所有行程的轨迹流构成了出租车行程轨迹流数据集。
13.优选的，步骤s2具体为：
14.通过路网数据构建od成本矩阵，依次将轨迹流中各个轨迹点数据分别载入od成本矩阵的起始点和目的地点，计算所有轨迹流中各个轨迹点间的距离成本。
15.优选的，步骤s3具体为：
16.s31：按时间顺序依次读取出租车行程轨迹流数据集的轨迹流数据中的各个轨迹点，计算相邻时间前后的两个轨迹点的通过时间；获取两个轨迹点对应的距离成本，距离成本除以通过时间得到两个轨迹点对应的片段的平均速度；
17.s32：若片段的平均速度小于或等于预设值，则保留该片段的两个轨迹点，否则舍弃该片段的两个轨迹点；
18.s33：制定拥堵程度、速度区间与表示符号之间的对应关系，依据每个片段的平均速度，用特定符号表示出当前片段的拥堵程度；对轨迹流中所有片段依次进行符号化表示，即构成了一条形似dna序列的符号序列，该符号序列即为轨迹流的驾驶节奏序列。
19.优选的，步骤s4具体为：
20.s41：根据起点与终点位置、行程距离和时段将驾驶节奏序列划分为不同场景下的驾驶节奏序列；
21.s42：对于p，q两条驾驶节奏序列，建立打分规则，表达式如下：
[0022][0023]
其中，s(pi,qj)表示驾驶节奏序列p中第i-1个符号与驾驶节奏序列q中第j-1个符号比较的得分，3是当符号pi与qj相同时的分数，此时pi与qj都不为
‘‑’
，-3是当符号pi与qj不同时或pi与qj至少有一个为
‘‑’
时的分；
[0024]
s43：|p|和|q|分别为两条驾驶节奏序列的长度，通过打分规则构建一个大小为(|p| 1)*(|q| 1)的得分矩阵，得分矩阵其中的元素m
i，j
表达式为：
[0025][0026]
其中，i表示得分矩阵的行编号，j表示得分矩阵的列编号，m
i-1，j-w表示在驾驶节奏序列pi处添加一个移位符，m
i，j-1-w表示在驾驶节奏序列qj处添加一个移位符，记空位处罚分w＝2；
[0027]
s44：遍历得分矩阵，找到得分最高点，从得分矩阵得分最高点开始向左上角回溯；若回溯方向是对角线方向，说明此时两符号匹配；若回溯方向是向右，说明此时给驾驶节奏
序列q在该位置添加一个移位符；若回溯方向是向上，说明此时给驾驶节奏序列p在该位置添加一个移位符；直到得分矩阵元素为0，回溯路径为两条驾驶节奏序列的最长相似子序列；
[0028]
s45：将最长相似子序列定义为v，构建最长相似子序列的打分方式score(vu)，表达式为：
[0029][0030]
其中，u为最长相似性序列中的元素编号，vu为最长相似性序列中u处元素；
[0031]
各场景下的驾驶节奏序列之间的相似程度的计算公式为：
[0032][0033]
其中，|v|为最长相似子序列的长度，maxlen为p和q两条驾驶节奏序列中最长序列的长度。
[0034]
优选的，步骤s5具体为：
[0035]
s51：对于具有n条驾驶节奏序列的驾驶节奏序列集，从中选取k条驾驶节奏序列作为中心驾驶节奏序列，其中k《n；
[0036]
s52：依次计算每个非中心驾驶节奏序列与各个中心驾驶节奏序列的相似程度，将非中心驾驶节奏序列加入相似程度最高的中心驾驶节奏序列所在的驾驶节奏序列子集中；
[0037]
s53：在每一个驾驶节奏序列子集中，求解每一条驾驶节奏序列的相似程度得分f，计算公式为：
[0038][0039]
其中，a和b均为当前驾驶节奏序列子集中驾驶节奏序列的编号，m为当前驾驶节奏序列子集中驾驶节奏序列的总数；
[0040]
将相似程度得分最高的驾驶节奏序列设置为新的中心驾驶节奏序列；
[0041]
s54：重复步骤s52至s53，直至中心驾驶节奏序列不再发生变化，获得聚类后的驾驶节奏序列集；
[0042]
s55：由聚簇的误差平方和确定驾驶节奏序列集的聚类簇数，计算公式为：
[0043][0044]
其中，e为聚簇中心驾驶节奏序列的编号，r为聚簇非中心驾驶节奏序列的编号，ce为聚簇中心驾驶节奏序列，cr为聚簇非中心驾驶节奏序列；
[0045]
s56：以每个聚簇的中心序列作为特征序列，分析该特征序列的路径选择的模式和情感趋向。
[0046]
一种基于dna序列表征的路径驾驶节奏模式分析系统，包括：
[0047]
预处理模块，用于获取原始出租车轨迹数据集，对原始出租车轨迹数据集进行预处理，获得预处理后的出租车行程轨迹流数据集；
[0048]
距离成本获取模块，用于构建od成本矩阵，将预处理后的出租车行程轨迹流数据集输入od成本矩阵，获得每条轨迹流中各个轨迹点间在路网中的距离成本；
[0049]
驾驶节奏序列构造模块，用于根据轨迹在路网中的距离成本结合轨迹点间的通过时间和平均速度，构造出轨迹的驾驶节奏序列；
[0050]
相似程度计算模块，用于通过smith-waterman算法对各场景下的驾驶节奏序列进行相似性比对，计算获得各场景下的驾驶节奏序列之间的相似程度；
[0051]
聚类分析模块，用于将相似程度作为得分，对各场景下的驾驶节奏序列进行聚类分析，获得各场景下出租车司机对于路径选择的模式和情感趋向。
[0052]
本发明具有以下有益效果：
[0053]
本发明利用出租车轨迹数据对人们的路径选择模式和情感趋向进行挖掘分析，提出了一种基于dna序列表征的路径驾驶节奏模式分析的新方法。本方法可以挖掘出优秀的路径选择模式和典型的路径选择情感趋向，有助于路径规划算法的完善和个性化定制，让出行者有更好的出行体验，也能够为城市交通规划提供参考。
附图说明
[0054]
图1为本发明实施例方法流程图；
[0055]
图2为出租车行程轨迹流数据集示意图；
[0056]
图3为得分矩阵与回溯路径示意图；
[0057]
本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
[0058]
应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0059]
参照图1，本发明提供一种基于dna序列表征的路径驾驶节奏模式分析方法，将出租车司机作为优秀的最佳路径决策群体，出租车司机的行驶经验对道路选择有着很高的参考价值，通过本发明的方法可以获得优秀的路径选择的模式和情感趋向，有助于路径规划算法的完善，同时也为城市道路规划提供参考；
[0060]
包括：
[0061]
s1：获取原始出租车轨迹数据集，对原始出租车轨迹数据集进行预处理，获得预处理后的出租车行程轨迹流数据集；
[0062]
s2：构建od成本矩阵，将预处理后的出租车行程轨迹流数据集输入od成本矩阵，获得每条轨迹流中各个轨迹点间在路网中的距离成本；
[0063]
s3：根据轨迹在路网中的距离成本结合轨迹点间的通过时间和平均速度，构造出轨迹的驾驶节奏序列；
[0064]
s4：通过smith-waterman算法对各场景下的驾驶节奏序列进行相似性比对，计算获得各场景下的驾驶节奏序列之间的相似程度；
[0065]
s5：将相似程度作为得分，对各场景下的驾驶节奏序列进行聚类分析，获得各场景下出租车司机对于路径选择的模式和情感趋向。
[0066]
本实施例中，步骤s1具体为：
[0067]
清洗掉原始出租车轨迹数据集中的未运营车辆轨迹数据、故障车辆轨迹数据和空
车轨迹数据，完成清洗的数据集即为行程轨迹数据集；将有效轨迹点数据按照载客情况划分出载客行程，获得每一段载客行程的轨迹点数据；将载客行程中偏移的轨迹点数据拟合到路网上，此时每一段载客行程的轨迹点数据即构成了对应行程的轨迹流，所有行程的轨迹流构成了出租车行程轨迹流数据集。
[0068]
具体的，原始出租车轨迹数据集为出租车轨迹gps数据。出租车轨迹数据集记录了车辆编号、记录时间、点坐标、车辆状态、载客状态、故障状态等信息；
[0069]
对于原始出租车轨迹数据集，首先对数据集按照车辆编号进行划分，依次读取数据集中每一条数据，舍弃其中故障车辆数据和未运营车辆数据，对未被舍弃的数据，截取出其中车辆编号、坐标点、上报时间和载客状态数据；在完成提取的数据集中仍有部分冗余数据且同一编号车辆数据集中包含着多段行程，须对数据集划分出行程；对数据集按照时间排序，遍历数据集找到第一条重车记录的位置，继续遍历数据集，如果记录仍为重车，说明此时行程还未结束，如果记录为空车，说明此时行程已经结束，此时获得一段完整载客行程；依此划分出数据集下所有载客行程，最后将偏移的行程点拟合到路网上，最终得到的出租车行程轨迹流数据集示意图如图2所示。
[0070]
本实施例中，步骤s2具体为：
[0071]
通过路网数据构建od成本矩阵，依次将轨迹流中各个轨迹点数据分别载入od成本矩阵的起始点和目的地点，计算所有轨迹流中各个轨迹点间的距离成本。
[0072]
本实施例中，步骤s3具体为：
[0073]
s31：按时间顺序依次读取出租车行程轨迹流数据集的轨迹流数据中的各个轨迹点，计算相邻时间前后的两个轨迹点的通过时间；获取两个轨迹点对应的距离成本，距离成本除以通过时间得到两个轨迹点对应的片段的平均速度；
[0074]
s32：若片段的平均速度小于或等于预设值，则保留该片段的两个轨迹点，否则舍弃该片段的两个轨迹点；
[0075]
具体的，当片段内平均速度小于等于120时，认定该数据为有效数据，记录此片段平均速度；当片段内平均速度大于120时，认定该数据为无效数据，不予记录，舍弃该片段；
[0076]
s33：制定拥堵程度、速度区间与表示符号之间的对应关系，依据每个片段的平均速度，用特定符号表示出当前片段的拥堵程度；对轨迹流中所有片段依次进行符号化表示，即构成了一条形似dna序列的符号序列，该符号序列即为轨迹流的驾驶节奏序列；
[0077]
具体的，根据《道路交通拥堵度评价方法》(ga/t 115-2020)中车辆平均速度与拥堵程度对应关系，划定区间路段平均速度与交通拥堵程度对应关系及序列表示。根据车辆平均速度与拥堵程度的对应关系，将独立行程轨迹的驾驶节奏序列依照平均速度用相应字符表示，并记录整条轨迹的平均速度、行程距离、起点坐标、终点坐标及驾驶节奏序列。
[0078]
本实施例中，步骤s4具体为：
[0079]
s41：根据起点与终点位置、行程距离和时段将驾驶节奏序列划分为不同场景下的驾驶节奏序列；
[0080]
具体的，为控制不同场景、不同行程距离和不同时段对路径选择情感的影响，首先对场景、行程距离和时段进行划分，并选择不同情形下序列数据量较大的od网格对作为研究对象，并对所选中od网格对中的序列划分经验组别；
[0081]
场景划分方式如下：
[0082]
首先按照行政划分将od网格对划分出主城区与远城区，以此将od网格对场景划分成主城区-主城区、主城区-远城区、远城区-主城区、远城区-远城区四组；在四种不同场景下，再按照行程距离对od网格对进行划分，将od网格对划分为近距离组、中距离组和远距离组三组；od网格对间距离不超过3km，即网格坐标编号差值之和小于2的网格对，划分为近距离组；od网格对间距离大于3km、不大于10km，即网格坐标编号差值之和大于2且小于5的网格对，划分为中距离组；od网格对间距离超过10km，即网格坐标编号差值之和大于5的网格对，划分为远距离组，行程距离划分表如表1所示；
[0083]
表1行程距离划分表
[0084][0085][0086]
在划分场景和行程距离的基础上，再以起点和终点时间，将网格对内序列划分交通高峰时段和非交通高峰时段；根据人们的出行规律，将7:00-9:00、12:00-14:00、17:00-19:00、20:00-22:00四个时段认定为交通高峰时段，将9:00-12:00、14:00-17:00、19:00-20:00、22:00-7:00四个时段认定为非交通高峰时段；若序列起点时间和终点时间都在交通高峰时段，划分为交通高峰时段组，否则划分到非交通高峰时段组，交通高峰时段与非高峰时段划分表如表2所示；
[0087]
表2交通高峰时段与非高峰时段划分表
[0088][0089]
在不同交通时段中设置实验组与对照组；trip平均速度前30％设为实验组，命名为有经验组，trip平均速度后30％设为一组对照组，命名为无经验组，trip平均速度中间40％设置为另一组对照组，命名为半经验组，经验组别划分表如表3所示；
[0090]
表3经验组别划分表
[0091][0092]
s42：由于驾驶节奏序列大多都是不等长的，且本发明意在找出驾驶节奏序列中路径选择的特征，所以采用smith-waterman算法的思想，建立打分规则与递归公式，根据打分规则与递归公式计算每两条序列相似性得分矩阵，回溯找出最长匹配驾驶节奏序列片段，计算每两个序列之间的相似度，构造出序列集的相似度表，具体构建过程如下：
[0093]
对于p，q两条驾驶节奏序列，建立打分规则，表达式如下：
[0094][0095]
其中，s(pi,qj)表示驾驶节奏序列p中第i-1个符号与驾驶节奏序列q中第j-1个符号比较的得分，3是当符号pi与qj相同时的分数，此时pi与qj都不为
‘‑’
，-3是当符号pi与qj不同时或pi与qj至少有一个为
‘‑’
时的分；
[0096]
s43：|p|和|q|分别为两条驾驶节奏序列的长度，通过打分规则构建一个大小为(|p| 1)*(|q| 1)的得分矩阵，得分矩阵其中的元素m
i，j
表达式为：
[0097][0098]
其中，i表示得分矩阵的行编号，j表示得分矩阵的列编号，m
i-1，j-w表示在驾驶节奏序列pi处添加一个移位符，m
i，j-1-w表示在驾驶节奏序列qj处添加一个移位符，记空位处罚分w＝2；
[0099]
s44：遍历得分矩阵，找到得分最高点，从得分矩阵得分最高点开始向左上角回溯；若回溯方向是对角线方向，说明此时两符号匹配；若回溯方向是向右，说明此时给驾驶节奏序列q在该位置添加一个移位符；若回溯方向是向上，说明此时给驾驶节奏序列p在该位置添加一个移位符；直到得分矩阵元素为0，回溯路径为两条驾驶节奏序列的最长相似子序列；最终得到得分矩阵与回溯路径如图3所示；
[0100]
s45：将最长相似子序列定义为v，构建最长相似子序列的打分方式score(vu)，表达式为：
[0101][0102]
其中，u为最长相似性序列中的元素编号，vu为最长相似性序列中u处元素；
[0103]
各场景下的驾驶节奏序列之间的相似程度的计算公式为：
[0104][0105]
其中，|v|为最长相似子序列的长度，maxlen为p和q两条驾驶节奏序列中最长序列的长度。
[0106]
本实施例中，以驾驶节奏序列之间的相似性为距离，采用k-中心点聚类思想来对驾驶节奏序列进行序列聚类分析；
[0107]
步骤s5具体为：
[0108]
s51：对于具有n条驾驶节奏序列的驾驶节奏序列集，从中选取k条驾驶节奏序列作为中心驾驶节奏序列，其中k《n；
[0109]
s52：依次计算每个非中心驾驶节奏序列与各个中心驾驶节奏序列的相似程度，将非中心驾驶节奏序列加入相似程度最高的中心驾驶节奏序列所在的驾驶节奏序列子集中；
[0110]
s53：在每一个驾驶节奏序列子集中，求解每一条驾驶节奏序列的相似程度得分f，
计算公式为：
[0111][0112]
其中，a和b均为当前驾驶节奏序列子集中驾驶节奏序列的编号，m为当前驾驶节奏序列子集中驾驶节奏序列的总数；
[0113]
将相似程度得分最高的驾驶节奏序列设置为新的中心驾驶节奏序列；
[0114]
s54：重复步骤s52至s53，直至中心驾驶节奏序列不再发生变化，获得聚类后的驾驶节奏序列集；
[0115]
s55：由聚簇的误差平方和确定驾驶节奏序列集的聚类簇数，计算公式为：
[0116][0117]
其中，e为聚簇中心驾驶节奏序列的编号，r为聚簇非中心驾驶节奏序列的编号，ce为聚簇中心驾驶节奏序列，cr为聚簇非中心驾驶节奏序列；
[0118]
s56：以每个聚簇的中心序列作为特征序列，分析该特征序列的路径选择的模式和情感趋向。
[0119]
本发明提供一种基于dna序列表征的路径驾驶节奏模式分析系统，包括：
[0120]
预处理模块，用于获取原始出租车轨迹数据集，对原始出租车轨迹数据集进行预处理，获得预处理后的出租车行程轨迹流数据集；
[0121]
距离成本获取模块，用于构建od成本矩阵，将预处理后的出租车行程轨迹流数据集输入od成本矩阵，获得每条轨迹流中各个轨迹点间在路网中的距离成本；
[0122]
驾驶节奏序列构造模块，用于根据轨迹在路网中的距离成本结合轨迹点间的通过时间和平均速度，构造出轨迹的驾驶节奏序列；
[0123]
相似程度计算模块，用于通过smith-waterman算法对各场景下的驾驶节奏序列进行相似性比对，计算获得各场景下的驾驶节奏序列之间的相似程度；
[0124]
聚类分析模块，用于将相似程度作为得分，对各场景下的驾驶节奏序列进行聚类分析，获得各场景下出租车司机对于路径选择的模式和情感趋向。
[0125]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0126]
上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。
[0127]
以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于图神经网络的视频语义生成方法

基于DNA序列表征的路径驾驶节奏模式分析方法及系统

相关文献

最热文献