物流时空数据模式挖掘与可视化毕业论文
2020-02-15 23:33:43
摘 要
在物流的分拣、配送、收货以及货运管理等环节中,会产生大量时空数据,研究时空数据有助于了解并提高物流基础设施能力、提升公司的业务水平以及发现其他方面有价值意义的知识。其中,配送车辆轨迹数据里包含了车辆的经纬度、速度等定位信息,它同时具备时间和空间两种属性特点,针对轨迹数据的挖掘与可视化对研究物流、交通规划乃至车辆监控等方面都具有很大的意义。
本文借助某公司的部分货车GPS数据,对轨迹数据挖掘与轨迹数据的可视化分析的方法进行探讨,对实际物流中货车GPS数据进行研究与分析,发掘出有效的信息,并利用可视化软件来直观地呈现出数据。论文主要研究概括如下:
首先,对Excel中的轨迹数据进行预处理与提取,利用百度地图API进行坐标转化,以到达更好的地图匹配效果,并呈现出部分匹配后的轨迹。
其次,采用基于欧氏距离与DTW距离度量方式的两种DBSCAN聚类方法,分别对GPS轨迹数据进行聚类,利用图表方式呈现聚类结果,并对两者结果进行对比分析。
最后,利用Tableau可视化软件进行GPS数据的有关可视化分析,主要是行驶轨迹可视化与车辆行驶时间与速度等。
关键词:GPS轨迹数据;相似性度量;聚类;可视化
Abstract
A large amount of spatio-temporal data would be generated in the service links of logistics, such as sorting, freight management, distribution and collection. Studying the spatio-temporal data is helpful to understand and improve the logistics infrastructure capacity, enhance the business level of the company and discover valuable and meaningful knowledge in other aspects. The vehicle trajectory data in logistics contains lots of location information such as longitude and latitude, speed of the vehicle, location time, etc. It has both spatial and temporal attributes. Track data is of great significance for the study of logistics, traffic planning and even vehicle monitoring.
In this paper, with the help of some truck GPS data of a company, the data mining and visualization analysis of track data were carried out. Effective information was extracted from the research and analysis of truck GPS data in logistics, and visualization software was used to visually present the data.The main research contents of this paper are summarized as follows:
First, the track data in Excel was preprocessed and the coordinates were transformed using the Baidu Map API to achieve the map matching, and the partially matched track was presented.
Secondly, two DBSCAN clustering methods based on Euclidean distance and DTW distance were adopted to cluster the trajectory data, and the results of the two methods were compared and analyzed in this paper.
Finally, Tableau visualization software was used to analyze GPS data visualization. It is mainly the visualization of the running track, the running time and speed of the vehicle,etc.
Key Words:GPS Trajectory Data; Similarity Measure; Clustering; Visualization
目 录
第1章 绪论 1
1.1 研究背景与意义 1
1.2 国内外研究现状 1
1.2.1 国内研究现状 2
1.2.2 国外研究现状 2
1.3 研究目的及主要内容 3
1.4 论文组织结构 4
第2章 相关理论基础和技术 5
2.1 时空数据与GPS轨迹数据 5
2.2 时空数据挖掘概述 5
2.3 聚类分析概述 6
2.3.1 轨迹相似性度量 6
2.3.2 轨迹数据聚类方法介绍 9
2.4 数据可视化介绍 10
2.5 本章小结 10
第3章 轨迹数据挖掘与可视化 12
3.1 轨迹数据预处理与地图匹配 12
3.1.1轨迹数据预处理 12
3.1.2 地图匹配 12
3.2 轨迹数据的聚类分析 13
3.2.1 距离度量 13
3.2.2 DBSCAN聚类分析 13
3.3 轨迹数据的可视化分析 14
3.3.1 可视化软件-Tableau 15
3.3.2 Tableau的操作过程 15
3.4 本章小结 17
第4章 GPS轨迹数据挖掘与可视化 19
4.1 GPS轨迹数据预处理与地图匹配 19
4.1.1 GPS数据数据说明与预处理 19
4.1.2 GPS数据的地图匹配 20
4.2 GPS轨迹数据的聚类分析实现 20
4.2.1 DBSCAN聚类实验结果 21
4.2.2 基于DTW距离的聚类实验结果 21
4.2.3 实验结果对比分析 24
4.3 GPS轨迹数据的可视化 26
4.3.1 行驶轨迹可视化 26
4.3.2 其他属性数据可视化 26
4.4 本章小结 28
第5章 总结与展望 30
5.1 总结 30
5.2 展望 30
参考文献 32
致谢 34
第1章 绪论
1.1 研究背景与意义
目前,由于定位设备、传感器技术、信息技术以及移动定位技术的广泛使用,这些技术已深入到生活中各方各面,为人们提供丰富多样却又包含个性化的功能的同时,也产生了大批时空数据。另外,信息技术的快速发展与进步、移动设备和网络的迅速普及,使得数据产生的速度、收集的频率也变得更快、更高,同时数据的密度增长明显,从而也使得大数据时代成为必然。而在大数据时代中,大量的数据里是蕴含着时间和空间信息的,如何充分地利用这些海量数据是一大难题。
时空数据挖掘是进行关于时间和空间两个方面的数据分析的一项技术。在大数据时代的背景下,鉴于当前数据收集效率变高以及时空数据挖掘的发展,怎么联合时空数据利用时间和空间两方面的属性进行研究分析,取得决定性的认知,并能够优化决策就是非常重要的任务。时空数据挖掘在交通控制、刑侦、国防、基于位置的服务等领域具有很高的价值[1]。
近年来,物流行业发展迅速,物流车辆产生的大量数据中包含了有关于交通路况、车辆运行状态等信息。其中GPS也越来越多的应用到物流运输中,为实际物流行业运转过程提供了便利,推动进步。目前来说,GPS定位系统主要应用在几个方面,主要如:货物的跟踪定位,物流公司能根据运输车辆的各项GPS数据了解车辆实时运行状态,进行车辆调度、安全监控等,从而总结出顾客需要的信息,随时调用车辆有关信息,使运输透明化;其他的还有物流的查询、总体指挥的实现、导航自动报警以及紧急求助等[2]。
GPS大约每10s-30s传送数据,产生的数据也包含多方面的信息,如时间、经度、纬度、速度以及点火熄火状态等,利用这些GPS数据,我们能够进行相关分析。特别地,可以依据货车的GPS数据研究分析得出货车的运行特征、停车行为以及行车路线等,为研究城市物流提供帮助[3]。而在这些方面,可以看到关于时空数据或者货车GPS数据的研究都还是偏少的。
而在可视化方面,数据可视化的发展弥补了现有的数据挖掘方法的不足之处,能够较之前更加清楚地反映出数据集内在的细节等各方面,从而更好地呈现出想要的分析结果。近年来,轨迹数据可视化技术研究快速开展,交通数据可视化也广泛用于智能交通领域中,主要应用在如:道路交通流预测、交通时间、服务推荐以及安全监控等方面[4]。
鉴于目前时空数据挖掘的研究趋势,对物流中时空数据的发掘以及可视化的方法展开研究显得十分必要,可以探索和处理在物流过程中产生的大量GPS数据。当前关于物流方面货车的时空数据研究是比较少的,本文借助了Matlab与Tableau平台,通过借鉴前人在各方面的研究成果并在此基础上,进行关于货车GPS时空数据分析,探索可视化的初步方法,提供一个研究物流GPS时空数据分析的过程,并更加深入地从宏观到微观不同角度了解物流运输中部分过程,对有关业务进行全面的掌控,以实现降低成本、路径优化、路线推荐以及辅助决策等现实功能。
1.2 国内外研究现状
在目前GIS、数据挖掘和机器学习等领域里,许多学者进行了关于时空数据挖掘研讨,其中都取得了很大成绩与效果。时空数据挖掘也在实际中被广泛运用,比如移动电子商务、全球气候变化监控、交通协调与管理、犯罪易发地点发现以及自然灾害预测等。轨迹数据挖掘基于时空数据挖掘的基础,将移动对象的时空特征作为研究对象,从中得到新颖的、有价值的信息的过程。
时空轨迹数据是大数据背景下的一种典型的数据,针对时空轨迹数据的可视化研究也日益增加,然而由于数据的冗长复杂,难以利用简单的可视化来清晰展示。国内外的众多学者对此方面进行了大量的研究,多视图可视化方法就是广泛用于分析时空数据的一种方法。
1.2.1 国内研究现状
在目前的研究中,我国轨迹数据聚类技术应用主要是在交通流预测、挖掘城市热点区域、出租车出行规律以及行为分析等方面,以及基于位置的服务(LBS)、气候/天气监测、智能交通系统、基于位置的社交网络(LBSN)和空气质量监测等领域。如:刘盼盼针对出租车GPS数据与居民行为提出了一个改进的空间聚类算法,即R-FDBSCAN算法,并利用Weka平台进行二次开发,得出出行热点区域并针对热点区域提出调度方案[5];张健钦等人利用北京市出租车的时空轨迹数据,提出关于驾驶员居住地的挖掘算法,并分析其中司机驾驶的规律性方法[6];肖作鹏等基于深圳市货车GPS轨迹数据数据,针对货车的行驶与停留行为,对深圳市的主要物流货运节点区域进行区分识别,并探讨各区域间的联系等[7];陈玲燕针对车辆GPS数据在Spark平台下构建基于K-means聚类算法研究热点区域,并利用二次排序研究出租车司机行为等[8]。
国内可视化技术的研究较国外来说起步较晚,主要表现在可视化理论和系统架构以及可视化应用等方面。如:袁晓如等实现了基于GPS轨迹数据的城市交通拥堵的交互式可视化系统,用来清洗数据并进行地图匹配,提供多种视图,能直观观测城市的交通情况[9];张慧杰等人提出基于轨迹数据和兴趣点数据(POI)语义分析构建交互式分析系统-UFAVIS系统,对城市区域功能进行识别,并发现其动态变化规律等[10];牛丹丹在可视化的基础上提出并设计了一种针对出租车GPS轨迹数据的基于D3.js的的可视化分析系统,分析乘客的出行特征时空变化,并采取交互式操作分析每个特征的时空变化规律等[11]。
1.2.2 国外研究现状
时空数据挖掘在国外同样是热点话题,受到广泛的关注,且成果显著,主要如:Karii等人利用基于密度的DBSCAN算法,首先将速度过快的轨迹过滤掉,在速度较慢的区域中,通过对区域内的轨迹聚类区分热点区域[12];Dorota等人利用车辆的轨迹数据,提出了物流网络中车辆的路径问题模型,以同步车辆路线上的货物交换[13];Song等人提出了关于移动对象的轨迹聚类框架,对轨迹数据的子轨迹进行聚类操作,以寻找轨迹间的相似性[14]等。
国外的可视化研究涉及到很多领域,取得了很多的成果,主要是从传统的可视化架构到交互式的设计,可视化架构也日益完善。国外的可视化技术主要是进行关于系统构架及可视化工具的研究和系统应用的研究。如:Keim等人设计并开发了一个名为TripVista可视化系统,对车辆轨迹数据进行可视化分析,以发现十字路口的交通规律[15];Ferreira等提出了一个基于出租车OD(Origin-Destination)数据的可视化分析系统TaxiVis,通过探索查询对纽约的出租车轨迹数据进行分析,实现组合查询、聚集和可视化表达[16]等。
1.3 研究目的及主要内容
基于上述的研究意义、背景和现状,本文主要实现下面的几个目标:
(1)从理论上构建物流中货车GPS时空数据挖掘与可视化研究的框架;
(2)从方法上实现货车GPS时空数据挖掘和可视化分析的设计与实现方案;
(3)从实践上为物流中的货车GPS时空数据挖掘分析和可视化分析提供借鉴和参考。
通过研究物流时空数据挖掘和可视化,用多维数据去映射真实的物流世界,帮助了解物流中产生的大量GPS数据,实现出行效率的提高以及运营成本的降低,对运输安全问题进行监控,旨在让物流更为智能地运行等。
本文中车辆GPS数据的研究内容主要可以分为以下四个方面:对收集的数据进行预处理,主要是剔除重复数据和异常数据等;然后是利用百度地图API进行地图匹配(Map-Matching),以便为后面的分析做好基础;接着本文使用DBSCAN聚类算法对货车GPS数据进行聚类分析,再利用基于DTW算法的聚类算法进行聚类,针对结果实现两种方法的对比;最后,借助Tableau可视化软件对货车轨迹进行可视化,以及货车的运输时间段或速度为零的时间段等进行统计分析并进行条形图/折线图可视化等。本文的研究基本流程如图1.1所示:
图1.1 货车GPS数据挖掘与可视化流程
1.4 论文组织结构
本文的工作主要分成了五个章节,主要内容如下:
第一章是论文绪论部分。主要介绍选题的研究背景及意义,综述国内外对物流时空数据研究与可视化研究的现状,以及对论文的研究内容、思路和方法等的阐述。
第二章是相关理论基础和技术。首先介绍时空数据与GPS轨迹数据的定义;其次是对时空数据挖掘概念、轨迹相似性度量方法以及聚类分析方法的介绍等;最后是关于GPS数据可视化的基础理论和技术。
第三章是介绍轨迹数据挖掘与可视化方法流程。这一部分是关于数据预处理方式、地图匹配方法、轨迹数据中的相似性度量与DBSCAN聚类方法以及轨迹数据的可视化软件运用等方面的介绍。
第四章是具体的数据挖掘与可视化实现。针对GPS数据中有关的特征和上述得到的进行有关的统计分析,进行相应的处理操作,最终实现DBSCAN聚类方法,并利用Tableau软件强大的可视化功能实现对GPS数据的交互式可视化分析。
第五章是总结与展望。对本文的主要研究内容做出回顾与简单总结,并指出研究中的不足之处。
第2章 相关理论基础和技术
2.1 时空数据与GPS轨迹数据
时空数据是指包含与时间序列相关属性数据以及空间地理位置的具备时间和空间属性两个维度的数据,如GPS数据,具有分别代表着空间和时间属性的定位点与定位时间信息。
轨迹数据是由一个或多个移动对象在一段时间内所采集产生的数据,一般包括时间、速度以及位置等属性构成的。它是一种典型的时空数据,主要产生于如:全球定位系统(GPS)、移动电子设备、实时监控系统、基于位置的服务(LBS)等。这些数据往往是具于时间和空间两种特性,并且按照时间顺序被记录的。
GPS数据可由货车的车载GPS产生,它采用世界大地坐标系(World Geodical System-84,WGS-84)。利用GPS设备,能自动对定位体的位置、时间等数据进行记录,可以实现产生、存储和转发这些轨迹数据的功能[17]。GPS设备提供的数据一般包括:经纬度、定位时间、速度、方向角等,也会包含一些附加信息如ACC状态等。
通过研究时空数据,可以更加深入地了解到各个时刻对象的属性、空间信息以及对其演变过程的解释,并对将来的情况进行预测。时空数据可以很好表达出时空对象的特征,通过挖掘分析与可视化时空数据,对研究分析人类出行行为和交通物流等层面都有一定的帮助。
2.2 时空数据挖掘概述