基于AIS数据的船舶轨迹离群点分析文献综述
2020-04-14 20:09:11
1.1 研究背景
近年来,船舶货物运输占国际全部货运的90%以上,船舶运输已经成为了不可代替的货物运输方式,但是船舶数量的增加也使得船舶事故数量不断上升,给航行安全和海洋环境带来了巨大的威胁,为了保障海上交通安全,船舶识别与信息交换受到世界各国重视。
船舶自动识别系统(Automatic Identification System,AIS)数据中蕴含着大量船舶信息,可通过提取这些信息了解船舶的航行状态,将其应用到船舶避碰、海事监控、轨迹聚类、船舶交通流预测和海事事故调查等诸多航海领域中。AIS的主要功能是将船舶的标识信息、位置信息、运动参数和航行状态等与船舶航行安全有关的重要数据,通过VHF数据链路,广播给周围的船舶和岸台,以实现对本区域船舶的识别和监视。
AIS数据中包括时间和位置信息构成的船舶时空位置点,其连续的时空位置点构成了船舶的轨迹数据,船舶轨迹数据是船舶行为规律挖掘、海事监管和船舶交通流预测等的重要数据源。在复杂电子环境、复杂山区地形的情况下,或在AIS数据量巨大的通航密集水域,受AIS信号传输或AIS设备问题的影响,基于AIS数据得到的船舶轨迹可能会出现一些离群点,导致船舶的轨迹数据有较大误差。
1.2 研究目的与意义
AIS轨迹数据中的离群点会严重降低轨迹数据质量,同时引起后续基于轨迹开展的研究及应用结果不准确,例如轨迹压缩、轨迹聚类、路径规划、异常模式检测和航迹关联分析等。对船舶轨迹数据离群点的分析及识别,将提高船舶轨迹数据的可靠性和可读性,为今后利用船舶AIS大数据进行各项研究奠定良好的基础。
1.3 国内外研究现状
目前国内外对轨迹数据的离群点都有比较广泛的研究,且针对异常点检测的研究较多,具体如下:
最早由Hawkins从统计学的角度将离群点描述为客观存在的、不服从正常数据模式、明显偏离整体的数据点;后来Knorr等提出了经典的DB(p, D)算法,该方法需要恰当的距离度量,将离群点描述为与一定比例其余数据点之间的距离超过阈值的点;Breunig等提出了LOF算法,根据领域中全部点的局部可达密度计算出每一个点的离群程度,从而得出正确的判断;尹新亮等从偏离特征的角度,提出了一种快速LOF算法,将数据空间划分为网格,基于网格的质心来计算数据点的局部离群因子。
周彩等利用改进的三次样条插值法对AIS数据进行修复,且修复效果较好,但是仅适用于对丢失少量点的AIS数据进行修复;刘立群等基于Vondrak滤波的方法对船舶航行轨迹进行平滑的预处理,再通过三次样条插值的方法分别对船舶经度、纬度信息进行修复,最后将经纬度信息合并得到修复后的船舶轨迹;张冠宇等利用P-集合与双P-数据概念对异常数据进行辨识与分析;Brian Demsky等通过研究对异常数据检测的系统实现原始数据的修复;Mohamed Yakout等引入Guided Data Repair(GDR)概念对存在异常的数据进行修复;韩昭蓉等提出一种基于自适应阈值的轨迹异常点检测算法(TODAT),充分考虑了目标在一段时间内的运动信息和观测噪声的影响,采用局部阈值窗和均值滤波窗来计算阈值和速度,同时又引入了经济航速阈值和连续异常点放回机制。这些基于统计学、聚类、分类、神经网络、可视化方法的船舶轨迹离群点和异常点检测均存在一定的问题与优势。