使用大数据探讨宏观危险区域识别和变量的重要性: 随机森林模型法外文翻译资料
2022-10-08 11:39:17
英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
使用大数据探讨宏观危险区域识别和变量的重要性:
随机森林模型法
Ximiao Jiang, Mohamed Abdel-Aty, Jia Hu, Jaeyoung Lee
摘要
作为开始沿着道路网络被部署的车联网技术,他们将提供海量的数据。这个数据在复杂和不确定的区域可以被用来识别安全和危险。如果没有足够的数据,过去的研究只能主要集中在微观网络层面,而且直到现在,在宏观层面上热区的识别研究是有限的,各种宏观特征在宏观事故风险上的贡献仍有争议。本文借助大量的数据,探讨使用随机森林热区在宏观层面-交通分析区(TAZ)水平鉴定的可行性。同时,最有影响力的宏观交通事故风险决定因素,通过应用一系列的随机森林模型结合交叉验证方法来确定。通过Wilcoxon检验,危险和安全的交通分析区域的不同特征也能被辨别出。研究采用佛罗里达州三县2008年和2009年的事故数据。事故风险由不同的损伤水平和碰撞类型分别进行调查。最后,不同类型的事故风险通过运用变量重要性分析法来确定各种宏观变量的意义。
研究结果表明, 道路网络和社会经济的分布是主动缓解交通安全问题的两个最重要的因素。对于发达的城市地区,应对地区社会经济因素和道路基础设施的发展最好是制定具体的交通安全管理策略。对于入学率比例较高的地区,行人和自行车相结合的道路系统设计是最有利的。还需要采取有效的应对措施规范年轻车手在学校区的行为,如执法部门和驾校培训。对于少数民族居住的地区,有可能需要使用多种语言的宣传活动来缓解行人安全问题。最后,在规划和运行过程中,应注意改善交叉口的设计和管理。
关键词:热区识别大数据 联网车辆变量重要性 随机森林Wilcoxon检验
- 引言
随着车联网技术的推出,车辆成为道路网络监控系统的一部分。车辆安装诊断传感器将比传统的数据采集设备收取更多的信息。许多以前不可获得的测量数据将成为已知的,其中包括但不限于:车辆的速度,位置,到达率,加速和减速率,队列长度,停止时间等。这些信息如果开采得当,可以显着地帮助我们了解交通。在过去,许多研究都从交通运行的角度对这一领域进行研究,例如,实时交通状态估计,但很少有人从安全的角度看它。使用大数据保证安全的一个潜在方法是安全危险区域识别。这样一来,在车联网上安装GPS系统能使车辆警告可以通过专用短程通信(DSRC)系统发送给司机来让司机警觉,为了减少碰撞。虽然许多研究都有助于个别交通站点交通安全问题的识别和改善,如道路段和交叉口,但是越来越多的文献表明宏观特征在事故发生上的重大影响。由于交通事故持续大量发生,美国迫切需要从交通安全的角度进行有效的交通规划。因此,二十一世纪运输权益法案(TEA-21)和安全,负责,灵活,高效,运输权益法案:为用户遗产(SAFETEA-LU)提出了将安全纳入交通规划过程中的要求。
近几十年来,不少学者已经研究了各种宏观层面上的交通安全倾向,如交通堵塞区,流量分析区或交通分析区,普查区、县和其他各方面。这些空间单元之间,交通分析区已广泛应用于交通安全分析。交通分析区是一个统计实体,它是绘制与交通有关如上班旅程和工作地点统计的人口普查数据表的州交通部或者当地都市规划组织的官员描绘的。因此,从交通规划的角度看,与其他空间单元相比,交通分析区似乎是首选的空间实体。越来越多的研究人员已经尝试估计各种宏观因素对事故发生的影响,他们对受伤严重程度,碰撞类型,非机动车事故和其他许多方面的不同类型的事故进行了调查。在以往的研究中被考虑的变量可以分为很多类别。在这些类中的主要预测因素包括:
- 路网特点:功能类别的道路百分比,速度的限制的道路百分比,路网结构。
- 人口特征:人口密度,地区年龄和性别的比例,少数民族比例。
- 土地使用属性:每单位面积的家庭单位,总购物/商业,教育,娱乐和其他土地使用。
- 社会经济因素:每户车辆,收入水平,就业率。
从方法论的角度来看,建模方法已被广泛采用来估计宏观特征对事故发生的影响。主要的模型包括负二项式(NB)模型,普通最小二乘回归模型,对数线性模型,地理加权回归(GWR)模型,空间滞后模型,贝叶斯层次模型和空间自相关的贝叶斯模型。
上述研究对宏观层面的事故风险研究作出了重大贡献。然而,各种因素的意义仍存在争议,而这些因素在促进宏观交通安全的排名仍是未知的。此外,回归模型能够估计独立变量对碰撞频率的影响,但是它们在检测和解释独立变量之间的矢量高阶交互作用有困难。
此外,在变量和自变量之间,大部分的回归模型具有特定的假设和预先定义的潜在关系。如果这些假设被违反,这可能导致偏参数估计。与此相反,机器学习技法无需假设就可以识别变量和自变量之间的关联。特别是,这些技术均优于传统的回归过程,它们在研究异常值上是健全的,而且能够检测复杂的相互作用。
应用于交通安全研究的主要机器学习技法,包括但不限于决策树模型,神经网络模型,人工神经网络模型。在这些模型中,分类和回归树模型是以它们的透明度而被众所周知。然而,决策树模型在学习集中容易受到小干扰。由于这个限制,随机森林(RF)技术被Breiman博士引入,它把Breiman博士的装袋理念并入Ho的“随机子空间方法”。随机子空间方法被用来建造一个可控变化的决策树数据采集。近年来,在各种应用中,随机森林模型由于其优越的性能和相对简单的设计已被广泛地用于分类和预测用途。例如,Abdel-Aty等采用随机森林模型来评估荷兰高速公路的交通安全。这里,作者认为随机森林模型是一个更有效的变量选择工具,正如与一个单一的决策树相比,它彻底探讨多树分类器的收集。哈布等人使用随机森林模型识别与交通事故避免策略相关的重要因素。结果表明,随机森林模型能够识别事故避免策略的重要决定因素。特别是,Siddiqui等采用决策树和随机森林模型来识别和检测与佛罗里达州四县每个交通分析区整体事故和严重事故有关联的重要变量。这项研究提供了一个变量重要性等级。然而,他们的研究仅仅集中于次生产和留心相关的变量,没有调查使用随机森林模型对宏观热区的识别效率。
目前的研究定义交通分析区最严重的25%的事故风险区域为危险区,剩余的为安全区。本文的目的是探讨使用随机森林模型对大数据进行交通分析区的危险区鉴定的可行性,并找到能够主要决定交通分析区事故风险的最重要的变量。这些因素将帮助运输规划人员将安全纳入到交通规划过程中。事故由损伤程度(总伤亡(FI)),非机动车事故(步行和自行车)和碰撞类型(追尾,侧撞和横击)分别进行了研究。同时,替代事故的风险措施(每平方英里事故,每英里事故和每百万行车里程的事故)是否适当进行了检查,而且选择了目前的研究中达到最佳性能的措施。为了定量了解所有的变量的影响,Wilcoxon检验比较了热区和安全区各变量之间的差异。图1概述了本文的完整结构。
、
- 研究方法
2.1 数据准备
佛罗里达州中部的三个县被选择进行这项研究,分别是橘郡,塞米诺尔县和奥西奥拉县。这些县分为1116个交通分析区。这些交通分析区范围从0.02平方英里到170.66平方英里不等,平均2.54平方英里。2008和2009的事故数据被用来分析。在佛罗里达州,短格式和长格式2种形式的事故报告被使用。当满足下列条件时使用长格式:(1)死亡或个人伤害;(2)涉及损坏参加车辆或财产后逃逸,(3)酒后驾驶。同时对于只有财产损失的事故,警察可以酌情完成一个长格式。而短格式用于报告其他类型财产损失的交通事故。长格式和短格式事故数据都是从佛罗里达州交通部(FDOT)和大都会奥兰多(奥兰多地铁规划组织-MPO)分别收集。其结果是,共86828项事故被收集。22575项事故涉及损伤或死亡,其中2878项事故是造成受伤或死亡的严重车祸。
人口普查局2010的人口统计数据是由美国人口普查局收集的。虽然这些统计数据是基于人口普查块提供,但是可以把它们汇集到交通分析区 ,因为交通分析区是由一个或多个普查小区组合成的。为本研究收集的人口统计数据包括总人口、人口的种族,性别和年龄。与此同时,社会经济和土地使用信息都是从奥兰多地铁规划组织获得的。从奥兰多地铁规划组织获得的数据是交通分析区建立的基础而且它们包括家庭、酒店客房、汽车旅馆、分时享用度假别墅、上班和上学的汽车用度。
除了从奥兰多地铁规划组织获得的限速道路长度和道路总长度,交通数据和大部分的道路网络信息都是从佛罗里达州交通部道路特征库(RCI)收集的。佛罗里达州交通部管理州际公路和佛罗里达州的国道。因此,佛罗里达州交通部负责把部分国道的道路数据完全存档。然而,大多数采集装置和地方道路不被佛罗里达州交通部道路特征库存档。相反,从奥兰多地铁规划组织得到的道路数据包括橘郡、塞米诺尔县和奥西奥拉县其管辖的整个道路网络。不像佛罗里达州交通部道路特征库只有道路总长度和限速信息。因此,大量由功能分类的十字路口和道路长度是从佛罗里达州交通部的道路特征库获得的,而且道路总长度和限速道路长度是从奥兰多地铁规划组织收集的。本研究的交通数据收集包括车辆行驶里程(VMT)和国道上的货车比例。更多的交通测量可能在未来被加入,例如,在该地区的速度变化和最大速度。此外,利用GIS计算每个交通分析区的面积。
具有零记录百万车行车里程(MVMT),或在独立特征点有异常的交通分析区将从本项研究中移除。例如,某个特定道路的长度等级比总道路长度更大或者某个特定区域人口数量比总人口数更多的数据,被认为是错误的。因此,在本项研究中1047个交通分析区和17个解释变量被选出进行分析。在上一个变量选择阶段,审查了变量的相关性。如果两变量的相关性大于0.5,即达到更好的危险区识别。例如,初步分析表明,学校招生比重与就业比重是高度相关的(0.92)。每个变量被分别包含在随机森林模型。具有学校招生比重的随机森林模型提供更好的分类精度。因此,学校的招生比重被包括在最终的随机森林模型。基于交通分析区收集的分类数据统计列于表1。
2.2 Wilcoxon检验
根据表1中的统计,独立变量不遵循正态分布。为了比较交通分析区危险区和安全区之间的变量差异,采用Wilcoxon秩和检验。Wilcoxon秩和检验是完全基于两个样品的观察顺序的非参检验。
给定两个独立随机样本。为从两个群体获得的,Wilcoxon测试执行以下步骤:
(1)两个样本数据从最小到最大排列。
(2)把数字从1到N按照升序分配给数据值。在重复的情况下,按照它们的平均排名位置把数字分配给它们。
(3)设R1为第一样本的观测秩和。
在相同人口分布的零假设下,R1抽样分布的均值和方差给定为
(1)
直观地说,如果明显小于或大于则拒绝零假设,而且我们可以得出这两个群体是不相同的。当样本量大,具有近似正态分布。假设, 当 时则拒绝零假设,其中 是正态分布置信区间的临界值。
在本文中,零假设是危险和安全的交通分析区来自相同人群在每个特定的解释变量的分布,而备择假设是来自不同的人群,只是关于每个特定变量的分布。
2.3 随机森林
一般来说,随机森林模型是一系列未修剪的决策树的集合,即CART(分类和回归树)。分类树通过递归分割预测空间分类观测数据。每一个分类和回归树程序包括三个步骤:
(1)扩展一个大型树结构;(2)修剪它来获取一个嵌套子树序列; (3)通过正确的方法从子树序列选择最佳的树模型。对更深入理解分类回归树程序感兴趣的读者可以参考 Chang 和 Wang 和 Harb等,因为它们提供了一个广泛的树算法描述。在进行分类分析时,随机森林预测是未加权的多数类投票决定个别类的树。图2提供了一个随机森林模型的体系结构来预测事故风险。在这项研究中,响应变量有两类:危险区和安全区。给定一个有具体宏观特征的交通分析区,在随机森林模型中的每一个树反馈一个决议(危险区或安全区)和相应的误判率。随机森林用一个适当的方式使来自这些树的决议和误判率整合。随着在随机森林中的树的数量增加,误判率收敛于一个极限。因此,有许多树的随机森林模型免于过拟合问题。
随机森林有一个内部机制,并随着森林建设的进展做泛化误差的无偏估计。在森林建设的过程中,完整的数据集被分成两个数据集:训练样本集和测试样本集。平均而言,大约有三分之一的观测是在测试数据样本集,它被Breiman博士命名为袋外(OOB)样本。每个树都是基于训练集的自助法样本,这些袋外样本可用于估计随机森林分类器的泛化误差。通过最大限度地减少每个树的偏差和树之间的相关性,随机森林的性能可以被提供。为了最大限度地减少偏差,每棵树应该被种植到最大深度。为了减少树木之间的相关性,两个随机化来源被应用到每个单独的树上:
- 每个树被种在训练样本集(随机抽取,可替换)的一个自助法样本上。
- 在树的每个节点,一定数量的变量(树节点预选的变量个数)是从完整的解释变量随机选择的争夺最好的分裂。树节点预选的变量个数可以通过增加或减少初始值进行调整,直到获得最小错误率。
随机森林已被广泛用于识别分裂响应变量中的重要变量。在随机森林中最受欢迎的变量重要性程度是基于袋外数据的分类精度。基于变量重要性测度的分类精度的计算袋外数据分类精度的平均减少量。设为树的自助法样本,为相应的袋外样本集,其中,变量的变量重要性程度可以通过下面的步骤计算出:
- 设,用自助法样本扩展树。
- 找到相应的袋外样本集。
- 用袋外样本集测试树,并记录正确的分类数。
- 执行:
- 置换在中的值,并保存置换结果到;
- 用树分类而且记录正确的分类数。
- 重复步骤,令。 <l
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151851],资料为PDF文档或Word文档,PDF文档可免费转换为Word
</l